155 1658 0690
首页 > 新闻动态 >正文

大数据技术如何赋能出版业知识服务转型?

大数据是指非常庞大、复杂的数据集,传统数据处理软件的能力已无法满足巨大规模的数据处理需求,需要新处理模式才能发挥出更强的决策力、洞察发现力和流程优化能力。业内常用5V来定义大数据的特性:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据技术是指通过架构新的处理模型,从各种类型的海量数据中快速获取有价值的信息的技术,涉及到分布式数据库技术、分布式存储技术、流计算技术、图数据库技术等关键技术。


虽然大数据的概念在近些年被大众熟知,但大型数据中心和关系型数据库的起源可追溯到上世纪六七十年代。数据库(database)一词最早流行于1962年加利福尼亚州的系统研发公司的技术备忘录中。1968年,伴随着阿波罗登月计划,商业数据库雏形诞生。1988年,IBM研究院率先提出并解释了数据仓库一词的行业标准,之后,IT厂商开始构建实验性的数据仓库。大约在20世纪90年代中期,互联网的出现允许远程访问存有数据的计算机系统,数据库连接器的需求增加,数据量快速增长。数据挖掘是数据量快速增长的直接产物,它曾一度被专业人士称之为“基于数据库的知识发现”(Knowledge Discovery in Database,KDD)。数据挖掘在实业界应用最为脍炙人口的就是沃尔玛啤酒和尿布的例子。


如今,数据已经无处不在,并被用来改善人们的日常生活。大数据已经成为企业的一种无形资产,企业通过对海量数据资源的存储、计算、分析、挖掘处理和利用,开发新产品,提高运营效率。大数据技术蕴含无穷潜力,研究机构Gartner预测,到2025年,情境(场景)驱动的数据分析和人工智能模型将取代60%的建立在传统数据上的现有模型。


文化数据是我国重要的文化资源,是建设国家文化大数据的重要来源。在2020年5月,中央文化体制改革和发展工作领导小组办公室下发的《关于做好国家文化大数据体系建设工作的通知》中指出:建设国家文化大数据体系是新时代文化建设的重大基础性工程。


2022年5月22日,中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》,提出到“十四五”时期末,基本建成文化数字化基础设施和服务平台,形成线上线下融合互动、立体覆盖的文化服务供给体系。到2035年,建成物理分布、逻辑关联、快速链接、高效搜索、全面共享、重点集成的国家文化大数据体系,中华文化全景呈现,中华文化数字化成果全民共享。


出版业权威、专业、准确的知识资源作为文化大数据的重要组成部分,是关联形成中华文化数据库的重要成果。出版业利用大数据技术开发知识产品、改进知识服务、推进出版融合,有助于提升知识资源的供给能力和知识服务的数字化水平,从而提升社会效益;另一方面,加快出版业产业数字化布局,完善出版大数据采集、加工、分发、服务等产业链环节,有助于创新企业经营模式,从而实现经济效益的提升。当前,大数据技术已广泛应用于出版业知识服务业务流程中,在知识资源获取、知识资源组织、尤其是知识服务运营阶段呈现出融合发展的重要特征。


中国生物志库


中国生物志库是中国科技出版传媒股份有限公司推出的中国首个权威发布且具有完整知识产权的中国生物物种全信息数据库。该库收录了中国10万余种现生生物物种,类群涉及植物、动物、菌物、藻类及海洋生物,提供科学权威的生物学信息,包括物种名称、分类地位、形态特征、地理分布、功用价值、理论知识及鉴定准确的图片,可提供一站式检索、鉴别、核对等服务。


中国生物志库针对入库之后的海量物种数据,基于不同类群分别提取物种信息不同段落数据,通过自建已有的词库、训练集,挖掘物种的分布地区、生活型、茎、叶、花、果等不同性状特征。依托于结构化加工、知识化标引、大数据挖掘等多种技术手段,中国生物志库将所需的数据进行规范化、标准化深度加工,使其发布之后,物种数据的特征可通过前台可视化组件地图一一呈现。用户可通过性状分类、地区、根茎叶的特征等多种分类筛选查询,满足前台用户精准检索、特征检索等不同场景搜索查询服务,极大方便用户使用。



医信—医学知识服务
及自主学习平台


医信是由北京合纵医信网络科技有限公司推出的,为促进国际与国内医学专业知识的传播交流,利用新型互联网技术,为卫生专业技术人员搭建的国际化、专业化、互动型线上知识服务及自主学习的实名制专业交流平台。医信目前已整合了10万余条专业词条,结构化加工文献报道20余万篇。


医信平台对手机移动端用户行为数据、交互数据及PC端各类结构化、半结构化及非结构化海量数据,采用MySQL等数据软件进行数据采集、数据清洗、数据分析、数据挖掘等工作,为实现全平台检索、智能化推荐等功能提供支持。 


医信平台通过对用户画像和用户行为大数据进行精细化分析,总结用户兴趣和使用习惯,从而为用户准确推荐感兴趣的内容,满足个性化知识服务需求。同时,基于用户大数据分析结果,构建分层次、分级别的知识内容架构,使所有学习者都能够获得适合自身需求的个性化内容,将“人找知识”转变为“知识找人”,为用户节省了大量检索新知识内容的时间和精力,激发学习者的学习兴趣和积极性,促进学习自觉性和主动性的提高。



U校园智慧教学云平台


U校园智慧教学云平台是外语教学与研究出版社数字化转型的成果之一,配备超过150门外研社系列外语教材配套数字课程和测试内容,支持院校开展SPOC课教学,进行线上线下混合式教学模式创新。


U校园智慧教学云平台通过埋点机制在App端和服务器端收集用户行为数据,结合binlog等技术,汇聚业务数据到大数据平台,建立数据仓库,自动对用户打标签,建立用户画像,为用户运营和产品改进提供决策支持。在用户评价与反馈收集上,该平台采用了智能客服和人工客服相结合的方式,帮助用户解决使用中遇到的问题,建立了产研反馈机制,帮助产品迭代改进。通过该机制,平台平均每周可采集分析几千个用户反馈的问题,总结提炼成需求进入需求池中,在后续产品迭代中解决。此外,平台采用了大数据反作弊系统,基于Flink流式计算技术,通过提取特征,识别作弊用户,已成功拦截了超过1.5亿次作弊企图,有效地维护了教学秩序。


图片


农业专业知识服务系统


农业专业知识服务系统是中国农业科学院农业信息研究所建立的面向农业战略咨询、科技创新和产业发展的公益性、开放性多场景知识服务系统。该系统形成了“1个农知搜索+N个知识专题+N个知识应用+三类情报服务+三类数据服务+品牌宣传服务+API接口开放服务”多模式泛在知识服务体系,面向全球提供公益服务,年均服务量达197万余人次,用户覆盖全球161个国家和地区。


农业专业知识服务系统通过大数据采集技术获取海量专业内容资源,基于资源建设需求与相应遴选规则,采用专业网络采集软件和自主开发网络采集工具采集政策法规、资讯、开放性学术资源、农业统计数据、农业报告、国际科学数据等信息。截至目前,资讯类采集站点超1000个,年采集量超过5万;开放论文采集服务量已达到约378万。通过自主开发的网络采集工具采集FAO、美国农业普查数据、世界银行农业统计数据等国际农业统计数据年采集量超过1444万。


农业专业知识服务系统还通过对用户大数据的挖掘、分析提升运营效率。该系统设计了涵盖用户显性与隐性意图的用户行为大数据挖掘模型,建立起包括时间、地理位置、用户基本信息、用户兴趣领域、用户终端配置、用户行为记录等用户行为大数据要素体系,研发了基于Spark、Hadoop、ETL等大数据框架的用户行为信息采集、存储与挖掘平台,实时采集本地系统、互联网和其他可信赖第三方系统的用户数据,综合应用数据统计、深度学习方法分析挖掘用户行为数据,构建高像素用户画像标签体系,解决多类型用户的身份识别及需求准确定位,支持在后续用户使用服务时的意图预判与服务内容推荐,实现知识推荐的精准化。


图片


人卫知识数字服务体系


人卫知识数字服务体系是基于人民卫生出版社知识服务体系的智能应用系统,目前已形成了由内容生产体系、数字化管理体系、对外服务体系三大模块构成的全流程数字化服务体系。人卫知识数字服务体系推出后即受到医疗信息化行业领域的高度关注,与华为、腾讯、阿里、平安科技、百度、科大讯飞等头部互联网企业及卫宁健康、北大医信、众阳健康等医院信息系统厂商达成项目合作。目前,人卫知识数字服务体系通过企业服务端——人卫inside知识库为企业、医疗机构提供服务,累计覆盖350余家单体医院和13个区域医疗。


人卫知识数字服务体系采用了用户大数据分析技术,依托inside管理后台和人卫助手运营管理平台,实现对用户的精准高效管理。inside管理后台有效的对合作客户公司和部署知识库的医院机构进行分类、汇总、筛选、统计,可针对服务期临期到期用户进行提示,达到及时维系用户的效果,同时可针对用户的授权时长进行规范化管理。人卫助手运营管理后台通过会员开通情况的统计分析,可以得出临床、用药和中医三个助手APP在每年不同月份和营销节点的销量情况,为新的活动高效开展提供了精准数据信息的支撑,帮助运营做出准确决策。


图片


(以上案例排名不分先后)


1648780557470040.jpg

相关文章 查看全部
24小时咨询热线:138-9002-3666