进入21世纪后,随着信息技术的不断发展,人类的数据化能力显著增强。2012年2月11日,美国《纽约时报》发表了一篇主题为“大数据时代”的专栏文章,最早明确地提出了大数据时代的来临,大数据也由此变成了一个火遍全球的热词。生活在社会中,就不得不与数据打交道,我们也是数据的一部分,无论我们想不想与大数据牵扯在一起,数据都会找到我们,覆盖我们。大数据时代已经来临,如何从海量的数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示社会现象与社会发展规律,以及可能的商业应用前景,都需要我们拥有更好的数据洞察力。
在科研领域,从宏观到微观,从自然到社会,越来越多的观察、计算和传播等仪器设备正在产生着源源不断的海量、复杂的数据,这使得几乎每个学科领域都在面对着空前的数据爆炸。可以说,科学研究正在进入大数据时代。2014年4月由国际科技数据委员会(简称CODATA)中国全国委员会编著的《大数据时代的科研活动》一书,就致力于对大数据时代科研活动发生的种种变化进行一个总体性的描绘。本书内容主要分为三部分。第一部分是对目前越来越多地利用数据来进行研究的科学领域的现状、特点、遇到的问题和未来发展趋势的分析,涉及研究领域包括高能物理、天文学、对地观测和生命科学等;第二部分是从数据采集、传输、存储与处理、数据整合、数据与文献互操作、数据挖掘及可视化技术等方面,探讨未来的科研活动中需要哪些技术支持以及这些技术的发展趋势;第三部分是对数据科学发展的展望。
一、什么是大数据
大数据就是这样一种数据集,它特指用现有通用软件在可容忍的时间内无法加工、处理和分析的数据就是大数据。目前并没有一个通用的定义。在一定程度上大数据概念落地就是早年的数据挖掘(data mining),是指从海量数据中发现知识的过程,也称为KDD(Knowledge Discover in Database)。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
二、大数据的基本特征
1.多带来不同。传统的思维方式更倾向于线性思维,线性的就是直线的,直线的就是简单的因果关系。我们已经进入一个复杂科学领域,随着云计算、云存储、物联网、二维码技术和LBS(基于位置的服务)的互联网技术广泛应用,人类的各种社会互动、沟通设备、社交网络和传感器正在生成海量数据。商业自动化导致海量数据存储,但用于决策的有效信息又隐藏在数据中,如何从数据中发现知识,以数据挖掘为代表的大数据分析技术应运而生。
2.社交网络成为重要数据源。大数据真正的兴奋点来自于社交网络,比如国外的Facebook和Twitter,国内近年来兴起的微博,特别是新浪微博,这种具有媒介属性的社会化媒体,每天每秒都在产生亿级的文本话语。人天生需要与他人交流和传播信息,基于信息传播的关系数据,为大数据的社会影响带来无限想象力和商业应用价值,大数据产生的背景离不开社交网络、移动互联网和物联网的兴起,大数据会越变越大,具有边收集、边应用、边生产的特点。
3.开放性、公开、易获得。大数据的产生并非是为了分析去存储,而是商业过程自动化产生并存储下来。过去的大数据往往存在于特定的政府、企业和机构。例如,移动电信公司拥有客户的电话沟通记录,电子商务网站拥有众多消费者的购物信息,互联网的cookie技术记录了网民的行为,但这些数据都属于企业内部,并不易被第三方获得,海量数据的挖掘也仅仅是帮助企业解决自身运营问题,揭示企业运作中的内在规律,为企业运营提供商业智能和决策支持,并为企业带来巨大经济效益。但是今天Twitter和微博每天产生的大数据可以在一定规则开放性下,通过应用程序接口(API)和爬虫技术采集,一些商业机构和政府组织也向社会研究机构提供各种海量数据源,特别是美国政府开始提供权威开放数据源Data.gov等开源数据。与此同时国内外众多机构开始采集海量Twitter和微博上的传播信息和个人属性特征和标签,期望预测社会舆情和社会情感、预测电影票房、预测商业机会,进而期望预测人们的态度和行为。开放的公开易获得数据源是大数据时代的基本特征和产生社会影响本质。
4.重预测爱社会。科学重在了解而非预测,但在大数据时代,任何行业预见未来的能力都是企业的杀手锏。最近人们津津乐道的美国在线电影电视下载服务Netflix公司推出《纸牌屋》,就是通过其拥有近3000万用户的“播放”(包括暂停、倒退和快进等动作),依据其注册用户的400万次评级、300万次搜索,根据受众在Netflix上对电影电视节目贴上的不同标签(tag),从演员、导演、情节、题材类型等诸多方面,分析受众观看视频的时间和设备,通过海量数据挖掘,知道人们喜欢看什么。该剧播出大获成功,对用户数据的细致入微的理解改变了电视产业的运作方式,它用逻辑和计算取代了依赖传统和直觉的生产方式,通过大数据分析制作原创内容,因为它能先于受众知道人们想要看什么。更经典的案例来自于一个商家可以比父亲更早知道未成年女儿怀孕,因为商家根据女儿的购物行为预测到可能怀孕而邮寄相关宣传品。人们津津乐道的大数据应用都是预知社会问题,是数据背后的人的问题,所以说大数据更偏爱社会科学领域。
5.重发现非实证。传统的实证研究,强调在理论的前提下建立假设,收集数据,证伪理论的适用性,采用随机抽样的定量调查问卷获取数据,验证假设,你不问的问题被访者也不会回答。这是一种自上而下的决策和思维过程。大数据时代重在发现知识,预知未来,为探索未知的社会现象带来机遇。这种预见性是一种自下而上的知识发现过程,是在没有理论假设的前提下去预知社会和洞察商业趋势、规律。经典的案例就是沃尔玛超市利用海量的购物篮交易数据,发现每到周末男人去买婴儿尿布一般都会买啤酒的现象。一般说数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的。
6.重关系非因果。大数据重关系而不关心因果,问什么而不问为什么。因果关系并非来自统计,而是来自研究者的理论和假设。但是大数据分析更关注数据的相关性测量和商业应用价值。大数据是发现那些不能靠直觉发现的信息和知识,甚至是违背直觉的,有时候越是出乎意料可能越有商业价值。
7.重全体轻抽样。大数据是商业自动化存储的数据,在软硬件满足的条件下可以分析海量数据。随着存储和软硬件的经济性和工具的先进,海量数据的处理能力得到提升,数据挖掘算法不断改进和丰富,特别是统计分析和机器学习的神经网络建模技术发展,抽样并非是必要的手段和方法论。尽管大数据不一定是总体,理论上讲再大的局部也没有随机抽样更具代表性,但是大数据分析技术也需要抽样,随机抽样和过度抽样也是必要的建模过程和方法论。
8.非结构化数据。数据挖掘要发现那些先前未知、实用、有效的信息和知识,往往更多来自非结构化数据,这是大数据时代的更为显著的特征。有一种说法,地球上产生的数据只有10%的是结构化数据,90%的数据都是非结构化数据。社交媒体,特别是微博产生的大量文本导致海量有价值信息隐藏其中,大数据分析带来对中文文本挖掘的技术突破,如何从大量的文本挖掘中发现人们的行为、态度和情感,文本挖掘和语义分析技术带来了大数据时代的社会情感挖掘,意见挖掘和舆情监测的需求和商机。与此同时,传统IT行业面对非结构化的大数据存储、抽取和转换提出了新的需求和变革,大数据时代的各种Hadoop集群、MapReduce和NoSQL等非关系型数据库和IT新技术日新月异。从一定意义上讲,大数据落地就是近年来非常流行的数据挖掘(data mining)、文本挖掘(text mining)、网络挖掘(web mining)、NLP自然语言处理、机器学习等IT和商业智能(Business Intelligence,BI)信息技术和决策支持系统的广义概念和流行趋势,只是更强调对社会科学领域的应用。
三、大数据对人文社会科学的挑战
1.科研资料总量的快速增加给人文社会科学学者带来了巨大挑战。人文社会科学引入计算机处理模式和分析方法,各类依托计算机存储媒介数字学术资源的开发,基于复杂运算和分析的计算机模拟与实证,基于事实与证据的商业预测与案件证据推理等研究议题广泛兴起,从根本上改变了人文知识的获取、标注、比较、取样、阐释与表现方式。尤其在语言学、文学、历史学、文艺学、民族学等多个人文领域取得了引人注目的效果,并组建了专门的科研机构,形成了国际数字人文机构联盟和数字人文中心网络两大数字人文研究联盟。
2.资料的数字化改变了传统人文社会科学的资料类型。数字资源的采集、加工和处理对研究成果的获得作用日益显著。目前,海量的图书、报纸、期刊、照片、绘本、乐曲、视频等人文资料被数字化,并在互联网上被提供给研究者存取利用。而以“大数据”为代表的数据资源相对于数字文本、数字文献等数字信息资源,来源更加广泛,数据粒度更小,记录单元更加碎片化,结构更加多元化,机器生成数据也显著多于人工生成数据,信息质量参差不齐,对资料的汇集、保存和综合利用更加依赖计算机的辅助,人文社会科学也越来越需要依赖计算机对研究过程的支撑,传统人文社会科学学者对计算机技术和分析技巧的缺失甚至可能影响人文社会科学研究的最终实现,进而将计算机分析处理能力延伸为人文社会科学研究者科研素养的重要组成部分。
四、人文社会科学大数据研究的基本特征
一是所涉及资料均大大超过一般的阅读、分析和理解所能处理的范畴,是以往“不可研究”或“难以研究”的,大数据分析方法的出现提供了人文社会科学研究新的研究空间,提供了新的研究可能。
二是一般引入计算分析方法,其结论并非观察、思索、领悟等传统方法获得,而是通过大量数据的汇集而“自动涌现”,其理论的获得不同于传统人文社会科学研究。
三是均构建了可持续完善和丰富的数据集和分析工具,其可用性、共享性、重用性、协作性大大增强,提供了人文社会科学学者大规模协作的可能。
四是均具有跨学科特征。数字人文研究需要汇集专业领域技能、数据管理技能、数据分析技能和项目协作技能,因而这类项目往往由跨度较大的不同学科的专业学者共同完成。
五是决定研究质量的主要是数据集的质量、数量和利用方式,而研究假设相对容易。在某种程度上,数据科学家将成为人文社会科学大数据研究中的主角。
五、大数据时代人文社会科学需要新思维
1.开放与全过程研究思维。以往人文社会科学研究成果的表现形式为最终成果,再利用主要以文献引用、转述和评论等为主。而数字人文研究可记录人文社会科学研究的完整过程,资源化的原始数据、中间成果得以立体化应用,再利用水平显著提升。目前,国外以在线实验室、项目网站、开放数据集、项目论坛、项目社会网络为特征的立体开放研究思维普遍确立,可参与性大大增强。
2.碎片化重组研究思维。大数据环境下,人文社会科学研究更加注重片段数据、海量数据、非结构化数据的采集、清洗与分析,通过碎片化重组,深度揭示难以处理或无法预知的科学问题。比如通过海量自然语言表达效果观测公众的政治参与意识、通过科学家的在线时间与资源下载时间分布研究科学家的作息时间与工作强度等。
3.计算分析研究思维。以往人文社会科学研究定性研究居多,定量研究也主张采用是非论断,采纳或拒绝某一特定假设,是采用确定性、因果关系的研究思维。在大数据环境下,人文社会科学研究可采用计算分析思维,对相关命题进行趋势分析。
4.突变理论、混沌理论、复杂性理论。突变理论(catastrophe theory),解决人们如何理解微小作用导致社会突然变化的机理开拓道路;混沌理论(Chaos theory)提出了复杂而不断变化的系统,即使其初始状态是详尽了解的,也会迅速进入无法精确预知的状态;复杂性理论(Complexity theory)表明在大量个体各自按照不多的几条简单规则相互作用时,解释如何从中产生出秩序与稳定。这些理论和网络科学为大数据时代背景下的社会治理、舆情研究、传染病传播、谣言传播、微博营销提供了理论基础。
六、人文社会科学大数据研究的隐忧
1.非场景化的研究逻辑缺乏适用性与人文关怀。由于完全剥离了数据所处的具体环境,数据可能生涩,并且缺乏可理解性和适用性。比如商业分析中的数据挖掘,其可用性仅10%左右,并非“一挖就灵”。2012年,加拿大作家史蒂芬·马尔什在其文章《文学不是数据:反对数字人文》中也表示,将文学当作数据会失去文学本身丰富的意蕴。
2.发现问题式的研究限制了应用范围。人文社会科学的大数据研究有可能“敏锐地”发现问题,却无法给问题合理的解释,也无法给出有针对性的对策,限制了其应用范围。比如舆情分析、政策计算、情感计算的应用。
3.数据分析的集群研究会消灭重要的个体特征。而个体反而是众多人文社会科学研究关注的焦点。
4.人文社会科学大数据研究过分关注技术分析,可能忽视创新思维和思辨分析,不利于大师级人文社会科学学者的培养。
总之,随着人文社会科学数据的快速增长以及大数据分析技术的日益完善,人文社会科学的大数据研究必然会成为人文社会科学的主流领域,但不会替代现有的人文社会科学研究,而是相互补充,相得益彰。
二Ο一四年十月二十日
地址:中国·西藏拉萨市城关区圣陶南路88号 | 邮政编码:850007
校办公室:0891-6823591 招生就业办公室:0891-6822775