數(shù)據(jù)資料對于社會科學領域的實證研究具有決定性意義。進入21世紀以來,中國社會科學領域的一大亮點是一系列全國范圍的縱貫學術調查機構,秉持數(shù)據(jù)共享的理念,相繼公開原始數(shù)據(jù)庫,使之成為當前社會科學研究領域中重要的學術資源。其中由中國人民大學中國調查與數(shù)據(jù)中心開展的“中國綜合社會調查”(Chinese General Social Survey, 簡稱CGSS)、中國社會科學院社會學研究所開展的“中國社會狀況綜合調查” (Chinese Social Survey, 簡稱CSS)、北京大學中國社會科學調查中心開展的“中國家庭追蹤調查”(China Family Panel Studies,簡稱CFPS)、北京師范大學中國收入分配研究院開展的“中國家庭收入調查項目”(Chinese Household Income Project,簡稱CHIP)、西南財經大學中國家庭金融調查與研究中心開展的中國家庭金融調查項目(China Household Finance Survey, 簡稱CHFS),被學界冠為“五朵金花”或“調查5C”,在學界擁有較高的聲譽。研究數(shù)據(jù)開放的舉措可以說是中國社會科學研究領域的“供給側改革”,功不可沒。
隨著研究數(shù)據(jù)共享的擴展,也產生了一個令人關注的現(xiàn)象,那就是數(shù)據(jù)使用無論在人數(shù)還是在成果數(shù)量上都大大超過了調查研究資料的原創(chuàng)者。以CGSS為例,截至2016年底,數(shù)據(jù)用戶已超過4萬人,采用該數(shù)據(jù)進行研究分析的文獻量達2094篇(部),其中數(shù)據(jù)原創(chuàng)團隊的學術成果不足50篇(部),約占比2.4%;以CSS為例,在目前已發(fā)表的近700篇(部)文獻中,原創(chuàng)團隊的學術成果僅有58篇(部),占比約8.3%。這意味著二手數(shù)據(jù)用戶的需求重要性越加凸顯,原創(chuàng)團隊必將面臨著重要的角色轉換:從調查研究的設計者、數(shù)據(jù)資料采集者,轉換為研究資料的提供者和服務者。
用戶需求旺盛但數(shù)據(jù)服務短缺
研究數(shù)據(jù)開放共享成為公共資源,誘發(fā)了數(shù)據(jù)使用者的多重需求。首先,數(shù)據(jù)使用者有獲取數(shù)據(jù)的強烈需要。他們無一例外地希望盡早、全面地獲得最新數(shù)據(jù)。其次,數(shù)據(jù)使用者有數(shù)據(jù)指導的需求。需要數(shù)據(jù)提供者在數(shù)據(jù)的概念界定、口徑、采集方式及過程、分析解讀等多方面給予信息和技術支持。最后,數(shù)據(jù)使用者有整合開發(fā)數(shù)據(jù)資源的需求。他們面對多筆釋出在各個機構網站上的數(shù)據(jù),希望能夠將不同項目、不同時代、不同區(qū)域、不同口徑的調查數(shù)據(jù)標準化綜合利用,以取得更大的價值。
但在國內目前的學術組織框架中,滿足上述需求的服務提供,卻有著多重的制約。在傳統(tǒng)的項目(課題)制架構下,數(shù)據(jù)共享只是原創(chuàng)團隊自身研究的一項“副產品”,在數(shù)據(jù)使用的優(yōu)先序上,項目(課題)組本身應該是排在首位的;各類后續(xù)的數(shù)據(jù)服務工作已超出了自身的研究者角色,沒有義務提供周全的后續(xù)服務;特別是多筆數(shù)據(jù)整合的增值服務,到底由數(shù)據(jù)提供者還是由用戶自身來完成,莫衷一是。數(shù)據(jù)提供者認為已經盡了最大的公益之心將數(shù)據(jù)分享學界了,由研究者來承擔數(shù)據(jù)服務的職能,實在力所不及。
科研數(shù)據(jù)共享帶來的用戶需求旺盛和數(shù)據(jù)服務短缺之間的張力,更深層次預示著中國社會科學界面臨的一個應用拓展難題:當各類研究數(shù)據(jù)作為公共學術資源密集面世,誰來為它們的整合和增值服務買單?
數(shù)據(jù)檔案機構的發(fā)展歷程
為數(shù)量眾多、來源龐雜的研究數(shù)據(jù)提供管理和整合的服務,在國外的學術研究領域已經相當普遍和成熟。數(shù)據(jù)檔案機構的誕生與發(fā)展,便是社會科學研究數(shù)據(jù)服務領域的一大創(chuàng)新。在歐美國家,社會科學數(shù)據(jù)檔案中心(Social Sciences Data Archives, SSDA)已有70年的發(fā)展歷史。
世界上最早的SSDA可以追溯到1947年美國創(chuàng)立的第一個數(shù)據(jù)檔案管理機構——羅普中心(Roper Center)。調查研究創(chuàng)始人之一的Elmo Roper,將他從20世紀30年代中期開始積累起來的民意調查數(shù)據(jù)捐贈給美國的威廉姆斯學院圖書館,而該圖書館于1957年將羅普調查的數(shù)據(jù)檔案獨立出來,成立了“羅普輿論研究中心”,2015年又歸屬于康奈爾大學。目前,該中心已經收集22000多個來自美國和其他100多個國家的民意調查數(shù)據(jù)集,建立了專注于公眾輿論調查和分析、世界領先的社會科學數(shù)據(jù)檔案庫,并以每年數(shù)百筆數(shù)據(jù)資料納入的速度增長。另一所聞名于世的SSDA是成立于1962年的美國密歇根大學的校際政治和社會研究聯(lián)合會(The Inter-University Consortium for Political and Social Research,ICPSR)。該組織是會員制組織,在世界各地約有760所會員大學和研究機構加入。ICPSR維護并提供了大量的社會科學研究數(shù)據(jù)檔案用于研究和教學,目前擁有超過8000個單獨研究/調查項目數(shù)據(jù)和25萬筆數(shù)據(jù)集。
在歐洲,1960年德國科隆大學建立的社會研究中央檔案館(ZA)以匯集社科數(shù)據(jù)檔案聞名;1964年荷蘭阿姆斯特丹大學建立的斯坦因麥茨檔案館,專門收藏民意調查數(shù)據(jù)檔案;1965年成立的英國數(shù)據(jù)檔案館(UK Data Archives)被英國國家檔案館指定為數(shù)據(jù)托管和存儲處,主要收藏人文社科領域的數(shù)據(jù),成為英國研究和教育領域中的基礎性材料。
1977年在比利時的新盧萬成立的國際社會科學數(shù)據(jù)組織聯(lián)合會(International Federation of Data Organizations for the Social Science, IFDO),標志著社會科學數(shù)據(jù)檔案機構走向國際化和規(guī)范化。
數(shù)據(jù)檔案學:一門新的學科
在以紙張為主要信息載體的時代,圖書館、檔案館成為人類資訊的匯集地,由此產生了圖書館學和檔案學。同樣,在電子化時代,社會科學數(shù)據(jù)檔案中心的普及,也促使了數(shù)據(jù)檔案學的出現(xiàn)。數(shù)據(jù)檔案學作為社會科學研究價值鏈上的一個新節(jié)點和新型服務供給類型,包含了諸如數(shù)據(jù)采集、數(shù)據(jù)修復、數(shù)據(jù)標引、數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)釋出等圍繞數(shù)據(jù)生命周期展開的數(shù)據(jù)管理流程的知識體系。
數(shù)據(jù)檔案建立中的數(shù)據(jù)采集,主要指既有數(shù)據(jù)的收集引進,相當于傳統(tǒng)圖書館業(yè)務中的“采訪”環(huán)節(jié)。數(shù)據(jù)資料的采集,主要考量數(shù)據(jù)的研究利用價值與規(guī)范性。一般而言,長期縱貫調查的數(shù)據(jù)、稀有數(shù)據(jù)(如對艾滋病患者的調查數(shù)據(jù))會更有引進價值;具有規(guī)范性的數(shù)據(jù)說明文件的數(shù)據(jù)資料應是重點引進的來源;和紙版圖書單本采購引進方式不同,研究數(shù)據(jù)多采用會員制的方式分享。
數(shù)據(jù)修復則包含了數(shù)據(jù)清理、數(shù)據(jù)考據(jù)等步驟,通過去除奇異值(Outlier Data)、校驗數(shù)據(jù)邏輯、插補缺失值等方式,提升數(shù)據(jù)質量,保障數(shù)據(jù)集的完整性。數(shù)據(jù)標引是數(shù)據(jù)檔案標準化的關鍵,相當于傳統(tǒng)圖書館業(yè)務中的“編目”環(huán)節(jié)。為便于對數(shù)據(jù)文檔和變量信息的檢索,國際社會科學領域通常采用DDI(Data Documentation Initiative)元數(shù)據(jù)標準,用于對文檔、研究項目、數(shù)據(jù)文件和變量進行關鍵詞的標準化描述。
數(shù)據(jù)集成指對各類數(shù)據(jù)集的跨庫、跨時空的整合,如將同一時期不同國家的貧困人口從各自的原始數(shù)據(jù)庫中整合為一體,進行比較研究;又如將同一地區(qū)的同類歷史數(shù)據(jù)匯集,形成縱向動態(tài)數(shù)據(jù)庫。數(shù)據(jù)集成得以把跨時間、跨主題、跨學科、跨模態(tài)的多重數(shù)據(jù)綜合起來,極大地豐富研究視野,也非常有實戰(zhàn)價值。美國密歇根大學的中國信息研究中心(China Data Center)利用我國各類開放數(shù)據(jù)集成的China Data Online和China Map Online,便是成功的應用案例。數(shù)據(jù)存儲主要包括數(shù)據(jù)的永久備份、定期備份、物理隔絕等保護與安全性事項。數(shù)據(jù)釋出主要涉及數(shù)據(jù)保密、私密處理、倫理審查、定期更新、用戶維護等內容。
社會科學數(shù)據(jù)檔案中心將是新時代的科學研究資訊匯聚平臺和基站,亦將是新一輪學術建設的焦點。目前數(shù)據(jù)共享帶來的數(shù)據(jù)服務供給不足的難題,也同樣提供了一個新的發(fā)展機遇。中國科研機構應該具有前瞻意識,盡早地投入數(shù)據(jù)檔案中心建設,提升數(shù)據(jù)檔案學的學科發(fā)展空間,以一種新的激勵機制和制度安排,打破傳統(tǒng)的項目制下研究者作坊式的自給自足生產和運用學術資源的格局,促進我國社會科學研究的數(shù)據(jù)綜合開發(fā)和增值應用,更好地為我國學術研究的現(xiàn)代化,為發(fā)揮智庫功能,提供新的有力支撐。
(作者單位:中國社會科學院社會學研究所)