「中央研究院現代漢語語料庫」(簡稱「研究院語料庫」(Sinica Corpus))專門針對語言分析而設計,每個文句皆依詞斷開,並標示詞類。語料蒐集也盡量做到現代漢語分配在不同的主題和語式上,是現代漢語無窮多語句中一個代表性的樣本。 本語料庫由中央研究院資訊所、語言所詞庫小組完成的。該小組由陳克健(資訊所)、黃居仁 (語言所) 兩位研究員主持,自1990年前後便開始致力於漢語語料的蒐集。於1991年得蔣經國基金會補助,開始構建語料庫;並於1994年分別得到中央研究院「中文資訊」跨所研究群專案計畫及國科會計畫補助,正式開始進行語料標誌。1995年7月完成第一版(兩百萬詞),1996年11月經計算中心設計規劃完成WWW版,開放供各界使用(On www since November 1996)。並於1997年完成3.0版,約五百萬詞。(本說明整理自原網站簡介)