语料库指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。
语料库是语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂、语言教学、传统语言研究、自然语言处理中基于统计或实例的研究等方面。
语料库按照语料的语种,可以分成单语的、双语的和多语的。按照语料的采集单位可以分为语篇的、语句的、短语的。
语料库的特征有:
⒈语料库中存放的是在语言的实际使用中真实出现过的语言材料;
⒉语料库是承载语言知识的基础资源,但并不等于语言知识;
⒊真实语料需要经过加工,才能成为有用的资源。