>> 社会科学版期刊 >> 2015 >> 2015年01期 >> 正文
正则表达式在语料库研究中的应用
供稿: 吴进善 时间: 2018-12-16 次数:

作者:吴进善

作者单位:北京外国语大学中国外语教育研究中心;河南师范大学外国语学院

摘要:语料库技术的关键在于通过对大规模真实文本的自动化分析处理,探索自然语言的内在规律。计算机程序编辑中广泛使用的正则表达式技术,因其强大的文本批处理能力,被逐渐应用于语料库开发和复杂检索等相关技术中。本文的研究目的在于厘清正则表达式的起源、概念和构造,并以任务驱动的方法,以几款常用的语料库工具为例,探讨正则表达式在文本清理、语料标注和检索等技术环节中的具体应用,从而进一步推动正则表达式在语料库研究中的普及和应用。

基金:河南省软科学研究计划项目(132400410996);河南省教育厅人文社科研究项目(2013-QN-527);

关键词:正则表达式;语料库研究;文本处理;语料标注;索引分析;

DOI:10.16698/j.hpu(social.sciences).1673-9779.2015.01.010

分类号:H087

最近更新