本网讯 11月12日上午,来自香港城市大学的方称宇教授在南校区图书馆报告厅,从语料库语言学家的角度,向大家介绍了基于文本的信息处理的历史发展,同时全面展现了自己最新的文本聚类实验成果。本次讲座由思科信息学院、语言工程与计算广东省社会科学重点实验室承办。思科信息学院副院长蒋盛益主持讲座。
方称宇正在作讲座
陈述历史,总结经验
讲座伊始,方称宇先介绍了基于文本的信息处理技术的两个出发点:一是需要运用到计算手段,二是需要处理者拥有语言学认识。虽然经过了数十年的发展,但是仍然没有一个标准的语言处理手段。在定义了一些基本概念之后,方称宇以自己正在的研究的文本聚类领域为例,描述了近十年来的发展历程。目前,运用信息系统进行文本聚类的方法主要有两种,一是根据词义,但是此方法较难具体反映文本的内容;二是根据词性,但是根据词性进行聚类不易反映文本规律。
过去十余年间,两种方法的合理性实用性都被研究人员反复验证,相比而言,通过词性进行文本聚类的准确性更高一些。但是也存在结果不容易进行评估、词性与词义之间容易夹杂、实验中聚类类型少等问题。
设计实验,遴选工具
为了验证词性进行文本聚类的准确性,方称宇开展了研究工作。针对之前总结出的问题,他提出在实验中需要做到只对词性进行研究、丰富数据库的语言学信息、实验中采用更多类型的文本等要求。
语料库是运用信息系统进行文本聚类的基础,分类器会根据语料库的内容来对文本进行聚类。方称宇和他的团队在实验开始前用了半年时间对语料库、分类器进行遴选,最终选择了三个具有权威性的语料库。为了进行对照,三个语料库中有一个是以词性作为基础的,而其他两个语料库则分别包含复杂和简单的词性信息。而在分类器方面,方称宇团队选取了在业界具有一定权威性的NB和NB-MN分类工具。
分析实验,展望未来
在经过多次的试验、对比之后,方称宇认为,从文本聚类的有效性来看,词性的作用要大于词义的作用,在一些文本分析中差距甚至能达到10%。同时,复杂词性语料库的聚类效果要好于简单词性语料库的聚类效果。此外,分类工具对聚类效果也存在影响,普遍看来,NB-MN工具的聚类效果更佳。
尽管得到了初步成果,方称宇仍认为自己的研究还有进步空间,下一步他将扩展研究的专业性,专攻医疗领域的文本,并将努力从研究结果中抽象出普遍特征。
蒋盛益向方称宇纪念品
讲座最后,蒋盛益代表学校向方称宇赠送纪念品。
附:方称宇(Alex Chengyu Fang)简介
方称宇(Alex Chengyu Fang)在University College London (UCL)获语言学博士学位,现在是香港城市大学语言学教授,对话系统实验室主任和创始人,同时是北京航空航天大学客座教授,以及中国全国术语标准化技术委员会成员。关注的领域包括计算语言学和自然语言处理等。