语言技术平台(语言技术平台, LTP )是(HIT-SCIR)开发的一套高效、高精度的中文自然语言处理开源基础技术平台。该平台集成了词法分析(分词、词性标注、命名实体识别)、句法分析(依存句法分析)和语义分析(语义角色标注、语义依存分析)。
其中,句法分析、语义分析等多项关键技术多次获得了CoNLL国际评测的第一名。此外,该平台还获得了2010年中国信息社会科学技术一等奖和2016年黑龙江省科技进步一等奖。国内外许多研究机构和知名企业通过签订协议、收费授权等方式使用平台。
在车万祥教授的指导下,哈尔滨工业大学SCIR本科生冯云龙等同学近日对LTP进行了新一轮升级,发布了LTP 4.0 版本。此次升级的主要改进包括:
基于多任务学习框架进行统一学习,使得全部六项任务可以共享语义信息,达到了知识迁移的效果。既有效提升了系统的运行效率,又极大缩小了模型的占用空间 基于预训练模型进行统一的表示 ,有效提升了各项任务的准确率 基于教师退火模型蒸馏出单一的多任务模型,进一步提高了系统的准确率 基于PyTorch框架开发,提供了原生的Python调用接口,通过pip包管理系统一键安装,极大提高了系统的易用性下表列出了新LTP和旧LTP在准确性、效率和型号大小方面的比较:
为使模型小巧易用,本次发布基于哈工大讯飞联合实验室发布的中国伊莱克特小预训模型。稍后,基于不同预训练模型的版本会陆续发布,为用户提供更多准确性和效率平衡的选择。
测试环境如下:
Python 3.7 LTP 4.0 Batch Size = 1 CentOS 3.10.0-1062.9.1.el7.x86_64 Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz注:速度数据来源于人民日报命名实体的测试数据,速度计算方法是所有任务依次执行的结果。另外,语义角色标注不同于新旧版本语义依赖中使用的语料库,不能直接比较(新版本语义依赖使用SemEval 2016语料库,语义角色标注使用CTB语料库)。
招聘
AI科技评论希望招聘一名科技编辑/记者
办公地点:北京
职位:专注于追踪学术热点和采访人物
工作内容:
1.关注学术领域热点事件,及时跟踪报道;
2.采访人工智能领域的学者或R&D人员;
3.参加各种关于人工智能的学术会议,并汇报会议内容。
要求:
1.热爱人工智能的学术研究内容,擅长与学者或企业工程师打交道;
2.有一定的理工科背景,最好对人工智能技术有所了解;
3.英语能力强(工作涉及大量英语材料);
4.学习能力强,对人工智能的前沿技术有一定的了解,能够逐渐形成自己的观点。