作者:袁金斗1,潘明明1,张 腾2,姜 珏1作者单位:1.中国电力科学研究院有限公司,北京100192;2.国网江苏省电力有限公司,江苏 南京210000。
摘要:在用电安全领域,存在着大量数据、知识未得到充分挖掘和利用,构建领域知识图谱不仅可以实现用电安全知识的整合,还能极大地提高电力行业的工作效率。
命名实体识别是构建知识图谱的基础性工作,研究了基于字典和规则的命名实体识别,通过领域实体词典、构词特征字符规则匹配和词性组合特征规则匹配三种方法从非结构文本中准确地提取用电安全相关实体,为用电安全领域知识图谱的构建提供高质量和高精度的实体。
为优化识别流程、提高响应速度,将通用词性标注任务交由边缘节点进行处理,中心服务器仅需响应规则模板匹配等任务。
在小规模测试实验中,综合使用三种方法对用电安全文本进行领域实体识别,F1值能达到85%以上。
引言:命名实体识别[1-3](Named Entity Recognition,NER)在通用领域中主要是指识别文本中的人名、地名、机构名、时间、货币等具有特定意义的实体。
目前,命名实体识别的主要方法包括三类:基于规则[4]和词典[5-6]的方法、基于统计机器学习的方法[7]和基于深度神经网络的方法[8]。
目前,用电安全领域缺乏权威数据集[9],命名实体识别研究工作首先需要对语料集进行序列标注,标记非结构文本中的相关实体、无关字符、词性序列等,在此研究背景下,采用统计机器学习、深度神经网络的方法较难获取大规模的训练语料集。
因此,本文主要基于规则和词典的方法对实体命名识别进行第一阶段研究,发掘用电安全领域实体构词规则及词性特征,构建领域词典及规则模板,进一步扩充语料库,为后续用电安全领域命名实体识别的机器学习、神经网络方法的研究奠定基础。
从技术角度分析,如果构建的领域词典能够覆盖待识别文本中绝大多数相关实体,那么,基于词典的命名实体识别方法将具有高准确度及高响应度。
但是,领域实体的多样性、复杂性、衍生性导致构建覆盖全面的高质量词典较为困难。
因此,基于词典的方法通常是基于规则方法的辅助补充手段[10]。
基于规则的实体命名识别多采用人工归纳并构造规则模板,选用特征包括标点符号、关键字、指示词和方向词、位置词(如前后缀)、中心词等,以规则模板的正则匹配为主要手段[11]。
当语料规模不大且提取的规则能比较精确地反映语言现象时,基于规则和词典的方法其性能要优于基于统计的方法[12]。
另一方面,物联网设备和数据的爆发式增长,使得基于云计算模型的聚合性服务逐渐显露出其在实时性、网络制约、资源开销等方面的不足。
为弥补集中式云计算的不足,本文采用边缘计算架构,其优势在于能够在数据产生侧快捷、高效地响应业务需求,减小服务对网络的依赖,在离线状态下也能够提供基础业务服务。
文章