Skip to content

基于注意力机制的企业风险术语识别研究-杨长沛

关键词

企业风险;风险术语;命名实体识别;注意力机制;深度学习;特征融合;空洞卷积

现状

行业现状

  • 企业风险术语识别研究处于发展初期,缺乏较为成熟的领域数据集。

命名实体现状

  • 基于词典和规则相结合的统计方法
    • 基于词典和规则相结合的统计方法通过利用领域词典结合语言特征来制定规则,词典的质量和规则模板的定义能够直接影响到实体的识别效果,在一些特定领域该方法有着较好的性能。但是,该方法的缺点也较为明显:一是规则制定成本太高,规则的制定依赖大量专家充分地学习领域知识,使得该方法效率低下;二是可移植性差,规则模板无法跨领域使用。
  • 基于机器学习的方法
    • 基于机器学习的方法虽然在一定程度上降低了人工成本,仅需对模型参数微调就能获得较好的效果,但是该方法仍然过度依赖人工构造特征,仍需结合复杂的特征工程来构造模型,依旧存在着人工成本过高的局限性
  • 基于深度学习的方法
    • 基于深度学习的命名实体识别方法逐渐成为了主流,该方法利用现有的神经网络模型结合分布式特征能够自动地识别实体,在很大程度上降低了人工成本;与以往的方法相比,基于深度学习的方法在使用预训练词向量技术后准确率普遍较高,模型可移植性较强
  • 基于特征融合的方法
    • 通过构建多个学习器能够从不同维度抽取数据的特征,再通过特征融合技术对数据的多维度特征进行动态融合,使得该领域的下游任务能够得到更好的解决。
    • 集成学习源于机器学习,它的思想是通过建立多个学习器独立地完成学习任务,然后使用某种策略把所有学习器的预测结果进行结合,从而获得比单一学习器更好的结果;这类学习器通常分为“基学习器”和“组建学习器”,基学习器用于学习同种类型的特征,组建学习器用于学习不同类型的特征,当这类学习器准确性较好且具有多样性时,模型能够在很大程度上获得更加优异的性能。

风险术语识别研究现状

现有的风险术语识别方法可以归纳为基于统计基于规则以及两者相结合的传统方法。

目前,大多数学者使用传统方法识别风险术语,该方法需根据文本结构与术语特征人工制定大量规则,容易丢失上下文语义信息。

风险术语识别研究难点

  • 风险术语的实体类别不包括人名、地名和组织机构名等常见的命名实体,它囊括该领域内与“风险”相关的实体。风险术语实体类别涉及经济、政治、经营管理、行业市场等多个领域,包含市场竞争、商誉减值、贸易摩擦、黑客攻击等多种实体,较大的范围导致实体类别难以划分。
  • 风险术语可能由多个字词构成,存在多种表达方式,导致实体边界难以划分。如企业面临人才风险时,可能会有“人才短缺”、“人才流失”、“人才竞争”和“人才储备不足”等多种人才风险存在;而针对于某种特定的人才风险,如“人才流失”风险,它的表达存在“技术人才流失”、“核心人才流失”以及“关键人才流失”等多种形式。
  • 风险术语的实体结构与其他领域不同,多数领域的实体通常以“名词”和“名词+名词”的结构出现,而风险术语不仅有着“名词”以及“名词+名词”的实体结构,而且更多以“名词+动词”组成的短语形式出现;与含义和表现形式较为固定的名词相比,动词通常富含大量语义信息,能够揭示企业面临该风险的严重程度。如:“运营失败风险”比“运营风险”需要投资者更加关注企业所面临的该类风险。
  • 企业风险领域缺乏较为成熟的企业风险术语命名实体识别数据集,该数据集能够帮助构建企业风险术语库,并且推动企业风险领域知识图谱的发展。这项工作不仅能够帮助学者使用词典匹配法进行风险术语的自动标注,减少时间成本,降低人工误差,而且能够帮助投资者在大样本中快速筛选出企业可能面对的风险,以应对当今严峻的经济形势。

主要内容

  • 构建企业风险术语命名实体识别数据集
  • 基于缩放点积注意力机制的企业风险术语命名实体识别模型。
  • 基于双线性多头注意力机制的企业风险术语命名实体识别模型。

基于缩放点积注意力机制的企业风险术语识别

模型整体架构

基于缩放点积注意力机制的企业风险术语识别模型

该模型包含向量表示层、特征抽取层、辅助分类层(Auxiliary layer,AL)、注意力层和输出层这 5 个模块,通过以上 5 个模块的结合能够使得模型充分地学习到文本的上下文特征,获取字词间的语义信息,表现出更好的实体识别效果。

基于缩放点积注意力机制的企业风险术语识别模型
Algorithm 1:

根据 ErtNER 数据集构建基于缩放点积注意力机制的企业风险术语识别模型进行训练,从而输出数据集的评价估指标精确度、召回率和 F1 值。

Input:

对原始文本进行预处理工作,得到非结构化的风险文本,对风险文本进行标注并转换为结构化的 ErtNER 数据集;

Output:

测试集 ErtNER.test 的评估指标精确度、召回率和 F1 值;

Step1: 把标准化的 ErtNER 数据集通过向量表示层的 RoBERTa-wwm 预训练模型进行字嵌入,获得特征向量矩阵VRoBERTaV_{RoBERTa}

Step2: 把向量表示层输出的特征向量矩阵VRoBERTaV_{RoBERTa}输入到特征抽取层的 BILSTM 网络中捕捉时序特征和长距离依赖关系,得到特征向量矩阵VBILSTMV_{BILSTM}

Step3: 在辅助分类层,把特征抽取层的特征向量矩阵VBILSTMV_{BILSTM}作为主分类器,向量表示层输出的特征向量矩阵VRoBERTaV_{RoBERTa}作为辅助分类器,充分利用多层级的特征信息;

Step4: 在注意力层,采用缩放点积注意力机制对特征向量矩阵VBILSTMV_{BILSTM}VRoBERTaV_{RoBERTa}进行特征融合,得到注意力矩阵VAttentionV_{Attention} ,计算公式如下:

VAttention(VBILSTM,VRoBERTa)=softmax(VBILSTMVRoBERTaTdK)VV_{Attention}(V_{BILSTM},V_{RoBERTa}) = softmax(\frac{V_{BILSTM}{V_{RoBERTa}}^T}{\sqrt{d_K}})V

Step5: 在输出层,使用 CRF 模型对标签进行解码,完成模型的训练任务,同时对测试集 ErtNER.test 进行预测,输出测试集的评估指标精确度、召回率和 F1 值。

成果

  • 构建了企业风险术语 命 名 实 体 识 别 数 据 集 ErtNER ( Enterprise risk terms for Named Entity Recognition ),填补了该领域研究的空白,为本文的后续研究奠定了数据基础。
  • 构建了基于缩放点积注意力机制结合辅助分类层的神经网络模型该模型在 ErtNER 数据集上的精确度、召回率和 F1 值分别达到了 90.56%、92.34%和 91.44%,与基线模型 RoBERTa-wwm+CRF 相比分别提高了 1.2%、0.98%和 1.09%
  • 引入改进的门控空洞卷积神经网络来弥补单一模型特征抽取能力的不足,并采用特征融合能力更强的双线性多头注意力机制对多维度文本特征进行动态融合,尽可能防止特征逃逸。