外观
模型
约 1369 字大约 5 分钟
2025-08-23
命名实体识别-NER
- BILSTM-CRF:Huang 等[30]提出了把 BILSTM 与 CRF 模型进行结合,在 CoNLL-2003 英文语料数据集上获得了 88.83%的 F1 值,BILSTM-CRF 模型随之成为了深度学习领域的经典模型,被广泛应用于命名实体识别任务。
- XBILSTM-CRF :Pingchuan Ma 等[31]提出一种基于 XBILSTM-CRF 的网络安全实体识别模型,该模型使用独热码(one-hot)对单词进行词嵌入,经过 BILSTM 层后与词嵌入向量 X 连接在一起输入到 CRF 中,CRF 层生成一个具有最高概率的序列标签作为输出,以达到从非结构化文本中提取安全相关的概念和实体的目的。
- BLSTM+attention+CRF:马建红等[36]为了提升新能源汽车领域术语抽取任务的准确率,在新能源汽车专利文本上使用 BLSTM+attention+CRF 模型进行术语抽取,并使用规则与词典相结合的方法来矫正结果,获得了 85.83%的 F1 值,提供了切实有效地自动抽取新能源汽车领域术语的方法。
- IDCNN:2017 年,Emma Strubell 等[69]针对 BILSTM 神经网络没有充分利用 GPU 的并行性,从而限制了计 算 机 计 算 效 率 的 问 题 , 提 出 使 用 迭 代 空 洞 卷 积 神 经 网 络 ( Iterated Dilated Convolutional Neural Networks,IDCNN)代替 BILSTM 神经网络进行命名实体识别,IDCNN 模型与传统 CNN 模型相比不仅具有更强大的上下文信息抽取能力和结构化预测能力,而且在使用较少测试时间的同时能达到与 BILSTM 网络相当的准确性。
- GCNN:虽然 IDCNN 在不改变卷积核数量的情况下能够通过调节空洞率来扩大感受野,增大卷积核对输入序列的覆盖率,但未考虑信息的流通方式,依然存在梯度消失的风险。Dauphin Y N 等[70]提出了一种门控卷积神经网络模型(Gated Convolutional Neural Networks, GCNN),该模型把新颖的简化门控机制引入卷积神经网络中,能够给每个输出增加一个“阀门”来控制数据的流通,在一定程度上降低了梯度消失的风险,实验证明了该模型在语言建模任务上比基于循环神经网络模型的方法更加有效。
词嵌入模型
- word2vec:2013 年 Google 提出了 word2vec [34]词嵌入模型,该模型把文本转化为词级的嵌入向量,能够表征一义多词,有效地提升了 NLP 领域中“词级”和“句子级”任务的效果,但是仍然存在一词多义问题。
- ELMo:2018 年 Peters M E 等[37]提出了 ELMo(Embeddings from Language Models)模型,与 word2vec 获得的静态词级向量相比,ELMo 把文本表示为动态字符级向量,该模型的提出更好地解决了一词多义问题。
- BERT:在 ELMo 基础上,2018 年 10 月 Devlin 等[38]提出了一种 基 于 transformer [39] 架 构 的 预 训 练 语 言 模 型 BERT ( Bidirectional Encoder Representations from Transformers),该模型使用的 transformer 架构能够更强地捕捉句子中的上下文语义关系,越来越多的学者使用预训练模型 BERT 把文本表征为字符级嵌入向量,使得众多 NLP 下游任务的性能得到了大幅度提升。
- Albert
- RoBERTa:大量研究表明,在大部分 NLP 下游任务中 RoBERTa 模型的性能略高于 BERT,这是由于 RoBERTa 使用了 BERT 的模型框架,并对其语料规模和预训练过程进行了改进:
- 提出全词动态遮蔽技术。BERT 的遮盖技术采用的是静态遮蔽策略,在预处理过程中从每个序列随机遮蔽一些字符,并在每一轮训练中保持遮蔽字符不变持续到所有训练结束。RoBERTa 模型使用了动态遮蔽策略以及全词掩盖技术(Whole Word Mask,WWM),动态遮蔽策略每次向模型输入一个序列时,会生成一种新的遮蔽方式,该策略间接性地增加了训练语料,能够提高模型的泛化能力;与 BERT 基于字符的遮盖技术相比,RoBERTa 模型提出的全词遮盖技术会对组成同一个词语的字符全部进行遮蔽。
- 提出 BERT 的重新实现。RoBERTa 使用了更大的语料规模和批次量进行重新训练得到,能够获取更多语料的特征信息,提高模型的性能。
- 删除了下一句预测任务。BERT 模型在训练前使用了 NSP 任务,每次只输入 2 个句子 A 和 B,B 有 50%的概率为 A 的下一个句子,以此来判断句子 A 和 B 是否连续;RoBERTa 模型采用了名为 Full-sentences 的方法,即每次输入多个句子,直到达到设置的最大长度,该方法能够捕捉更长距离的依赖关系。
- RoBERTa-wwm:2019 年 Yinhan Liu 等[46]提出了基于全词掩盖技术的预训练语言模型 RoBERTa-wwm,该模型的网络结构与 BERT 一致,使用了更大的参数和更多的数据进行训练得到,在一些 NLP 下游任务中效果比 BERT 更好。