您现在的位置是:首页 > 正文

NLP 基于kashgari和BERT实现中文命名实体识别(NER)

2024-04-01 05:06:26阅读 3

准备工作,先准备 python 环境,下载 BERT 语言模型

  • Python 3.6 环境

需要安装kashgari

Backend pypi version desc
TensorFlow 2.x pip install ‘kashgari>=2.0.0’ coming soon
TensorFlow 1.14+ pip install ‘kashgari>=1.0.0,<2.0.0’ current version
Keras pip install ‘kashgari<1.0.0’ legacy version
  • BERT, Chinese 中文模型
    我选择的是工大的BERT-wwm-ext模型

在此感谢上述作者

数据集准备

from kashgari.corpus import ChineseDailyNerCorpus

train_x, train_y = ChineseDailyNerCorpus.load_data('train')
valid_x, valid_y = ChineseDailyNerCorpus.load_data('validate')
test_x, test_y  = ChineseDailyNerCorpus.load_data('test')

print(f"train data count: {len(train_x)}")
print(f"validate data count: {len(valid_x)}")
print(f"test data count: {len(test_x)}")
train data count: 20864
validate data count: 2318
test data count: 4636

采用人民日报标注的数据集,格式为:

海 O
钓 O
比 O
赛 O
地 O
点 O
在 O
厦 B-LOC
门 I-LOC
与 O
金 B-LOC
门 I-LOC
之 O
间 O
的 O
海 O
域 O
。 O

创建 BERT embedding

import kashgari
from kashgari.embeddings impo

网站文章

  • 集成学习模型(二)——GBDT

    集成学习模型(二)——GBDT

    GBDT 文章目录GBDT一、概述二、回归树三、提升树四、GBDT的原理4.2 GBDT损失函数4.3 GBDT正则化五、GBDT构建与测试六、总结 一、概述   梯度提升(Gradient boos...

    2024-04-01 05:06:19
  • User Access Control 、Program Files 目录 与 Application Data 目录

    今天在debug一个奇怪的问题,一个程序在开发机器上没有任何错误,但是安装在客户机器上之后,只要客户运行它,就立刻停止响应。更加奇怪的是,程序本身没有输出任何日志。开始以为是安装包做的不好,但是几次实...

    2024-04-01 05:06:12
  • rate-based 借贷式拥塞控制算法

    rate-based 借贷式拥塞控制算法

    由 bpd = pacing_rate * rtt,可得一个恒等式 rtt = bdp * (1 / pacing_rate),而不占 buffer 时的 bdp 就是 cwnd 指示,于是可将 bu...

    2024-04-01 05:05:33
  • 北湖深坑题

    北湖深坑题

    北湖深坑题目信息输入输出测试样例解答题目信息十年前,北湖还只是一个深坑,未完成蓄水工作。为了确保蓄水工作的顺利进行,我们需要对北湖的蓄水量进行粗略估计。为了简化运算,我们假设北湖的地面是一维的,每一块...

    2024-04-01 05:05:26
  • linux上安装MySQL

    linux上安装MySQL

    linux上原有mysql卸载,安装mysql过程及遇到的问题和解决方法 一、前期准备 二、安装MySQL 三、遇到的问题

    2024-04-01 05:05:17
  • 安装moviepy库报错

    安装moviepy库报错

    由于已经存在这个库,因此在尝试使用pip进行安装时,会显示&quot;Found existing installation&quot;的信息,而不会重新安装。根据您提供的错误信息,&quot;Inv...

    2024-04-01 05:04:38
  • thymeleaf 添加页面隐藏值

    切记切记这样写是不对的: ...

    2024-04-01 05:04:30
  • 计算机辅助教学时必不可少的,浅谈计算机辅助教学在中学语文教学中的应用

    计算机辅助教学时必不可少的,浅谈计算机辅助教学在中学语文教学中的应用

    论文导读:在有了计算机网络及多媒体设施,情势便发生了很大改变。比如在讲授《再别康桥》这一课时,可以在课件中插入由濮存昕朗诵的《再别康桥》的录音。学生在听录音的时候,远比老师朗诵时要认真、专注许多。而且...

    2024-04-01 05:04:23
  • 【数学基础】线性方程组解情况整理

    【数学基础】线性方程组解情况整理

    一、非齐次线性方程组,无解,多解,唯一解 非齐次线性方程组,就是方程组的等式右边不为0的方程组,系数加上方程等式右边的矩阵,叫做增广矩阵。 【例1】求解下列线性方程组 化简后的有效方程组个数小于未知数个数,有多个解。 第一步,先列出增广矩阵: 第二步,用高斯消元法化简,化简成阶梯矩阵 先把第2行换到第1行 第2行减第1行的2倍,第3行减第1行的3倍,得到 第3行减...

    2024-04-01 05:03:44
  • 切换域名后,ssh配置问题

    OS:CentOS release 6.10 (Final)问题:今天在在gp迁移测试时,把GP备份的域名从A机迁移到了B机。配置后,发现使用ssh 命令登录到需要同步文件到GP备机时,发现失败,提示信息如下:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@The RSA host key for gp69.d...

    2024-04-01 05:03:36