方格社区-淘金信息差

 找回密码
 立即注册

[其他] 中文人名语料库,在线生成人名网站

[复制链接]
发表于 2021-11-21 18:44:08 | 显示全部楼层 |阅读模式
中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。


网址:https://www.yimingzi.com/#/home
GitHub开源代码:https://github.com/wainshine/Chinese-Names-Corpus
QQ截图20211121184240.png QQ截图20211121184227.png

刷新一次会显示一个新名字。


中文常见人名(Chinese_Names_Corpus)
数据大小:120万。
语料来源:从亿级人名语料中提取。
数据清洗:已清洗,但仍存有少量badcase。
新增人名生成器。

中文古代人名(Ancient_Names_Corpus)
数据大小:25万。
语料来源:多个人名词典汇总。
数据清洗:已清洗。

中文姓氏(Chinese_Family_Name)
数据大小:1千。
语料来源:从亿级人名语料中提取。
数据清洗:已清洗。

中文称呼(Chinese_Relationship)
数据大小:5千,称呼词根;18万,中文称呼。
语料来源:多个人名词典汇总。
数据清洗:已清洗,但仍存有大量badcase。


英文人名语料库(English-Names-Corpus)
翻译人名(English_Cn_Name_Corpus)
数据大小:48万。
语料来源:多个人名词典汇总。
数据清洗:已清洗,但仍存有少量badcase,以地名居多。
本语料的人名识别由网友 “[color=var(--color-accent-fg)]ltccss” 友情提供。

日文人名语料库(Japanese_Names_Corpus)
日文人名(Japanese_Names_Corpus)
数据大小:18万。
数据来源:从维基百科中提取。
数据清洗:已清洗,但仍存有少量badcase。
数据清洗过程详见:“[color=var(--color-accent-fg)]日本人名数据清洗分享”。


中文词典语料库(Chinese_Dict_Corpus)
成语词典(ChengYu_Corpus)
数据大小:5万。
语料来源:多个成语词典汇总。
数据清洗:已清洗。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表