当前位置: 首页 > news >正文

嘉兴网站seo网站优化服务商

嘉兴网站,seo网站优化服务商,上饶市建设监督网站,交友最好的网站建设【学而不思则罔,思而不学则殆】 1.问题 NLP序列标注问题,样本不均衡怎么解决? 2.解释 以命名实体识别(NER)为例,这个样本不均衡有两种解释: (1)实体间类别数量不均衡…

【学而不思则罔,思而不学则殆】

1.问题

NLP序列标注问题,样本不均衡怎么解决?
在这里插入图片描述

2.解释

以命名实体识别(NER)为例,这个样本不均衡有两种解释:
(1)实体间类别数量不均衡,比如医疗知识图谱中,疾病现象比治疗手段多得多;
(2)实体和非实体的数量不均衡,一句话中,标注为O的数量占比比较大,约60%-90%。
第一类问题会导致实体类别分类不准,也就是会影响P(查准率);第二类问题会导致实体可能识别不出来,会影响R(查全率)

3.思路

针对第一类问题:
传统的几个思路
(1)思路一:增加小样本数量,首先考虑增加原始样本数量,其次考虑数据增强(如滑动窗口),属于简单有效的方法;
(2)思路二:在不影响性能的情况下,可以考虑减少样本数量多的类别样本,这种也能平衡类别数量,还能加快训练;
(3)思路三:改变损失函数,本质是给小样本加权,比如用focal loss。
(4)思路四:用两个或多个分类模型,一个用来识别大样本类别,一个用来识别小样本类别;极端情况下,一种类别一个分类算法,好处是每种类别的性能可以针对性调优,坏处是模型太多,训练和预测更耗时。
就像问题中的图大样本和小样本比较极端,就可以考虑用两个分类模型。

针对第二类问题:
(1)思路一:剔除掉纯O的句子
(1)思路二:减少一句话中O的数量
如:

  • 建立原句的语法分析树,只取需要的部分。
    在这里插入图片描述

参考:
知乎中有类似的问题:
https://www.zhihu.com/question/340333687

http://www.bjxfkj.com.cn/article/104725.html

相关文章:

  • 做碳循环的网站手机关键词seo排名优化
  • 服装店网站建设思路湘潭网站制作
  • 企业微网站seo是什么服务器
  • 邯郸哪儿能做网站百度云资源搜索引擎入口
  • 建设俄语2p2网站百度大数据官网
  • 如何下载网站模板文件在哪里品牌推广的步骤和技巧
  • wordpress美女站seo入门基础知识
  • 游戏类网站备案手机百度ai入口
  • 苏州模板网站建站百度小说排行榜风云榜
  • 广州公司注销可以网上办理seo搜索引擎入门教程
  • 天津建设监理协会网站网站快速优化排名方法
  • 做盗版频网站推广网站多少钱
  • 成都设计网站的公司名称网络营销的概念是什么
  • 崇州市城乡建设局网站新网店怎么免费推广
  • 做网站后台的时候要注意什么企业危机公关
  • 西安做网站公司哪家好中央电视台新闻联播
  • 天津艺匠做网站怎么样网络营销的六个特点
  • 做网站都需要学什么语言百度一下你就知道搜索
  • 网站经典设计第三方营销平台有哪些
  • 互动网站建设公司互联网营销方法有哪些
  • 济南网站建设山东酷风深圳seo优化排名优化
  • 网站 数据库 sql 导入数据库百度推广天津总代理
  • 逆袭做富豪官方网站品牌战略
  • 卢龙建设银行官网网站媒体发布平台
  • 国外比较好的设计网站海淀区seo引擎优化
  • 文字生成图片在线制作广东seo网络培训
  • 网站建设用到的软件网络营销策划的流程
  • 昆山市网站建设加盟网络营销推广公司
  • 新网网站登录不上软文营销怎么写
  • 普通网站成微网站开发品牌策划推广方案