当前位置: 首页 > news >正文

定制做网站平台seo客服

定制做网站平台,seo客服,一键logo,北京通州网站建设CountVectorizer方法介绍 CountVectorizer 是 scikit-learn 库中的一个工具,它主要用于将文本数据转换为词频矩阵,而不是传统意义上的词向量转换,但可以作为词向量转换的一种基础形式。用于将文本数据转换为词频矩阵,它是文本特征…

CountVectorizer方法介绍

  • CountVectorizer 是 scikit-learn 库中的一个工具,它主要用于将文本数据转换为词频矩阵,而不是传统意义上的词向量转换,但可以作为词向量转换的一种基础形式。
  • 用于将文本数据转换为词频矩阵,它是文本特征提取的重要方法之一。

用法

  • 分词:将输入的文本分割成单词或 n-gram 序列。
  • 构建词汇表:统计文本中出现的所有唯一的词,并为每个词分配一个唯一的索引。
  • 生成词频矩阵:对于每一个输入的文本,根据词汇表统计每个词出现的次数,生成一个稀疏矩阵,矩阵的行表示文档,列表示词汇表中的词,元素表示该词在相应文档中的出现频率。

CountVectorizer

在这里插入图片描述

主要参数

  • input=‘content’:输入数据的类型,可以是 ‘content’(字符串)、‘filename’ 或 ‘file’。
  • encoding=‘utf-8’:文本的编码方式。
  • decode_error=‘strict’:解码错误时的处理方式,如 ‘strict’、‘ignore’、‘replace’ 等。
  • strip_accents=None:去除重音字符,可设置为 ‘ascii’ 或 unicode。
  • lowercase=True:将所有字符转换为小写。
  • preprocessor=None:预处理器,用于在分词前对文本进行处理。
  • tokenizer=None:自定义分词器,默认为 None,使用 CountVectorizer 自带的分词器。
  • stop_words=None:停用词列表,可以是 ‘english’ 或自定义的停用词列表。
  • token_pattern=‘(?u)\b\w\w+\b’:用于分词的正则表达式模式。
  • ngram_range=(1, 1):提取 n 元语法的范围,默认为一元语法。
  • analyzer=‘word’:分析器,可以是 ‘word’(单词级)或 ‘char’(字符级)。
  • max_df=1.0:词汇表中一个单词在文档中出现的最大频率,可设置为浮点数(比例)或整数(绝对次数)。
  • min_df=1:词汇表中一个单词在文档中出现的最小频率,可设置为浮点数(比例)或整数(绝对次数)。
  • max_features=None:词汇表的最大大小,限制词汇表中的单词数量。

CountVectorizer例子

from sklearn.feature_extraction.text import CountVectorizertexts = ["dog cat fish","dog cat cat","fish bird","bird"]
cont = []
# 实例化一个模型
cv = CountVectorizer(ngram_range=(1,3)) 
# 这里实例化了一个 CountVectorizer 对象 cv,ngram_range=(1,3) 表示要考虑的 n-gram 的范围是从 1 个词到 3 个词的组合。
# 例如,对于 "dog cat fish",会考虑 "dog"、"cat"、"fish"、"dog cat"、"cat fish" 和 "dog cat fish" 等。# 训练此模型
cv_fit = cv.fit_transform(texts) 
# 使用 fit_transform 方法对输入的文本列表 texts 进行训练和转换。
# 它会先对文本进行分词处理,然后统计每个词(或 n-gram)在每个文本中出现的频率。print(cv.get_feature_names_out())
# 调用 get_feature_names_out 方法,将返回一个包含所有不同的词(或 n-gram)的数组。
# 这些词是在对输入的文本进行处理后得到的词汇表,会根据输入文本中出现的不同词汇以及 n-gram 组合形成。print(cv_fit)
# 打印 cv_fit,它是一个稀疏矩阵对象,存储了词频信息。由于文本数据通常是稀疏的(大部分元素为 0),
# 所以使用稀疏矩阵来存储可以节省空间和提高计算效率。# 打印出每个语句的词向量
print(cv_fit.toarray())
# 调用 toarray 方法将稀疏矩阵 cv_fit 转换为密集数组。
# 这样可以更直观地看到每个语句中各个词汇或 n-gram 的出现次数,行代表输入的不同文本,列代表词汇表中的词汇或 n-gram。# 打印出所有数据求和结果
print(cv_fit.toarray().sum(axis=0))
# 对 cv_fit.toarray() 得到的数组按列求和,即计算每个词汇或 n-gram 在所有文本中出现的总次数。
# axis=0 表示按列进行求和操作。

结果:
在这里插入图片描述

http://www.bjxfkj.com.cn/article/103312.html

相关文章:

  • 梅地卡伦手表网站百度数据中心
  • 怎么用ps做京东网站模板免费发帖平台
  • 简阳网站建设seo网络推广经理
  • 洛阳市政建设集团网站自媒体135免费版下载
  • 提供网站制作公司营销策划方案怎么写?
  • 淄博网站制作网络服务西安seo排名公司
  • 广告设计公司资质优化推广网站seo
  • 建筑参考网站qq群推广拉人
  • 绿色国外网站2021十大网络舆情案例
  • 嘉兴网站优化排名今天的新闻是什么
  • 黄骅市人民医院武汉seo网站排名优化公司
  • 网站建设 天猫 保证金百度百科词条入口
  • 毛片做暧小视频在线观看网站如何免费做网站网页
  • 君卓展览的售后服务深圳网站关键词优化公司
  • 做网站还是移动开发优化大师apk
  • 建一个门户网站多少钱seo的五个步骤
  • 网站建设制作宝塔面板搜索引擎优化的重要性
  • 网站工程师培训小说关键词提取软件
  • 网站建设总结与成都网站建设制作公司
  • wordpress导入sql失败seo课程培训机构
  • 做推文的网站的推荐web网址
  • 上海找做网站公司哪家好搜索引擎优化的概念是什么
  • 常用网站设置河南今日头条新闻最新
  • 网站建设事宜网络营销顾问招聘
  • 义乌网站建设多少钱seo网站推广优化就找微源优化
  • 有代源码怎么做自己网站百度免费推广方法
  • 大连全员核酸检测惠东seo公司
  • 网上做翻译兼职网站好安康seo
  • i国网app免费下载广州网站优化公司排名
  • 买域名了怎么做网站百度信息流代运营