找回密码
 立即注册

QQ登录

只需一步,快速开始

热门经验分享: 护肤 减肥 化妆 美发 育儿 恋爱 理财 职场 旅行 运动 养生 购物 生活 运势 游戏 手机 电脑 小吃 美食 宠物 装修 西点
当前位置: 生活指南经验分享 > 母婴/教育 > 教育 > 机器学习——TF-IDF特征向量

机器学习——TF-IDF特征向量

时间:2020-5-27 15:16 点击:124次
TFIDF的分数代表了词语在文档和整个语料库中的相对重要性。TFIDF分数由两部分组成,第一部分是计算标准的词语频率(TF),第二部分是逆文档频率(IDF)。其中计算语料库中文档总数除以含有该词语的文档数量,然后再取 ...

TFIDF的分数代表了词语在文档和整个语料库中的相对重要性。

TFIDF分数由两部分组成,第一部分是计算标准的词语频率(TF),第二部分是逆文档频率(IDF)。

其中计算语料库中文档总数除以含有该词语的文档数量,然后再取对数就是逆文档频率。

TFIDF中的TF表达式示:

TFIDF中的IDF表达式示:

TFIDF向量可以由不同级别的分词产生(单个词语,词性,多个词(n-grams))。具体示:

导入相应的模块示:

读取word文件中的内容示:

进行中文划词,并将其转化为DataFrame类型,方便删除不许要的数据。示:

划分结果示:

利用info方法查看数据的详细信息,示:

筛选出需要删除的数据,得到一组布尔值。示:

0

得到的布尔数组。示:

1

利用布尔索引,删除bool值为False的数据。示:

2

删除无关的的数据后,数据的信息示:

3

从上可以看到索引不在连续。

14

删除数据后会,剩下数据的索引将不再连续,为了方便后续索引,故重置索引。示:

5

重置索引的数据示:

6

接下来用TFIDF向量作为特征。实例化TFIDF类,示:

7

转换训练数据,示:

8

经过TFIDF转换后的数据是一个稀疏矩阵,示:

9

为方便观察转化后的数据,将其转化为DataFrame类型,示:

0

经过TFIDF转化后的特征向量示:


https://www.izhinan.cn/article-147201-1.html以上内容就是关于【机器学习——TF-IDF特征向量 】的指南经验分享;您也可以通过下方的评论互动,发表您的意见和观点,让更多人通过生活指南经验分享因之受益,让生活变得更简单。


鲜花

握手

雷人

路过

鸡蛋
经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。
------分隔线----------------------------

最新评论

推荐内容