TFIDF的分数代表了词语在文档和整个语料库中的相对重要性。
TFIDF分数由两部分组成,第一部分是计算标准的词语频率(TF),第二部分是逆文档频率(IDF)。
其中计算语料库中文档总数除以含有该词语的文档数量,然后再取对数就是逆文档频率。
TFIDF中的TF表达式示:
TFIDF中的IDF表达式示:
TFIDF向量可以由不同级别的分词产生(单个词语,词性,多个词(n-grams))。具体示:
导入相应的模块示:
读取word文件中的内容示:
进行中文划词,并将其转化为DataFrame类型,方便删除不许要的数据。示:
划分结果示:
利用info方法查看数据的详细信息,示:
筛选出需要删除的数据,得到一组布尔值。示:
0得到的布尔数组。示:
1利用布尔索引,删除bool值为False的数据。示:
2删除无关的的数据后,数据的信息示:
3从上可以看到索引不在连续。
14删除数据后会,剩下数据的索引将不再连续,为了方便后续索引,故重置索引。示:
5重置索引的数据示:
6接下来用TFIDF向量作为特征。实例化TFIDF类,示:
7转换训练数据,示:
8经过TFIDF转换后的数据是一个稀疏矩阵,示:
9为方便观察转化后的数据,将其转化为DataFrame类型,示:
0经过TFIDF转化后的特征向量示:
https://www.izhinan.cn/article-147201-1.html以上内容就是关于【机器学习——TF-IDF特征向量 】的指南经验分享;您也可以通过下方的评论互动,发表您的意见和观点,让更多人通过生活指南经验分享因之受益,让生活变得更简单。