TF-IDF
----
使用TF-IDF，可以来反应词的权重问题。从而在特征提取的中，有更加符合我们要求的特征。

In [5]:
# 方法1：使用sklearn来学习得到每个词的TF-IDF的值
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import os
import jieba

In [10]:
file_path="../data/nlp_test0.txt"
# 导入用户词典
jieba.suggest_freq("沙瑞金",True)
jieba.suggest_freq("金山",True)
jieba.suggest_freq("李达康",True)
jieba.suggest_freq("易学习",True)
jieba.suggest_freq("王大路",True)

1

读取数据，分词
--

In [24]:
with open(file_path,'r',encoding='utf-8') as fp:
    texts=fp.read()
    texts_cut=list(jieba.cut(texts))
    # 只取十个词进行分析
    texts_cut=texts_cut[:10]
    print(texts_cut)

['沙瑞金', '赞叹', '易学习', '的', '胸怀', '，', '是', '金山', '的', '百姓']


向量化与使用TF-IDF来生成权值
---
将我们得到的分词之后的内容进行向量化
通过这个的处理过程，我们可以发现使用基于sklearn的方式，会自动的帮助我们去除停用词

In [31]:
# 初始化
vectorizer=CountVectorizer()
transform=TfidfTransformer()

tf_idf=transform.fit_transform(vectorizer.fit_transform(texts_cut))
print(tf_idf)

  (0, 1)	1.0
  (1, 4)	1.0
  (2, 0)	1.0
  (4, 3)	1.0
  (7, 5)	1.0
  (9, 2)	1.0


In [32]:
# 怎么将学到的内容与具体的词相联系起来，即完成一个可视化的工作。

word=vectorizer.get_feature_names()#获取词袋模型中的所有词语
weight=tf_idf.toarray()
for i in range(len(weight)):
    print("-------这里输出第",i,"类文本的词语tf-idf权重------")
    for j in range(len(word)):
        print(word[j],weight[i][j])
        

-------这里输出第 0 类文本的词语tf-idf权重------
易学习 0.0
沙瑞金 1.0
百姓 0.0
胸怀 0.0
赞叹 0.0
金山 0.0
-------这里输出第 1 类文本的词语tf-idf权重------
易学习 0.0
沙瑞金 0.0
百姓 0.0
胸怀 0.0
赞叹 1.0
金山 0.0
-------这里输出第 2 类文本的词语tf-idf权重------
易学习 1.0
沙瑞金 0.0
百姓 0.0
胸怀 0.0
赞叹 0.0
金山 0.0
-------这里输出第 3 类文本的词语tf-idf权重------
易学习 0.0
沙瑞金 0.0
百姓 0.0
胸怀 0.0
赞叹 0.0
金山 0.0
-------这里输出第 4 类文本的词语tf-idf权重------
易学习 0.0
沙瑞金 0.0
百姓 0.0
胸怀 1.0
赞叹 0.0
金山 0.0
-------这里输出第 5 类文本的词语tf-idf权重------
易学习 0.0
沙瑞金 0.0
百姓 0.0
胸怀 0.0
赞叹 0.0
金山 0.0
-------这里输出第 6 类文本的词语tf-idf权重------
易学习 0.0
沙瑞金 0.0
百姓 0.0
胸怀 0.0
赞叹 0.0
金山 0.0
-------这里输出第 7 类文本的词语tf-idf权重------
易学习 0.0
沙瑞金 0.0
百姓 0.0
胸怀 0.0
赞叹 0.0
金山 1.0
-------这里输出第 8 类文本的词语tf-idf权重------
易学习 0.0
沙瑞金 0.0
百姓 0.0
胸怀 0.0
赞叹 0.0
金山 0.0
-------这里输出第 9 类文本的词语tf-idf权重------
易学习 0.0
沙瑞金 0.0
百姓 1.0
胸怀 0.0
赞叹 0.0
金山 0.0


In [33]:
# 或者是直接一步到位
from sklearn.feature_extraction.text import TfidfVectorizer
transformers=TfidfVectorizer()
tfidf=transformers.fit_transform(texts_cut)
print(tfidf)

  (0, 1)	1.0
  (1, 4)	1.0
  (2, 0)	1.0
  (4, 3)	1.0
  (7, 5)	1.0
  (9, 2)	1.0


方法二：使用自定义的Python函数去计算TF-IDF
----
那么这个主要的难点就是我们计算每个词的TF以及计算IDF值。

In [40]:
# 在这个实例中，我们使用英文的corpus作为训练语料
from collections import Counter
corpus = [
    'this is the first document',
    'this is the second second document',
    'and the third one',
    'is this the first document'
]

步骤1：对语料进行分词

In [41]:
word_list=list()
for i in range(len(corpus)):
    word_list.append(corpus[i].split(" "))
word_list

[['this', 'is', 'the', 'first', 'document'],
 ['this', 'is', 'the', 'second', 'second', 'document'],
 ['and', 'the', 'third', 'one'],
 ['is', 'this', 'the', 'first', 'document']]

步骤2：统计词频

In [45]:
count_list=list()
for i in range(len(word_list)):
    count=Counter(word_list[i])
    count_list.append(count)
count_list

[Counter({'this': 1, 'is': 1, 'the': 1, 'first': 1, 'document': 1}),
 Counter({'this': 1, 'is': 1, 'the': 1, 'second': 2, 'document': 1}),
 Counter({'and': 1, 'the': 1, 'third': 1, 'one': 1}),
 Counter({'is': 1, 'this': 1, 'the': 1, 'first': 1, 'document': 1})]

步骤3：定义计算TF-IDF公式

In [1]:
import math
class CalculateTFIDF(object):
    
    def __init__(self) -> None:
        super().__init__()

    def __tf(self,word,count):
        # count[word]可以得到每个单词的词频， sum(count.values())得到整个句子的单词总数
        return count[word] / sum(count.values())
    
    # 统计的是含有该单词的句子数
    def __n_containing(self,word, count_list):
        return sum(1 for count in count_list if word in count)
 
    # len(count_list)是指句子的总数，n_containing(word, count_list)是指含有该单词的句子的总数，加1是为了防止分母为0
    def __idf(self,word, count_list):
        return math.log(len(count_list) / (1 + n_containing(word, count_list)))

    # 将tf和idf相乘
    def tfidf(self,word, count, count_list):
        return self.__tf(word, count) * self.__idf(word, count_list)