关键词：在某一个类别的文章中，出现的次数很多，但是在其他类别的文章当中出现很少

方法：TfidVectorizer

* TF-IDF 主要思想：如果**某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现**，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
* TF-IDF 作用：**用以评估一字词对于一个文件或一个语料库的其中一份文件的重要程度**。

1. 公式
* TF: 词频（Term Frequency）指的是某一个给定的词语在该文件中出现的频率
* IDF: 逆向文档频率（Inverse document Frequency）是一个词语普遍重要性的度量。某一特定词语的IDF，可以**由总文件数除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到**

   $tfidf_{i,j} = tf_{i,j} \times idf_{i}$

   **例子**：  
   语料库有1000篇文章  
   有100篇文章包含“非常”  
   有10篇文章包含“经济”  
   现在有两篇文章：
   * 文章A包含100个词，其中10次“经济”  
      * tf: $10/100 = 0.1$
      * idf: $\lg{(1000/10)} = \lg{100} = 2 $
      * $tfidf = 0.1 \times 2 = 0.2$
   * 文章B包含100个词，其中10次“非常”
      * tf: $10/100 = 0.1$
      * idf: $\lg{(1000/100)} = \lg{10} = 1$  
      * $tfidf = 0.1 \times 1 = 0.1$

2. API
* sklearn.feature_extraction.text.TfidfVectorizer(stop_words = None,...)
* 返回词的权重矩阵
   * TfidfVectorizer.fit_transform(X)
      * X: 文本或者包含文本字符串的可迭代对象
      * 返回值：返回sparse矩阵
   * TfidfVectorizer.inverse_transform(X)
      * X: array数组 或者 sparse矩阵
      * 返回值：转换之前数据格式
   * TfidfVectorizer.get_feature_names()
      * 返回值：单词列表

In [6]:
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

def cut_word(text):
    return " ".join(jieba.cut(text))

def tfidf_demo():
    """
    用TF-IDF的方法进行文本特征抽取
    :return:
    """
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))

    transfer = TfidfVectorizer(stop_words=["一种"])

    data_final = transfer.fit_transform(data_new)

    print(data_final.toarray())
    print("特征名字：\n", transfer.get_feature_names_out())

    return None

if __name__ == "__main__":
    tfidf_demo()

[[0.         0.21320072 0.         0.         0.         0.42640143
  0.         0.         0.         0.         0.         0.21320072
  0.         0.21320072 0.         0.         0.         0.
  0.21320072 0.21320072 0.         0.42640143 0.         0.21320072
  0.         0.42640143 0.21320072 0.         0.         0.
  0.21320072 0.21320072 0.         0.         0.21320072 0.        ]
 [0.         0.         0.2410822  0.         0.         0.
  0.2410822  0.2410822  0.2410822  0.         0.         0.
  0.         0.         0.         0.         0.2410822  0.55004769
  0.         0.         0.         0.         0.2410822  0.
  0.         0.         0.         0.48216441 0.         0.
  0.         0.         0.         0.2410822  0.         0.2410822 ]
 [0.15895379 0.         0.         0.63581516 0.47686137 0.
  0.         0.         0.         0.15895379 0.15895379 0.
  0.15895379 0.         0.15895379 0.15895379 0.         0.12088845
  0.         0.         0.15895379 0.     