In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba
import pandas as pd

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

# jieba

In [7]:
def cut_word(text: str) -> list[str]:
    """
    :param str:
    :return: list[str]
    """

    # jieba返回对象,使用list转换    使用空格分开字词
    text = " ".join(list(jieba.cut(text)))
    return text

# 文本特征提取

In [8]:
data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
        "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
        "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

## 将原始数据转换成分好词的形式

In [9]:
text_list = []
for text in data:
    text_list.append(cut_word(text))
text_list

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.901 seconds.
Prefix dict has been built successfully.


['一种 还是 一种 今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。',
 '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。',
 '如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']

# TfidfVectorizer

In [10]:
# stop_words 停止词
transfer = TfidfVectorizer(stop_words=['一种', '不会', '不要'])

In [12]:
data_trans = transfer.fit_transform(text_list)
data_trans.toarray()

array([[0.        , 0.        , 0.        , 0.43643578, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.21821789,
        0.        , 0.21821789, 0.        , 0.        , 0.        ,
        0.        , 0.21821789, 0.21821789, 0.        , 0.43643578,
        0.        , 0.21821789, 0.        , 0.43643578, 0.21821789,
        0.        , 0.        , 0.        , 0.21821789, 0.21821789,
        0.        , 0.        , 0.21821789, 0.        ],
       [0.2410822 , 0.        , 0.        , 0.        , 0.2410822 ,
        0.2410822 , 0.2410822 , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.2410822 ,
        0.55004769, 0.        , 0.        , 0.        , 0.        ,
        0.2410822 , 0.        , 0.        , 0.        , 0.        ,
        0.48216441, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.2410822 , 0.        , 0.2410822 ],
       [0.        , 0.644003  , 0.48300225, 0.        , 0.        ,
  

In [13]:
transfer.get_feature_names_out()

array(['之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天',
       '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系',
       '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去',
       '还是', '这样'], dtype=object)

In [14]:
pd.DataFrame(data_trans.toarray(), columns=transfer.get_feature_names_out())

Unnamed: 0,之前,了解,事物,今天,光是在,几百万年,发出,取决于,只用,后天,...,每个,看到,真正,秘密,绝对,美好,联系,过去,还是,这样
0,0.0,0.0,0.0,0.436436,0.0,0.0,0.0,0.0,0.0,0.218218,...,0.218218,0.0,0.0,0.0,0.218218,0.218218,0.0,0.0,0.218218,0.0
1,0.241082,0.0,0.0,0.0,0.241082,0.241082,0.241082,0.0,0.0,0.0,...,0.0,0.482164,0.0,0.0,0.0,0.0,0.0,0.241082,0.0,0.241082
2,0.0,0.644003,0.483002,0.0,0.0,0.0,0.0,0.161001,0.161001,0.0,...,0.0,0.0,0.322001,0.161001,0.0,0.0,0.161001,0.0,0.0,0.0
