## **sklearn学习笔记2**⭐

#### 🧰[***sklearn.feature_extraction.text.TfidfVectorizer***](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer)
```python
class sklearn.feature_extraction.text.TfidfVectorizer(*, input='content', encoding='utf-8', decode_error='strict', strip_accents=None, 
lowercase=True, preprocessor=None, tokenizer=None, analyzer='word', stop_words=None, token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), 
max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class 'numpy.float64'>, 
norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False)
```
- 作用：将原始文档集合转换为TF-IDF功能矩阵。  
  (Convert a collection of raw documents to a matrix of TF-IDF features.)
- Parameters：
  - 🌡️ <b><i><font color=#FF0000 > input:{‘filename’, ‘file’, ‘content’}, default=’content’ </font></i></b> ✔️
    - 如果为 `filename` ，则作为参数传递的序列应为需要读取以获取原始内容以进行分析的文件名列表。
    - 如果为 `file` ，序列项必须具有“read”方法（类似文件的对象），该方法被调用以获取内存中的字节。
    - 如果为 `content` ，则输入应为字符串或字节类型的项序列。
  - ***encoding:str, default=’utf-8’***  
    - 如果要分析字节或文件，则使用此编码进行解码。
  - ***decode_error:{‘strict’, ‘ignore’, ‘replace’}, default=’strict’***  
    - 关于如果要分析的字节序列包含不属于给定编码的字符，该如何说明。  
    默认情况下，它是 `strict` ，这意味着将引发UnicodeDecodeError。其他值为“忽略”和“替换”。
  - ***strip_accents:{‘ascii’, ‘unicode’}, default=None***  
    - 在预处理步骤中删除重音并执行其他字符规范化，  
      `ascii` 是一种快速方法，仅适用于具有直接ASCII映射的字符，  
      `unicode` 是一种稍慢的方法，适用于任何字符。无（默认值）不执行任何操作。
  - ***lowercase:bool, default=True***  
    - 在标记化之前，将所有字符转换为小写。
  - ***preprocessor:callable, default=None***  
    - 覆盖 preprocessing（strip_accents 和 lowercase）阶段，同时保留 tokenizing 和 n-grams generation 步骤。  
    仅当 analyzer 不可调用时才适用。
  - ***tokenizer:callable, default=None***  
    - 覆盖 string tokenization 步骤，同时保留 preprocessing 和 n-grams generation 步骤。  
    仅当 analyzer=='word' 时才适用。
  - ***stop_words:{‘english’}, list, default=None***  
    - 如果是 `english` ，则使用内置的英语停止词列表。  
    - 如果是 列表，则假定该列表包含停止词，所有这些都将从生成的标记中删除。  
      仅当 analyzer=='word' 时才适用。
    - 如果 `None` ，则不会使用停止词。
  - ***token_pattern:str, default=r”(?u)\b\w\w+\b”***  
    - 正则表达式，表示什么构成 'token'，仅在 analyzer=='word' 时使用。  
      默认选择2个或更多字母数字字符的标记（标点符号被完全忽略，并且始终被视为标记分隔符）。
  - 🌡️ <b><i><font color=#FF0000 > ngram_range:tuple (min_n, max_n), default=(1, 1) </font></i></b> ✔️
    - 要提取的不同单词n-gram或字符n-gram的n值范围的下限和上限。  
      ngram_range为（1，1）表示仅单字，（1，2）表示单字和双字，（2，2）仅表示双字。  
      仅当 analyzer 不可调用时才适用。
  - ***analyzer:{‘word’, ‘char’, ‘char_wb’} or callable, default=’word’***  
    - 特征应该由单词n-gram还是字符n-gram组成。  
      选项 `char_wb` 仅从单词边界内的文本创建字符n-gram；单词边缘的n-gram用空格填充。
  - ***max_df:float in range [0.0, 1.0] or int, default=1.0***  
    - 构建词汇表时，忽略文档频率严格高于给定阈值的术语（语料库特定的停止词）。  
      如果为float，则参数表示文档的比例，整数绝对计数。如果词汇表不是None，则忽略此参数。
  - ***min_df:float in range [0.0, 1.0] or int, default=1***  
    - 构建词汇表时，忽略文档频率严格低于给定阈值的术语。该值在文献中也称为截止值。    
      如果为float，则参数表示文档的比例，整数绝对计数。如果词汇表不是None，则忽略此参数。
  - ***max_features:int, default=None***  
    - 如果不是 `None` ，则构建一个词汇表，该词汇表只考虑语料库中按词频排序的最大特征。  
      如果词汇表不是None，则忽略此参数。
  - ***vocabulary:Mapping or iterable, default=None***  
    - 映射（例如，dict），其中键是项，值是特征矩阵中的索引，或者是可迭代项。  
      如果没有给出，则根据输入文档确定词汇表。  
      映射中的索引不应重复，并且在0和最大索引之间不应有任何间隙。
  - 🌡️ <b><i><font color=#FF0000 > binary:bool, default=False </font></i></b> ✔️
    - 如果为 `True` ，则所有非零计数都设置为1。  
      这对于建模二进制事件而非整数计数的离散概率模型非常有用。
  - ***dtype:type, default=np.int64***  
    - fit_transform()或transformm()返回的矩阵类型。 
  - 🔥 <b><i><font color=green >norm:{‘l1’, ‘l2’}, default=’l2’</font></i></b> ⭕
    - 每个输出行将具有单位范数，或者：
      - `l2`：矢量元素的平方和为1。当应用l2范数时，两个矢量之间的余弦相似度是它们的点积。
      - `l1`：矢量元素的绝对值之和为1。
  - 🔥 <b><i><font color=green >use_idf:bool, default=True</font></i></b> ⭕
    - 启用反向文档频率重新加权。如果为False，则 $idf(t)=1$。
  - 🔥 <b><i><font color=green >smooth_idf:bool, default=True</font></i></b> ⭕
    - 通过向文档频率添加一个来平滑idf权重，就像看到一个额外的文档恰好包含了集合中的每个术语一样。  
      防止零分割。
  - 🔥 <b><i><font color=green >sublinear_tf:bool, default=False</font></i></b> ⭕
    - 应用次线性tf缩放，即将tf替换为 $1+log(tf)$。

| **Methods**                                                  | **Method Description**                       |
| :----------------------------------------------------------- | :------------------------------------------- |
| [`build_analyzer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.build_analyzer)() | 返回处理输入数据的可调用函数。               |
| [`build_preprocessor`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.build_preprocessor)() | 返回一个函数，在标记化之前对文本进行预处理。 |
| [`build_tokenizer`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.build_tokenizer)() | 返回将字符串拆分为标记序列的函数。           |
| [`decode`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.decode)(doc) | 将输入解码为一串unicode符号。                |
| [`fit`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.fit)(raw_documents[, y]) | 学习原始文档中所有标记的词汇词典。           |
| [`fit_transform`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.fit_transform)(raw_documents[, y]) | 学习词汇词典并返回文档术语矩阵。             |
| [`get_feature_names_out`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.get_feature_names_out)([input_features]) | 获取用于转换的输出功能名称。                 |
| [`get_params`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.get_params)([deep]) | 获取此估计器的参数。                         |
| [`get_stop_words`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.get_stop_words)() | 建立或获取有效的停止词列表。                 |
| [`inverse_transform`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.inverse_transform)(X) | 返回X中非零条目的每个文档的术语。            |
| [`set_params`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.set_params)(**params) | 设置此估计器的参数。                         |
| [`transform`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.transform)(raw_documents) | 将文档转换为文档术语矩阵。                   |

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
     'This is the first document.',
     'This document is the second document.',
     'And this is the third one.',
     'Is this the first document?', ]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
vectorizer.get_feature_names_out()

array(['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third',
       'this'], dtype=object)

In [4]:
print(X.toarray())
print(X.shape)

[[0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]
 [0.         0.6876236  0.         0.28108867 0.         0.53864762
  0.28108867 0.         0.28108867]
 [0.51184851 0.         0.         0.26710379 0.51184851 0.
  0.26710379 0.51184851 0.26710379]
 [0.         0.46979139 0.58028582 0.38408524 0.         0.
  0.38408524 0.         0.38408524]]
(4, 9)
