In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
print(pd.__version__)

2.1.4


In [2]:
corpus = [
    "Tune a hyperparameter.",
    "You can tune a piano but you can't tune a fish.",
    "Fish who eat fish, catch fish.",
    "People can tune a fish or a hyperparameter.",
    "It is hard to catch fish and tune it.",
]

BoW (Bag of Words) - это модель представления текста, которая игнорирует грамматику и порядок слов, но сохраняет частоту появления слов. Она представляет текст как "мешок" (или набор) слов.

Пример BoW: Возьмем предложение "Кошка сидит на коврике". BoW представит его как словарь: {"кошка": 1, "сидит": 1, "на": 1, "коврике": 1}. Если у нас есть другое предложение "Собака лежит на коврике", его представление будет: {"собака": 1, "лежит": 1, "на": 1, "коврике": 1}.

Ограничения BoW: Этот метод не учитывает порядок слов и контекст, что может привести к потере важной информации. Также он не различает важность слов - частые, но малоинформативные слова (например, "и", "или") имеют такой же вес, как и редкие, но значимые слова.

In [6]:
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(corpus)
pd.DataFrame(X.A, columns=vectorizer.get_feature_names_out())

Unnamed: 0,catch,eat,fish,hard,hyperparameter,people,piano,tune
0,0,0,0,0,1,0,0,1
1,0,0,1,0,0,0,1,2
2,1,1,3,0,0,0,0,0
3,0,0,1,0,1,1,0,1
4,1,0,1,1,0,0,0,1


TF-IDF решает некоторые проблемы BoW. TF (Term Frequency) - это частота слова в документе, а IDF (Inverse Document Frequency) - обратная частота документа, содержащего это слово.

Вычисление TF-IDF:

- TF = (количество вхождений слова в документ) / (общее количество слов в документе)
- IDF = log((общее количество документов) / (количество документов, содержащих слово))
- TF-IDF = TF * IDF

Преимущества TF-IDF: Этот метод учитывает важность слова не только в рамках одного документа, но и во всем корпусе документов. Редкие слова получают больший вес, а частые, но малоинформативные слова - меньший.

In [4]:
vectorizer = TfidfVectorizer(stop_words='english', use_idf=False)
X = vectorizer.fit_transform(corpus)
df = pd.DataFrame(np.round(X.A,3), columns=vectorizer.get_feature_names_out())
df

Unnamed: 0,catch,eat,fish,hard,hyperparameter,people,piano,tune
0,0.0,0.0,0.0,0.0,0.707,0.0,0.0,0.707
1,0.0,0.0,0.408,0.0,0.0,0.0,0.408,0.816
2,0.302,0.302,0.905,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.5,0.0,0.5,0.5,0.0,0.5
4,0.5,0.0,0.5,0.5,0.0,0.0,0.0,0.5


In [5]:
vectorizer = TfidfVectorizer(stop_words='english')
X = vectorizer.fit_transform(corpus)
df = pd.DataFrame(np.round(X.A,3), columns=vectorizer.get_feature_names_out())
df

Unnamed: 0,catch,eat,fish,hard,hyperparameter,people,piano,tune
0,0.0,0.0,0.0,0.0,0.82,0.0,0.0,0.573
1,0.0,0.0,0.35,0.0,0.0,0.0,0.622,0.701
2,0.38,0.471,0.796,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.373,0.0,0.534,0.661,0.0,0.373
4,0.534,0.0,0.373,0.661,0.0,0.0,0.0,0.373
