<a href="https://colab.research.google.com/github/PavelNovikov888/data_science/blob/main/%D0%92%D0%95%D0%9A%D0%A2%D0%9E%D0%A0%D0%98%D0%97%D0%90%D0%A6%D0%98%D0%AF_%D0%A2%D0%95%D0%9A%D0%A1%D0%A2%D0%9E%D0%92.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ВЕКТОРИЗАЦИЯ ТЕКСТОВ
Алгоритмы машинного обучения не могут напрямую работать с сырым текстом, поэтому необходимо конвертировать текст в наборы цифр (векторы). Это называется извлечением признаков.

Мешок слов — это популярная и простая техника извлечения признаков, используемая при работе с текстом. Она описывает вхождения каждого слова в текст.

Чтобы использовать модель, нужно:

Определить словарь известных слов (токенов).
Выбрать степень присутствия известных слов.
Любая информация о порядке или структуре слов игнорируется. Вот почему это называется мешком слов. Эта модель пытается понять, встречается ли знакомое слово в документе, но не знает, где именно оно встречается.

Интуиция подсказывает, что схожие документы имеют схожее содержимое. Также благодаря содержимому мы можем узнать кое-что о смысле документа.

## ПРИМЕР
Рассмотрим шаги создания этой модели. Мы используем только четыре предложения, чтобы понять, как работает модель; в реальной жизни вы столкнетесь с бОльшими объёмами данных.



```
 documents = ["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']
```


Определяем словарь и создаём векторы документа. Соберём все уникальные слова из четырёх загруженных предложений, игнорируя регистр, пунктуацию и односимвольные токены. Это и будет наш словарь (известные слова).

Для создания словаря можно использовать класс CountVectorizer из библиотеки sklearn.
```
 from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

count_vectorizer = CountVectorizer()

# Создаем the Bag-of-Words модель
bag_of_words = count_vectorizer.fit_transform(documents)

# Отобразим Bag-of-Words модель как DataFrame
feature_names = count_vectorizer.get_feature_names_out()
pd.DataFrame(bag_of_words.toarray(), columns = feature_names)
```

In [2]:
documents = ["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

count_vectorizer = CountVectorizer()

# Создаем the Bag-of-Words модель
bag_of_words = count_vectorizer.fit_transform(documents)

# Отобразим Bag-of-Words модель как DataFrame
feature_names = count_vectorizer.get_feature_names_out()
pd.DataFrame(bag_of_words.toarray(), columns = feature_names)

Unnamed: 0,awesome,funny,hate,it,like,love,movie,nice,one,this,was
0,0,1,0,1,1,0,1,0,0,1,0
1,0,0,1,0,0,0,1,0,0,1,0
2,1,0,0,1,1,0,0,0,0,1,1
3,0,0,0,1,0,1,0,1,1,0,0


Когда размер словаря увеличивается, вектор документа тоже растёт. В примере выше длина вектора равна количеству известных слов.

У нас может быть неимоверно большой объём данных, и тогда вектор может состоять из тысяч или миллионов элементов. Более того, каждый документ может содержать лишь малую часть слов из словаря.

Как следствие, в векторном представлении будет много нулей. Векторы с большим количеством нулей называются разреженными векторами (sparse vectors). Они требуют больше памяти и вычислительных ресурсов. Частично эту проблему можно решить хорошей предобработкой.

Мешок N-грамм — другой, более сложный способ создания словаря, который использует сгруппированные слова. Это изменит размер словаря и даст мешку слов больше деталей о документе. Такой подход называется «N-грамма».

N-грамма — это последовательность каких-либо сущностей (слов, букв, чисел, цифр и так далее). В контексте языковых корпусов под N-граммой обычно понимают последовательность слов. Цифра N обозначает, сколько сгруппированных слов входит в N-грамму.  Юниграмма — это одно слово, биграмма — это последовательность двух слов, триграмма — три слова и так далее. В модель попадают не все возможные N-граммы, а только те, что фигурируют в корпусе.



## ПРИМЕР
Рассмотрим такое предложение: The office building is open today

Вот его биграммы:

*   the office
*   office building
*   building is
*   is open
*   open today

Как видно, мешок биграмм — это более действенный подход, чем мешок слов.

In [40]:
from nltk.util import ngrams
from collections import Counter
text = "I like this movie, it's funny. I hate this movie. This was awesome! I like it. Nice one. I love it."
#количество элементов в n-грамме
n_gram = 2
tokenized = text.split()
#разделяем на н-граммы текст
bigrams = ngrams(tokenized, n_gram)
print(list(bigrams))
# считаем количество н-грамм в тексте
Counter(ngrams(tokenized, n_gram))

[('I', 'like'), ('like', 'this'), ('this', 'movie,'), ('movie,', "it's"), ("it's", 'funny.'), ('funny.', 'I'), ('I', 'hate'), ('hate', 'this'), ('this', 'movie.'), ('movie.', 'This'), ('This', 'was'), ('was', 'awesome!'), ('awesome!', 'I'), ('I', 'like'), ('like', 'it.'), ('it.', 'Nice'), ('Nice', 'one.'), ('one.', 'I'), ('I', 'love'), ('love', 'it.')]


Counter({('I', 'like'): 2,
         ('like', 'this'): 1,
         ('this', 'movie,'): 1,
         ('movie,', "it's"): 1,
         ("it's", 'funny.'): 1,
         ('funny.', 'I'): 1,
         ('I', 'hate'): 1,
         ('hate', 'this'): 1,
         ('this', 'movie.'): 1,
         ('movie.', 'This'): 1,
         ('This', 'was'): 1,
         ('was', 'awesome!'): 1,
         ('awesome!', 'I'): 1,
         ('like', 'it.'): 1,
         ('it.', 'Nice'): 1,
         ('Nice', 'one.'): 1,
         ('one.', 'I'): 1,
         ('I', 'love'): 1,
         ('love', 'it.'): 1})

У частотного скоринга есть проблема: слова с наибольшей частотностью имеют наибольшую оценку. В этих словах может быть не так много информационного выигрыша для модели, как в менее частых словах. Один из способов исправить ситуацию — понижать оценку слова, которое часто встречается во всех схожих документах. Этот подход называется TF-IDF.

TF-IDF (сокращение от term frequency — inverse document frequency) — это статистическая мера для оценки важности слова в документе, который является частью коллекции или корпуса. Скоринг по TF-IDF растёт пропорционально частоте появления слова в документе, но это компенсируется количеством документов, содержащих это слово.

In [41]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
document = ["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']
tfidf_vectorizer = TfidfVectorizer()
values = tfidf_vectorizer.fit_transform(document)
# Show the Model as a pandas DataFrame
feature_names = tfidf_vectorizer.get_feature_names_out()
pd.DataFrame(values.toarray(), columns = feature_names)

Unnamed: 0,awesome,funny,hate,it,like,love,movie,nice,one,this,was
0,0.0,0.571848,0.0,0.365003,0.450852,0.0,0.450852,0.0,0.0,0.365003,0.0
1,0.0,0.0,0.702035,0.0,0.0,0.0,0.553492,0.0,0.0,0.4481,0.0
2,0.539445,0.0,0.0,0.344321,0.425305,0.0,0.0,0.0,0.0,0.344321,0.539445
3,0.0,0.0,0.0,0.345783,0.0,0.541736,0.0,0.541736,0.541736,0.0,0.0


Подсчёты и частоты могут быть очень полезны, но одним из ограничений этих методов является возможный большой объём словарного запаса. Это, в свою очередь, потребует больших векторов для кодирования документов, налагает большие требования к памяти и замедляет алгоритмы.

Умный обходной путь — использовать односторонний хеш слов, чтобы преобразовать их в целые числа. Словарь в таком случае не требуется, и вы можете выбрать произвольный длинный вектор фиксированной длины.

Недостатком является то, что хеш является односторонней функцией, поэтому нет способа преобразовать кодировку обратно в слово (что может не иметь значения для многих контролируемых задач обучения).

Класс HashingVectorizer реализует этот подход, и его можно использовать для последовательного хеширования слов, а затем для токенизации и кодирования документов по мере необходимости.

Пример ниже демонстрирует HashingVectorizer для кодирования одного документа.

In [44]:
from sklearn.feature_extraction.text import HashingVectorizer
document = ["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']
vectorizer = HashingVectorizer(n_features=2**4)
values = vectorizer.fit_transform(document)
# Show the Model as a pandas DataFrame
pd.DataFrame(values.toarray())

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,0.377964,0.0,0.0,0.0,0.0,0.0,0.0,-0.377964,0.0,0.0,-0.377964,0.0,0.0,0.0,0.755929,0.0
1,0.0,0.0,0.0,-0.57735,0.0,0.0,0.0,0.0,0.0,0.0,-0.57735,0.0,0.0,0.0,0.57735,0.0
2,0.0,0.447214,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.894427,0.0
3,0.0,0.0,0.0,0.0,-0.5,0.0,0.0,0.0,0.0,-0.5,0.0,0.0,0.0,0.5,0.5,0.0
