# Классификация текста
Одним из наиболее распространенных применений бинарной классификации является анализ эмоциональной окраски, например отзыв о товаре, комментарий, оставленный на сайте, оценивается по шкале от 0,0 до 1,0, где 0,0 - негативность, а 1,0 - позитивность. Такой отзыв, как "отличный продукт по отличной цене", может получить 0,9 балла, а "продукт по завышенной цене, который почти не работает" - 0,1 балла. Балл - это вероятность того, что текст выражает положительное настроение. 

Анализ эмоциональной окраски - это один из примеров задачи, в которой классифицируются текстовые, а не числовые данные. Поскольку машинное обучение работает с числами, перед обучением модели спам, или любой текст, необходимо преобразовать в числа. Распространенным подходом является построение таблицы частот слов, называемой мешок слов (bag of words).  В библиотеке Scikit-Learn имеются классы для преобразования, для нормализации текста и т.д.

# Подготовка текста к классификации
Прежде чем обучать модель классификации текста, необходимо преобразовать текст в числа - этот процесс называется **векторизацuей**. До этого была приведена пример, демонстрирующая распространенную методику векторизации текста. Каждая строка представляет собой образец текста, например, рецензию на фильм, а каждый столбец - слово в обучающем тексте. Числа в строках - это количество слов, а последнее число в каждой строке - это метка: 0 - отрицательная, 1 - положительная.

<img src="Data/Complex dataset.JPG" align='left'/>

Перед векторизацией текст обычно подвергается очистке. В качестве примеров очистки можно привести преобразование символов в строчные (например, Excellent будет эквивалентно excellent), удаление знаков препинания и, по желанию, удаление стоп-слов - таких распространенных слов, как the и and, которые, скорее всего, не окажут существенного влияния на результат. После очистки предложения разбиваются на отдельные слова (токенизируются), и эти слова используются для создания наборов данных.

В Scikit-Learn есть три класса, которые выполняют основную часть работы по очистке и векторизации текста.

- CountVectorizer -cоздает словарь (vocabulary) из массива слов в обучающем тексте и формирует
матрицу количества слов, подобную выше.
- HashingVectorizer - использует хеши слов, а не словарь в памяти для получения количества слов и,
следовательно, более экономичен с точки зрения памяти.
- TfidfVectorizer - создает словарь из предоставленных слов и формирует матрицу, аналогичную
приведенной на рисунке выше, но вместо целочисленного количества слов матрица содержит значения частоты терминов и обратной частоты документов (term frequency, inverse document frequency, TFIDF) от 0,0 до 1,0 отражающие относительную важность отдельных слов.

Все три класса способны преобразовывать текст в строчные буквы, удалять знаки препинания, удалять стоп-слова, разбивать предложения на отдельные слова и т. д.
Они также поддерживают n-граммы, представляющие собой комбинации двух или более последовательных слов (число п задается пользователем), которые должны рассматриваться как одно слово. Идея заключается в том, что такие слова, как credit и score, могут быть более значимыми, если они встречаются в предложении рядом друг с другом, чем если они находятся далеко друг от друга. 

Нейронные сети имеют другие более мощные способы учета порядка слов, которые не требуют, что связанные слова находились рядом с друг другом. Обычная модель машинного обучения не может связать слова "синий" и "небо" в предложении "Мне нравиться синий, потому что это цвет неба", а нейронная сеть сможет. 

**Д/з** конспектировать нейросети

In [4]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
lines = [
'Four score and 7 years ago our fathers brought forth,',
' ... а new NATION, conceived in liberty $$$,',
'and dedicated to the PrOpOsltloN that all mеn аге created equal',
'One nation\'s freedom equals #freedom fог another $nation!'
]
# Осуществляем векторизацию
vectorizer = CountVectorizer(stop_words='english')
word_matrix = vectorizer.fit_transform(lines)
# Показываем резулЬl'luру1а4Ую ма~рицу слов
feature_names = vectorizer.get_feature_names_out()
line_names = [f'Line {(i + 1):d}' for i, _ in enumerate(word_matrix)]
df = pd.DataFrame(data=word_matrix.toarray(), index=line_names, columns=feature_names)
df .head()

Unnamed: 0,ago,brought,conceived,created,dedicated,equal,equals,fathers,forth,freedom,fог,liberty,mеn,nation,new,proposltlon,score,years,аге
Line 1,1,1,0,0,0,0,0,1,1,0,0,0,0,0,0,0,1,1,0
Line 2,0,0,1,0,0,0,0,0,0,0,0,1,0,1,1,0,0,0,0
Line 3,0,0,0,1,1,1,0,0,0,0,0,0,1,0,0,1,0,0,1
Line 4,0,0,0,0,0,0,1,0,0,2,1,0,0,2,0,0,0,0,0


В данном случае блок текста представляет собой четыре строки в списке языка Python. Класс CountVectoгizer разбил строки на слова, удалил стоп-слова и символы, а все оставшиеся слова перевел в нижний регистр. Эти слова составляют столбцы набора данных, а числа в строках показывают, сколько раз данное слово встречается в каждой строке. Параметр stop_words=' english' указывает CountVectoгizer на удаление стоп-слов с помощью встроенного словаря, содержащего более 300 англоязычных стоп-слов. При желании можно предоставить собственный список стопслов в виде списка на языке Python. (Или можно оставить стоп-слова; часто это не имеет значения.) А если вы работаете с текстом, написанным на другом языке, списки мультиязычных стоп-слов можно получить из других библиотек Python, таких  как Natural Language Toolkit (NLТК) и Stop-words.

Из вывода видно, что слова equal и equals считаются отдельными словами, несмотря на то что они имеют схожее значение. При подготовке текста к машинному обучению специалисты по исследованию данных иногда идут еще дальше, выполняя стемминг или лемматизацию слов.
Если бы предыдущий текст был стемминговым, то все вхождения equals были бы преобразованы в equal. В Scikit отсутствует поддержка стемминга и лемматизации, но ее можно получить из других библиотек, например NLТК.

Класс CountVectoгizer удаляет знаки препинания, но не удаляет цифры. Он пропустил 7 в строке 1, поскольку игнорирует одиночные символы. Но если заменить 7 на 777, то в словаре появится термин 777. Один из способов исправить это - определить функцию, удаляющую цифры, и передать ее в CountVectoгizer через параметр preprocessor:

In [14]:
# !pip install regex
import re
def preprocess_text(text):
    return re.sub(r'\d+', '', text).lower()
vectorizer = CountVectorizer(stop_words='english', preprocessor=preprocess_text)
word_matrix = vectorizer.fit_transform(lines)

Обратите внимание на вызов lower для преобразования текста в нижний регистр. CountVectorizer не выполняет такое преобразование, если вы используете функцию предварительной обработки, поэтому указанная функция должна преобразовать данные самостоятельно. Однако она все равно удаляет знаки препинания.

Еще одним полезным параметром CountVectorizer является min_df, который позволяет игнорировать слова, встречающиеся меньше указанного количества раз. Это может быть целое число, задающее минимальное количество (например, игнорировать слова, встречающиеся в обучающем тексте менее пяти раз, min.n_df=S), или значение с плавающей точкой от 0,0 до 1,0, задающее минимальный процент образцов, в которых должно встречаться слово (например, игнорировать слова, встречающиеся менее
чем в 10% образцов, minn_df=0,1). Это позволяет отфильтровать слова, которые, вероятно, все равно не имеют смысла, а также сократить потребление памяти и время обучения за счет уменьшения размера словаря. CountVectorizer также поддерживает параметр max_df для исключения слов, которые встречаются слишком часто.
В предыдущих примерах использовался класс CountVectorizer, что, вероятно, заставило вас задуматься о том, когда (и почему) вместо него можно применить HashingVectorizer или TfidfVectorizer. Класс HashingVectorizer полезен при работе с большими наборами данных. Вместо того, чтобы хранить слова в памяти, он хеширует каждое слово и использует хеш в качестве индекса в массиве количества слов.
Таким образом, он может делать больше, используя меньше памяти, и очень полезен для уменьшения размера векторизаторов при их сериализации с целью последующего восстановления. Недостатком
HashingVectorizer является то, что он не разрешает работать в обратном направлении от векторизованного текста к исходному. А вот CountVectorizer позволяет, и для этого в нем предусмотрен метод inverse_transforlm.

ТfidfVectorizer часто используется для извлечения ключевых слов: документ или набор документов изучаются, и извлекаются ключевые слова, характеризующие их содержание. При этом словам присваиваются числовые веса, отражающие их важность, а для определения весов используются два фактора: частота появления слова в отдельных документах и частота его появления в общем наборе документов. Слова, которые чаще встречаются в отдельных документах, но в меньшем количестве документов, получают более высокие веса.

<font color="#9900FF">  After showing *Sentiment Analysis* explain Naive Bayes algorithm. </font> 

# Наивный Байес
Логистическая регрессия является основным алгоритмом для моделей классификации и часто очень эффективна при классификации текста. Однако, специалисты по обработке данных часто обращаются к другому алгоритму обучения, называемому "наивный Байес" (Naive Bayes). Это алгоритм классификации, основанный на теореме Байеса, которая позволяет вычислять условные вероятности. Математически теорема Байеса выглядит следующим образом:

$Р(A|B)-\frac{P(B|A)*P(A)}{Р(В)}$

Вероятность того, что А истинно при условии, что В истинно, равна вероятности того, что В истинно при условии, что А истинно, умноженной на вероятность того, что А истинно, деленной на вероятность того, что В истинно. 

Попробуем применить его например, к коллекции электронных писем, чтобы определить, какие из них являются спамом.

Предположим, что 10% всех полученных вами писем являются спамом. Это Р(А). Анализ показывает, что 5% полученных вами спам писем содержат слово congratulations (поздравления), но только 1 % всех ваших писем содержат то же самое слово. Таким образом, Р(В|A) составляет 0,05, а Р(В)- 0,01. Вероятность того, что письмо является спамом, если оно содержит слово congratulations, равна Р(А|В), что составляет ($0,05*0,10) / 0,01$, или 0,50.
Разумеется, спам-фильтр должен учитывать все слова в письме, а не только одно. Оказывается, если сделать несколько простых (наивных) предположений о том, что порядок слов в письме не имеет значения и каждое слово имеет одинаковый вес, то уравнение Байеса для классификатора спама можно записать таким образом:

$P(S|сообщение)= P(S)·P(слово_1|S)-P(слово_2|S)-··P(слово_n|S)$

Вероятность того, что сообщение является спамом, пропорциональна произведению:
- вероятности того, что любое сообщение в наборе данных является спамом, или P(S);
- вероятности того, что каждое слово в сообщении встречается в спаме, или Р(слово|S).

P(S) - это доля сообщений в наборе данных, которые являются спамом. Если вы обучаете МL-модель на 1000 сообщений и 500 из них являются спамом, то P(S) = 0,5. 

Для заданного слова Р(слово|S)- это просто количество раз, которое это слово встречается в спам письмах, поделенное на количество слов во всех спам письмах. Вся проблема сводится к подсчету
количества слов. Аналогичным образом можно вычислить вероятность того, что сообщение не является спамом, а затем использовать большую из двух вероятностей для прогноза.

<font color="#9900FF"> Next, show the Spam detection and go back. </font> 

# Рекомендательные системы
Рекомендательные системы - системы, рекомендующие покупателям товары или услуги. Рекомендательные системы бывают разных видов. 
- Системы, основанные на популярности, предлагают покупателям варианты, основанные на том, какие товары и услуги популярны в данный момент, например "Бестселлеры этой недели". 
- Коллаборативные системы дают рекомендации на основе того, что выбрали другие, например "Люди, купившие эту книгу, также купили эти книги". Ни одна из этих систем не требует машинного обучения.
- Контентные системы. Примером системы, основанной на контенте, является система, которая говорит: "Если вы купили эту книгу, то вам могут понравиться и эти книги". Если Вам нравиться "Крепкий орешек", то вам может понравиться или не понравиться фильм "Монти Пайтон и Священный Грааль". 

Но как определить это алгоритмически?
Для контентных рекомендательных систем необходимы два компонента: способ векторизации атрибутов, характеризующих услугу или товар, и способ вычисления сходства между полученными векторами. Первое несложно. CountVectortzer преобразует текст в вектор слов. Достаточно найти способ измерения сходства между строками количества слов, и можно строить рекомендательную систему. Одним из самых простых и эффективных способов является метод косинусного сходства.

# Косинусное сходство
Косинусное сходство - это математический способ вычисления сходства между парами векторов (или рядов чисел, рассматриваемых как векторы). Основная идея состоит в том, чтобы взять каждое значение в выборке, например количество слов в строке векторизованного текста, и использовать их в
качестве координат конечной точки вектора, причем другая конечная точка должна находиться в начале системы координат. Проделайте это для двух выборок, а затем вычислите косинус между векторами в m-мерном пространстве, где m - количество значений в каждой выборке. Поскольку косинус 0 равен 1, два одинаковых вектора имеют сходство, равное 1. Чем более несхожи векторы, тем ближе косинус к 0.

В качестве иллюстрации приведем пример в двумерном пространстве. Предположим, что у вас есть три строки, содержащие по два значения:

    1     2

    2     3

    3     1

Требуется определить, на что больше похож ряд 2 - на ряд 1 или на ряд 3? Это трудно сказать, просто взглянув на числа, а в реальной жизни таких чисел бывает гораздо больше. Если просто сложить числа в каждом ряду и сравнить суммы, то можно сделать вывод, что ряд 2 более похож на ряд 3. Но что если рассматривать каждый ряд как вектор?

<img src="RecommenderSystems.png" width=600 height=600 align="left"/>

- Row 1: (0, 0) → (1, 2)
- Row 2: (0, 0) → (2, 3)
- Row 3: (0, 0) → (3, 1)

Теперь можно представить каждый ряд в виде вектора, вычислить косинусы углов, образованных прямыми 1 и 2, 2 и 3, и определить, что ряд 2 больше похож на ряд 1, чем на ряд 3. Это и есть косинусное сходство в общих чертах.

Косинусное сходство не ограничивается двумя измерениями, оно работает и в многомерном пространстве. 

Для вычисления косинусного сходства независимо от числа измерений Scikit предлагает функцию cosine_similaгity.


In [8]:
from sklearn.metrics.pairwise import cosine_similarity
data = [[1, 2], [2, 3], [3, 1]]
cosine_similarity(data)

array([[1.        , 0.99227788, 0.70710678],
       [0.99227788, 1.        , 0.78935222],
       [0.70710678, 0.78935222, 1.        ]])

Возвращаемое значение - матрица подобия (similarity matrix) содержит косинусы каждой пары векторов. Ширина и высота матрицы равны количеству образцов. 

Отсюда видно, что сходство строк 1 и 2 составляет 0,992, а сходство строк 2 и 3 - 0,789. Другими словами, ряд 2 больше похож на ряд 1, чем на ряд 3. Сходство между рядами 2 и 3 (0,789) также больше, чем между рядами 1 и 3 (0,707).

# Построение системы рекомендаций фильмов

<font color="#9900FF"> Go to Movie Recommendations </font> 