In [None]:
import numpy as np
import seaborn as sns
import pandas as pd # Для работы с данными
import matplotlib.pyplot as plt  # Библиотека для визуализации результатов 
from sklearn.model_selection import train_test_split
%matplotlib inline

<p style="align: center;"><img align=center src="https://netology.ru/backend/tilda/images/tild3439-3364-4535-b334-656263633534__main.svg"  width=900></p>
<h3 style="text-align: center;"><b>Метрики близости. Работа с текстовыми данными. Наивный Байес.</b></h3>

<h1><u>План урока</u></h1>

<p><font size="3" face="Arial">
<ul type="square"><a href="#1"><li>Основные задачи.</li></a><a href="#2"><li>Методы работы.</li></a><ul><a href="#3"><li>TF IDF.</li></a><a href="#4"><li>Векторное представление слов.</li></a><a href="#5"><li>word2vec.</li></a></ul><a href="#6"><li>Мера близости.</li></a><a href="#7"><li>Наивный Байес.</li></a><a href="#8"><li>Практика.</li></a>
    <ul><a href="#8"><li>Методы на практике.</li></a><a href="#9"><li>Распознавание спама.</li></a></ul>    
</ul></font></p>

<h2>Основные задачи</h2>
<p id="1">Работа с текстовыми данными ведется во многих областях бизнеса и исследований. C каждым годом появляются все более эффективные методы, дающие возможность улучшить обучение моделей на основе текстовых данных. Ситуаций и задач, при которых мы можем столкнуться с работой с текстом может быть огромное кол-во, вот лишь некоторые из них:</p>
<div class="alert alert-info"><ul><li>Машинный перевод</li><li>Классификация текстов</li><ul><li>Фильтрация спама</li><li>По тональности, теме или жанру</li></ul><li>Кластеризация текстов</li><li>Извлечение информации</li><ul><li>Фактов и событий</li><li>Именованных сущностей</li></ul><li>Вопросно-ответные системы</li><li>Генерация текстов</li><li>Распознавание речи</li><li>Проверка правописания</li></ul></div>
<p style="align: center;"><img align=center src="https://automated-testing.info/uploads/default/original/2X/1/1f355c92a192e7b4b98e3bec60ea5c6cd72d999e.jpeg"  width=700></p>

<h2>Методы работы</h2>
<p id="2">Итак, перед нами стоит задача работы с текстовыми данными. Компьютер понимает только числа, отсюда следует, что каким-то образом слова нужно кодировать для нормальной работы с ними. Рассмотрим некоторые методы работы с ними.</p>
<h3>TF IDF</h3>
<p id="3">Одним из самых простых и древнейших методов работы с текстом является коэффициент TF IDF, который состоит из произведения двух чисел. TF IDF - это некая статистическая мера, используемая для оценки важности слова в контексте документа.</p>
<ul><li><b>TF</b> (term frequency - частота слова) - отношение числа вхождений некоторого слова к общему числу слов документа. Таким, образом, оценивается важность слова в пределах отдельного документа.</li><li><b>IDF</b> (inverse document frequency - обратная частота документа) - инверсия частоты, с которой некоторое слово встречается в документах коллекции. Для каждого уникального слова в пределах конкретной коллекции документов существует только единственное значение IDF.</li></ul>
<p style="align: center;"><img align=center src="https://www.researchgate.net/profile/Haider-Al-Khateeb/publication/291950178/figure/fig1/AS:330186932408324@1455734107458/Term-Frequency-Inverse-Document-Frequency-TF-IDF.png"  width=900></p>
<p>Итого имеем - мера TF IDF является произведением сомножителей:</p>
$$\text{tfidf}(t, d, D) = \text{tf}(t, d) \cdot \text{idf}(t, D) ,$$
$$\text{где    } \text{    tf}(t, d) = \frac{n_t}{\sum_k n_k}  ;   \text{    idf}(t, D) = \ln \left(\frac{|D|}{|{d \in D: t \in d}|} \right)$$

<h3>Векторное представление слов</h3>
<p id="4">Вскоре был придуман совсем новый подход, в отличие от традиционных методов - векторное представление. Каждое слово представляется как точка в пространстве с фиксированной размерностью. Все работает без разметки данных (unsupervised), в отличие от традиционных методов.К примеру слово "Hello" может быть представлено как [0.4, -0.11, 0.55, 0.3, ... , 0.02].</p>

<p style="align: center;"><img align=center src="https://miro.medium.com/max/2400/1*2r1yj0zPAuaSGZeQfG6Wtw.png"  width=900></p>
<p><i>Но как решать эту задачу? Как строить и обучать модель?</i> Один из способов - word2vec.</p>

<h3>word2vec</h3>
<p id="5">В методе word2vec решается 2 типа задач. Первый ти - это когда по контексту (несколько слов до, и несколько слов после слова) предсказывается слово. Второй - по слову предсказывается контекст. Таким, образом решая эту задачу мы приходим к тому, что близкие по контексту слова имеют близкое представление в векторном представлении. И отсюда имеем, что синонимы в векторном представлении слов находятся рядом.</p>
<p style="align: center;"><img align=center src="https://sun9-17.userapi.com/impg/IderJ222cIEsqhyI9vPOJeWu4JiY99sg7wWQhg/Ym-qzNGwLkY.jpg?size=981x605&quality=96&sign=0c9c9faf22464e75c67c1063f140242a&type=album"  width=900></p>

<h2>Мера близости</h2>
<p id="6">После того как мы успешно закодировали тем или иным способом и получали информацию о словах в предложении, зачастую встает задача о сравнении предложений, извлечении смысла, и т.д. Тут необходимо ввести такое понятие как мера близости. Ниже представлены три основныз меры для веторных форм.</p>
<div class="alert alert-info"><ul><li>Эвклидова норма $||x||_e = \sqrt{\sum\limits_{i=1}^n |x_i|^2}$, и расстояние $\rho_2(x,y) = ||x-y||_2 =\sqrt{\sum\limits_{i=1}^n (x_i-y_i)^2} $</li>
<li>Манхэттенская норма $||x||_m = \sum\limits_{i=1}^n |x_i|$, и расстояние $\rho_1(x,y) = ||x-y||_1 =\sum\limits_{i=1}^n |x_i-y_i| $ </li><li>Косинусное расстояния $ \left( x,y \right) = |x|\cdot |y|cos(\alpha) \rightarrow cos(\alpha)=\frac{(x,y)}{|x|\cdot |y|} $</li></ul></div>
<p>Также необходимо ввести меру семантической близости между словами, до кодирования вектором.<br>
<b>Мера семантической близости</b> - это особая мера близости, предназначенная для количественной оценки семантической схожести лексем, например, существительных или многословных выражений.
<ul><li>Расстояние Левенштейна - минимальное количество односимвольных операций (вставки, удаления, замены).</li><li>Расстояние Хэмминга - число позиций, в которых соответствующие символы двух слов одинаковой длины различны.</li><li>Коэффициент Жаккара - это мера, основанная на использовании информации о множестве общих симоволов и равна отношению пересечения двух множеств к их объединению. $$J(A,B) = \frac{|A \cap B|}{|A \cup B|}$$</li></ul>


</p>

<h2>Наивный Байес</h2>
<p id="7">Во многих проектах/задачах нужно тем или иным способом по тексту определить тональность: положительная или отрицательная. Один из методов, который может помочь в этом - наивный Байес. <br>
<b>Наивный байесовский классификатор </b>- простой вероятностный классификатор, основанный на применении теоремы Байеса со строгими (наивными) предположениями о независимости. Т.е. считается, что каждое слово появляется абсолютно независимо от других. Достоинством наивного байесовского классификатора является малое кол-во данных, необходимых для обучения, оценки параметров и классификации. </p>
$$\hat{q} = arg\max [P(Q_k)\prod\limits_{i =  1}^n P(x_i | Q_k)]$$
где $P(Q_k)$ - отношения числа документов класса $Q_k$ к общему числу, а $P(x_i | Q_k) = \frac{\alpha + N_{ik}}{\alpha M + N_k}$ - вхождение слова $x_i$ в документ класса $Q_k$.<br>
<p style="align: center;"><img align=center src="https://sun9-35.userapi.com/impg/30rfGDrV-FaWdiNALoY4Zo77hZaVmiCoQfzb-A/EBEERUkpOr4.jpg?size=806x652&quality=96&sign=ddad78b9e762422328d806da656974df&type=album"  width=900></p>
<p>Подробно и с мат. док-вами, доп. информацию, можно почитать <a href="https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D0%B8%D0%B2%D0%BD%D1%8B%D0%B9_%D0%B1%D0%B0%D0%B9%D0%B5%D1%81%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80">здесь</a>.</p>

<h2>Практика</h2>
<h3>Методы на практике</h3>
<p id="8">Для начала посмотрим методы на практике, рассмотренные сегодня выше, а затем будем решать задачу определения спама.</p>

In [None]:
!pip install pymorphy2     
# устанавливаем необходимую библиотеку

Collecting pymorphy2
[?25l  Downloading https://files.pythonhosted.org/packages/07/57/b2ff2fae3376d4f3c697b9886b64a54b476e1a332c67eee9f88e7f1ae8c9/pymorphy2-0.9.1-py3-none-any.whl (55kB)
[K     |██████                          | 10kB 14.7MB/s eta 0:00:01[K     |███████████▉                    | 20kB 11.0MB/s eta 0:00:01[K     |█████████████████▊              | 30kB 8.7MB/s eta 0:00:01[K     |███████████████████████▋        | 40kB 7.6MB/s eta 0:00:01[K     |█████████████████████████████▌  | 51kB 4.5MB/s eta 0:00:01[K     |████████████████████████████████| 61kB 3.0MB/s 
[?25hCollecting dawg-python>=0.7.1
  Downloading https://files.pythonhosted.org/packages/6a/84/ff1ce2071d4c650ec85745766c0047ccc3b5036f1d03559fd46bb38b5eeb/DAWG_Python-0.7.2-py2.py3-none-any.whl
Collecting pymorphy2-dicts-ru<3.0,>=2.4
[?25l  Downloading https://files.pythonhosted.org/packages/3a/79/bea0021eeb7eeefde22ef9e96badf174068a2dd20264b9a378f2be1cdd9e/pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-non

Рассмотрим сначала метод кодирования, делающий из слов one-hot вектора. Данный метод CountVectorizer для каждого предложения возвращает вектор, который несет в себе информацию, какие слова есть в предложении.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
     'This is the first document.',
     'This document is the second document.',
     'And this is the third one.',
     'Is this the first document?',]

Получаем вектора для каждого предложения.

In [None]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X.toarray())

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]


Также можно учитывать не только отдельно стоящие слова, а словосочетания. Параметр ngram_range задает кол-во слов в словосочетании.

In [None]:
vectorizer2 = CountVectorizer(analyzer='word', ngram_range=(1, 3))
X2 = vectorizer2.fit_transform(corpus)
print(vectorizer2.get_feature_names())
print(X2.toarray())

['and', 'and this', 'and this is', 'document', 'document is', 'document is the', 'first', 'first document', 'is', 'is the', 'is the first', 'is the second', 'is the third', 'is this', 'is this the', 'one', 'second', 'second document', 'the', 'the first', 'the first document', 'the second', 'the second document', 'the third', 'the third one', 'third', 'third one', 'this', 'this document', 'this document is', 'this is', 'this is the', 'this the', 'this the first']
[[0 0 0 1 0 0 1 1 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 1 0 0 1 1 0 0]
 [0 0 0 2 1 1 0 0 1 1 0 1 0 0 0 0 1 1 1 0 0 1 1 0 0 0 0 1 1 1 0 0 0 0]
 [1 1 1 0 0 0 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 0 0 1 1 1 1 1 0 0 1 1 0 0]
 [0 0 0 1 0 0 1 1 1 0 0 0 0 1 1 0 0 0 1 1 1 0 0 0 0 0 0 1 0 0 0 0 1 1]]


Теперь посчитаем коэффициенты TF IDF. В данном случае указана (номер документа, позиция слова в словаре) и соответствующий TF IDF коэффициент.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())
print(X)

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
  (0, 1)	0.46979138557992045
  (0, 2)	0.5802858236844359
  (0, 6)	0.38408524091481483
  (0, 3)	0.38408524091481483
  (0, 8)	0.38408524091481483
  (1, 5)	0.5386476208856763
  (1, 1)	0.6876235979836938
  (1, 6)	0.281088674033753
  (1, 3)	0.281088674033753
  (1, 8)	0.281088674033753
  (2, 4)	0.511848512707169
  (2, 7)	0.511848512707169
  (2, 0)	0.511848512707169
  (2, 6)	0.267103787642168
  (2, 3)	0.267103787642168
  (2, 8)	0.267103787642168
  (3, 1)	0.46979138557992045
  (3, 2)	0.5802858236844359
  (3, 6)	0.38408524091481483
  (3, 3)	0.38408524091481483
  (3, 8)	0.38408524091481483


Теперь посмотрим библиотеки и методы работы для разбивки на слова/предложения и т.д.

In [None]:
import nltk # полезная библиотека решающая вопросы с пунктуацией, словами и т.д.
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

Протокенизируем предложения (=разделить пословно и создать массив токенов).

In [None]:
from nltk.tokenize import sent_tokenize
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

Видим, что у нас был text = 3 предложение. tokenize поделил наш текст на три предложения-массива, и затем каждое предложение поделил на слова-токены.

In [None]:
text = "Backgammon is one of the oldest known board games. Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East. It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice."
sentences = sent_tokenize(text)
for sentence in sentences:
    tokens = word_tokenize(sentence)
    print(tokens)

['Backgammon', 'is', 'one', 'of', 'the', 'oldest', 'known', 'board', 'games', '.']
['Its', 'history', 'can', 'be', 'traced', 'back', 'nearly', '5,000', 'years', 'to', 'archeological', 'discoveries', 'in', 'the', 'Middle', 'East', '.']
['It', 'is', 'a', 'two', 'player', 'game', 'where', 'each', 'player', 'has', 'fifteen', 'checkers', 'which', 'move', 'between', 'twenty-four', 'points', 'according', 'to', 'the', 'roll', 'of', 'two', 'dice', '.']


С английским все хорошо работает. Теперь попробуем сделать это с русским. Разобьем исходный текст на предложения, из каждого предложения, с помощью регулярных выражений, удалим все символы не являющиеся буквами (знаки препинания, пробелы) и разделим на слова-токены. Затем удалим стоп-слова (союзы, междометия, предлоги и т.д.). И наконец, с помощью библиотеки pymorphy мы можем получить инфинитив (нач. форму) каждого слова.

In [None]:
import pymorphy2
import re
morph = pymorphy2.MorphAnalyzer()
stop_words = stopwords.words('russian') # подключаем стопслова

text = "Обработка текстов на естественном языке — общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста."
sentences = nltk.sent_tokenize(text, language="russian") # разбиваем на предложения
for sentence in sentences:
    print('___________________')
    print(sentence)
    sentence_ = re.sub(r"[^А-Яа-яёЁ ]","", sentence)
    tokens = nltk.word_tokenize(sentence_) # разбиваем на слова
    tokens = [i for i in tokens if (i not in stop_words)] # исключаем стопслова
    tokens = list(map(lambda x: morph.parse(x)[0].normal_form, tokens)) # приводим к нормальной форме (parse)
    print(tokens)

___________________
Обработка текстов на естественном языке — общее направление искусственного интеллекта и математической лингвистики.
['обработка', 'текст', 'естественный', 'язык', 'общий', 'направление', 'искусственный', 'интеллект', 'математический', 'лингвистика']
___________________
Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках.
['оно', 'изучать', 'проблема', 'компьютерный', 'анализ', 'синтез', 'текст', 'естественный', 'язык']
___________________
Применительно к искусственному интеллекту анализ означает понимание языка, а синтез — генерацию грамотного текста.
['применительно', 'искусственный', 'интеллект', 'анализ', 'означать', 'понимание', 'язык', 'синтез', 'генерация', 'грамотный', 'текст']


<h3>Распознавание спама.</h3>
<p id="9">Теперь рассмотрим задачу распознавания спама. Скачиваем датасет, где содержатся смс со спамом и не только.</p>

In [None]:
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip
!unzip smsspamcollection.zip

--2021-03-18 17:33:45--  https://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 203415 (199K) [application/x-httpd-php]
Saving to: ‘smsspamcollection.zip.1’


2021-03-18 17:33:47 (374 KB/s) - ‘smsspamcollection.zip.1’ saved [203415/203415]

Archive:  smsspamcollection.zip
replace SMSSpamCollection? [y]es, [n]o, [A]ll, [N]one, [r]ename: n
replace readme? [y]es, [n]o, [A]ll, [N]one, [r]ename: n


In [None]:
df = pd.read_table('SMSSpamCollection',sep='\t',header=None, names=['label','sms_message'])

Содержание датасета примитивно. Текст смс и спам/не спам.

In [None]:
df.head()

Unnamed: 0,label,sms_message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


Рассмотрим два подхода решения задачи. Сначала посмотрим на логистическую регрессию + TF IDF. Посчитаем коэффициент TF IDF (важность) для каждого класса (спам/не спам). Для этого объединим все спам смс в одно предложение, а не спам в другое.


In [None]:
data_corp = [ " ".join(df[df['label'] == l]['sms_message'].tolist()) for l in list(df.label.unique()) ]

In [None]:
vectorizer = TfidfVectorizer() # обучаем Vectorizer на наших данных
vectorizer.fit(data_corp)

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=None,
                min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
                smooth_idf=True, stop_words=None, strip_accents=None,
                sublinear_tf=False, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, use_idf=True, vocabulary=None)

Теперь получаем итоговые вектора.

In [None]:
res_tfidf = vectorizer.transform(df['sms_message'].tolist())

Теперь будем обучать логистическую регрессию. Имеем 4825 объектов спама, и 747 объектов не спама.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, classification_report
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder().fit(df['label'])
df['cat_label'] = le.transform(df['label'])
df['cat_label'].value_counts()

0    4825
1     747
Name: cat_label, dtype: int64

Используем, как и всегда, train_test_split для разделения данных на обучающую и тестовую выборки. Указываем test_size=0.2

In [None]:
X_tr, X_ts, y_tr, y_ts=train_test_split(res_tfidf, df['cat_label'], test_size=0.2)

Получаем  f1 score порядка 0.82-0.88, даже без прдобработки данных. Довольно приятный результат. 

In [None]:
lr = LogisticRegression().fit(X_tr, y_tr)
y_pred = lr.predict(X_ts)
f1_score(y_ts, y_pred)

0.8455882352941178

В завершение урока, посмотрим на наивный Байесовский классификатор на том же самом датасете спама.

In [None]:
df['label'] = df.label.map({'ham':0,'spam':1}) # делаем метки класса

In [None]:
X_train, X_test, y_train, y_test = train_test_split(df['sms_message'], df['label'], random_state=1)

Считаем количество слов в предложениях, получаем матрицу размером - количество предложений, умноженное на размер словаря.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vector = CountVectorizer()
train_tensor = count_vector.fit_transform(X_train).toarray().astype('float')
test_tensor = count_vector.transform(X_test).toarray().astype('float')

Получаем тензоры с предложениями класса спам и не спам и соответствующие условные вероятности.

In [None]:
spam_train_tensor = train_tensor[(y_train == 1).values]
not_spam_train_tensor = train_tensor[(y_train == 0).values]

p_w_spam = (spam_train_tensor.sum(axis=0)) / (spam_train_tensor.sum())
p_w_not_spam = (not_spam_train_tensor.sum(axis=0)) / (not_spam_train_tensor.sum())

Теперь посчитаем вероятности, что любое сообщение спам/не спам.

In [None]:
p_spam = (y_train == 1).values.sum() / len(y_train)
p_not_spam = (y_train == 0).values.sum() / len(y_train)

In [None]:
#проверим на одном семпле
test_sample = test_tensor[0]

Получаем вероятности того, что данное сообщение спам / не спам.

In [None]:
# за спам
np.log(p_spam+2.71828182846)-1 + (np.log((test_sample*p_w_spam)+2.71828182846)-1).sum()

0.053458150530584

In [None]:
#против спама
np.log(p_not_spam+2.71828182846)-1 + (np.log((test_sample*p_w_not_spam)+2.71828182846)-1).sum()

0.28407383596262314

Теперь посчитаем все предсказания как сравнение величинв за спам и против спама.

In [None]:
y_pred = (np.log(p_spam) + (np.log((test_tensor*p_w_spam)+0.00000001)).sum(axis=1)) >= \
 np.log(p_not_spam) + (np.log((test_tensor*p_w_not_spam)+0.00000001)).sum(axis=1)

Посчитаем точность модели как отношение количество совпадений к размеру выборки и сравним реальные метки с предсказанными.

In [None]:
test = (y_pred.astype(int) == y_test.to_numpy())
test.sum().item()/test.shape[0]

0.9892318736539842

Получили результат намного лучше, чем в случае с  линейной регрессией.

<h2>Summary</h2>
<ol><li>Проблема <b>эффективного кодирования</b> текстовых данных всегда стояла очень остро и с каждым годом появляются все более эффективные методы, дающие возможность улучшить обучение моделей на <b>классификацию текстов</b>, <b>фильтрацию спама</b> и т.д.</li><li><b>Наивный байесовский</b> классификатор -  вероятностный классификатор, основанный на применении <b>теоремы Байеса</b> со строгими (наивными) предположениями о <b>независимости</b> объектов от других.</li></ol>

<h3>Вопросы для самопроверки</h3>
<p><ol><li>В чем отличие традиционных методов работы с текстом (кодирования) от векторного представления.</li><li>Что "наивного" в байесовском классификаторе? И как это влияет на результат?</li></ol></p>

<h1>Спасибо за внимание!</h1>