# План:
1. Python
2. Numpy
3. Pandas
4. Regexp + regexp with dataframes
5. <b>Texts</b>
6. Matplotlib, Seaborn
7. Classification, clustering, binary, multiclass, multilabel
8. Metrics
9. Feature extraction
10. Pyspark/sql

### TEXTS

Рассмотрим:

* предобработку текста
* представление текста
* понятие эмбеддинга
* текстовую классификацию

<img width="400px" src="https://media.giphy.com/media/nopqz91prOyvS/giphy.gif" />

# 1. Предобработка текста

Текст на естественном языке, который нужно обрабатывать в задачах машинного обучения, сильно зависит от источника. Пример:

Википедия
> Литературный язык — обработанная часть общенародного языка, обладающая в большей или меньшей степени письменно закреплёнными нормами; язык всех проявлений культуры, выражающихся в словесной форме.

Твиттер
> Если у вас в компании есть люди, которые целый день сидят в чатиках и смотрят видосики, то, скорее всего, это ДАТАСАЕНТИСТЫ и у них ОБУЧАЕТСЯ

Ответы@Mail.ru
> как пишется "Вообщем лето было отличное" раздельно или слитно слово ВОобщем?? ?

В связи с этим, возникает задача предобработки (или нормализации) текста, то есть приведения к некоторому единому виду.

### 1.1 Приведение текста к нижнему регистру.

In [3]:
text = 'купил таблетки от тупости, но не смог открыть банку,ЧТО ДЕЛАТЬ???'

In [4]:
text = text.lower()
text

'купил таблетки от тупости, но не смог открыть банку,что делать???'

### 1.2 Удаление неинформативных символов.

Такими символами могут быть символы пунктуации, спец-символы, повторяющиеся символы, цифры.
Удалите символы пунктуации и лишние пробелы из предыдущего текста в нижнем регистре.

In [5]:
import re

In [6]:
pattern = r'(\?|,)'
text = ' '.join(re.sub(pattern, ' ', text).split())

### 1.3 Разбиение текста на смысловые единицы (токенизация).

In [7]:
text = 'Купите кружку-термос "Hello Kitty" на 0.5л (64см³) за 300 рублей. До 01.01.2020.'

Самый простой подход к токенизации - это разбиение по текста по пробельным символам. 

**Quiz: Какая у этого подхода есть проблема?**

- Объем словаря будет большим. В текстах могут встретится как слова **кружка**, **термос** по отдельности так и через тире **кружка-термос** - и при использовании простых способов векторизации текстов это будут 3 разных смысловых единицы, хотя логично было бы оставить 2.

- Если перед нами стоит задача, в которой необходимо учитывать пунктуацию, то нам придется придумывать способ оторвать точки, кавычки, скобки от слов
    
- Если пробелы пропущены, то два слова могут остаться склееными через запятую\точку\дефис

Другие способы?

В библиотеке для морфологического анализа для русского языка [`pymorphy2`](https://pymorphy2.readthedocs.io/en/latest/) есть простая вспомогательная функция для токенизации.

In [8]:
from pymorphy2.tokenizers import simple_word_tokenize

##your code

In [9]:
simple_word_tokenize(text)

['Купите',
 'кружку-термос',
 '"',
 'Hello',
 'Kitty',
 '"',
 'на',
 '0',
 '.',
 '5л',
 '(',
 '64см³',
 ')',
 'за',
 '300',
 'рублей',
 '.',
 'До',
 '01',
 '.',
 '01',
 '.',
 '2020',
 '.']

Более сложной метод токенизации представлен в [`nltk`](https://www.nltk.org/): библиотеке для общего NLP.

In [10]:
from nltk import sent_tokenize, word_tokenize, wordpunct_tokenize

**Сравните и напишите в комментарии чем отличаются эти три метода**

In [11]:
sent_tokenize(text)

['Купите кружку-термос "Hello Kitty" на 0.5л (64см³) за 300 рублей.',
 'До 01.01.2020.']

In [12]:
word_tokenize(text)

['Купите',
 'кружку-термос',
 '``',
 'Hello',
 'Kitty',
 "''",
 'на',
 '0.5л',
 '(',
 '64см³',
 ')',
 'за',
 '300',
 'рублей',
 '.',
 'До',
 '01.01.2020',
 '.']

In [13]:
wordpunct_tokenize(text)

['Купите',
 'кружку',
 '-',
 'термос',
 '"',
 'Hello',
 'Kitty',
 '"',
 'на',
 '0',
 '.',
 '5л',
 '(',
 '64см³',
 ')',
 'за',
 '300',
 'рублей',
 '.',
 'До',
 '01',
 '.',
 '01',
 '.',
 '2020',
 '.']

In [14]:
# sent_tokenize
# возращает токены по предложениям, разделенные по точке

# word_tokenize
# возвращает токены в виде слов разделленных по пробелу

# wordpunct_tokenize
# возвращает токены в виде слов разделенных по пробелу точке пунктиру (специальному символу)

Для русского языка также есть новая специализированная библиотека [`razdel`](https://github.com/natasha/razdel).

**Напишите функцию, которая принимает на вход текст и возвращает список токенов из метода tokenize библиотеки razdel**

In [15]:
from razdel import tokenize


def tokenize_with_razdel(text):
    tokens = list(tokenize(text))
    tokens = [_.text for _ in tokens]
    return tokens
tokenize_with_razdel(text)

## Но я не понял как это работает!

##your code

['Купите',
 'кружку-термос',
 '"',
 'Hello',
 'Kitty',
 '"',
 'на',
 '0.5',
 'л',
 '(',
 '64',
 'см³',
 ')',
 'за',
 '300',
 'рублей',
 '.',
 'До',
 '01.01.2020',
 '.']

### 1.4 Приведение слов к нормальной форме (стемминг, лемматизация)

**Стемминг - это нормализация слова путём отбрасывания окончания по правилам языка.**

Такая нормализация хорошо подходит для языков с небольшим разнообразием словоформ, например, для английского. В библиотеке nltk есть несколько реализаций стеммеров:
 - Porter stemmer
 - Snowball stemmer - только его можно использовать для русского языка (но лучше не надо)
 - Lancaster stemmer

In [16]:
from nltk.stem.snowball import SnowballStemmer

SnowballStemmer(language='english').stem('running')

'run'

Для русского языка этот подход не очень подходит, поскольку в русском есть падежные формы, время у глаголов и т.д.

In [17]:
SnowballStemmer(language='russian').stem('бежать')

'бежа'

**Лемматизация - приведение слов к начальной морфологической форме (с помощью словаря и грамматики языка).**

Две самые часто используемые библиотеки для лемматизации русских слов:
- [pymorphy2](https://pymorphy2.readthedocs.io/en/latest/)
- [mystem3](https://tech.yandex.ru/mystem/)

Самый простой подход к лемматизации - словарный. Здесь не учитывается контекст слова, поэтому для омонимов такой подход работает не всегда. Такой подход применяет библиотека pymorphy2

In [18]:
from pymorphy2 import MorphAnalyzer

pymorphy = MorphAnalyzer()

**Напишите функцию принимающую на вход список токенов и возвращаюшую список лемматизированных с помощью pymorphy токенов**

протестируйте на примере 'на заводе стали увидел виды стали'

In [25]:
def lemmatize_with_pymorphy(tokens):
    for i in range(len(tokens)):
        tokens[i] = pymorphy.parse(tokens[i])[0].normal_form
    return(tokens) ##your code


##your code

In [26]:
text = 'на заводе стали увидел виды стали'
lemmatize_with_pymorphy(tokenize_with_razdel(text))

['на', 'завод', 'стать', 'увидеть', 'вид', 'стать']

Библиотека от Яндекса `mystem3` обходит это ограничение и рассматривает контекст слова, используя статистику и правила. + Имеет свой токенизатор

**Напишите функцию принимающую на вход строку и возвращаюшую список лемматизированных токенов с помощью pymystem**

In [27]:
text

'на заводе стали увидел виды стали'

In [30]:
from pymystem3 import Mystem

mystem = Mystem()


# def lemmatize_with_mystem(text):
    ##your code
    
##your code
mystem.lemmatize(text)

OSError: [WinError 1260] Эта программа заблокирована групповой политикой. За дополнительными сведениями обращайтесь к системному администратору

Еще более крутая и более **медленная** библиотека `RNNMorph` базирующаяся на рекурентных сетях

In [31]:
text

'на заводе стали увидел виды стали'

In [None]:
from rnnmorph.predictor import RNNMorphPredictor
predictor = RNNMorphPredictor(language="ru")

# def lemmatize_with_rnnmorph(tokens):
    #you know what to do
pre


# 2. Представление текста

### 2.1 One-Hot Encoding
<img src="gifs/one_hot.png" width="500">

При таком способе представления текстов, составляется словарь всех слов со всех документов - столбцы нашей матрицы, строки это документы. 

Если слово есть в документе на пересечении столбца и строки ставится 1, иначе 0. 

Матрица сформированная таким образом получается разреженной, т.е. если у нас очень много уникальных слов, доля единиц в строке будет маленькой.

Ранее мы уже получали one-hot вектора с помощью pandas\numpy. 
Сначала нам нужно каждому слову поставить в соответствие номер, а затем перевести их в бинарные вектора. 

В этот раз используем библиотеку scikit-learn:

In [4]:
import numpy as np

In [1]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

words = ['What', 'the', 'hell']

**Получите one-hot вектора используя LabelEncoder и OneHotEncoder**

In [2]:
le = LabelEncoder()
le.fit(words)
le.transform(words)

array([0, 2, 1], dtype=int64)

In [13]:
mas = np.array(words)

In [19]:
ohe = OneHotEncoder()
value = ohe.fit_transform(np.array(words).reshape(-1,1))
print(value)
# ohe.transform(words)

  (0, 0)	1.0
  (1, 2)	1.0
  (2, 1)	1.0


**Что будет, если мы сложим все one-hot вектора слов в тексте?**

In [50]:
value.sum()

3.0

In [55]:
ohe.inverse_transform([[3,0,0]])

array([['What']], dtype='<U4')

### 2.2 Bag-of-words

В прошлом методе, если слово употребляется в тексте на пересечении столбца-слова и строки-документа ставились 1, но теперь мы бы хотели так же знать сколько раз слово встретилось в данном документе.

Для того чтобы посчитать количество слов в тексте, используем метод CountVectorizer из sklearn

In [34]:
corpus = [
    'Кот пьет молоко',
    'Кто пьет молоко?',
    'Молоко выпивается котом',
]

**Обучите CountVectorizer на примерах, выведите вектора для трех предложений и список слов-столбцов матрицы**

In [35]:
from sklearn.feature_extraction.text import CountVectorizer

##your code

In [42]:
cv = CountVectorizer()
X = cv.fit_transform(corpus)
print(cv.get_feature_names())
print(X.toarray())

['выпивается', 'кот', 'котом', 'кто', 'молоко', 'пьет']
[[0 1 0 0 1 1]
 [0 0 0 1 1 1]
 [1 0 1 0 1 0]]


### 2.3 TF-IDF

**Term Frequency**  $tf(w,d)$ - сколько раз слово $w$ встретилось в документе $d$

**Document Frequency** $df(w)$ - сколько документов содержат слово $w$

**Inverse Document Frequency** $idf(w) = log_2(N/df(w))$  — обратная документная частотность. 

**TF-IDF**=$tf(w,d)*idf(w)$

В гите есть презентация, с которой возможно, станет понятнее **`векторайзеры и метрики.pptx`**

**Обучите TfidfVectorizer на примерах из предыдущего задания, выведите вектора для трех предложений и список слов-столбцов матрицы**

In [43]:
from sklearn.feature_extraction.text import TfidfVectorizer

##your code

In [45]:
corpus

['Кот пьет молоко', 'Кто пьет молоко?', 'Молоко выпивается котом']

In [47]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

In [48]:
vectorizer.get_feature_names()

['выпивается', 'кот', 'котом', 'кто', 'молоко', 'пьет']

In [49]:
X.toarray()

array([[0.        , 0.72033345, 0.        , 0.        , 0.42544054,
        0.54783215],
       [0.        , 0.        , 0.        , 0.72033345, 0.42544054,
        0.54783215],
       [0.65249088, 0.        , 0.65249088, 0.        , 0.38537163,
        0.        ]])

# Классификация

Мы попробуем применить описание методы предобработки и представления текста на примере анализа тональности текста. В качестве данных будем использовать небольшой датасет твитов. Всего в данных 2 класса: позитив и негатив.

### 3.1 Загрузка данных и получение тренировочной и тестовой выборки

In [56]:
import pandas as pd

train = pd.read_csv('data/train.csv')
train.shape

(6929, 2)

In [33]:
train.head()

Unnamed: 0,label,text
0,positive,эти розы для прекрасной мамочки)))=_=]]
1,negative,"И да, у меня в этом году серьезные проблемы со..."
2,positive,"♥Обожаю людей, которые заставляют меня смеятьс..."
3,negative,Вчера нашла в почтовом ящике пустую упаковку и...
4,positive,очень долгожданный и хороший день был)


**Разбейте выборку на две тренировочную и валидационную с помощью функции train_test_split из sklearn**

In [57]:
from sklearn.model_selection import train_test_split

In [58]:
X_train, X_test, y_train, y_test = train_test_split(train['label'], train['text'], stratify=train['label'])

**Проверьте что доли классов на train и на test совпадают**

In [61]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(5196,)
(1733,)
(5196,)
(1733,)


### 3.2 Оценка качества

Наша выборка не сбалансирована (доля одно из класса значительно ниже доли другого), поэтому стандартные метрики качества для классификаторов вроде accuracy или roc auc нам не подходят

Нам нужна Точность (Precision) и Полнота (Recall)!

**Про эти метрики можно подробно почитать в презентации  `векторайзеры и метрики.pptx`**

Для подсчета метрик будем использовать говоторые функции из sklearn.metrics

### 3.3 Построение модели

Напишем функцию для оценки векторизатора. В качестве модели будем использовать линейный SVM, он хорошо работает на задачах классификации текстов, когда для векторизации используются методы дающие разреженные матрицы.  

**Реализуйте функцию следуя инструкциям в комментариях**

In [62]:
%matplotlib inline

import tqdm
from sklearn.svm import LinearSVC
from sklearn.metrics import classification_report


def evaluate_vectorizer(vectorizer):
    #обучение выбранного векторайзера и получение веторов текстов (fit_transform)  
    clf = LinearSVC()
    clf.fit_transform(vectorizer)
    #иницилизация классификатора и тренировка модели
    
    
    #получение векторов текстов для теста
    
    #получение предсказания
    
    #вывод метрик классификации с помощью функции classification_report - выводит precision и recall для каждого класса
    
    #возвращаем предсказанные классы для теста
    return predictions

### 3.4 Сравнение способов представления текста

* необработанный текст + используйте CountVectorizer
* переведите в lower и используйте CountVectorizer
* lower + lemmatization + CountVectorizer
* lower + stemming (SnowballStemer) + CountVectorizer
Выберите лучший из двух последних ->
* lower + lemmatization\stemming + CountVectorizer + передавайте в векторайзер свой токенизатор (например из razdel)
* lower + lemmatization\stemming + CountVectorizer + передавайте в векторайзер свой токенизатор (например из razdel) + передайте список стоп слов (data/stopwords-ru.txt)
* lower + lemmatization\stemming + TfidfVectorizer + передавайте в векторайзер свой токенизатор (например из razdel)
* lower + lemmatization\stemming + TfidfVectorizer (используйте ngrams(2, 2)) + передавайте в векторайзер свой токенизатор (например из razdel)

In [80]:
from sklearn.feature_extraction.text import CountVectorizer
from pymorphy2 import MorphAnalyzer
from pymorphy2.tokenizers import simple_word_tokenize

In [68]:
text = "югославской историографии также известна как «Седьмое вражеское наступление» или Десант на Дрвар (сербохорв. Десант на Дрвар / Desant na Drvar) — комбинированная воздушно-десантная и сухопутная наступательная операция войск 2-й танковой армии вермахта во время Второй мировой войны. Проводилась в Западной Боснии в районе Бугойно — Яйце — Баня-Лука — Приедор — Бихач — Книн в период с 25 мая по 6 июня 1944 года с целью уничтожения Верховного штаба НОАЮ в городе Дрвар, а также находившихся при нём учреждений народно-освободительного движения Югославии и союзных военных миссий. В операции участвовали 500-й парашютно-десантный батальон СС, а также части 15-го горнопехотного армейского корпуса и 5-го горнопехотного корпуса СС."

### необработанный текст + используйте CountVectorizer

In [74]:
cv = CountVectorizer()
X = cv.fit_transform([text])
cv.get_feature_names()


['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'армейского',
 'армии',
 'баня',
 'батальон',
 'бихач',
 'боснии',
 'бугойно',
 'вермахта',
 'верховного',
 'во',
 'военных',
 'воздушно',
 'войны',
 'войск',
 'вражеское',
 'время',
 'второй',
 'го',
 'года',
 'горнопехотного',
 'городе',
 'движения',
 'десант',
 'десантная',
 'десантный',
 'дрвар',
 'западной',
 'известна',
 'или',
 'историографии',
 'июня',
 'как',
 'книн',
 'комбинированная',
 'корпуса',
 'лука',
 'мая',
 'мировой',
 'миссий',
 'на',
 'народно',
 'наступательная',
 'наступление',
 'находившихся',
 'ноаю',
 'нём',
 'операции',
 'операция',
 'освободительного',
 'парашютно',
 'период',
 'по',
 'при',
 'приедор',
 'проводилась',
 'районе',
 'седьмое',
 'сербохорв',
 'союзных',
 'сс',
 'сухопутная',
 'также',
 'танковой',
 'уничтожения',
 'участвовали',
 'учреждений',
 'целью',
 'части',
 'штаба',
 'югославии',
 'югославской',
 'яйце']

In [75]:
X.toarray()

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 2, 1, 2, 1, 1, 2, 1, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1,
        1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        2, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

# переведите в lower и используйте CountVectorizer

In [77]:
cv = CountVectorizer()
X = cv.fit_transform([text.lower()])
cv.get_feature_names()

['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'армейского',
 'армии',
 'баня',
 'батальон',
 'бихач',
 'боснии',
 'бугойно',
 'вермахта',
 'верховного',
 'во',
 'военных',
 'воздушно',
 'войны',
 'войск',
 'вражеское',
 'время',
 'второй',
 'го',
 'года',
 'горнопехотного',
 'городе',
 'движения',
 'десант',
 'десантная',
 'десантный',
 'дрвар',
 'западной',
 'известна',
 'или',
 'историографии',
 'июня',
 'как',
 'книн',
 'комбинированная',
 'корпуса',
 'лука',
 'мая',
 'мировой',
 'миссий',
 'на',
 'народно',
 'наступательная',
 'наступление',
 'находившихся',
 'ноаю',
 'нём',
 'операции',
 'операция',
 'освободительного',
 'парашютно',
 'период',
 'по',
 'при',
 'приедор',
 'проводилась',
 'районе',
 'седьмое',
 'сербохорв',
 'союзных',
 'сс',
 'сухопутная',
 'также',
 'танковой',
 'уничтожения',
 'участвовали',
 'учреждений',
 'целью',
 'части',
 'штаба',
 'югославии',
 'югославской',
 'яйце']

In [78]:
X.toarray()

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 2, 1, 2, 1, 1, 2, 1, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1,
        1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        2, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

# lower + lemmatization + CountVectorizer

In [91]:
corpus = simple_word_tokenize(text.lower())
pymorph = MorphAnalyzer()

In [92]:
for i in range(len(corpus)):
    corpus[i] = pymorph.parse(corpus[i])[0].normal_form

In [93]:
new_text = ' '.join(corpus)

In [94]:
cv = CountVectorizer()
X = cv.fit_transform([new_text])

In [95]:
cv.get_feature_names()

['15',
 '1944',
 '25',
 '500',
 'desant',
 'drvar',
 'na',
 'армейский',
 'армия',
 'баня',
 'батальон',
 'бихач',
 'босния',
 'бугойный',
 'вермахт',
 'верховный',
 'военный',
 'воздушно',
 'война',
 'войско',
 'вражеский',
 'время',
 'го',
 'год',
 'горнопехотный',
 'город',
 'два',
 'движение',
 'десант',
 'десантный',
 'дрвар',
 'западный',
 'известный',
 'или',
 'историография',
 'июнь',
 'как',
 'книна',
 'комбинированный',
 'корпус',
 'лука',
 'май',
 'мировой',
 'миссия',
 'на',
 'народно',
 'наступательный',
 'наступление',
 'находиться',
 'ноать',
 'он',
 'операция',
 'освободительный',
 'парашютно',
 'период',
 'по',
 'при',
 'приедора',
 'проводиться',
 'район',
 'семь',
 'сербохорв',
 'союзный',
 'сс',
 'сухопутный',
 'также',
 'танковый',
 'ть',
 'уничтожение',
 'участвовать',
 'учреждение',
 'цель',
 'часть',
 'штаб',
 'югославия',
 'югославский',
 'яйцо']

In [96]:
X.toarray()

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        2, 1, 2, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1,
        2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 3,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=int64)

# lower + stemming (SnowballStemer) + CountVectorizer Выберите лучший из двух последних ->