# Основы глубокого обучения 

1) Линейный softmax классификатор  
2) Обучение линейного классфикатора.  
3) Многослойный персептрон  и рекуррентные сети.  
4) Анализ тональности.

### 1) Линейный softmax классификатор

Рассмотрим простой линейный классификатор текста, который позволяет определить, к какой из трех тем относится текст (автомобили, мода, компьютеры).  
Пусть имеется словарь, содержащий набор $V$ слов естественного языка.  
Вектор $X$ - числовое представление текста, в котором каждому индексу соответствует количество вхождений слова из словаря в этом тексте.  
$W$ - матрица весов размерностью $(V, C)$, где $V$ - количество слов в словаре, $C$ - количество классов или тем.   
В результате умножения вектора $X$ на матрицу $W$ получаем вектор $Z$, в котором каждому элементу соответствует некоторое число. Чем больше число, тем выше вероятность того, что текст принадлежит классу $C$.  
Пример линейной классификации текста на три темы представлен на рисунке.    

<img src='imgs/linear_class.jpg' width=640>  



Каждая строка матрицы $W$ умножается на вектор $X$ и результат суммируется. Первая строка отвечает за первый класс, т.е. значения элементов первой строки отражают насколько каждое слово релевантно первому классу. Аналогично со второй и третьей строкой, классов может быть произвольное количество.   
Посмотрим внимательно на первую строку. Слова (авто, шина, двигатель) очень похожи на автомобильную тему, поэтому значения там положительные (не обязательно единицы, чем больше, тем выше соответствие). Слово (блок) не однозначно пренадлежит к авто-теме, поэтому там значение w будет ниже. Остальные слова однозначно не соответствуют авто-теме, поэтому там значения w меньше нуля.  
Заметим, что в нашем примере слов немного и они сгруппированы в словаре по темам. В реальных задачах размер словаря составляет несколько десятков тысяч слов, часто перемешанных в произвольном порядке. 

Числа в векторе $Z$ показывают, насколько сильно коррелирует векторное представление текста $X$ с каждой из строк матрицы $W$. Удобно перейти от этих чисел к распределению вероятностей, так чтобы каждый элемент соответствовал вероятности принадлежности текста к заданному классу, а сумма вероятностей равнялась единице.  
Для этого используют преобразование softmax(z).  

$$\sigma (z)_{i}={\frac {e^{z_{i}}}{\displaystyle \sum _{k\mathop {=} 1}^{K}e^{z_{k}}}}$$

In [1]:
import numpy as np
np.set_printoptions(precision=2)

def softmax(z):
    e = np.exp(z)
    return e / np.sum(e)

softmax([-2, 2, -4])

array([0.02, 0.98, 0.  ])

### 2) Обучение линейного классфикатора

Возникает вопрос: как найти значения коэффициентов матрицы $W$? Вручную размечать слова было бы очень утомительно. Автоматический поиск лучших коэффициентов на размеченных данных называется **обучением** классификатора.   
Для обучения нам нужно иметь достаточно большой корпус текстов (хотя бы >20), с размеченными классами.  Т.е. каждому вектору $X$ поставить в соответствие вектор $y$ например (0, 1, 0) который показывает пренадлежность ко второму классу.  
Имея для каждого $X$ предсказанное распределение вероятностей $s$, мы можем посчитать значение функции потерь (loss), обычно это кросс-энтропия.  

$${H} (s,y)=-\sum _{c}y\,\log s(x)$$ 

С учетом того, что в размеченном векторе $y$ все значения кроме правильного класса равны 0, то кросс-энтропию можно легко посчитать просто взяв логарифм от предсказанной вероятности для правильного класса.  
Если классификатор предсказывает правильному классу вероятность близкую к 1, то значение loss будет близко к нулю  
$$-log(1) = 0$$
Если классификатор предсказывает правильному классу низкую вероятность, например 0.1, то значение loss будет высоким.  
$$-log(0.1)=2.7$$
Таким образом, нам нужно найти такие значения весов матрицы $W$, при которых loss будет минимальным.  
$$loss(X,y,W) \to min $$
Эта оптимизационная задача хорошо решается методом **backpropagation** (обратное распространение ошибки), разработанным в  1974 году независимо и одновременно Галушкиным А.И. и Полом Дж. Вербосом.

Существует множество методов поиска оптимальных весов:  
- случайный перебор (плохая идея);
- стохастический градиентный спуск [SGD](https://ru.wikipedia.org/wiki/Стохастический_градиентный_спуск)  
- Momentum SGD, RMS, Adam и [другие](https://cs231n.github.io/neural-networks-3/#sgd)

### 3) Многослойный персептрон

Простой линейный классификатор подходит для несложных задач классификации. Для выделения сложных зависимостей используют комбинацию из линейных и нелинейных функций. 

<img src='imgs/multilayer.jpg'>  

Выход первого слоя - все тот же вектор $z$, является входом для следующего, нелинейного слоя.  
Нелинейные слой - это функция активации, которая позволяет лучше решать задачу классификации. На практике часто используют:  
- сигмоид;  
- гиперболический тангенс;  
- ReLU (Rectified Linear Unit) и ее модификации.

<img src='imgs/nonlinear.png' width=640>

### Рекуррентные сети.

Как мы уже говорили выше, простая модель текста BagOfWords не учитывает порядок слов в предложении. Контекст очень важен для понимания смысла слов, поэтому для повышения качества классификации (и не только) нужен более продвинутый способ обработки текста. Рекуррентные нейросети - один из таких способов. 

<img src='imgs/rnn.jpg' width=640>

Каждый токен входного текста представляется в виде вектора $x_i$. Он стыкуется с некоторым начальным значением $h_0$ (обычно нулевым) и подается на вход линейного слоя $W$. Далее на нелинейный слой, опять линейный $H$ и результат в виде вектора $h_{t+1}$ стыкуется со следующим токеном $x_{t+1}$ и все повторяется по кругу. Важно понимать, что веса матриц $W$ и $H$ одинаковы для всех токенов. Обычно архитектуру RNN изображают более компактным способом.

<img src='imgs/rnn_.jpg' width=640>

Для обозначения конца петли в конце последовательности $X$ добавляют специальный токен $<END>$. Таким образом, в весах матриц $W$ и $H$ сохраняется информация о порядке расположения токенов.

Рекуррентные сети позволяют решать много других задач, например предсказание следующего слова в предложении (языковая модель). Выход $y$ в этом случае будет векторное представление предсказанного слова, той же размерности, что и $x$.  
Например:  

Было не холодно, дождь шел. Он был одет в **куртку**.  

Было холодно, дождь не шел. Он был одет в **шубу**.   

В зависимости от порядка слов, вероятность для слов куртка и шуба будет разной.  

Более продвинутой рекуррентной архитектурой является LSTM (Long Short Term Memory), которая использует отдельные веса для хранения слов, расположенных рядом и расположенных далеко друг от друга.  
Например:  

Было холодно, дождь не шел. Мне повстречался человек, которого я принял за своего знакомого. Он был одет в **шубу**.   

### 4) Обучение линейного классификатора на анализ тональности

In [2]:
import pandas as pd
df = pd.read_csv('texts/rusentiment_test.csv')
df.head()

Unnamed: 0,label,text
0,neutral,"Александр, тебе к лицу эта пушка :)\n"
1,positive,"Скоро ты вернешься домой, грязный, не бритый н..."
2,neutral,помниш...))
3,positive,Наши красавцы. 1:3 в первом периоде и 7:3 в ит...
4,neutral,20% усилий приносят 80% результата


In [3]:
import re
from nltk.tokenize import RegexpTokenizer
from nltk.stem import SnowballStemmer

tokenizer = RegexpTokenizer(r'\w+')
stemmer = SnowballStemmer("russian") 

text_corpus = df.text.to_list()
tokens_corpus = [tokenizer.tokenize(text) for text in text_corpus]

non_digit_pattern = re.compile('\D')
stem_corpus = []

for text in tokens_corpus:
    words = [t for t in text if non_digit_pattern.match(t)]
    stem_tokens = [stemmer.stem(t) for t in words]
    stem_corpus.append(stem_tokens)

In [4]:
from collections import Counter
from sklearn.preprocessing import OneHotEncoder

BoW = Counter()
for text in stem_corpus:
    BoW += Counter(text)

vocab = sorted(BoW.keys())
ohe_encoder = OneHotEncoder(categories=[vocab], handle_unknown='ignore')
ohe_encoder.fit(np.array(vocab).reshape(-1, 1))

OneHotEncoder(categorical_features=None,
              categories=[['', 'AWD', 'Adam', 'Amichi', 'Anastasia',
                           'Angel_care', 'Antonio', 'Aviv', 'BBCOS', 'BBcos',
                           'BYD', 'Baik', 'Band', 'Bansko', 'Beach', 'Blond',
                           'Bowling', 'Brunette', 'Burnt', 'CHANEL', 'COLOR',
                           'Cent', 'Centre', 'Club', 'Coachella', 'Coffin',
                           'Credo', 'Custom', 'Cдела', 'D', ...]],
              drop=None, dtype=<class 'numpy.float64'>, handle_unknown='ignore',
              n_values=None, sparse=True)

In [5]:
import numpy as np


def text_to_OHE(text):
    tokens = tokenizer.tokenize(text)
    words = [t for t in tokens if non_digit_pattern.match(t)]
    stem_tokens = [stemmer.stem(t) for t in words]
    text_array = np.array(stem_tokens).reshape(-1, 1)
    ohe_array = ohe_encoder.transform(text_array).sum(axis=0)
    return ohe_array

def preprocess_labels(label):
    if label == 'positive':
        y = 0
    elif label == 'negative':
        y = 2
    else:
        y = 1
    return y

In [6]:
df['y'] = df.label.map(preprocess_labels)
df['x'] = df.text.map(text_to_OHE)

In [7]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import SGDClassifier

clf = SGDClassifier(max_iter=1000)

Y = df.y
X = np.stack(df.x.to_numpy()).reshape(len(Y), -1)

clf.fit(X, Y)

  if _joblib.__version__ >= LooseVersion('0.12'):


SGDClassifier(alpha=0.0001, average=False, class_weight=None,
              early_stopping=False, epsilon=0.1, eta0=0.0, fit_intercept=True,
              l1_ratio=0.15, learning_rate='optimal', loss='hinge',
              max_iter=1000, n_iter_no_change=5, n_jobs=None, penalty='l2',
              power_t=0.5, random_state=None, shuffle=True, tol=0.001,
              validation_fraction=0.1, verbose=0, warm_start=False)

In [8]:
clf.score(X, Y)

0.9986449864498645

In [9]:
x_test = 'привет как дела'
vec = text_to_OHE(x_test)
clf.predict(vec)

array([1])

Подключим результат к нашему чат боту

In [10]:
def get_answer(msg):
    vec = text_to_OHE(msg)
    y = clf.predict(vec)
    print(y)
    if y == 0:
        return 'Это хорошо'
    elif y == 2:
        return 'Это плохо'
    else:
        return 'Это нормально'

In [13]:
import telebot

with open('texts/tlg_token.txt') as f:
    TOKEN = f.read()

bot = telebot.TeleBot(TOKEN) 

@bot.message_handler(content_types=['text'])
def send_echo(message):
    answer = get_answer(message.text)
    
    bot.send_message(message.chat.id, answer)

bot.polling(none_stop=True)

[0]
