## 2. Векторная модель текста и классификация длинных текстов

Проанализируем формулу кросс-энтропии для бинарной классификации. Для единственного примера она вычисляется следующим образом:

$$BCE(\hat{y}, y) = −y\log(\hat{y}) − (1−y)\log(1−\hat{y})$$

где y∈{0,1} - настоящая метка класса для объекта, а $ 0 < \hat{y} < 1 $ - вероятность класса 1, предсказанная моделью.

В процессе обучения классификатора мы минимизируем кросс-энтропию на всех обучающих примерах (сравните с описанием BCELoss в PyTorch):

$$ BCE_{1..n} = \sum_{i=1}^{n}−y_i	\log(\hat{y}_i) − (1−y_i)\log(1− \hat{y}_i) → min $$

Например, на двух обучающих примерах  

$y_1=1, y_2=1$ формула примет вид:

$$ BCE_{1,2}=−\log(\hat{y}_1) −\log(\hat{y}_2) $$

Мы предлагаем вам проанализировать полученную формулу на следующих предсказаниях модели 
	
$\hat{y}_1, \hat{y}_2 = [0.99,0.01]$ - первый объект классифицируется уверенно правильно, а второй уверенно неправильно

$\hat{y}_1, \hat{y}_2 = [0.5,0.5]$ - модель не может принять решения, абсолютно неуверенное предсказание	

$\hat{y}_1, \hat{y}_2 = [0.99,0.45]$ - первый объект классифицируется уверенно правильно, а второй неуверенно неправильно

$\hat{y}_1, \hat{y}_2 = [0.65,0.65]$ - оба объекта классифицируются правильно, но классификатор не очень уверен в принятом решении

Какие виды ошибок с точки зрения кросс-энтропии более критичны и насколько это согласуется с Вашими ожиданиями как человека? :)

Фраза "Модели выгоднее предсказывать А, чем Б" означает, что суммарое значение функции потерь будет ниже, если модель предскажет набор ответов А, по сравнению с ситуацией, в которой она для тех же объектов предскажет набор ответов Б.

In [1]:
import numpy as np

def f(y1, y2):
    return -np.log(y1) - np.log(y2)

In [2]:
values = [(0.99, 0.01), (0.5, 0.5), (0.99, 0.45), (0.65, 0.65)]

In [3]:
for value in values:
    print(f(*value))

4.615220521841592
1.3862943611198906
0.8085580320712731
0.8615658321849085


Вы обучаете одномерную логистическую регрессию 

$\hat{y}(x)= \frac{1}{1+e^{−wx−b}} $, то есть
w∈R - это скаляр (число).

x - единственный признак входного объекта,

y(x)∈{0,1} - настоящий класс объекта x,  

$ 0 < \hat{y} (x) < 1 $ - предсказанная вероятность того, что x принадлежит к классу 1.

В качестве функции потерь Вы используете бинарную кросс-энтропию 

$$BCE(\hat{y}, y) = −y\log(\hat{y}) − (1−y)\log(1−\hat{y})$$

Найдите в общем виде производную функции потерь $BCE(\hat{y}, y)$ по w и запишите в ответ её формулу. Для обозначений используйте латинские буквы y, x, w, b в нижнем регистре.

Ответ должен компилироваться в Sympy. Вам могут понадобиться операции деления /, умножения *, сложения +, вычитания - и взятия экспоненты  

In [3]:
#!pip install sympy

Collecting sympy
  Downloading sympy-1.6.2-py3-none-any.whl (5.8 MB)
[K     |████████████████████████████████| 5.8 MB 770 kB/s eta 0:00:01
[?25hCollecting mpmath>=0.19
  Downloading mpmath-1.1.0.tar.gz (512 kB)
[K     |████████████████████████████████| 512 kB 13.7 MB/s eta 0:00:01
[?25hBuilding wheels for collected packages: mpmath
  Building wheel for mpmath (setup.py) ... [?25ldone
[?25h  Created wheel for mpmath: filename=mpmath-1.1.0-py3-none-any.whl size=532239 sha256=982201873083fc0be43bbaeefb9f29de9279cf1ec89e4e4818687fd6e090f3ca
  Stored in directory: /Users/anastasiabogatenkova/Library/Caches/pip/wheels/e2/46/78/e78f76c356bca9277368f1f97a31b37a8cb937176d9511af31
Successfully built mpmath
Installing collected packages: mpmath, sympy
Successfully installed mpmath-1.1.0 sympy-1.6.2
You should consider upgrading via the '/Users/anastasiabogatenkova/miniconda3/envs/sphere/bin/python -m pip install --upgrade pip' command.[0m


In [14]:
from sympy.parsing import sympy_parser

sample_expr_str = 'x * (- exp(- x * w - b) * y + (1 - y)) / (1 + exp(- x * w - b))'
sample_expr = sympy.parsing.sympy_parser.parse_expr(sample_expr_str)
sample_value = sample_expr.evalf(subs=dict(x=0.5, y=1, w=4, b=1))
print(sample_value)

-0.0237129365887834


Теперь найдите в общем виде производную функции потерь $BCE(\hat{y}, y)$ по b 

In [1]:
import sympy.parsing.sympy_parser

sample_expr_str = '(- exp(- x * w - b) * y + (1 - y)) / (1 + exp(- x * w - b))'
sample_expr = sympy.parsing.sympy_parser.parse_expr(sample_expr_str)
sample_value = sample_expr.evalf(subs=dict(x=0.5, y=1, w=4, b=1))
print(sample_value)

-0.0474258731775668


Теперь добавьте L2-регуляризацию 

$$ Loss(\hat{y}, y) = BCE(\hat{y}, y) + c(w^2+b^2) $$
где c > 0 - коэффициент регуляризации.

Найдите в общем виде производную функции $ Loss(\hat{y}, y) $ по w

In [2]:
import sympy.parsing.sympy_parser

sample_expr_str = 'x * (- exp(- x * w - b) * y + (1 - y)) / (1 + exp(- x * w - b)) + 2 * c * w'
sample_expr = sympy.parsing.sympy_parser.parse_expr(sample_expr_str)
sample_value = sample_expr.evalf(subs=dict(x=0.5, y=1, w=4, b=1, c=1))
print(sample_value)

7.97628706341122


Используя формулу производной с предыдущего шага, запишите формулу для обновления веса w с помощью стохастического градиентного спуска (размер минибатча равен 1). Для обозначения скорости обучения (learning rate) используйте маленькую латинскую букву t.

In [3]:
# w - t * ( x * (- exp(- x * w - b) * y + (1 - y)) / (1 + exp(- x * w - b)) + 2 * c * w)

Мы предлагаем Вам поразмышлять над разницей в мощности двух вариантов логистической регрессии:

$ \hat{y_1}(x) = σ(wx+b) $

$ \hat{y_2}(x) = σ(wx+b) $, где b=0

Выберите варианты ответа (один или несколько), соответствующие датасетам, которые могут быть успешно обработаны 
$ \hat{y_1}(x) $ и не могут быть обработаны $ \hat{y_2}(x) $.

<img src="images/bias.png" width=400/>

2, 3

Напишите функцию для вычисления точечной взаимной информации двух случайных событий.

$$ pmi(a,b)= \log \frac{p(a)p(b)}{p(a,b)} $$

На вход функция получает два массива из 0 и 1 одинаковой длины - реализации случайных событий. 1 - событие произошло, 0 - не произошло.

В результате функция должна вернуть вещественное число - точечную взаимную информацию событий.

In [7]:
import sys
import numpy as np


def parse_array(s):
    return np.array([int(s.strip()) for s in s.strip().split(' ')])

def read_array():
    return parse_array(sys.stdin.readline())

def calculate_pmi(a, b):
    #p(w,l) = число_событий(и там и там единица)/длина(w)
    # p(w) = число_событий(единица в w)/длина(w)
    # p(l) = число_событий(единица в l)/длина(l)
    # длина(w) == длина(l)
    p_a_b = np.sum((a == b) & (a == 1)) / a.shape[0]
    p_a = np.sum(a) / a.shape[0]
    p_b = np.sum(b) / b.shape[0]
    return np.log(p_a_b / (p_a * p_b))

a = np.array([1, 0, 0, 1, 1, 0])
b = np.array([1, 0, 0, 0, 1, 0])
pmi_value = calculate_pmi(a, b)

print('{:.6f}'.format(pmi_value))

0.3333333333333333
0.693147


Найдите количество слов, которые встречаются менее, чем в 10 из 10000 документов, если предполагать, что вероятность встретить слово в документе распределена по Ципфу с параметром s=2, количество слов в словаре N=1000. Ранги нумеруются с 1.

In [8]:
z = sum([1 / x ** 2 for x in range(1,1000)])

In [10]:
(1000 / z) ** (1/2)

24.663679512615907

In [11]:
1000 - 24

976

## 3. Базовые нейросетевые методы работы с текстами