In [0]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Энтропия

$$H = -\sum_i p_i \log p_i$$
Это магическое слово, которое все так часто употребляют и совсем не все понимают про что оно. Энтропия нам говорит (намеками) о том, насколько сложно нам судить о состоянии системы, сколько вопросов надо задать, чтобы что-то узнать. Что? Например, представим себе кубик, заполненный частичками цветной пыли, покроем кубик мысленной сеточкой из маленьких кубиков, и будем выяснять где живет самая красивая, розовая. Если бы все пылинки сидели в одном месте в уголке, то достаточно было бы одного вопроса, чтобы ее найти. Но они же разбегаются, и скорее всего придется пробежаться по всем маленьким кубикам, пока ее найдешь. Так вот, это про то, почему частицы разбегаются так как они разбегаются, провода путаются так как обычно путаются, а люди живут так как живут. Ведь вариантов все перепутать и разбросать гораздо больше, чем разложить по местам.  Наделать ошибок можно гораздо проще и разнообразней, чем не наделать. А все потому, что работает принцип максимума энтропии. А любим мы все полежать в кровати, совсем не из-за лени, а потому что работает принцип минимума потенциальной энергии, тот же который делает капельку шариком:)


### Задание 1
Представьте, что у вас есть 5 корзин и 10 маркированных камней. Вам предложено несколько возможных распределений камней по корзинам. Посчитайте для каждого случая число всех возможных комбинаций  для реализации каждого распределения. Постройте график зависимости энтропии и логарифма числа возможных комбинаций для каждого случая  

In [0]:
def entropy(x):
    x  = x/np.sum(x)
    return -np.sum([i*np.log(i) if i>0 else 0 for i in x ])

d = {'A':[0, 0, 10, 0, 0], 
     'B':[0, 1, 8, 1, 0], 
     'C':[0, 2, 6, 2, 0], 
     'D':[1, 2, 4, 2, 1], 
     'E':[2, 2, 2, 2, 2]}

In [3]:
[entropy(d[key]) for key in d.keys()]

[-0.0,
 0.639031859650177,
 0.9502705392332347,
 1.4708084763221112,
 1.6094379124341005]

Если все камни в одной корзине, энтропия минимальна, то есть равна 0. Чем они больше разбросаны, тем выше энтропия (тем больше "хаоса" и меньше мы знаем о системе). В последнем же случае энтропия максимальна за счёт того, что все камни разбросаны поровну, и, чтобы узнать, где какой камень, потребуется много проверок...

 ##  Линейные модели
 Или другие модели. Мы начинали с вами строить модели с предположений. Пусть вот этот параметр будет распределен нормально, и этот нормально, а этот равномерно, а этот будет описывать бета-распределением, а другой альфа (правильно нет такого, вот бета и гамма есть). А почему?
Ну тут ответ очевиден, потому что я так сказала, а сама в книжке прочитала:) 
Но вообще за этим выбором лежит принцип максимальной энтропии. Нужно выбрать такую модель (распределение), которая может порождать максимальное разнообразие данных, при заданных ограничениях. То есть если у вас на выходе только нолики с единичками могут получатся, то нужно выбирать только то, что умеет производить нолики с единичками, во всем многообразии (но тут особо не разбежишся). 

Согласно принципу максимальной энтропии наиболее характерными распределениями вероятностей состояний неопределенной среды являются такие распределения, которые максимизируют выбранную меру неопределенности при заданной информации о «поведении» среды. В природе мы наблюдаем много процессов, которые имеют нормальное распределение, потому что очень многие процессы являются суммой большого количества случайных факторов (это наша заданая информация о поведении среды). А гауссовское или нормальное распределение имеет максимальную энтропию среди всех распределений с фиксированной дисперсией. Все чем оно определяется это положение центра и дисперсия. Чем больше дисперсия, тем шире распределение, тем больше энтропия. Максимума она достигает, когда распределение становится равномерным (у него уже бесконечная дисперсия).

Ограничение на фиксированную дисперсию приводит к тому, что значения концентрируются в небольшой области вокруг центра, а дальше форма распределения такова, что остальные значения распределяются наиболее консервативным образом. 

#### Не гауссом единым
!Но, часто у нас есть другие ограничения на данные. Например в финансах оказывается, что предположение о конечной дисперсии перестает работать и на сцену выходят так называемые распределения Леви, с "тяжелыми хвостами". Они позволяют описывать процессы в которых значения также концентрируются в небольшой области вокруг центра, но редкие события (большие отклонения) случаются гораздо чаще, чем предсказывают нам нормальное расределение. Как думаете почему важно учитывать эти хвосты? 


## Биномиальное распределение

Наш старый знакомый. Что я пыталась сказать этими формулами? (Допишите прямо в ячейке)
$$P(y|n,p) = \frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}$$


$$P(y_1,y_2,y_3,.....,y_n|n,p) = p^k(1-p)^{n-k}$$


*   Здесь по этим формулам находится вероятность получить именно такие результаты при такой-то вероятности $p$ и таком-то кол-ве $n$.

Представим, что у нас есть корзина с синими и красными шарами. Мы вытаскиваем два шара, при этом у нас есть следующее ограничение, математическое ожидание вытащить синий шар за две попытки в точности единица


In [0]:
d = {'A':[1/4, 1/4, 1/4, 1/4],
     'B':[2/6, 1/6, 1/6, 2/6],
     'C':[1/6, 2/6, 2/6, 1/6],
     'D':[1/8, 4/8, 2/8, 1/8]}

##  Задание 2
Прокомментируйте результаты

In [5]:
[entropy(d[key]) for key in d.keys()]

[1.3862943611198906,
 1.3296613488547582,
 1.3296613488547582,
 1.2130075659799042]

И снова энтропия максимальна при равных вероятностях. При этом не важен порядок их расположения, о чём свидетельствуют энтропии 2-го и 3-го. Минимум достигается, когда вероятности распределены совсем не равномерно, как в 4-ом.

#  Обобщенные линейные модели (GLM)

##  Гауссовская линейная модель
То, что делали на предыдущих занятиях. Еще ее обычно подразумевают когда говорят про модель линейной регрессии. То есть у нас есть набор входов и выходов. А выходы представляют собой величину, которая может меняться в широких пределах и к чему то стремится (регрессия к среднему). Но среднее у нас это ни какое-то конкретное число, а само описывается линейной моделью, может даже довольно сложной, с несколькими переменными, которые могут входит нелинейно и взаимодействовать друг с другом (intercations)(!НО модель остается линейной относительно параметров )

$$y_i \sim Normal(\mu_i, \sigma)$$
$$\mu_i = \alpha +\beta * x_i + ...$$


А что делать, когда наблюдаемые данные строго больше нуля или могут принимать только дискретный набор значений? Ну давайте поищем подходящие распределения, из которых могли бы быть получены наши данные (если нолики и единички - биномиальное, если произвольное целое число (всякие счетчики) - Пуассон). То есть мы поменяем правдоподобие (likelihood) на подходяшее, и у него будут уже свои параметры. А эти параметры будем описывать линейной моделью. !Но, тут опять есть проблема, линейная функция у нас работает из $R^n$ в $R$, и в случае нормального распределения нас все устраивает. А когда биномиальное, там параметр вероятность, которая может принимать значение от 0 до 1 строго. Что делать с этим? Ну математики тут быстро сообразили, нужно наложить сверху какое-нибудь отображение, которое переводит из того, что имеем в туда куда хочется. То есть будем линейной моделью описывать не интересующий нас параметр, а его, после воздействия так называемой функцией связи (link function)   

$$y \sim SomeDistr(\theta)$$
$$f(\theta) = \alpha+\beta*x_i ..$$

Тогда параметр сам получается с помощью обратной функции от функции связи

$$\theta = f^{-1}(\alpha+\beta*x_i)$$

Теперь посмотрим на основных игроков. Чаще всего в роли функции распределении для правдоподобия будет функция из семейства экспоненциальных распределений. К ним относятся многие наши знакомые.


 - Распределение Бернулли (с фиксированным числом триалов)
 - Мультиномиальное (такого у нас не было, почти как биномиальное, но исходов больше чем два)
 - Распределение Пуассона (счетчик)
 - Нормальное распределение,
 - Экспоненциальное (про время между событиями, есть конкретное распределение, а есть семейство, не путать!)
 - Хи-квадрат
 - Гамма
 - Beta
 - Дирихле
 - Категориальное
 
 
 Посмотрим наиболее часто встречающиеся

##  Чаще всего встречающиеся виды обобщенных линейных моделей

Про них надо уметь что-то сказать, про каждую из них. Примеры привести, распознать в задаче и оценить

### Биномиальное

$$y_i \sim Binomial(n, p_i)$$
$$logit(p_i) = \log \frac{p_i}{1-p_i} = \alpha+\beta*x_i$$

$$p_i = \frac{\exp(\alpha+\beta x_i)}{1+\exp(\alpha+\beta*x_i)} = \frac{1}{1+\exp(-(\alpha+\beta*x_i)} =  \frac{1}{1+e^{-z}}  $$

 Ничего не напоминает? Получите последнюю формулу. 
 
###  Логарифмическая функция связи
Тоже часто встречается, когда хотим оставаться в рамках нормального распределения, но моделировать положительный параметр, например дисперсию

$$y_i \sim Normal(\mu, \sigma_i)$$
$$\log(\sigma_i) = \alpha +\beta * x_i + ...$$

$$\sigma_i = \exp(\alpha + \beta*x_i)$$

###  Пуассон и логарифмическая функция связи
Моделируем редкие события, отказы, фрод, спам, катастрофы, фальсификацию на выборах 
 
$$y_i \sim Poisson(\lambda_i)$$
$$\log(\lambda_i) = \alpha +\beta * x_i + ...$$

$$\sigma_i = \exp(\alpha + \beta*x_i)$$

###  Мультиномиальная или  softmax регрессия

$$y_i \sim Categorical(n, p[k]_i)$$
$$score_k = \log \frac{p[k]_i}{p[K]_i} = \alpha+\beta_k*x_i$$

$$p_k = \frac{\exp(score_k)}{\sum_K\exp(score_k)} $$