# ДЗ 1, часть 1. Метод максимального правдоподобия

## Задача 1. Вывод ЕМ-алгоритма для смеси нормальных распределений

### Модель

$Z_i \overset{iid}{\sim} Bern(q)$

$X_i | Z_i \overset{iid}{\sim} \mathcal{N}(\mu_{z_i}, \sigma^2_{z_i})$

### Параметры

*Определите, какие параметры модели вы будете оценивать.*

### Выборка

$\{ \hat{X}_i \}_{i=1}^n$

### Правдоподобие

*Запишите функцию правдоподобия и ее логарифм.*

### Инициализация алгоритма

*Зафиксируйте, какие параметры требуют инициализации*

### E-шаг

*Запишите с помощью неравенства Йенсена нижнюю оценку на правдоподобие*

### М-шаг

*Максимизируйте нижнюю оценку на правдоподобие по параметрам модели*

### Интуиция EM-алгоритма

Полезно держать в голове эту картинку, чтобы не напутать с временными индексами $\theta_t$ в E-шаге и М-шаге

In [1]:
from IPython.display import Image
from IPython.core.display import HTML
Image(url= "https://people.duke.edu/~ccc14/sta-663/_images/EMAlgorithm_19_0.png", width=700, height=500)

## Задача 2. Имплементация ЕМ-алгоритма (Катапульты)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

Гай Гисборн тестирует несколько новейших катапульт, купленных на деньги шерифа Ноттингемского. Робин Гуд со своей командой несколько раз пытался попасть на полигон, но безуспешно -- охрана слишком сильная. Он хотел бы узнать больше о катапультах в распоряжении шерифа, поэтому команда наблюдала за полигоном и записывала, где падали снаряды в течениии длительного времени. Известно, что каждая катапульта тестировалась на своей мишени, которая не изменялась со временем. Показания записаны в файле catapults.pkl (pickle).

Для решения задачи предлагается использовать EM-алгоритм и гауссовские смеси.

* (1) Опишите ваш алгоритм и выпишите формулы для E-шага и M-шага (достаточно только ответа с пояснением обозначений). Реализуйте EM-алгоритм для оценки смеси гауссиан на плоскости (для удобства приводим шаблон кода с классом GaussianMixtureModel, см. ниже) и протестируйте его на заданной вами (с помощью того же класса) смеси гауссиан, убедитесь, что всё работает корректно. Нарисуйте график изменения критерия ЕМ-алгоритма(функция Q) в зависимости от номера шага, чтобы показать, что алгоритм сошёлся.
* (2) Проанализируйте данные из  data1.csv, нарисуйте стартовое распределение точек. Попробуйте, позапускав EM-алгоритм с разными параметрами, понять: (а) сколько всего катапульт у Шерифа  (б) насколько точно они стреляют (в иллюстрации могут помочь нарисованные с помощью matplotlib изолинии для плотности смеси ). 

### Реализация EM-алгоритма

Начнём с пункта 1: нам нужно реализовать рабочий EM-алгоритм для гауссовской смеси.

*Инициализация*

*Е-шаг*

*М-шаг*

Теперь займёмся кодом. Для начала реализуем базовую модель гауссовской смеси (задание параметров и семплирование),  а затем реализуем EM.

In [2]:
class GaussianMixtureModel:
    '''
    Implements Gaussian Mixture Model in R^d
    '''

    def __init__(self,K=1,mus=[0],sigmas=[1], pis=[1]):
        '''
        Input
        int K -- number of components
        list(float[] np.array(d)) mus -- K entries of (d,), expected values
        list(float[][]) sigmas -- K entries of (d,d,), covariances
        list(float) pis -- K floats, weights, positive and sump up to 1
        '''
        self.K=K
        self.mus = mus
        self.sigmas = sigmas
        self.pis = pis


    def sample(self, N=10):
        '''
        Samples N samples from the model
        Input
        int N -- number of samples
        Output
        float[][] -- (N,d), N d-dimensional samples
        int[] -- (N,), cluster assignments
        '''
        pass
        #YOUR CODE

    def fitEM(self, data, nSteps):
        '''
        Fits mus and sigmas using EM-algorithm
        Input
        float[][] data -- (batch, d), given data
        int nSteps --  number of steps for EM
        '''
        pass

Задайте произвольную модель и посмотрите, как она выдаёт семплы.

In [None]:
#считаем простой пример
mus = [np.array([0,0]),np.array([5,5])]
sigmas = [np.array([[1,0],[0,1]]), np.array([[2,0.2],[0.2,2]])]
pis = [0.7,0.3]

gmmModel = GaussianMixtureModel(2, mus=mus,\
                                   sigmas=sigmas,\
                                   pis = pis)

#семплируем 100 точек
samples, clusterAssignments = gmmModel.sample(100)

In [None]:
#Рисуем!!

f,ax = plt.subplots(figsize=(7,7))

ax.grid()
ax.set_title("Mixture Plot")
#ax.scatter(...)

Теперь реализуйте EM-алгоритм и попробуйте по семплированным ранее данным оценить параметры. В нашем случае пара шагов EM уже приводит к хорошему результату.

In [None]:
gmmModel2 = GaussianMixtureModel(2, mus = [np.zeros(2), np.ones(2)*3], sigmas = [np.eye(2), np.eye(2)*0.5], pis = [0.5,0.5] ) #инициализация с потолочными параметрами
#ВАЖНО: ПАРАМЕТРЫ ДОЛЖНЫ БЫТЬ РАЗНЫМИ ДЛЯ РАЗНЫХ КОМПОНЕНТ СМЕСИ!!

gmmModel2.fitEM(samples,10)

#нарисуйте график изменения критерия Q

#напечатайте в консоль значения параметров после fitEM

#насемплируйте 100 точек

In [None]:
#напечатайте семплы подогнанной модели!

### Подогнать EM по данным

Теперь откройте датасет Робина Гуда с помощью numpy, напечатайте точки на плоскости, как мы делали раньше, и примените EM-алгоритм, чтобы затем аргументированно ответить на поставленные вопросы с помощью графиков.

In [None]:
#поехали!