# Подготовка окружения

## Python Installation

We highly recommend using anaconda for installing python. [Click here](https://www.anaconda.com/download/) to go to Anaconda's download page. [Click here](https://docs.conda.io/en/latest/miniconda.html) to go on Miniconda's download page. Make sure to download Python 3.6 version.
If you are on a windows machine:
 - Open the executable after download is complete and follow instructions.
 - Once installation is complete, open `Anaconda prompt` from the start menu. This will open a terminal with python enabled.
 
 If you are on a linux machine: 
 
 - Open a terminal and navigate to the directory where Anaconda was downloaded. 
 - Change the permission to the downloaded file so that it can be executed. So if the downloaded file name is `Anaconda3-5.1.0-Linux-x86_64.sh`, then use the following command:
 
      `chmod a+x Anaconda3-5.1.0-Linux-x86_64.sh`
 
 - Now, run the installation script using `./Anaconda3-5.1.0-Linux-x86_64.sh`, and follow installation instructions in the terminal.
 
 
Once you have installed python, create a new python environment will all the requirements using the following command: 

    conda create -n machine_learning python scipy numpy matplotlib jupyter
 
After the new environment is setup, activate it using (windows)

    activate machine_learning
   
or if you are on a linux machine

    source activate machine_learning 

Now we have our python environment all set up, we can start working on the assignments. To do so, navigate to the directory where the assignments were installed, and launch the jupyter notebook from the terminal using the command

    jupyter notebook

## Python Tutorials

If you are new to python and to `jupyter` notebooks, no worries! There is a plethora of tutorials and documentation to get you started. Here are a few links which might be of help:

- [Python Programming](https://pythonprogramming.net/introduction-to-python-programming/): A tutorial with videos about the basics of python. 

- [Numpy and matplotlib tutorial](http://cs231n.github.io/python-numpy-tutorial/): We will be using numpy extensively for matrix and vector operations. This is great tutorial to get you started with using numpy and matplotlib for plotting.

- [Jupyter notebook](https://medium.com/codingthesmartway-com-blog/getting-started-with-jupyter-notebook-for-python-4e7082bd5d46): Getting started with the jupyter notebook. 

- [Python introduction based on the class's MATLAB tutorial](https://github.com/mstampfer/Coursera-Stanford-ML-Python/blob/master/Coursera%20Stanford%20ML%20Python%20wiki.ipynb): This is the equivalent of class's MATLAB tutorial, in python.

- [Numpy documentation](https://numpy.org/doc/stable/contents.html)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd

np.set_printoptions(linewidth=1000)

# Пример задачи ML: Ирисы Фишера
Выборка взята отсюда: https://archive.ics.uci.edu/ml/datasets/iris
## Загрузка выборки

In [None]:
dataset = pd.read_csv('Data/iris.csv', 
                      header=None, 
                      names=['длина чашелистика', 'ширина чашелистика', 
                             'длина лепестка', 'ширина лепестка', 'класс'])

dataset.head()

In [None]:
dataset.sample(5, random_state=0)

## Начало работы с данными
1. Определить множество объектов:
    * Определить размер выборки
    * Определить признаки, которыми описываются объекты
2. Определить множество ответов
3. Определить тип задачи машинного обучения
6. ...

### Множество объектов
В данной задачи множество объектов описывается $n=4$ признаками:
1. Длина чашелистика
2. Ширина чашелистика
3. Длина лепестка
4. Ширина лепестка

In [None]:
print('Размер выборки составляет l={} объектов.'.format(dataset.shape[0]))

In [None]:
dataset.info()

Все признаки являются вещественными признаками. Формально объекты $\mathbf{X}$ представляються в следующем виде:
$$\mathbf{X} \in \mathbb{R}^{l\times n},$$
где $l$ число объектов, а $n$ число признаков.

Получаем, что $\mathbf{X}$ это некоторая вещественная матрица размера $l\times n$.

### Множество ответов
В данной задаче множество ответов состоит из трех элементов:
1. Iris-virginica
2. Iris-versicolor
3. Iris-setosa

### Задача машинного обучения
В нашем случае, так как мощность множества $|\mathbf{y}|=3 \ll l=150$ получаем задачу классификации на $M=3$ класса.

## Анализ данных
Сначала проэктируем все объекты на двумерные плоскости, для упрощения анализа

In [None]:
sns.pairplot(dataset, hue='класс', height=2)
plt.show()

## Построение модели
### Преобразование данных
Как было сказано ранее нам требуется решить задачу классификации на 3 класса. Но для наглядноси рассмотрим бинарную классификацию (классификацию на несколько классов рассмотрим в одной из следующих лекций).

Чтобы исходную задачу преобразовать в задачу бинарной классификации уберем из выборки все объекты класса Iris-setosa.
Классы закодируем целыми числами  −1  и  1. Получим задачу бинарной классификации.

In [None]:
binary_dataset = dataset.drop(index = dataset.index[dataset['класс'] == 'Iris-setosa'])
binary_dataset.loc[dataset['класс'] == 'Iris-versicolor', 'класс'] = -1
binary_dataset.loc[dataset['класс'] == 'Iris-virginica', 'класс'] = 1
binary_dataset.reset_index(inplace=True, drop=True)
binary_dataset.sample(5, random_state=0)

In [None]:
binary_dataset.info()

### Модель алгоритмов

Модель алгоритмов $A$ в машинном обучении это некоторое множество функций, которые действуют из множества объектов в множество ответов, в нашем случае:
$$A = \{h| h: \mathbb{R}^n \to \{-1, 1\},$$
обычно $A$ это некоторое параметрическое семество функций, тоесть разные функции $h$ отличаются друг от друга только каким-то параметром. Простым примером параметрического семейства функций для задачи бинарной классификации является семейство линейных классификаторов:
$$A_{bcl} = \left\{h\bigr(\theta, \mathbf{x}\bigr)=\text{sign}\bigr(\theta^{\mathsf{T}}\mathbf{x}\bigr)\bigr| \theta \in \mathbb{R}^{n} \right\}.$$

### Функция потерь

Машиное обучение это всегда выбор функции из множества $A$. Чтобы выбрать функцию, нужен некоторый критерий по которому она выбирается, то есть нужно упоррядочить все функции от худшей к лучшей. Для этого построем функционал $Q$, который каждой функции $h \in A$ ставит в соответствии число из $\mathbb{R}_+$. В машинном обучении обычно функционал качества водиться как некоторая ошибка на выборке. В общем виде функционал качества можно представить в следующем виде:
$$Q\bigr(h, \mathbf{X}, \mathbf{y}\bigr) = \sum_{i=1}^l\mathcal{L}\bigr(h, \mathbf{x}_i, y_i\bigr),$$
где $\mathcal{L}$ некоторая функция ошибки (функция потерь) на некотором объекте $\mathbf{x}$. Функционал качества $Q$ называется эмпирическим риском.

### Оптимизационная задача

Далее нужно поставить задачу оптимизации для выбора $h \in A$. Здесь все просто, просто минимизируем эмпирический риск:
$$\hat{h} = \arg \min_{h \in A} Q\bigr(h, \mathbf{X}, \mathbf{y}\bigr).$$

Важно! В результе функция $\hat{h}$ зависит от выборки $\left(\mathbf{X}, \mathbf{y}\right)$, то есть для разных наборов данных оптимальная функция будет различная.

Вернемся к нашей задаче. В нашем случае функционал качества будет иметь следующий вид:
$$Q\bigr(\theta, \mathbf{X}, \mathbf{y}\bigr) = \sum_{i=1}^l\bigr[h\bigr(\theta, \mathbf{x}_i\bigr) \not= y_i\bigr],$$
и оптимизационная задача переписывается в виде:
$$\hat{\theta} = \arg \min_{\theta \in \mathbb{R}^n} \sum_{i=1}^l\bigr[h\bigr(\theta, \mathbf{x}_i\bigr) \not= y_i\bigr].$$

И на самом деле в дальнейшем будем решать иммено такие задачи, на поиск оптимального параметра. Само решение задачи линейной бинарной классификации будет на следующей лекции. Сейчас воспользуемся библиотеками для решения данной задачи.

### Поиск оптимального вектора параметров
Перейдем к двум матрицам:
1. Матрице объектов $\mathbf{X} \in \mathbb{R}^{l\times (n+1)}$
2. Вектору ответов $\mathbf{y} \in \{-1,1\}^l$

Заметим, что объекты мы преобразовали в пространство более большой размерности, добавив еще один признак, который у всех объектов будет равен $1$.

In [None]:
X = binary_dataset.loc[:, binary_dataset.columns != 'класс'].values
y = binary_dataset.loc[:, 'класс'].values.reshape(-1)
X = np.array(np.hstack([X, np.ones([len(X), 1])]), dtype=np.float64)
y = np.array(y, dtype=np.int64)

In [None]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(random_state=0, max_iter=2000)
_ = model.fit(X, y)

Получаем вектор оптимальных параметров $\hat{\theta}$

In [None]:
model.coef_

Используем модель для предсказания классов обьектов:

In [None]:
model.predict(X[[86, 2, 55]])

# Выбор модели

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from numpy.random import default_rng
from sklearn.linear_model import LinearRegression

In [None]:
rng = default_rng()
vals = rng.standard_normal(10)
vals

In [None]:
np.random.seed(0)
X = np.arange(0, 10, 0.05)
Y_real = 0.07*X*X + X + 2*np.cos(X) + 2
Y_train = Y_real + 1.5 * rng.standard_normal(X.size)

X_train1 = np.stack([X, np.cos(X)], axis=-1)
reg1 = LinearRegression().fit(X_train1, Y_train)

X_train2 = np.stack([X, X*X], axis=-1)
reg2 = LinearRegression().fit(X_train2, Y_train)

In [None]:
fig, ax = plt.subplots()
fig.set_figwidth(10)
fig.set_figheight(8)
ax.scatter(X, Y_train, s=25, label='Training data')
ax.plot(X, reg1.predict(X_train1), 'g', label=r"$Y=\theta_2 cos(X) + \theta_1 X + \theta_0$")
ax.plot(X, reg2.predict(X_train2), 'r', label=r"$Y=\theta_2 X^2 + \theta_1 X + \theta_0$")
legend = ax.legend(loc='upper left', fontsize='x-large')
plt.xlabel('x')
plt.ylabel('y')
plt.savefig("regression_model.svg", format="svg", bbox_inches='tight')
plt.show()

# Классификация и регрессия

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDClassifier, SGDRegressor
from sklearn.datasets import make_blobs
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

# Classification

# we create 50 separable points
X, Y = make_blobs(n_samples=100, centers=2, random_state=0, cluster_std=0.90)

# fit the model
clf = SGDClassifier(loss="hinge", alpha=0.01, max_iter=200)
clf.fit(X, Y)

# plot the line, the points, and the nearest vectors to the plane
xx = np.linspace(-2, 5, 10)
yy = np.linspace(-1, 5, 10)

X1, X2 = np.meshgrid(xx, yy)
Z = np.empty(X1.shape)
for (i, j), val in np.ndenumerate(X1):
    x1 = val
    x2 = X2[i, j]
    p = clf.decision_function([[x1, x2]])
    Z[i, j] = p[0]
levels = [0.0]
linestyles = ["solid"]
colors = "k"

print(Z)

plt.figure(figsize=(12.8, 4.8))
ax = plt.subplot(1, 2, 1)
plt.contour(X1, X2, Z, levels, colors=colors, linestyles=linestyles)
plt.scatter(X[Y == 1, 0], X[Y == 1, 1], marker='x', s=25, color='k')
plt.scatter(X[Y == 0, 0], X[Y == 0, 1], marker='o', s=25, facecolors='none', edgecolors='k')
plt.axis("tight")


# Regression

np.random.seed(0)
X = 2.5 * np.random.randn(100) + 1.5
X.sort()
res = 0.5 * np.random.randn(100)
y = 2 + 0.05 * X * X + res
#X_train = X.reshape(-1, 1)
X_train = np.column_stack((X, np.square(X)))
reg = make_pipeline(StandardScaler(), SGDRegressor())
reg = reg.fit(X_train, y)
ypred = reg.predict(X_train)
ax = plt.subplot(1, 2, 2)
plt.plot(X, ypred, color='k')
plt.scatter(X, y, s=25, facecolors='none', edgecolors='k')
plt.savefig("cls_reg.svg", format="svg", bbox_inches='tight')
plt.show()

# Переобучение и контроль качества

В предыдущих примерах мы показали, что полученная оптимальная функция сильно зависит от данных и от сложности выбранной модели.

Поэтому обычно выделяют этапы обучения и контроля. На этап обучения одни данные, а на этапе контроля другие.
Перепишем постановку задачи следующем образом, пусть задана обучающая выборка:
$$\mathbf{X}_{tr} \in \mathbb{R}^{l_{tr}\times n}, \quad \mathbf{y}_{tr} \in \mathbb{Y}^{l_{tr}},$$
и выборка для контроля:
$$\mathbf{X}_{vl} \in \mathbb{R}^{l_{vl}\times n}, \quad \mathbf{y}_{vl} \in \mathbb{Y}^{l_{vl}}.$$

Также еще есть отложенная выборка, которая вообще не используется в подборе каких либо параметров, тестова выборка:
$$\mathbf{X}_{ts} \in \mathbb{R}^{l_{ts}\times n}, \quad \mathbf{y}_{ts} \in \mathbb{Y}^{l_{ts}}.$$

В этом случае оптимальные параметры $\hat{\theta}$ находятся из оптимизационной задачи:
$$\hat{\theta} = \arg \min_{\theta \in \mathbb{R}^n} Q\bigr(\theta, \mathbf{X}_{tr}, \mathbf{y}_{tr}\bigr).$$

После этапа получения параметров $\hat{\theta}$ происходит измерения качества модели на выборке $\mathbf{X}_{vl}, \mathbf{y}_{vl}$.

И того получаем две ошибки $Q\bigr(\theta, \mathbf{X}_{tr}, \mathbf{y}_{tr}\bigr)$ и $Q\bigr(\theta, \mathbf{X}_{vl}, \mathbf{y}_{vl}\bigr)$ и в случае, если ошибка на обучении много меньше чем ошибка на контроле, то получаем переобучение.

## Борьба с переобучением
Бороться с переобучениям можно многими способами:
1. Изменения структуры модели
2. Добавление регуляризаторов
3. ...

Но большинство методов борьбы с регуляризацией добавляют свои параметры (гиперпараметры), которые также нужно оптимизировать. Обычно для их оптимизации и используется метод Cross-Validation и Leave One Out.

### LOO

Один из простых методов борьбы с переобучением является метод Leave One Out. Для удобства обозначим $\hat{\theta}\bigr(\mathbf{X}\bigr)$ как оптимальный вектор для выборки $\mathbf{X}$. Тогда ошибка LOO определяется следующим образом:
$$LOO\bigr(\mu, \textbf{X}_{tr}, \textbf{y}_{tr}, \textbf{X}_{vl}, \textbf{y}_{vl}\bigr) = 
\sum_{i=1}^{l_{tr}+l_{vl}}q\bigr(\hat{\theta}\bigr(\mathbf{X}_{tr}\cup\textbf{X}_{vl}\setminus\mathbf{x}_i, \mu\bigr), \mathbf{x}_i, y_i\bigr),$$
где $\mathbf{x}_i$ это элемент из объединенного датасета обучения и валидации.

После чего оптимальный вектор параметров является решением следующей оптимизационной задачи:
$$
\hat{\mu} = \arg\min_{\mu \in \mathfrak{M}} LOO\bigr(\mu, \textbf{X}_{tr}, \textbf{y}_{tr}, \textbf{X}_{vl}, \textbf{y}_{vl}\bigr),
$$
$$
\hat{\theta} = \hat{\theta}\bigr(\mathbf{X}_{tr}\cup\textbf{X}_{vl}, \hat{\mu}\bigr)
$$

Для нашего синтетического примера в качестве параметра $\mu$ можно рассмоттреть степень полинома для аппроксимации (изменения структуры модели).

Пример, где реально используется LOO или CV будет рассмотрен на одном из следующих семинаров.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score


def true_fun(X):
    return np.cos(1.5 * np.pi * X)

np.random.seed(0)

n_samples = 30
degrees = [1, 4, 15]

X = np.sort(np.random.rand(n_samples))
y = true_fun(X) + np.random.randn(n_samples) * 0.1

plt.figure(figsize=(14, 5))
for i in range(len(degrees)):
    ax = plt.subplot(1, len(degrees), i + 1)
    plt.setp(ax, xticks=(), yticks=())

    polynomial_features = PolynomialFeatures(degree=degrees[i], include_bias=False)
    linear_regression = LinearRegression()
    pipeline = Pipeline(
        [
            ("polynomial_features", polynomial_features),
            ("linear_regression", linear_regression),
        ]
    )
    pipeline.fit(X[:, np.newaxis], y)

    # Evaluate the models using crossvalidation
    scores = cross_val_score(
        pipeline, X[:, np.newaxis], y, scoring="neg_mean_squared_error", cv=10
    )

    X_test = np.linspace(0, 1, 100)
    plt.plot(X_test, pipeline.predict(X_test[:, np.newaxis]), label="Model")
    plt.plot(X_test, true_fun(X_test), label="True function")
    plt.scatter(X, y, edgecolor="b", s=20, label="Samples")
    plt.xlabel("x")
    plt.ylabel("y")
    plt.xlim((0, 1))
    plt.ylim((-2, 2))
    plt.legend(loc="best")
    plt.title(
        "Degree {}\nMSE = {:.2e}(+/- {:.2e})".format(
            degrees[i], -scores.mean(), scores.std()
        )
    )
plt.savefig("overfitting.svg", format="svg", bbox_inches='tight')
plt.show()

# Разные задачи машинного обучения

Задачи машиного обучения можно разделить на несколько типов:
1. Решается одна прикладная задача. В данном случае основной целью является получить наилучший результат на отложенной выборке. В данном случае обычно есть одна выборка и нужно перебрать все возможные методы машинного обучения, чтобы получить лучший результат.
2. Тестируется метод на большом количестве реальных данных. В данном случае основной целью является протестировать новый метод на широком спектре задач. Рассматриваются задачи из разных областей.
3. Тестирования метода на большом количестве синтетических данных/ полусинтеттиических данных. Синтетические данные позволяют проверять разные гипотезы о модели. 

## Прикладные задачи

Обычно решение таких задач состоит из следующих этапов:
1. Ищуться модели, которые решают похожие задачи.
2. Анализ данных, анализ области откуда пришла задача.
3. Адаптация моделей под прикладную задачу.
4. Поверхностная оценка качества каждой модели на полученной выборке.
5. Обучения 1 или 2 лучших моделей, подбирая все возможные параметры и гиперпараметры для получения лучшего результата.

Главный результат данной задачи, это получить модель (одну функцию из модели алгоритмов), которая решает конкретную задачу, на конкретном наборе данных.

## Исследовательские задачи

Обычно решение таких задач состоит из следующих этапов:
1. Анализ некоторой предметной области
2. Разработка новой модели машиного обучения
3. Проверка работоспособности метода на синтетических данных
4. Выявление ограничений метода
5. Тестирование на большом количестве реальных данных 

Заметим, что основным результатом в данном случае является не одна функция, которая решает одну поставленую задачу, а новая модель алгоритмов, которая может быть применима для большого количества задач. Важно, что не обязательно, новая модель алгоритмов должна давать лучшее качество на разных выборках.

## Домашнее задание

- Пройти курс: [Coursera Machine Learning MOOC by Andrew Ng](https://www.coursera.org/learn/machine-learning)
- Задания к курсу на python можно найти здесь: [ml-coursera-python-assignments](https://github.com/dibgerge/ml-coursera-python-assignments)
- К следующему семинару выполнить задание 1 и быть готовым презентовать