<center>
<img src="../../img/ods_stickers.jpg">
## Отворен курс по машинно обучение
Автор на материала: програмист-изследовател в Mail.ru Group, старши преподавател във Факултета по компютърни науки на Висшето училище по икономика Юрий Кашницки. Материалът се разпространява съгласно условията на лиценза [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). Можете да го използвате за всякакви цели (редактиране, коригиране и използване като основа), освен търговски, но със задължителното споменаване на автора на материала.

# <center> Тема 6. Проблем с възстановяване чрез регресия</center>
## <center>Практика. Линейна регресия</center>
<center>*Материалът е същият като в специализацията „Машинно обучение и анализ на данни“ (и авторът е същият), поради което се разпространява без решение.*

### Част 1. Анализ на първични данни с Pandas

В тази задача ще използваме [SOCR](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights) данни за височината и теглото на 25 хиляди тийнейджъри.

**[1]. Ако нямате инсталирана библиотека Seaborn, изпълнете командата *conda install seaborn* в терминала. (Seaborn не е включен в компилацията на Anaconda, но библиотеката предоставя удобна функционалност на високо ниво за визуализация на данни.**

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

%matplotlib inline

Ние четем данните за височината и теглото (*weights_heights.csv*, приложен в задачата) в Pandas DataFrame обект:

In [None]:
data = pd.read_csv("../../data/weights_heights.csv", index_col="Index")

Най-често първото нещо, което трябва да направите след прочитане на данните, е да погледнете първите няколко записа. По този начин можете да уловите грешки при четене на данни (например, ако вместо 10 колони получите една с 9 точки и запетая в името си). Това също ви позволява да се запознаете с данните, поне да разгледате характеристиките и тяхното естество (количествени, категорични и т.н.).

След това си струва да се изградят хистограми на разпределението на характеристиките - това отново ви позволява да разберете естеството на характеристиката (тя има степенно разпределение, или нормално, или някакво друго). Освен това, благодарение на хистограмата, можете да намерите някои стойности, които са много различни от другите - „извънредности“ в данните.
Удобно е да се конструират хистограми с помощта на метода *plot* Pandas DataFrame с аргумента *kind='hist'*.

**Пример.** Нека изградим хистограма на разпределението на височината на юноши от извадката от *данни*. Използваме метода *plot* за DataFrame *data* с аргументи *y='Height'* (това е функцията, чието разпределение изграждаме)

In [None]:
data.plot(y="Height", kind="hist", color="red", title="Height (inch.) distribution");

Аргументи:

- *y='Height'* - функцията, чието разпределение изграждаме
- *kind='hist'* - означава, че се изгражда хистограма
- *color='red'* - цвят

**[2]. Погледнете първите 5 записа, като използвате метода *head* на Pandas DataFrame. Начертайте хистограма на разпределението на теглото, като използвате метода *plot* на Pandas DataFrame. Направете хистограмата зелена и маркирайте снимката.**

In [1]:
# Вашият код е тук

In [2]:
# Вашият код е тук


Един от ефективните методи за първичен анализ на данни е показването на двойни зависимости на характеристиките. Създават се $m \times m$ графики (*m* е броят на характеристиките), където по диагонала се чертаят хистограми на разпределението на характеристиките, а извън диагонала се чертаят точкови диаграми на зависимостите на две характеристики. Това може да се направи с помощта на метода $scatter\_matrix$ на Pandas Data Frame или метода *pairplot* на библиотеката Seaborn.

За да илюстрираме този метод, е по-интересно да добавим трета функция. Нека създадем характеристиката *Индекс на телесна маса* ([ИТМ](https://en.wikipedia.org/wiki/Body_mass_index)). За да направим това, ще използваме удобна комбинация от метода *apply* Pandas DataFrame и ламбда функциите на Python.

In [None]:
def make_bmi(height_inch, weight_pound):
    METER_TO_INCH, KILO_TO_POUND = 39.37, 2.20462
    return (weight_pound / KILO_TO_POUND) / (height_inch / METER_TO_INCH) ** 2

In [None]:
data["BMI"] = data.apply(lambda row: make_bmi(row["Height"], row["Weight"]), axis=1)

**[3]. Изградете картина, която ще показва по двойки зависимостите на характеристиките, „Височина“, „Тегло“ и „ИТМ“ една от друга. Използвайте метода *pairplot* на библиотеката Seaborn.**

In [3]:
# Вашият код е тук

Често по време на първоначалния анализ на данните е необходимо да се изследва зависимостта на някаква количествена характеристика от категорична (например заплата от пола на служителя). "Кутиите с мустаци" - boxplots на библиотеката Seaborn - ще помогнат за това. Box plot е компактен начин за показване на статистика на реален атрибут (средна стойност и квартили) за различни стойности на категориален атрибут. Той също така помага за проследяване на „отклонения“ - наблюдения, при които стойността на дадена материална характеристика е много различна от другите.

**[4]. Създайте нов атрибут *weight_category* в DataFrame *data*, който ще има 3 стойности: 1, ако теглото е по-малко от 120 lbs. (~54 кг.), 3 - ако теглото е по-голямо или равно на 150 паунда (~68 кг.), 2 - в противен случай. Изградете кутия, показваща височината като функция от тегловната категория. Използвайте метода *boxplot* на библиотеката Seaborn и метода *apply* на Pandas DataFrame. Обозначете оста *y* с етикета „Височина“, оста *x* с етикета „Теглова категория“.**

In [None]:
def weight_category(weight):
    pass
# Вашият код е тук

data["weight_cat"] = data["Weight"].apply(weight_category)
# Вашият код е тук

**[5]. Изградете точкова диаграма на височината спрямо теглото, като използвате метода *plot* за Pandas DataFrame с аргумента *kind='scatter'*. Подпишете снимката.**

In [None]:
# Вашият код е тук

## Част 2. Минимизиране на грешката на квадрат

В най-простата формулировка проблемът за прогнозиране на стойността на реална характеристика въз основа на други характеристики (проблемът за възстановяване на регресията) се решава чрез минимизиране на функцията на квадратичната грешка.

**[6]. Напишете функция, която с помощта на два параметъра $w_0$ и $w_1$ изчислява квадратната грешка на приближаването на зависимостта на височината $y$ от теглото $x$ чрез права линия $y = w_0 + w_1 * x$:**
$$грешка(w_0, w_1) = \sum_{i=1}^n {(y_i - (w_0 + w_1 * x_i))}^2 $$
Тук $n$ е броят на наблюденията в набора от данни, $y_i$ и $x_i$ са височината и теглото на $i$-тия човек в набора от данни.

In [None]:
# Вашият код е тук

И така, ние решаваме проблема: как да начертаем права линия през облак от точки, съответстващи на наблюдения в нашия набор от данни в пространството на характеристиките „Височина“ и „Тегло“, така че да минимизираме функционала от стъпка 6. Първо, нека покажете поне няколко прави линии и се уверете, че те не предават добре връзката между височина и тегло.

**[7]. Начертайте две прави линии на графиката от стъпка 5 на Задача 1, съответстващи на стойностите на параметъра ($w_0, w_1) = (60, 0.05)$ и ($w_0, w_1) = (50, 0.16)$. Използвайте метода *plot* от *matplotlib.pyplot*, както и метода *linspace* на библиотеката NumPy. Маркирайте осите и графиката.**

In [None]:
# Вашият код е тук

Минимизирането на функцията за квадратична грешка е относително проста задача, тъй като функцията е изпъкнала. Има много методи за оптимизация за такъв проблем. Нека да видим как функцията за грешка зависи от един параметър (наклона на линията), ако вторият параметър (свободният член) е фиксиран.

**[8]. Начертайте зависимостта на функцията за грешка, изчислена в стъпка 6, от параметъра $w_1$ за $w_0$ = 50. Маркирайте осите и графиката.**

In [None]:
# Вашият код е тук

Сега, използвайки метода за оптимизация, ще намерим „оптималния“ наклон на правата, апроксимираща зависимостта на височината от теглото, с фиксиран коефициент $w_0 = 50$.

**[9]. Използвайки метода *minimize_scalar* от *scipy.optimize*, намерете минимума на функцията, дефинирана в стъпка 6 за стойности на параметъра $w_1$ в диапазона [-5,5]. Начертайте права линия върху графиката от стъпка 5 на задача 1, съответстваща на стойностите на параметрите ($w_0$, $w_1$) = (50, $w_1\_opt$), където $w_1\_opt$ е оптималната стойност на параметъра $, открит в стъпка 8 w_1$. **

In [None]:
# Вашият код е тук

In [None]:
# Вашият код е тук

Когато се анализират многоизмерни данни, често се иска да се получи интуитивно разбиране на естеството на данните чрез визуализация. Уви, ако броят на знаците е повече от 3, е невъзможно да се нарисуват такива картини. На практика, за визуализиране на данни в 2D и 3D, 2 или съответно 3 основни компонента се идентифицират в данните (ще видим как точно се прави това по-късно в курса) и данните се показват в равнина или в обем.

Нека видим как да рисуваме 3D картини в Python, използвайки примера за показване на функцията $z(x,y) = sin(\sqrt{x^2+y^2})$ за стойности $x$ и $y $ от интервала [-5 ,5] със стъпка 0,25.

In [None]:
from mpl_toolkits.mplot3d import Axes3D

Създаваме обекти от тип matplotlib.figure.Figure (фигура) и matplotlib.axes._subplots.Axes3DSubplot (ос).

In [None]:
fig = plt.figure()
ax = fig.gca(projection="3d")  # get current axis

# Создаем массивы NumPy с координатами точек по осям X и У.
# Используем метод meshgrid, при котором по векторам координат
# создается матрица координат. Задаем нужную функцию Z(x, y).
X = np.arange(-5, 5, 0.25)
Y = np.arange(-5, 5, 0.25)
X, Y = np.meshgrid(X, Y)
Z = np.sin(np.sqrt(X ** 2 + Y ** 2))

# Наконец, используем метод *plot_surface* объекта
# типа Axes3DSubplot. Также подписываем оси.
surf = ax.plot_surface(X, Y, Z)
ax.set_xlabel("X")
ax.set_ylabel("Y")
ax.set_zlabel("Z")
plt.show()

**[10]. Постройте 3D графика на зависимостта на функцията за грешка, изчислена в стъпка 6, от параметрите $w_0$ и $w_1$. Обозначете оста $x$ с етикета „Отсечка“, оста $y$ с етикета „Наклон“ и оста $z$ с етикета „Грешка“.**

In [None]:
# Вашият код е тук

In [None]:
# Вашият код е тук

In [None]:
# Вашият код е тук

**[11]. Използвайки метода *minimize* от scipy.optimize, намерете минимума на функцията, дефинирана в стъпка 6 за стойности на параметър $w_0$ в диапазона [-100,100] и $w_1$ в диапазона [-5, 5]. Началната точка е ($w_0$, $w_1$) = (0, 0). Използвайте метода за оптимизация L-BFGS-B (аргумент на метода на метода за минимизиране). На графиката от стъпка 5 на Задача 1 начертайте права линия, съответстваща на намерените оптимални стойности на параметрите $w_0$ и $w_1$. Маркирайте осите и графиката.**


In [None]:
# Вашият код е тук

In [None]:
# Вашият код е тук