# Въведение в Машинното самообучение (Machine Learning)

Целите днес:

* Да се запознаем с курса  
* Да си подкараме необходимите технологии 
* Да разгледаме примерни входни данни
* Видове машинно самообучение: "с учител" (supervised) и "без учител" (unsupervised)
* Да разгледаме няколко алгоритъма най-общо

# Нужните технологии

Трябват ви jupyter, scikit-learn и няколко други технологии. Имате два начина да ги подкарате:

* `pip install`
* Anaconda (https://anaconda.org/)

# `pip install`

За да начало са ви нужни следните неща:

```
pip install numpy scipy matplotlib ipython scikit-learn pandas pillow mglearn jupyter
```

In [1]:
pip install numpy scipy matplotlib ipython scikit-learn pandas pillow mglearn jupyter

Collecting numpy
  Using cached numpy-1.19.5-cp36-cp36m-win_amd64.whl (13.2 MB)
Collecting scipy
  Using cached scipy-1.5.4-cp36-cp36m-win_amd64.whl (31.2 MB)
Collecting matplotlib
  Using cached matplotlib-3.3.4-cp36-cp36m-win_amd64.whl (8.5 MB)
Collecting scikit-learn
  Using cached scikit_learn-0.24.2-cp36-cp36m-win_amd64.whl (6.8 MB)
Collecting pandas
  Using cached pandas-1.1.5-cp36-cp36m-win_amd64.whl (8.7 MB)
Collecting pillow
  Using cached Pillow-8.4.0-cp36-cp36m-win_amd64.whl (3.2 MB)
Collecting mglearn
  Using cached mglearn-0.1.9-py2.py3-none-any.whl
Collecting jupyter
  Using cached jupyter-1.0.0-py2.py3-none-any.whl (2.7 kB)
Collecting cycler>=0.10
  Using cached cycler-0.11.0-py3-none-any.whl (6.4 kB)
Collecting kiwisolver>=1.0.1
  Using cached kiwisolver-1.3.1-cp36-cp36m-win_amd64.whl (51 kB)
Collecting threadpoolctl>=2.0.0
  Using cached threadpoolctl-3.1.0-py3-none-any.whl (14 kB)
Collecting joblib>=0.11
  Using cached joblib-1.1.0-py2.py3-none-any.whl (306 kB)
Collec

Конкретно:

* numpy, scipy – библиотеки за "работа с числа"
* matplotlib, pillow – чертане на графики
* scikit-learn – machine learning, тук се случва магията
* ipython – по-шантава интерактивна конзола
* jupyter – система за notebooks за Python (и други)
* pandas – библиотека за анализ на данни
* mglearn – библиотеката на [Machine Learning with Python](http://shop.oreilly.com/product/0636920030515.do), има полезни функции за чертане

Веднъж като сте качили всичко това, просто изпълнете в терминала:

```
jupyter notebook
```

Това ще ви отвори браузър, където може да започнете работа.

# Anaconda

Идете на сайта и си го изтеглете. Нататък сте вие самите.

https://anaconda.org/

# Jupyter

За начало, нека разгледаме Jupyter.

* Интерактивна среда в notebook формат
* Позволява ви да изпълнявате код и да чертаете диаграми на едно място
* Експериментално ще го ползваме за слайдове и материали (като тази лекция, например)

Demo!

Jupyter е интерактивна среда, която ви позволява да изпълявате код и да чертаете диаграми в notebook формат. Тя е много подходяща за експериментиране с модели. Допълнително, може да споделите изследванията с някой като му пратите готов notebook. Например, тази лекция е един голям jupyter notebook, който ползваме едновремено за примери и слайдове. Части от нея (като този параграф) няма да бъдат достъпни в слайдовете, но ще може да разгледате впоследствие.

## Anaconda Navigator 

- https://docs.anaconda.com/anaconda/navigator/ 
- https://docs.anaconda.com/anaconda/navigator/getting-started/

Въпреки, че можете да работите и само с python+Jupyter, по-професоналния начин за работа, и този, който аз силно препоръчвам, е чрез Anacondа Navigator. (Въпреки че в началото малко ще се измъчите). В Anaconda за различните проекти, с които работите, можете да имате различна среда (enviroment) версия на Python/R, както и различни пакети (различните проекти могат да изиискват различни версии, за да не се "потрошат"), а и е хубаво да се следи кои пакети са нужни за всеки проект, и да не се инсталилат твърде много ненужни пакети). 

Ако карате в момента друг предмет на друга версия на Python, препоръчвам използването на Anaconda Navigator. 

Освен това, Anaconda идва и с други среди за разработване за Python програми (Spyder, Pycharm), и няколко приложения могат лесно да споделят една и съща среда. Това ще ви е нужно, ако се занимавате по-сериозно с Python и ML, тъй като jypyter тетрадките са направени за лесно провеждане и споделяне на експерименти, но не са подходящи за създаването на цялостен софтуерен продукт. 

# Python

Python е относително прост език за програмиране. Ще ви го разкажем в по-късна лекция – засега примерите ще бъдат частично разбираеми, частично черна магия. Не се притеснявайте ако нещо не ви е ясно. Избрали сме го, защото той има най-добрите библиотеки за machine learning. Авторите на тези библиотеки пък са го избрали, защото е много лесен за научаване.

Долното парче код ще ви е нужно в повечето jupyter notebooks.

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn
from IPython.display import display

%matplotlib notebook

# Машинно самообучение 

Машинното самообучение е предмента област, подобласт на изкуствения интелект (AI). В нея се включват всички алгоритми, които се обучават да решават различни задачи, чрез съставяне на статистически модели над множество от данни. 

В повечето случаи, обучението над повече данни води до подобряване на точността на алгоритъма. 

Възможни са приложения като: автоматизирани диагностични процедури, откриване на измами с кредитни карти, анализ на фондовия пазар,  разпознаване на глас, визуални образи и текст.

Проблемите, подходящи за машинно самообучение, имат следните качества:

* Работи се най-често с големи масиви от данни, но има и изключения. 
* "Нагаждаме" различни алгоритми към проблема, докато постигнем добър резултат.
* Тренираме модел, който ни позволява да отговорим на въпроси за нови данни.
* Rule of thumb: ако човек може да реши проблема за около 2 секунди, вероятно може да направим ML решение.

Някои интересности:

* Повече данни могат да ни помогнат да постигнем по-добър резлутат (до един момент).
* При коренно различни данни може да се наложи да ползваме друг алгоритъм за същия проблем.
* Процесът е до голяма степен екпериментален - на принципа проба-грешка. 

# Математика

Каква математика ще ви е нужна? Кратката версия:

$$ y = ax + b $$

(където $y$ и $b$ са вектори, а $a$ и $x$ са матрици).

Дългата версия е по-сложна.

Малко по-детайлно:

Задължително ще ви трябва да разбирате от поне малко линейна алгебра. Като начало, трябва да разбирате от умножение на матрици и да ви е относително комфортно да го правите. Това е едно добро начало.

В подробности – всеки алгоритъм си има особеностите и математиката, свързана с него. Линейната регресия е напълно разбираема с познания от първи семестър, първи курс. Други алгоритмни като Support Vector Machines или Principal Component Analysis са по-сложни и искат повече познания. На практика, може да стигнете доста далеч с повърхностно разбиране на тези алгоритми. На теория, колкото повече математика знаете, толкова по-добре ще се оправите.

За целите на курса ще се нуждаем единствено от уравнението по-горе.

# Входни данни

Обикновено работим с таблица от входни данни:

* Всеки ред е определена инстанция (например различен човек).
* Всяка колона е характерискита на тази инстанция (например възраст, брой деца, т.н.).
* Характеристиките още често се наричат (на чист български) фийчъри (features).
* Опционално към всеки ред може да има отговор на въпроса, за който правим модел (още се нарича етикет, label)
* Засега нека приемем, че клетки съдържат числа (по-късно ще учим техники за преобразуването на текстови данни в числови).
* Обикновено разглеждаме данните като матрица $X$, а етикетите (label-ите) като вектор $y$.

| Възраст | Коли | Къща | Деца | Женен   | Куче | Купува лодка? |
|---------|------|------|------|----------|-------|:-------------:|
| 66      | 1    | да   | 2    | вдовец   | не    | **да**        |
| 52      | 2    | не   | 3    | женен    | не    | **да**        |
| 22      | 0    | не   | 0    | женен    | да    | **не**        |
| 25      | 1    | не   | 1    | неженен  | не    | **не**        |
| 44      | 0    | не   | 2    | разведен | не    | **не**        |
| 39      | 1    | да   | 2    | женен    | да    | **не**        |
| 26      | 1    | не   | 2    | неженен  | не    | **не**        |
| 40      | 3    | да   | 1    | женен    | да    | **не**        |
| 53      | 2    | да   | 2    | разведен | не    | **да**        |
| 64      | 2    | да   | 3    | разведен | не    | **да**        |
| 58      | 2    | да   | 2    | женен    | да    | **да**        |
| 33      | 1    | не   | 1    | неженен  | не    | **не**        |


На първите 6 колони от предната таблица може да гледате като матрицата $X$, докато на последната колона като вектора $y$.

Булевите данни могат да се кодират като числата 0 и 1, а тези с няколко възможности (женен?) като серия от числа. Различни репрезентации може да са подходящи за различни алгоритми.

Конвенцията $X$ и $y$ ще се ползва постоянно, така че е добре да свикнете с нея. Когато се опитваме да отговаряме на въпроси (тези хора биха ли си купили лодка?), ще подаваме хората като матрица $X$ и ще очакваме да получим вектор $y$, където всеки елемент от вектора ще съдържа отговор дали този човек би си купил лодка.

Работата с текст обикновено се свежда до извличане на скаларни feature-и от данните (например колоните могат да съответстват на уникални думи в документа, докато клетките – на брой срещания). Това е по-дълбока вода, която ще покрием по-натам.

# Примерни набори от данни

scikit-learn предлага няколко набора от примерни данни с които може да работите.

* boston
* iris
* diabetes
* digits
* linnerud
* wine
* breast_cancer

Всички те могат да се ползват за прости експерименти и илюстрация на моделите. Дори ще ползваме някои.

Ако искате да ползвате определен dataset:

In [4]:
from sklearn.datasets import load_boston
housing = load_boston()
print(housing.data.shape)

(506, 13)


In [5]:
type(housing)

sklearn.utils.Bunch

In [8]:
housing.data.shape

(506, 13)

# Boston housing dataset demo

Ето описание на dataset-а:

In [9]:
print(housing.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

Данните са в `housing.data`, имената на feature-ите са в `housing.feature_names` (съответстват не тези кратки съкращения по-горе), а очакваната цел е в `housing.target`.

In [10]:
housing.feature_names

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='<U7')

In [4]:
housing.data

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
        4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
        9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
        4.0300e+00],
       ...,
       [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        5.6400e+00],
       [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
        6.4800e+00],
       [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]])

In [5]:
housing.feature_names

array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
       'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='<U7')

In [13]:
type(housing.target)

numpy.ndarray

In [11]:
housing.target

array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
       18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
       15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
       13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
       21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
       35.4, 24.7, 31.6, 23.3, 19.6, 18.7, 16. , 22.2, 25. , 33. , 23.5,
       19.4, 22. , 17.4, 20.9, 24.2, 21.7, 22.8, 23.4, 24.1, 21.4, 20. ,
       20.8, 21.2, 20.3, 28. , 23.9, 24.8, 22.9, 23.9, 26.6, 22.5, 22.2,
       23.6, 28.7, 22.6, 22. , 22.9, 25. , 20.6, 28.4, 21.4, 38.7, 43.8,
       33.2, 27.5, 26.5, 18.6, 19.3, 20.1, 19.5, 19.5, 20.4, 19.8, 19.4,
       21.7, 22.8, 18.8, 18.7, 18.5, 18.3, 21.2, 19.2, 20.4, 19.3, 22. ,
       20.3, 20.5, 17.3, 18.8, 21.4, 15.7, 16.2, 18. , 14.3, 19.2, 19.6,
       23. , 18.4, 15.6, 18.1, 17.4, 17.1, 13.3, 17.8, 14. , 14.4, 13.4,
       15.6, 11.8, 13.8, 15.6, 14.6, 17.8, 15.4, 21

In [12]:
housing.target.shape

(506,)

Обърнете внимание, че това не са Python масиви, ами NumPy вектори и матрици.

# Синтетични набори от данни

scikit-learn предлага и някои синтетични набори от данни. Понякога и те са интересни.

Любопитен пример е `make_moons`, който прави два полумесеца.

In [24]:
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=100, noise=0.5, random_state=3)

plt.close()
mglearn.discrete_scatter(X[:, 0], X[:, 1], y)

None

<IPython.core.display.Javascript object>

Този dataset е по-лесно разбираем.

In [25]:
X

array([[ 1.82820942,  1.01205551],
       [ 0.20009795, -0.31129087],
       [ 1.00338961, -0.15683063],
       [ 0.5954835 ,  0.68765775],
       [ 1.46909372,  0.75851059],
       [ 1.44113914,  0.52967089],
       [ 2.23983957,  0.77403798],
       [-0.57938723,  0.55842709],
       [-0.72993333,  1.69531767],
       [-0.11321785,  0.93945385],
       [ 1.46663844, -0.90613792],
       [ 0.91061971,  1.12947604],
       [ 0.76542683, -0.91925662],
       [ 0.53392114, -0.11379741],
       [-0.86765603,  0.56196357],
       [ 0.55205349, -0.3108386 ],
       [ 1.17518408, -0.44132647],
       [ 0.43555883,  0.56766053],
       [ 0.01180886,  1.03353977],
       [-0.530152  , -0.39311373],
       [ 0.8641065 , -0.21313635],
       [ 1.33508487,  0.77017575],
       [ 0.60602763,  0.12545423],
       [ 1.28982586,  0.41018477],
       [ 1.02620362, -0.55320369],
       [ 1.46420188,  0.12205083],
       [ 0.11755795,  1.12980654],
       [ 0.85364282, -0.07704759],
       [-1.40890994,

In [26]:
y

array([1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0,
       0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1,
       0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0], dtype=int64)

Впрочем, ето невронна мрежа, която разпознава граница между двата класа:

In [27]:
from sklearn.neural_network import MLPClassifier
plt.close()

mlp = MLPClassifier(solver='lbfgs', random_state=0).fit(X, y)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)


In [28]:
type(mlp)

sklearn.neural_network._multilayer_perceptron.MLPClassifier

In [29]:
mglearn.plots.plot_2d_separator(mlp, X, fill=True, alpha=.3)
mglearn.discrete_scatter(X[:, 0], X[:, 1], y)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x2302e0a6b00>,
 <matplotlib.lines.Line2D at 0x2302e0a6c18>]

Горния код има няколко проблема, в които ще влезем по-натам. Засега просто искаме да ви покажем малко графики, не да разберем как работят невронните мрежи (което е дълъг и сложен въпрос).

# Повече за sklearn.datasets

Повече информация за наборите от данни в scikit-learn може да намерите в документацията:

http://scikit-learn.org/stable/datasets/index.html

# Supervised vs. unsupervised learning

Алгоритмите могат да се разделят на два видя:

* Supervised learning – такива, които разполагат с етикирани данни и генерализират (да отговарят на въпроси за нови данни)
* Unsupervised learning – такива, които нямат етикети и трябва да открият статистически зависимости в данните

# Supervised learning ("обучение с учител")

Примери за supervised learning са:

* Регресия - предвиждане на непрекъснати числови стойности: При набор от данни с цени и параметри на апартаменти да определим колко би струвал друг апартамент с определени апартаменти.
* Класификация - предвиждане на булеви или цели числени стойности: При набор от данни за тумори да определим дали един е доброкачествен или злокачествен

# Unsupervised learning ("обучение без учител")

Тези алгоритми са по-разнородни и приложими в определени сфери. Например:

* Клъстеризация: При набор от потребители и техните филмови рейтинги да създадем групи от видове предпочитания
* Намаляне на размерността: При набор от многомерни данни данни да сведем броя измерения до по-малък такъв запазвайки повечето информация

# Регресия vs. Класификация

Бихме могли да разделим supervised learning на два вида:

* Регресия – опитваме се да сведем данните до непрекъсната стойност (цена на апартамент)
* Класификация – опитваме се да определим данните дали попадат в една от две категории (доброкачествен или злокачествен тумор)

Стандартен подход за класификация с 3+ класа е one-vs-many – създаваме по един класификатор за всяка категория, прекарваме данните през тях и избираме най-вероятната.

# Няколко алгоритъма

Сега ще разгледаме накратко няколко алгоритъма. Целта е да разберем как работят концептуално. Ще разгледаме всеки от тях в детайли в следващи лекции.

# Disclaimer

Ще гледаме набори от данни с едно или две измерения. Те са доста лесни за визуализация, но рядко реалистични – обикновено работим със десетки, стотици или дори хиляди feature-а (т.е. измерения). Това е далеч по-трудно за визуализация, откъдето идва и голяма част от предизвикателството.

# К най-близки съседи (k-Nearest Neighbours, kNN)

### Supervised, класификация

Възможно най-простия алгоритъм.

Запазва целия dataset. За да класифицира нов елемент намира най-близкия (линейно, в евклидово пространство) до него и отговаря със същия клас.

Броят съседи определя колко "гладка" е границата между двата класа. Ето един пример с различен брой съседи:

In [14]:
from sklearn.neighbors import KNeighborsClassifier

X, y = mglearn.datasets.make_forge()

fig, axes = plt.subplots(1, 3, figsize=(10, 3))

for n_neighbors, ax in zip([1, 3, 9], axes):
    clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)
    mglearn.plots.plot_2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alpha=.4)
    mglearn.discrete_scatter(X[:, 0], X[:, 1], y, ax=ax)
    ax.set_title("{} neighbour(s)".format(n_neighbors))



<IPython.core.display.Javascript object>

Фонът в горната диаграма определя в кой от двата класа ще попадне дадена точка. Обърнете внимание, че при k=1 границата е начупена и хваща всеки елемент. При по-голямо k границата става по-плавна, макар и да класифицира някои елементи грешно. Това може да е предимство (ще игнорира аномалии в данните). Ще видим вариации на тази тема по-натам с нормализация в линейните модели.

# Линейна регресия (Linear Regression)
### Supervised, регресия

Най-популярния модел. Опитва се да намери линейна функция, който приближава данните. С обработка на фийчърите може да намира и нелинейни функци, но с това ще се занимаем по-натам. 

In [30]:
mglearn.plots.plot_linear_regression_wave()

w[0]: 0.393906  b: -0.031804


<IPython.core.display.Javascript object>

Алгоритъмът се опитва да намери линейна функция, която минимизира общата грешката (сумата от квадратите на дистанцията между резултата от линейната функция и y координата на всеки елемент от набора от данни). В горния случай е трудно да се направи по-точен линеен модел, тъй като данните имат голяма вариация за едни и същи входни стойности. При наличието на повече измерения обикновено може да се постигне по-добър резултат.

# Principal Component Analysis (PCA)
### Unsupervised, намаляване на размерността (dimensionality reduction) 

Можете да сведете многомерно пространство до такова с по-малко измерения, които запазват (почти напълно) същата информация.

Може да се ползва за feature selection – да намалите броя характеристики с които тренирате модел, свеждайки ги до по-малко.

In [16]:
mglearn.plots.plot_pca_illustration()

<IPython.core.display.Javascript object>

Графиките горе илюстрират как PCA се опитва да сведе двуизмерно пространство до едноизмерно. Данните могат да се представят чрез базис от два вектора (component 1 и component 2), където component 1 съдържа много информация, а component 2 – малко. С този dataset бихме могли да тренираме относително точен модел само с component 1. Обърнете внимание, че той е функция на оригиналните два feature-а.

При две измерения това не е нужно, но при 1000+ подобна трансформация на данните може да е задължителна за да има шанс да съберете модела в паметта.

# k-Means Clustering
### Unsupervised, клъстеризация

Опитва се да раздели данните на определен брой клъстери.

In [17]:
 mglearn.plots.plot_kmeans_algorithm()

<IPython.core.display.Javascript object>

Алгоритъмът работи по следния начин:

1. Избира три произволни точки.
2. За всяка точка оцветява данните, за които тя е най-близка.
3. Преизчислява центъра на всеки клъстър от точки от един цвят и мести точката там.
4. Връща се на стъпка 2 и повтаря докато се стабилизира.

Този алгоритъм е недетерминистичен – различен избор на първоначални точки може да произведе различни резултати. По тази причина на практика се изпълнява няколко пъти и се взема добър резултат.

Това също е мотив, който се среща често.

# Обобщение

* Матрица от данни $X$ и резултат $y$
* Supervised vs. unsupervised learning
* Регресия и класификация

# Ресурси

* [Introduction to Machine Learning](http://shop.oreilly.com/product/0636920030515.do)
* [Machine Learning course by Andrew Ng](https://www.coursera.org/learn/machine-learning)