In [None]:
!pip install dalex
!pip install -U scikit-learn

# Teoretyczny i praktyczny wstęp do Machine Learning
### Warsztaty Badawcze, IAD 2 + 3

### Plan działania:
- podstawowe pojęcia
- intuicja dotycząca pojęcia "Uczenie Maszynowe (ML)"
- podstawowe rodzaje modeli
- podstawowe sposoby ewauacji modeli

## 1. Co to jest Machine Learning?

*Definicja*

Obszar sztucznej inteligencji poświęcony algorytmom, które poprawiają się automatycznie poprzez doświadczenie, czyli ekspozycję na dane. Algorytmy uczenia maszynowego budują model matematyczny na podstawie przykładowych danych, zwanych zbiorem uczącym, w celu prognozowania lub podejmowania decyji bez bycia zaprogramowanym explicite przez człowieka do tego celu

*Intuicja*

Algorytmy porafiące same odkryć zależności zawarte w danych oraz na ich podstawie dokonywać przewidywań.

**Przykłady:**
- rozpoznawanie obrazów
- ocena tekstów
- predykcja ceny nieruchomości
- ocena przyznania pożyczki

### Rozróżniamy:
- uczenie nadzorowane

![](figures/1.png)
###### https://bigdata-madesimple.com/machine-learning-explained-understanding-supervised-unsupervised-and-reinforcement-learning/

- uczenie nienadzorowane

![](figures/2.png)
###### https://www.technative.io/why-unsupervised-machine-learning-is-the-future-of-cybersecurity/

### Rodzaje danych:
- **tabelaryczne**   
- zdjęcia
- tekstowe
- głosowe
- wideo

In [None]:
import dalex as dx

### Podstawowe pojęcia 
- *zmienna celu/zmienna zależna/zmienna objaśniana/target/y* - informacja, którą model ma za zadanie się nauczyć. Jej charakter zależy od rodzaju zadania (wartość ciągła, dyskretna, brak wartości, etc.).
- *zmienna niezależna/zmienna objaśniająca/X* - informacja na podstawie której model uczy się przewidywać cel. Dla danych tabelarycznych - kolumna w zbiorze danych.
- *obserwacja/instancja* - wiersz w zbiorze danych. Wektor informacji o jednym osobniku/zdarzeniu/etc. Powinien być niezależy od pozostałych wierszy.
- *zadanie uczenia maszynowego* - para zbiór danych oraz zmienna celu. Intuicyjnie jest to rodzaj tego co nasz model ma przewidywać.
- *model* - wyuczony algorytm pozwalający na przewidywanie zmiennej zależnej - modelujący nasze dane (niekiedy jako model rozumie się też typ algorytmu użytego do modelowania danych)

##### Nie są to ściśle formane definicje, a jedynie pomoc do wyrobienia intuicji. 

In [None]:
import pandas as pd
import numpy as np

In [None]:
titanic = dx.datasets.load_titanic()

In [None]:
titanic.head()

In [None]:
titanic.describe()

Zbiór danych *titanic*:
- zmienna celu -
- zmienne objaśniające - 

In [None]:
apartments = dx.datasets.load_apartments()

In [None]:
apartments

## Rodzaje zadań ML

#### Klasyfikacja 
Przewidywanie zmiennej dyskretnej (klas). Zazwyczaj interesuje nas wynik w postaci prawdopodobieństwa przynależności do klasy.

#### Regresja
Przewidywanie zmiennej ciągłej. Interesuje nas przybliżona wartość zmiennej celu.

#### Analiza skupień
Sposób podziału obserwacji na grupy o podobnych cechach (uczenie niezadzorowane).

#### Analiza przeżycia
Zbiór pojęć i zadań związanych między innymi z estymacją funkcji przeżycia.

### Przykłady

Zbiór titanic - jest to model klasyfikacji, określanym czy dana osoba przeżyła czy też nie.


Zbiór apartments - jest to model regresji, określamy cenę za metr kwadratowy.

## 2. Dane - zbiór treningowy i testowy, walidacyjny, kroswalidacja 

Podział zbioru na dwie próbki treningową i testową: 
- zakładamy, że zbiór treningowy zawiera więcej obserwacji
- **losowy** podział
- czy istnieje optymalny podział - tak i nie 
    - 70% do 30%
    - 80% do 20%
    - 90% do 10%

![](figures/3.png)
##### https://towardsdatascience.com/train-test-split-and-cross-validation-in-python-80b61beca4b6

Na zbiorze treningowym jak nazwa wskazuje trenujemy nasz model, jego skuteczność określamy na zbiorze testowym, którego wcześniej model nie widział.


In [None]:
apartments.dtypes

In [None]:
## zmienna kategoryczna - należy zastosować one hot encoding

apartments = pd.get_dummies(apartments)

In [None]:
apartments

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(apartments.drop('m2_price', axis = 1), apartments.m2_price, test_size=0.2)

In [None]:
X_train.head()

In [None]:
y_train.head()

In [None]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

#### Czasami decydujemy się na zbiór walidacyjny - po co?


Do oceny kiklu modeli przez optymalizacją hiperparametów. 

#### A może kroswalidacja?

![](figures/4.png)
###### https://towardsdatascience.com/train-test-split-and-cross-validation-in-python-80b61beca4b6

## 3. Miara oceny dopasowania

Dla modelu **klasyfikacji** najczęściej korzystamy z macierzy pomyłek

![](figures/9.png)

oraz krzywej ROC i AUC.

![](figures/8.png)
###### https://en.wikipedia.org/wiki/Receiver_operating_characteristic

Dla modelu regresji najczęściej korzystamy z RMSE lub MSE.

![](figures/10.png)
###### https://towardsdatascience.com/what-does-rmse-really-mean-806b65f2e48e

## 4. Nadmierne dopasowanie (ang. overfitting) 

W budowaniu modeli dążymu do jak najlepszego dopasowania do danych, ale nie należy traktować to zbyt dosłownie.

![](figures/5.png)
##### https://towardsdatascience.com/train-test-split-and-cross-validation-in-python-80b61beca4b6

## 5. Modele glass box

- modele liniowe
- drzewo decyzyjne
- k najbliższych sąsiadów


#### Model liniowy
Najlepsze dopasowanie prostej do danych.

<img src="figures/6.png" width=450 height=450 />


###### https://pl.wikipedia.org/wiki/Regresja_liniowa

#### Kod do modelu liniowego

In [None]:
from sklearn import linear_model
reg = linear_model.LinearRegression()

reg = reg.fit(X_train, y_train)

In [None]:
reg

In [None]:
from sklearn.metrics import mean_squared_error

y_pred = reg.predict(X_test)

In [None]:
mean_squared_error(y_test, y_pred, squared = False)

In [None]:
import matplotlib.pyplot as plt
plt.scatter(y_test, y_pred)

#### Drzewo decyzyjne
Podział w wierzchołkach względem reguły decyzyjnej, chcemy aby w gałęziach klasy/wartości były rozróżnione. 

![](figures/11.png)
###### https://www.explorium.ai/blog/the-complete-guide-to-decision-trees/

#### Kod do modelu drzewa decyzyjnego

In [None]:
from sklearn import tree
dd = tree.DecisionTreeRegressor(criterion='mse')
dd = dd.fit(X_train, y_train)

In [None]:
dd

In [None]:
from sklearn.metrics import mean_squared_error

y_pred = dd.predict(X_test)
mean_squared_error(y_test, y_pred, squared = False)

In [None]:
import matplotlib.pyplot as plt

from sklearn.tree import plot_tree
plot_tree(dd)
plt.rcParams['figure.figsize'] = [20, 20]
plt.show()

## 6. Modele black box

#### Las losowy 

![](figures/12.png)
###### https://en.wikipedia.org/wiki/Random_forest

Ideą lasów losowych jest losowy wybór podzbiorów i budowanie na ich podstawie drzew. Uzyskujemy w ten sposób dużą rodzinę istotnie różnych modeli, ich połączenie z reguły daje lepszy model.
Dodatkowo losujemy też zmienne na których będziemy te drzewa budować. 

In [None]:
from sklearn.ensemble import RandomForestRegressor
rr = RandomForestRegressor(n_estimators=10, max_depth=None,
                            min_samples_split=2, random_state=0)
rr = rr.fit(X_train, y_train)

In [None]:
from sklearn.metrics import mean_squared_error

y_pred = rr.predict(X_test)
mean_squared_error(y_test, y_pred, squared = False)

In [None]:
plt.rcParams['figure.figsize'] = [10, 10]
plt.scatter(y_test, y_pred)

#### Gradient boosting

In [None]:
from sklearn.ensemble import GradientBoostingRegressor

gb = GradientBoostingRegressor(n_estimators=100, learning_rate=1.0,
                                 max_depth=1, random_state=0).fit(X_train, y_train)
gb = gb.fit(X_train, y_train)

In [None]:
gb

In [None]:
y_pred = gb.predict(X_test)
mean_squared_error(y_test, y_pred, squared = False)

In [None]:
plt.rcParams['figure.figsize'] = [10, 10]
plt.scatter(y_test, y_pred)

### Problem klasyfikacji 

In [None]:
titanic

In [None]:
titanic.dtypes

In [None]:
titanic = pd.get_dummies(titanic)

In [None]:
titanic

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(titanic.drop('survived', axis = 1), titanic.survived, test_size=0.2)

In [None]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

#### Drzewo

In [None]:
clf = tree.DecisionTreeClassifier()
clf = clf.fit(X_train, y_train)

In [None]:
y_pred = clf.predict(X_test)

In [None]:
y_pred

In [None]:
y_pred = clf.predict_proba(X_test)

In [None]:
from sklearn import metrics
metrics.plot_roc_curve(clf, X_test, y_test)  
plt.rcParams['figure.figsize'] = [10, 10]
plt.show()    

#### Las losowy

In [None]:
from sklearn.ensemble import RandomForestClassifier
crr = RandomForestClassifier(n_estimators=10, max_depth=None,
                            min_samples_split=2, random_state=0)
crr = crr.fit(X_train, y_train)

In [None]:
y_pred = crr.predict(X_test)

In [None]:
metrics.plot_roc_curve(crr, X_test, y_test)  
plt.rcParams['figure.figsize'] = [10, 10]
plt.show()    

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred)

In [None]:
from sklearn.metrics import precision_score
precision_score(y_test, y_pred)