In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from IPython.display import Image
from IPython.core.display import HTML 
import seaborn as sns

# Wstęp do machine learningu

<div>
<img src="http://ema.drwhy.ai/figure/MDP_washmachine.png" width="500" style="float:middle"/>
</div>

Narzędzia do tworzenia modeli ML:
- R: dużo różnych pakietów, ale istnieją frameworki, które ujednolocają interfejs: [mlr3](https://mlr3.mlr-org.com/), [tidymodels](https://www.tidymodels.org/)
- Python: biblioteka [sklearn](https://scikit-learn.org/stable/supervised_learning.html) (dla modeli klasycznych), Keras, PyTorch dla modeli głębokich

## Supervised learning


### Regresja - regression



Zmienna odpowiedzi ma charakter ciągły, może przyjmować wartość liczbową: rzeczywiste lub naturalne ($y \in \mathbf{R}$).

Przykłady:
- predykcja ceny mieszkania
- predykcja wzrostu osób


In [None]:
from sklearn import datasets
diabetes, diabetes_y = datasets.load_diabetes(return_X_y=True, as_frame=True)
diabetes.head()

In [None]:
sns.histplot(diabetes_y,bins = 30)

### Klasyikacja binarna - classification


W przypadku klasyfikacji binarnej zmienna odpowiedzi może przyjmować dwie wartości, $y \in \{0,1\}$.


In [None]:
breast_cancer, breast_cancer_y = datasets.load_breast_cancer(return_X_y=True, as_frame=True)
breast_cancer.head()

In [None]:
sns.histplot(breast_cancer_y)

### Klasyfikacja wieloetykietowa


In [None]:
iris, iris_y = datasets.load_iris(return_X_y=True, as_frame=True)
iris.head()

In [None]:
## unikalne zmiennej Y
iris_y.value_counts()

In [None]:
sns.histplot(iris_y)

## Data preprocessing

Ten krok ma na celu poznanie zależności pomiędzy zmiennymi objaśniającymi i zmienną objaśnianą, a także pomiędzy zmiennymi objaśniającymi.

ZADANIE 

Wymień możliwe operacje:
- ...
- ...


## Train and test split

In [None]:
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
print('X: \n', X)

print('y: ', list(y))


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
print('X train: \n', X_train, '\n y train:', y_train)
print('X test: \n', X_test, '\n y train:', y_test)

In [None]:
## podział zbioru do regresji i klasyfikacji
diabetes_X_train, diabetes_X_test, diabetes_y_train, diabetes_y_test = train_test_split(diabetes, diabetes_y, test_size=0.33, random_state=42)
print('Liczba obserwacji w zbiorze treningowym:', diabetes_X_train.shape[0])
print('Liczba obserwacji w zbiorze testowym:', diabetes_X_test.shape[0])

print('Liczba zmiennych w modelu:', diabetes_X_train.shape[1])

In [None]:
cancer_X_train, cancer_X_test, cancer_y_train, cancer_y_test = train_test_split(breast_cancer, breast_cancer_y, test_size=0.33, random_state=42)
print('Liczba obserwacji w zbiorze treningowym:', cancer_X_train.shape[0])
print('Liczba obserwacji w zbiorze testowym:', cancer_X_test.shape[0])

print('Liczba zmiennych w modelu:', cancer_X_train.shape[1])

## Training ML models


Algorytmy uczenia maszynowego znajdują zależności między zmiennymi objaśniającymi a zmienną objaśnianą, czyli pomiędzy `X` i `y`.

Proces uczenia - metoda `fit(X, y)` :
1. Znalezienie zależności pomiędzy zmiennymi a `y`. Postać tej zależności jest zadana przez rodzaj wybranego algorytmu.
2. Algorytm ocenia jakość znalezionej zależności poprzez funkcję celu.
3. (Zależne od algorytmu i iteracyjne) Algorytm na podstawie uzyskanej informacji o błędzie wprowadza poprawki do etapu szukania zależności i powtarza krok 1. i 2.

Proces predykcji dla nowych danych - metoda `predict(X)`.


![models_comparison](https://scikit-learn.org/stable/_images/sphx_glr_plot_classifier_comparison_001.png)

## Modele liniowe

Zakładamy, że zmienną objaśnianą możemy wyrazić jako funkcję $f$ kombinacji liniowejzmiennych objaśnianych.

$$ y_i = f(\alpha + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip}) $$

W zapisie macierzowym $y = f(\boldsymbol{\beta} X  + \alpha )$.

Funkcja f może mieć różną postać najczęściej to f jest funkcją identycznościową albo funkcja logistyczna.


### Regresja liniowa


Wykorzystywana w problemach regresji, szczególnie tam gdzie nie ma nałożonych ograniczeń na wartość predykc

$$ y_i = \alpha + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip} $$


In [None]:
from sklearn.linear_model import LinearRegression

diabetes_one_col = pd.DataFrame(diabetes_X_train.iloc[:,2])
plt.scatter(diabetes_one_col, diabetes_y_train)

In [None]:
regr = LinearRegression(fit_intercept=True)
regr.fit(diabetes_one_col, diabetes_y)

In [None]:
print('Coefficients: \n', regr.coef_)

In [None]:
pred_diabetes_y = regr.predict(pd.DataFrame(diabetes_one_col))
plt.hist(pred_diabetes_y)

In [None]:
plt.scatter(diabetes_one_col, diabetes_y,  color='black')
plt.plot(diabetes_one_col, pred_diabetes_y, color='blue', linewidth=3)


plt.show()

### Regresja dla większej liczby zmiennych

In [None]:
regr_multi = LinearRegression()
regr_multi.fit(diabetes_X_train, diabetes_y_train)
print('Coeffifients:', regr_multi.coef_)
print('Intercept:', regr_multi.intercept_)

### Ridge i LASSO

Zwykła regresja liniowa nie zależy od żadnych hiperparametrów wejściowych.

Istnieją warianty regresji liniowej związane z regularyzacją (kontrolą wielkości współczynników) i selekcją zmiennych - [Ridge](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge) i [LASSO](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html#sklearn.linear_model.Lasso). 

Ridge powoduje *ściąganie współczynników do zera* a LASSO *wybiera* zmienne.
Moc regularyzacji zależy od hiperparametru `alpha`.


Algorytm regresji liniowej [`ElasticNet`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html#sklearn.linear_model.ElasticNet) 
jest kombinacją Ridge + LASSO i zależy od dwóch hiperparametrów `alpha` i `l1_ratio`.


### Regresja logistyczna

Najbardziej tradycyjne podejście do problemu klasyfikacji.



In [None]:
sns.histplot(breast_cancer_y)

Jedną z motywacji jest to, że chcemy przewidzieć prawdopodobieństwo przynależności do klasy 1 zatem predykcja modelu powinna spełniać $0 \leq f(x) \leq 1$.

Jednym z przykładów funkcji, która spełnia takie ograniczenie jest funkcja logistyczna
$$ f(x) = \frac{e^x}{1+e^x}$$

In [None]:
x = np.arange(-10, 11)
y = 1/(1+np.exp(-x))
plt.plot(x, y, '-')
plt.show()

W algorytmie regresji logistycznej zakładamy,że prawdopodobieństwo przynależności do klasy `pozytywnej` jest funkcją logistyczną kombinacji liniowej zmiennych objaśniających.

$$ \hat{P}(Y=1|X=x) = \frac{\exp(\alpha + \beta_1 x_1 + \beta_2 x_2 + \ldots +  \beta_p x_p )}{1+\exp(\alpha + \beta_1 x_1 + \beta_2 x_2 + \ldots +  \beta_p x_p )}$$

$$ \hat{P}(Y=0|X=x)= \frac{1}{1+\exp(\alpha + \beta'x)} $$

W procesie trenowanie modelu obliczane są współczynniki: $\beta = (\beta_1, ..., \beta_p)$ i $\alpha$.


W wyniku predykcji otrzymujemy prawdopodbieństwo klasy `pozytywnej` lub konkretną klasę jeśli ustalimy punkt odcięcia (threshold).

Istnieją warianty Ridge, LASSO i ElasticNet zaszyte w hiperparametrze `penalty`. Hiperparametr `C` jest odpowiednikiem `alpha`.


In [None]:
from sklearn.linear_model import LogisticRegression
?LogisticRegression

In [None]:
log_reg = LogisticRegression(penalty = 'l2', max_iter = 200)
log_reg.fit(cancer_X_train, cancer_y_train)
log_reg.predict(cancer_X_test)


In [None]:
log_reg.predict_proba(cancer_X_test)[:10,:]

### KNN- k najbliższych sąsiadów


Przewidywanie klasy nowej obserwacji na podstawie $k$ najbliższych obserwacji z próby uczącej. Stosowana jest reguła większościowa.

![](image/kknn_1.png)
![](image/kknn_15.png)

W różny sposób możemy określać odległość między obserwacjami (wybór metryki-`metric`), różną liczbę sąsiadów możemy brać pod uwagę.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
?KNeighborsClassifier


In [None]:
knn_cf = KNeighborsClassifier()
knn_cf.fit(cancer_X_train, cancer_y_train)


In [None]:
knn_cf.predict(cancer_X_test)
knn_cf.predict_proba(cancer_X_test)

### Support vector machine (SVM)

Chcemy znaleźć najlepiej płaszczyznę najlepiej rozdzielającą obserwacje należące do różnych klas. Chcemy maksymalizować odległość obserwacji od tej płaszczyzny, a równocześnie każemy za popełnione błędy.

![](image/svm_01.png)
![](image/svm_02.png)

Isnieje też rozszerzenie tej metody, w której dane  poddawane są przekształceniom zdefiniowanym przez hiperparametr `kernel`.


Hiperparametry:
* `kernel` - rodzaj przekształcenia, 
* `gamma` - dodatkowy parametr związany z przekształceniem zdefiniowanym przez `kernel`, 
* `C` - parametr kary za błędy.

In [None]:
from sklearn.svm import SVC
?SVC

![](https://miro.medium.com/max/3000/1*gtF6KeL7b9zNHd7pXtC1Nw.png)

### Drzewa decyzyjne

In [None]:
from sklearn.tree import DecisionTreeClassifier, plot_tree
decision_tree = DecisionTreeClassifier(max_depth=2)
decision_tree.fit(cancer_X_train, cancer_y_train)

plot_tree(decision_tree)

#### Jak tworzone jest drzewo decyzyjne?


$m$ - rodzic, $m_L$ - lewe dziecko, $m_R$ - prawe dziecko 

$Q_m$ - miara różnorodności dla $m$ (Gini, entropia)

$\hat{p}_L$ - liczba obserwacji w węźle $m_L$ dzielona przez liczbę obserwacji w węźle $m$, analogicznie $\hat{p}_R$

$$ \Delta Q_{m, m_L, m_R} = Q_m - (\hat{p}_LQ_{m_L} + \hat{p}_RQ_{m_R})$$

Chcemy tak wybierać podziały, żeby maksymalizować $\Delta Q_{m, m_L, m_R}$.

Predykcja w ostatnim weźle (liściu) jest robiona na podstawie 
- reguły większościowej dla klasyfikacji
- średnia dla regresji

Hiperparametry:

- na jakim poziomie skoćczyć dzielenie:
    * `min_samples_split` - the minimum number of observations that must exist in a node in order for a split to be attempted
    * `max_depth` - maksymalna głebokość drzewa
    * `ccp_alpha` - parametr przycinania
- na podstawie jakiego kryterium (gini lub information)
- ile zmiennych brać pod uwagę przy szukaniu nowego podziału

$T$ - drzewo
$R(T)$ - frakcja obserwacji, które źle zaklasyfikowaliśmy
$cp = \alpha$
$$ R_{\alpha}(T) = R(T) + \alpha |T| $$


In [None]:
?DecisionTreeClassifier


![](https://scikit-learn.org/stable/_images/sphx_glr_plot_iris_dtc_001.png)

### Lasy losowe - random forest

Lasy losowe są przykładem komitetu klasyfikatorów. Polegają na niezależnym tworzeniu `n_estimators` drzew decyzyjnych. 
Z każdego drzewa decyzyjnego otrzymujemy predykcję. Ostateczna predykcja jest średnią wszystkich predykcji.

Algorytm ten dziedziczy większość hiperparametrów po drzewach decyzyjnych.

Las losowy może być budowany na całych dostępnych danych treningowych lub na wylosowanej podpróbie ze zwracaniem (`bootstrap=True`).

![](https://www.kdnuggets.com/wp-content/uploads/rand-forest-2.jpg)


In [None]:
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier
?RandomForestClassifier


In [None]:
rf_cf = RandomForestClassifier()

rf_cf.fit(cancer_X_train, cancer_y_train)
predicted_proba_y_test_rf = rf_cf.predict_proba(cancer_X_test)
predicted_class_y_test_rf = rf_cf.predict(cancer_X_test)

### Gradient boosting

![](https://miro.medium.com/max/3908/1*FoOt85zXNCaNFzpEj7ucuA.png)

Gradient boosting jest przykładem modelu addytywnego, złożony jest z wielu nieskomplikowanych klasyfikatorów (*weak learners*), ale nie zbudowanych niezależnie tak jak w przypadku lasów losowych, tylko budowanych iteracyjnie na rezyduach z poprzedniego modelu.

Gradient boosting o głębokości $k$ można zapisać jako:
$$ D(X) = d_1(X) + d_2(X) + \ldots + d_k(X)$$,
gdzie dla $d_{1}(X)$ zmienną odpowiedzi jest zmienna objaśniana $y$, ale dla kolejnych modeli $d_i(X)$ zmienną objaśnianą są rezydua z poprzedniego modelu. 




![](https://media.geeksforgeeks.org/wp-content/uploads/20200721214745/gradientboosting.PNG)



Hiperparametry:
- `n_estimators` - liczba budowanych drzew
- `learning_rate` - waga z jaką włączane są do ostatecznej predykcji, predykcje z kolejnych drzew
- parametry związane z budową drzew

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
?GradientBoostingClassifier


**XGBoost**, **CatBoost**, **LightGBM**  to inne implementacje tego algorytmu. Różnią od GBM sposobem poszukiwania podziałów w drzewach.

Nie są dostępne w sklearn. Trzeba zainstalować odpowiedni pakiet.

### Sieci neuronowe

<div>
<img src="https://scikit-learn.org/stable/_images/multilayerperceptron_network.png" width="500" style="float:middle"/>
</div>



Warstwa $[x_1, x_2, \ldots, x_n]$ to *wejście sieci neurnowej (input layer)* składa się z tylu neuronów ile zmiennych ma zbiór danych.

Warstwa $[a_1, a_2, \ldots, a_k]$ to *warstwa ukryta (hidden layer)*. Każdy neuron jest funkcją kombinacji liniowej z poprzedniej warstwy, w tym przypadku input layer.

$$ a_1 = \sigma(b_1 + w_{11} x_1 +  w_{21} x_2 + \ldots + w_{n1} x_n)$$

$w_{ij}$ to wagi sieci


$\sigma$ to funkcja aktywacji, musi być nieliniowa żeby sieć nie była po prostu regresją

Najczęściej używane funkcje aktywacji: RELU, tanh, sigmoid

![](http://rasbt.github.io/mlxtend/user_guide/classifier/NeuralNetMLP_files/neuralnet_mlp_1.png)

In [None]:
from sklearn.neural_network import MLPClassifier

In [None]:
mlp_clf = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5, 2), random_state=1)

#### F1

Średnia harmoniczna precyzji i recall
$$ F_1 = 2* \frac{precision \times recall}{precision + recall}$$

In [None]:
from sklearn.metrics import f1_score
f1_score(cancer_y_test,predicted_class_y_test_rf)

### Miary oparte na predykcji prawdopodobieństwa

#### Krzywa ROCR

Ten wykres jest funkcją punktu odcięcia - jeśli model przewidzi prawdopodobieństwo powyżej tej wartości to klasyfikujemy ją do klasy pozytywnej. Dla punktów odcięcia wyznaczne jest False Positive Rate (x) vs. True Positive Rate (y).

[Youtube](https://www.youtube.com/watch?v=4jRBRDbJemM)

In [None]:
from sklearn import metrics
fpr, tpr, thresholds = metrics.roc_curve(cancer_y_test, predicted_proba_y_test_rf[:,1], pos_label=1)

In [None]:
metrics.plot_roc_curve(rf_cf, cancer_X_test, cancer_y_test)

<div>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/36/Roc-draft-xkcd-style.svg/1280px-Roc-draft-xkcd-style.svg.png" width="500" style="float:middle"/>
</div>

#### AUC 

Pole pod krzywą ROC. AUC $\in (0.5; 1]$

#### Krzywa Precision-Recall  i AUPR

Krzywa PR : wykres Recall (x) vs Precision (y).  
Oś Recall (True positive rate) taka sama jak przy krzywej ROC. W krzywej ROC jest True negative rate a w krzywe PR Precyzja.


**AUPR** - pole pod tą krzywą, AUPR $\in (0.5; 1]$.

Ważne dla niezbalansowanych danych - obie miary precision i recall patrzą na mniej liczną klasę.

## Klasyfikacja wieloetykietowa

### Accuracy 

### Micro i Macro-average score

Traktujemy każdą pojedynczą klasę $i$ jako pozytywną a pozostałe jako negatywne (One vs. All) i obliczamy dla niej metryki $TP_i, TN_i, FP_i, FN_i$.

**Micro averaged precision** - modyfikujemy wzór na precyzję i jako $TP$ bierzemy sumę $TP_i$ dla wszystkich klas itd.

$$ Precision_{micro}=  \frac{TP_i +\ldots +TP_k}{(TP_i +\ldots +TP_k) +(FP_i +\ldots +FP_k)} $$

**Macro averaged precision** - średnia precyzji dla każdej klasy
$$ Precision_i = \frac{TP_i}{TP_i+FP_i} $$


$$ Precision_{macro}=  \frac{Precision_1 +\ldots+Precision_k}{k} $$

Analogicznie powstają pozostałe miary oparte o tablicę pomyłek, a potem $F1 score$, krzywa ROC i AUC.



Więcej materiałów i kod można znaleźć [tu](https://vitalflux.com/micro-average-macro-average-scoring-metrics-multi-class-classification-python/)

## Problem generalizacji

### Podział na zbiór testowy i treningowy

### Kroswalidacja



Aby lepiej oceniać stabilność jakośni modeli na danych treningowych stosuje się kroswalidację - cały zbiór danych treningowy dzielimy na $k$ - podzbiorów. W każdej iteracji uczymy algorytm na $k-1$ podzbiorach a testujemy na pozostałym jednym zbiorze danych. 

Jako ocenę jakości modeli możemy stosować każdą z wyżej wymienionych miar.

Jeśli model jest dobrze przygotowany to błąd, który uzyskamy na zbiorze testowym (który nie był wykorzystywany w kroswalidacji) powiniem być zbliżony do średnigo błędu z kroswalidacji.

![](image/crossvalidation.png)

In [None]:
from sklearn.model_selection import cross_validate
# parametr cv  - możemy podać liczę podzialow, albo konkretny podzial po indeksach ramki danych 
# scoring - jakiej metryki uzyc do oceny

rf_clf = RandomForestClassifier(n_estimators=10)


cv_results = cross_validate(rf_clf, cancer_X_train, cancer_y_train, cv=3)
print(cv_results.keys())

print(cv_results['test_score'])


In [None]:
# Mozemy podawac kilka metryk, ktore beda sprawdzane na zbiorze testowym i treningowym (scoring)
# Mozemy zachowywac tez wyniki na zbiorze treningowym (return_train_score)

cv_results = cross_validate(rf_clf, cancer_X_train, cancer_y_train, cv=3, 
                            return_train_score = True,scoring =  ['accuracy', 'roc_auc'])
print(cv_results.keys())

print(cv_results['test_accuracy'])

ZADANIE

Dla przedstawionych modeli podaj listę ich hiperparametrów.

## Modelowy skrypt

In [None]:
## wczytanie bibliotek

## wczytanie danych

## zdefiniowanie zmiennej odpowiedzi i zmiennych objasniajacych

## analiza eksploracyjna i preprocessing

## podzial na zbior testowy i treningowy

## wybor algorytmow i tuning hiperparametrow

## porownanie najlepszych modeli pomiedzy algorytmami

ZADANIE

Na danych `train.csv` wytrenuj przynajmniej 5 różnych modeli i oceń ich jakość predykcji na zbiorze `test.csv`. 
a) Który model poradził sobie najlepiej?
b) Dla najlepszego modelu spróbuj znaleźć wartość hiperparametrów, które poprawią jego jakość.