# Scikit-learn

## Dane 

Dane jak zostało wspomniane muszą być w formie `np.array` dla której `shape = (n_obserwacji, n_cech)`.

Często cech jest bardzo dużo (np. w analizie tekstu albo w danych genomowych), przy czym dużo z nich jest równe zero - wtedy warto stosować rzadkie macierze `scipy.sparse`.


W scikit-learn dodane są pewne typowe zbiory danych, np. zestaw informacji na temat cen bostońskich mieszkań.
Jeśli korzystacie ze środowiska, tak, jak instalowalismy je ostatnio, zbiór danych powinien znajdować się w pliku wskazywanym przez podobnie wyglądającą ścieżkę: 
`/home/piotrek/miniconda3/envs/BioML/lib/python3.6/site-packages/sklearn/datasets/data/boston_house_prices.csv`
Zobaczmy jak wyglądają te dane.

(Tu skorzystamy z możliwości, jakie daje jupyter notebook - można wywoływać bashowe polecenia poprzedzając je znakiem wykrzyknika)

In [None]:
!head /home/piotrek/miniconda3/envs/BioML/lib/python3.6/site-packages/sklearn/datasets/data/boston_house_prices.csv

Zaimportujmy dane dzięki funkcji read_csv z pandas.

In [None]:
from pandas import read_csv
# read_csv?
dane_boston = read_csv("/home/piotrek/miniconda3/envs/BioML/lib/python3.6/site-packages/sklearn/datasets/data/boston_house_prices.csv", skiprows=[0])
display(dane_boston.head())
print(dane_boston.shape)

Ze względu na to, że jest to popularny zbiór danych, w scikit-learn jest specjalna funkcja wczytująca te dane wraz z metadanymi opisującymi, co się w tym zbiorze znajduje. Skorzystajmy z niej.

In [None]:
import sklearn.datasets
boston = sklearn.datasets.load_boston()

Pokażmy zawartość wczytanego obiektu.

In [None]:
boston.keys()

In [None]:
print(boston["DESCR"])

In [None]:
print("Wymiary danych Boston [n_obserwacji, n_cech]: ", boston.data.shape)
display(boston.data[0])
print("Wymiary zestawu testowego Boston: ", boston.target.shape)
display(boston.target[0])

Sprawdzamy, czy zbiór zawiera NaN (not a number).

In [None]:
import numpy as np
print(np.isnan(boston.data).any())
print(np.isnan(boston.target).any())


Wiemy już jak wczytywać dane, teraz podzielmy je na zbiór treningowy i testowy.
## Zbiór testowy i treningowy

<img src="figures/train_test_split_matrix.svg" width="80%">

In [None]:
from sklearn.model_selection import train_test_split
#train_test_split?

train_X, test_X, train_y, test_y = train_test_split(boston.data, boston.target, test_size=0.25, random_state=42)

Tak przygotowane dane będziemy mogli następnie przekazywać estymatorom z scikit-learn.

# Regresja - ordinary least squares regression

Mając zestaw danych (w różny sposób zaszumionych), znaleźć liniową zależność, która najlepiej pozwala odnajdować poszukiwaną wartość.

<img src="figures/ols.png" width="80%">


Trzeba zdefiniować najlepsze dopasowanie. Zdefiniujemy je jako najmniejszy błąd kwadratowy.


$$
SE = \sum_{i=1}^{n} r_i^2
$$


$$
r = y_i - f(x_i, \beta)
$$

$y$ to faktyczna wartość funkcji, $f(x_i, \beta)$ to przewidywana przez naszą regresję wartość funkcji w danym miejscu

<img src="figures/varianceexplained.gif" width="80%">

(source: http://my.ilstu.edu/~wjschne/138/Psychology138Lab9.html)

Zobaczmy, jak to wygląda na syntetycznym przykładzie.

In [None]:
# Wczytujemy niezbędne biblioteki

%matplotlib notebook
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
sns.set_style("whitegrid")

Będziemy chcieli zamodelować funkcję $y = 2x + 5$

In [None]:
x = np.linspace(0, 10, 100) # 100 liczb od 0 do 10
y = 2 * x + 5

In [None]:
plt.rcParams['figure.figsize'] = (8, 8) # zmiana rozmiaru wykresu (standardowo jest mały)
plt.rcParams.update({'font.size': 17}) # zmiana rozmiaru czcionki
plt.plot(x, y, 'o') # wyrysowanie jako kółka danych x, y

Tak jak wspomniano wcześniej, scikit-learn operuje na macierzach o rozmiarze `[n_obserwacji, n_cech]`
Obserwacji mamy sto, cecha jest jedna (wartość x w punkcie). Musimy zmienić wymiary macierzy, żeby scikit-learn nas zrozumiał.
<img src="figures/train_test_split_matrix.svg" width="80%">

In [None]:
print('Na początku wymiary: ', x.shape)
print(x)
X = x[:, np.newaxis]
print('Po dodaniu wymiaru: ', X.shape)
print(X)

Dzielimy nasz zbiór na dane treningowe i testowe

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [None]:
plt.figure()
plt.plot(X_train, y_train, 'bo')
plt.plot(X_test, y_test, 'rx')
plt.show()


Zastosujmy model regresji liniowej

In [None]:
from sklearn.linear_model import LinearRegression

regressor = LinearRegression()
regressor.fit(X_train, y_train)

In [None]:
print('Waga współczynnika przy x: ', regressor.coef_)
print('Punkt przecięcia osi y: ', regressor.intercept_)

In [None]:
min_pt = X.min() * regressor.coef_[0] + regressor.intercept_
max_pt = X.max() * regressor.coef_[0] + regressor.intercept_
fig = plt.figure()
plt.plot([X.min(), X.max()], [min_pt, max_pt])
plt.plot(X_train, y_train, 'o')
plt.show()

Udało nam się odkryć funkcję, która generowała dane, ale to było proste - funkcja była bardzo łatwa, nie było żadnego szumu w danych.

Dodajmy **szum**.

In [None]:
rng = np.random.RandomState(42)
y = 2 * x + 5 + rng.uniform(-3, 3, size=len(x))
plt.plot(x, y, 'o')

min_pt = 2 * X.min() + 5
max_pt = 2 * X.max() + 5
fig = plt.figure()
plt.plot([X.min(), X.max()], [min_pt, max_pt], 'black')

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
regressor.fit(X_train, y_train)
print('Waga współczynnika przy x: ', regressor.coef_)
print('Punkt przecięcia osi y: ', regressor.intercept_)

min_pt = 2 * X.min() + 5
max_pt = 2 * X.max() + 5


plt.plot([X.min(), X.max()], [min_pt, max_pt], 'black')
ax = plt.figure()
min_pt_pred = X.min() * regressor.coef_[0] + regressor.intercept_
max_pt_pred = X.max() * regressor.coef_[0] + regressor.intercept_
plt.plot([X.min(), X.max()], [min_pt_pred, max_pt_pred], 'g--')
plt.plot(X_train, y_train, 'bo')
plt.plot(X_test, y_test, 'rx')
plt.show()

Scikit-learn odkrył niemal dokładnie funkcję, która generowała dane, pomimo szumu. Zobaczmy jednak, co działoby się, gdybyśmy mieli **mniej danych treningowych**. Zrobimy to korzystając z interaktywnych widgetów. Żeby móc z nich skorzystać musimy całą naszą procedurę przemienić w funkcję.

In [None]:
def dopasuj_regresje(rozmiar_danych):
    plt.figure()
    x = np.linspace(0, 10, rozmiar_danych)
    X = x[:, np.newaxis]
    rng = np.random.RandomState(42)
    y = 2 * x + 5 + rng.uniform(-3, 3, size=len(x))
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
    regressor.fit(X_train, y_train)
    print('Waga współczynnika przy x: ', regressor.coef_)
    print('Punkt przecięcia osi y: ', regressor.intercept_)

    min_pt = 2 * X.min() + 5
    max_pt = 2 * X.max() + 5


    plt.plot([X.min(), X.max()], [min_pt, max_pt], 'black')

    min_pt_pred = X.min() * regressor.coef_[0] + regressor.intercept_
    max_pt_pred = X.max() * regressor.coef_[0] + regressor.intercept_
    plt.plot([X.min(), X.max()], [min_pt_pred, max_pt_pred], 'g--')
    plt.plot(X_train, y_train, 'bo')
    plt.plot(X_test, y_test, 'rx')
    return regressor.coef_, regressor.intercept_

In [None]:
from ipywidgets import widgets

widgets.interact(dopasuj_regresje, rozmiar_danych=widgets.BoundedIntText(min=4, max=300))

## Zbyt mało danych - duży szum - dopasowania zmieniają się mocno

In [None]:
def daj_wspolczynniki(rozmiar_danych):
    x = np.linspace(0, 10, rozmiar_danych)
    X = x[:, np.newaxis]
    rng = np.random.RandomState(42)
    y = 2 * x + 5 + rng.uniform(-3, 3, size=len(x))
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
    regressor.fit(X_train, y_train)
    return regressor.coef_, regressor.intercept_

a = list()
b = list()
for i in range(4, 4000):
    wspolczynniki = daj_wspolczynniki(i)
    a.append(wspolczynniki[0])
    b.append(wspolczynniki[1])
fig = plt.figure()
plt.plot(np.arange(len(a)), a)
plt.plot([0, len(a)], [2, 2])
plt.title("Wahania dopasowanej wartości współczynnika przy x")
plt.xlabel("Liczebność zbioru danych")
plt.ylabel("Dopasowana wartość współczynnika")
plt.show()
fig = plt.figure()
plt.plot(np.arange(len(b)), b)
plt.plot([0, len(a)], [5, 5])
plt.title("Wahania dopasowanej wartości przy przecięciu osi y")
plt.xlabel("Liczebność zbioru danych")
plt.ylabel("Dopasowana wartość")
plt.show()

A co jeśli funkcja jest inna? Być może nie da się jej zamodelować regresją liniową
$$ y = \sin(x) + szum$$

In [None]:
x = np.linspace(-5, 5, 200)
y = np.sin(x) + rng.uniform(-0.75, 0.75, size=len(x))
fig = plt.figure()
plt.plot(x, y, 'o')
plt.plot(x, np.sin(x))
plt.title(r'$y = \sin(x)$')
X = x[:, np.newaxis]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
regressor = LinearRegression()
regressor.fit(X_train, y_train)
print('Waga współczynnika przy x: ', regressor.coef_)
print('Punkt przecięcia osi y: ', regressor.intercept_)
min_pt = X.min() * regressor.coef_[0] + regressor.intercept_
max_pt = X.max() * regressor.coef_[0] + regressor.intercept_

plt.figure()
plt.plot([X.min(), X.max()], [min_pt, max_pt], label="Dopasowana prosta regresyjna")
plt.plot(X_train, y_train, 'o', label="Dane treningowe")

predict_data = np.linspace(-5, 5, 20)
predict_data = predict_data[:, np.newaxis]
predicted_values = regressor.predict(predict_data)
plt.plot(predict_data, predicted_values, 'gx', markersize=10, label="Przewidziane wartości")
plt.legend(loc="best", prop={'size': 8})

Ten model nie jest wystarczająco skomplikowany, by oddać naturę tych danych. Zastosujmy regresję K-Sąsiadów. W tej regresji patrzymy jaką wartość ma najbliższych K-sąsiadów.

In [None]:
from sklearn.neighbors import KNeighborsRegressor
kneighbor_regression = KNeighborsRegressor(n_neighbors=1)
kneighbor_regression.fit(X_train, y_train)
y_pred_train = kneighbor_regression.predict(X_train)
plt.figure()
plt.plot(X_train, y_train, 'o', label="wartość faktyczna", markersize=10)
plt.plot(X_train, y_pred_train, 's', label="wartość przewidywana", markersize=4)
plt.legend(loc='best', prop={'size': 8});

In [None]:
y_pred_test = kneighbor_regression.predict(X_test)
fig = plt.figure()
plt.plot(X_test, y_test, 'o', label="wartość faktyczna", markersize=8)
plt.plot(X_test, y_pred_test, 's', label="wartość przewidywana", markersize=4)
plt.plot(x, np.sin(x))
plt.legend(loc='best', prop={'size': 8});

In [None]:
def N_neighbors_effect(K):
    fig = plt.figure()
    kneighbor_regression = KNeighborsRegressor(n_neighbors=K)
    kneighbor_regression.fit(X_train, y_train)
    y_pred_test = kneighbor_regression.predict(X_test)

    plt.plot(X_test, y_test, 'o', label="wartość faktyczna", markersize=8)
    plt.plot(X_test, y_pred_test, 's', label="wartość przewidywana", markersize=4)
    plt.plot(x, np.sin(x))
    plt.title("Regresja K sąsiadów dla K = " + str(K))
    plt.legend(loc='best',prop={'size': 8})
    plt.show()
    
widgets.interactive(N_neighbors_effect, K=widgets.IntSlider(min=1, value=1,max=150))

## Trzeba dobrze dobrać złożoność modelu do problemu

+ Zbyt złożony, wyczulony model zacznie uczyć się danych treningowych, będzie słabo generalizował
+ Zbyt prosty, uśredniający model nie odda złożoności problemu

<img src="figures/plot_kneigbors_regularization.png" width="80%">

## Wracamy do modeli liniowych

Musimy jakoś mierzyć jakość naszego modelu - do regresji często stosowana jest miara $R^2$


<img src="figures/r_squared.png" width="65%">

Można również mierzyć za pomocą MSE - Mean Squared Error:

$$MSE = \frac{1}{n} \sum_{i=1}^{n} (\text{predicted}_i - \text{true}_i)^2$$

In [None]:
fig = plt.figure()
x = np.linspace(0, 10, 100)
X = x[:, np.newaxis]
rng = np.random.RandomState(42)
y = 2 * x + 5 + rng.uniform(-3, 3, size=len(x))
Y = y[:, np.newaxis]
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state=42)
regressor.fit(X_train, y_train)
print('Waga współczynnika przy x: ', regressor.coef_)
print('Punkt przecięcia osi y: ', regressor.intercept_)

min_pt = 2 * X.min() + 5
max_pt = 2 * X.max() + 5


plt.plot([X.min(), X.max()], [min_pt, max_pt], 'black')
min_pt_pred = X.min() * regressor.coef_[0] + regressor.intercept_
max_pt_pred = X.max() * regressor.coef_[0] + regressor.intercept_
plt.plot([X.min(), X.max()], [min_pt_pred, max_pt_pred], 'g--')
plt.plot(X_train, y_train, 'bo')
plt.plot(X_test, y_test, 'rx')

plt.show()
regressor.score(X_test, y_test)

OLS jest zgodnie z twierdzeniem Gaussa-Markov jest BLUE - Best Linear Unbiased Estimator.
Ale możemy chcieć zrezygnować z braku zbiasowania na rzecz lepszego wyniku (ograniczając błąd pochodzący z wariancji).

<img src="figures/bias-and-variance.jpg" width="65%">

<img src="figures/biaserror.png" width="65%">

## Regularyzacja

Dla regresji liniowej minimalizowaliśmy coś takiego: 


$$ \text{min}_{w, b} \sum_i || w^\mathsf{T}x_i + b  - y_i||^2 $$

<img src="figures/regularization.png" width="65%">


Dla Ridge regression będziemy minimalizować: 

$$ \text{min}_{w,b}  \sum_i || w^\mathsf{T}x_i + b  - y_i||^2  + \alpha ||w||_2^2$$ 

Dla Lasso regression: 

$$ \text{min}_{w, b} \sum_i \frac{1}{2} || w^\mathsf{T}x_i + b  - y_i||^2  + \alpha ||w||_1$$ 


## W scikit-learn te regresje także są dostępne:

`from sklearn.linear_model import Ridge`

`ridge = Ridge(alpha=alpha).fit(X_train, y_train)`

`from sklearn.linear_model import Lasso`

`lasso = Lasso(alpha=alpha).fit(X_train, y_train)`

-----------------------------
# Klastrowanie

Tworzymy trzy skupiska punktów.

In [None]:
from sklearn.datasets import make_blobs

X, y = make_blobs(random_state=42)
plt.scatter(X[:, 0], X[:, 1], s=100)

Chcemy, by algotyrm klastrowania przyporządkował punkty do klastrów - my je widzimy, ale komputer musi na jakiejś zasadzie je pogrupować. W metodzie K-Means podajemy algorytmowi liczbę klastrów, które do których ma pokwalifikować punkty, a następnie algorytm znajduje takie przyporządkowanie.
Bazujemy tu na odległości euklidesowej (czyli zwykłej odległości).

In [None]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, random_state=42)
labels = kmeans.fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels);

Ten przykład dla nas jest oczywisty, ale w przypadku wielowymiarowych danych nasz wzrok i wyobraźnia zawodzą - a te metody komputerowe można przenieść na wyższe wymiary.

## Czasem nie chcemy klastrować według odległości
Wtedy lepsze mogą okazać się metody bazujące na zagęszczeniu

In [None]:
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=400,
                  noise=0.1,
                  random_state=1)
plt.scatter(X[:,0], X[:,1])
plt.show()

In [None]:
from sklearn.cluster import DBSCAN

db = DBSCAN(eps=0.2,
            min_samples=10,
            metric='euclidean')
prediction = db.fit_predict(X)


plt.scatter(X[:, 0], X[:, 1], c=prediction);

I jeszcze jeden przykład, w którym wolimy klastrowanie według zagęszczenia.

In [None]:
from sklearn.datasets import make_circles

X, y = make_circles(n_samples=1500, 
                    factor=.4, 
                    noise=.05)

plt.scatter(X[:, 0], X[:, 1]);

In [None]:
from sklearn.datasets import make_circles
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN

X, y = make_circles(n_samples=1500, 
                    factor=.4, 
                    noise=.05)

km = KMeans(n_clusters=2)
plt.figure()
plt.title("KMeans")
plt.scatter(X[:, 0], X[:, 1], c=km.fit_predict(X))

db = DBSCAN(eps=0.2)
plt.figure()
plt.title("DBSCAN - Density-based Spatial Clustering of Applications with Noise")
plt.scatter(X[:, 0], X[:, 1], c=db.fit_predict(X));


Część przykładów z **SciPy2017 Scikit-learn Tutorial**