# Najprostszy przykład uczenia - regresja

Chcemy dopasować prostą tak, by błąd kwadratowy był najmniejszy:

$$
SE = \sum_{i=1}^{n} r_i^2
$$


$$
r = y_i - f(x_i, \beta)
$$

$y$ to faktyczna wartość funkcji, $f(x_i, \beta)$ to przewidywana przez naszą regresję wartość funkcji w danym miejscu

In [None]:
# Wczytujemy niezbędne biblioteki

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

Będziemy chcieli zamodelować funkcję $y = 2x + 5$

In [None]:
x = np.linspace(0, 10, 100) # 100 liczb od 0 do 10
y = 2 * x + 5

In [None]:
plt.rcParams['figure.figsize'] = (20, 8) # zmiana rozmiaru wykresu (standardowo jest mały)
plt.rcParams.update({'font.size': 17}) # zmiana rozmiaru czcionki
plt.plot(x, y, 'o') # wyrysowanie jako kółka danych x, y

Tak jak wspomniano wcześniej, scikit-learn operuje na macierzach o rozmiarze `[n_obserwacji, n_cech]`
Obserwacji mamy sto, cecha jest jedna (wartość x w punkcie). Musimy zmienić wymiary macierzy, żeby scikit-learn nas zrozumiał.
<img src="figures/train_test_split_matrix.svg" width="80%">

In [None]:
print('Na początku wymiary: ', x.shape)
print(x)
X = x[:, np.newaxis]
print('Po dodaniu wymiaru: ', X.shape)
print(X)

Importujemy potrzebną bibliotekę z scikit-learn

Dzielimy nasz zbiór na dane treningowe i testowe

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [None]:
plt.plot(X_train, y_train, 'bo')
plt.plot(X_test, y_test, 'rx')

Zastosujmy model regresji liniowej

In [None]:
from sklearn.linear_model import LinearRegression

regressor = LinearRegression()
regressor.fit(X_train, y_train)

In [None]:
print('Waga współczynnika przy x: ', regressor.coef_)
print('Punkt przecięcia osi y: ', regressor.intercept_)

In [None]:
min_pt = X.min() * regressor.coef_[0] + regressor.intercept_
max_pt = X.max() * regressor.coef_[0] + regressor.intercept_

plt.plot([X.min(), X.max()], [min_pt, max_pt])
plt.plot(X_train, y_train, 'o');

Udało nam się odkryć funkcję, która generowała dane, ale to było proste - funkcja była bardzo łatwa, nie było żadnego szumu w danych.

Dodajmy **szum**.

In [None]:
rng = np.random.RandomState(42)
y = 2 * x + 5 + rng.uniform(-3, 3, size=len(x))
plt.plot(x, y, 'o')

min_pt = 2 * X.min() + 5
max_pt = 2 * X.max() + 5

plt.plot([X.min(), X.max()], [min_pt, max_pt], 'black')

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
regressor.fit(X_train, y_train)
print('Waga współczynnika przy x: ', regressor.coef_)
print('Punkt przecięcia osi y: ', regressor.intercept_)

min_pt = 2 * X.min() + 5
max_pt = 2 * X.max() + 5


plt.plot([X.min(), X.max()], [min_pt, max_pt], 'black')

min_pt_pred = X.min() * regressor.coef_[0] + regressor.intercept_
max_pt_pred = X.max() * regressor.coef_[0] + regressor.intercept_
plt.plot([X.min(), X.max()], [min_pt_pred, max_pt_pred], 'g--')
plt.plot(X_train, y_train, 'bo')
plt.plot(X_test, y_test, 'rx')

Scikit-learn odkrył niemal dokładnie funkcję, która generowała dane, pomimo szumu. Zobaczmy jednak, co działoby się, gdybyśmy mieli **mniej danych treningowych**. Zrobimy to korzystając z interaktywnych widgetów. Żeby móc z nich skorzystać musimy całą naszą procedurę przemienić w funkcję.

In [None]:
def dopasuj_regresje(rozmiar_danych):
    x = np.linspace(0, 10, rozmiar_danych)
    X = x[:, np.newaxis]
    rng = np.random.RandomState(42)
    y = 2 * x + 5 + rng.uniform(-3, 3, size=len(x))
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
    regressor.fit(X_train, y_train)
    print('Waga współczynnika przy x: ', regressor.coef_)
    print('Punkt przecięcia osi y: ', regressor.intercept_)

    min_pt = 2 * X.min() + 5
    max_pt = 2 * X.max() + 5


    plt.plot([X.min(), X.max()], [min_pt, max_pt], 'black')

    min_pt_pred = X.min() * regressor.coef_[0] + regressor.intercept_
    max_pt_pred = X.max() * regressor.coef_[0] + regressor.intercept_
    plt.plot([X.min(), X.max()], [min_pt_pred, max_pt_pred], 'g--')
    plt.plot(X_train, y_train, 'bo')
    plt.plot(X_test, y_test, 'rx')
    return regressor.coef_, regressor.intercept_

In [None]:
from ipywidgets import widgets

widgets.interact(dopasuj_regresje, rozmiar_danych=widgets.BoundedIntText(min=4, max=300))

## Zbyt mało danych - duży szum - dopasowania zmieniają się mocno

In [None]:
def daj_wspolczynniki(rozmiar_danych):
    x = np.linspace(0, 10, rozmiar_danych)
    X = x[:, np.newaxis]
    rng = np.random.RandomState(42)
    y = 2 * x + 5 + rng.uniform(-3, 3, size=len(x))
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
    regressor.fit(X_train, y_train)
    return regressor.coef_, regressor.intercept_

a = list()
b = list()
for i in range(4, 4000):
    wspolczynniki = daj_wspolczynniki(i)
    a.append(wspolczynniki[0])
    b.append(wspolczynniki[1])
plt.plot(np.arange(len(a)), a)
plt.plot([0, len(a)], [2, 2])
plt.title("Wahania dopasowanej wartości współczynnika przy x")
plt.xlabel("Liczebność zbioru danych")
plt.ylabel("Dopasowana wartość współczynnika")
plt.show()
plt.plot(np.arange(len(b)), b)
plt.plot([0, len(a)], [5, 5])
plt.title("Wahania dopasowanej wartości przy przecięciu osi y")
plt.xlabel("Liczebność zbioru danych")
plt.ylabel("Dopasowana wartość")
plt.show()

A co jeśli funkcja jest inna? Być może nie da się jej zamodelować regresją liniową
$$ y = \sin(x) + szum$$

In [None]:
x = np.linspace(-5, 5, 200)
y = np.sin(x) + rng.uniform(-0.75, 0.75, size=len(x))
plt.plot(x, y, 'o')
plt.plot(x, np.sin(x))
plt.title(r'$y = \sin(x)$')
X = x[:, np.newaxis]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
regressor = LinearRegression()
regressor.fit(X_train, y_train)
print('Waga współczynnika przy x: ', regressor.coef_)
print('Punkt przecięcia osi y: ', regressor.intercept_)
min_pt = X.min() * regressor.coef_[0] + regressor.intercept_
max_pt = X.max() * regressor.coef_[0] + regressor.intercept_

plt.plot([X.min(), X.max()], [min_pt, max_pt])
plt.plot(X_train, y_train, 'o')

Ten model nie jest wystarczająco skomplikowany, by oddać naturę tych danych. Zastosujmy regresję K-Sąsiadów. W tej regresji patrzymy jaką wartość ma najbliższych K-sąsiadów.

In [None]:
from sklearn.neighbors import KNeighborsRegressor
kneighbor_regression = KNeighborsRegressor(n_neighbors=1)
kneighbor_regression.fit(X_train, y_train)
y_pred_train = kneighbor_regression.predict(X_train)

plt.plot(X_train, y_train, 'o', label="wartość faktyczna", markersize=10)
plt.plot(X_train, y_pred_train, 's', label="wartość przewidywana", markersize=4)
plt.legend(loc='best');

In [None]:
y_pred_test = kneighbor_regression.predict(X_test)

plt.plot(X_test, y_test, 'o', label="wartość faktyczna", markersize=8)
plt.plot(X_test, y_pred_test, 's', label="wartość przewidywana", markersize=4)
plt.plot(x, np.sin(x))
plt.legend(loc='best');

In [None]:
kneighbor_regression = KNeighborsRegressor(n_neighbors=15)
kneighbor_regression.fit(X_train, y_train)
y_pred_test = kneighbor_regression.predict(X_test)

plt.plot(X_test, y_test, 'o', label="wartość faktyczna", markersize=8)
plt.plot(X_test, y_pred_test, 's', label="wartość przewidywana", markersize=4)
plt.plot(x, np.sin(x))
plt.legend(loc='best')

## Trzeba dobrze dobrać złożoność modelu do problemu

+ Zbyt złożony, wyczulony model zacznie uczyć się danych treningowych, będzie słabo generalizował
+ Zbyt prosty, uśredniający model nie odda złożoności problemu

<img src="figures/plot_kneigbors_regularization.png" width="80%">

# Krótko o klastrowaniu

Tworzymy trzy skupiska punktów.

In [None]:
from sklearn.datasets import make_blobs

X, y = make_blobs(random_state=42)
plt.scatter(X[:, 0], X[:, 1], s=100)

Chcemy, by algotyrm klastrowania przyporządkował punkty do klastrów - my je widzimy, ale komputer musi na jakiejś zasadzie je pogrupować. W metodzie K-Means podajemy algorytmowi liczbę klastrów, które do których ma pokwalifikować punkty, a następnie algorytm znajduje takie przyporządkowanie.
Bazujemy tu na odległości euklidesowej (czyli zwykłej odległości).

In [None]:
from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=3, random_state=42)
labels = kmeans.fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels);

Ten przykład dla nas jest oczywisty, ale w przypadku wielowymiarowych danych nasz wzrok i wyobraźnia zawodzą - a te metody komputerowe można przenieść na wyższe wymiary.

## Czasem nie chcemy klastrować według odległości
Wtedy lepsze mogą okazać się metody bazujące na zagęszczeniu

In [None]:
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=400,
                  noise=0.1,
                  random_state=1)
plt.scatter(X[:,0], X[:,1])
plt.show()

In [None]:
from sklearn.cluster import DBSCAN

db = DBSCAN(eps=0.2,
            min_samples=10,
            metric='euclidean')
prediction = db.fit_predict(X)


plt.scatter(X[:, 0], X[:, 1], c=prediction);

I jeszcze jeden przykład, w którym wolimy klastrowanie według zagęszczenia.

In [None]:
from sklearn.datasets import make_circles

X, y = make_circles(n_samples=1500, 
                    factor=.4, 
                    noise=.05)

plt.scatter(X[:, 0], X[:, 1]);

In [None]:
from sklearn.datasets import make_circles
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN

X, y = make_circles(n_samples=1500, 
                    factor=.4, 
                    noise=.05)

km = KMeans(n_clusters=2)
plt.figure()
plt.title("KMeans")
plt.scatter(X[:, 0], X[:, 1], c=km.fit_predict(X))

db = DBSCAN(eps=0.2)
plt.figure()
plt.title("DBSCAN - Density-based Spatial Clustering of Applications with Noise")
plt.scatter(X[:, 0], X[:, 1], c=db.fit_predict(X));


# Drzewa decyzyjne - krótka ilustracja

In [None]:
from figures.plot_interactive_tree import *
plot_tree_interactive()

Część przykładów z **SciPy2017 Scikit-learn Tutorial**