<a href="https://colab.research.google.com/github/krakowiakpawel9/data-science-bootcamp/blob/master/06_uczenie_maszynowe/05_regresja_wielomianowa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

* @author: krakowiakpawel9@gmail.com  
* @site: e-smartdata.org

### scikit-learn
Strona biblioteki: [https://scikit-learn.org](https://scikit-learn.org)  

Dokumentacja/User Guide: [https://scikit-learn.org/stable/user_guide.html](https://scikit-learn.org/stable/user_guide.html)

Dokumentacja API: [https://scikit-learn.org/stable/modules/classes.html](https://scikit-learn.org/stable/modules/classes.html)

Podstawowa biblioteka do uczenia maszynowego w języku Python.

Aby zainstalować bibliotekę scikit-learn, użyj polecenia poniżej:
```
pip install scikit-learn
```

### Spis treści:
1. [Polynomial Regression - Regresja Wielomianowa](#a1)
2. [Ekstrakcja cech wielomianowych - stopień 2](#a2)
3. [Dopasowanie modelu](#a3)
4. [Ekstrakcja cech wielomianowych - stopień 3](#a4)
5. [Dopasowanie modelu](#a5)

In [None]:
import sklearn
sklearn.__version__

### <a name='a1'></a> Polynomial Regression - Regresja Wielomianowa
Powszechnym wzorcem stosowanym w uczeniu maszynowym jest użycie modeli liniowych wytrenowanych na nieliniowych funkcjach danych. Podejscie to utrzymuje szybkie działanie metod liniowych i zarazem umożliwia stosowanie metod liniowych dla znacznie szerszego zakresu danych.

Przykładowo, prosta regresja liniowa może zostać zastosowana przez skonstruowanie cech wielomianowych do modelów nieliniowych.

Rozważmy model regresji liniowej:
$$\hat{y}(w, x) = w_0 + w_1 x_1 + w_2 x_2$$
Dodając cechy wileomianowe otrzymujemy:
$$\hat{y}(w, x) = w_0 + w_1 x_1 + w_2 x_2 + w_3 x_1 x_2 + w_4 x_1^2 + w_5 x_2^2$$
Wyobraźmy sobie teraz nastepujące podstawienie:
$$z = [1, x_1, x_2, x_1 x_2, x_1^2, x_2^2]$$
Wrzucając to z powrotem do naszego modelu dotrzymujemy prosty model liniowy:
$$\hat{y}(w, z) = w_0 + w_1 z_1 + w_2 z_2 + w_3 z_3 + w_4 z_4 + w_5 z_5$$

To implikuje fakt, iż nasz model regresji wielomianowej znajduje się w klasie modeli liniowych i może być rozwiązany za pomocą tych samych technik. 

### Rozważmy model regresji liniowej: $\hat{y}(w,x)=w_0+w_1x_1$


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

np.random.seed(0)
X = np.arange(-10, 10, 0.5)
noise = 80 * np.random.randn(40)
y = -X**3 + 10*X**2 - 2*X + 3 + noise
X = X.reshape(40, 1)
_ = plt.scatter(X, y)

In [None]:
from sklearn.linear_model import LinearRegression

regressor = LinearRegression()
regressor.fit(X, y)
y_pred = regressor.predict(X)

plt.scatter(X, y)
_ = plt.plot(X, y_pred, c='red')

In [None]:
from sklearn.metrics import r2_score

r2_score(y, y_pred)

Model jest niedouczony (underfitting). Potrzebujemy zwiekszyć złozoność modelu do naszego problemu.

Rozważmy model regresji liniowej:
$$\hat{y}(w, x) = w_0 + w_1 x_1$$
Dodając cechy wielomianowe otrzymujemy:
$$\hat{y}(w, x) = w_0 + w_1 x_1 +w_2x_1^2 $$
Wyobraźmy sobie teraz nastepujące podstawienie:
$$z = [1, x_1, x_1^2]$$
Wrzucając to z powrotem do naszego modelu otrzymujemy prosty model liniowy:
$$\hat{y}(w, z) = w_0 + w_1 z_1 + w_2 z_2$$

###  <a name='a2'></a> Ekstrakcja cech wielomianowych - stopień 2

In [None]:
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)
X_poly

###  <a name='a3'></a> Dopasowanie modelu

In [None]:
regressor_poly = LinearRegression()
regressor_poly.fit(X_poly, y)

y_pred = regressor_poly.predict(X_poly)

plt.scatter(X, y)
_ = plt.plot(X, y_pred, c='r')

In [None]:
r2_score(y, y_pred)

###  <a name='a4'></a> Ekstrakcja cech wielomianowych - stopień 3

In [None]:
np.set_printoptions(suppress=True)

poly = PolynomialFeatures(degree=3)
X_poly = poly.fit_transform(X)
X_poly

###  <a name='a5'></a> Dopasowanie modelu

In [None]:
regressor_poly_3 = LinearRegression()
regressor_poly_3.fit(X_poly, y)

y_pred = regressor_poly_3.predict(X_poly)

plt.scatter(X, y)
_ = plt.plot(X, y_pred, c='r')

In [None]:
r2_score(y, y_pred)