<a href="https://colab.research.google.com/github/Sylwiaes/machine-learning-bootcamp/blob/main/06_uczenie_maszynowe/03_metryki_regresja.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

* @author: krakowiakpawel9@gmail.com  
* @site: e-smartdata.org

### scikit-learn
>Strona biblioteki: [https://scikit-learn.org](https://scikit-learn.org)  
>
>Dokumentacja/User Guide: [https://scikit-learn.org/stable/user_guide.html](https://scikit-learn.org/stable/user_guide.html)
>
>Podstawowa biblioteka do uczenia maszynowego w języku Python.
>
>Aby zainstalować bibliotekę scikit-learn, użyj polecenia poniżej:
```
pip install scikit-learn
```

### Metryki - Problem regresji:
1. [Import bibliotek](#a0)
2. [Interpretacja graficzna](#a2)
3. [Mean Absolute Error - MAE - Średni błąd bezwzględny](#a3)
4. [Mean Squared Error - MSE - Błąd średniokwadratowy](#a4)
5. [Root Mean Squared Error - RMSE - Pierwiastek błędu średniokwadratowego](#a5)
6. [Max Error - Błąd maksymalny](#a6)
7. [R2 score - współczynnik determinacji](#a7)

    

### <a name='a0'></a>  Import bibliotek

In [None]:
import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
#model regresji to model, który przewiduje ciągłą wartość zmiennej: cena akcji, liczba klientów w danym dniu, tygodniu itd.

In [None]:
y_true = 100 + 20 * np.random.randn(50) #dodajemy 100, aby nasz rozkład miał wartość oczekiwaną 100, odchylenie 20.
y_true

array([ 86.08133837, 112.44213583,  94.69783075,  82.96807823,
       108.64046828,  94.72536973, 127.75191596, 109.41872499,
        69.38716416, 107.03688023, 102.75999113, 110.76800911,
       108.64222608, 118.98250477,  60.82339187,  78.50831645,
        77.19800577, 105.74095457, 110.25021138, 111.90597664,
        92.782922  , 115.51488021,  79.47949387,  99.72306745,
       108.08459343, 108.8609992 ,  69.26476165, 115.32074575,
       102.38539313,  84.00608105,  66.3280118 , 109.74398345,
        81.56180383, 114.39753918,  85.39709206, 126.6347537 ,
        99.85916043,  59.93294887, 109.21344497,  93.52663801,
        96.97159658,  95.48518466,  92.63804759,  85.23363208,
        69.72193501, 120.6737564 ,  84.28267773, 121.7169431 ,
        96.19717765,  66.69284916])

In [None]:
y_pred = y_true + 10 * np.random.randn(50)
y_pred

array([100.19152305, 111.00549684,  85.07702411,  70.59128297,
       119.09912602,  81.67351972, 131.88589479, 103.37690914,
        70.34369356, 115.45016668, 103.8168389 , 109.84245482,
       103.52308507, 122.87708821,  83.44594816,  70.46863189,
        97.43641238, 109.84095828, 114.17376777, 108.51730677,
        95.81330467, 108.19682368,  70.09371793, 103.9153285 ,
       121.96014301, 119.45339185,  82.94265654, 125.57017261,
       108.21469321,  80.25008738,  63.80299269, 112.61473098,
        84.57338817, 125.77960807,  99.06163445, 106.2791061 ,
        92.62892295,  64.90449682, 119.85990146,  85.5795693 ,
        92.3651696 ,  96.99968042,  95.14142137,  96.91621673,
        80.29735303, 126.53528994,  89.79486954, 119.23865867,
        99.03179587,  52.9566456 ])

In [None]:
results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})
results.head()

Unnamed: 0,y_true,y_pred
0,86.081338,100.191523
1,112.442136,111.005497
2,94.697831,85.077024
3,82.968078,70.591283
4,108.640468,119.099126


In [None]:
results['error'] = results['y_true'] - results['y_pred']
results.head()

Unnamed: 0,y_true,y_pred,error
0,86.081338,100.191523,-14.110185
1,112.442136,111.005497,1.436639
2,94.697831,85.077024,9.620807
3,82.968078,70.591283,12.376795
4,108.640468,119.099126,-10.458658



### <a name='a2'></a> Interpretacja graficzna

In [None]:
def plot_regression_results(y_true, y_pred): 
    results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})
    min = results[['y_true', 'y_pred']].min().min()
    max = results[['y_true', 'y_pred']].max().max()

    fig = go.Figure(data=[go.Scatter(x=results['y_true'], y=results['y_pred'], mode='markers'),
                    go.Scatter(x=[min, max], y=[min, max])],
                    layout=go.Layout(showlegend=False, width=800, height=500,
                                     xaxis_title='y_true', 
                                     yaxis_title='y_pred',
                                     title='Regression results'))
    fig.show()
plot_regression_results(y_true, y_pred)

In [None]:
y_true = 100 + 20 * np.random.randn(1000) #bierzemy 1000 elementów
y_pred = y_true + 10 * np.random.randn(1000)
results = pd.DataFrame({'y_true': y_true, 'y_pred': y_pred})
results['error'] = results['y_true'] - results['y_pred'] #budujemy histogram naszych błędów

px.histogram(results, x='error', nbins=50, width=800)
#więcej wartości w rozkładzie po prawej stronie, czyli błąd dodatni - model częściej nie doszacowuje naszych wartości
#więcej wartości w rozkładzie po lewej stronie, czyli błąd ujemny - model częściej przeszacowuje nasze wartości
#optymalnym rozwiązaniem jest aby nasz rozkład byl jak najbardziej symetryczny

### <a name='a3'></a> Mean Absolute Error - Średni błąd bezwzględny
### $$MAE = \frac{1}{n}\sum_{i=1}^{n}|y_{true} - y_{pred}|$$

In [None]:
def mean_absolute_error(y_true, y_pred):
    return abs(y_true - y_pred).sum() / len(y_true)

mean_absolute_error(y_true, y_pred)

7.891917112875191

In [None]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_true, y_pred)
#metryke można zaimportować z biblioteki sklearn

7.891917112875191

### <a name='a4'></a> Mean Squared Error - MSE - Błąd średniokwadratowy
### $$MSE = \frac{1}{n}\sum_{i=1}^{n}(y_{true} - y_{pred})^{2}$$

In [None]:
def mean_squared_error(y_true, y_pred):
    return ((y_true - y_pred) ** 2).sum() / len(y_true)

mean_squared_error(y_true, y_pred)
#błąd MSE to błąd, który będzie karać te wartości, które sa bardziej odległe od wartości prawdziwych y_pred

100.51931547939915

In [None]:
from sklearn.metrics import mean_squared_error

mean_squared_error(y_true, y_pred)

100.51931547939915

### <a name='a5'></a> Root Mean Squared Error - RMSE - Pierwiastek błędu średniokwadratowego
### $$RMSE = \sqrt{MSE}$$

In [None]:
def root_mean_squared_error(y_true, y_pred):
    return np.sqrt(((y_true - y_pred) ** 2).sum() / len(y_true))

root_mean_squared_error(y_true, y_pred)
#pierwiastek błędu mówi jak bardzo wartości odbiegają od wartości prawdziwych

10.025932150149389

In [None]:
np.sqrt(mean_squared_error(y_true, y_pred))

9.790246585798048

### <a name='a6'></a>  Max Error - Błąd maksymalny

$$ME = max(|y\_true - y\_pred|)$$ 

In [None]:
def max_error(y_true, y_pred):
    return abs(y_true - y_pred).max()

In [None]:
max_error(y_true, y_pred)

35.04128396822901

In [None]:
from sklearn.metrics import max_error

max_error(y_true, y_pred)

35.04128396822901

### <a name='a7'></a>  R2 score - współczynnik determinacji
### $$R2\_score = 1 - \frac{\sum_{i=1}^{N}(y_{true} - y_{pred})^{2}}{\sum_{i=1}^{N}(y_{true} - \overline{y_{true}})^{2}}$$

In [None]:
from sklearn.metrics import r2_score

r2_score(y_true, y_pred)

0.7554297008348707

In [None]:
def r2_score(y_true, y_pred):
    numerator = ((y_true - y_pred) ** 2).sum()
    denominator = ((y_true - y_true.mean()) ** 2).sum()
    try:
        r2 = 1 - numerator / denominator
    except ZeroDivisionError:
        print('Dzielenie przez zero')
    return r2

In [None]:
r2_score(y_true, y_pred)
#wynik powinien byc jak najbliżej 1

0.7554297008348707