## Regresja liniowa
W tym notebooku stworzymy model regresji wielorakiej dla zbioru danych 'boston' - naszym zadaniem jest próba predykcji cen domów bazując na pewnych numerycznych zmiennych. 
* Napiszemy model regresji liniowej od podstaw (bez użycia gotowych pakietów) z jedną zmienną objaśniającą
* Wykorzystamy numpy do estymacji parametrów regresji
* Zobaczymy jakość dopasowania danych za pomocą RMSE i współczynnika determinacji R2
* Napiszemy model regresji z wieloma zmiennymi objaśniającymi od podstaw (numpy)
* Wykorzystamy LinearRegression z pakietu sklearn, żeby osiąnąć te same wyniki

Zaimportujmy pakiety, i wczytajmy dane

In [33]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

%matplotlib inline

In [109]:
boston_dataframe = pd.read_csv('boston.csv', index_col=0)

Wyświetl podstawowe informacje i statystyki opisowe dotyczące ramki danych

Boston House Prices dataset
===========================

Informacje o zmiennych:
------
Data Set Characteristics:  
    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per 10,000 USD
        - PTRATIO  pupil-teacher ratio by town
        - LSTAT    % lower status of the population
        - MEDV     Median value of owner-occupied homes in 1000's USD

Stwórz obiekt x, który będzie zmienną 'LSTAT' oraz y będący zmienną objaśnianą - za pomocą x będziemy starali się zaprognozować y

## Model regresji prostej

Będziemy starali się ustalić liniową zależność między dwiema zmiennymi za pomocą prostego modelu regresji liniowej - regresji z jedną zmienną objaśniającą - w tym przypadku zbadamy zależność między zmienną 'LSTAT', określającą udział mieszkańców o niskim statusie społecznym w okolicy danego domu, a ceną mieszkania.


Model regresji prostej może być przedstawiony w taki sposób
\begin{equation*}
Y = \beta_0 + \beta_1X
\end{equation*}

$\beta_0$ jest wyrazem wolnym (intercept),

$\beta_1$ jest parametrem nachylenie

Powyższe wartości możemy estymować za pomocą:
\begin{equation*}
\beta_1 = \frac{\sum_{i=1}^{m} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{m} (x_i - \bar{x})^2}
\end{equation*}

\begin{equation*}
\beta_0 = \bar{y} - \beta_1\bar{x}
\end{equation*}

Zróbmy to w czystym numpy

Obliczmy średnie wartości x i y

W tej linijce wpisz wyrażenie obliczające wartość parametru $\beta_1$

In [12]:
b1 =

A w tej wartość parametru $\beta_0$

In [15]:
b0 = 

I wyświetlmy ich wartość

In [16]:
print('Slope paramater: {} \nIntercept:{}'.format(b1, b0))

Slope paramater: -0.9500493537579907 
Intercept:34.5538408793831


Możemy w ten sposób dokonać predykcji teroetycznej ceny mieszkania w sytuacji, kiedy procent osób o niższym statusie społecznym wynosi:

* 10
* 15
* 20


Napisz funkcję 'predict_simple_regression', która jako argument przyjmie parametr b0, b1, oraz wartość oznaczającą procent populacji o niskim statusie, która zwróci wartość prognozowaną. Następnie dokonaj predykcji dla wyżej przedstawionych wartości

In [27]:
def predict_simple_regression

Ten sam efekt (modelu prostej regresji) możemy osiągnąć za pomocą funkcji numpy.polyfit

In [21]:
fit = np.polyfit(x,y,1)
fit_function = np.poly1d(fit) 

print(fit)

[ -0.95004935  34.55384088]


Prognozy możemy robić za pomocą naszej funkcji *fit_function*:

In [22]:
fit_fn(10)
fit_fn(15)
fit_fn(20)

25.053347341803192

We can plot the regression line against the data it was fitted on

In [1]:
dziedzina = np.linspace(np.min(x), np.max(x), 1000)
y_line = b0 + b1 * dziedzina

# regression line
plt.plot(dziedzina, y_line, color='blue', label='Regresja')
# data points
plt.scatter(x, y, c='red', label='Data points')

plt.title('Prosty model regresji \n', size=20)
plt.xlabel('% udział mieszkańców o niskim statusie społecznym w okolicy')
plt.ylabel('Ceny mieszkań')
plt.legend()
plt.show()

NameError: name 'np' is not defined

Miarą błędu jest Root Mean Squared Error 

\begin{equation*}
RMSE = \sqrt{\sum_{i=1}^{m} \frac{1}{m} (\hat{y_i} - y_i)^2}
\end{equation*}

Żeby go policzyć, musimy dokonać predykcji dla wszystkich elementów ze zbioru

In [42]:
predictions = predict_simple_regression(x)
# pokażmy 10 pierwszych predykcji
print(predictions[:10])

0    29.822595
1    25.870390
2    30.725142
3    31.760696
4    29.490078
5    29.604084
6    22.744727
7    16.360396
8     6.118864
9    18.307997
Name: LSTAT, dtype: float64


Napisz funkcję implementującą błąd rmse (przyjuje wektor wartości prawdziwych, oraz tych prognozowanych)

A następnie oblicz błąd dla naszego modelu regresji liniowej

In [51]:
rmse(predictions, y)

6.2034641314264203

Do tego samego możemy użyć mean_squared_error z sklearn.metrics package (należy jeszcze dodać pierwiastek)

In [69]:
from sklearn.metrics import mean_squared_error

In [56]:
print('MSE: {}'.format(mean_squared_error(predictions, y)))
print('RMSE: {}'.format(np.sqrt(mean_squared_error(predictions, y))))

MSE: 38.48296722989415
RMSE: 6.20346413142642


Jest do wykorzystania ustandaryzowana  miara jakości dopasowania - współczynnik determinacji  $R^2$ 
\begin{equation}
SS_t = \sum_{i=1}^{m} (y_i - \bar{y})^2
\end{equation}
\begin{equation}
SS_r = \sum_{i=1}^{m} (y_i - \hat{y_i})^2
\end{equation}
\begin{equation}
R^2 \equiv 1 - \frac{SS_r}{SS_t}
\end{equation}

$R^2$ przyjmuje wartości z zakresu 0 - 1, i może być wykorzystywane do porównywania różnych modeli regresji. Zaimplementujmy teraz funkcję liczącą błąd ;)

In [65]:
def r_squared_from_scratch(y_true, predictions):
    sst = 
    ssr = 
    return 1 - ssr/sst

Ile wyniesie wartość współczynnika R2, dla naszego modelu?

In [66]:
r_squared_from_scratch(y, predictions)

0.5441462975864797

To samo możemy osiągnąć za pomocą r2_score:

In [68]:
from  sklearn.metrics import r2_score
print(r2_score(y, predictions))

0.544146297586


## Model regresji wielorakiej

Możemy teraz rozszerzyć nasz model, i wykorzystać więcej zmiennych niezależnych (objaśniających). Wzór wygląda tak

\begin{equation}
Y = \beta_0 + \beta_1x_1 + \beta_1x_2 + … + \beta_nx_n
\end{equation}

Klasyczna metoda najmniejszych kwadratów może zostać wykorzystana do optymalizacji. Zaimplementujemy ją na macierzach, potrzebne będą własności

\begin{equation}
\beta = (X^TX)^{-1}X^Ty
\end{equation}

gdzie $X$ jest macierzą zmiennych niezależnych (musimy tylko pamiętać o dodaniu kolumny z jedynkami - żeby oszacować wartość parametru $\beta_0$)

Dodajmy kolumnę o nazwie 'b0', która będzie przyjmowała wartości 1

In [72]:
boston_dataframe['b0'] = 1

Now implement function that computes the vector of $\beta$ parameters.

Przydatne funkcje:
* np.linalg.inv - odwrócenie macierzy
* .transpose() - transpozycja macierzy
* .dot() - mnożenie macierzy (pamiętaj, że w przypadku operacji na macierzach, kolejność w mnożeniu ma znaczenie)

In [78]:
coeffs = 

Wyświetlmy estymowane parametry

In [79]:
coeffs

array([ -1.07170557e-01,   4.63952195e-02,   2.08602395e-02,
         2.68856140e+00,  -1.77957587e+01,   3.80475246e+00,
         7.51061703e-04,  -1.47575880e+00,   3.05655038e-01,
        -1.23293463e-02,  -9.53463555e-01,   9.39251272e-03,
        -5.25466633e-01,   3.64911033e+01])

Dodajmy informację o tym jaka to zmienna:

In [77]:
pd.DataFrame({'names': boston_dataframe.columns.tolist(), 'coeffs': coeffs})

Unnamed: 0,coeefs,names
0,-0.107171,CRIM
1,0.046395,ZN
2,0.02086,INDUS
3,2.688561,CHAS
4,-17.795759,NOX
5,3.804752,RM
6,0.000751,AGE
7,-1.475759,DIS
8,0.305655,RAD
9,-0.012329,TAX


Łatwiej będzie skorzystać z pakietu linear_model

In [92]:
from sklearn import linear_model

# fit_intercept ustawiamy na false, bo mamy w danych już kolumnę do estymacji wyrazu wolnego
regr = linear_model.LinearRegression(fit_intercept=False)

# dopasujmy
regr.fit(boston_dataframe, y)

LinearRegression(copy_X=True, fit_intercept=False, n_jobs=1, normalize=False)

Jak wyglądają wyestymowane parametry regresji?

In [87]:
regr.coef_

array([ -1.07170557e-01,   4.63952195e-02,   2.08602395e-02,
         2.68856140e+00,  -1.77957587e+01,   3.80475246e+00,
         7.51061703e-04,  -1.47575880e+00,   3.05655038e-01,
        -1.23293463e-02,  -9.53463555e-01,   9.39251272e-03,
        -5.25466633e-01,   3.64911033e+01])

W trochę przyjaźniejszej formie:

In [88]:
pd.DataFrame({'names': boston_dataframe.columns.tolist(), 'coeffs': regr.coef_})

Unnamed: 0,coeffs,names
0,-0.107171,CRIM
1,0.046395,ZN
2,0.02086,INDUS
3,2.688561,CHAS
4,-17.795759,NOX
5,3.804752,RM
6,0.000751,AGE
7,-1.475759,DIS
8,0.305655,RAD
9,-0.012329,TAX


Za pomocą metody .predict() możemy dokonać predykcji ze zbioru danych

In [89]:
predictions_scikit =

Jaka jest wartość $R^2$ dla takiego modelu?

In [91]:
print(regr.score(boston_dataframe, y))
print(r2_score(y, predictions_scikit))

0.740607742865
0.740607742865
