# Linjär Regression

## Enkel modell för linjär regression

In [5]:
from IPython.display import Image
%matplotlib inline
Image(filename='C:\Users\usr000617/10_01.png', width=500) 

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape (<ipython-input-5-05c9b09a79ad>, line 3)

<br>
<br>

# "The Housing dataset" - ett standard dataset

Från: [https://archive.ics.uci.edu/ml/datasets/Housing](https://archive.ics.uci.edu/ml/datasets/Housing)

Datatyper:
    
<pre>
1. CRIM      per capita crime rate by town
2. ZN        proportion of residential land zoned for lots over 
                 25,000 sq.ft.
3. INDUS     proportion of non-retail business acres per town
4. CHAS      Charles River dummy variable (= 1 if tract bounds 
                 river; 0 otherwise)
5. NOX       nitric oxides concentration (parts per 10 million)
6. RM        average number of rooms per dwelling
7. AGE       proportion of owner-occupied units built prior to 1940
8. DIS       weighted distances to five Boston employment centres
9. RAD       index of accessibility to radial highways
10. TAX      full-value property-tax rate per $10,000
11. PTRATIO  pupil-teacher ratio by town
12. B        1000(Bk - 0.63)^2 where Bk is the proportion of blacks 
                 by town
13. LSTAT    % lower status of the population
14. MEDV     Median value of owner-occupied homes in $1000's
</pre>

In [4]:
import pandas as pd

df = pd.read_csv('databases/housing.data',
                 header=None,
                 sep='\s+')

df.columns = ['CRIM', 'ZN', 'INDUS', 'CHAS', 
              'NOX', 'RM', 'AGE', 'DIS', 'RAD', 
              'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
df.head()

FileNotFoundError: [Errno 2] File databases/housing.data does not exist: 'databases/housing.data'

<br>
<br>

## Visualisera datasetet

### Exploratory Data Analysis

Skapa en scatterplot matrix som visualiserar förhållandena mellan
olika features parvis.

Det som visas här är "Pearson's r".  Den är definierad som kovariansen mellan två features (x och y) dividerad med standardavvikelsen för x resp y, 

$$r = \frac{\sigma_{xy}}{\sigma_x  \sigma_y}$$.  

Se https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

In [6]:
import matplotlib.pyplot as plt
import seaborn as sns


sns.set(style='whitegrid', context='notebook')
cols = ['LSTAT', 'INDUS', 'NOX', 'RM', 'MEDV']

sns.pairplot(df[cols], height=2.5)
plt.tight_layout()

plt.show()

NameError: name 'df' is not defined

För att kvantifiera detta, skapa en korrelationsmatris.

In [None]:
import numpy as np


cm = np.corrcoef(df[cols].values.T)
sns.set(font_scale=1.5)
hm = sns.heatmap(cm,
                 cbar=True,
                 annot=True,
                 square=True,
                 fmt='.2f',
                 annot_kws={'size': 15},
                 yticklabels=cols,
                 xticklabels=cols)

# plt.tight_layout()

plt.show()

In [None]:
# Reset plot settings modified by seaborn to default
sns.reset_orig()
%matplotlib inline

<br>
<br>

# Lös regressionsmodellen

## Lösning med "gradient descent"

In [None]:
class LinearRegressionGD(object):

    def __init__(self, eta=0.001, n_iter=20):
        self.eta = eta
        self.n_iter = n_iter

    def fit(self, X, y):
        self.w_ = np.zeros(1 + X.shape[1])
        self.cost_ = []

        for i in range(self.n_iter):
            output = self.net_input(X)
            errors = (y - output)
            self.w_[1:] += self.eta * X.T.dot(errors)
            self.w_[0] += self.eta * errors.sum()
            cost = (errors**2).sum() / 2.0
            self.cost_.append(cost)
        return self

    def net_input(self, X):
        return np.dot(X, self.w_[1:]) + self.w_[0]

    def predict(self, X):
        return self.net_input(X)

In [None]:
X = df[['RM']].values
y = df['MEDV'].values

Skala variablerna till -1 <= x <= 1 (approximativt)

In [None]:
from sklearn.preprocessing import StandardScaler


sc_x = StandardScaler()
sc_y = StandardScaler()
X_std = sc_x.fit_transform(X)
y_std = sc_y.fit_transform(y[:, np.newaxis]).flatten()

In [None]:
lr = LinearRegressionGD()
lr.fit(X_std, y_std)

In [None]:
plt.plot(range(1, lr.n_iter+1), lr.cost_)
plt.ylabel('SSE')
plt.xlabel('Epoch')
plt.tight_layout()

plt.show()

In [None]:
def lin_regplot(X, y, model):
    plt.scatter(X, y, c='lightblue')
    plt.plot(X, model.predict(X), color='red', linewidth=2)    
    return 

In [None]:
lin_regplot(X_std, y_std, lr)
plt.xlabel('Average number of rooms [RM] (standardized)')
plt.ylabel('Price in $1000\'s [MEDV] (standardized)')
plt.tight_layout()

plt.show()

In [None]:
print('Slope: %.3f' % lr.w_[1])
print('Intercept: %.3f' % lr.w_[0])

Gå tillbaka till de "oskalade" variablerna genom att göra en invers transform

In [None]:
num_rooms_std = sc_x.transform(np.array([[5.0]]))
price_std = lr.predict(num_rooms_std)
print("Price in $1000's: %.3f" % sc_y.inverse_transform(price_std))

<br>
<br>

## Lösning med scikit-learn

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
slr = LinearRegression()
slr.fit(X, y)
y_pred = slr.predict(X)
print('Slope: %.3f' % slr.coef_[0])
print('Intercept: %.3f' % slr.intercept_)

In [None]:
lin_regplot(X, y, slr)
plt.xlabel('Average number of rooms [RM]')
plt.ylabel('Price in $1000\'s [MEDV]')
plt.tight_layout()

plt.show()

<br>
<br>

# En robustare modell - RANSAC

Linjära regressionsmodeller kan påverkas ganska mycket av "uteliggare".  Det finns
algoritmer för att testa vilka punkter som kan anses vara uteliggare, men det är en
bedömningsfråga.

En robustare metod är att använda RANSAC: RANdom SAmple Consensus.

1. Börja med att slumpmässigt välja ut ett antal punkter som "inneliggare", och anpassa en modell efter dessa.
2. Testa alla andra punkter mot denna modell, och lägg till de punkter som ligger inom ett givet intervall från modellen.
3. Anpassa en ny modell med både de gamla och de nya punkterna inkluderade.
4. Estimera felet mellan nya modellen och alla "inneliggare".
5. Om felet är mindre än ett specificerat värde eller om antalet maximala iterationer har överskridits: klart!  Annars gå tillbaka till punkt 1.



In [None]:
from sklearn.linear_model import RANSACRegressor

ransac = RANSACRegressor(LinearRegression(), 
                         max_trials=100, 
                         min_samples=50, 
                         loss='absolute_loss', 
                         residual_threshold=5.0, 
                         random_state=0)


ransac.fit(X, y)
inlier_mask = ransac.inlier_mask_
outlier_mask = np.logical_not(inlier_mask)

line_X = np.arange(3, 10, 1)
line_y_ransac = ransac.predict(line_X[:, np.newaxis])
plt.scatter(X[inlier_mask], y[inlier_mask],
            c='blue', marker='o', label='Inliers')
plt.scatter(X[outlier_mask], y[outlier_mask],
            c='lightgreen', marker='s', label='Outliers')
plt.plot(line_X, line_y_ransac, color='red')   
plt.xlabel('Average number of rooms [RM]')
plt.ylabel('Price in $1000\'s [MEDV]')
plt.legend(loc='upper left')

plt.tight_layout()

plt.show()

In [None]:
print('Slope: %.3f' % ransac.estimator_.coef_[0])
print('Intercept: %.3f' % ransac.estimator_.intercept_)

<br>
<br>

# Utvärdera modellen

In [None]:
from sklearn.model_selection import train_test_split

# Use all variables as inputs
X = df.iloc[:, :-1].values
y = df['MEDV'].values

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=0)

In [None]:
slr = LinearRegression()

slr.fit(X_train, y_train)
y_train_pred = slr.predict(X_train)
y_test_pred = slr.predict(X_test)

Regressionen är nu multi-dimensionell, och vi kan inte bara plotta hyper-planet.
Istället plottar vi residualen, dvs skillnaden mellan verkligt värde och predikterat.

In [None]:
plt.scatter(y_train_pred,  y_train_pred - y_train,
            c='blue', marker='o', label='Training data')
plt.scatter(y_test_pred,  y_test_pred - y_test,
            c='lightgreen', marker='s', label='Test data')
plt.xlabel('Predicted values')
plt.ylabel('Residuals')
plt.legend(loc='upper left')
plt.hlines(y=0, xmin=-10, xmax=50, lw=2, color='red')
plt.xlim([-10, 50])
plt.tight_layout()

plt.show()

$R^2$ här är "coefficient of determination".  Det är ett mått på hur bra en modell predikterar datat.  

Definitionen på $R^2$ är

$$R^2 = 1 - \frac{SS_{\mathrm{pred}}}{SS_{\mathrm{tot}}}$$

där $SS$ är "sum of squares" för det "sanna värdet" resp prediktionen:
$$SS_\mathrm{tot} = \sum_i (y_i - \overline{y_i})^2$$
och
$$SS_\mathrm{pred} = \sum_i (y_i - y_{{\mathrm pred},i})^2$$
(Notera att $SS_\mathrm{tot}$ i princip är samma som variansen (skiljer en faktor).)

$R^2$ är alltså hur stor del av variationen i utvariabeln (prediktionen) som förklaras av modellen.  För träningssetet ligger alltid $R^2$ mellan 0 och 1 (där då "1" indikerar att prediktionen passar perfekt med datat; detta motsvarar att MSE, dvs kvadratsummefelet, är 0).  För testsetet kan, i sämsta fall, $R^2$ bli negativ.

Notera att vi ovan använde Pearson's r på *indatat*, dvs $X$.  Här har vi beräknat $R^2$ på *utdatat*, dvs $y$. Om man beräknar Pearson's r på utdatat så är det samma sak som $R^2$.

In [None]:
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

print('MSE train: %.3f, test: %.3f' % (
        mean_squared_error(y_train, y_train_pred),
        mean_squared_error(y_test, y_test_pred)))
print('R^2 train: %.3f, test: %.3f' % (
        r2_score(y_train, y_train_pred),
        r2_score(y_test, y_test_pred)))

<br>
<br>

# Regularisering

Tidigare tittade vi på regularisering när vi lade till en summa
över kvadraten på koefficienterna: w^2

Detta kallas även "ridge regression".


In [None]:
from sklearn.linear_model import Ridge
# alpha is similar to our parameter lambda
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)
y_train_pred = ridge.predict(X_train)
y_test_pred = ridge.predict(X_test)

In [None]:
print('MSE train: %.3f, test: %.3f' % (
        mean_squared_error(y_train, y_train_pred),
        mean_squared_error(y_test, y_test_pred)))
print('R^2 train: %.3f, test: %.3f' % (
        r2_score(y_train, y_train_pred),
        r2_score(y_test, y_test_pred)))

Vi kan även titta på regularisering med en summa över absolutbeloppet av koefficienterna: | w |.  Detta är LASSO, Least Absolute Shrinking and Selection Operator.

LASSO straffar inte enskilda stora koefficienter lika hårt.  Istället tvingas fler koefficienter att bli små.
Ibland blir vissa koefficienter lika med noll. LASSO funkar då som en "feature-väljare", dvs den pekar ut de
features som spelar minst roll.

In [None]:
from sklearn.linear_model import Lasso

lasso = Lasso(alpha=0.1)
lasso.fit(X_train, y_train)
y_train_pred = lasso.predict(X_train)
y_test_pred = lasso.predict(X_test)

In [None]:
print('MSE train: %.3f, test: %.3f' % (
        mean_squared_error(y_train, y_train_pred),
        mean_squared_error(y_test, y_test_pred)))
print('R^2 train: %.3f, test: %.3f' % (
        r2_score(y_train, y_train_pred),
        r2_score(y_test, y_test_pred)))

För att bestämma det optimala värdet på alpha/lambda kan vi använda oss av validerings-setet eller kors-validering.

<br>
<br>

# Linjär regressionsmodel med polynom

Vi börjar med en enkel model med lite "dummy data"

In [None]:
X = np.array([258.0, 270.0, 294.0, 
              320.0, 342.0, 368.0, 
              396.0, 446.0, 480.0, 586.0])[:, np.newaxis]

y = np.array([236.4, 234.4, 252.8, 
              298.6, 314.2, 342.2, 
              360.8, 368.0, 391.2,
              390.8])

Addera andra-grads-polynom för våra variabler

In [None]:
from sklearn.preprocessing import PolynomialFeatures

lr = LinearRegression()
pr = LinearRegression()
quadratic = PolynomialFeatures(degree=2)
X_quad = quadratic.fit_transform(X)

In [None]:
# fit linear features
lr.fit(X, y)
X_fit = np.arange(250, 600, 10)[:, np.newaxis]
y_lin_fit = lr.predict(X_fit)

# fit quadratic features
pr.fit(X_quad, y)
y_quad_fit = pr.predict(quadratic.fit_transform(X_fit))

# plot results
plt.scatter(X, y, label='training points')
plt.plot(X_fit, y_lin_fit, label='linear fit', linestyle='--')
plt.plot(X_fit, y_quad_fit, label='quadratic fit')
plt.legend(loc='upper left')

plt.tight_layout()

plt.show()

In [None]:
y_lin_pred = lr.predict(X)
y_quad_pred = pr.predict(X_quad)

In [None]:
print('Training MSE linear: %.3f, quadratic: %.3f' % (
        mean_squared_error(y, y_lin_pred),
        mean_squared_error(y, y_quad_pred)))
print('Training R^2 linear: %.3f, quadratic: %.3f' % (
        r2_score(y, y_lin_pred),
        r2_score(y, y_quad_pred)))

<br>
<br>

## Icke-linjär modellering av "Housing Dataset"

In [None]:
X = df[['LSTAT']].values
y = df['MEDV'].values

regr = LinearRegression()

# create quadratic features
quadratic = PolynomialFeatures(degree=2)
cubic = PolynomialFeatures(degree=3)
X_quad = quadratic.fit_transform(X)
X_cubic = cubic.fit_transform(X)

# fit features
X_fit = np.arange(X.min(), X.max(), 1)[:, np.newaxis]

# Linear fit
regr = regr.fit(X, y)
y_lin_fit = regr.predict(X_fit)
linear_r2 = r2_score(y, regr.predict(X))

# Quadratic fit
regr = regr.fit(X_quad, y)
y_quad_fit = regr.predict(quadratic.fit_transform(X_fit))
quadratic_r2 = r2_score(y, regr.predict(X_quad))

# Cubic fit
regr = regr.fit(X_cubic, y)
y_cubic_fit = regr.predict(cubic.fit_transform(X_fit))
cubic_r2 = r2_score(y, regr.predict(X_cubic))


# plot results
plt.scatter(X, y, label='training points', color='lightgray')

plt.plot(X_fit, y_lin_fit, 
         label='linear (d=1), $R^2=%.2f$' % linear_r2, 
         color='blue', 
         lw=2, 
         linestyle=':')

plt.plot(X_fit, y_quad_fit, 
         label='quadratic (d=2), $R^2=%.2f$' % quadratic_r2,
         color='red', 
         lw=2,
         linestyle='-')

plt.plot(X_fit, y_cubic_fit, 
         label='cubic (d=3), $R^2=%.2f$' % cubic_r2,
         color='green', 
         lw=2, 
         linestyle='--')

plt.xlabel('% lower status of the population [LSTAT]')
plt.ylabel('Price in $1000\'s [MEDV]')
plt.legend(loc='upper right')

plt.tight_layout()

plt.show()

Andra transformationer än polynom:

In [None]:
X = df[['LSTAT']].values
y = df['MEDV'].values

# transform features
X_log = np.log(X)
y_sqrt = np.sqrt(y)

# fit features
X_fit = np.arange(X_log.min()-1, X_log.max()+1, 1)[:, np.newaxis]

regr = regr.fit(X_log, y_sqrt)
y_lin_fit = regr.predict(X_fit)
linear_r2 = r2_score(y_sqrt, regr.predict(X_log))

# plot results
plt.scatter(X_log, y_sqrt, label='training points', color='lightgray')

plt.plot(X_fit, y_lin_fit, 
         label='linear (d=1), $R^2=%.2f$' % linear_r2, 
         color='blue', 
         lw=2)

plt.xlabel('log(% lower status of the population [LSTAT])')
plt.ylabel('$\sqrt{Price \; in \; \$1000\'s [MEDV]}$')
plt.legend(loc='lower left')

plt.tight_layout()

plt.show()