# Linear Regression Example

In [69]:
import numpy as np

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error

Antag att vi har data, där y = inkomst och X har två kolumner för utbildningsnivå och arbetslivserfarenhet. 

# Estimating a simple linear regression model.

In [70]:
X = np.array([[5, 2], [3, 4], [2, 7], [0, 10]])
y = np.array([34000, 31000, 33000, 28000])

X_new = np.array([[2, 5], [1, 3]])

In [71]:
print(X)

print()

print(y)

[[ 5  2]
 [ 3  4]
 [ 2  7]
 [ 0 10]]

[34000 31000 33000 28000]


In [72]:
# 1. Initialize the model. 
model=LinearRegression()

In [73]:
# 2. Fit the model. 
model.fit(X,y)

LinearRegression()

In [74]:
# 3. Predicting the train data.
y_pred=model.predict(X)
print(y)


[34000 31000 33000 28000]


In [76]:
# Predicting "new data" (X_new) where we want to predict the salary y which in reality is unknow now. 
# Use the data in X_new.
model.predict(X_new)


array([28774.19354839, 22629.03225806])

In [77]:
# Look at parameters (called attributes in scikit-learn). 
# Look at intercept_ and coef_ .
print(model.coef_)
print(model.intercept_)

[3370.96774194 1387.09677419]
15096.774193548405


In [78]:
15096.77+3370.96*2+1387.09*5

28774.140000000003

In [79]:
# Look at hyperparameters by using the get_params() method. In this case we used default values for all hyperparameters.

In [80]:
model.get_params()

{'copy_X': True,
 'fit_intercept': True,
 'n_jobs': None,
 'normalize': 'deprecated',
 'positive': False}

## Calculate Root Mean Squared Error (RMSE) for the training data

In [81]:
# Hyperparameter squared=False gives the root mean squared error. 
# https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html 

rmse = mean_squared_error(y,y_pred,squared=False)
print(rmse)

952.50095250143


In [84]:
# Calulating the root mean squared error manually if you have time. 
rmse = np.sqrt(np.mean(np.square(y_pred - y)))
rmse

952.50095250143


### Vad är RMSE?

RMSE står för Root Mean Squared Error.\
Det är ett mått för att utvärdera regressionsproblem och mäter prediktionernas medelavstånd från de äkta, observerade värdena.

Matematiska formeln för RMSE är:

$RMSE = \sqrt{\frac{1} {n} \sum_{i=1}^{n}(\hat{y}_i-y_i)^2}$

Idén bakom RMSE är simpel:
- Man tar skillnaden mellan en prediktion och respektive observerad värde: $\hat{y}_i-y_i$;    Det kallas för __Error__.
- Vi bryr oss inte om det är en positiv eller negativ skillnad, därför kvadrerar vi: $(\hat{y}_i-y_i)^2$;   Det kallas för __Squared Error__.
- Vi räknar ut medelvärdet för Squared Error: $\frac{1} {n} \sum_{i=1}^{n}(\hat{y}_i-y_i)^2$;    Det kallas för __Mean Squared Error__.
- Vi tar roten ur Mean Squared Error, så måttet är på det samma skala som datan och därför lättare att tolka: $\sqrt{\frac{1} {n} \sum_{i=1}^{n}(\hat{y}_i-y_i)^2}$