# Linearna regresije

## Skup podataka auto-mpg.csv
mpg - Miles per gallon

U skupu podataka postoji atribut `mpg` koji predstavlja
meru o tome koliko milja auto moze ici ukoliko mu se sipa 1 galon (3.785 litara)

Pokusacemo da predvidjamo `mpg' uz pomoc ostalih atributa koristeci linearnu regresiju.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

In [2]:
# Ucitavamo podatke koristeci funkciju 'read_csv' koja nam vraca
# pandas okvir podataka (eng. dataframe).
df = pd.read_csv('data/auto-mpg.csv')

# Prikazujemo mali podskup podataka kako bi stekli osecaj sa cime radimo.
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model-year
0,18.0,8,307.0,130.0,3504,12.0,70
1,15.0,8,350.0,165.0,3693,11.5,70
2,18.0,8,318.0,150.0,3436,11.0,70
3,16.0,8,304.0,150.0,3433,12.0,70
4,17.0,8,302.0,140.0,3449,10.5,70


Nasi imaju sledece atribute:
- mpg
- cylinders
- displacement
- horsepower
- weight
- acceleration
- model-year

In [3]:
# Za slucaj da postoje neke nepoznate vrednosti u podacima, uklanjamo te podatke.
df = df.replace('?', np.nan)
df = df.dropna()

In [4]:
# Delimo podatke na trening i test skup
X = df.drop('mpg', axis=1)          # mpg izostavljamo jer nam predstavlja ciljnu promenljivu
y = df[['mpg']]

Funkcija `train_test_split` vrsi podelu skupu podataka na trening i test u zavisnosti
od prosledjenog odnosa `test_size`. U nasem slucaju, 25% podataka ce biti uzeto kao
test skup, a ostakak (75%) kao trening.

In [5]:
# Funkcija 'train_test_split' vrsi podelu skupu podataka na trening i test u zavisnosti
# od prosledjenog odnosa 'test_size'. U nasem slucaju, 25% podataka ce biti uzeto kao
# test skup, a ostakak (75%) kao trening.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [6]:
# Konstruisemo linearnu regresiju i obucavamo model.
reg = LinearRegression()
reg.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [7]:
print('Slobodan clan je {}\n'.format(reg.intercept_[0]))
for idx, col_name in enumerate(X_train.columns):
    print('Koeficijent za {} je {}'.format(col_name, reg.coef_[0][idx]))

Slobodan clan je -13.824169113397183

Koeficijent za cylinders je -0.23813015571486368
Koeficijent za displacement je 0.0016839033825601282
Koeficijent za horsepower je -0.0002501905818827994
Koeficijent za weight je -0.006621560986020141
Koeficijent za acceleration je 0.01027366982750994
Koeficijent za model-year je 0.7625231149758142


In [8]:
# Izracunavamo R^2 metriku
r2_test = reg.score(X_test, y_test)
r2_train = reg.score(X_train, y_train)
print('\nR^2 test = {}'.format(r2_test))
print('R^2 train = {}'.format(r2_train))

# Drugi nacin
# r2_test = r2_score(y_test, reg.predict(X_test))
# r2_train = r2_score(y_train, reg.predict(X_train))


R^2 test = 0.7757849559316721
R^2 train = 0.8134917530842111


In [9]:
# Izracunavamo srednje-kvadratnu gresku
mse_test = mean_squared_error(y_test, reg.predict(X_test))
mse_train = mean_squared_error(y_train, reg.predict(X_train))
print('\nMSE test = {}'.format(mse_test))
print('MSE train = {}'.format(mse_train))


MSE test = 11.054880997716936
MSE train = 12.041212192734282


In [10]:
# Za koliko milja gresimo prosecno?
# Izracunacaemo koren srednjekvadratne greske kako bi se vratili u red velicine ciljne promenljive.
rmse_test = np.sqrt(mse_test)
rmse_train = np.sqrt(mse_train)
print('\nRMSE test = {}'.format(rmse_test))
print('RMSE train = {}'.format(rmse_train))


RMSE test = 3.3248881180750933
RMSE train = 3.470044984252262
