<img src="vua.png">

# Logistička regresija i spremanje modela za kasniju uporabu

Za spremanje modela koristimo biblioteku **pickle** (više detalja možete pronaći na adresi https://docs.python.org/2/library/pickle.html)

Nakon što istreniramo model možemo ga pospremiti na disk, te ga učitati kad trebamo napraviti predikcije.

Koristit će mo online set podataka o dijabetesu te napraviti model korištenjem **logističke regresije** (http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html).

Informacije o podatkovnom setu možete pronaći na https://www.kaggle.com/uciml/pima-indians-diabetes-database

Prvo učitamo potrebne biblioteke

In [None]:
import pandas
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
import pickle
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

Podatke ćemo preuzeti iz direktno s interneta

In [None]:
# u varijablu url dodamo url s podacima
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# kako podaci nemaju zaglavlje u varijablu names dodamo nazive stupaca
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

df = pandas.read_csv(url, names=names)

Ulazne varijable su:
1. Number of times pregnant 
2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test 
3. Diastolic blood pressure (mm Hg) 
4. Triceps skin fold thickness (mm) 
5. 2-Hour serum insulin (mu U/ml) 
6. Body mass index (weight in kg/(height in m)^2) 
7. Diabetes pedigree function 
8. Age (years) 
9. Class variable (0 or 1) 

Ciljna varijabla je:
- **class**: oboljela od dijabetesa

In [None]:
# Upiš kod da provjeriš koliko imamo observacija u podatkovnom setu (.shape)


Pripremimo podatke za modeliranje

In [None]:
# u varijablu array zapišemo datafreme
array = df.values
array [0]

In [None]:
# u varijablu X pospremimo nezavisne varijable
X = array[:,0:8]

# u varijablu Y pospremimo ciljnu varijablu
Y = array[:,8]

In [None]:
# u varijablu test_size dodamo vrijednost koliko uzorka želimo koristiti za testiranje
test_size = 0.33

# u vatijablu seed upišemo neki broj koji će koristiti random generator za određivanje testnog uzorka
seed = 7

In [None]:
# generiramo uzorak za treniranje (učenje) i za testiranje
X_train, X_test, Y_train, Y_test = model_selection.train_test_split(X, Y, test_size=test_size, random_state=seed)

In [None]:
# treniranje modela
model = LogisticRegression(solver='liblinear')
model.fit(X_train, Y_train)

In [None]:
# provjerimo točnost modela s testnim podacima
model.score(X_test, Y_test)

In [None]:
# upišite neke vrijednosti i isprobajte model
preg = 2.
plas = 100.
pres = 70.
skin = 30.
test = 0.
mass = 32.
pedi = 0.5
age = 40
model.predict([[preg, plas, pres, skin, test, mass, pedi, age]])

Probajte mjenjati vrijednosti nezavisnih varijabli da dobijete drugačiju predikciju

### Snimanje modela

In [None]:
# pospremimo ime datoteke u koju će mo pospremiti model
filename = 'testni_model.sav'

# spremimo model u datoteku
pickle.dump(model, open(filename, 'wb'))

Sada nam je model pospremljen u datoteku *testni_model.sav*. Kasnije kada trebamo koristiti model nećemo morati ponovno trenirati model već ga jednostavno učitati iz datoteke i koristiti.

### Učitavanje modela

In [None]:
# pospremimo ime datoteke iz koje će mo učitati model
filename = 'testni_model.sav'

# učitamo model
loaded_model = pickle.load(open(filename, 'rb'))

Sada nam je model učitan u *loaded_model* pa idemo isprobati da li dobijamo isti rezultat kao i prije.

In [None]:
# kako još uvijek u memoriji imamo dio uzorka za testiranje provjerimo da li nam je koeficjen korelacije jednak (R^2)
loaded_model.score(X_test, Y_test)

In [None]:
loaded_model.predict([[preg, plas, pres, skin, test, mass, pedi, age]])

<br>
<div class="alert alert-info">
<b>Zadatak 1</b>
</div>

Napravite program koji će korištenjem podatkovng skupa iz prethodne vježbe *Oglasi.csv* napraviti model logističke regresije (prodaju morate pretvoriti u kategoričku varijablu, npr. uzmete srednju vrijednost i zapišete da li je vrijednost pojedinog zapisa veća od srednje vrijednosti) i spremite ga u datoteku *Oglasi.sav*

In [None]:
# ovdje upišite kôd koji rješava zadatak



<br>
<div class="alert alert-info">
<b>Kraj zadatka 1</b>
</div>