Masinsko ucenje
Tipovi masinskog ucenja:
- Nadgledano ucenje - imamo podatke gde unapred znamo tacan odgovor
  - Regresija: Kada je tacan odgovor koji predvidjamo broj (broj stranica knjige, cena, temperatura,..)
  - Klasifikacija: Kada je tacan odgovor kategorija (marke automobila, da li je email spam, da li ce korisnik kupiti proizvod,..)
- Nendgledano ucenje - nemamo tacne odgovore nego pustimo masinu da sama pronadje neke strukture ili grupe u podacima, npr grupise korisnike u grupe

Proces masinskog ucenja:
1. Priprema podataka i odabir karakteristika koje su nam bitne za ucenje - biramo kolone koje su nam od znacaja za ucenje
2. Podela podataka - Delimo podatke na skup za trening(80%) i skup za testiranje(20%), bitno je da su podaci za testiranje nevidjeni podaci, znaci da se ne koriste u toku treniranja
3. Izbor i trening modela: Biramo algoritam (npr. Linearna Regresija) i ucimo ga na trening podacima
4. Evaluacija modela: Testiramo model na testim podacima koje nikad nije video
5. Poboljsanje modela: Ponavljamo proces sa ciljem poboljsanja tacnosti

In [1]:
import sys
!{sys.executable} -m pip install scikit-learn



In [18]:
import pandas
import sqlite3
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics
import matplotlib.pyplot as plt
import seaborn

conn = sqlite3.connect('knjige_db.db')
query = """
select
    k.naslov as naslov_knjige,
    k.godina_izdavanja,
    k.broj_strana,
    a.ime as ime_autora,
    a.godina_rodjenja,
    a.id as id_autora
from
    knjige k
join 
    autori a on k.autor = a.ime
"""
df = pandas.read_sql_query(query, conn)
conn.close()

df.dropna(subset=['godina_izdavanja', 'broj_strana', 'godina_rodjenja'], inplace=True)
df['godina_izdavanja'] = df['godina_izdavanja'].astype(int)
df['broj_strana'] = df['broj_strana'].astype(int)
df['godina_rodjenja'] = df['godina_rodjenja'].astype(int)

features = ['godina_izdavanja', 'godina_rodjenja']
target = 'broj_strana'

X = df[features]
Y = df[target]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

model = LinearRegression()

model.fit(X_train, Y_train)

Y_pred = model.predict(X_test)

compare_df = pandas.DataFrame({'Stvarna vrednost: ': Y_test, 'Predvidjena vrednost: ': Y_pred})
display(compare_df)

mae = metrics.mean_absolute_error(Y_test, Y_pred)
r2 = metrics.r2_score(Y_test, Y_pred)

print(mae)
print(r2)

Unnamed: 0,Stvarna vrednost:,Predvidjena vrednost:
10,680,688.061066
12,590,580.831974
18,540,499.317665
23,650,694.808316
20,400,418.620079


24.267964343250423
0.9145731635859131


In [64]:
import pandas
import sqlite3
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
import seaborn

conn = sqlite3.connect('knjige_db.db')
query = """
select
    k.naslov as naslov_knjige,
    k.godina_izdavanja,
    k.broj_strana,
    k.jezik,
    a.ime as ime_autora,
    a.godina_rodjenja,
    a.id as id_autora
from
    knjige k
join 
    autori a on k.autor = a.ime
"""
df = pandas.read_sql_query(query, conn)
conn.close()

df.dropna(subset=['godina_izdavanja', 'broj_strana', 'godina_rodjenja'], inplace=True)
df['godina_izdavanja'] = df['godina_izdavanja'].astype(int)
df['broj_strana'] = df['broj_strana'].astype(int)
df['godina_rodjenja'] = df['godina_rodjenja'].astype(int)

df['kategorija'] = (df['godina_izdavanja'] > 1980).astype(int)

print(df['kategorija'].value_counts())

features = ['broj_strana', 'godina_rodjenja']
target = 'kategorija'

X = df[features]
Y = df[target]

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

model = LogisticRegression()

model.fit(X_train, Y_train)

Y_pred = model.predict(X_test)

Y_pred_prob = model.predict_proba(X_test)[:, 1]

compare_df = pandas.DataFrame({'Stvarna kategorija: ': Y_test, 'Predvidjena kategorija: ': Y_pred, 'Verovatnoca da je knjiga moderna: ': Y_pred_prob.round(2)})
display(compare_df)

tacnost = accuracy_score(Y_test, Y_pred)
print(tacnost)

mk = confusion_matrix(Y_test, Y_pred)
print(mk)

#[[2 1] 2 nule je pogodio, jednu je promasio
# [0 2]] 0 jedinica je promasio 2 je pogodio

display(df)

kategorija
1    14
0    11
Name: count, dtype: int64


Unnamed: 0,Stvarna kategorija:,Predvidjena kategorija:,Verovatnoca da je knjiga moderna:
15,1,1,1.0
9,1,1,1.0
2,0,0,0.0
12,1,1,0.89
21,1,1,1.0


1.0
[[1 0]
 [0 4]]


Unnamed: 0,naslov_knjige,godina_izdavanja,broj_strana,jezik,ime_autora,godina_rodjenja,id_autora,kategorija
0,Dune,1940,897,engleski,Frank Herbert,1920,OL79034A,0
1,The Hobbit,1945,764,engleski,J.R.R. Tolkien,1925,OL26320A,0
2,A Game of Thrones,1950,753,engleski,George R. R. Martin,1930,OL234664A,0
3,1984 (adaptation),1955,760,engleski,Michael Dean,1935,OL4758538A,0
4,The Ultimate Hitchhiker's Guide to the Galaxy,1960,751,engleski,Douglas Adams,1940,OL272947A,0
5,knjiga1,1965,780,nemacki,autor1,1945,11111111,0
6,knjiga2,1980,630,kineski,autor3,1955,33333333,0
7,knjiga3,2010,555,francuski,autor5,1957,55555555,1
8,knjiga4,1971,670,francuski,autor2,1950,22222222,0
9,knjiga5,2017,410,srpski,autor10,1980,10101010,1


In [84]:
import pandas
import sqlite3
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt
import seaborn

conn = sqlite3.connect('knjige_db.db')
query = """
select
    k.naslov as naslov_knjige,
    k.godina_izdavanja,
    k.broj_strana,
    k.jezik,
    a.ime as ime_autora,
    a.godina_rodjenja,
    a.id as id_autora
from
    knjige k
join 
    autori a on k.autor = a.ime
"""
df = pandas.read_sql_query(query, conn)
conn.close()

df.dropna(subset=['godina_izdavanja', 'broj_strana', 'godina_rodjenja'], inplace=True)
df['godina_izdavanja'] = df['godina_izdavanja'].astype(int)
df['broj_strana'] = df['broj_strana'].astype(int)
df['godina_rodjenja'] = df['godina_rodjenja'].astype(int)

df['kategorija'] = (df['godina_izdavanja'] > 1980).astype(int)

df_encoded = pandas.get_dummies(df, columns=['jezik'])

target = 'kategorija'
y = df_encoded[target]

display(df_encoded.head())


X = df_encoded.drop(columns=['naslov_knjige', 'ime_autora', 'id_autora', 'kategorija'])

display(X.head())

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

model = RandomForestClassifier()

model.fit(X_train, Y_train)

Y_pred = model.predict(X_test)

compare_df = pandas.DataFrame({'Stvarna kategorija: ': Y_test, 'Predvidjena kategorija: ': Y_pred})
display(compare_df)

tacnost = accuracy_score(Y_test, Y_pred)
print(tacnost)

vaznost_karakteristika = pandas.DataFrame({
    'karakteristika': X_train.columns,
    'vaznost': model.feature_importances_}).sort_values('vaznost', ascending=False)

display(vaznost_karakteristika)

Unnamed: 0,naslov_knjige,godina_izdavanja,broj_strana,ime_autora,godina_rodjenja,id_autora,kategorija,jezik_engleski,jezik_francuski,jezik_japanski,jezik_kineski,jezik_nemacki,jezik_srpski
0,Dune,1940,897,Frank Herbert,1920,OL79034A,0,True,False,False,False,False,False
1,The Hobbit,1945,764,J.R.R. Tolkien,1925,OL26320A,0,True,False,False,False,False,False
2,A Game of Thrones,1950,753,George R. R. Martin,1930,OL234664A,0,True,False,False,False,False,False
3,1984 (adaptation),1955,760,Michael Dean,1935,OL4758538A,0,True,False,False,False,False,False
4,The Ultimate Hitchhiker's Guide to the Galaxy,1960,751,Douglas Adams,1940,OL272947A,0,True,False,False,False,False,False


Unnamed: 0,godina_izdavanja,broj_strana,godina_rodjenja,jezik_engleski,jezik_francuski,jezik_japanski,jezik_kineski,jezik_nemacki,jezik_srpski
0,1940,897,1920,True,False,False,False,False,False
1,1945,764,1925,True,False,False,False,False,False
2,1950,753,1930,True,False,False,False,False,False
3,1955,760,1935,True,False,False,False,False,False
4,1960,751,1940,True,False,False,False,False,False


Unnamed: 0,Stvarna kategorija:,Predvidjena kategorija:
17,0,0
14,1,1
2,0,0
10,0,0
23,0,0


1.0


Unnamed: 0,karakteristika,vaznost
0,godina_izdavanja,0.419818
2,godina_rodjenja,0.3112
1,broj_strana,0.192871
3,jezik_engleski,0.020595
8,jezik_srpski,0.016198
5,jezik_japanski,0.011852
4,jezik_francuski,0.011567
6,jezik_kineski,0.010551
7,jezik_nemacki,0.005349
