## First program where I  will be using different types of classifiers in order to predict unknown datapoints.



In [1]:
# Import numpy and the classifiers that we are going to use.

import numpy as np

from sklearn.naive_bayes import GaussianNB    # importo GaussianNB dal modulo sklearn
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import linear_model  # not a classifier, but interesting to compare outputs

In [2]:
# Create the training dataset (X, y) as well as the test set X "punti_sconosciuti"

X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])   # training features
y = np.array([1, 1, 1, 2, 2, 2])    # trainig labels

punti_sconosciuti = [[-0.8, -1],[-0.4, -0.5],[2, 2.6]]

#### Gaussian Naive Bayes Classifier

In [3]:
clf = GaussianNB()  # uso GaussianNB per creare il classifier clf
clf.fit(X, y)  # dò in pasto i training sets al classifier, ed esso impara i patterns

# creiamo il vettore di predizioni "pred" usando la funzione "predict" sul clf, con cui passiamo le features da testare
pred = clf.predict(punti_sconosciuti) 

print("\n1) Using Naive Bayes Model is " + str(pred))


1) Using Naive Bayes Model is [1 1 2]


In [4]:
'''
Method 'partial_fit' is used do make incremental fit on a batch of samples.
This method is expected to be called several times consecutively on different chunks of a dataset 
so as to implement out-of-core or online learning.
This is especially useful when the whole dataset is too big to fit in memory at once.
'''

clf_pf = GaussianNB()
clf_pf.partial_fit(X, y, np.unique(y))
print(clf_pf.predict([[-0.6, -0.3]]))

[1]


In [5]:
# Other predictions
print(clf.predict([[4, 4]]))
print(clf.predict([[40, 40]]))

[2]
[2]


###### Accuracy of the prediction

In [6]:
# misuriamo l'accuracy della prediction usando accuracy_score, 
# fornendo anche i label reali dei punti sconosciuti per confrontarli con la predizione

label_punti_sconosciuti = [1, 2, 2]

from sklearn.metrics import accuracy_score

# con "accuracy_score" confrontiamo pred con i valori veri dei label dei punti sconosciuti
print (accuracy_score(pred, label_punti_sconosciuti))

0.6666666666666666


In [7]:
# test dell'accuracy "terra terra" con ciclo for

numero_elementi = len(label_punti_sconosciuti)

a=0
for i in range(numero_elementi):
    a = a+(label_punti_sconosciuti[i] == pred[i])

accuracy = a/numero_elementi

print(accuracy)

0.6666666666666666


#### Decision Tree Classifier

In [8]:
# Then we fit the training data and predict in this style: {Decision Tree Model}
dtc = DecisionTreeClassifier()
dtc = clf.fit(X,y)
print("\n2) Using Decision Tree Prediction is " + str(dtc.predict(punti_sconosciuti)))


2) Using Decision Tree Prediction is [1 1 2]


#### K Nearest Neighbors Classifier

In [9]:
#{KN Neighbors Classifier}
knn = KNeighborsClassifier()
knn.fit(X,y)
print("3) Using K Neighbors Classifier Prediction is " + str(knn.predict(punti_sconosciuti)))

3) Using K Neighbors Classifier Prediction is [1 1 2]


#### MLP Classifier

In [10]:
#{using MLPClassifier}
mlpc = MLPClassifier()
mlpc.fit(X,y)
print("4) Using MLPC Classifier Prediction is " + str(mlpc.predict(punti_sconosciuti)))

4) Using MLPC Classifier Prediction is [1 1 2]




#### Random Forest Classifier

In [11]:
#{using Random Forest}
rfor = RandomForestClassifier()
rfor.fit(X,y)
print("5) Using RandomForestClassifier Prediction is " + str(rfor.predict(punti_sconosciuti)) +"\n")

5) Using RandomForestClassifier Prediction is [1 1 2]



#### Linear Regression

In [16]:
# (not a classifier, but interesting to compare outputs)
# Usando la regressione lineave avrò però delle predizioni continue e non categoriche (quindi non sarà 1 o 2)
lr = linear_model.LinearRegression()
lr.fit(X, y)
print("6) Using Linear Regression Prediction is " + str(lr.predict(punti_sconosciuti)) +"\n")

6) Using Linear Regression Prediction is [1.16666667 1.33333333 2.36666667]



#### We can also use the train_test_split method to authomatize the break of the dataset in training and test pieces

In [54]:
from sklearn.model_selection import train_test_split

# We start with training data. In this example we have a set of vectors (height, weight, shoe size) and the class 
XX = [[190,70,44],[166,65,45],[190,90,47],[175,64,39],[171,75,40],[177,80,42],[160,60,38],[144,54,37]]
yy = ['male','male','male','male','female','female','female','female']


X_train, X_test, y_train, y_test = train_test_split(XX, yy, test_size=0.2)

print(X_test, y_test)   # datapoint che andremo a far predire al modello

c = GaussianNB()  # uso GaussianNB per creare il classifier clf
clf.fit(X_train, y_train)  # dò in pasto i training sets al classifier, ed esso impara i patterns

# creiamo il vettore di predizioni "prediction" usando la funzione "predict" sul clf, con cui passiamo le features da testare
prediction = clf.predict(X_test) 

print(prediction) # presizione del modello

print(accuracy_score(prediction, y_test))  # accuracy della predizione

[[190, 70, 44], [166, 65, 45]] ['male', 'male']
['male' 'male']
1.0


#### Misurare l'accurcy con medoto cross validation
##### Si tratta di dividere il dataset in k parti, e a iterazione si traina il modello su k-1 parti e lo si testa sulla parte non usata nel training, e a iterazione si usa ogni singola parte per il test (quindi se k = 10 si divide dataset in 10 parti, si traina il modello sulle prime 9 e si testa sulla decima, poi si traina il dataset sulle parti dalla 1 alla 8 + la 10 e si testa sulla parte 9, e così via). Per grandi datasets si consiglia k = 3

In [64]:
from sklearn.model_selection import cross_val_score

print(cross_val_score(clf, XX, yy, cv=4))
print(cross_val_score(clf, XX, yy, cv=4).mean())

[1.  0.5 0.5 0.5]
0.625
