## Modele de clasificare

Folositi urmatoarele seturi de date:
1. [Semeion Handwritten Digit Data Set](http://archive.ics.uci.edu/ml/datasets/Semeion+Handwritten+Digit)
1. [Wireless Indoor Localization Data Set](http://archive.ics.uci.edu/ml/datasets/Wireless+Indoor+Localization)
1. [Spambase Data Set](http://archive.ics.uci.edu/ml/datasets/Spambase)
1. [Smartphone Dataset for Human Activity Recognition (HAR) in Ambient Assisted Living (AAL) Data Set ](http://archive.ics.uci.edu/ml/datasets/Smartphone+Dataset+for+Human+Activity+Recognition+%28HAR%29+in+Ambient+Assisted+Living+%28AAL%29)

plus inca doua seturi de date de clasificare alese de voi, din repository-urile specificate in Cursul 4. 

1. Daca e necesar, aplicati o metoda de missing value imputation sau eliminati inregistrarile/coloanele care au valori lipsa; documentati metoda folosita.
1. Pentru fiecare set de date aplicati 5 modele de clasificare din scikit learn. Pentru fiecare raportati: acuratete, scor F1 - a se vedea [sklearn.metrics](http://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics) folosind 5 fold cross validation. Raportati mediile rezultatelor atat pentru fold-urile de antrenare, cat si pentru cele de testare. Revedeti formele ulterioare ale acestui document pentru precizari despre: continutul rezultatelor raportate, modalitate de notare. 
1. Documentati in jupyter notebook fiecare din modelele folosite, in limba romana. Puteti face o sectiune o sectiune separata cu documentarea algoritmilor + trimitere la algoritm. 
1. Pentru fiecare model: efectuati o cautare a hiperparametrilor optimi folosind grid search si random search.

Exemple de modele de clasificare:
1. [Multi-layer Perceptron classifier](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier)
1. [KNN](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier)
1. [SVM](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC)
1. [Gaussian processes](https://scikit-learn.org/stable/modules/generated/sklearn.gaussian_process.GaussianProcessClassifier.html#sklearn.gaussian_process.GaussianProcessClassifier)
1. [RBF](https://scikit-learn.org/stable/modules/generated/sklearn.gaussian_process.kernels.RBF.html#sklearn.gaussian_process.kernels.RBF)
1. [Decision tree](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier)
1. [Random forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier)
1. [Gaussian Naive bayes](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html#sklearn.naive_bayes.GaussianNB) 

Pentru fiecare set de date raportati rezultalele obtinute de fiecare model. 

In [9]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

import sklearn 
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.metrics import f1_score
from sklearn.metrics import make_scorer
from sklearn.model_selection import GridSearchCV

# kNeighbors

In [1]:
'''
Principiul care stă la baza nearest neighbor methods este de a găsi un număr predeterminat de antrenare
la distanta cea mai apropriata noului punct, și prezice label-ul din acestea. Numărul de sampl-uri poate fi o constantă definită de utilizator
(k-cea mai apropiată învățare în vecinătate) sau variază în funcție de densitatea locală de puncte (învățarea învecinată pe rază).
Distanta poate fi, in general, orice masura metrica: distanta standard Euclideana este cea mai comuna alegere.
Metodele bazate pe vecini(Neighbors-basedmethods) sunt cunoscute ca metode non-generalizatoare in machine learning, deoarece cele
"isi amintesc"toate datele de antrenament
X and y represents our dates, k is a constant number'''
def kNeighbors(x,y,k):
    k_neighbor=KNeighborsClassifier()
    parameters = {'n_neighbors':[2,3,4],'algorithm':('ball_tree','kd_tree','brute')}
    accuracy=cross_val_score(GridSearchCV(estimator=k_neighbor,param_grid=parameters,scoring='accuracy',cv=5),x,y,cv=k,scoring='accuracy')
    f1=cross_val_score(GridSearchCV(estimator=k_neighbor,param_grid=parameters,scoring=make_scorer(f1_score,average='weighted'),cv=5),x,y,cv=5,scoring=make_scorer(f1_score,average='weighted'))
    print("Accuratete: ", accuracy.mean())
    print("F1: ",f1.mean())

In [2]:
'''MLPClassifier se antrenează în mod iterativ,  la fiecare etapă de timp derivatele parțiale ale funcției de pierdere cu privire la
parametrii modelului sunt calculați pentru a actualiza parametrii.
Acesta poate avea, de asemenea, un termen de regularizare adăugat la funcția de pierdere care micșorează parametrii modelului pentru a preveni suprapunerea.
Această implementare funcționează cu date reprezentate ca dense numpy arrays or sparse scipy arrays cu valori float.
X și y reprezintă datele noastre, k este un număr constant
'''
def mlp(x,y,k):
    mlp_classifier=MLPClassifier() 
    parameters = {'hidden_layer_sizes':[20,40,80],'activation':('identity', 'logistic', 'tanh', 'relu'),}
    accuracy=cross_val_score(GridSearchCV(estimator=mlp_classifier,param_grid=parameters,scoring='accuracy',cv=5),x,y,cv=k,scoring='accuracy')
    f1=cross_val_score(GridSearchCV(estimator=mlp_classifier,param_grid=parameters,scoring=make_scorer(f1_score,average='weighted'),cv=k),x,y,cv=k,scoring=make_scorer(f1_score,average='weighted'))
    print("Accuratete: ",accuracy.mean())
    print("F1: ",f1.mean())

In [3]:
'''
medoda ia ca intrare două array-uri: o matrice X de mărime [n_samples, n_features] care deține probele de antrenament,
și o matrice y a label-urilor de clasă (stringuri sau întregi), mărime [n_samples], k este un număr constant
Funcția de decizie SVM depinde de cateva subseturi ale datelor de formare, numite vectori de suport
Un SVM este folosit pentru a face preziceri pentru sparse data'''
def svc(x,y,k):
    svc_classifire=SVC()  
    parameters = {'C':[1,2,3,7],'kernel':('linear', 'poly', 'rbf', 'sigmoid', 'precomputed' )}
    accuracy=cross_val_score(GridSearchCV(estimator=svc_classifire,param_grid=parameters,scoring='accuracy',cv=5),x,y,cv=k,scoring='accuracy')
    f1=cross_val_score(GridSearchCV(estimator=svc_classifire,param_grid=parameters,scoring=make_scorer(f1_score,average='weighted'),cv=k),x.copy(),y.copy(),cv=k,scoring=make_scorer(f1_score,average='weighted'))
    print("Accuratete: ", accuracy.mean())
    print("F1: ",f1.mean())

In [4]:
''' Procesul Gaussian folosește învățarea lenta și  mai multe a asemănării dintre puncte (funcția kernel-ului)
pentru a prezice valoarea pentru un punct nevăzut din datele de antrenament. Predicția nu este doar o estimare pentru acest punct,
dar are, de asemenea, informații de incertitudine - este o distribuție gaussiană unidimensională (care este distribuția marginală la
 punctul respectiv).
 '''
def gauss(x,y,k):
    gaussian_classifier=GaussianProcessClassifier(max_iter_predict=50)
    accuracy=cross_val_score(gaussian_classifier,x,y,cv=k,scoring='accuracy')
    f1=cross_val_score(gaussian_classifier,x,y,cv=k,scoring=make_scorer(f1_score,average='weighted'))
    print("Accuratete: ", accuracy.mean())
    print("F1: ",f1.mean())

In [5]:
'''DecisionTreeClassifier este o clasă capabilă să efectueze clasificarea pe mai multe clase într-un set de date.
Ca și în cazul altor clasificatori, DecisionTreeClassifier are ca bază două matrice: o matrice X,
de mărime [n_samples, n_features] care dețin probele de antrenament și o matrice Y de valori întregi, mărime [n_samples],
care deține label-urile de clasă pentru probele de antrenament'''
def tree(x,y,k):
    tree_classifier=DecisionTreeClassifier()
    parameters = {'criterion':('gini','entropy')}
    accuracy=cross_val_score(GridSearchCV(estimator=tree_classifier,param_grid=parameters,scoring='accuracy',cv=5),x,y,cv=k,scoring='accuracy')
    f1=cross_val_score(GridSearchCV(estimator=tree_classifier,param_grid=parameters,scoring=make_scorer(f1_score,average='weighted'),cv=k),x,y,cv=k,scoring=make_scorer(f1_score,average='weighted'))
    print("Accuratete: ", accuracy.mean())
    print("F1: ",f1.mean())

# Handwrittein Digit Data Set

In [10]:
k=5
data_semeion= pd.read_csv('semeion.csv', header=None, sep=' ')
del data_semeion[266]
digits = data_semeion.values[:, 256:266].copy()
indices=np.where(digits==1)
indices[1]
columns = np.arange(256,266)
data_semeion.drop(data_semeion.columns[columns],axis=1, inplace=True)
data_semeion[256]=indices[1]
npdata_semeion=data_semeion.values
x=npdata_semeion[:,:-1]
y=npdata_semeion[:,-1]
kNeighbors(x,y,k)
mlp(x,y,k)
svc(x,y,k)
gauss(x,y,k)
tree(x,y,k)

KeyboardInterrupt: 

# Wireless Indoor Localization Data Set 

In [28]:
wifi_dataframe= pd.read_csv('wifi_localization.csv','\t',names=np.arange(0,8))
np_wifi=wifi_dataframe.values
wifi_dataframe.head()
x=np_wifi[:,:-1]
y=np_wifi[:,-1]
kNeighbors(x,y,k)
mlp(x,y,k)
svc(x,y,k)
gauss(x,y,k)
tree(x,y,k)

Accuratete:  0.9765
F1:  0.9764979677189622




Accuratete:  0.97
F1:  0.9699213805114992
Accuratete:  0.6679999999999999
F1:  0.6826532379244802


KeyboardInterrupt: 

# Spambase Data Set

In [None]:
spam_dataframe=pd.read_csv('spambase.csv',',',names=np.arange(0,58),index_col=False)
np_spam=spam_dataframe.values
spam_dataframe.head()

x=np_spam[:,:-1]
y=np_spam[:,-1]
kNeighbors(x,y,k)
mlp(x,y,k)
svc(x,y,k)
gauss(x,y,k)
tree(x,y,k)
f1 = f1_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)

# Smartphone Data Set

In [30]:
smart_dataframe_X=pd.read_csv('final_X_train.csv',',',header=None)
smart_dataframe_y=pd.read_csv('final_y_train.csv',',',header=None)
x=smart_dataframe_X.values
y=smart_dataframe_y.values
aux=np.squeeze(np.asarray(y))
kNeighbors(x,aux,k)
mlp(x,aux,k)
svc(x,aux,k)
gauss(x,aux,k)
tree(x,aux,k)

Accuratete:  0.7336745808042275
F1:  0.732749122852185
Accuratete:  0.8026390273910227
F1:  0.7947182810886138
Accuratete:  0.7605339062177509
F1:  0.7583409341785424
Accuratete:  0.7617137291753455
F1:  0.7606919535416752
Accuratete:  0.7049853778829303
F1:  0.695836091203273


# Glass Data Set

In [None]:
glass_dataframe=pd.read_csv('glass.csv',names=np.arange(0,11))
np_glass=glass_dataframe.values
x=np_glass[:,:-1]
y=np_glass[:,-1]
kNeighbors(x,y,k)
mlp(x,y,k)
svc(x,y,k)
gauss(x,y,k)
tree(x,y,k)

# Abalone Data Set

In [None]:
abalone=pd.read_csv('abalone.csv',names=np.arange(0,9))
#np_mushroom=mushroom.values
abalone[0]=abalone[0].replace(["M"],1)
abalone[0]=abalone[0].replace(["F"],2)
abalone[0]=abalone[0].replace(["I"],3)
np_abalone=abalone.values
abalone.head()
x=np_abalone[:,:-1]
y=np_abalone[:,-1]
kNeighbors(x,y,k)
mlp(x,y,k)
svc(x,y,k)
gauss(x,y,k)
tree(x,y,k)