# Eugenio Tampieri

In [1]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import cross_val_score, GridSearchCV, ParameterGrid, train_test_split

import ml_utilities
import ml_visualization

In [2]:
# Scelta del dataset da utilizzare (16 o 2 features)
feature_count = 16
dataset_path = 'DBs/PenDigits/pendigits_tr.txt'  # Impostare il percorso corretto

# Caricamento del dataset
dataset_patterns, dataset_labels = ml_utilities.load_labeled_dataset_from_txt(dataset_path, feature_count)
print('Shape dataset:', dataset_patterns.shape)
print('Shape labels:', dataset_labels.shape)

Shape dataset: (442, 16)
Shape labels: (442,)


In [3]:
train_x, validation_x, train_y, validation_y = train_test_split(dataset_patterns, dataset_labels, test_size=0.40)
print('Shape training set:', train_x.shape)
print('Shape validation set:', validation_x.shape)

Shape training set: (265, 16)
Shape validation set: (177, 16)


In [4]:
clfs = [KNeighborsClassifier(), SVC(kernel="linear"), SVC(kernel="rbf")]

for clf in clfs:
    
    # Addestramento del classificatore
    # ...
    clf.fit(train_x, train_y)
    
    # Calcolo accuratezza
    print('Accuratezza sul training set: %.3f' % clf.score(train_x, train_y))
    print('Accuratezza sul validation set: %.3f' % clf.score(validation_x, validation_y))


Accuratezza sul training set: 0.853
Accuratezza sul validation set: 0.797
Accuratezza sul training set: 1.000
Accuratezza sul validation set: 0.695
Accuratezza sul training set: 0.951
Accuratezza sul validation set: 0.831


Scelgo la SVM perché mi da migliore accuratezza

In [14]:
clf = SVC()

# Creazione della griglia di iperparametri
param_grid = [{
    'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
    'C': [1,2,4,6,8,10],
    'gamma': [0.05,0.025, 'scale', 'auto', 0.5, 0.25],
    #"random_state": [98247589134],
    #"probability": [True],
    "degree": [2,3,4]
}]

# Numero di fold per la Cross-validation
n_folds = 6

# Creazione di un oggetto di tipo GridSearchCV
grid_search_cv = GridSearchCV(clf, param_grid, cv=n_folds, n_jobs=-1)

# Esecuzione della ricerca degli iperparametri 
grid_search_cv.fit(dataset_patterns, dataset_labels)

# Stampa risultati
print('Combinazioni di parametri:\n', grid_search_cv.cv_results_['params'])
print('Accuratezza media per combinazione:\n', grid_search_cv.cv_results_['mean_test_score'])
print('Combinazione migliore:\n', grid_search_cv.best_params_)
print('Accuratezza media della combinazione migliore: %.3f' % grid_search_cv.best_score_)


Combinazioni di parametri:
 [{'C': 1, 'degree': 2, 'gamma': 0.05, 'kernel': 'linear'}, {'C': 1, 'degree': 2, 'gamma': 0.05, 'kernel': 'poly'}, {'C': 1, 'degree': 2, 'gamma': 0.05, 'kernel': 'rbf'}, {'C': 1, 'degree': 2, 'gamma': 0.05, 'kernel': 'sigmoid'}, {'C': 1, 'degree': 2, 'gamma': 0.025, 'kernel': 'linear'}, {'C': 1, 'degree': 2, 'gamma': 0.025, 'kernel': 'poly'}, {'C': 1, 'degree': 2, 'gamma': 0.025, 'kernel': 'rbf'}, {'C': 1, 'degree': 2, 'gamma': 0.025, 'kernel': 'sigmoid'}, {'C': 1, 'degree': 2, 'gamma': 'scale', 'kernel': 'linear'}, {'C': 1, 'degree': 2, 'gamma': 'scale', 'kernel': 'poly'}, {'C': 1, 'degree': 2, 'gamma': 'scale', 'kernel': 'rbf'}, {'C': 1, 'degree': 2, 'gamma': 'scale', 'kernel': 'sigmoid'}, {'C': 1, 'degree': 2, 'gamma': 'auto', 'kernel': 'linear'}, {'C': 1, 'degree': 2, 'gamma': 'auto', 'kernel': 'poly'}, {'C': 1, 'degree': 2, 'gamma': 'auto', 'kernel': 'rbf'}, {'C': 1, 'degree': 2, 'gamma': 'auto', 'kernel': 'sigmoid'}, {'C': 1, 'degree': 2, 'gamma': 0.5,

In [15]:
result_path = 'Es3Predictions.txt'

# Caricamento del dataset
feature_count = 16
test_path = 'DBs/PenDigits/pendigits_te.txt'

test_x = ml_utilities.load_unlabeled_dataset_from_txt(test_path, feature_count)

# Creazione del classificatore
clf = SVC(**grid_search_cv.best_params_)

# Addestramento del classificatore
clf.fit(dataset_patterns, dataset_labels)

# Calcolo delle prediction
predictions = clf.predict(test_x)

# Salvataggio delle prediction
with open(result_path, "w") as f:
    for prediction in predictions:
        f.write(str(int(prediction)) + '\n')
print('Salvataggio delle prediction riuscito')

Salvataggio delle prediction riuscito
