# ΜΕΡΟΣ Δ
________________________________________________________________

Σε αυτό το κομμάτι της εργασίας μας δίνεται ένα training dataset με 8743 δείγματα και 224 features ανά δείγμα. Γι' αυτό το σύνολο, μας δίνονται επιπλέον οι ετικέτες για κάθε δείγμα/διάνυσμα χαρακτηρηστικών (*feature vector*), επομένως έχουμε τόσες ετικέτες όσες είναι και τα δείγματά μας. Οι τιμές τους κυμαίνονται από 1,..,5, δηλαδή οι κλάσεις στις οποίες ταξινομούνται τα δείγματα είναι συνολικά 5. Έχοντας, λοιπόν, αυτό το dataset, προσπαθούμε να αναπτύξουμε έναν αλγόριθμο ταξινόμησης με όποια μέθοδο κρίνουμε ότι αποδίδει τα καλύτερα αποτελέσματα. Προκειμένου, να καταλήξουμε στο βέλτιστο μοντέλο, δοκιμάζουμε διάφορες διαδεδομένες τεχνικές εκπαίδευσης και ταξινόμησης, όπου προφανώς κάποιες εφαρμόζουν πολύ καλύτερα από κάποιες άλλες, δεδομένων των αριθμών των δειγμάτων μας και των αριθμών των διαστάσεων των feature μας.
Αφού έχουμε εκπαιδεύσει και επαληθεύσει το μοντέλο μας, στη συνέχεια το εφαρμόζουμε σε ένα νέο test dataset που αποτελείται από 6955 δείγματα και για τα οποία δεν γνωρίζουμε εκ των προτέρων την ετικέτα τους. Τέλος, εξάγουμε το διάνυσμα με τις ετικέτες που προέβλεψε το εκπαιδευμένο μοντέλο μας πάνω στα δείγματα του test dataset.

In [7]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier 
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier


data_train = pd.read_csv('datasetTV.csv', header=None) # Load the training data
data_test = pd.read_csv('datasetTest.csv', header=None) # Load the test data
X_train = data_train.iloc[:, :-1] # Get the features of the training data
y_train = data_train.iloc[:, -1] # Get the labels of the training data

# Split the training data into training and validation sets
X_train, X_test, y_train, y_test = train_test_split(X_train, y_train, test_size=0.2, random_state=42) 

Random Forest Classifier

In [8]:


RFC = RandomForestClassifier() # Create a RandomForestClassifier object

# Function to tune the model using GridSearchCV
def tune_model(model, param_grid, X_train, X_test, y_train, y_test):
    grid = GridSearchCV(model, param_grid, cv=3, n_jobs=-1) # Create a GridSearchCV object
    grid.fit(X_train, y_train) # Train the model
    y_pred = grid.predict(X_test) # Make predictions
    accuracy = accuracy_score(y_test, y_pred) # Calculate accuracy
    best_model = grid.best_estimator_ # Get the best model
    return accuracy, best_model

# Define the hyperparameter grid
param_grid = {'n_estimators':[300]} 

# Tune the model
accuracy_RFC, best_model_RFC = tune_model(RFC, param_grid, X_train, X_test, y_train, y_test)

# Print the accuracy and the best model
print("Best accuracy: ", accuracy_RFC, "\nBest model: ", best_model_RFC)


Best accuracy:  0.8147512864493996 
Best model:  RandomForestClassifier(n_estimators=300)


Naive Bayes Classifier (Gaussian PDF)

In [9]:

GNB = GaussianNB() # Create a GaussianNB object

# Define the hyperparameter grid

param_grid = {}
accuracy, best_model = tune_model(GNB, param_grid, X_train, X_test, y_train, y_test)
print("Best accuracy: ", accuracy, "\nBest model: ", best_model)


Best accuracy:  0.6986849628359062 
Best model:  GaussianNB()


K-NN Classifier

In [10]:

KNN = KNeighborsClassifier()

# Define the hyperparameter grid

param_grid = {'n_neighbors': [14], 'algorithm': ['auto'], 'weights': ['distance'],'p': [1]}
accuracy, best_model = tune_model(KNN, param_grid, X_train, X_test, y_train, y_test)
print("Best accuracy: ", accuracy, "\nBest model: ", best_model)


Best accuracy:  0.8416237850200115 
Best model:  KNeighborsClassifier(n_neighbors=14, p=1, weights='distance')


Suppport Vector Classifier

In [11]:

SVC = SVC() # Create SVC Classifier

# Define the hyperparameter grid
param_grid = {'C': [10], 'gamma': [0.01], 'kernel': ['poly'], 'class_weight': ['balanced']}

# Tune the model
accuracy_SVC, best_model_SVC = tune_model(SVC, param_grid, X_train, X_test, y_train, y_test)

# Print the accuracy and the best model
print("Best accuracy: ", accuracy_SVC, "\nBest model: ", best_model_SVC)

Best accuracy:  0.8650657518582047 
Best model:  SVC(C=10, class_weight='balanced', gamma=0.01, kernel='poly')


MLP Classifier

In [12]:

MLP = MLPClassifier(random_state=1) # Create MLP Classifier


# Define the hyperparameter grid
param_grid = {
    'hidden_layer_sizes': [(400,36)]
    }

# Tune the model
best_accuracy_MLP, best_model_MLP = tune_model(MLP, param_grid, X_train, X_test, y_train, y_test)

# Print the accuracy and the best model
print("Best accuracy: ", best_accuracy_MLP, "\nBest model: ", best_model_MLP)


Best accuracy:  0.8502001143510578 
Best model:  MLPClassifier(hidden_layer_sizes=(400, 36), random_state=1)
