# Progetto Machine Learning
Progetto per il corso di Machine Learning - SUPSI DTI 2020/2021.

Gruppo formato da:
* De Santi Massimo
* Aleskandar Stojkovski

## Dataset
In Portogallo la percentuale dei studenti che abbandonano la scuola tra i 18 e i 24 anni e' particolarmente alta (40%) rispetto al resto d'europa (15%).
L'obiettivo e' quello di poter prevedere possibili fallimenti in modo da offrire supporto in maniera tempestiva agli stundenti in difficolta'. Inoltre, potrebbe essere interessante capire se esistono fattori esterni che influenzano il rendimento degli studenti.

Il seguente dataset contiente i dati di due scuole superiori Portoghesi: 

| Scuola | Osservazioni |
| :-- | --- | 
| Gabriel Pereira (GP) | 772 |
| Mousinho da Silveira (MS) | 272 |

Attraverso due distinti **dataset** vengono analizzate le performance di due **materie** nell'arco del triennio di studi:

| Dataset | Materia | Osservazioni |
| :-- | :-- | --- | 
| *student-mat.csv* | Matematica | 395 |
| *student-por.csv* | Lingua Portoghese | 649 |

Tra le variabili **indipendenti** (attributi) troviamo:
- attributi demografici
- attributi sociali
- attributi relativi alla scuola

Variabili **dipendenti** (valore target):
- voti dei rispettivi anni (`G1`, `G2`, `G3`) su una scala \[0..20\]


## Descrizione Attributi

### Numerici
| i | col | description |
| --- | :- | :- |
| 3  | age        | student's age (numeric: from 15 to 22)
| 15 | failures   | number of past class failures (numeric: n if 1<=n<3, else 4)
| 30 | absences   | number of school absences (numeric: from 0 to 93)

### Semi Numerici
| i | col | description |
| --- | :- | :- |
| 7  | Medu       | mother's education (numeric: 0 - none,  1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
| 8  | Fedu       | father's education (numeric: 0 - none,  1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
| 13 | traveltime | home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)
| 14 | studytime  | weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)
| 24 | famrel     | quality of family relationships (numeric: from 1 - very bad to 5 - excellent)
| 25 | freetime   | free time after school (numeric: from 1 - very low to 5 - very high)
| 26 | goout      | going out with friends (numeric: from 1 - very low to 5 - very high)
| 27 | Dalc       | workday alcohol consumption (numeric: from 1 - very low to 5 - very high)
| 28 | Walc       | weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)
| 29 | health     | current health status (numeric: from 1 - very bad to 5 - very good)

### Categorici

| i | col | description |
| --- | :- | :- |
| 1  | school     | student's school (binary: "GP" - Gabriel Pereira or "MS" - Mousinho da Silveira)
| 2  | sex        | student's sex (binary: "F" - female or "M" - male)
| 4  | address    | student's home address type (binary: "U" - urban or "R" - rural)
| 5  | famsize    | family size (binary: "LE3" - less or equal to 3 or "GT3" - greater than 3)
| 6  | Pstatus    | parent's cohabitation status (binary: "T" - living together or "A" - apart)
| 9  | Mjob       | mother's job (nominal: "teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
| 10 | Fjob       | father's job (nominal: "teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
| 11 | reason     | reason to choose this school (nominal: close to "home", school "reputation", "course" preference or "other")
| 12 | guardian   | student's guardian (nominal: "mother", "father" or "other")
| 16 | schoolsup  | extra educational support (binary: yes or no)
| 17 | famsup     | family educational support (binary: yes or no)
| 18 | paid       | extra paid classes within the course subject (Math or Portuguese) (binary: yes or no)
| 19 | activities | extra-curricular activities (binary: yes or no)
| 20 | nursery    | attended nursery school (binary: yes or no)
| 21 | higher     | wants to take higher education (binary: yes or no)
| 22 | internet   | Internet access at home (binary: yes or no)
| 23 | romantic   | with a romantic relationship (binary: yes or no)

### Target
| i | col | description |
| --- | :- | :- |
| 31 | G1 | first period grade (numeric: from 0 to 20) |
| 31 | G2 | second period grade (numeric: from 0 to 20) |
| 32 | G3 | final grade (numeric: from 0 to 20, output target) |


## Note
* L'attributo target `G3` (Voto terzo e ultimo anno) ha una forte correlazione con gli attributi `G1` (voto primo anno) e `G2` (voto secondo anno). E' piu' difficile predire `G3` senza `G1` e `G2`, ma questa predizione e' anche piu' utile.
* Eseguendo un `group by` per attributi demografici e' possibile identificare gli studenti univoci come mostrato nel file student-merge.R

## Riferimenti

* Link dataset: https://archive.ics.uci.edu/ml/datasets/Student+Performance
* P. Cortez and A. Silva. Using Data Mining to Predict Secondary School Student Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TEChnology Conference (FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS, ISBN 978-9077381-39-7. http://www3.dsi.uminho.pt/pcortez/student.pdf

# Caricamento Dataset

In [None]:
# import libraries
import pandas as pd
import numpy as np
import math

import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
import plotly.express as px
import plotly.graph_objects as go
import seaborn as sns

from sklearn import metrics
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression 
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import cross_val_score, GridSearchCV, ParameterGrid, train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.dummy import DummyClassifier
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix

# this allows plots to appear directly in the notebook
%matplotlib inline

In [None]:
# dataset urls
base_url = "https://raw.githubusercontent.com/aleksandarstojkovski/SUPSI_Machine_Learning/main/dataset"
portuguese_dataset_url = f"{base_url}/student-por.csv"
math_dataset_url = f"{base_url}/student-mat.csv"

# dataframes
df_por = pd.read_csv(portuguese_dataset_url, sep=';')
df_math = pd.read_csv(math_dataset_url, sep=';')
df = pd.concat([df_por, df_math], ignore_index=True)

# Esplorazione dei dati

Usiamo la classe **DataFrame** per ottenere informazioni di sintesi sui dati caricati

In [None]:
#target columns
target_cols = ['G1','G2','G3']
df_target = df[target_cols]
print(f'target columns: {len(df_target.columns)}')
df_target.head()

In [None]:
#numeric columns
df_notarget = df.drop(target_cols, axis=1)
df_num = df_notarget._get_numeric_data()
print(f'numeric columns: {len(df_num.columns)}')
df_num.head()

In [None]:
# categorical columns 
df_cat = df_notarget.drop(df_num.columns, axis=1)
print(f'categorical columns: {len(df_cat.columns)}')
df_cat.head()

In [None]:
# e' possibile estrarre il numero di righe e di colonne tramite la proprieta' shape del DataFrame
num_rows, num_cols = df.shape
print(f'Numero righe: {num_rows}')
print(f'Numero colonne: {num_cols}')

In [None]:
# stampa un sommario delle features (colonne) del DataFrame: indice, nome, # valori nulli, tipo
# df.info()

In [None]:
# controllo se ci sono righe duplicate (0=falso)
df.duplicated().sum()

In [None]:
# controllo numero di valori univoci
# df.nunique()

In [None]:
# stampa un sommario statistico: dispersione e forma della distribuzione del DataFrame 
df.describe()

In [None]:
# Visualizzazione grafica della distribuzione dei valori delle features (istogrammi)
df.hist(bins=50, figsize=(20,10))
plt.show()

In [None]:
# Studenti per scuola
by_school = df['school'].value_counts().reset_index()
by_school.columns = ['school', 'students_count']
by_school

## Identificare gli studenti univoci
Anche se sono coinvolte 2 differenti scuole, le **1044** osservazioni non rappresentano studenti univoci.  
E' ragionavole pensare che alcuni studenti seguano sia il corso di Matematica che quello di Lingua Portoghese.  
Pur non avendo accesso ad un ID univoco per studente, possiamo cercare di raggruppare i dati per caratteristiche demografiche.  
Dai risultati ottenuti notiamo che ci sono **672** studenti univoci, divisi in **300** studenti che seguono una materia sola e altri **372** che seguono sia Matematica che Potroghese. 

In [None]:
len(df_por) #649 rows
len(df_math) #395 rows
len(df) #1044 total rows

#group_cols = ["school","sex","age","address","famsize","Pstatus","Medu","Fedu","Mjob","Fjob","reason","nursery","internet"]
group_cols = ["school","sex","age","address","famsize","Pstatus","Medu","Fedu","Mjob","Fjob","reason", "nursery","internet",
              "guardian", "traveltime","famrel","freetime","goout","Dalc","Walc"]
size = df.groupby(group_cols).size().reset_index() 
len(size[size[0] > 2]) #0 studenti, OK avendo 2 materie non ci aspettiamo piu' di 2 sovrapposizioni
print(f'Numero studenti totali: {len(size[size[0] >= 1])}') #672 
print(f'Numero studenti che seguono sia Matematica che Portoghese: {len(size[size[0] == 2])}') #372 
print(f'Numero studenti che seguono solo una materia: {len(size[size[0] == 1])}') #300


## Analisi caratteristiche demografiche

In [None]:
gender_count = df['sex'].value_counts().reset_index()
gender_count.columns = ['gender', 'count']
gender_count

In [None]:
def label_function(val):
    return f'{val / 100 * len(df):.0f}\n{val:.0f}%'

fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(8, 5))
df.groupby('sex').size().plot(kind='pie', autopct=label_function, ax=ax1, colors=['pink', 'royalblue'])
df.groupby('school').size().plot(kind='pie', autopct=label_function, ax=ax2)
ax1.set_ylabel('Maschi/Femmine', size=15)
ax2.set_ylabel('Scuola', size=15)
plt.tight_layout()
plt.show()


# Preprocessing dei dati

I dati contenuti nel DataFrame appena caricato non possono essere usati direttamente per l'addestramento di un modello di Machine Learning: la presenza di feature eterogenee (stringhe, interi e numeri floating point) deve essere gestita attraverso un'opportuna fase di preprocessing. Per poter addestrare un modello di Machine Learning è necessario convertire i dati del **DataFrame** in valori numerici e memorizzarli in un `ndarray`.
Le features categoriche verranno quindi convertite in numeriche, utilizzando un'encoder (**OneHotEncoder**)

In [None]:
# tutte le features non numeriche, che vanno trasformate in features numeriche
features_to_be_encoded= df_cat.columns
print(f'features_to_be_encoded: {len(features_to_be_encoded)}')

# Drop first encoded col
one_hot_encoder = OneHotEncoder(drop='first',handle_unknown='error')
#one_hot_encoder = OneHotEncoder(handle_unknown='ignore')

encoded_features = one_hot_encoder.fit_transform(df[features_to_be_encoded])
encoded_column_names = one_hot_encoder.get_feature_names(features_to_be_encoded)
one_hot_encoded_frame =  pd.DataFrame(encoded_features.toarray(), columns=encoded_column_names)
df_num_cat = df_num.join(one_hot_encoded_frame)
df_encoded = df_num_cat.join(df_target)

df_encoded.head()

# Coefficienti di correlazione

Verifichiamo se esistono eventuali correlazioni tra le diverse feature.
Come ci aspettavamo `G1`,`G2`,`G3` hanno una forte correlazione tra di loro.
Tra le altre features,`failures` (bocciature passate) e `Medu` (livello istruzione madre) potrebbero avere una certa correlazione con i voti.

In [None]:
# Calcolo dei coefficienti di correlazione tra le features
corr_matrix = df_encoded.corr().abs()
kot = corr_matrix[corr_matrix>=.15]
plt.figure(figsize=(12,8))
sns.heatmap(kot, cmap="Greens")

In [None]:
# tramite degli scatter plot verifichiamo se c'e' una relazione
# tra la feature e il target
def plot_scatter(dataframe, x_list, y):
    num_cols = 4
    num_rows = math.ceil(len(x_list)/num_cols)
    plt.figure(figsize=(15,num_rows*4))

    for i,x in enumerate(x_list, start=1):
        plt.subplot(num_rows, num_cols, i)
        plt.scatter(dataframe[x], dataframe[y])
        plt.xlabel(x)
        if i%num_cols==1:
            plt.ylabel(y)

    plt.show()

## Scelta delle feature
Per scegliere le feature da usare plottiamo degli scatter plot.
Analiziamo in ordine:
- feature sui voti
- feature numeriche
- feature categoriche

Nel primo caso e' abbastanza marcata una correlazione lineare tra `G1`,`G2` e `G3`.\
Nel secondo caso una leggerissima correlazione si potrebbe vedere nella feature `failures` e `age`.\
Nel terzo caso non si notano particolari correlazioni. L'unica feature da verificare e' `higher_yes`

In [None]:
# variabile dipendente
y_features='G3'

In [None]:
# scatter sui voti (G1,G2,G3)
plot_scatter(df_encoded, df_target.columns, 'G3')

In [None]:
# scatter feature numeriche
plot_scatter(df_encoded, df_num.columns, 'G3')

In [None]:
# scatter feature numeriche
plot_scatter(df_encoded, encoded_column_names, 'G3')

L'analisi della correlation matrix tra `G3` e le feature conferma valori molto bassi di correlazione se si escludono `G1` e `G2`.\
Le uniche feature che superano **0.2** di correlazione sono:
- `failures`
- `higher_yes`
- `Medu`

In [None]:
# la feature che vogliamo predirre è G3 
#print(len(df_num_cat.columns))

corr_sorted = df_encoded.corr().abs()[y_features].sort_values(ascending=False)
corr_sorted

top_corr = corr_sorted[1:]
print(f'top_correlation for {y_features} \n{top_corr}')


In [None]:
# le feature che vogliamo usare per predirre
#x_features=top_corr.index
x_features=['failures','higher_yes','Medu']
# usiamo Mother e Father education
indexes = [df_encoded.columns.get_loc(col) for col in x_features]
data_x = df_encoded.values[:,indexes]
data_x = data_x.astype(np.float32)

# data_y conterrà solo G3
data_y = df_encoded[y_features].values
data_y = data_y.astype(np.float32)

# Split train e test
Dividiamo il dataset in **train** (60%) e **test** (40%)

In [None]:
test_portion = 0.4
train_x, test_x, train_y, test_y = train_test_split(data_x, data_y, test_size=test_portion, random_state=1)

# Regressione
La libreria Scikit-learn mette a disposizione diversi algoritmi per la regressione. Durante questa esercitazione verrà fatto uso di LinearRegression e di RandomForestRegressor.
L'obiettivo è quello di minimizzare l'RMSE, ovvero lo scostamento tra il valore predetto e quello reale.
Nella cella seguente è fornito il codice per creare e addestrare un'istanza di LinearRegression.

In [None]:
# Addestramento di un LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(train_x, train_y)

# Ottenimento delle predizioni
train_y_predicted = lin_reg.predict(train_x)

# Calcolo del RMSE
rmse = np.sqrt(mean_squared_error(train_y, train_y_predicted))
print(f'Train RMSE: {rmse:.3f}') 

# Ottenimento delle predizioni (test) e calcolo RMSE
test_y_predicted = lin_reg.predict(test_x)
rmse = np.sqrt(mean_squared_error(test_y, test_y_predicted))
print(f'Test RMSE: {rmse:.3f}') 

print(f'R2 score: {lin_reg.score(test_x, test_y):.3f}')

In [None]:
# Calcola l'errore come scostamento delle predizioni dal valore reale
errors = np.abs(test_y - test_y_predicted) 

plt.figure(figsize=(14, 4))
plt.title("Distribuzione degli errori")
plt.hist(x = errors, bins=50)
plt.show()

# Visualizza l'andamento reale e quello predetto
plt.figure(figsize=(14, 4))
plt.title("Confronto tra valori reali e prediction")
plt.plot(test_y[0:1000], label='Real')
plt.plot(test_y_predicted[0:1000], label='Prediction')
plt.legend(bbox_to_anchor=(1.02, 1), loc='upper left', borderaxespad=0.)
plt.show()

## Conclusione sul regressore
Il dataset contiene troppe feature categoriche di conseguenza il regressore non riesce ad essere abbastanza preciso.\
Come ci aspettavamo le uniche feature usabili in questo dataset per fare una buona regressione su `G3` sono `G1` e `G2`.\
Usando le altre feature l'R2 score e' molto basso (0.142)

# Classificazione

### Aggiunta colonna artificiale per la classificazione
Proviamo ora a classificare gli alunni in **bocciati** e **promossi**.\
Introduciamo una nuova variabile dipendente `G3_category` mappando a `0` i valori di `G3<10` e a `1` quelli superiori.

In [None]:
# 0 = bocciato
# 1 = promosso
for score in df['G3']:
    if score < 10:
        g3_category = 0
    else:
        g3_category = 1
    df.loc[df['G3']==score, 'G3_category'] = g3_category
    df_encoded.loc[df['G3']==score, 'G3_category'] = g3_category

### Split train e test

In [None]:
# la feature che vogliamo predirre
y_features='G3_category'

# le feature che vogliamo usare per predirre
#x_features=['failures','higher_yes','Medu', 'studytime','Fedu','Dalc','school_MS','age','reason_reputation','address_U','Walc','internet_yes']
x_features=['failures','higher_yes','Medu']

indexes = [df_encoded.columns.get_loc(col) for col in x_features]
data_x = df_encoded.values[:,indexes]
data_x = data_x.astype(np.float32)

# data_y conterrà solo G3_category
data_y = df_encoded[y_features].values
data_y = data_y.astype(np.float32)

In [None]:
#split train e test
test_portion = 0.4
train_x, test_x, train_y, test_y = train_test_split(data_x, data_y, test_size=test_portion, random_state=1)

### Standardizzazione della scala
Per dare a tutte le feature lo stesso peso, standardizziamo i valori 

In [None]:
# normalizzo tutti i valori nel range [0, 1.0]
train_x = preprocessing.normalize(train_x, norm='l2')
test_x = preprocessing.normalize(test_x, norm='l2')
train_x
#scaler = StandardScaler()
#scaler.fit(train_x)
#train_x = scaler.transform(train_x)
#test_x = scaler.transform(test_x)

### Definizione funzioni utili per valutazione classificatore

In [None]:
# display confusion matrix
def plot_confusion_matrix(test_y, prediction):
    cmat = confusion_matrix(test_y, prediction)
    fig, ax = plt.subplots()
    sns.heatmap(pd.DataFrame(cmat), annot=True, cmap="YlGnBu" ,fmt='g')
    ax.xaxis.set_label_position("top")
    plt.tight_layout()
    plt.title('Confusion matrix', y=1.1)
    plt.ylabel('Actual label')
    plt.xlabel('Predicted label')

    print(f'TP - True Negative: {cmat[0,0]}')
    print(f'FP - False Positive: {cmat[0,1]}')
    print(f'FN - False Negative: {cmat[1,0]}')
    print(f'TP - True Positive: {cmat[1,1]}')
    print(f'Accuracy Rate: {np.divide(np.sum([cmat[0,0],cmat[1,1]]),np.sum(cmat)):.3f}')
    print(f'Misclassification Rate: {np.divide(np.sum([cmat[0,1],cmat[1,0]]),np.sum(cmat)):.3f}')

# display ROC curve
def plot_roc_curve(test_y, prediction):
    fpr, tpr, _ = metrics.roc_curve(test_y,  prediction)
    auc = metrics.roc_auc_score(test_y, prediction)

    fig = px.area(
        x=fpr, y=tpr,
        title=f'ROC Curve (AUC={auc:.4f})',
        labels=dict(x='False Positive Rate', y='True Positive Rate'),
        width=700, height=500
    )
    fig.add_shape(
        type='line', line=dict(dash='dash'),
        x0=0, x1=1, y0=0, y1=1
    )

    fig.update_yaxes(scaleanchor="x", scaleratio=1)
    fig.update_xaxes(constrain='domain')
    fig.show()
    
# plot error rate
def plot_error_rate(errors):
    plt.figure(figsize=(12, 6))
    plt.plot(range(1, 40), errors, color='red', linestyle='dashed', marker='o',
             markerfacecolor='blue', markersize=10)
    plt.title('Error Rate K Value')
    plt.xlabel('K Value')
    plt.ylabel('Mean Error')    

## Classificazione Dummy
Partiamo da un DummyClassfier per poi verificare se riusciamo a far meglio con KNN e SVM

In [None]:
clf = DummyClassifier(strategy='most_frequent')
clf.fit(train_x, train_y)
prediction = clf.predict(test_x)
# display confusion matrix
plot_confusion_matrix(test_y, prediction)
# display ROC curve for best prediction
plot_roc_curve(test_y, prediction)

### Conclusione sul classificatore Dummy
L'AUC del DummyClassifier e' 0.5 che equivale a una classificazione random.

## Classificazione con KNN

### Calcolo errori per diverse istanze di K Neighbors Neighbors Classifier
Applichiamo **KNN** con diversi valori di `K` per trovare il miglior K

In [None]:
errors = []
predictions = []

# Calculating error for K values between 1 and 40
for i in range(1, 40):
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(train_x, train_y)
    predictions.append(knn.predict(test_x))
    errors.append(np.mean(predictions[i-1] != test_y))

In [None]:
# plot error rate
plot_error_rate(errors)

### Visualizza la miglior predizione

In [None]:
idx_best = errors.index(min(errors))
best_prediction = predictions[idx_best]
print(f"Best prediction with K={idx_best + 1}")

# display confusion matrix for best prediction
plot_confusion_matrix(test_y, best_prediction)
# display ROC curve for best prediction
plot_roc_curve(test_y, best_prediction)

In [None]:
# Print out classification report and confusion matrix
print(classification_report(test_y, best_prediction))

### Conclusione sul classificatore KNN
La ROC curve mostra come il classificatore KNN (in questo caso) non dia buoni risultati, infatti l'AUC e' leggermente piu' alto 0.614 rispetto a quanto fatto dal DummyClassifier 0.5 (poco piu' di una classificazione random).

## Grid Search e Classificazione con SVM

In [None]:
from warnings import simplefilter
from sklearn.exceptions import ConvergenceWarning
simplefilter("ignore", category=ConvergenceWarning)


clf = SVC()
param_grid = [{
    'C': [1, 10, 100, 200, 300], 
    'gamma': [100, 10, 1, 0.1, 0.01, 0.001, 0.0001],
    'kernel': ['rbf', 'linear'], 
    # ATTENZIONE: poly e' molto lento, definisco un max iter
    #'kernel': ['poly'], 'max_iter': [500000], 'degree': [3],
    'class_weight': ['balanced']
}]

# Numero di fold per la Cross-validation
n_folds = 3
# Creazione di un oggetto di tipo GridSearchCV
grid_search_cv = GridSearchCV(clf, param_grid, cv=n_folds)
# Esecuzione della ricerca degli iperparametri 
grid_search_cv.fit(train_x, train_y)

best_clf = SVC(**grid_search_cv.best_params_)
best_clf.fit(train_x, train_y)
best_prediction = best_clf.predict(test_x)

print(f'Migior parametri: {grid_search_cv.best_params_}')
print(f'Miglior Accurancy: {grid_search_cv.best_score_:.3f}')
# display confusion matrix for best prediction
plot_confusion_matrix(test_y, best_prediction)

# display ROC curve for best prediction
plot_roc_curve(test_y, best_prediction)

### Conclusione sul classificatore SVM
Abbiamo applicato SVC con diversi parametri. Usando Grid Search abbiamo trovato il migliore.  
Anche in questo caso l'AUC e' un po' meglio del DummyClassfier ma il suo valore non e' altissimo 0.628

# Conclusione
I risultati di questi test hanno evidenziato come, escludendo `G1` e `G2` e usando solo dati socio-demografici, non sia possibile predire se uno studente sara' promosso o meno. 