# Progetto Machine Learning
Progetto per il corso di Machine Learning - SUPSI DTI 2020/2021.

Gruppo formato da:
* De Santi Massimo
* Aleskandar Stojkovski

## Dataset
In Portogallo la percentuale dei studenti che abbandonano la scuola tra i 18 e i 24 anni e' particolarmente alta (40%) rispetto al resto d'europa (15%).
L'obiettivo e' quello di poter prevedere possibili fallimenti in modo da offrire supporto in maniera tempestiva agli stundenti in difficolta'. Inoltre, potrebbe essere interessante capire se esistono fattori esterni che influenzano il rendimento degli studenti.

Il seguente dataset contiente i dati di due scuole superiori Portoghesi: 

| Scuola | Osservazioni |
| :-- | --- | 
| Gabriel Pereira (GP) | 772 |
| Mousinho da Silveira (MS) | 272 |

Attraverso due distinti **dataset** vengono analizzate le performance di due **materie** nell'arco del triennio di studi:

| Dataset | Materia | Osservazioni |
| :-- | :-- | --- | 
| *student-mat.csv* | Matematica | 395 |
| *student-por.csv* | Lingua Portoghese | 649 |

Tra le variabili **indipendenti** (attributi) troviamo:
- attributi demografici
- attributi sociali
- attributi relativi alla scuola

Variabili **dipendenti** (valore target):
- voti dei rispettivi anni (`G1`, `G2`, `G3`) su una scala \[0..20\]


## Descrizione Attributi

| i | col | description |
| --- | :- | :- |
| 1  | school     | student's school (binary: "GP" - Gabriel Pereira or "MS" - Mousinho da Silveira)
| 2  | sex        | student's sex (binary: "F" - female or "M" - male)
| 3  | age        | student's age (numeric: from 15 to 22)
| 4  | address    | student's home address type (binary: "U" - urban or "R" - rural)
| 5  | famsize    | family size (binary: "LE3" - less or equal to 3 or "GT3" - greater than 3)
| 6  | Pstatus    | parent's cohabitation status (binary: "T" - living together or "A" - apart)
| 7  | Medu       | mother's education (numeric: 0 - none,  1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
| 8  | Fedu       | father's education (numeric: 0 - none,  1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
| 9  | Mjob       | mother's job (nominal: "teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
| 10 | Fjob       | father's job (nominal: "teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
| 11 | reason     | reason to choose this school (nominal: close to "home", school "reputation", "course" preference or "other")
| 12 | guardian   | student's guardian (nominal: "mother", "father" or "other")
| 13 | traveltime | home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)
| 14 | studytime  | weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)
| 15 | failures   | number of past class failures (numeric: n if 1<=n<3, else 4)
| 16 | schoolsup  | extra educational support (binary: yes or no)
| 17 | famsup     | family educational support (binary: yes or no)
| 18 | paid       | extra paid classes within the course subject (Math or Portuguese) (binary: yes or no)
| 19 | activities | extra-curricular activities (binary: yes or no)
| 20 | nursery    | attended nursery school (binary: yes or no)
| 21 | higher     | wants to take higher education (binary: yes or no)
| 22 | internet   | Internet access at home (binary: yes or no)
| 23 | romantic   | with a romantic relationship (binary: yes or no)
| 24 | famrel     | quality of family relationships (numeric: from 1 - very bad to 5 - excellent)
| 25 | freetime   | free time after school (numeric: from 1 - very low to 5 - very high)
| 26 | goout      | going out with friends (numeric: from 1 - very low to 5 - very high)
| 27 | Dalc       | workday alcohol consumption (numeric: from 1 - very low to 5 - very high)
| 28 | Walc       | weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)
| 29 | health     | current health status (numeric: from 1 - very bad to 5 - very good)
| 30 | absences   | number of school absences (numeric: from 0 to 93)
| 31 | G1 | first period grade (numeric: from 0 to 20) |
| 31 | G2 | second period grade (numeric: from 0 to 20) |
| 32 | G3 | final grade (numeric: from 0 to 20, output target) |


## Note
* L'attributo target `G3` (Voto terzo e ultimo anno) ha una forte correlazione con gli attributi `G1` (voto primo anno) e `G2` (voto secondo anno). E' piu' difficile predire `G3` senza `G1` e `G2`, ma questa predizione e' anche piu' utile.
* Eseguendo un `group by` per attributi demografici e' possibile identificare gli studenti univoci come mostrato nel file student-merge.R

## Riferimenti

* Link dataset: https://archive.ics.uci.edu/ml/datasets/Student+Performance
* P. Cortez and A. Silva. Using Data Mining to Predict Secondary School Student Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TEChnology Conference (FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS, ISBN 978-9077381-39-7. http://www3.dsi.uminho.pt/pcortez/student.pdf

# Caricamento Dataset

In [None]:
# import libraries
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.formula.api as smf
import plotly.express as px
import plotly.graph_objects as go

# this allows plots to appear directly in the notebook
%matplotlib inline

In [None]:
# dataset urls
base_url = "https://raw.githubusercontent.com/aleksandarstojkovski/SUPSI_Machine_Learning/main/dataset"
portuguese_dataset_url = f"{base_url}/student-por.csv"
math_dataset_url = f"{base_url}/student-mat.csv"

# dataframes
df_por = pd.read_csv(portuguese_dataset_url, sep=';')
df_math = pd.read_csv(math_dataset_url, sep=';')
df = pd.concat([df_por, df_math], ignore_index=True)

# Esplorazione dei dati

Usiamo la classe **DataFrame** per ottenere informazioni di sintesi sui dati caricati

In [None]:
# visualizza le prime e ultime righe del DataFrame, il numero di righe e di colonne
df

In [None]:
# e' possibile estrarre il numero di righe e di colonne tramite la proprieta' shape del DataFrame
num_rows, num_cols = df.shape
print(f'Numero righe: {num_rows}')
print(f'Numero colonne: {num_cols}')

In [None]:
# stampa un sommario delle features (colonne) del DataFrame: indice, nome, # valori nulli, tipo
# df.info()

In [None]:
# controllo se ci sono righe duplicate (0=falso)
df.duplicated().sum()

In [None]:
# controllo numero di valori univoci
# df.nunique()

In [None]:
# stampa un sommario statistico: dispersione e forma della distribuzione del DataFrame 
df.describe()

In [None]:
# Visualizzazione grafica della distribuzione dei valori delle features (istogrammi)
df.hist(bins=50, figsize=(20,15))
plt.show()

In [None]:
by_school = df['school'].value_counts().reset_index()
by_school.columns = ['school', 'count']
by_school

## Identificare gli studenti univoci
Anche se sono coinvolte 2 differenti scuole, le **1044** osservazioni non rappresentano studenti univoci.  
E' ragionavole pensare che alcuni studenti seguano sia il corso di Matematica che quello di Lingua Portoghese.  
Pur non avendo accesso ad un ID univoco per studente, possiamo cercare di raggruppare i dati per caratteristiche demografiche.  
Dai risultati ottenuti notiamo che ci sono **672** studenti univoci, divisi in **300** studenti che seguono una materia sola e altri **372** che seguono sia Matematica che Potroghese. 

In [None]:
len(df_por) #649 rows
len(df_math) #395 rows
len(df) #1044 total rows

#group_cols = ["school","sex","age","address","famsize","Pstatus","Medu","Fedu","Mjob","Fjob","reason","nursery","internet"]
group_cols = ["school","sex","age","address","famsize","Pstatus","Medu","Fedu","Mjob","Fjob","reason", "nursery","internet",
              "guardian", "traveltime","famrel","freetime","goout","Dalc","Walc"]
size = df.groupby(group_cols).size().reset_index() 
len(size[size[0] > 2]) #0 studenti, OK avendo 2 materie non ci aspettiamo piu' di 2 sovrapposizioni
print(f'Numero studenti totali: {len(size[size[0] >= 1])}') #672 
print(f'Numero studenti che seguono sia Matematica che Portoghese: {len(size[size[0] == 2])}') #372 
print(f'Numero studenti che seguono solo una materia: {len(size[size[0] == 1])}') #300


## Analisi caratteristiche demografiche

In [None]:
gender_count = df['sex'].value_counts().reset_index()
gender_count.columns = ['gender', 'count']
gender_count

In [None]:
fig = px.pie(gender_count, values='count', names='gender')
fig.update_layout(
    title=dict(
        text='Gender Distribution',
        y=0.95,
        x=0.5,
        xanchor='center',
        yanchor='top'
    )
)
fig.show()
#############################
# Invertire colori!!
#############################

In [None]:
# Visualizzazione grafica della distribuzione dei valori delle features (istogrammi)
df.hist(bins=50, figsize=(20,15))
plt.show()