# Progetto di  Applicazioni Data Intensive

Progetto svolto nell'anno accademico 2024-2025 da:
- Filippo Massari 00010714020
- Francesco Pazzaglia 0001077423

## Introduzione
I dati presi in esame riguardano lo stile di vita di circa 80.000 studenti includendo dati come: l'ambiente di studio, la salute mentale, background familiare, motivazione e fattori ambientali.

Il dataset è stato preso su [Kaggle](https://www.kaggle.com/datasets/aryan208/student-habits-and-academic-performance-dataset).

Ci poniamo come obiettivo quello di sfruttare i dati precedentemente descritti per ricavarne una predizione delle performance studentesche del soggetto preso in analisi. 

## Implementazione

### Caricamento delle librerie

Per prima cosa importiamo le librerie che ci serviranno per poter manipolare ed effettuare operazioni sui dati ottenuti all'interno del dataset. Tra cui:

- *NumPy* per l'elaborazione numerica in Python di array e matrici;

- *pandas* per l'importazione ed esportazione dei dati;

- *matplotlib* per la rappresentazione grafica dei risultati ottenuti;
    - importiamo il modulo di matplotlib inline per far in modo che gli output vengano renderizzati direttamente nel file Jupyter piuttosto che all'esterno
- *IPython.display* funzione utile per printare elementi in Jupyter Notebook poiché gestisce la visualizzazione di DataFrames in un formato tabellare preciso;

In [47]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import display

%matplotlib inline

### Caricamento dei dati

Carichiamo il dataset delle abitudini degli studenti.

In [48]:
import os.path
file = "./data/enhanced_student_habits_performance_dataset.csv"
if not os.path.exists(file):
    print("Missing datasets, retrievit from kaggle: https://www.kaggle.com/datasets/aryan208/student-habits-and-academic-performance-dataset")
    
students = pd.read_csv(file, index_col=0)

### Significato delle colonne del Dataset

TODO: SISTEMARE I CAMPI (NON TUTTI SONO PRESENTI)

| Variabile                         | Descrizione                                                                                             |
|:----------------------------------|:--------------------------------------------------------------------------------------------------------|
| **student_id**                    | Identificativo univoco dello studente                                                                   |
| **age**                           | Età dello studente (16–28 anni)                                                                         |
| **gender**                        | Genere: Maschile, Femminile o Altro                                                                     |
| **major**                         | Corso di laurea o area di studio (es. Informatica, Ingegneria, Arti)                                    |
| **study_hours_per_day**           | Ore medie di studio giornaliere                                                                        |
| **social_media_hours**            | Ore trascorse sui social media                                                                          |
| **netflix_hours**                 | Ore trascorse a guardare Netflix                                                                        |
| **screen_time**                   | Tempo complessivo trascorso davanti agli schermi                                                         |
| **part_time_job**                 | Se lo studente ha un lavoro part-time (Sì/No)                                                           |
| **attendance_percentage**         | Percentuale di frequenza alle lezioni                                                                   |
| **sleep_hours**                   | Ore di sonno giornaliere                                                                               |
| **exercise_frequency**            | Frequenza dell’attività fisica                                                                           |
| **diet_quality**                  | Qualità della dieta                                                                                     |
| **mental_health_rating**          | Valutazione dello stato di salute mentale (1–10)                                                        |
| **stress_level**                  | Livello di stress (1–10)                                                                                 |
| **exam_anxiety_score**            | Punteggio di ansia da esame (1–10)                                                                      |
| **extracurricular_participation** | Partecipazione ad attività extracurriculari                                                             |
| **access_to_tutoring**            | Accesso a servizi di tutoraggio                                                                         |
| **family_income_range**           | Fascia di reddito familiare                                                                             |
| **parental_support_level**        | Livello di supporto da parte dei genitori                                                               |
| **parental_education_level**      | Livello di istruzione dei genitori                                                                      |
| **motivation_level**              | Livello di motivazione (1–10)                                                                           |
| **time_management_score**         | Punteggio di capacità di gestione del tempo (1–10)                                                      |
| **learning_style**                | Stile di apprendimento preferito                                                                         |
| **study_environment**             | Ambiente abituale di studio                                                                              |
| **dropout_risk**                  | Rischio di abbandono degli studi (Sì/No) — derivato da stress e motivazione                              |
| **previous_gpa**                  | Media dei voti precedenti                                                                                |
| **exam_score**                    | **Valore da predire: punteggio all’esame**                                                               |


In [49]:
students

Unnamed: 0_level_0,age,gender,major,study_hours_per_day,social_media_hours,netflix_hours,part_time_job,attendance_percentage,sleep_hours,diet_quality,...,screen_time,study_environment,access_to_tutoring,family_income_range,parental_support_level,motivation_level,exam_anxiety_score,learning_style,time_management_score,exam_score
student_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
100000,26,Male,Computer Science,7.645367,3.0,0.1,Yes,70.3,6.2,Poor,...,10.9,Co-Learning Group,Yes,High,9,7,8,Reading,3.0,100
100001,28,Male,Arts,5.700000,0.5,0.4,No,88.4,7.2,Good,...,8.3,Co-Learning Group,Yes,Low,7,2,10,Reading,6.0,99
100002,17,Male,Arts,2.400000,4.2,0.7,No,82.1,9.2,Good,...,8.0,Library,Yes,High,3,9,6,Kinesthetic,7.6,98
100003,27,Other,Psychology,3.400000,4.6,2.3,Yes,79.3,4.2,Fair,...,11.7,Co-Learning Group,Yes,Low,5,3,10,Reading,3.2,100
100004,25,Female,Business,4.700000,0.8,2.7,Yes,62.9,6.5,Good,...,9.4,Quiet Room,Yes,Medium,9,1,10,Reading,7.1,98
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
179995,16,Male,Engineering,3.700000,2.1,1.0,Yes,80.8,6.1,Fair,...,8.3,Library,No,Low,1,4,10,Auditory,5.3,88
179996,16,Female,Business,1.200000,0.4,2.9,No,99.5,4.1,Good,...,4.7,Co-Learning Group,No,Low,3,2,10,Kinesthetic,6.8,52
179997,26,Female,Arts,4.100000,1.6,1.6,Yes,46.1,8.3,Good,...,7.5,Dorm,No,Medium,7,1,10,Visual,1.3,89
179998,23,Other,Biology,3.800000,0.6,3.5,Yes,58.7,5.8,Good,...,9.3,Quiet Room,Yes,Low,2,8,7,Kinesthetic,3.7,96


In [50]:
students.info(verbose=False, memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
Index: 80000 entries, 100000 to 179999
Columns: 30 entries, age to exam_score
dtypes: float64(10), int64(8), object(12)
memory usage: 68.4 MB


Definiamo l’elenco delle colonne da trattare come categorical e al caricamento ne specifichiamo il tipo. Andiamo infine a ricalcolare la dimensione del file costatando una netta diminuzione dello spazio occupato rispetto all'originale.

In [51]:
cols_to_cat = [
    'gender', 'major', 'part_time_job', 'diet_quality',
    'study_environment', 'access_to_tutoring',
    'family_income_range', 'parental_support_level',
    'parental_education_level', 'learning_style'
]

dtype = {col: 'category' for col in cols_to_cat}
students = pd.read_csv(file, dtype=dtype)

for col in cols_to_cat:
    students[col] = students[col].astype('category')

students.info(verbose=False, memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80000 entries, 0 to 79999
Columns: 31 entries, student_id to exam_score
dtypes: category(10), float64(10), int64(8), object(3)
memory usage: 25.5 MB


### Preparazione dati

Riteniamo che alcune colonne del dataset siano similabili per similarità dei dati forniti, quindi procediamo ad accorparle per attinenza semantica. 

TODO: screen_productivity_hours SEMBRA ESSERE ERRATO

In [52]:
students["screen_entertainment_hours"] = students["social_media_hours"] + students["netflix_hours"]
students.drop(columns=["social_media_hours", "netflix_hours"], inplace=True)
ent = students.pop("screen_entertainment_hours")
students.insert(loc=5, column="screen_entertainment_hours", value=ent)

 TODO DESCRIZIONE

In [53]:
students["screen_productivity_hours"] = students["screen_time"] - students["screen_entertainment_hours"]
prod = students.pop("screen_productivity_hours")
students.insert(loc=6, column="screen_productivity_hours", value=prod)

In [54]:
students.head(1)

Unnamed: 0,student_id,age,gender,major,study_hours_per_day,screen_entertainment_hours,screen_productivity_hours,part_time_job,attendance_percentage,sleep_hours,...,screen_time,study_environment,access_to_tutoring,family_income_range,parental_support_level,motivation_level,exam_anxiety_score,learning_style,time_management_score,exam_score
0,100000,26,Male,Computer Science,7.645367,3.1,7.8,Yes,70.3,6.2,...,10.9,Co-Learning Group,Yes,High,9,7,8,Reading,3.0,100


In [55]:
category_order = [
    "Identifiers",
    "Demographics",
    "Academic Engagement",
    "Lifestyle & Health",
    "Screen Activity",
    "Family & Socioeconomic Support",
    "Personal Skills",
    "Behavior & Preferences",
    "Outcomes"
]


category_map = {
    "student_id": "Identifiers",

    "age":       "Demographics",
    "gender":    "Demographics",
    "major":     "Demographics",

    "semester":                      "Academic Engagement",
    "study_hours_per_day":           "Academic Engagement",
    "attendance_percentage":         "Academic Engagement",
    "access_to_tutoring":            "Academic Engagement",
    "extracurricular_participation": "Academic Engagement",
    "previous_gpa":                  "Academic Engagement",


    "sleep_hours":          "Lifestyle & Health",
    "diet_quality":         "Lifestyle & Health",
    "exercise_frequency":   "Lifestyle & Health",
    "mental_health_rating": "Lifestyle & Health",
    "stress_level":         "Lifestyle & Health",
    "exam_anxiety_score":   "Lifestyle & Health",

    "screen_time":                "Screen Activity",
    "screen_productivity_hours":  "Screen Activity",
    "screen_entertainment_hours": "Screen Activity",
    "social_activity":            "Screen Activity",

    "family_income_range":      "Family & Socioeconomic Support",
    "parental_education_level": "Family & Socioeconomic Support",
    "parental_support_level":   "Family & Socioeconomic Support",
    "internet_quality":         "Family & Socioeconomic Support",
    
    
    "time_management_score": "Personal Skills",
    "motivation_level":      "Personal Skills",
    "learning_style":        "Personal Skills",

    
    "part_time_job":      "Behavior & Preferences",
    "dropout_risk":       "Behavior & Preferences",
    "study_environment":  "Behavior & Preferences",

    "exam_score":   "Outcomes"
}


In [56]:
missing_cols = [col for col in students.columns if col not in category_map]
if missing_cols:
    raise ValueError(f"The following columns are not present in category_map: {missing_cols}")

cols_sorted = sorted(
    students.columns,
    key=lambda col: category_order.index(category_map[col])
)

students = students[cols_sorted]

In [57]:
print(students.columns.tolist())

['student_id', 'age', 'gender', 'major', 'study_hours_per_day', 'attendance_percentage', 'extracurricular_participation', 'previous_gpa', 'semester', 'access_to_tutoring', 'sleep_hours', 'diet_quality', 'exercise_frequency', 'mental_health_rating', 'stress_level', 'exam_anxiety_score', 'screen_entertainment_hours', 'screen_productivity_hours', 'social_activity', 'screen_time', 'parental_education_level', 'internet_quality', 'family_income_range', 'parental_support_level', 'motivation_level', 'learning_style', 'time_management_score', 'part_time_job', 'dropout_risk', 'study_environment', 'exam_score']


### ANALISI DEI DATI


Procediamo poi a ricavare alcune statistiche descrittive sui dati degli studenti. Questo approccio raffina l'analisi visualizzando le statistiche necessarie per interpretare il rendimento accademico e le abitudini degli studenti. In particolar modo prendaimo in analisi la media, il massimo ed il miniomo dei valori presenti nelle principali colonne.


In [58]:
studentDescribed = students.describe()

rows_to_drop = ['count', 'std', '25%', '50%', '75%']
filtered_studentDescribed = studentDescribed.drop(index=rows_to_drop)

filtered_studentDescribed = filtered_studentDescribed.drop(columns=["student_id"])

segment_size = 5 

for start in range(0, len(filtered_studentDescribed.columns), segment_size):
    stop = start + segment_size
    display(filtered_studentDescribed.iloc[:, start:stop])

Unnamed: 0,age,study_hours_per_day,attendance_percentage,previous_gpa,semester
mean,22.004288,4.174388,69.967884,3.602448,4.497338
min,16.0,0.0,40.0,1.64,1.0
max,28.0,12.0,100.0,4.0,8.0


Unnamed: 0,sleep_hours,exercise_frequency,mental_health_rating,stress_level,exam_anxiety_score
mean,7.017417,3.516587,6.804107,5.012478,8.508475
min,4.0,0.0,1.0,1.0,5.0
max,12.0,7.0,10.0,10.0,10.0


Unnamed: 0,screen_entertainment_hours,screen_productivity_hours,social_activity,screen_time,motivation_level
mean,4.49912,5.173909,2.500225,9.673029,5.488525
min,0.0,-8.881784e-16,0.0,0.3,1.0
max,9.0,13.8,5.0,21.0,10.0


Unnamed: 0,time_management_score,exam_score
mean,5.499132,89.14135
min,1.0,36.0
max,10.0,100.0


- **Age**: Gli studenti hanno un'età media di circa 22 anni, con un range tra i 16 e i 28 anni, tipico di un'ampia fascia universitaria.
- **Study Hours per Day**: Il numero medio di ore di studio è 4.17, suggerendo che la maggior parte degli studenti dedica un tempo moderato allo studio giornaliero. Tuttavia, un massimo di 12 ore indicano alcuni outlier che potrebbero mettere molta enfasi sulla preparazione accademica.
- **Attendance Percentage**: La frequenza media è del 69.97%, con un minimo del 40% e massimo del 100%. Ciò indica una discreta variabilità nella partecipazione alle lezioni, cruciale per la performance accademica.
- **Previous GPA**: Con una media di 3.60, gli studenti mostrano un buon rendimento accademico precedente, evidenziato anche dal "massimo" di 4.0, il che rappresenta di solito il voto più elevato raggiungibile.
- **Semester**: La media è di 4.5, suggerendo che gli studenti si trovano per lo più a metà del loro percorso accademico, tra il primo e l'ultimo semestre.
- **Sleep Hours**: Gli studenti dormono mediamente 7 ore, che è vicino al raccomandato per la loro età. Tuttavia, alcuni studenti dormono solo 4 ore, potenzialmente influenzando negativamente la loro salute mentale e rendimento.
- **Exercise Frequency**: Con una media di 3.5, i dati indicano che gli studenti fanno esercizio regolarmente un paio di volte a settimana; il minimo di 0 segnala una totale assenza di attività fisica tra alcuni studenti.
- **Mental Health Rating e Stress Level**: La salute mentale media è valutata a 6.8 su 10, mentre il livello di stress è mediamente 5 su 10. Questo equilibrio suggerisce che, sebbene gli studenti affrontino stress, mantengono una salute mentale relativamente positiva.
- **Exam Anxiety Score**: Il livello di ansia è elevato, con una media di 8.5, indicando che gli esami sono una fonte significativa di pressione, potenzialmente impattando sulle performance.
- **Screen Entertainment e Productivity Hours**: Gli studenti passano più di 4 ore al giorno in attività di intrattenimento e poco più di 5 in attività produttive; la gestione del tempo tra intrattenimento e produttività è cruciale per la riuscita accademica.
- **Social Activity**: Con una media bassa di 2.5, l'interazione sociale può essere limitante ed è opportuno valutare se impatti sul benessere generale.
- **Motivation Level**: La motivazione media è 5.4, suggerendo che metà degli studenti potrebbe mancare di guida o interesse nei loro studi, un fattore che potrebbe ridurre l'engagement accademico complessivo.
- **Time Management Score**: In media 5.5, suggerisce che la gestione del tempo è moderata, con possibilità di miglioramento per molti studenti.