# Exploratory Data Analysis (EDA) sul dataset dell'Obesità
## 1)  DATA LOADING & CLEANING
Lo scopo della prima sezione è quello di effettuare una pulizia sui dati presenti nel dataset una volta caricati
### 1.1) Data Loading
Il primo passo consiste nell'importazione delle librerie necessarie al corretto funzionamento del codice

In [1]:
import os
os.environ["OMP_NUM_THREADS"] = "9" 

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score 

Partiamo adesso caricando il dataset e mostrando le prime righe:

In [2]:
dataset = pd.read_csv("Obesity.csv")
display(dataset.head())

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,NObeyesdad
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


Mostriamo per ogni variabile presente il suo nome e le suddividiamo in base alla loro tipologia

In [3]:
display(dataset.dtypes)

Gender                             object
Age                               float64
Height                            float64
Weight                            float64
family_history_with_overweight     object
FAVC                               object
FCVC                              float64
NCP                               float64
CAEC                               object
SMOKE                              object
CH2O                              float64
SCC                                object
FAF                               float64
TUE                               float64
CALC                               object
MTRANS                             object
NObeyesdad                         object
dtype: object

In [4]:
var_numeriche = dataset.select_dtypes(include=["int64", "float64"]).columns
var_categoriche = dataset.select_dtypes(exclude=["int64", "float64"]).columns
print("\033[1m" + f"\n Variabili numeriche: {list(var_numeriche)} \n")
print("\033[1m" + f"\n Variabili categoriche: {list(var_categoriche)} \n")

[1m
 Variabili numeriche: ['Age', 'Height', 'Weight', 'FCVC', 'NCP', 'CH2O', 'FAF', 'TUE'] 

[1m
 Variabili categoriche: ['Gender', 'family_history_with_overweight', 'FAVC', 'CAEC', 'SMOKE', 'SCC', 'CALC', 'MTRANS', 'NObeyesdad'] 



Possiamo ulteriormente suddividere le variabili categoriche in **Nominali** e **Ordinali**: <br><br>
**NOMINALI**
1. Gender (Male/Female)

2. family_history_with_overweight (yes/no)

3. High_Caloric_Food (yes/no)

4. SMOKE (yes/no)

5. Calorie_Monitoring (yes/no)

6. Transport_Mode (Public_Transportation, Automobile, Walking, Motorbike, Bike) <br><br>

**ORDINALI**

1. Food_Between_Meals (no, Sometimes, Frequently, Always)

2. Alcohol_Consumption (no, Sometimes, Frequently, Always)

3. Obesity_Level (Insufficient_Weight, Normal_Weight, Overweight_Level_I, Overweight_Level_II, Obesity_Type_I, Obesity_Type_II, Obesity_Type_III) (**Variabile Target**)

### 1.2) Dimensioni del dataset
Ora visualizziamo il numero di osservazioni e di variabili presenti:

In [5]:
print("\033[1m" + f"\n Il dataset contiene {dataset.shape[0]} osservazioni e {dataset.shape[1]} variabili.\n")

[1m
 Il dataset contiene 2114 osservazioni e 17 variabili.



Per praticità, abbiamo preferito rinominare alcune delle variabili, in modo tale da facilitare le operazioni

In [6]:
dataset.rename(columns={"FAVC": "High_Caloric_Food", 
                        "FCVC": "Vegetable_Consumption", 
                        "NCP": "Main_Meals_Per_Day", 
                        "CAEC": "Food_Between_Meals", 
                        "CH2O": "Water_Intake", 
                        "SCC": "Calorie_Monitoring", 
                        "FAF": "Physical_Activity_Frequency", 
                        "TUE": "Tech_use_Time", 
                        "CALC": "Alcohol_Consumption", 
                        "MTRANS": "Transport_Mode", 
                        "NObeyesdad": "Obesity_Level",}, inplace=True)

var_numeriche = dataset.select_dtypes(include=["int64", "float64"]).columns
var_categoriche = dataset.select_dtypes(exclude=["int64", "float64"]).columns

print("\033[1m" + f"\n Variabili numeriche: {list(var_numeriche)} \n")
print("\033[1m" + f"\n Variabili categoriche: {list(var_categoriche)} \n")

[1m
 Variabili numeriche: ['Age', 'Height', 'Weight', 'Vegetable_Consumption', 'Main_Meals_Per_Day', 'Water_Intake', 'Physical_Activity_Frequency', 'Tech_use_Time'] 

[1m
 Variabili categoriche: ['Gender', 'family_history_with_overweight', 'High_Caloric_Food', 'Food_Between_Meals', 'SMOKE', 'Calorie_Monitoring', 'Alcohol_Consumption', 'Transport_Mode', 'Obesity_Level'] 



Avendo riscontrato alcune stranezze tra i valori numerici presenti nel dataset, abbiamo effettuato alcune operazioni in modo tale da rendere i dati più veritieri. <br>
Come prima cosa abbiamo fatto in modo che la variabile relativa all'altezza fosse espressa in centimentri e non in metri, per evitare errori di approssimazione. <br>
Dopodiché, abbiamo arrotondato tutti i valori numerici e mostriamo le modifiche apportatate.

In [7]:
dataset["Height"] *= 100
dataset[var_numeriche] = dataset[var_numeriche].round().astype(int)
dataset

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,High_Caloric_Food,Vegetable_Consumption,Main_Meals_Per_Day,Food_Between_Meals,SMOKE,Water_Intake,Calorie_Monitoring,Physical_Activity_Frequency,Tech_use_Time,Alcohol_Consumption,Transport_Mode,Obesity_Level
0,Female,21,162,64,yes,no,2,3,Sometimes,no,2,no,0,1,no,Public_Transportation,Normal_Weight
1,Female,21,152,56,yes,no,3,3,Sometimes,yes,3,yes,3,0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23,180,77,yes,no,2,3,Sometimes,no,2,no,2,1,Frequently,Public_Transportation,Normal_Weight
3,Male,27,180,87,no,no,3,3,Sometimes,no,2,no,2,0,Frequently,Walking,Overweight_Level_I
4,Male,22,178,90,no,no,2,1,Sometimes,no,2,no,0,0,Sometimes,Public_Transportation,Overweight_Level_II
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2109,Female,21,171,131,yes,yes,3,3,Sometimes,no,2,no,2,1,Sometimes,Public_Transportation,Obesity_Type_III
2110,Female,22,175,134,yes,yes,3,3,Sometimes,no,2,no,1,1,Sometimes,Public_Transportation,Obesity_Type_III
2111,Female,23,175,134,yes,yes,3,3,Sometimes,no,2,no,1,1,Sometimes,Public_Transportation,Obesity_Type_III
2112,Female,24,174,133,yes,yes,3,3,Sometimes,no,3,no,1,1,Sometimes,Public_Transportation,Obesity_Type_III


### 1.3) Missing Values
Verifichiamo la presenza o meno di valori mancanti all'interno dei dati per ciascuna variabile:

In [8]:
print("\033[1m" + "\nValori Mancanti per ogni variabile\n")
missing_values = dataset.isna().sum()
missing_values

[1m
Valori Mancanti per ogni variabile



Gender                            0
Age                               0
Height                            0
Weight                            0
family_history_with_overweight    0
High_Caloric_Food                 0
Vegetable_Consumption             0
Main_Meals_Per_Day                0
Food_Between_Meals                0
SMOKE                             0
Water_Intake                      0
Calorie_Monitoring                0
Physical_Activity_Frequency       0
Tech_use_Time                     0
Alcohol_Consumption               5
Transport_Mode                    0
Obesity_Level                     1
dtype: int64

In [9]:
missing_values_percent = ((missing_values/len(dataset))*100).round(2)
missing_values_table = pd.DataFrame({"Valori Mancanti": missing_values, "% del totale": missing_values_percent})
display(missing_values_table[missing_values_table["Valori Mancanti"] > 0])

Unnamed: 0,Valori Mancanti,% del totale
Alcohol_Consumption,5,0.24
Obesity_Level,1,0.05


Possiamo notare che sono presenti 5 valori mancanti relativi al consumo di alcolici ed solo 1 valore mancante riferito al livello di obesità. <br>
Vediamo a quale riga corrispondono: 

In [10]:
print("\033[1m" + "\nValori Mancanti riferiti al consumo di alcolici:\n")
dataset[dataset["Alcohol_Consumption"].isna()] 

[1m
Valori Mancanti riferiti al consumo di alcolici:



Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,High_Caloric_Food,Vegetable_Consumption,Main_Meals_Per_Day,Food_Between_Meals,SMOKE,Water_Intake,Calorie_Monitoring,Physical_Activity_Frequency,Tech_use_Time,Alcohol_Consumption,Transport_Mode,Obesity_Level
13,Male,41,180,99,no,yes,2,3,Sometimes,no,2,no,2,1,,Automobile,Obesity_Type_I
94,Female,24,160,48,no,yes,3,3,Sometimes,no,2,no,2,0,,Public_Transportation,Normal_Weight
162,Female,21,163,60,yes,yes,3,3,Always,yes,2,no,2,0,,Public_Transportation,Normal_Weight
278,Female,32,157,57,yes,yes,3,3,Sometimes,no,2,no,0,0,,Automobile,Normal_Weight
463,Male,17,180,68,yes,no,2,3,Sometimes,no,1,no,2,1,,Public_Transportation,Normal_Weight


In [11]:
print("\033[1m" + "\n Valori mancanti riferiti al livello Obesità\n")
dataset[dataset["Obesity_Level"].isna()] 

[1m
 Valori mancanti riferiti al livello Obesità



Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,High_Caloric_Food,Vegetable_Consumption,Main_Meals_Per_Day,Food_Between_Meals,SMOKE,Water_Intake,Calorie_Monitoring,Physical_Activity_Frequency,Tech_use_Time,Alcohol_Consumption,Transport_Mode,Obesity_Level
376,Female,36,158,60,yes,no,3,3,Sometimes,no,1,no,2,0,Sometimes,Automobile,


### 1.4) Gestione dei valori mancanti
Da scegliere tra due strategie: rimozione o imputazione. <br>
Nel primo caso eliminiamo tutte le righe che presentano dei valori mancanti (adatto quando ci sono pochi valori mancanti)<br>
Nel secondo caso sostituiamo i valori mancanti con un valore (es: media, mediana, ecc...) (adatto quando non si vogliono perdere dati ed è possibile stimare il valori mancanti) <br>
Per valutare quale delle due scegliere, effettuiamo un confronto tra le strategie in modo da scegliere quella più adatta:


**Confronto strategie: Rimozione vs Imputazione** <br>
L'imputazione viene effettuata solo con la moda dato che le variabili che presentano valori mancanti sono esclusivamente categoriche.

In [56]:
# Creare copie del dataset per diverse strategie
# Strategia 1: Rimozione
dataset_rimozione = dataset.dropna().copy()
    
# Strategia 2: Imputazione con moda
dataset_imputazione_moda = dataset.copy()
    
# Identificare variabili con missing values
colonne_mancanti = dataset_imputazione_moda.columns[dataset_imputazione_moda.isna().any()].tolist()
print(f"Variabili con valori mancanti: {colonne_mancanti}")
    
# Imputazione per ogni variabile categorica con missing values
for colonna in colonne_mancanti:
    if dataset_imputazione_moda[colonna].dtype == 'object':
        moda_valore = dataset_imputazione_moda[colonna].mode()[0]
        dataset_imputazione_moda[colonna] = dataset_imputazione_moda[colonna].fillna(moda_valore)
        print(f"Imputata '{colonna}' con moda: '{moda_valore}'")
        
    
# VALUTAZIONE DELLE STRATEGIE
print("\nVALUTAZIONE STRATEGIE\n")
strategie = {'Rimozione': dataset_rimozione, 'Imputazione Moda': dataset_imputazione_moda}
    
risultati = {}
for nome, df_strategia in strategie.items():
        print(f"\n--- STRATEGIA: {nome} ---")
        print(f"Dimensioni dataset: {df_strategia.shape}")
        print(f"Valori mancanti rimanenti: {df_strategia.isna().sum().sum()}")
        
        # Preparazione per modello
        X = df_strategia.drop('Obesity_Level', axis=1)
        y = df_strategia['Obesity_Level']

        # Encoding variabili categoriche per il modello
        X_encoded = X.copy()
        for col in X_encoded.select_dtypes(include=['object']).columns:
            le = LabelEncoder()
            X_encoded[col] = le.fit_transform(X_encoded[col].astype(str))
    
        # Encoding target
        le_target = LabelEncoder()
        y_encoded = le_target.fit_transform(y)
    
        # Split train-test
        X_train, X_test, y_train, y_test = train_test_split(X_encoded, y_encoded, test_size=0.3, random_state=42, stratify=y_encoded)
        
        # Addestramento modello semplice
        model = RandomForestClassifier(n_estimators=100, random_state=42)
        model.fit(X_train, y_train)
        
        # Valutazione
        y_pred = model.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        
        risultati[nome] = {
            'accuracy': accuracy,
            'dimensioni': df_strategia.shape[0],
            'n_features': df_strategia.shape[1]}
        
        print(f"\nAccuracy Random Forest: {accuracy:.4f}")
        print(f"Osservazioni utilizzate: {df_strategia.shape[0]}")
    
    
# Visualizzazione risultati comparativi
print("RIEPILOGO CONFRONTO STRATEGIE")

for strategia, metrics in risultati.items():
    print(f"\n{strategia}:")
    print(f"  • Accuracy: {metrics['accuracy']:.4f}")
    print(f"  • Osservazioni: {metrics['dimensioni']}")
    print(f"  • Features: {metrics['n_features']}")

# Raccomandazione automatica
best_strategy = max(risultati.items(), key=lambda x: x[1]['accuracy'])
print(f"\n **RACCOMANDAZIONE**: Strategia '{best_strategy[0]}' con accuracy {best_strategy[1]['accuracy']:.4f}")

Variabili con valori mancanti: ['Alcohol_Consumption', 'Obesity_Level']
Imputata 'Alcohol_Consumption' con moda: 'Sometimes'
Imputata 'Obesity_Level' con moda: 'Obesity_Type_I'

VALUTAZIONE STRATEGIE


--- STRATEGIA: Rimozione ---
Dimensioni dataset: (2108, 17)
Valori mancanti rimanenti: 0

Accuracy Random Forest: 0.9368
Osservazioni utilizzate: 2108

--- STRATEGIA: Imputazione Moda ---
Dimensioni dataset: (2114, 17)
Valori mancanti rimanenti: 0

Accuracy Random Forest: 0.9354
Osservazioni utilizzate: 2114
RIEPILOGO CONFRONTO STRATEGIE

Rimozione:
  • Accuracy: 0.9368
  • Osservazioni: 2108
  • Features: 17

Imputazione Moda:
  • Accuracy: 0.9354
  • Osservazioni: 2114
  • Features: 17

 **RACCOMANDAZIONE**: Strategia 'Rimozione' con accuracy 0.9368


In [42]:
dataset_clean = dataset.dropna()
missing_values = dataset_clean.isna().sum()
missing_values

Gender                            0
Age                               0
Height                            0
Weight                            0
family_history_with_overweight    0
High_Caloric_Food                 0
Vegetable_Consumption             0
Main_Meals_Per_Day                0
Food_Between_Meals                0
SMOKE                             0
Water_Intake                      0
Calorie_Monitoring                0
Physical_Activity_Frequency       0
Tech_use_Time                     0
Alcohol_Consumption               0
Transport_Mode                    0
Obesity_Level                     0
dtype: int64

In [48]:
print("\033[1m" + "ANALISI IMPATTO RIMOZIONE VALORI MANCANTI\n")

# Dataset originale vs pulito
original_shape = dataset.shape
clean_shape = dataset_clean.shape

print(f"Dataset originale: {original_shape[0]} osservazioni")
print(f"Dataset pulito: {clean_shape[0]} osservazioni")
print(f"Osservazioni rimosse: {original_shape[0] - clean_shape[0]} ({((original_shape[0] - clean_shape[0])/original_shape[0])*100:.2f}%)\n")

[1mANALISI IMPATTO RIMOZIONE VALORI MANCANTI

Dataset originale: 2114 osservazioni
Dataset pulito: 2108 osservazioni
Osservazioni rimosse: 6 (0.28%)



## 2) Univariate Data Description 

In [50]:
var_numeriche = dataset_clean.select_dtypes(include=["int64", "float64"]).columns
var_categoriche = dataset_clean.select_dtypes(exclude=["int64", "float64"]).columns
print("\033[1m" + f"\n Variabili numeriche: {list(var_numeriche)} \n")
print("\033[1m" + f"\n Variabili categoriche: {list(var_categoriche)} \n")

[1m
 Variabili numeriche: ['Age', 'Height', 'Weight', 'Vegetable_Consumption', 'Main_Meals_Per_Day', 'Water_Intake', 'Physical_Activity_Frequency', 'Tech_use_Time'] 

[1m
 Variabili categoriche: ['Gender', 'family_history_with_overweight', 'High_Caloric_Food', 'Food_Between_Meals', 'SMOKE', 'Calorie_Monitoring', 'Alcohol_Consumption', 'Transport_Mode', 'Obesity_Level'] 



In [None]:
print("\nDescriptive Statistic: \n")
stats = dataset_clean.describe()
stats.rename(index={'50%': 'median'}, inplace=True)
display(stats)

In [None]:
print("\n Tabelle di frequenza: \n")
for var in var_categoriche:
   
    print(dataset_clean[var].value_counts())
    print("-" * 40)
    print("\n")

In [None]:
print("\n Distribuzioni delle variabili numeriche: \n")
print("\n Istogrammi: \n")
for var in var_numeriche:
    plt.figure(figsize=(8,4))
    sns.histplot(dataset_clean[var], kde=True, bins=20)
    plt.title(f"Distribuzione di {var}")
    plt.xlabel(var)
    plt.ylabel("Frequenza")
    plt.show()

In [None]:
print("\n Boxplot: \n")
for var in var_numeriche:
    plt.figure(figsize=(5,4))
    sns.boxplot(y=dataset_clean[var])
    #plt.boxplot(dataset_clean[var].dropna(), vert=True, patch_artist=True, boxprops=dict(facecolor='lightgreen', color='black'), medianprops=dict(color='red', linewidth=2))
    plt.title(f"Boxplot di {var}")
    plt.ylabel(var)
    plt.show()

In [None]:
print("\n Distribuzioni delle variabili categoriche: \n")
for var in var_categoriche:
    plt.figure(figsize=(6,4))
    sns.countplot(x=dataset_clean[var])
    plt.title(f"Frequenza delle categorie in '{var}'")
    plt.xlabel(var)
    plt.ylabel("Conteggio")
    plt.xticks(rotation=45)
    plt.show()

In [None]:
print("\n Correlation matrix:")
corr_matrix = dataset_clean[var_numeriche].corr()
display(corr_matrix)


In [None]:
fig, ax = plt.subplots(figsize=(8,6))
cax = ax.matshow(corr_matrix, cmap="coolwarm")
fig.colorbar(cax)
ax.set_xticks(range(len(corr_matrix.columns)))
ax.set_yticks(range(len(corr_matrix.columns)))
ax.set_xticklabels(corr_matrix.columns, rotation=45, ha='left')
ax.set_yticklabels(corr_matrix.columns)
plt.title("Correlation Heatmap", pad=20)
plt.show()

In [None]:
#Scatterplot per coppie di variabili numeriche
for i, var1 in enumerate(var_numeriche):
    for var2 in var_numeriche[i+1:]:
        plt.figure(figsize=(5,4))
        plt.scatter(dataset_clean[var1], dataset_clean[var2], alpha=0.5, color='blue', edgecolors='black')
        plt.title(f"{var1} vs {var2}")
        plt.xlabel(var1)
        plt.ylabel(var2)
        plt.grid(True, linestyle='--', alpha=0.6)
        plt.show()

In [None]:
# Confronto di una variabile numerica rispetto a una categorica
# (Esempio: distribuzione dell'età per ciascun livello di obesità)
target = "Obesity_Level"  # nome della variabile target

if target in dataset_clean.columns:
    first_numvar = var_numeriche[0]  # prima variabile numerica
    categories = dataset_clean[target].unique()
    plt.figure(figsize=(15,5))
    data_to_plot = [dataset_clean[dataset_clean[target] == cat][first_numvar] for cat in categories]
    plt.boxplot(data_to_plot, tick_labels=categories, patch_artist=True,
                boxprops=dict(facecolor='blue', color='black'),
                medianprops=dict(color='red', linewidth=2))
    plt.title(f"{first_numvar} by {target}")
    plt.xlabel(target)
    plt.ylabel(first_numvar)
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.show()

In [None]:
categorical_pairs = [(var_categoriche[i], var_categoriche[j])
                     for i in range(len(var_categoriche))
                         for j in range(i+1, len(var_categoriche))]

print("\nContingency tables:")
for var1, var2 in categorical_pairs:  
    print(f"\n{var1} vs {var2}")
    display(pd.crosstab(dataset_clean[var1], dataset_clean[var2]))

## 4.1) 

In [None]:
dataset_clean = dataset_clean.copy()
bin_categoriche = ['Gender', 'family_history_with_overweight', 'High_Caloric_Food', 'SMOKE', 'Calorie_Monitoring']
label_encoders = {}

for var in bin_categoriche:
    le = LabelEncoder()
    dataset_clean[var] = le.fit_transform(dataset_clean[var])
    label_encoders[var] = le
    print(f"{var}: {dict(zip(le.classes_, le.transform(le.classes_)))}")

In [None]:
multi_categoriche = ['Transport_Mode']
dataset_clean = pd.get_dummies(dataset_clean, columns=multi_categoriche, prefix=multi_categoriche, dtype = int)

print(f"\nDimensione dopo one-hot encoding: {dataset_clean.shape}")

In [None]:
# Variabili ORDINALI (hanno un ordine naturale)
var_ordinali = {
    'Food_Between_Meals': ['no', 'Sometimes', 'Frequently', 'Always'],
    'Alcohol_Consumption': ['no', 'Sometimes', 'Frequently', 'Always']
}

for var, order in var_ordinali.items():
    dataset_clean[var] = dataset_clean[var].astype('category')
    dataset_clean[var] = dataset_clean[var].cat.set_categories(order, ordered=True)
    dataset_clean[var] = dataset_clean[var].cat.codes
dataset_clean


In [None]:
# 4. SEPARAZIONE FEATURES E TARGET
print("\nPREPARAZIONE DATI PER PCA:")
var_target = "Obesity_Level"
# Features per PCA (escludiamo la target)
features_pca = [var for var in dataset_clean.columns if var != var_target]

X = dataset_clean[features_pca]
y = dataset_clean[var_target]  # Target originale

print(f"Numero di features per PCA: {len(features_pca)}")
print(f"Shape di X: {X.shape}")

In [None]:
#Standardizziamo le var numeriche

print("\nSCALING DELLE FEATURES:")

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print("Statistiche prima dello scaling:")
print(pd.DataFrame(X, columns=features_pca).describe().loc[['mean', 'std']].round(2))
print("\n")
print("\nStatistiche dopo lo scaling:")
print(pd.DataFrame(X_scaled, columns=features_pca).describe().loc[['mean', 'std']].round(2))


In [None]:
print("\nANALISI COMPONENTI PRINCIPALI (PCA):")

# PCA per tutte le componenti
pca = PCA()
X_pca = pca.fit_transform(X_scaled)


# Analisi della varianza spiegata
explained_variance = pca.explained_variance_ratio_
cumulative_variance = np.cumsum(explained_variance)

print("Varianza spiegata per componente:")
for i, (var, cum_var) in enumerate(zip(explained_variance, cumulative_variance)):
    print(f"PC{i+1}: {var:.4f} ({cum_var:.4f} cumulativa)")

In [None]:
# Analisi dettagliata per l'80%
n_components_80 = np.argmax(cumulative_variance >= 0.80) + 1

print(f"RISULTATO PRINCIPALE:")

print(f"Per spiegare almeno l'80% della varianza servono {n_components_80} componenti principali")
print(f"Varianza cumulativa con {n_components_80} componenti: {cumulative_variance[n_components_80-1]:.3%}")

loadings = pca.components_.T * np.sqrt(pca.explained_variance_)
feature_names = dataset_clean.columns.tolist()
obesity_categories = dataset_clean["Obesity_Level"]

plt.figure(figsize=(10, 6))
plt.plot(range(1, len(cumulative_variance) + 1), cumulative_variance, 'bo-')
plt.axhline(y=0.80, color='r', linestyle='--', label='80% varianza')
plt.axvline(x=n_components_80, color='g', linestyle='--', label=f'{n_components_80} componenti')
plt.xlabel('Numero di Componenti')
plt.ylabel('Varianza Cumulata Spiegata')
plt.title('Varianza Cumulata')
plt.legend()
plt.grid(True)
plt.show()



Riduzione efficace: **-40%** dimensioni mantenendo **80%** informazione

Struttura bilanciata: Nessuna componente troppo dominante

Progressione regolare: Calo graduale della varianza

Dati informativi: Prime componenti spiegano varianza significativa

In [None]:
# ==========================
# 1) CORRELATION CIRCLE
# ==========================
plt.figure(figsize=(10,10))
ax = plt.gca()

# Draw the unit circle
circle = plt.Circle((0, 0), 1, color='blue', fill=False, linestyle='-', alpha=1)
ax.add_artist(circle)

loading_magnitudes = np.sqrt(loadings[:, 0]**2 + loadings[:, 1]**2)
top_indices = np.argsort(loading_magnitudes)

# Plot loading vectors
for i in top_indices:
    x, y = loadings[i, 0], loadings[i, 1]
    feature_name = feature_names[i]
    
    # Color coding
    if any(metric in feature_name for metric in ['Weight', 'Height', 'Age']):
        color = 'blue'
    elif 'Obesity_Level' in feature_name:
        color = 'green'
    elif any(metric in feature_name for metric in ['High_Caloric_Food', 'Vegetable_Consumption', 'Main_Meals_Per_Day']):
        color = 'purple'
    else:
        color = 'red'
    
    ax.arrow(0, 0, x, y, color=color, alpha=0.7, head_width=0.03, head_length=0.03, linewidth=1.5)
    ax.text(x * 1.15, y * 1.15, feature_name, fontsize=9, ha='center', va='center', color=color,bbox=dict(boxstyle='round,pad=0.3', facecolor='white', alpha=0.8))

# Ax settings
ax.set_xlim(-1.1, 1.1)
ax.set_ylim(-1.1, 1.1)
ax.axhline(0, color='gray', alpha=0.4)
ax.axvline(0, color='gray', alpha=0.4)
ax.set_title("Correlation Circle - Loading Vectors")
ax.set_xlabel(f"PC1 ({pca.explained_variance_ratio_[0]:.2%})")
ax.set_ylabel(f"PC2 ({pca.explained_variance_ratio_[1]:.2%})")
ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# ==========================
# 2) BIPLOT (OBSERVATIONS)
# ==========================
plt.figure(figsize=(10,10))
ax2 = plt.gca()

# Scatter plot of PCA scores (observations)
ax2.scatter(X_pca[:, 0], X_pca[:, 1], alpha=0.7)

# Add variable loading vectors on the same plot (optional)
for i in top_indices:
    x, y = loadings[i, 0] * max(X_pca[:,0]), loadings[i, 1] * max(X_pca[:,1])  # rescale loadings
    feature_name = feature_names[i]
    
    # Color coding
    if any(metric in feature_name for metric in ['Weight', 'Height', 'Age']):
        color = 'blue'
    elif 'Obesity_Level' in feature_name:
        color = 'green'
    elif any(metric in feature_name for metric in ['High_Caloric_Food', 'Vegetable_Consumption', 'Main_Meals_Per_Day']):
        color = 'purple'
    else:
        color = 'red'
    ax2.arrow(0, 0, x, y, color= color, alpha=0.5, head_width=0.1)
    ax2.text(x * 1.05, y * 1.05, feature_names[i], color= color)

ax2.set_title("Biplot - Observations and Variables")
ax2.set_xlabel(f"PC1 ({pca.explained_variance_ratio_[0]:.2%})")
ax2.set_ylabel(f"PC2 ({pca.explained_variance_ratio_[1]:.2%})")
ax2.axhline(0, color='gray', alpha=0.4)
ax2.axvline(0, color='gray', alpha=0.4)
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()


### K-MEANS 

In [None]:
dataset_pca = pd.DataFrame(X_pca[:,:2], columns=['PC1', 'PC2'])
display(dataset_pca.head())

In [None]:
#METODO DEL GOMITO
inertia = []
K = range(2,10)

for k in K:
    km = KMeans(n_clusters=k, init = "k-means++", random_state=0)
    km.fit(dataset_pca)
    inertia.append(km.inertia_)

plt.figure(figsize=(8,6))
plt.plot(K, inertia, 'ro-')
plt.xlabel('k')
plt.ylabel('Inertia')
plt.title('Metodo del gomito')
plt.show()


In [None]:
for k in K:
    kmeans = KMeans(n_clusters=k, init='k-means++', random_state=0)
    labels = kmeans.fit_predict(dataset_pca)
    silhouette_avg = silhouette_score(dataset_pca, labels)
    print("For n_clusters =", k, "The average silhouette_score is :", silhouette_avg)

In [None]:
k = 3 # qui si forma il "gomito"

kmeans = KMeans(n_clusters=k, random_state=0)
clusters = kmeans.fit_predict(X_pca[:, :2]) #solo le prime due componenti

plt.figure(figsize=(8,6))
plt.scatter(X_pca[:,0], X_pca[:,1], c=clusters, s=80, cmap = "tab10",edgecolor='black', linewidth=1)

plt.xlabel("PC1")
plt.ylabel("PC2")
plt.title("K-means clustering sulle prime due PC")
plt.show()

In [None]:
centroids = kmeans.cluster_centers_.T # coordinates of cluster
display(centroids)

In [None]:
dataset_pca["clusters"] = labels

colors = ['blue', 'orange', 'green']

fig, ax = plt.subplots(figsize=(16, 6))

for k in range(0, 3):
    sns.scatterplot(x=dataset_pca['PC1'][dataset_pca.clusters == k], y=dataset_pca['PC2'][dataset_pca.clusters == k], color=colors[k], label='Cluster {}'.format(k+1), s=100)

ax.scatter(centroids[0][:], centroids[1][:], marker='X', s=100, color='black', label='Centroids')
ax.set_title('K-means Clustering with 3 clusters')
ax.set_xlabel('Principal Component 1')
ax.set_ylabel('Principal Component 2')
plt.legend()
plt.show()

In [None]:
kmeans.inertia_