In [25]:
import pandas as pd
import numpy as np
import re
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier

In [26]:
df = pd.read_csv('csv/train.csv')
# --- INFO GENERALI SUL DATASET ---
print("\n--- INFO DEL DATASET ---")
print(df.info())  # Mostra tipo di dato, numero righe, valori nulli, memoria usata

# --- DESCRIZIONE STATISTICA ---
print("\n--- DESCRIZIONE STATISTICA ---")
print(df.describe())  # Mostra media, min, max, quartili, std per colonne numeriche

# --- ANTEPRIMA DEL DATASET ---
print("\n--- PRIME 5 RIGHE ---")
print(df.head())  # Mostra le prime 5 righe del DataFrame

print("\n------------------------------------------------------")


--- INFO DEL DATASET ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700000 entries, 0 to 699999
Data columns (total 26 columns):
 #   Column                              Non-Null Count   Dtype  
---  ------                              --------------   -----  
 0   id                                  700000 non-null  int64  
 1   age                                 700000 non-null  int64  
 2   alcohol_consumption_per_week        700000 non-null  int64  
 3   physical_activity_minutes_per_week  700000 non-null  int64  
 4   diet_score                          700000 non-null  float64
 5   sleep_hours_per_day                 700000 non-null  float64
 6   screen_time_hours_per_day           700000 non-null  float64
 7   bmi                                 700000 non-null  float64
 8   waist_to_hip_ratio                  700000 non-null  float64
 9   systolic_bp                         700000 non-null  int64  
 10  diastolic_bp                        700000 non-null  int64  
 11  

In [27]:

object_df = df.select_dtypes(include=['object'])
object_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700000 entries, 0 to 699999
Data columns (total 6 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   gender             700000 non-null  object
 1   ethnicity          700000 non-null  object
 2   education_level    700000 non-null  object
 3   income_level       700000 non-null  object
 4   smoking_status     700000 non-null  object
 5   employment_status  700000 non-null  object
dtypes: object(6)
memory usage: 32.0+ MB


In [28]:
unique_values = object_df.apply(lambda x: x.unique())
print(unique_values)

gender                                         [Female, Male, Other]
ethnicity                     [Hispanic, White, Asian, Black, Other]
education_level      [Highschool, Graduate, Postgraduate, No formal]
income_level         [Lower-Middle, Upper-Middle, Low, Middle, High]
smoking_status                              [Current, Never, Former]
employment_status           [Employed, Retired, Student, Unemployed]
dtype: object


In [29]:
income_level_to_value = {'Lower-Middle' : 2, 'Upper-Middle':4, 'Low': 1, 'Middle':3, 'High':5}
df['income_level'] = df['income_level'].map(income_level_to_value)
df = pd.get_dummies(df, drop_first=True)

with pd.option_context('display.max_columns', None):
    display(df.head())

Unnamed: 0,id,age,alcohol_consumption_per_week,physical_activity_minutes_per_week,diet_score,sleep_hours_per_day,screen_time_hours_per_day,bmi,waist_to_hip_ratio,systolic_bp,diastolic_bp,heart_rate,cholesterol_total,hdl_cholesterol,ldl_cholesterol,triglycerides,income_level,family_history_diabetes,hypertension_history,cardiovascular_history,diagnosed_diabetes,gender_Male,gender_Other,ethnicity_Black,ethnicity_Hispanic,ethnicity_Other,ethnicity_White,education_level_Highschool,education_level_No formal,education_level_Postgraduate,smoking_status_Former,smoking_status_Never,employment_status_Retired,employment_status_Student,employment_status_Unemployed
0,0,31,1,45,7.7,6.8,6.1,33.4,0.93,112,70,62,199,58,114,102,2,0,0,0,1.0,False,False,False,True,False,False,True,False,False,False,False,False,False,False
1,1,50,2,73,5.7,6.5,5.8,23.8,0.83,120,77,71,199,50,121,124,4,0,0,0,1.0,False,False,False,False,False,True,True,False,False,False,True,False,False,False
2,2,32,3,158,8.5,7.4,9.1,24.1,0.83,95,89,73,188,59,114,108,2,0,0,0,0.0,True,False,False,True,False,False,True,False,False,False,True,True,False,False
3,3,54,3,77,4.6,7.0,9.2,26.6,0.83,121,69,74,182,54,85,123,2,0,1,0,1.0,False,False,False,False,False,True,True,False,False,False,False,False,False,False
4,4,54,1,55,5.7,6.2,5.1,28.8,0.9,108,60,85,206,49,131,124,4,0,1,0,1.0,True,False,False,False,False,True,True,False,False,False,True,True,False,False


In [30]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,700000.0,349999.5,202072.738554,0.0,174999.75,349999.5,524999.25,699999.0
age,700000.0,50.359734,11.65552,19.0,42.0,50.0,58.0,89.0
alcohol_consumption_per_week,700000.0,2.072411,1.048189,1.0,1.0,2.0,3.0,9.0
physical_activity_minutes_per_week,700000.0,80.230803,51.195071,1.0,49.0,71.0,96.0,747.0
diet_score,700000.0,5.963695,1.463336,0.1,5.0,6.0,7.0,9.9
sleep_hours_per_day,700000.0,7.0022,0.901907,3.1,6.4,7.0,7.6,9.9
screen_time_hours_per_day,700000.0,6.012733,2.022707,0.6,4.6,6.0,7.4,16.5
bmi,700000.0,25.874684,2.860705,15.1,23.9,25.9,27.8,38.4
waist_to_hip_ratio,700000.0,0.858766,0.03798,0.68,0.83,0.86,0.88,1.05
systolic_bp,700000.0,116.294193,11.01039,91.0,108.0,116.0,124.0,163.0


## Osservazioni 
    ### Colonna Target 
        - *media* di 0.62 

In [31]:
df["diagnosed_diabetes"].unique()

array([1., 0.])

Quindi non ci troviamo davanti a un dataser sbilanciato con un caso di diabete ogni x sani, ma quasi 1 ogni 2 


### GUARDIAMO ADESSO I MINIMI E MASSIMI DELLE NOSTRE COLONNE
    Non abbiamo trovato potenziali outlier 
### DISPERSIONE
    No la deviazione standard non ha livelli allarmanti su nessuna colonna 
### MEDIANA
    Ci sono features con mediana tanto differrenti dalla media?
    physical_activity_minutes_per_week	media= 80.230803    mediana= 71.00
    Siccome la media sta a destra rispetto la mediana 

### FARE APPROFONDIMENTO SU physical_activity_minutes_per_week

### FARE GRAFICI 
    INIZIO DAL PAIRPLOT

In [32]:
import pandas as pd
import numpy as np

def create_clinical_features(df):
    """
    Genera feature derivate per il rischio diabetico e cardiovascolare.
    """
    # Lavoriamo su una copia per non modificare il dataframe originale
    df_eng = df.copy()

    # ==============================================================================
    # 1. INDICATORI LIPIDICI E INSULINO-RESISTENZA
    # ==============================================================================
    
    # Rapporto Trigliceridi / HDL (Marker di insulino-resistenza)
    # Aggiungiamo una piccola epsilon per evitare divisioni per zero se HDL è 0 (raro ma possibile in dati sporchi)
    epsilon = 1e-6
    df_eng['tg_hdl_ratio'] = df_eng['triglycerides'] / (df_eng['hdl_cholesterol'] + epsilon)

    # Colesterolo Non-HDL (Colesterolo "Cattivo" Totale)
    df_eng['non_hdl_cholesterol'] = df_eng['cholesterol_total'] - df_eng['hdl_cholesterol']

    # Castelli Risk Index I (Totale / HDL)
    df_eng['castelli_risk_index_1'] = df_eng['cholesterol_total'] / (df_eng['hdl_cholesterol'] + epsilon)

    # ==============================================================================
    # 2. INDICATORI EMODINAMICI
    # ==============================================================================
    
    # Pulse Pressure (Pressione Differenziale)
    df_eng['pulse_pressure'] = df_eng['systolic_bp'] - df_eng['diastolic_bp']

    # Mean Arterial Pressure (MAP)
    df_eng['mean_arterial_pressure'] = df_eng['diastolic_bp'] + (df_eng['pulse_pressure'] / 3)

    # ==============================================================================
    # 3. STILE DI VITA E INTERAZIONI
    # ==============================================================================

    # Indice di Sedentarietà Relativa
    # Convertiamo minuti attività fisica settimanale in ore: (min / 60)
    # Evitiamo divisione per zero aggiungendo epsilon al denominatore
    activity_hours_per_week = df_eng['physical_activity_minutes_per_week'] / 60
    screen_time_per_week = df_eng['screen_time_hours_per_day'] * 7
    
    df_eng['sedentary_index'] = screen_time_per_week / (activity_hours_per_week + epsilon)

    # Interaction Term: BMI x Age
    df_eng['bmi_age_interaction'] = df_eng['bmi'] * df_eng['age']

    # ==============================================================================
    # 4. SCORE SINDROME METABOLICA (CON LOGICA DI GENERE)
    # ==============================================================================
    
    # Standardizzazione del genere per uniformità (assumiamo valori 'Male', 'Female', 'Other')
    # Adatta queste stringhe se il tuo dataset usa 'M', 'F', ecc.
    is_male = df_eng['gender'] == 'Male'
    is_female = df_eng['gender'] == 'Female'
    # 'Other' è implicito dove non è né Male né Female
    
    # --- A. Obesità Addominale (Waist-to-Hip Ratio) ---
    # Soglie: Uomo > 0.90, Donna > 0.85, Other = (0.90+0.85)/2 = 0.875
    whr_threshold = np.select(
        [is_male, is_female], 
        [0.90, 0.85], 
        default=0.875
    )
    df_eng['bool_abdominal_obesity'] = (df_eng['waist_to_hip_ratio'] > whr_threshold).astype(int)

    # --- B. Trigliceridi Alti ---
    # Soglia: >= 150 mg/dL (Indipendente dal sesso)
    df_eng['bool_high_triglycerides'] = (df_eng['triglycerides'] >= 150).astype(int)

    # --- C. HDL Basso ---
    # Soglie: Uomo < 40, Donna < 50, Other = 45
    hdl_threshold = np.select(
        [is_male, is_female], 
        [40, 50], 
        default=45
    )
    df_eng['bool_low_hdl'] = (df_eng['hdl_cholesterol'] < hdl_threshold).astype(int)

    # --- D. Pressione Alta ---
    # Soglie: Sys >= 130 OR Dia >= 85 OR Storia di Ipertensione
    df_eng['bool_high_bp'] = (
        (df_eng['systolic_bp'] >= 130) | 
        (df_eng['diastolic_bp'] >= 85) | 
        (df_eng['hypertension_history'] == 1)
    ).astype(int)

    # --- Calcolo Score Finale (0-4) ---
    df_eng['metabolic_syndrome_score'] = (
        df_eng['bool_abdominal_obesity'] + 
        df_eng['bool_high_triglycerides'] + 
        df_eng['bool_low_hdl'] + 
        df_eng['bool_high_bp']
    )

    return df_eng



In [34]:
print(df.columns.tolist())


['id', 'age', 'alcohol_consumption_per_week', 'physical_activity_minutes_per_week', 'diet_score', 'sleep_hours_per_day', 'screen_time_hours_per_day', 'bmi', 'waist_to_hip_ratio', 'systolic_bp', 'diastolic_bp', 'heart_rate', 'cholesterol_total', 'hdl_cholesterol', 'ldl_cholesterol', 'triglycerides', 'income_level', 'family_history_diabetes', 'hypertension_history', 'cardiovascular_history', 'diagnosed_diabetes', 'gender_Male', 'gender_Other', 'ethnicity_Black', 'ethnicity_Hispanic', 'ethnicity_Other', 'ethnicity_White', 'education_level_Highschool', 'education_level_No formal', 'education_level_Postgraduate', 'smoking_status_Former', 'smoking_status_Never', 'employment_status_Retired', 'employment_status_Student', 'employment_status_Unemployed', 'TG_HDL_Ratio', 'Non_HDL_Cholesterol', 'Castelli_Risk_Index_I', 'Pulse_Pressure', 'MAP', 'Sedentary_Index', 'BMI_Age_Interaction']


In [36]:
import numpy as np
import pandas as pd

# --- 1. Indicatori Lipidici e Insulino-Resistenza ---

# TG / HDL Ratio (insulino-resistenza)
df["TG_HDL_Ratio"] = df["triglycerides"] / df["hdl_cholesterol"]

# Non-HDL (colesterolo aterogeno totale)
df["Non_HDL_Cholesterol"] = df["cholesterol_total"] - df["hdl_cholesterol"]

# Castelli Risk Index I (Totale / HDL)
df["Castelli_Risk_Index_I"] = df["cholesterol_total"] / df["hdl_cholesterol"]


# --- 2. Indicatori Emodinamici ---

# Pulse Pressure
df["Pulse_Pressure"] = df["systolic_bp"] - df["diastolic_bp"]

# Mean Arterial Pressure (MAP)
df["MAP"] = df["diastolic_bp"] + (df["Pulse_Pressure"] / 3)


# --- 3. Indicatori di Obesità e Stile di Vita ---

# Sedentarietà relativa
df["Sedentary_Index"] = (
    df["screen_time_hours_per_day"] * 7
) / (df["physical_activity_minutes_per_week"] / 60)

# Interazione BMI × Age
df["BMI_Age_Interaction"] = df["bmi"] * df["age"]


# --- 4. Metabolic Syndrome Score (0-4) ---
# Usando le colonne che hai davvero:
# gender_Male, gender_Other  (e quindi FEMMINA = nessuno dei due)

is_male = df["gender_Male"] == 1
is_female = (df["gender_Male"] == 0) & (df["gender_Other"] == 0)

# 1. Obesità addominale
crit_obesity = (
    (is_male & (df["waist_to_hip_ratio"] > 0.90)) |
    (is_female & (df["waist_to_hip_ratio"] > 0.85))
).astype(int)

# 2. Trigliceridi ≥ 150
crit_triglycerides = (df["triglycerides"] >= 150).astype(int)

# 3. HDL basso
crit_hdl = (
    (is_male & (df["hdl_cholesterol"] < 40)) |
    (is_female & (df["hdl_cholesterol"] < 50))
).astype(int)

# 4. Pressione alta (sistolica ≥130 o diastolica ≥85 o storia di ipertensione)
crit_bp = (
    (df["systolic_bp"] >= 130) |
    (df["diastolic_bp"] >= 85) |
    (df["hypertension_history"] == 1)
).astype(int)

# Score totale
df["Metabolic_Syndrome_Score"] = (
    crit_obesity + crit_triglycerides + crit_hdl + crit_bp
)
df

Unnamed: 0,id,age,alcohol_consumption_per_week,physical_activity_minutes_per_week,diet_score,sleep_hours_per_day,screen_time_hours_per_day,bmi,waist_to_hip_ratio,systolic_bp,...,employment_status_Student,employment_status_Unemployed,TG_HDL_Ratio,Non_HDL_Cholesterol,Castelli_Risk_Index_I,Pulse_Pressure,MAP,Sedentary_Index,BMI_Age_Interaction,Metabolic_Syndrome_Score
0,0,31,1,45,7.7,6.8,6.1,33.4,0.93,112,...,False,False,1.758621,141,3.431034,42,84.000000,56.933333,1035.4,1
1,1,50,2,73,5.7,6.5,5.8,23.8,0.83,120,...,False,False,2.480000,149,3.980000,43,91.333333,33.369863,1190.0,0
2,2,32,3,158,8.5,7.4,9.1,24.1,0.83,95,...,False,False,1.830508,129,3.186441,6,91.000000,24.189873,771.2,1
3,3,54,3,77,4.6,7.0,9.2,26.6,0.83,121,...,False,False,2.277778,128,3.370370,52,86.333333,50.181818,1436.4,1
4,4,54,1,55,5.7,6.2,5.1,28.8,0.90,108,...,False,False,2.530612,157,4.204082,48,76.000000,38.945455,1555.2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
699995,699995,29,1,59,6.9,5.2,1.5,26.1,0.88,133,...,False,False,2.172414,105,2.810345,76,82.333333,10.677966,756.9,2
699996,699996,46,2,72,7.7,7.7,3.8,25.5,0.85,106,...,False,False,2.644444,143,4.177778,21,92.000000,22.166667,1173.0,2
699997,699997,35,1,50,5.6,6.1,6.4,26.9,0.88,127,...,False,False,2.813559,109,2.847458,43,98.333333,53.760000,941.5,2
699998,699998,49,2,70,5.7,6.9,4.7,25.2,0.86,116,...,False,False,2.418182,143,3.600000,49,83.333333,28.200000,1234.8,1


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Caricamento del dataset
df = pd.read_csv('train.csv')

# 2. Ispezione rapida
print("--- Prime 5 righe del dataset ---")
print(df.head())
print("\n--- Informazioni sul dataset ---")
print(df.info())

In [None]:
object_df = df.select_dtypes(include=[np.object_])
object_df.nunique()

In [None]:
unique_values = object_df.apply(lambda x: x.unique())
print(unique_values)

In [None]:
income_level_to_value = {'Lower-Middle' : 2, 'Upper-Middle':4, 'Low': 1, 'Middle':3, 'High':5}
df['income_level'] = df['income_level'].map(income_level_to_value)
df = pd.get_dummies(df, drop_first=True)

In [None]:

# Visualizza tutte le colonne solo all'interno di questo blocco
with pd.option_context('display.max_columns', None):
    display(df.head())

In [None]:

df.describe().T

In [None]:
df["diagnosed_diabetes"].unique()

In [None]:
df.info()

In [None]:
# 3. Visualizzazione delle Correlazioni
# Selezioniamo solo le colonne numeriche per la matrice di correlazione
numeric_df = df.select_dtypes(include=[np.number])

plt.figure(figsize=(10, 12))
sns.heatmap(numeric_df.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matrice di Correlazione')
plt.show()

In [None]:
df_eng = df.copy()

# ==========================================================================
# 0. GESTIONE SESSO (Logica One-Hot)
# ==========================================================================
# Definiamo le maschere booleane per identificare i gruppi.

# 1. Identifichiamo gli UOMINI
is_male = df_eng['gender_Male'] == 1

# 2. Identifichiamo "ALTRO" (Solo se la colonna esiste!)
if 'gender_Other' in df_eng.columns:
    is_other = df_eng['gender_Other'] == 1
else:
    # Se non c'è la colonna, assumiamo False per tutti (nessun "Other" rilevato)
    is_other = pd.Series(False, index=df_eng.index)
    # Nota: Se avevi 'Other' nel dataset originale e l'hai persa col get_dummies,
    # qui verranno trattati come Donne.

# 3. Identifichiamo le DONNE
# Sono coloro che NON sono uomini E NON sono altro
is_female = (~is_male) & (~is_other)

# ==========================================================================
# 1. INDICATORI LIPIDICI (Invariati)
# ==========================================================================
epsilon = 1e-6
df_eng['tg_hdl_ratio'] = df_eng['triglycerides'] / (df_eng['hdl_cholesterol'] + epsilon)
df_eng['non_hdl_cholesterol'] = df_eng['cholesterol_total'] - df_eng['hdl_cholesterol']
df_eng['castelli_risk_index_1'] = df_eng['cholesterol_total'] / (df_eng['hdl_cholesterol'] + epsilon)

# ==========================================================================
# 2. INDICATORI EMODINAMICI (Invariati)
# ==========================================================================
df_eng['pulse_pressure'] = df_eng['systolic_bp'] - df_eng['diastolic_bp']
df_eng['mean_arterial_pressure'] = df_eng['diastolic_bp'] + (df_eng['pulse_pressure'] / 3)

# ==========================================================================
# 3. STILE DI VITA (Invariati)
# ==========================================================================
activity_hours = df_eng['physical_activity_minutes_per_week'] / 60
screen_time_week = df_eng['screen_time_hours_per_day'] * 7
df_eng['sedentary_index'] = screen_time_week / (activity_hours + epsilon)
df_eng['bmi_age_interaction'] = df_eng['bmi'] * df_eng['age']

# ==========================================================================
# 4. SCORE SINDROME METABOLICA (ADATTATO CON NP.SELECT)
# ==========================================================================

# Usiamo np.select per applicare le soglie condizionali in base alle maschere create sopra.
# Ordine condizioni: [Se è Maschio, Se è Donna, (Default/Other)]
# Nota: Se is_other è tutto False, il ramo 'default' non verrà mai attivato se copriamo M e F.
# Quindi strutturiamo: [Maschio, Femmina], default=Other

conditions = [is_male, is_female]

# --- A. Obesità Addominale (WHR) ---
# Uomo > 0.90, Donna > 0.85, Altro = 0.875
whr_thresholds = [0.90, 0.85]
limit_whr = np.select(conditions, whr_thresholds, default=0.875)

df_eng['bool_abdominal_obesity'] = (df_eng['waist_to_hip_ratio'] > limit_whr).astype(int)

# --- B. Trigliceridi Alti ---
# >= 150 per tutti
df_eng['bool_high_triglycerides'] = (df_eng['triglycerides'] >= 150).astype(int)

# --- C. HDL Basso ---
# Uomo < 40, Donna < 50, Altro < 45
hdl_thresholds = [40, 50]
limit_hdl = np.select(conditions, hdl_thresholds, default=45)

df_eng['bool_low_hdl'] = (df_eng['hdl_cholesterol'] < limit_hdl).astype(int)

# --- D. Pressione Alta ---
# >= 130/85 (Uguale per tutti)
df_eng['bool_high_bp'] = (
    (df_eng['systolic_bp'] >= 130) | 
    (df_eng['diastolic_bp'] >= 85) | 
    (df_eng['hypertension_history'] == 1)
).astype(int)

# --- Calcolo Score ---
df_eng['metabolic_syndrome_score'] = (
    df_eng['bool_abdominal_obesity'] + 
    df_eng['bool_high_triglycerides'] + 
    df_eng['bool_low_hdl'] + 
    df_eng['bool_high_bp']
)

In [None]:
df_eng.info()


In [None]:
# ==========================================================================
# 5. INDICATORI DI STRESS CARDIACO E CARICO
# ==========================================================================
# Rate Pressure Product (RPP) o Doppio Prodotto
# Formula: Frequenza Cardiaca * Pressione Sistolica
# Significato: È un indice del consumo di ossigeno del miocardio.
# Nei diabetici, un RPP alto a riposo indica un sistema nervoso simpatico iperattivo.
df_eng['rate_pressure_product'] = df_eng['heart_rate'] * df_eng['systolic_bp']

# Logaritmo dei Trigliceridi
# Significato: I trigliceridi hanno spesso una distribuzione asimmetrica (skewed).
# Il rischio cardiovascolare scala logaritmicamente, non linearmente.
df_eng['log_triglycerides'] = np.log(df_eng['triglycerides'] + 1)

# ==========================================================================
# 6. INDICATORI DI FORMA FISICA COMPLESSA (Proxy Viscerale)
# ==========================================================================
# Poiché non abbiamo la circonferenza vita assoluta (in cm) ma solo il rapporto (WHR),
# e abbiamo il BMI, possiamo creare un termine di interazione.
# Significato: Distingue un BMI alto dovuto a muscoli (WHR basso) 
# da un BMI alto dovuto a grasso viscerale (WHR alto).
df_eng['visceral_adiposity_proxy'] = df_eng['bmi'] * df_eng['waist_to_hip_ratio']

# ==========================================================================
# 7. CURVA DEL SONNO (Relazione a U)
# ==========================================================================
# Il rischio diabete rispetto al sonno non è lineare. Dormire poco fa male, 
# ma dormire troppo fa altrettanto male (spesso indice di depressione o apnea).
# Creiamo la distanza dall'ottimale (7.5 ore).
# Più alto è il valore, peggiore è la condizione.
df_eng['sleep_deviation'] = (df_eng['sleep_hours_per_day'] - 7.5).abs()

# ==========================================================================
# 8. SCORE DI CARICO STORICO/COMORBIDITÀ
# ==========================================================================
# Somma semplice dei fattori di rischio storici/genetici.
# Rappresenta il "carico allostatico" o la fragilità del paziente.
df_eng['comorbidity_burden'] = (
    df_eng['family_history_diabetes'] + 
    df_eng['hypertension_history'] + 
    df_eng['cardiovascular_history']
)

# ==========================================================================
# 9. RAPPORTO DI RISCHIO COMPLETO (Lipidico-Emodinamico)
# ==========================================================================
# Un tentativo di creare un super-feature che combini stress vascolare e metabolico.
# (Sistolica * Trigliceridi) / HDL
# Questo amplifica i pazienti con "Tempesta Metabolica" (Pressione alta + Grassi alti + HDL basso)
df_eng['metabolic_stress_index'] = (
    (df_eng['systolic_bp'] * df_eng['triglycerides']) / (df_eng['hdl_cholesterol'] + epsilon)
)

In [None]:
df_eng.info()


In [None]:
import optuna
import lightgbm as lgb
from sklearn.model_selection import train_test_split
from optuna.integration import LightGBMPruningCallback
import numpy as np

# --- 1. MODIFICA CRUCIALE: Usiamo solo una frazione dei dati ---
# Per la demo usiamo solo il 100% dei dati.
# Questo rende tutto 10 volte più veloce istantaneamente.
df_demo = df_eng.sample(frac=1, random_state=42)

X = df_demo.drop(columns=["diagnosed_diabetes"], axis=1)
y = df_demo["diagnosed_diabetes"]

# Ottimizzazione Memoria
for col in X.select_dtypes(include=['float64']).columns:
    X[col] = X[col].astype('float32')

# Split train/val
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

def objective(trial):
    params = {
        # --- Config Hardware ---
        'device_type': 'gpu',
        'gpu_platform_id': 0,
        'gpu_device_id': 0,
        'n_jobs': -1, 
        'verbose': -1,
        
        # --- Config VELOCITÀ ESTREMA ---
        'max_bin': 15,          # Default 255. A 15 è velocissimo (ma perde precisione).
        'bagging_freq': 1,      # Ricampiona i dati ad ogni iterazione
        'bagging_fraction': 0.8,# Usa solo il 80% dei dati per ogni albero (più veloce)
        
        # --- Parametri Modello ---
        'objective': 'binary',
        'metric': 'auc', 
        'boosting_type': 'gbdt',
        
        # --- Search Space (Ridotto per convergere prima) ---
        'n_estimators': 1000, # Abbassato il tetto massimo
        'learning_rate': trial.suggest_float('learning_rate', 0.05, 0.3, log=True), # LR più alto = impara prima
        'num_leaves': trial.suggest_int('num_leaves', 20, 100), # Meno foglie = alberi più semplici
        'max_depth': trial.suggest_int('max_depth', 3, 8),      # Alberi meno profondi
        'min_data_in_leaf': trial.suggest_int('min_data_in_leaf', 100, 1000),
        
        'reg_alpha': trial.suggest_float('reg_alpha', 1e-3, 10.0, log=True),
        'reg_lambda': trial.suggest_float('reg_lambda', 1e-3, 10.0, log=True),
    }

    model = lgb.LGBMClassifier(**params)
    
    # Callback Pruning
    pruning_callback = LightGBMPruningCallback(trial, "auc")
    
    model.fit(
        X_train, y_train,
        eval_set=[(X_val, y_val)],
        eval_metric='auc',
        callbacks=[
            # Smetti subito se non migliori per 10 round (molto aggressivo)
            lgb.early_stopping(stopping_rounds=10, verbose=False),
            pruning_callback
        ]
    )
    
    preds = model.predict(X_val)
    accuracy = np.mean(preds == y_val)
    
    return accuracy

# --- Studio ---
print("--- Inizio Demo Rapida (Hyperband + 10% Dati) ---")

# HyperbandPruner è perfetto per le demo: prova tanti parametri all'inizio con poche risorse
# e uccide spietatamente quelli che non promettono bene.
study = optuna.create_study(
    direction='maximize', 
    study_name="Demo_Class_LGBM",
    pruner=optuna.pruners.HyperbandPruner(min_resource=1, max_resource='auto', reduction_factor=3)
)

# 30 tentativi dovrebbero finire in 1-3 minuti con queste impostazioni
study.optimize(objective, n_trials=30, show_progress_bar=True)

print(f"\nMiglior Accuratezza (sul sample ridotto): {study.best_value:.4f}")
print("Migliori Parametri:", study.best_params)

In [None]:
import lightgbm as lgb
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# 1. Recuperiamo i parametri migliori trovati da Optuna
best_params = study.best_params

# 2. Aggiungiamo i parametri "fissi" (GPU, obiettivo, ecc.) che non abbiamo ottimizzato
fixed_params = {
    'device_type': 'gpu',
    'gpu_platform_id': 0,
    'gpu_device_id': 0,
    'objective': 'binary',
    'metric': 'auc',
    'n_jobs': -1,
    'verbose': -1,
    'random_state': 42
}

# Uniamo i due dizionari (i parametri fissi + i migliori trovati)
final_params = {**fixed_params, **best_params}

print(f"Addestramento modello finale con parametri: {final_params}")

# 3. Addestramento Finale
final_model = lgb.LGBMClassifier(**final_params)
final_model.fit(X_train, y_train)

# 4. Valutazione
y_pred = final_model.predict(X_test)
acc = accuracy_score(y_test, y_pred)

print(f"\n--- Report Finale ---")
print(f"Accuratezza sul Test Set: {acc:.4f}")
print("\nDettagli per classe:")
print(classification_report(y_test, y_pred))

# 5. Grafico Matrice di Confusione (Ottimo per le presentazioni)
plt.figure(figsize=(6, 5))
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', cbar=False)
plt.title('Matrice di Confusione')
plt.xlabel('Predetto')
plt.ylabel('Reale')
plt.show()