VISUALIZZAZIONE FEATURE BINARIE

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# ================================
# 1. Caricamento dataset
# ================================
df = pd.read_csv("ObesityDataSet_raw_and_data_sinthetic.csv")

# ================================
# 2. Creazione colonna binaria Normopeso / Non normopeso
# ================================
normopeso_classi = ["Normal_Weight", "Insufficient_Weight"]
df["Peso_binario"] = df["NObeyesdad"].apply(
    lambda x: "Normopeso/Sottopeso" if x in normopeso_classi else "Sovrappeso/Obeso"
)

# ================================
# 3. Seleziona solo le feature binarie
# ================================
binary_features = [col for col in df.columns if df[col].nunique() == 2 and col != "Peso_binario"]

titoli = ['Genere', 'Famiglia con storia di obesit√†', 'Consumazione di cibo altamente calorici', 'Fumatore', 'Controllo delle calorie giornaliero']
i = 0

# ================================
# 4. Countplot per ogni feature binaria con valori asse y senza trattini
# ================================
for feature in binary_features:
    plt.figure(figsize=(6, 4))
    
    ax = sns.countplot(
        data=df,
        x=feature,
        hue="Peso_binario",
        hue_order=["Sovrappeso/Obeso", "Normopeso/Sottopeso"],
        palette=["#1E90FF", "#FF6B00"]
    )
    
    # Rimuovo spine superiori e laterali
    ax.spines['top'].set_visible(False)
    ax.spines['right'].set_visible(False)
    ax.spines['left'].set_visible(False)
    ax.spines['bottom'].set_visible(True)
    
    # Mostro solo i numeri sull'asse y senza tacche
    ax.yaxis.set_ticks_position('none')
    ax.tick_params(axis='y', which='both', length=0)  # togli lineette
    ax.tick_params(axis='y', labelleft=True)          # mantieni numeri
    
    # Etichetta asse y vuota
    ax.set_ylabel("")
    
    # Titolo centrato
    plt.title(f"{titoli[i]}", fontsize=14, loc='center')
    plt.xlabel("")
    
    if i < 5:
        i += 1
    
    # Legenda fuori dal grafico
    ax.legend(title="Categoria", bbox_to_anchor=(1.05, 1), loc='upper left')
    
    plt.tight_layout()
    plt.show()


HEATMAP

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder

# ================================
# 1. Caricamento dataset
# ================================
df = pd.read_csv("ObesityDataSet_raw_and_data_sinthetic.csv")

# ================================
# 2. Creazione target binario
# ================================
normopeso_classi = ["Insufficient_Weight", "Normal_Weight"]
df["Peso_binario"] = df["NObeyesdad"].apply(lambda x: 0 if x in normopeso_classi else 1)

# ================================
# 3. Rimozione target originale
# ================================
df = df.drop(columns=["NObeyesdad"])

# ================================
# 4. Label encoding delle categoriche
# ================================
df_encoded = df.copy()
le = LabelEncoder()
for col in df_encoded.columns:
    if df_encoded[col].dtype == "object":
        df_encoded[col] = le.fit_transform(df_encoded[col].astype(str))

# ================================
# 5. Matrice di correlazione
# ================================
corr = df_encoded.corr()

# ================================
# 6. Heatmap
# ================================
plt.figure(figsize=(16, 14))
sns.heatmap(
    corr,
    cmap="coolwarm",
    linewidths=0.4,
    annot=True,
    fmt=".2g",                 # <-- Rimuove zeri inutili e mostra numeri puliti
    annot_kws={"size": 12},    # <-- Aumenta dimensione numeri
    cbar_kws={"shrink": 0.6}
)


plt.xticks(rotation=45, ha="right")
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()
