# 🍔 Nutritional Facts Analysis — McDonald's Menu

Questo notebook esplora il dataset nutrizionale del menu McDonald's. L'obiettivo è analizzare le caratteristiche nutrizionali, visualizzare le distribuzioni, identificare correlazioni e costruire un semplice modello predittivo.

📌 Dataset: [menu.csv](https://www.kaggle.com/datasets/mcdonalds/nutrition-facts)

📊 Variabili: calorie, grassi, carboidrati, proteine, zuccheri, sodio, ecc.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

In [None]:
# Caricamento del dataset
df = pd.read_csv("../data/menu.csv")
print(f"✅ Loaded {df.shape[0]} rows and {df.shape[1]} columns")
df.head()

In [None]:
# Informazioni sulle colonne
df.info()

# Statistiche descrittive
df.describe()

In [None]:
# Matrice di correlazione
numeric_df = df.select_dtypes(include=[np.number]).dropna()

plt.figure(figsize=(10, 8))
sns.heatmap(numeric_df.corr(), annot=True, cmap="coolwarm")
plt.title("🔗 Correlation Matrix")
plt.tight_layout()
plt.show()

In [None]:
# Scatter matrix
pd.plotting.scatter_matrix(numeric_df, figsize=(12, 12), diagonal='kde')
plt.suptitle("📊 Scatter Matrix")
plt.tight_layout()
plt.show()

In [None]:
# Boxplot per outlier
for col in numeric_df.columns:
    plt.figure()
    sns.boxplot(x=numeric_df[col])
    plt.title(f"📦 Boxplot: {col}")
    plt.show()

In [None]:
# Feature engineering: normalizzazione calorie
df['normalized_calories'] = (df['Calories'] - df['Calories'].min()) / (df['Calories'].max() - df['Calories'].min())
df[['Calories', 'normalized_calories']].head()

In [None]:
# Modello di regressione lineare
X = df[['Protein', 'Carbohydrates']]
y = df['Calories']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"📈 RMSE: {rmse:.2f}")

In [None]:
# Visualizzazione delle predizioni
plt.scatter(y_test, y_pred)
plt.xlabel("Actual Calories")
plt.ylabel("Predicted Calories")
plt.title("🎯 Actual vs Predicted Calories")
plt.plot([y.min(), y.max()], [y.min(), y.max()], color='red')
plt.tight_layout()
plt.show()

## ✅ Conclusione

Abbiamo esplorato il dataset nutrizionale del menu McDonald's, visualizzato le distribuzioni e correlazioni, trattato gli outlier e costruito un semplice modello di regressione per stimare le calorie in base a proteine e carboidrati.

🔍 Prossimi passi:
- Aggiungere più feature al modello
- Provare modelli non lineari
- Analizzare categorie di prodotto

📁 Questo notebook è pronto per essere pubblicato su GitHub o Kaggle come starter didattico.