# Notebook 02 — Análise Exploratória de Dados (EDA)
Objetivos: entender distribuições, relações entre variáveis e gerar visualizações relevantes para a modelagem.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

plt.rcParams['figure.figsize'] = (8,5)

processed_csv = Path("data/processed/tips_clean.csv")
df = pd.read_csv(processed_csv)
display(df.head())

In [None]:
# estatísticas numéricas
display(df.describe())

# colunas
print("Columns:", df.columns.tolist())

In [None]:
plt.figure()
sns.scatterplot(data=df, x='total_bill', y='tip')
plt.title("Total bill vs Tip")
plt.xlabel("Total bill ($)")
plt.ylabel("Tip ($)")
plt.grid(True)
plt.show()

In [None]:
plt.figure(figsize=(10,8))
corr = df.corr()
sns.heatmap(corr, annot=True, fmt=".2f", cmap="vlag", center=0)
plt.title("Matriz de correlação")
plt.show()

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15,4))
sns.histplot(df['total_bill'], bins=20, kde=True, ax=axes[0])
axes[0].set_title('Distribuição total_bill')
sns.histplot(df['tip'], bins=20, kde=True, ax=axes[1])
axes[1].set_title('Distribuição tip')
sns.countplot(x='size', data=df, ax=axes[2])
axes[2].set_title('Contagem por size')
plt.tight_layout()
plt.show()

In [None]:
# boxplot tip por dia (ex.: se existirem dummies day_* use df original se disponível; aqui usamos total_bill x tip por size)
# Caso queira os boxplots por categorias originais, carregue o raw dataset:
import seaborn as sns
raw = sns.load_dataset("tips")

plt.figure(figsize=(10,5))
sns.boxplot(x='day', y='tip', data=raw)
plt.title('Tip por dia')
plt.show()

plt.figure(figsize=(10,5))
sns.boxplot(x='sex', y='tip', data=raw)
plt.title('Tip por sex')
plt.show()