# ==========================================
# MACHINE LEARNING - FCUP
# Módulo: Análise Exploratória de Dados (AED)
# ==========================================

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import fetch_california_housing

In [None]:
# Configurações visuais
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = [10, 6]

# ==========================================
# PARTE 1: EXEMPLO GUIADO (California Housing)
# ==========================================
# Contexto: Dados do censo de 1990 da Califórnia.
# Objetivo: Entender o que influencia o preço das casas.

In [None]:
print("--- CARREGANDO DADOS (California Housing) ---")
df = pd.read_csv("housing.csv")
df.head()

In [None]:
# 1. Caracterização Inicial
# ------------------------------------------
print("\n1. Visualização das primeiras linhas:")
display(df.head())

print("\n2. Informações dos Tipos de Dados (Metadados):")
# Note: Todos são float64 (Quantitativos Razão/Intervalar)
print(df.info())

print("\n3. Estatísticas Descritivas (Centralidade e Dispersão):")
# count, mean (centralidade), std (dispersão), min/max (amplitude), quartis (distribuição)
display(df.describe())

In [None]:
# 2. Análise Univariada (Uma variável por vez)
# ------------------------------------------
# Vamos analisar a variável alvo: 'MedHouseVal' (Valor Mediano da Casa)

plt.figure(figsize=(12, 5))

In [None]:
# Histograma com KDE (Kernel Density Estimate) - Para ver a Distribuição
plt.subplot(1, 2, 1)
sns.histplot(df['median_house_value'], kde=True, bins=30, color='blue')
plt.title('Distribuição dos Preços das Casas')
plt.xlabel('Valor Mediano (x $100.000)')

In [None]:
# Boxplot - Para ver Centralidade e Outliers
plt.subplot(1, 2, 2)
sns.boxplot(x=df['median_house_value'], color='lightblue')
plt.title('Boxplot dos Preços')
plt.xlabel('Valor Mediano')
plt.tight_layout()
plt.show()

print(f"Assimetria (Skewness): {df['median_house_value'].skew():.2f}")
print("Nota: A cauda à direita indica que há poucas casas muito caras puxando a média para cima.")

In [None]:
# 3. Análise Multivariada (Relação entre variáveis)
# ------------------------------------------
# Pergunta: A renda média (MedInc) influencia o valor da casa (MedHouseVal)?

plt.figure(figsize=(8, 6))
sns.scatterplot(data=df, x='median_income', y='median_house_value', alpha=0.3)
plt.title('Renda Média vs. Valor da Casa')
plt.xlabel('Renda Média (MedInc)')
plt.ylabel('Valor da Casa (MedHouseVal)')
plt.show()

In [None]:
# Matriz de Correlação
# Vamos ver a correlação entre todas as variáveis numéricas
corr_matrix = df.corr(numeric_only=True)

plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title('Matriz de Correlação (Pearson)')
plt.show()

print("Interpretação: Note a forte correlação positiva (0.69) entre MedInc e MedHouseVal.")

In [None]:
# ==========================================================
# 1. PEARSON vs SPEARMAN (Dados Numéricos)
# ==========================================================
print("Comparando Pearson (Linear) com Spearman (Rank/Ordem)")

# Pearson (Padrão)
corr_pearson = df.corr(method='pearson', numeric_only=True)

# Spearman (Baseado em Rank - Bom para não-linearidades e outliers)
corr_spearman = df.corr(method='spearman', numeric_only=True)

# Visualizando a diferença para uma relação específica
# Vamos ver a relação entre Renda (MedInc) e Preço (MedHouseVal)
print(f"Correlação Pearson: {corr_pearson.loc['median_income', 'median_house_value']:.4f}")
print(f"Correlação Spearman: {corr_spearman.loc['median_income', 'median_house_value']:.4f}")

print("\nNota: Se Spearman for muito diferente de Pearson, seus dados provavelmente têm outliers ou a relação não é uma linha reta perfeita.")

In [None]:
# ==========================================================
# 2. DADOS CATEGÓRICOS (Para Letras e Ciências Sociais)
# ==========================================================
# Pearson falha com texto. Como ver relação entre duas categorias?
# Exemplo: Existe relação entre "Sobreviver" e "Classe" no Titanic?

df_titanic = pd.read_csv("Titanic-Dataset.csv")

# Usamos Tabela de Contingência (Crosstab) em vez de .corr()
tabela = pd.crosstab(df_titanic['Pclass'], df_titanic['Survived'])

print("\n\nTabela de Contingência (Classe vs Sobrevivência):")
display(tabela)

# Visualizando com Heatmap (Mais intuitivo que o número puro)
plt.figure(figsize=(6, 4))
sns.heatmap(tabela, annot=True, fmt='d', cmap='YlGnBu')
plt.title('Mapa de Calor: Quem sobreviveu mais?')
plt.xlabel('Sobreviveu (0=Não, 1=Sim)')
plt.ylabel('Classe Social')
plt.show()

print("Interpretação: O mapa mostra claramente que na 1ª Classe (First), o número de sobreviventes (1) é maior que o de não sobreviventes (0), invertendo-se na 3ª classe.")