# ‚úèÔ∏è SOLU√á√ïES: Introdu√ß√£o aos principais conceitos de modelos preditivos.

---

## üìã √çndice

1. [Exerc√≠cio 1: Classifica√ß√£o com Dataset Diabetes](#exercicio1)
2. [Exerc√≠cio 2: Regress√£o com Dataset Housing](#exercicio2)

---

Este notebook cont√©m as **solu√ß√µes completas** para todos os exerc√≠cios do notebook principal.

**‚ö†Ô∏è IMPORTANTE:** Tenta resolver os exerc√≠cios primeiro antes de consultares as solu√ß√µes!

In [None]:
# ============================================================================
# IMPORTA√á√ÉO DE BIBLIOTECAS
# ============================================================================
import pandas as pd
import numpy as np
from google.colab import files
import io
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report, accuracy_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score
import matplotlib.pyplot as plt

print("‚úÖ Todas as bibliotecas importadas!")

In [None]:
# ============================================================================
# FUN√á√ÉO DE PR√â-PROCESSAMENTO
# ============================================================================
def process_data(X, num_vars, cat_vars):
    """
    Processa dados para machine learning: normaliza num√©ricas e codifica categ√≥ricas.
    """
    scaler = StandardScaler()
    enc = OneHotEncoder(sparse_output=False, drop="first")
    
    if len(num_vars) > 0:
        X_num = scaler.fit_transform(X[num_vars])
    else:
        X_num = np.array([]).reshape(X.shape[0], 0)
    
    if len(cat_vars) > 0:
        X_cat = enc.fit_transform(X[cat_vars])
    else:
        X_cat = np.array([]).reshape(X.shape[0], 0)
    
    if X_num.shape[1] > 0 and X_cat.shape[1] > 0:
        X_processed = np.concatenate([X_num, X_cat], axis=1)
    elif X_num.shape[1] > 0:
        X_processed = X_num
    else:
        X_processed = X_cat
    
    return X_processed

print("‚úÖ Fun√ß√£o process_data() carregada!")

# <a name="exercicio1"></a> üìä Exerc√≠cio 1: Classifica√ß√£o com Dataset Diabetes

## Solu√ß√£o 1.1: Identifica√ß√£o de Vari√°veis

**Solu√ß√£o:** Identificar vari√°veis num√©ricas (exceto Outcome) e categ√≥ricas.

In [None]:
# ============================================================================
# CARREGAMENTO DO DATASET
# ============================================================================
# Op√ß√£o 1: Upload do ficheiro (descomenta se necess√°rio)
uploaded = files.upload()
df = pd.read_csv(io.BytesIO(uploaded['diabetes.csv']))

# Op√ß√£o 2: Se o ficheiro j√° estiver no Colab, utiliza:
# df = pd.read_csv('diabetes.csv')

# Verifica√ß√£o
print("‚úÖ Dataset carregado!")
print(f"   Dimens√µes: {df.shape[0]} linhas √ó {df.shape[1]} colunas")
print(f"   Colunas: {list(df.columns)}")
print(f"\nPrimeiras linhas:")
print(df.head())

In [None]:
# ============================================================================
# SOLU√á√ÉO 1.1: IDENTIFICA√á√ÉO DE VARI√ÅVEIS
# ============================================================================
# Identificar tipos num√©ricos
numerics = ["int64", "float64"]

# Selecionar vari√°veis num√©ricas e remover "Outcome"
num_vars = df.select_dtypes(include=numerics).columns.difference(["Outcome"]).tolist()

# Selecionar vari√°veis categ√≥ricas (object)
cat_vars = df.select_dtypes(include="object").columns.tolist()

# Verifica√ß√£o
print("Vari√°veis identificadas:")
print(f"  Num√©ricas ({len(num_vars)}): {num_vars}")
print(f"  Categ√≥ricas ({len(cat_vars)}): {cat_vars}")
print(f"  Target: Outcome")

# Valida√ß√£o
assert "Outcome" not in num_vars, "‚ùå ERRO: Outcome n√£o deve estar em num_vars!"
assert "Outcome" not in cat_vars, "‚ùå ERRO: Outcome n√£o deve estar em cat_vars!"
assert len(num_vars) > 0, "‚ùå ERRO: Deve haver pelo menos uma vari√°vel num√©rica!"
print("\n‚úÖ Estrutura de vari√°veis correta!")

## Solu√ß√£o 1.2: Pr√©-processamento

**Solu√ß√£o:** Separar X e y, e processar os dados usando a fun√ß√£o `process_data()`.

In [None]:
# ============================================================================
# SOLU√á√ÉO 1.2: PR√â-PROCESSAMENTO
# ============================================================================
# Separar vari√°veis independentes (X) e target (y)
X = df.drop("Outcome", axis=1)  # Todas as colunas exceto "Outcome"
y = df["Outcome"]  # Apenas a coluna "Outcome"

# Processar os dados usando a fun√ß√£o process_data
X_processed = process_data(X, num_vars, cat_vars)

print("Pr√©-processamento conclu√≠do!")
print(f"  X.shape: {X.shape}")
print(f"  y.shape: {y.shape}")
print(f"  X_processed.shape: {X_processed.shape}")
print(f"  Tipo de X_processed: {type(X_processed)}")

# Valida√ß√£o
assert X_processed.shape[0] == len(df), "‚ùå ERRO: N√∫mero de linhas n√£o coincide!"
assert isinstance(X_processed, np.ndarray), "‚ùå ERRO: X_processed deve ser um array numpy!"
assert "Outcome" not in X.columns, "‚ùå ERRO: Outcome n√£o deve estar em X!"
print("\n‚úÖ Pr√©-processamento correto!")

## Solu√ß√£o 1.3: Divis√£o Treino/Teste

**Solu√ß√£o:** Dividir o dataset em 80% de treino e 20% de teste usando `train_test_split()`.

In [None]:
# ============================================================================
# SOLU√á√ÉO 1.3: DIVIS√ÉO TREINO/TESTE
# ============================================================================
# Dividir em 80% treino e 20% teste
# IMPORTANTE: Usar X_processed (dados processados) e n√£o X original!
X_train, X_test, y_train, y_test = train_test_split(
    X_processed,  # Usar dados processados!
    y, 
    test_size=0.2,  # 20% para teste = 80% para treino
    random_state=42  # Para reprodutibilidade
)

print(f"‚úÖ Divis√£o conclu√≠da!")
print(f"  Treino: {X_train.shape[0]} amostras")
print(f"  Teste: {X_test.shape[0]} amostras")

## Solu√ß√£o 1.4: Treino e Avalia√ß√£o KNN

**Solu√ß√£o:** Treinar o modelo KNN e avaliar sua performance com matriz de confus√£o e classification report.

In [None]:
# ============================================================================
# SOLU√á√ÉO 1.4: TREINO E AVALIA√á√ÉO KNN
# ============================================================================
# Criar e treinar o modelo KNN
knn = KNeighborsClassifier(n_neighbors=5)  # Usar 5 vizinhos (valor comum)
knn.fit(X_train, y_train)  # Treinar com dados de treino

# Fazer previs√µes nos dados de teste
y_pred = knn.predict(X_test)

# Criar e visualizar matriz de confus√£o
cm = confusion_matrix(y_test, y_pred, labels=df["Outcome"].unique())
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=df["Outcome"].unique())
disp.plot()
plt.title("Matriz de Confus√£o - KNN")
plt.show()

# Mostrar classification report (accuracy, precision, recall, f1-score)
print("\nüìä Classification Report:")
print(classification_report(y_test, y_pred))

# Calcular e mostrar accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"\n‚úÖ Accuracy: {accuracy:.4f} ({accuracy*100:.2f}%)")

# <a name="exercicio2"></a> üè† Exerc√≠cio 2: Regress√£o com Dataset Housing

## Solu√ß√µes das Fun√ß√µes

**Solu√ß√£o:** Completar todas as fun√ß√µes do pipeline de regress√£o.

In [None]:
# ============================================================================
# SOLU√á√ÉO: FUN√á√ïES DO PIPELINE DE REGRESS√ÉO
# ============================================================================

def process_data(X, num_vars, cat_vars):
    """
    Processa dados para machine learning: normaliza num√©ricas e codifica categ√≥ricas.
    """
    scaler = StandardScaler()
    enc = OneHotEncoder(sparse_output=False, drop="first")
    
    if len(num_vars) > 0:
        X_num = scaler.fit_transform(X[num_vars])
    else:
        X_num = np.array([]).reshape(X.shape[0], 0)
    
    if len(cat_vars) > 0:
        X_cat = enc.fit_transform(X[cat_vars])
    else:
        X_cat = np.array([]).reshape(X.shape[0], 0)
    
    if X_num.shape[1] > 0 and X_cat.shape[1] > 0:
        X_processed = np.concatenate([X_num, X_cat], axis=1)
    elif X_num.shape[1] > 0:
        X_processed = X_num
    else:
        X_processed = X_cat
    
    return X_processed


def split_data(X, y, test_portion):
    """
    Divide os dados em treino e teste.
    """
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, 
        test_size=test_portion, 
        random_state=42
    )
    return X_train, X_test, y_train, y_test


def train_model(X_train, X_test, y_train):
    """
    Treina um modelo de regress√£o linear e faz previs√µes.
    """
    reg = LinearRegression().fit(X_train, y_train)  # Fazer o fitting aos dados de treino
    y_pred = reg.predict(X_test)
    return y_pred


def get_error(y_pred, y_true):
    """
    Calcula o erro e visualiza previs√µes vs valores reais.
    """
    print(f"Erro absoluto m√©dio = {mean_absolute_error(y_true, y_pred)}")
    
    plt.figure(figsize=(12, 6))
    plt.plot(range(0, y_true.shape[0]), y_true, color="blue", label="Valores reais", linewidth=1.5)
    plt.plot(range(0, y_pred.shape[0]), y_pred, color="red", label="Valores previstos", linewidth=0.5)
    plt.xlabel("Amostra")
    plt.ylabel("Pre√ßo")
    plt.title("Compara√ß√£o: Valores Reais vs Previstos")
    plt.grid(True, alpha=0.3)
    plt.legend()
    plt.show()

print("‚úÖ Todas as fun√ß√µes criadas com sucesso!")

## Solu√ß√£o: Pipeline Completo

**Solu√ß√£o:** Identificar o target, processar dados, dividir treino/teste, treinar modelo e calcular m√©tricas.

In [None]:
# Carregar dataset housing
uploaded = files.upload()
df2 = pd.read_csv(io.BytesIO(uploaded['housing.csv']))

print("‚úÖ Dataset housing carregado!")
print(f"   Dimens√µes: {df2.shape[0]} linhas √ó {df2.shape[1]} colunas")
print(f"   Colunas: {list(df2.columns)}")
print(f"\nPrimeiras linhas:")
print(df2.head())
print(f"\nTipos de dados:")
print(df2.dtypes)

In [None]:
# ============================================================================
# SOLU√á√ÉO: PIPELINE COMPLETO DE REGRESS√ÉO
# ============================================================================
target = "MEDV"  # OU "median_house_value" dependendo do dataset

# Identificar as vari√°veis explicativas/independentes
independent_vars = df2.columns.difference([target])

# Dividir o target das vari√°veis explicativas
X, y = df2[independent_vars], df2[target]

# Identificar as vari√°veis categ√≥ricas
cat_vars = df2[independent_vars].select_dtypes(include="object").columns.tolist()

# Identificar as vari√°veis num√©ricas (todas menos as categ√≥ricas e o target)
num_vars = df2[independent_vars].select_dtypes(include=["int64", "float64"]).columns.tolist()

print(f"\nüìä Vari√°veis identificadas:")
print(f"  Num√©ricas ({len(num_vars)}): {num_vars}")
print(f"  Categ√≥ricas ({len(cat_vars)}): {cat_vars}")
print(f"  Target: {target}")

# Processar os dados (normaliza√ß√£o e one-hot encoding)
X_processed = process_data(X, num_vars, cat_vars)

# Dividir o dataset em treino (70%) e teste (30%)
X_train, X_test, y_train, y_test = split_data(X_processed, y, 0.3)

# Treinar o modelo e fazer previs√µes
y_pred = train_model(X_train, X_test, y_train)

# Calcular e visualizar erros
get_error(y_pred, y_test)

# Calcular e mostrar R¬≤ (coeficiente de determina√ß√£o)
r2 = r2_score(y_test, y_pred)
print(f"\n‚úÖ R¬≤ (Coeficiente de Determina√ß√£o) = {r2:.4f}")
print(f"   (R¬≤ pr√≥ximo de 1 indica bom ajuste do modelo)")