# Exerc√≠cios - Regress√£o Linear Univariada
## Solu√ß√µes Completas

Este notebook cont√©m as solu√ß√µes para os 3 exerc√≠cios propostos sobre Regress√£o Linear.

## Preparando o Ambiente

In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = [12, 5]

## Fun√ß√µes Auxiliares

In [None]:
def calc_rss(y_true, y_pred):
    """Calcula o RSS (Residual Sum of Squares)"""
    return float(((y_pred - y_true) ** 2).sum())

def calc_r2(y_true, y_pred):
    """Calcula o R¬≤ (coeficiente de determina√ß√£o)"""
    return r2_score(y_true, y_pred)

def treinar_e_avaliar(X, y, nome_atributo, nome_target):
    """Treina modelo linear e retorna m√©tricas"""
    reg = LinearRegression()
    reg.fit(X, y)
    y_pred = reg.predict(X)
    
    rss = calc_rss(y, y_pred)
    r2 = calc_r2(y, y_pred)
    
    return reg, y_pred, rss, r2

---
# EXERC√çCIO 1 - Portland House Prices

**Objetivo:** Treinar modelos lineares utilizando apenas um dos atributos preditores (tamanho ou quartos) e comparar qual √© mais razo√°vel.

In [None]:
# Carregando dados diretamente do GitHub
url_portland = 'https://raw.githubusercontent.com/laerciosantos09/Senac-MachineLearning/refs/heads/main/Atividade%202/Portland_housePrices.csv'
portland = pd.read_csv(url_portland)
print("Dataset Portland House Prices:")
print(portland.head())
print(f"\nShape: {portland.shape}")
print(f"\nEstat√≠sticas descritivas:")
portland.describe()

### 1.1 Modelo com TAMANHO

In [None]:
# Preparando dados - Tamanho
X_tamanho = portland[['tamanho']]
y_preco = portland['preco']

# Treinando modelo
reg_tamanho, pred_tamanho, rss_tamanho, r2_tamanho = treinar_e_avaliar(
    X_tamanho, y_preco, 'tamanho', 'preco'
)

print("=" * 50)
print("MODELO: TAMANHO -> PRE√áO")
print("=" * 50)
print(f"Coeficiente (slope): {reg_tamanho.coef_[0]:.4f}")
print(f"Intercepto: {reg_tamanho.intercept_:.4f}")
print(f"RSS: {rss_tamanho:,.2f}")
print(f"R¬≤: {r2_tamanho:.4f}")

In [None]:
# Visualiza√ß√£o - Tamanho
plt.figure(figsize=(10, 6))
plt.scatter(X_tamanho, y_preco, color='blue', alpha=0.6, label='Dados reais')
plt.plot(X_tamanho, pred_tamanho, color='red', linewidth=2, label='Regress√£o Linear')
plt.xlabel('Tamanho (p√©s¬≤)', fontsize=12)
plt.ylabel('Pre√ßo ($)', fontsize=12)
plt.title(f'Regress√£o Linear: Tamanho vs Pre√ßo\nR¬≤ = {r2_tamanho:.4f}', fontsize=14)
plt.legend()
plt.tight_layout()
plt.show()

### 1.2 Modelo com QUARTOS

In [None]:
# Preparando dados - Quartos
X_quartos = portland[['quartos']]

# Treinando modelo
reg_quartos, pred_quartos, rss_quartos, r2_quartos = treinar_e_avaliar(
    X_quartos, y_preco, 'quartos', 'preco'
)

print("=" * 50)
print("MODELO: QUARTOS -> PRE√áO")
print("=" * 50)
print(f"Coeficiente (slope): {reg_quartos.coef_[0]:.4f}")
print(f"Intercepto: {reg_quartos.intercept_:.4f}")
print(f"RSS: {rss_quartos:,.2f}")
print(f"R¬≤: {r2_quartos:.4f}")

In [None]:
# Visualiza√ß√£o - Quartos
plt.figure(figsize=(10, 6))
plt.scatter(X_quartos, y_preco, color='green', alpha=0.6, label='Dados reais')
plt.plot(X_quartos, pred_quartos, color='red', linewidth=2, label='Regress√£o Linear')
plt.xlabel('N√∫mero de Quartos', fontsize=12)
plt.ylabel('Pre√ßo ($)', fontsize=12)
plt.title(f'Regress√£o Linear: Quartos vs Pre√ßo\nR¬≤ = {r2_quartos:.4f}', fontsize=14)
plt.legend()
plt.tight_layout()
plt.show()

### 1.3 Compara√ß√£o Visual dos Dois Modelos

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico Tamanho
axes[0].scatter(X_tamanho, y_preco, color='blue', alpha=0.6)
axes[0].plot(X_tamanho, pred_tamanho, color='red', linewidth=2)
axes[0].set_xlabel('Tamanho (p√©s¬≤)')
axes[0].set_ylabel('Pre√ßo ($)')
axes[0].set_title(f'Tamanho vs Pre√ßo\nR¬≤ = {r2_tamanho:.4f} | RSS = {rss_tamanho:,.0f}')

# Gr√°fico Quartos
axes[1].scatter(X_quartos, y_preco, color='green', alpha=0.6)
axes[1].plot(X_quartos, pred_quartos, color='red', linewidth=2)
axes[1].set_xlabel('N√∫mero de Quartos')
axes[1].set_ylabel('Pre√ßo ($)')
axes[1].set_title(f'Quartos vs Pre√ßo\nR¬≤ = {r2_quartos:.4f} | RSS = {rss_quartos:,.0f}')

plt.tight_layout()
plt.show()

### 1.4 Tabela Comparativa - Exerc√≠cio 1

In [None]:
comparacao_ex1 = pd.DataFrame({
    'Atributo': ['Tamanho', 'Quartos'],
    'RSS': [rss_tamanho, rss_quartos],
    'R¬≤': [r2_tamanho, r2_quartos],
    'Coeficiente': [reg_tamanho.coef_[0], reg_quartos.coef_[0]],
    'Intercepto': [reg_tamanho.intercept_, reg_quartos.intercept_]
})

print("\n" + "=" * 60)
print("COMPARA√á√ÉO DOS MODELOS - EXERC√çCIO 1")
print("=" * 60)
print(comparacao_ex1.to_string(index=False))

### üìù RESPOSTA - Exerc√≠cio 1

**1) Observando visualmente o modelo, qual atributo parece mais razo√°vel?**

O atributo **TAMANHO** parece mais razo√°vel visualmente porque:
- Os pontos est√£o mais pr√≥ximos da linha de regress√£o
- H√° uma rela√ß√£o linear mais clara entre tamanho e pre√ßo
- A dispers√£o dos res√≠duos √© menor e mais uniforme
- O atributo "quartos" tem poucos valores √∫nicos (√© discreto), o que dificulta o ajuste linear

**2) O RSS e R¬≤ corroboram suas impress√µes?**

**SIM**, as m√©tricas corroboram a an√°lise visual:
- **R¬≤ do Tamanho √© MAIOR**: Isso indica que o tamanho explica uma propor√ß√£o maior da vari√¢ncia do pre√ßo
- **RSS do Tamanho √© MENOR**: Isso indica que a soma dos erros quadrados √© menor, ou seja, as previs√µes s√£o mais precisas

**Conclus√£o:** O modelo com **TAMANHO** √© claramente superior ao modelo com **QUARTOS** para prever o pre√ßo das casas.

---
# EXERC√çCIO 2 - Advertising

**Objetivo:** Treinar modelos lineares utilizando cada atributo preditor (TV, radio, newspaper) e determinar qual √© melhor.

In [None]:
# Carregando dados diretamente do GitHub
url_advertising = 'https://raw.githubusercontent.com/laerciosantos09/Senac-MachineLearning/refs/heads/main/Atividade%202/Advertising.csv'
advertising = pd.read_csv(url_advertising, index_col=0)
print("Dataset Advertising:")
print(advertising.head())
print(f"\nShape: {advertising.shape}")
print(f"\nEstat√≠sticas descritivas:")
advertising.describe()

In [None]:
# Target
y_sales = advertising['sales']

# Dicion√°rio para armazenar resultados
resultados_ex2 = {}

### 2.1 Modelo com TV

In [None]:
X_tv = advertising[['TV']]
reg_tv, pred_tv, rss_tv, r2_tv = treinar_e_avaliar(X_tv, y_sales, 'TV', 'sales')

resultados_ex2['TV'] = {'reg': reg_tv, 'pred': pred_tv, 'rss': rss_tv, 'r2': r2_tv, 'X': X_tv}

print("MODELO: TV -> SALES")
print(f"R¬≤: {r2_tv:.4f} | RSS: {rss_tv:.2f}")

### 2.2 Modelo com Radio

In [None]:
X_radio = advertising[['radio']]
reg_radio, pred_radio, rss_radio, r2_radio = treinar_e_avaliar(X_radio, y_sales, 'radio', 'sales')

resultados_ex2['Radio'] = {'reg': reg_radio, 'pred': pred_radio, 'rss': rss_radio, 'r2': r2_radio, 'X': X_radio}

print("MODELO: Radio -> SALES")
print(f"R¬≤: {r2_radio:.4f} | RSS: {rss_radio:.2f}")

### 2.3 Modelo com Newspaper

In [None]:
X_newspaper = advertising[['newspaper']]
reg_newspaper, pred_newspaper, rss_newspaper, r2_newspaper = treinar_e_avaliar(X_newspaper, y_sales, 'newspaper', 'sales')

resultados_ex2['Newspaper'] = {'reg': reg_newspaper, 'pred': pred_newspaper, 'rss': rss_newspaper, 'r2': r2_newspaper, 'X': X_newspaper}

print("MODELO: Newspaper -> SALES")
print(f"R¬≤: {r2_newspaper:.4f} | RSS: {rss_newspaper:.2f}")

### 2.4 Visualiza√ß√£o Comparativa dos 3 Modelos

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(16, 5))

cores = ['blue', 'green', 'orange']
atributos = ['TV', 'Radio', 'Newspaper']

for i, (nome, dados) in enumerate(resultados_ex2.items()):
    axes[i].scatter(dados['X'], y_sales, color=cores[i], alpha=0.5, label='Dados reais')
    
    # Ordenar para plotar linha corretamente
    X_sorted = dados['X'].sort_values()
    pred_sorted = dados['reg'].predict(X_sorted)
    axes[i].plot(X_sorted, pred_sorted, color='red', linewidth=2, label='Regress√£o')
    
    axes[i].set_xlabel(nome, fontsize=11)
    axes[i].set_ylabel('Sales', fontsize=11)
    axes[i].set_title(f'{nome} vs Sales\nR¬≤ = {dados["r2"]:.4f}', fontsize=12)
    axes[i].legend()

plt.tight_layout()
plt.show()

### 2.5 Tabela Comparativa - Exerc√≠cio 2

In [None]:
comparacao_ex2 = pd.DataFrame({
    'Atributo': ['TV', 'Radio', 'Newspaper'],
    'RSS': [rss_tv, rss_radio, rss_newspaper],
    'R¬≤': [r2_tv, r2_radio, r2_newspaper],
    'Coeficiente': [reg_tv.coef_[0], reg_radio.coef_[0], reg_newspaper.coef_[0]],
    'Intercepto': [reg_tv.intercept_, reg_radio.intercept_, reg_newspaper.intercept_]
})

# Ordenar por R¬≤ decrescente
comparacao_ex2 = comparacao_ex2.sort_values('R¬≤', ascending=False)

print("\n" + "=" * 70)
print("COMPARA√á√ÉO DOS MODELOS - EXERC√çCIO 2 (ordenado por R¬≤)")
print("=" * 70)
print(comparacao_ex2.to_string(index=False))

In [None]:
# Gr√°fico de barras comparativo
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

atributos = ['TV', 'Radio', 'Newspaper']
r2_valores = [r2_tv, r2_radio, r2_newspaper]
rss_valores = [rss_tv, rss_radio, rss_newspaper]
cores = ['blue', 'green', 'orange']

axes[0].bar(atributos, r2_valores, color=cores)
axes[0].set_ylabel('R¬≤')
axes[0].set_title('Compara√ß√£o R¬≤ (quanto MAIOR, melhor)')
axes[0].set_ylim(0, 1)
for i, v in enumerate(r2_valores):
    axes[0].text(i, v + 0.02, f'{v:.3f}', ha='center', fontweight='bold')

axes[1].bar(atributos, rss_valores, color=cores)
axes[1].set_ylabel('RSS')
axes[1].set_title('Compara√ß√£o RSS (quanto MENOR, melhor)')
for i, v in enumerate(rss_valores):
    axes[1].text(i, v + 20, f'{v:.0f}', ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

### üìù RESPOSTA - Exerc√≠cio 2

**1) Observando visualmente o modelo, qual atributo parece mais razo√°vel?**

Visualmente, o atributo **TV** parece mais razo√°vel porque:
- Os pontos seguem um padr√£o linear mais claro
- A dispers√£o ao redor da linha de regress√£o √© menor
- H√° uma tend√™ncia crescente mais evidente

**Radio** tamb√©m mostra alguma rela√ß√£o, mas com maior dispers√£o.

**Newspaper** apresenta a rela√ß√£o mais fraca - os pontos est√£o muito dispersos.

**2) Qual dos modelos √© melhor? Como voc√™ chegou a esta conclus√£o?**

O modelo com **TV** √© claramente o melhor. Cheguei a esta conclus√£o atrav√©s de:

1. **R¬≤ (Coeficiente de Determina√ß√£o):**
   - TV: R¬≤ mais alto ‚Üí explica maior propor√ß√£o da vari√¢ncia de sales
   - Radio: R¬≤ intermedi√°rio
   - Newspaper: R¬≤ mais baixo ‚Üí explica pouca vari√¢ncia

2. **RSS (Residual Sum of Squares):**
   - TV: RSS mais baixo ‚Üí menor soma dos erros quadrados
   - Radio: RSS intermedi√°rio
   - Newspaper: RSS mais alto ‚Üí maior erro nas previs√µes

**Ranking final: TV > Radio > Newspaper**

---
# EXERC√çCIO 3 - Compara√ß√£o com KNN e Train/Test Split

**Objetivos:**
1. Comparar Regress√£o Linear com KNN-Regressor
2. Usar parti√ß√µes de treino e teste
3. Analisar generaliza√ß√£o dos modelos

### 3.1 Fun√ß√µes para Treino e Avalia√ß√£o com Split

In [None]:
def avaliar_modelos_com_split(X, y, nome_dataset, test_size=0.3, random_state=42):
    """
    Treina e avalia Regress√£o Linear e KNN com e sem split de treino/teste
    """
    resultados = {}
    
    # Split dos dados
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=test_size, random_state=random_state
    )
    
    print(f"\n{'='*60}")
    print(f"Dataset: {nome_dataset}")
    print(f"{'='*60}")
    print(f"Total de amostras: {len(X)}")
    print(f"Amostras de treino: {len(X_train)}")
    print(f"Amostras de teste: {len(X_test)}")
    
    # ========== REGRESS√ÉO LINEAR ==========
    
    # Sem split (dataset completo)
    lr_full = LinearRegression()
    lr_full.fit(X, y)
    pred_full_lr = lr_full.predict(X)
    r2_full_lr = calc_r2(y, pred_full_lr)
    rss_full_lr = calc_rss(y, pred_full_lr)
    
    # Com split
    lr_split = LinearRegression()
    lr_split.fit(X_train, y_train)
    pred_train_lr = lr_split.predict(X_train)
    pred_test_lr = lr_split.predict(X_test)
    r2_train_lr = calc_r2(y_train, pred_train_lr)
    r2_test_lr = calc_r2(y_test, pred_test_lr)
    rss_train_lr = calc_rss(y_train, pred_train_lr)
    rss_test_lr = calc_rss(y_test, pred_test_lr)
    
    resultados['Linear Regression'] = {
        'R¬≤ (dataset completo)': r2_full_lr,
        'R¬≤ (treino)': r2_train_lr,
        'R¬≤ (teste)': r2_test_lr,
        'RSS (dataset completo)': rss_full_lr,
        'RSS (treino)': rss_train_lr,
        'RSS (teste)': rss_test_lr
    }
    
    # ========== KNN REGRESSOR ==========
    # Testando diferentes valores de K
    for k in [3, 5, 7]:
        # Sem split (dataset completo)
        knn_full = KNeighborsRegressor(n_neighbors=k)
        knn_full.fit(X, y)
        pred_full_knn = knn_full.predict(X)
        r2_full_knn = calc_r2(y, pred_full_knn)
        rss_full_knn = calc_rss(y, pred_full_knn)
        
        # Com split
        knn_split = KNeighborsRegressor(n_neighbors=k)
        knn_split.fit(X_train, y_train)
        pred_train_knn = knn_split.predict(X_train)
        pred_test_knn = knn_split.predict(X_test)
        r2_train_knn = calc_r2(y_train, pred_train_knn)
        r2_test_knn = calc_r2(y_test, pred_test_knn)
        rss_train_knn = calc_rss(y_train, pred_train_knn)
        rss_test_knn = calc_rss(y_test, pred_test_knn)
        
        resultados[f'KNN (k={k})'] = {
            'R¬≤ (dataset completo)': r2_full_knn,
            'R¬≤ (treino)': r2_train_knn,
            'R¬≤ (teste)': r2_test_knn,
            'RSS (dataset completo)': rss_full_knn,
            'RSS (treino)': rss_train_knn,
            'RSS (teste)': rss_test_knn
        }
    
    return resultados, X_train, X_test, y_train, y_test

### 3.2 An√°lise - Portland House Prices (Tamanho)

In [None]:
# Usando o melhor atributo do Exerc√≠cio 1: Tamanho
# Os dados j√° est√£o carregados da URL do GitHub
X_portland = portland[['tamanho']]
y_portland = portland['preco']

resultados_portland, X_train_p, X_test_p, y_train_p, y_test_p = avaliar_modelos_com_split(
    X_portland, y_portland, 'Portland (Tamanho -> Pre√ßo)'
)

In [None]:
# Criar DataFrame com resultados
df_portland = pd.DataFrame(resultados_portland).T
print("\nResultados Portland House Prices:")
print(df_portland.round(4).to_string())

### 3.3 An√°lise - Advertising (TV)

In [None]:
# Usando o melhor atributo do Exerc√≠cio 2: TV
# Os dados j√° est√£o carregados da URL do GitHub
X_adv = advertising[['TV']]
y_adv = advertising['sales']

resultados_adv, X_train_a, X_test_a, y_train_a, y_test_a = avaliar_modelos_com_split(
    X_adv, y_adv, 'Advertising (TV -> Sales)'
)

In [None]:
# Criar DataFrame com resultados
df_adv = pd.DataFrame(resultados_adv).T
print("\nResultados Advertising:")
print(df_adv.round(4).to_string())

### 3.4 Visualiza√ß√£o Comparativa

In [None]:
def plot_comparacao_r2(df_resultados, titulo):
    """Plota compara√ß√£o de R¬≤ entre modelos"""
    fig, ax = plt.subplots(figsize=(12, 5))
    
    modelos = df_resultados.index.tolist()
    x = np.arange(len(modelos))
    width = 0.25
    
    bars1 = ax.bar(x - width, df_resultados['R¬≤ (dataset completo)'], width, label='Dataset Completo', color='blue', alpha=0.7)
    bars2 = ax.bar(x, df_resultados['R¬≤ (treino)'], width, label='Treino', color='green', alpha=0.7)
    bars3 = ax.bar(x + width, df_resultados['R¬≤ (teste)'], width, label='Teste', color='red', alpha=0.7)
    
    ax.set_ylabel('R¬≤')
    ax.set_title(f'Compara√ß√£o de R¬≤ - {titulo}')
    ax.set_xticks(x)
    ax.set_xticklabels(modelos, rotation=15)
    ax.legend()
    ax.set_ylim(0, 1.1)
    
    # Adicionar valores nas barras
    for bars in [bars1, bars2, bars3]:
        for bar in bars:
            height = bar.get_height()
            ax.annotate(f'{height:.3f}',
                       xy=(bar.get_x() + bar.get_width() / 2, height),
                       xytext=(0, 3),
                       textcoords="offset points",
                       ha='center', va='bottom', fontsize=8)
    
    plt.tight_layout()
    plt.show()

In [None]:
plot_comparacao_r2(df_portland, 'Portland House Prices')

In [None]:
plot_comparacao_r2(df_adv, 'Advertising')

### 3.5 An√°lise da Diferen√ßa Treino vs Teste (Overfitting)

In [None]:
def analisar_overfitting(df_resultados, nome):
    """Analisa a diferen√ßa entre desempenho no treino e teste"""
    print(f"\n{'='*60}")
    print(f"AN√ÅLISE DE OVERFITTING - {nome}")
    print(f"{'='*60}")
    
    df_analise = df_resultados.copy()
    df_analise['Œî R¬≤ (treino-teste)'] = df_analise['R¬≤ (treino)'] - df_analise['R¬≤ (teste)']
    df_analise['Œî R¬≤ (completo-teste)'] = df_analise['R¬≤ (dataset completo)'] - df_analise['R¬≤ (teste)']
    
    print("\nDiferen√ßa de R¬≤ (valores positivos indicam poss√≠vel overfitting):")
    print(df_analise[['R¬≤ (treino)', 'R¬≤ (teste)', 'Œî R¬≤ (treino-teste)']].round(4).to_string())
    
    return df_analise

analise_portland = analisar_overfitting(df_portland, 'Portland')
analise_adv = analisar_overfitting(df_adv, 'Advertising')

### 3.6 Visualiza√ß√£o das Previs√µes (Treino vs Teste)

In [None]:
# Visualiza√ß√£o para Advertising (maior dataset)
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Treinar modelos
lr = LinearRegression().fit(X_train_a, y_train_a)
knn = KNeighborsRegressor(n_neighbors=5).fit(X_train_a, y_train_a)

# Linear Regression - Treino
axes[0, 0].scatter(X_train_a, y_train_a, color='blue', alpha=0.5, label='Dados treino')
X_plot = np.linspace(X_adv.min(), X_adv.max(), 100).reshape(-1, 1)
axes[0, 0].plot(X_plot, lr.predict(X_plot), color='red', linewidth=2, label='Regress√£o')
axes[0, 0].set_title(f'Linear Regression - TREINO\nR¬≤ = {calc_r2(y_train_a, lr.predict(X_train_a)):.4f}')
axes[0, 0].set_xlabel('TV')
axes[0, 0].set_ylabel('Sales')
axes[0, 0].legend()

# Linear Regression - Teste
axes[0, 1].scatter(X_test_a, y_test_a, color='green', alpha=0.5, label='Dados teste')
axes[0, 1].plot(X_plot, lr.predict(X_plot), color='red', linewidth=2, label='Regress√£o')
axes[0, 1].set_title(f'Linear Regression - TESTE\nR¬≤ = {calc_r2(y_test_a, lr.predict(X_test_a)):.4f}')
axes[0, 1].set_xlabel('TV')
axes[0, 1].set_ylabel('Sales')
axes[0, 1].legend()

# KNN - Treino
axes[1, 0].scatter(X_train_a, y_train_a, color='blue', alpha=0.5, label='Dados treino')
axes[1, 0].scatter(X_plot, knn.predict(X_plot), color='orange', s=5, label='KNN previs√µes')
axes[1, 0].set_title(f'KNN (k=5) - TREINO\nR¬≤ = {calc_r2(y_train_a, knn.predict(X_train_a)):.4f}')
axes[1, 0].set_xlabel('TV')
axes[1, 0].set_ylabel('Sales')
axes[1, 0].legend()

# KNN - Teste
axes[1, 1].scatter(X_test_a, y_test_a, color='green', alpha=0.5, label='Dados teste')
axes[1, 1].scatter(X_plot, knn.predict(X_plot), color='orange', s=5, label='KNN previs√µes')
axes[1, 1].set_title(f'KNN (k=5) - TESTE\nR¬≤ = {calc_r2(y_test_a, knn.predict(X_test_a)):.4f}')
axes[1, 1].set_xlabel('TV')
axes[1, 1].set_ylabel('Sales')
axes[1, 1].legend()

plt.tight_layout()
plt.show()

### 3.7 Tabela Resumo Final

In [None]:
print("\n" + "="*80)
print("RESUMO FINAL - EXERC√çCIO 3")
print("="*80)

print("\n--- PORTLAND HOUSE PRICES ---")
print(df_portland[['R¬≤ (dataset completo)', 'R¬≤ (treino)', 'R¬≤ (teste)']].round(4).to_string())

print("\n--- ADVERTISING ---")
print(df_adv[['R¬≤ (dataset completo)', 'R¬≤ (treino)', 'R¬≤ (teste)']].round(4).to_string())

### üìù RESPOSTA - Exerc√≠cio 3

**1) Compare os resultados das duas regress√µes com a implementa√ß√£o do KNN-Regressor:**

**Regress√£o Linear vs KNN:**
- **Regress√£o Linear**: Modelo mais simples, assume rela√ß√£o linear entre vari√°veis
- **KNN**: Modelo n√£o-param√©trico, mais flex√≠vel, pode capturar rela√ß√µes n√£o-lineares

**Observa√ß√µes gerais:**
- Para dados com rela√ß√£o aproximadamente linear (como TV ‚Üí Sales), a Regress√£o Linear geralmente tem desempenho similar ou melhor que KNN
- KNN tende a ter melhor desempenho no treino (pode memorizar dados), mas pode generalizar pior
- O valor de K no KNN influencia o trade-off entre vi√©s e vari√¢ncia

---

**2) Comparar os resultados na parti√ß√£o de treino e teste:**

- **Treino**: R¬≤ geralmente √© mais alto porque o modelo foi ajustado nesses dados
- **Teste**: R¬≤ pode ser menor, indicando qu√£o bem o modelo generaliza para dados novos
- **Grande diferen√ßa treino-teste**: Indica poss√≠vel **overfitting**

---

**3) Voc√™ acha que o desempenho deveria ser melhor ou pior no dataset completo?**

O desempenho no **dataset completo** tende a ser **"melhor" (R¬≤ mais alto)** porque:
- O modelo √© avaliado nos mesmos dados em que foi treinado
- Isso √© uma avalia√ß√£o **otimista** e n√£o reflete a capacidade real de generaliza√ß√£o
- √â como "colar na prova" - o modelo j√° viu as respostas

**√â poss√≠vel dizer que os modelos treinados no dataset completo generalizam?**

**N√ÉO √© poss√≠vel afirmar com confian√ßa.** Motivos:
- Sem separa√ß√£o treino/teste, n√£o h√° como medir a capacidade de generaliza√ß√£o
- O modelo pode estar sofrendo **overfitting** sem que saibamos
- A m√©trica no dataset completo √© **enviesada** e **superestima** o desempenho real

**Conclus√£o:** A pr√°tica correta √© SEMPRE usar parti√ß√µes de treino/teste (ou valida√ß√£o cruzada) para avaliar modelos de forma honesta e estimar como eles se comportar√£o com dados nunca vistos antes.

---
## Resumo Geral dos 3 Exerc√≠cios

| Exerc√≠cio | Dataset | Melhor Atributo | Conclus√£o Principal |
|-----------|---------|-----------------|---------------------|
| 1 | Portland | Tamanho | R¬≤ maior e RSS menor confirmam an√°lise visual |
| 2 | Advertising | TV | TV > Radio > Newspaper em poder preditivo |
| 3 | Ambos | - | Train/test split √© essencial para avaliar generaliza√ß√£o |

**Aprendizados-chave:**
1. **R¬≤ alto** = modelo explica bem a vari√¢ncia dos dados
2. **RSS baixo** = previs√µes mais pr√≥ximas dos valores reais
3. **Sempre usar train/test split** para avalia√ß√£o honesta
4. **Diferen√ßa grande treino-teste** = poss√≠vel overfitting