# üéì Aula 1: Introdu√ß√£o aos principais conceitos de modelos preditivos.

---

## üìã √çndice

1. [Problema de Classifica√ß√£o](#classifica√ß√£o)
   - Gera√ß√£o de Dados Sint√©ticos
   - Visualiza√ß√£o e Explora√ß√£o
   - Treino e Avalia√ß√£o de Modelo KNN
   - An√°lise de Overfitting
2. [Problema de Regress√£o](#regress√£o)
   - Carregamento e Explora√ß√£o de Dados
   - Pr√©-processamento (Normaliza√ß√£o e One-Hot Encoding)
   - Treino e Avalia√ß√£o de Regress√£o Linear

---

## üéØ Objetivos de Aprendizagem

Ao completares este notebook ser√°s capaz de:

1. **Compreender** a diferen√ßa entre problemas de classifica√ß√£o e regress√£o
2. **Aplicar** treinar o teu primeiro modelo de Machine Learning
3. **Interpretar** m√©tricas de avalia√ß√£o (matriz de confus√£o, precision, recall, MAE)
4. **Reconhecer** sinais de overfitting comparando performance em treino vs. teste
5. **Praticar** t√©cnicas de pr√©-processamento: normaliza√ß√£o e one-hot encoding

---

## üìö Pr√©-requisitos

Antes de come√ßar, certifica-te de que voc√™:
- Tens conhecimento b√°sico de Python e pandas
- Entendes conceitos b√°sicos de estat√≠stica (m√©dia, desvio padr√£o)
- Est√°s familiarizado com o ambiente Google Colab
- Compreendes a diferen√ßa entre vari√°veis categ√≥ricas e num√©ricas

---

## üíæ Configura√ß√£o Inicial

Executa a c√©lula abaixo para garantir que todas as bibliotecas necess√°rias est√£o dispon√≠veis. Se alguma importa√ß√£o falhar, use `!pip install nome_da_biblioteca` para instalar.


# <a name="classifica√ß√£o"></a> üìä Problema de Classifica√ß√£o

## Parte 1: Gera√ß√£o e Visualiza√ß√£o de Dados Sint√©ticos

### üéì Conceito: Dados Sint√©ticos para Aprendizagem

Em machine learning, muitas vezes come√ßamos com **dados sint√©ticos** (gerados artificialmente) porque:
- S√£o simples e f√°ceis de visualizar
- Permitem focar nos conceitos sem distra√ß√µes de dados reais complexos
- Garantem que sabemos a "verdade" sobre os dados (ground truth)

> **Key Insight:** Dados sint√©ticos s√£o uma ferramenta pedag√≥gica poderosa. Eles permitem-nos entender como os algoritmos funcionam antes de lidar com a complexidade e ru√≠do dos dados reais.

### üìù O que vamos fazer nesta c√©lula:

1. **Importar bibliotecas** essenciais para machine learning e visualiza√ß√£o
2. **Gerar dados sint√©ticos** usando `make_blobs` do scikit-learn
3. **Visualizar os dados** num gr√°fico de dispers√£o 2D

### ‚ö†Ô∏è Aten√ß√£o Especial:

- `make_blobs` cria "nuvens" de pontos (clusters) separados
- Cada ponto pertence a uma classe (0 ou 1)
- `random_state=0` garante resultados reproduz√≠veis

### ü§î Antes de executares, pensa:

- Quantas classes esperas ver no gr√°fico?
- Como √© que os pontos das diferentes classes devem estar distribu√≠dos?

In [None]:
# ============================================================================
# IMPORTA√á√ÉO DE BIBLIOTECAS
# ============================================================================
# sklearn: Biblioteca principal para machine learning em Python
#   - make_blobs: Gera dados sint√©ticos em formato de clusters
# numpy: Opera√ß√µes num√©ricas eficientes (arrays multidimensionais)
# matplotlib: Visualiza√ß√£o de dados (gr√°ficos e plots)
from sklearn.datasets import make_blobs
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import colors

# ============================================================================
# GERA√á√ÉO DE DADOS SINT√âTICOS
# ============================================================================
# make_blobs cria pontos agrupados em "nuvens" (blobs)
# Par√¢metros importantes:
#   - centers=2: Cria 2 grupos distintos (2 classes)
#   - cluster_std=2: Desvio padr√£o dos clusters (quanto maior, mais espalhados)
#   - n_samples=50: Total de pontos gerados (25 por classe)
#   - random_state=0: Semente aleat√≥ria para reproducibilidade
#
# Retorna:
#   - X: Array (50, 2) com as coordenadas dos pontos [vari√°veis explicativas]
#   - y: Array (50,) com as classes (0 ou 1) [vari√°vel target/objetivo]
X, y = make_blobs(centers=2, cluster_std=2, random_state=0, n_samples=50)

# ============================================================================
# VISUALIZA√á√ÉO DOS DADOS
# ============================================================================
# Criar figura para o gr√°fico
plt.figure(figsize=(8, 6))
plt.gca().set_aspect("equal")  # Eixos com mesma escala (importante para dist√¢ncias)

# scatter: Gr√°fico de dispers√£o
#   - X[:, 0]: Primeira coordenada (eixo x)
#   - X[:, 1]: Segunda coordenada (eixo y)
#   - c=y: Cores baseadas nas classes (0=azul, 1=laranja por padr√£o)
plt.scatter(X[:, 0], X[:, 1], c=y, s=100, alpha=0.6, edgecolors='black', linewidth=1.5)
plt.xlabel('Caracter√≠stica 1', fontsize=12)
plt.ylabel('Caracter√≠stica 2', fontsize=12)
plt.title('Distribui√ß√£o dos Dados Sint√©ticos (2 Classes)', fontsize=14, fontweight='bold')
plt.colorbar(label='Classe')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# üìä OBSERVA√á√ÉO: Nota como os pontos formam dois grupos distintos.
#    Isso facilita a tarefa de classifica√ß√£o visto que um algoritmo deve conseguir
#    separar essas duas classes com relativa facilidade.

### üîç Checkpoint: Explorando a Estrutura dos Dados

Agora vamos **inspecionar** a estrutura dos dados que acabamos de gerar. Isso √© uma pr√°tica essencial em qualquer projeto de ML!

> **Key Insight:** Verifica sempre a forma (shape) dos dados antes de os processares. Isso evita erros comuns de dimens√µes incompat√≠veis.

**O que esperamos ver:**
- `X.shape` deve retornar `(50, 2)` ‚Üí 50 amostras, 2 caracter√≠sticas
- `y.shape` deve retornar `(50,)` ‚Üí 50 labels correspondentes

In [None]:
# ============================================================================
# VERIFICA√á√ÉO DA ESTRUTURA DOS DADOS
# ============================================================================
# .shape retorna (n√∫mero_de_linhas, n√∫mero_de_colunas)
# Para X: esperamos (50, 2) ‚Üí 50 amostras, 2 caracter√≠sticas
print("Forma da matriz X (vari√°veis explicativas):")
print(f"  X.shape = {X.shape}")
print(f"  ‚Üí {X.shape[0]} amostras, {X.shape[1]} caracter√≠sticas\n")

print("Forma do vetor y (vari√°vel target):")
print(f"  y.shape = {y.shape}")
print(f"  ‚Üí {y.shape[0]} labels\n")

# Verifica√ß√£o importante: n√∫mero de amostras deve coincidir!
assert X.shape[0] == y.shape[0], "ERRO: N√∫mero de amostras em X e y n√£o coincide!"
print("‚úÖ Estrutura dos dados est√° correta!")

### üìä Explora√ß√£o Opcional: Valores dos Dados

Executa a c√©lula abaixo se quiser ver os **valores reais** das coordenadas. Isso ajuda a entender como os dados est√£o distribu√≠dos numericamente.

In [None]:
# Visualizar os primeiros 10 pontos e estat√≠sticas b√°sicas
print("Primeiros 10 pontos (amostras):")
print(X[:10])
print("\n" + "="*50)
print("Estat√≠sticas descritivas:")
print(f"M√©dia das caracter√≠sticas: {X.mean(axis=0)}")
print(f"Desvio padr√£o: {X.std(axis=0)}")
print(f"Valor m√≠nimo: {X.min(axis=0)}")
print(f"Valor m√°ximo: {X.max(axis=0)}")

### üè∑Ô∏è Explorando as Labels (Classes)

Agora vamos ver as **classes** (labels) de cada ponto. Em problemas de classifica√ß√£o, estas s√£o as respostas que queremos prever.

> **Key Insight:** Em machine learning supervisionado, temos acesso √†s labels durante o treino, mas o modelo deve aprender a prever labels para novos dados que nunca viu.

In [None]:
# ============================================================================
# EXPLORA√á√ÉO DAS LABELS (CLASSES)
# ============================================================================
# y cont√©m as classes verdadeiras para cada amostra
print("Primeiras 15 labels:")
print(y[:15])
print("\n" + "="*50)
print("Distribui√ß√£o das classes:")
unique, counts = np.unique(y, return_counts=True)
for cls, count in zip(unique, counts):
    print(f"  Classe {cls}: {count} amostras ({count/len(y)*100:.1f}%)")

print(f"\nTotal de classes √∫nicas: {len(unique)}")
print(f"Classes: {unique}")

In [None]:
# A biblioteca sklearn oferece uma fun√ß√£o que divide o dataset em treino e teste. Temos de importar
from sklearn.model_selection import train_test_split
# A fun√ß√£o permite-nos escolher a por√ß√£o de teste que queremos 
# Tipicamente a por√ß√£o de teste √© bastante menor que a de treino, pois precisamos mais dados para treinar. 
# Propor√ß√µes t√≠picas s√£o 80%/75% de treino e 20%/25% de teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

### üß™ Explora√ß√£o Interativa

Agora vamos experimentar com diferentes valores de K para ver como isso afeta a performance do modelo!

> **üí° Experimenta:** Altera o valor de `n_neighbors` abaixo e observe como a m√©trica **accuracy** muda. Valores maiores de K tendem a ser mais est√°veis mas podem perder detalhes locais.


In [None]:
# ============================================================================
# TESTANDO DIFERENTES VALORES DE K
# ============================================================================
# @title Experimente diferentes valores de K
n_neighbors = 3  # @param {type:"slider", min:1, max:15, step:1}

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Treinar modelo com K escolhido
knn_exp = KNeighborsClassifier(n_neighbors=n_neighbors)
knn_exp.fit(X_train, y_train)

# Avaliar
y_pred_train_exp = knn_exp.predict(X_train)
y_pred_test_exp = knn_exp.predict(X_test)

acc_train_exp = accuracy_score(y_train, y_pred_train_exp)
acc_test_exp = accuracy_score(y_test, y_pred_test_exp)

print(f"K = {n_neighbors}")
print(f"Accuracy no Treino:  {acc_train_exp:.3f} ({acc_train_exp*100:.1f}%)")
print(f"Accuracy no Teste:   {acc_test_exp:.3f} ({acc_test_exp*100:.1f}%)")
print(f"Diferen√ßa:           {acc_train_exp - acc_test_exp:.3f}")

# Visualiza√ß√£o da fronteira de decis√£o (opcional, apenas para visualiza√ß√£o 2D)
if X.shape[1] == 2:
    from matplotlib.colors import ListedColormap
    import numpy as np
    
    h = 0.02  # passo da malha
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    
    Z = knn_exp.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    plt.figure(figsize=(10, 6))
    plt.contourf(xx, yy, Z, alpha=0.4, cmap=plt.cm.RdYlBu)
    plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, s=100, 
                edgecolors='black', linewidth=1.5, cmap=plt.cm.RdYlBu, label='Treino')
    plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, s=100, marker='^',
                edgecolors='black', linewidth=1.5, cmap=plt.cm.RdYlBu, label='Teste')
    plt.xlabel('Caracter√≠stica 1', fontsize=12)
    plt.ylabel('Caracter√≠stica 2', fontsize=12)
    plt.title(f'Fronteira de Decis√£o - KNN com K={n_neighbors}', fontsize=14, fontweight='bold')
    plt.legend()
    plt.tight_layout()
    plt.show()
    
    print("\nüí° Observe como a fronteira de decis√£o muda com diferentes valores de K!")


## Parte 2: Treino e Avalia√ß√£o do Modelo KNN

### üéì Conceito: Divis√£o Treino/Teste

**Porque devemos dividir os dados?**

Em machine learning, nunca avaliamos o modelo com os mesmos dados utilizados para treinar o modelo. Isso seria como fazer um exame com as mesmas perguntas que estudaste!

- **Conjunto de Treino (75%)**: Dados usados para "ensinar" o modelo
- **Conjunto de Teste (25%)**: Dados usados para avaliar se o modelo generaliza bem

> **Key Insight:** A divis√£o treino/teste simula a situa√ß√£o real: o modelo aprende com dados hist√≥ricos e deve prever corretamente dados novos que nunca viu.

### üéì Conceito: K-Nearest Neighbors (KNN)

**Como funciona o KNN?**

1. Para classificar um novo ponto, o algoritmo encontra os **K pontos mais pr√≥ximos** no conjunto de treino
2. A classe do novo ponto √© determinada pela **vota√ß√£o** das classes dos K vizinhos mais pr√≥ximos
3. Com `n_neighbors=1`, usamos apenas o vizinho mais pr√≥ximo (mais simples, mas pode ser inst√°vel)

### üìä M√©tricas de Avalia√ß√£o

Vamos usar tr√™s ferramentas para avaliar o modelo:

1. **Matriz de Confus√£o**: Permite visualisar as previs√µes corretas e erradas por classe
2. **Classification Report**: Resume a precision, o recall, o f1-score e a accuracy

### ü§î Antes de executar, pensa:

- Qual a accuracy que esperas? (Lembra-te: temos 2 classes bem separadas)
- O que significa o precision e o recall?
- Porque precisamos da matriz de confus√£o?

In [None]:
# ============================================================================
# IMPORTA√á√ïES NECESS√ÅRIAS
# ============================================================================
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report

# ============================================================================
# DIVIS√ÉO TREINO/TESTE
# ============================================================================
# train_test_split: Divide os dados aleatoriamente em dois conjuntos
# Par√¢metros importantes:
#   - test_size=0.25: 25% dos dados v√£o para teste (75% para treino)
#   - random_state: Garante que a divis√£o √© reproduz√≠vel
#   - shuffle=True (padr√£o): Embaralha os dados antes de dividir
#
# ‚ö†Ô∏è ATEN√á√ÉO: random_state garante resultados reproduz√≠veis. 
#    Sem ele, cada execu√ß√£o pode dar resultados diferentes!
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.25, 
    random_state=42,  # Adicionado para reproducibilidade
    stratify=y  # Mant√©m propor√ß√£o de classes em treino e teste
)

print("Divis√£o dos dados:")
print(f"  Treino: {X_train.shape[0]} amostras ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"  Teste:  {X_test.shape[0]} amostras ({X_test.shape[0]/len(X)*100:.1f}%)")
print()

# ============================================================================
# TREINO DO MODELO KNN
# ============================================================================
# KNeighborsClassifier: Algoritmo de classifica√ß√£o baseado em dist√¢ncias
# Par√¢metro chave:
#   - n_neighbors=1: Usa apenas o vizinho mais pr√≥ximo
#     (K=1 √© simples mas pode ser muito sens√≠vel a ru√≠do)
#
# ‚ö†Ô∏è ATEN√á√ÉO: K=1 significa que cada ponto √© classificado exatamente
#    como seu vizinho mais pr√≥ximo. Isso pode levar a overfitting!
knn = KNeighborsClassifier(n_neighbors=1)

# .fit(): Treina o modelo com os dados de treino
#   - X_train: caracter√≠sticas (features)
#   - y_train: labels verdadeiras (ground truth)
#   O modelo "aprende" a rela√ß√£o entre X e y
print("Treinando modelo KNN (K=1)...")
knn.fit(X_train, y_train)
print("‚úÖ Modelo treinado!\n")

# ============================================================================
# PREVIS√ïES NO CONJUNTO DE TESTE
# ============================================================================
# .predict(): Faz previs√µes para novos dados
#   - X_test: caracter√≠sticas do conjunto de teste
#   - Retorna: y_pred (previs√µes do modelo)
#   ‚ö†Ô∏è IMPORTANTE: O modelo N√ÉO v√™ y_test durante a previs√£o!
y_pred = knn.predict(X_test)

print(f"Previs√µes realizadas: {len(y_pred)} amostras\n")

# ============================================================================
# AVALIA√á√ÉO DO MODELO: MATRIZ DE CONFUS√ÉO
# ============================================================================
# Matriz de Confus√£o: Tabela que mostra acertos e erros
#   - Diagonal principal: previs√µes corretas
#   - Fora da diagonal: erros de classifica√ß√£o
#   - √ötil para entender QUAIS classes s√£o confundidas
cm = confusion_matrix(y_test, y_pred, labels=[0, 1])
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=[0, 1])
disp.plot(cmap='Blues', values_format='d')
plt.title('Matriz de Confus√£o - Conjunto de Teste', fontsize=12, fontweight='bold')
plt.tight_layout()
plt.show()

# ============================================================================
# AVALIA√á√ÉO DO MODELO: RELAT√ìRIO DE CLASSIFICA√á√ÉO
# ============================================================================
# Classification Report: Resumo de m√©tricas importantes
#   - Precision: Dos que previ como classe X, quantos eram realmente X?
#   - Recall: De todos os que s√£o classe X, quantos consegui identificar?
#   - F1-score: M√©dia harm√¥nica de precision e recall
#   - Support: N√∫mero de amostras de cada classe no teste
print("="*60)
print("RELAT√ìRIO DE CLASSIFICA√á√ÉO - Conjunto de Teste")
print("="*60)
print(classification_report(y_test, y_pred, target_names=['Classe 0', 'Classe 1']))
print("="*60)

### üîç Checkpoint: Comparando Performance em Treino vs. Teste

Agora vamos avaliar o modelo no **conjunto de treino** (os dados que ele j√° viu). Isso √© crucial para detectar **overfitting**!

> **Key Insight:** Overfitting ocorre quando o modelo "decora" os dados de treino mas n√£o generaliza bem para novos dados. Um sinal cl√°ssico √© accuracy muito alta no treino mas baixa no teste.

### ü§î Antes de executar, pensa:

- Esperas que a accuracy no treino seja maior, menor ou igual √† do teste? Por qu√™?
- Se a accuracy no treino for 100% mas no teste for 70%, o que isso indica?
- Com K=1, o que esperas ver no conjunto de treino?

In [None]:
# ============================================================================
# AVALIA√á√ÉO NO CONJUNTO DE TREINO
# ============================================================================
# ‚ö†Ô∏è ATEN√á√ÉO: Esta avalia√ß√£o √© apenas para compara√ß√£o educacional!
#    Em projetos reais, focamos na performance no conjunto de teste.
y_pred_train = knn.predict(X_train)

# Matriz de confus√£o no treino
cm_train = confusion_matrix(y_train, y_pred_train, labels=[0, 1])
disp_train = ConfusionMatrixDisplay(confusion_matrix=cm_train, display_labels=[0, 1])
disp_train.plot(cmap='Greens', values_format='d')
plt.title('Matriz de Confus√£o - Conjunto de Treino', fontsize=12, fontweight='bold')
plt.tight_layout()
plt.show()

# Relat√≥rio de classifica√ß√£o no treino
print("="*60)
print("RELAT√ìRIO DE CLASSIFICA√á√ÉO - Conjunto de Treino")
print("="*60)
print(classification_report(y_train, y_pred_train, target_names=['Classe 0', 'Classe 1']))
print("="*60)

# ============================================================================
# COMPARA√á√ÉO: TREINO vs. TESTE
# ============================================================================
from sklearn.metrics import accuracy_score

acc_train = accuracy_score(y_train, y_pred_train)
acc_test = accuracy_score(y_test, y_pred)

print("\n" + "="*60)
print("COMPARA√á√ÉO DE PERFORMANCE")
print("="*60)
print(f"Accuracy no Treino:  {acc_train:.3f} ({acc_train*100:.1f}%)")
print(f"Accuracy no Teste:   {acc_test:.3f} ({acc_test*100:.1f}%)")
print(f"Diferen√ßa:           {acc_train - acc_test:.3f} ({abs(acc_train - acc_test)*100:.1f} pontos percentuais)")

if acc_train > acc_test + 0.1:  # Diferen√ßa maior que 10%
    print("\n‚ö†Ô∏è  ATEN√á√ÉO: Grande diferen√ßa detectada!")
    print("   Isso pode indicar overfitting - o modelo 'decorou' os dados de treino.")
    print("   Solu√ß√µes poss√≠veis: aumentar o K, usar mais dados, ou regulariza√ß√£o.")
elif abs(acc_train - acc_test) < 0.05:
    print("\n‚úÖ Performance similar em treino e teste.")
    print("   O modelo parece estar generalizando bem!")
else:
    print("\nüìä Diferen√ßa moderada entre treino e teste.")
print("="*60)

---

# <a name="regress√£o"></a> üìà Problema de Regress√£o

## Introdu√ß√£o: Classifica√ß√£o vs. Regress√£o

At√© agora trabalhamos com **classifica√ß√£o** (prever classes discretas: 0 ou 1). Agora vamos trabalhar com a **regress√£o** (prever valores num√©ricos cont√≠nuos).

### üéì Diferen√ßas Principais:

| Aspecto | Classifica√ß√£o | Regress√£o |
|---------|--------------|-----------|
| **Output** | Classes discretas (0, 1, 2...) | Valores cont√≠nuos (1.5, 3.7, 10.2...) |
| **Exemplo** | "√â um gato ou c√£o?" | "Qual o pre√ßo desta casa?" |
| **M√©tricas** | Accuracy, Precision, Recall | MAE, RMSE, R¬≤ |
| **Algoritmos** | KNN, √Årvores de Decis√£o | Regress√£o Linear, Random Forest |

### üìä Dataset: Abalone

Vamos utilizar o dataset **Abalone** (b√∫zios), que cont√©m caracter√≠sticas f√≠sicas de moluscos e o objetivo √© prever o n√∫mero de an√©is (relacionado com a idade).

> **Key Insight:** Em regress√£o, n√£o classificamos em categorias, mas estimamos um valor num√©rico. A avalia√ß√£o mede o "erro" entre valores previstos e reais.

---

## Parte 1: Carregamento e Explora√ß√£o de Dados

### üìÅ Passo 1: Carregar o Dataset

**Instru√ß√µes:**
1. Executa a c√©lula abaixo
2. Seleciona "Choose Files" ou "Escolher Ficheiros"
3. Selecione o ficheiro `abalone.csv` do seu computador
4. Aguarda a confirma√ß√£o do upload

> **üí° Dica:** Se o ficheiro j√° estiver no Colab, podes comentar o c√≥digo de upload e usar `pd.read_csv('abalone.csv')` diretamente.

### ‚ö†Ô∏è Importante:
- Sem este passo, as c√©lulas seguintes n√£o funcionar√£o
- O ficheiro ser√° salvo temporariamente no ambiente do Colab
- Se desconectares a sess√£o, precisar√°s de fazer upload novamente

In [None]:
# ============================================================================
# CARREGAMENTO DE FICHEIRO NO GOOGLE COLAB
# ============================================================================
# files.upload(): Abre uma interface para selecionar ficheiro do computador
#   - Funciona apenas no Google Colab
#   - Para Jupyter local, use: df = pd.read_csv('caminho/para/abalone.csv')
from google.colab import files

print("üìÅ Por favor, selecione o ficheiro 'abalone.csv'")
print("   (Se j√° estiver no Colab, pode comentar esta c√©lula e usar pd.read_csv diretamente)\n")
uploaded = files.upload()

# Verificar se o upload foi bem-sucedido
if 'abalone.csv' in uploaded:
    print(f"‚úÖ Ficheiro carregado com sucesso! Tamanho: {len(uploaded['abalone.csv'])} bytes")
else:
    print("‚ö†Ô∏è  Ficheiro 'abalone.csv' n√£o encontrado. Verifique o nome do ficheiro.")

### üìñ Passo 2: Ler o Dataset para um DataFrame

Agora vamos converter o ficheiro carregado em um **DataFrame do pandas**, que √© a estrutura de dados mais comum para trabalhar com dados tabulares em Python.

In [None]:
# ============================================================================
# IMPORTA√á√ïES E LEITURA DO DATASET
# ============================================================================
import io
import pandas as pd
import numpy as np

# pd.read_csv(): L√™ ficheiro CSV e cria um DataFrame
#   - io.BytesIO(): Converte os bytes do upload em um objeto que o pandas pode ler
#   - DataFrame: Estrutura tabular (como uma planilha Excel) com linhas e colunas
df = pd.read_csv(io.BytesIO(uploaded['abalone.csv']))

print("‚úÖ Dataset carregado com sucesso!")
print(f"\nPrimeiras linhas do dataset:")
print(df.head())
print(f"\nüìä Informa√ß√£o geral:")
print(f"   Dimens√µes: {df.shape[0]} linhas √ó {df.shape[1]} colunas")
print(f"   Nome das colunas: {list(df.columns)}")

### üîç Checkpoint: Explorando a Estrutura do Dataset

Antes de processar os dados, pensa:
- **Tamanho**: Quantas amostras e features temos?
- **Tipos de dados**: Quais s√£o as features num√©ricas? Quais s√£o as categ√≥ricas?
- **Valores ausentes**: Temos dados em falta?

> **Key Insight:** A explora√ß√£o inicial (EDA - Exploratory Data Analysis) √© crucial. Ela permite revelar problemas que precisam ser resolvidos antes de treinar modelos.

In [None]:
# ============================================================================
# DIMENS√ïES DO DATASET
# ============================================================================
print("Dimens√µes do dataset:")
print(f"  (linhas, colunas) = {df.shape}")
print(f"  ‚Üí {df.shape[0]} amostras")
print(f"  ‚Üí {df.shape[1]} caracter√≠sticas\n")

# Verificar valores ausentes
missing = df.isnull().sum()
if missing.sum() > 0:
    print("‚ö†Ô∏è  Valores ausentes encontrados:")
    print(missing[missing > 0])
else:
    print("‚úÖ Nenhum valor ausente encontrado!")

In [None]:
# ============================================================================
# TIPOS DE DADOS
# ============================================================================
print("Tipos de dados por coluna:")
print(df.dtypes)
print("\n" + "="*50)

# Separar vari√°veis num√©ricas e categ√≥ricas
numerics = ['float64', 'int64']
num_vars = df.select_dtypes(include=numerics).columns.tolist()
cat_vars = df.select_dtypes(include='object').columns.tolist()

print(f"\nVari√°veis num√©ricas ({len(num_vars)}):")
for var in num_vars:
    print(f"  - {var} ({df[var].dtype})")

if cat_vars:
    print(f"\nVari√°veis categ√≥ricas ({len(cat_vars)}):")
    for var in cat_vars:
        print(f"  - {var} ({df[var].dtype})")
        print(f"    Valores √∫nicos: {df[var].nunique()} ‚Üí {df[var].unique()[:5].tolist()}")
else:
    print("\n‚úÖ Nenhuma vari√°vel categ√≥rica encontrada.")

## Parte 2: Pr√©-processamento dos Dados

### üéì Conceito: Por que Pr√©-processar?

Dados brutos raramente est√£o prontos para machine learning. Precisamos:

1. **Normalizar vari√°veis num√©ricas**: Colocar todas na mesma escala (ex: 0-1 ou m√©dia=0, desvio=1)
   - **Porqu√™?** Algoritmos baseados em dist√¢ncias (como KNN) s√£o sens√≠veis √† escala
   - **Exemplo**: Se uma vari√°vel est√° em metros (0-10) e outra em gramas (0-1000), a segunda dominar√° os c√°lculos

2. **One-Hot Encoding de vari√°veis categ√≥ricas**: Converter categorias em n√∫meros bin√°rios
   - **Porqu√™?** Algoritmos matem√°ticos n√£o entendem texto ("M", "F", "I")
   - **Como?** Cada categoria vira uma coluna bin√°ria (0 ou 1)

> **Key Insight:** Pr√©-processamento √© t√£o importante quanto escolher o algoritmo certo. Garbage in garbage out, independente do algoritmo.

### ü§î Antes de executar, pensa:

- Porque n√£o podemos utilizar features categ√≥ricas diretamente?
- O que acontece se n√£o normalizarmos as features com escalas muito diferentes?

In [None]:
# ============================================================================
# IMPORTA√á√ïES PARA PR√â-PROCESSAMENTO
# ============================================================================
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# ============================================================================
# IDENTIFICA√á√ÉO DE VARI√ÅVEIS
# ============================================================================
# Separar vari√°veis num√©ricas e categ√≥ricas
#   - 'Rings' √© a vari√°vel target (o que queremos prever), ent√£o a exclu√≠mos
numerics = ['float64', 'int64']
num_vars = df.select_dtypes(include=numerics).columns.difference(['Rings'])
cat_vars = df.select_dtypes(include='object').columns

print("Vari√°veis identificadas:")
print(f"  Num√©ricas: {list(num_vars)}")
print(f"  Categ√≥ricas: {list(cat_vars)}")
print(f"  Target: Rings\n")

# ============================================================================
# NORMALIZA√á√ÉO DE VARI√ÅVEIS NUM√âRICAS
# ============================================================================
# StandardScaler: Normaliza para m√©dia=0 e desvio padr√£o=1
#   - fit_transform(): Calcula m√©dia/desvio dos dados de treino E aplica transforma√ß√£o
#   - Por que normalizar? Vari√°veis com escalas diferentes podem dominar o modelo
#
# ‚ö†Ô∏è ATEN√á√ÉO: Em projetos reais, voc√™ deve:
#   1. fit() apenas nos dados de treino
#   2. transform() nos dados de treino E teste
#   3. Nunca fit() nos dados de teste! (data leakage)
scaler = StandardScaler()
X_num = scaler.fit_transform(df[num_vars])

print("Normaliza√ß√£o aplicada √†s vari√°veis num√©ricas:")
print(f"  Forma: {X_num.shape}")
print(f"  M√©dia (deve ser ~0): {X_num.mean(axis=0)[:3]}...")  # Primeiras 3
print(f"  Desvio padr√£o (deve ser ~1): {X_num.std(axis=0)[:3]}...\n")

# ============================================================================
# ONE-HOT ENCODING DE VARI√ÅVEIS CATEG√ìRICAS
# ============================================================================
# OneHotEncoder: Converte categorias em colunas bin√°rias
#   Exemplo: Sexo ['M', 'F', 'I'] ‚Üí 3 colunas: [1,0,0], [0,1,0], [0,0,1]
#   - sparse_output=False: Retorna array numpy denso (n√£o esparso)
#
# ‚ö†Ô∏è ATEN√á√ÉO: One-hot encoding aumenta o n√∫mero de colunas!
#    Se tiver 1 vari√°vel categ√≥rica com 3 valores ‚Üí 3 colunas
enc = OneHotEncoder(sparse_output=False, drop='first')  # drop='first' evita multicolinearidade
X_cat = enc.fit_transform(df[cat_vars])

print("One-hot encoding aplicado √†s vari√°veis categ√≥ricas:")
print(f"  Forma: {X_cat.shape}")
print(f"  Categorias originais: {list(cat_vars)}")
if len(cat_vars) > 0:
    print(f"  Nomes das novas colunas: {enc.get_feature_names_out(cat_vars.tolist())}\n")

# ============================================================================
# CONCATENA√á√ÉO: JUNTAR VARI√ÅVEIS NUM√âRICAS E CATEG√ìRICAS PROCESSADAS
# ============================================================================
# np.concatenate(): Junta arrays ao longo do eixo especificado
#   - axis=1: Concatena colunas (horizontalmente)
#   - axis=0: Concatena linhas (verticalmente)
X_processed = np.concatenate([X_num, X_cat], axis=1)

print("="*60)
print("PR√â-PROCESSAMENTO CONCLU√çDO")
print("="*60)
print(f"Forma final de X_processed: {X_processed.shape}")
print(f"  ‚Üí {X_processed.shape[0]} amostras")
print(f"  ‚Üí {X_processed.shape[1]} caracter√≠sticas (ap√≥s processamento)")
print("="*60)

### ‚úÖ Verifica√ß√£o: Dimens√µes Ap√≥s Pr√©-processamento

Executa a c√©lula abaixo para confirmar que o pr√©-processamento foi aplicado corretamente. Denota como o n√∫mero de colunas aumentou devido ao one-hot encoding!

In [None]:
# Verifica√ß√£o final da estrutura
print("Estrutura dos dados processados:")
print(f"  X_processed.shape = {X_processed.shape}")
print(f"\nCompara√ß√£o:")
print(f"  Colunas originais (num√©ricas): {len(num_vars)}")
print(f"  Colunas ap√≥s one-hot: {X_cat.shape[1] if len(cat_vars) > 0 else 0}")
print(f"  Total de colunas processadas: {X_processed.shape[1]}")
print(f"\n‚úÖ Dados prontos para treino do modelo!")

## Parte 3: Treino e Avalia√ß√£o do Modelo

### üìä Divis√£o Treino/Teste

Agora vamos dividir os dados processados em conjuntos de treino e teste, assim como fizemos no problema de classifica√ß√£o.

In [None]:
# ============================================================================
# DIVIS√ÉO TREINO/TESTE
# ============================================================================
from sklearn.model_selection import train_test_split

# Dividir dados processados e target
#   - X_processed: caracter√≠sticas j√° normalizadas e codificadas
#   - df['Rings']: vari√°vel target (n√∫mero de an√©is = idade)
X_train, X_test, y_train, y_test = train_test_split(
    X_processed, 
    df['Rings'], 
    test_size=0.25,
    random_state=42  # Reproducibilidade
)

print("Divis√£o dos dados:")
print(f"  Treino: {X_train.shape[0]} amostras")
print(f"  Teste:  {X_test.shape[0]} amostras")
print(f"\nEstat√≠sticas do target (Rings):")
print(f"  Treino - M√©dia: {y_train.mean():.2f}, Desvio: {y_train.std():.2f}")
print(f"  Teste  - M√©dia: {y_test.mean():.2f}, Desvio: {y_test.std():.2f}")

### üéì Conceito: Regress√£o Linear

**O que √© Regress√£o Linear?**

√â um algoritmo que encontra a "melhor linha" (ou hiperplano em m√∫ltiplas dimens√µes) que relaciona as caracter√≠sticas (X) com o target (y).

- **F√≥rmula simples**: `y = a*x + b` (onde `a` √© o coeficiente e `b` √© o intercepto). No secund√°rio esta f√≥rmula √© conhecida como a equa√ß√£o da reta.
- **Objetivo**: Minimizar o erro entre valores previstos e reais
- **Vantagens**: Simples, interpret√°vel, r√°pido
- **Limita√ß√µes**: Assume rela√ß√£o linear (pode n√£o capturar padr√µes complexos)

### üìä M√©tricas de Regress√£o

Diferente de classifica√ß√£o, em regress√£o medimos **erro**:

- **MAE (Mean Absolute Error)**: Erro m√©dio absoluto
  - Exemplo: Se prevermos 10 e o valor real √© 12, o erro √© |12-10| = 2
  - Interpreta√ß√£o: "Em m√©dia, erramos X unidades"

> **Key Insight:** Na regress√£o, queremos minimizar o erro. Quanto menor o MAE, melhor o modelo.

### ü§î Antes de executar, pensa:

- O que significa um MAE de 1.5 no contexto deste problema?
- Porque n√£o utilizamos a accuracy na regress√£o?

In [None]:
# ============================================================================
# TREINO DO MODELO DE REGRESS√ÉO LINEAR
# ============================================================================
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# LinearRegression: Algoritmo de regress√£o linear
#   - Encontra os coeficientes que minimizam o erro quadr√°tico
#   - N√£o precisa de hiperpar√¢metros (diferente de KNN)
reg = LinearRegression()

# Treinar o modelo
print("Treinando modelo de Regress√£o Linear...")
reg.fit(X_train, y_train)
print("‚úÖ Modelo treinado!\n")

# ============================================================================
# PREVIS√ïES NO CONJUNTO DE TESTE
# ============================================================================
y_pred = reg.predict(X_test)

print(f"Previs√µes realizadas: {len(y_pred)} amostras")
print(f"Exemplo de previs√µes (primeiras 5):")
for i in range(min(5, len(y_pred))):
    print(f"  Real: {y_test.iloc[i]:.2f}, Previsto: {y_pred[i]:.2f}, Erro: {abs(y_test.iloc[i] - y_pred[i]):.2f}")

# ============================================================================
# AVALIA√á√ÉO DO MODELO: M√âTRICAS DE REGRESS√ÉO
# ============================================================================
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)  # Root Mean Squared Error
r2 = r2_score(y_test, y_pred)

print("\n" + "="*60)
print("M√âTRICAS DE AVALIA√á√ÉO - Conjunto de Teste")
print("="*60)
print(f"MAE  (Mean Absolute Error):  {mae:.3f}")
print(f"     ‚Üí Em m√©dia, erramos {mae:.2f} an√©is por previs√£o")
print(f"\nRMSE (Root Mean Squared Error): {rmse:.3f}")
print(f"     ‚Üí Penaliza mais erros grandes")
print(f"\nR¬≤   (Coefficient of Determination): {r2:.3f}")
print(f"     ‚Üí {r2*100:.1f}% da vari√¢ncia √© explicada pelo modelo")
print(f"     ‚Üí Quanto mais pr√≥ximo de 1, melhor (m√°ximo = 1.0)")
print("="*60)

# ============================================================================
# VISUALIZA√á√ÉO: VALORES REAIS vs. PREVISTOS
# ============================================================================
plt.figure(figsize=(10, 6))

# Gr√°fico de dispers√£o: valores reais vs. previstos
plt.scatter(y_test, y_pred, alpha=0.6, s=50)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 
         'r--', lw=2, label='Previs√£o Perfeita')
plt.xlabel('Valores Reais (Rings)', fontsize=12)
plt.ylabel('Valores Previstos (Rings)', fontsize=12)
plt.title('Valores Reais vs. Previstos - Regress√£o Linear', fontsize=14, fontweight='bold')
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Interpreta√ß√£o do gr√°fico:
#   - Pontos pr√≥ximos da linha vermelha = boas previs√µes
#   - Pontos distantes = erros maiores
#   - Padr√µes sistem√°ticos (curva) = modelo pode estar subajustado

---

## üéì Resumo e Reflex√£o

### ‚úÖ O que aprendemos hoje:

1. **Classifica√ß√£o vs. Regress√£o**
   - Classifica√ß√£o: prever classes (0/1)
   - Regress√£o: prever valores num√©ricos cont√≠nuos

2. **Pipeline Completo de ML**
   - Carregamento dos dados ‚Üí Explora√ß√£o ‚Üí Pr√©-processamento ‚Üí Treino ‚Üí Avalia√ß√£o

3. **Pr√©-processamento Essencial**
   - Normaliza√ß√£o de vari√°veis num√©ricas
   - One-hot encoding de vari√°veis categ√≥ricas

4. **Avalia√ß√£o de Modelos**
   - Classifica√ß√£o: Matriz de confus√£o, Precision, Recall, F1-score
   - Regress√£o: MAE, RMSE, R¬≤

5. **Overfitting**
   - Diferen√ßa entre performance em treino vs. teste
   - Import√¢ncia de avaliar nos dados de teste

### ü§î Perguntas para Reflex√£o:

1. Porque dividimos os dados em treino e teste?
2. Qual a diferen√ßa entre normaliza√ß√£o e one-hot encoding?
3. O que indica um modelo com alta accuracy no treino mas baixa no teste?
4. Em regress√£o, porque utilizamos o MAE inv√©s do accuracy?

### üìö Pr√≥ximos Passos:

Agora est√°s pronto para praticar! Vai para o notebook de **Exerc√≠cios** e aplica os conceitos que acabaste de aprender.

---

> **üíæ Lembra-te:** N√£o se aprende a tocar piano a olhar para um pianista! Praticar √© a melhor forma de absorver novo conhecimento.
