[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1EaODZ97JxNGwKH0kSlgsM-Quc3PtgM3m?usp=sharinga)

# AULA 1: INTRODUÇÃO AO MACHINE LEARNING

## Machine Learning - Teoria e Aplicado

### Objetivos de Aprendizado:
- Entender o que é ML
- Compreender tipos de aprendizado
- Conhecer o workflow de projetos
- Ver exemplos reais

---

## CONCEITO 1: O QUE É MACHINE LEARNING?

### Analogia: Ensinar uma criança

Imagine que você quer ensinar uma criança a distinguir gatos de cachorros.

```
PROGRAMAÇÃO TRADICIONAL:
  Você escreve regras manuais:
  - Se tem orelha pontuda -> GATO
  - Se tem pelo curto -> GATO
  - Senão -> CACHORRO
  
  Problema: E se o gato for sem pelo?

MACHINE LEARNING:
  Você NÃO escreve as regras!
  O modelo APRENDE as regras observando exemplos
  
  [foto1, "gato"], [foto2, "gato"], [foto3, "cachorro"]...
  
  Modelo descobre sozinho: "ah, gatos têm certas características!"
```


### Exemplo Prático: Prever preço de casas

Vamos criar um modelo que aprende a precificar casas baseado no tamanho.

Pense no modelo como um aprendiz de corretor que nunca precificou uma casa.
No início, ele não sabe nada. Você mostra exemplos:
- "Casa de 60m² custa R$250mil"
- "Casa de 100m² custa R$400mil"

Depois de ver vários exemplos, ele aprende a REGRA: "cada m² adicional vale cerca de R$4mil"

In [None]:
# Importando as bibliotecas
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression

print("Bibliotecas importadas com sucesso!")
print("NumPy versão:", np.__version__)
print("Pandas versão:", pd.__version__)

In [None]:
# Dados de exemplo: casas e seus preços
# Formato: [tamanho_em_m2]
tamanho = np.array([60, 80, 100, 120, 150]).reshape(-1, 1)

# Formato: [preco_em_reais]
preco = np.array([250000, 320000, 400000, 500000, 750000])

print("=== DADOS DE TREINAMENTO ===")
print("\nTamanhos (m²):", tamanho.flatten())
print("Preços (R$):", preco)

# Visualizar relação
print("\n=== ANÁLISE VISUAL ===")
print("Observe que quando o tamanho DOBRA, o preço também aumenta!")

In [None]:
# Criar o modelo de regressão linear
modelo = LinearRegression()

print("Modelo criado (ainda vazio, como um aluno antes da aula)")
print("Tipo:", type(modelo))
print("\nO modelo ainda não aprendeu nada. Vamos treiná-lo!")

In [None]:
# TREINAR o modelo com os dados
# Isso é como dar aula para o modelo
modelo.fit(tamanho, preco)

print("=== MODELO TREINADO ===")
print("\nO modelo aprendeu a relação entre tamanho e preço!")
print(f"\nCoeficiente angular (inclinação): R$ {modelo.coef_[0]:,.0f} por m²")
print(f"Intercepto (preço base): R$ {modelo.intercept_:,.0f}")
print(f"\nInterpretação:")
print(f"  - Cada m² adicional vale cerca de R$ {modelo.coef_[0]:,.0f}")
print(f"  - Uma casa de 0m² teria preço base de R$ {modelo.intercept_:,.0f}")

In [None]:
# Fazer previsões com o modelo treinado

print("=== PREVISÕES ===")
print("\nVamos prever o preço de casas NOVAS que o modelo nunca viu:")

# Testar com vários tamanhos
tamanhos_teste = [70, 90, 110, 130, 160]

for t in tamanhos_teste:
    # Precisamos transformar em array 2D [[valor]]
    valor_2d = np.array([[t]])
    previsao = modelo.predict(valor_2d)
    print(f"  Casa de {t:3d}m² -> R$ {previsao[0]:,.0f}")

---

## CONCEITO 2: OS TRÊS TIPOS DE APRENDIZADO

### Visualização dos Tipos:
```
    SUPERVISIONADO           NÃO-SUPERVISIONADO        POR REFORÇO
    ===============         ===================       ==============

    [Dados] + [Gabarito]     [Dados] apenas           [Ação] -> [Recompensa]
         |                        |                         |
         V                        V                         V
    [Modelo aprende]        [Modelo agrupa]         [Agente melhora]
         |                        |                         |
         V                        V                         V
    [Previsão]              [Grupos]                [Política]

    Ex: Prever salário      Ex: Segmentar           Ex: Robô aprende
        com experiência         clientes               a andar
```


### Tipo 1: Aprendizado Supervisionado

Imagine uma sala de aula:
- Professor passa exercício
- Aluno tenta resolver
- Professor dá RESPOSTA CORRETA (gabarito)
- Aluno compara e aprende

Em ML, é igual:
- Dados: [tamanho_casa, quartos, local]
- Gabarito: [preço] <- RESPOSTA CORRETA
- Modelo aprende a mapear dados -> gabarito

In [None]:
# Exemplo de Classificação (Supervisionado)
# Classificar dígitos escritos à mão
import matplotlib.pyplot as plt

from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# Carregar dataset
digits = load_digits()
X, y = digits.data, digits.target

print("=== CLASSIFICAÇÃO DE DÍGITOS ===")
print(f"\nTotal de imagens: {len(X)}")
print(f"Cada imagem tem {X.shape[1]} pixels (features)")
print(f"\nClasses (dígitos): {sorted(set(y))}")
print(f"\nExemplo de dados (primeira imagem):")
print(f"  Features (primeiros 10 pixels): {X[0][:10]}")
print(f"  Gabarito (qual dígito é?): {y[0]}")

In [None]:
# amostra grid 2x5 sklearn.datasets load_digits - realmente o dígito na posição 1 é o 0
fig, axes = plt.subplots(2, 5, figsize=(6, 3))
for i, ax in enumerate(axes.flat):
    ax.imshow(X[i].reshape(8, 8), cmap='gray')
    ax.set_title(f'Dígito: {y[i]}')
    ax.axis('off')

plt.tight_layout()

In [None]:
# Dividir dados em TREINO, VALIDAÇÃO e TESTE
# Padrão: 60% treino, 20% validação, 20% teste

# Passo 1: Separar 20% para TESTE
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Passo 2: Dividir o restante (80%) em TREINO (75%) e VALIDAÇÃO (25%)
# Resultado: 60% train, 20% val, 20% test
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.25, random_state=42
)

print("=== DIVISÃO DOS DADOS (60/20/20) ===")
print(f"\nTREINO:     {len(X_train)} imagens ({len(X_train)/len(X)*100:.0f}%)")
print(f"VALIDAÇÃO: {len(X_val)} imagens ({len(X_val)/len(X)*100:.0f}%)")
print(f"TESTE:      {len(X_test)} imagens ({len(X_test)/len(X)*100:.0f}%)")
print("\n=== POR QUE TRÊS CONJUNTOS? ===")
print("\nTREINO (60%): Para treinar o modelo")
print("   • O modelo APRENDE com estes dados")
print("   • Como o livro didático com exercícios resolvidos")
print()
print("VALIDAÇÃO (20%): Para ajustar hiperparâmetros e evitar overfitting")
print("   • Usado durante o desenvolvimento para escolher melhor modelo")
print("   • Como simulados que mostram onde precisa melhorar")
print("   • AJUSTA hiperparâmetros (ex: profundidade da árvore)")
print("   • DETECTA overfitting early")
print()
print("TESTE (20%): Para avaliação FINAL")
print("   • Dados NUNCA vistos durante o desenvolvimento")
print("   • Como prova final real")
print("   • Usado UMA VEZ no final, para avaliar performance real")
print("   • NÃO usado para tomar decisões durante o desenvolvimento")

In [None]:
# Criar e treinar modelo de classificação
modelo_classificador = LogisticRegression(max_iter=10000)
modelo_classificador.fit(X_train, y_train)

print("=== MODELO TREINADO ===")
print("\nO modelo aprendeu a reconhecer dígitos!")

In [None]:
# Avaliar o modelo
acuracia_treino = modelo_classificador.score(X_train, y_train)
acuracia_val = modelo_classificador.score(X_val, y_val)
acuracia_teste = modelo_classificador.score(X_test, y_test)

print("=== AVALIAÇÃO ===")
print(f"\nAcurácia no treino:     {acuracia_treino*100:.1f}%")
print(f"Acurácia na validação: {acuracia_val*100:.1f}%")
print(f"Acurácia no teste:      {acuracia_teste*100:.1f}%")
print("\nCOMO INTERPRETAR:")
print(f"  • De 100 dígitos de treino, acerta {int(acuracia_treino*100)}")
print(f"  • De 100 dígitos de validação, acerta {int(acuracia_val*100)}")
print(f"  • De 100 dígitos NOVOS (teste), acerta {int(acuracia_teste*100)}")
print("\nVALIDAÇÃO vs TESTE:")
print("  • Se val ≈ test → Modelo generaliza bem!")
print("  • Se val << test → Possível problema, revise o modelo")
print("  • Se train >> val/test → Overfitting (memorizou)")
print("\nLembre-se: Acurácia de teste é a métrica FINAL de sucesso!")

### Tipo 2: Aprendizado Não-Supervisionado

Imagine que você entra numa loja e vê clientes:
- Alguns gastam muito
- Alguns gastam pouco
- Alguns compram produtos premium

Ninguém te diz quem é quem. Você mesmo descobre os GRUPOS!

Em ML, o modelo sozinho descobre padrões:
- Dados: [idade, gasto, produtos_comprados]
- Sem gabarito
- Modelo encontra grupos similares

In [None]:
# Exemplo de Clustering (Não-Supervisionado)
from sklearn.cluster import KMeans

# Dados de clientes [idade, gasto_mensal]
dados_clientes = np.array([
    [25, 100],  # jovem, gasta pouco
    [30, 150],
    [35, 200],
    [40, 250],
    [50, 320],  # mais velho, gasta mais
    [55, 350],
    [26, 120],
    [52, 300],
    [45, 280],
    [28, 140]
])

print("=== CLUSTERING DE CLIENTES ===")
print("\nDados dos clientes (idade, gasto):")
for i, (idade, gasto) in enumerate(dados_clientes):
    print(f"  Cliente {i+1}: {idade} anos, R${gasto}/mês")

In [None]:
# Aplicar K-Means para encontrar grupos
# K=3 significa: procure 3 grupos diferentes
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
grupos = kmeans.fit_predict(dados_clientes)

print("=== GRUPOS DESCOBERTOS ===")
print("\nO modelo encontrou 3 grupos de clientes:\n")

for grupo in range(3):
    indices = np.where(grupos == grupo)[0]
    print(f"GRUPO {grupo}:")
    print(f"  Clientes: {list(indices + 1)}")
    if len(indices) > 0:
        idade_media = dados_clientes[indices, 0].mean()
        gasto_medio = dados_clientes[indices, 1].mean()
        print(f"  Idade média: {idade_media:.0f} anos")
        print(f"  Gasto médio: R${gasto_medio:.0f}/mês")
    print()

### Tipo 3: Aprendizado por Reforço

```
Ação do cachorro    ->    Resultado    ->    Consequência
==========================================================
Pega a bola              Dono sorri            Biscoito (recompensa)
                            |                        |
                            V                        V
                      Cachorro pensa:      "Bom! Repetir!"

Late muito                Dono ignora         Nada (sem recompensa)
                            |                        |
                            V                        V
                      Cachorro pensa:      "Não vale a pena"
```

Em ML:
- Agente toma ações
- Ambiente dá recompensa ou punição
- Agente aprende política: "nessa situação, faça isso"

Aplicações: Jogos (AlphaGo), Robôs, Carros autônomos

---

## CONCEITO 3: WORKFLOW DE UM PROJETO ML

```
    COLETA DE DADOS
         |
         V
    PRÉ-PROCESSAMENTO
         |
         V
    DIVISÃO (Treino/Validação/Teste)
         |
         V
    TREINAMENTO
         |
         V
    AVALIAÇÃO
         |
         V
    OTIMIZAÇÃO
         |
         V
    DEPLOY (produção)
```

**Importante:** NÃO pule etapas! Cada uma é crítica para o sucesso.

---

## CONCEITO 4: UNDERFITTING VS OVERFITTING

```
UNDERFITTING (Estudou pouco)
  Nota: 4.0
  
  Prova FÁCIL: confiança ALTA (falsa)
  Prova DIFÍCIL: confiança BAIXA
  
  Problema: NÃO sabe o suficiente

OVERFITTING (Decorou gabarito)
  Nota: 10.0 (impossível)
  
  Prova FÁCIL: confiança ALTA
  Prova DIFÍCIL: confiança BAIXA
  
  Problema: Memorizou, NÃO aprendeu

IDEAL (Estudou suficiente)
  Nota: 8.0
  
  Prova FÁCIL: confiança ALTA
  Prova DIFÍCIL: confiança ALTA
  
  Problema: NENHUM! Generalizou bem.
```


In [None]:
# Demonstração prática: Underfitting vs Overfitting
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_classification

# Gerar dados sintéticos
X, y = make_classification(
    n_samples=1000,
    n_features=2,
    n_redundant=0,
    random_state=42
)

# Dividir em TREINO, VALIDAÇÃO e TESTE (60/20/20)
X_temp, X_test, y_temp, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)
X_train, X_val, y_train, y_val = train_test_split(
    X_temp, y_temp, test_size=0.25, random_state=42
)

print("=== DEMONSTRAÇÃO: UNDER/OVERFITTING ===")
print("\nCriamos 3 modelos com complexidades diferentes:\n")

In [None]:
# Modelo 1: MUITO SIMPLES (Underfitting)
modelo_simples = DecisionTreeClassifier(max_depth=1, random_state=42)
modelo_simples.fit(X_train, y_train)

score_treino_simples = modelo_simples.score(X_train, y_train)
score_val_simples = modelo_simples.score(X_val, y_val)
score_teste_simples = modelo_simples.score(X_test, y_test)

print("1. MODELO SIMPLES (profundidade máxima = 1):")
print(f"   Acurácia treino:     {score_treino_simples:.3f}")
print(f"   Acurácia validação: {score_val_simples:.3f}")
print(f"   Acurácia teste:      {score_teste_simples:.3f}")
print("   >>> UNDERFITTING: Modelo muito simples, aprendeu pouco")
print("    (Parece alguém que tirou 4.0 na prova)")
print()

In [None]:
# Modelo 2: MUITO COMPLEXO (Overfitting)
modelo_complexo = DecisionTreeClassifier(
    max_depth=20,
    min_samples_leaf=1,
    random_state=42
)
modelo_complexo.fit(X_train, y_train)

score_treino_complexo = modelo_complexo.score(X_train, y_train)
score_val_complexo = modelo_complexo.score(X_val, y_val)
score_teste_complexo = modelo_complexo.score(X_test, y_test)

print("2. MODELO COMPLEXO (sem limites de profundidade):")
print(f"   Acurácia treino:     {score_treino_complexo:.3f}")
print(f"   Acurácia validação: {score_val_complexo:.3f}")
print(f"   Acurácia teste:      {score_teste_complexo:.3f}")
print("   >>> OVERFITTING: Memorizou dados de treino")
print("    (Parece alguém que decorou o gabarito)")
print()

In [None]:
# Modelo 3: BALANCEADO (Ideal)
modelo_ideal = DecisionTreeClassifier(
    max_depth=3,
    min_samples_leaf=5,
    random_state=42
)
modelo_ideal.fit(X_train, y_train)

score_treino_ideal = modelo_ideal.score(X_train, y_train)
score_val_ideal = modelo_ideal.score(X_val, y_val)
score_teste_ideal = modelo_ideal.score(X_test, y_test)

print("3. MODELO BALANCEADO (profundidade = 3):")
print(f"   Acurácia treino:     {score_treino_ideal:.3f}")
print(f"   Acurácia validação: {score_val_ideal:.3f}")
print(f"   Acurácia teste:      {score_teste_ideal:.3f}")
print("   >>> IDEAL: Bom equilíbrio entre treino e teste")
print("    (Parece alguém que estudou o suficiente)")
print()

In [None]:
# Resumo comparativo
print("=== RESUMO COMPARATIVO ===")
print("\nModelo              | Train | Val  | Test | Diagnóstico")
print("-" * 60)
print(f"Simples (under)     | {score_treino_simples:.3f}  | {score_val_simples:.3f} | {score_teste_simples:.3f} | RUIM em todos")
print(f"Complexo (over)     | {score_treino_complexo:.3f}  | {score_val_complexo:.3f} | {score_teste_complexo:.3f} | Ótimo train, ruim val/test")
print(f"Balanceado (ideal)  | {score_treino_ideal:.3f}  | {score_val_ideal:.3f} | {score_teste_ideal:.3f} | BOM em todos")
print()
print("Lembre-se:")
print("  • VALIDAÇÃO ajuda a detectar overfitting durante desenvolvimento")
print("  • TESTE é a avaliação FINAL do modelo")
print("  • O que importa é a performance em DADOS NOVOS!")

---

## RESUMO DA AULA

### Key Takeaways:

1. **ML aprende padrões** a partir de dados, sem regras explícitas

2. **Três tipos de aprendizado:**
   - Supervisionado: com gabarito
   - Não-supervisionado: descobre padrões
   - Por reforço: aprende por tentativa/erro

3. **Workflow bem definido:** Coleta -> Pré-processamento -> Treino -> Avaliação

4. **Equilíbrio é chave:** Evite underfitting e overfitting

5. **Dados NOVOS (teste) são mais importantes** que dados de treino

---

## EXERCÍCIOS DE FIXAÇÃO

Para praticar os conceitos aprendidos nesta aula, acesse o notebook de exercícios:

### **exercicio_fixacao_aluno_aula-01-introducao.ipynb**

**Cenário do Exercício:** "Sistema de Precificação Imobiliária"

Você vai:
- Criar um modelo de regressão linear para prever preços de apartamentos
- Usar múltiplas features (área, quartos, banheiros, andar)
- Dividir dados em **TREINO/VALIDAÇÃO/TESTE (60/20/20)**
- Avaliar o modelo e interpretar coeficientes

---

**Gabarito disponível em:** `exercicio_fixacao_gabarito_aula-01-introducao.ipynb`

---

**Prof.ª Ma. Nathália A. Lima**