# **Tipos de Aprendizado de Máquina — Módulo 1, Notebook 2/3**

---

## Índice

1. [Aprendizado Supervisionado](#supervisionado)
2. [Aprendizado Não Supervisionado](#nao-supervisionado)
3. [Aprendizado por Reforço](#reforco)

---

<a id='supervisionado'></a>
## **O que é o Aprendizado Supervisionado?**

Aprendizado supervisionado é uma estratégia onde você treina um algoritmo **fornecendo exemplos com rótulos corretos**. O modelo aprende observando esses exemplos e ajustando seus parâmetros para minimizar o erro.

Imagine que você quer ensinar seu smartphone a reconhecer fotos de gatos vs. cachorros. Você não pode programar "Se há pelos macios, é gato" — seria impossível codificar toda a complexidade visual. Então você faz algo diferente: mostra centenas de fotos rotuladas ("Este é um gato", "Este é um cachorro") e deixa o algoritmo aprender os padrões.

<img src="https://static.wikia.nocookie.net/2a3a4ed5-cece-4538-b323-ef3dbcf09787/scale-to-width/755" height=300/>

**Como funciona:**
1. Você fornece dados de treinamento com rótulos (X → Y)
2. O modelo aprende a relação entre entradas e saídas
3. O modelo recebe feedback sobre seus erros e se ajusta
4. Após vários ciclos, o modelo consegue prever bem mesmo em dados novos

**Exemplos práticos:**
- **Diagnóstico médico:** Treina-se com milhares de radiografias rotuladas (tumor/sem tumor)
- **Detecção de spam:** Treina-se com emails rotulados (spam/legítimo)
- **Previsão de preços:** Treina-se com histórico de imóveis e seus preços reais
- **Reconhecimento de escrita:** Treina-se com dígitos manuscritos já classificados

**Dados de treinamento:**
- Você precisa ter os rótulos corretos ANTES de começar
- São esses rótulos que guiam o aprendizado
- Sem eles, o modelo não teria direção para aprender

<a id='nao-supervisionado'></a>
## **O que é o Aprendizado Não Supervisionado?**

Aprendizado não supervisionado é bem diferente. Aqui, você **não tem rótulos**. Você fornece dados brutos e pede ao algoritmo para descobrir padrões e estruturas por conta própria.

Pense numa situação real: você é um cientista em um museu analisando milhares de espécimes de minerais. Ninguém lhe deu uma classificação prévia. Você precisa observar as características (cor, brilho, dureza, estrutura) e agrupar os minerais similares. Eventualmente, você descobre grupos naturais que provavelmente correspondem a espécies reais — mesmo sem ter consultado nenhum "guia de respostas".

**Como funciona:**
1. Você fornece dados SEM rótulos
2. O algoritmo procura estruturas, padrões ou agrupamentos
3. O modelo descobre categorias por conta própria
4. Você interpreta os resultados para entender o que foi descoberto

**Exemplos práticos:**
- **Segmentação de clientes:** Agrupar clientes de um banco por comportamento de compra (sem saber previamente quantos grupos existem)
- **Análise de documentos:** Descobrir tópicos principais em milhares de artigos sem classificação prévia
- **Análise de genes:** Encontrar padrões em dados de expressão gênica
- **Recomendação por similitude:** Encontrar usuários com gostos similares em uma plataforma

**Desafio principal:**
- Como você sabe se o modelo descobriu padrões "reais" ou apenas ruído?
- Você precisa de intuição e conhecimento de domínio para validar os resultados
- É mais exploratório, menos determinístico que aprendizado supervisionado

Se por um lado o aprendizado supervisionado precisa da supervisão humana, o aprendizado não supervisionado não necessita dela.

Nesse caso, imagine que você está vivendo sua vida tranquilamente, curtindo o sítio da dev, e de repente você recebe um e-mail dizendo que seu querido professor de cálculo veio a falecer com seus 136 anos de idade... que tristeza. Se era ruim com ele, o que será de nós sem ele? Nesse caso não teremos mais ninguém para nos dizer a resposta correta dos exercícios para aprendermos antes de testar na prova...

<img src="https://media.tenor.com/gPbkAifeXnkAAAAM/naruto-sad.gif" height=300/>

Mas você não pode ficar de reaval. Sua viagem para o Japão para conhecer o Naruto já está marcada e essa prova vale 8 pontos na média. Você vai passar por bem ou por mal. Dessa forma, você estuda por semanas, até esquece o que é dormir, e enfrenta a prova, dando tudo de si. Apesar dos esforços, você abre a prova e a primeira questão é assombrosa... é um pesadelo. Mas você não se dá por vencido e segue para a próxima, e vê que ela não era tão difícil quanto a primeira. Na verdade nenhuma outra questão é tão difícil quanto a primeira. 

Você faz a prova, ciente de que boa parte das questões está correta, mas a primeira é infernal... não há o que ser feito. Nesse caso, um chute técnico tem mais chances do que uma resposta em branco, e é isso que você faz. Utiliza todo o seu conhecimento adquirido vendo jogadas do Ronaldinho no YouTube e dá o melhor chute de sua vida. 

Com isso você vai tranquilo para o Japão e torce para que o professor não te obrigue a fazer a matéria de novo no próximo semestre (ou no caso, espera que seu código funcione de primeira e você não precise refiná-lo e tentar de novo).

<a id='reforco'></a>
## **O que é o Aprendizado por Reforço?**

Aprendizado por reforço é uma terceira abordagem, fundamentalmente diferente das duas anteriores. Aqui, um **agente aprende a tomar decisões recebendo recompensas ou punições** baseado em suas ações.

Imagine treinar um cachorro. Você não mostra exemplos de como se comportar (supervisionado), e não deixa o cachorro descobrir padrões sozinho (não supervisionado). Você dá **feedback imediato**: quando o cachorro traz a bolinha, ele ganha biscoito; quando ignora, nada acontece. Com o tempo, o cachorro aprende qual ação leva a recompensas.

<img src="https://media.tenor.com/M7ec11RfaboAAAAM/waking-up.gif" height=300>

**Como funciona:**
1. Um agente executa ações em um ambiente
2. O ambiente responde com um novo estado + uma recompensa (ou punição)
3. O agente aprende qual sequência de ações maximiza recompensas
4. Com o tempo, desenvolve uma estratégia (política) para ganhar mais recompensas

**Exemplos práticos:**
- **Jogos:** AlphaGo aprendeu a jogar Go ao jogar contra si mesmo; recebe vitória ou derrota como recompensa
- **Robótica:** Um robô aprende a caminhar tentando diferentes movimentos; pontos por manter-se em pé, derrota por cair
- **Recomendação dinâmica:** Um sistema aprende que mostrar certos vídeos aumenta tempo de engajamento (recompensa)
- **Carros autônomos:** O veículo aprende a dirigir seguramente; chegou no destino = recompensa, acidente = punição severa

**Características únicas:**
- O agente precisa **explorar** (tentar coisas novas) mas também **explorar** (fazer o que funciona)
- Aprende por tentativa e erro, não por exemplos pré-fornecidos
- Especialmente útil para problemas onde a melhor estratégia não é óbvia
- Pode levar muito tempo/dados para convergir, mas muito poderoso

---

<-- [**Anterior: Fundamentos de IA**](01_fundamentos_ia_ml.ipynb) | [**Próximo: Conceitos Matemáticos**](03_matematica_ml.ipynb) -->