
## O que é?

O **aprendizado de máquina** (_machine learning_, em inglês) é um campo da **Inteligência Artificial** que trata do modo como os sistemas utilizam **algoritmos** e **dados** para simular a maneira de **aprender** dos seres humanos, com melhora gradual e contínua por meio da experiência.

Os algoritmos que são construídos aprendem com os erros de **forma automatizada**, com o mínimo de intervenção humana e, após treinados (ou “ensaiados”), conseguem **identificar padrões**, **fazer previsões**, **tomar decisões**, tudo isso com base nos **dados** coletados.

---

## Tipos de Aprendizado

### 🔹 Supervisionado
Modelos são treinados usando um conjunto de dados **rotulado**, aprendendo a mapear entradas para saídas esperadas.

### 🔹 Não Supervisionado
Modelos exploram dados **não rotulados** para identificar padrões ou estruturas subjacentes, como agrupamentos, associações ou redução de dimensionalidade.

### 🔹 Semi Supervisionado
Combina dados **rotulados e não rotulados** para melhorar o desempenho do modelo.

### 🔹 Por Reforço
Agentes aprendem a tomar ações em um ambiente para **maximizar recompensas**, através de tentativa e erro.

---

## Aprendizado Supervisionado

### Etapas do Processo
- Separar dados para treinamento  
- Treinar um algoritmo  
- Obter um modelo  
- Validar modelo com dados não treinados  
- Calcular métricas

---

## Aprendizado Não Supervisionado

### Etapas do Processo
- Apresentar todos os dados  
- Treinar um algoritmo  
- Obter um modelo  
- Validar resultados  
- Calcular métricas

---

## Aprendizado Semi Supervisionado

### Etapas do Processo
- Aplicar uma abordagem não supervisionada  
- Rotular dados  
- Aplicar uma abordagem supervisionada

---

## Aprendizado por Reforço

### Fluxo do Processo
1. Agente executa uma ação no ambiente  
2. Ambiente ajusta seu estado com a ação  
3. Ambiente emite uma recompensa  
4. Ambiente devolve o estado e a recompensa ao agente

### Componentes
- **Agent**: quem toma a ação  
- **Environment**: o ambiente onde o agente interage  
- **Actions**: decisões do agente  
- **State & Reward**: ambiente retorna novo estado e recompensa

---

## Tipos de Algoritmos

### 🔹 Supervisionados
- Regressão
- Classificação

### 🔹 Não Supervisionados
- Agrupamento
- Redução de Dimensionalidade
- Associação

### 🔹 Por Reforço
- Valor
- Política
- Ator-Crítico

### 🔹 Aprendizado Profundo
- Redes Convolucionais
- Redes Recorrentes
- GANs
- Transformers

### 🔹 Computação Natural
- Genéticos
- Sistemas Imunológicos Artificiais
- Otimização por Colônias ou Enxame
- Computação Quântica

---

## A Maldição da Dimensionalidade

A **Maldição da Dimensionalidade** ocorre quando a quantidade de dados necessária cresce exponencialmente com o número de atributos.

### Problemas:
- **Mais dimensões → dados mais esparsos**
- **Desempenho do modelo pode piorar com muitas variáveis**, mesmo que úteis

---

## Engenharia e Seleção de Features

Processo essencial para **melhorar desempenho e interpretabilidade** dos modelos.

### Tipos:
- **Seleção**: escolha de features relevantes
- **Transformação**: normalização, codificação, tratamento de nulos
- **Criação**: combinação e cálculos entre variáveis
- **Extração**: redução de dimensionalidade usando ML

---

## Overfitting e Underfitting

### Underfitting
- Modelo muito simples
- Alta taxa de erro em treino e teste
- **Alta tendência (bias)**

### Overfitting
- Modelo muito complexo
- Baixo erro em treino, alto erro em teste
- **Alta variância**

### Objetivo
- Modelo com **baixo bias e baixa variância**

---

## Trade-off entre Viés e Variância

### Viés
Erro sistemático – modelo não aprende a relação real entre variáveis.

### Variância
Instabilidade – modelo se ajusta demais aos dados de treino.

---

## Exemplos Visuais do Trade-off

- **Baixo Viés e Baixa Variância** → Ideal  
- **Baixo Viés e Alta Variância** → Overfitting  
- **Alto Viés e Baixa Variância** → Underfitting  
- **Alto Viés e Alta Variância** → Modelo inconsistente


## 🔄 Ensemble de Modelos

**Ensemble de modelos** é uma técnica de aprendizado de máquina que **combina as previsões de vários modelos** para melhorar o desempenho geral.

### 🧠 Princípio
- Baseia-se na ideia de que a **combinação de modelos** pode ajudar a:
  - **Reduzir o viés**
  - **Reduzir a variância**
  - **Aumentar a precisão das previsões**

### 🏆 Aplicações
- Muito utilizadas em **competições de Machine Learning**, como as do Kaggle.
- Podem proporcionar **vantagens competitivas significativas** ao combinar pontos fortes de modelos diferentes.

### ⚠️ Considerações
- Ensembles **aumentam a complexidade** e **o tempo de treinamento**.
- Por isso, é essencial ponderar o **trade-off entre performance e complexidade** antes de aplicá-los.

> ✅ Use quando o objetivo for performance máxima.  
> ❌ Evite se o requisito for interpretabilidade ou baixa latência.

---

### 🧩 Tipos de Ensemble

#### 📦 Bagging (Bootstrap Aggregating)
- Treina **vários modelos em subconjuntos aleatórios** dos dados de treinamento.
- O modelo final é a **combinação das previsões** de todos os modelos.
- ✅ **Reduz variância**.
- 🔸 Exemplo: **Random Forest**

#### 🚀 Boosting
- Treina modelos **sequencialmente**, onde cada novo modelo tenta **corrigir os erros do anterior**.
- ✅ **Reduz viés e melhora desempenho progressivamente**.
- 🔸 Exemplos: **XGBoost, LightGBM, AdaBoost**

#### 🧠 Stacking
- Combina previsões de vários modelos usando um **meta-modelo**.
- Esse meta-modelo aprende **como combinar as previsões** dos modelos base.
- ✅ Potencial para capturar padrões complexos com maior precisão.

#### 🗳️ Voting
- Combina previsões de diferentes modelos usando **votação (maioria ou média)**.
- O modelo final é o que **recebe mais votos** (para classificação) ou média das previsões (para regressão).
- ✅ Simples e eficaz em muitos casos.

> 📌 A escolha do tipo de ensemble depende do problema, volume de


## 🧱 Estrutura de Projetos de IA/ML

Adotar uma **metodologia estruturada** para projetos de IA/ML é essencial para garantir o sucesso no desenvolvimento de soluções inteligentes.

---

### 🎯 Benefícios da Estruturação

✅ **Padronização** do processo de desenvolvimento  
✅ Abordagem **sistemática** e **abrangente**  
✅ **Facilita a identificação e correção de falhas** (ex: overfitting)  
✅ **Promove a reprodutibilidade** dos resultados  

> Outros cientistas e engenheiros podem **replicar o trabalho** com facilidade.

---

### 🔁 Vantagens para o Time e o Projeto

- **Iteração eficiente** e melhoria contínua dos modelos  
- **Documentação clara** para manter o histórico e decisões do projeto  
- **Comunicação fluida** com stakeholders  
- Mais **transparência**, **colaboração** e **eficiência**

---

> 📌 Uma boa estrutura não só melhora os modelos, como também a forma como os times colaboram e evoluem juntos!

---


### 📌 CRISP-DM (Cross Industry Standard Process for Data Mining)

O **CRISP-DM** é uma das metodologias mais difundidas na área de ciência de dados e aprendizado de máquina. Criada em **1996**, ela oferece uma abordagem estruturada para o desenvolvimento de projetos.

### 🔁 Características

- **Processo cíclico**: é comum retornar a etapas anteriores à medida que o projeto evolui.
- **Refinamento contínuo**: permite melhorias progressivas até alcançar o resultado ideal.
- **Aplicável com métodos Lean**: favorece entregas rápidas e frequentes de valor para o cliente.

> 💡 Adota o conceito "Fail Fast, Learn Faster".

---

### 🔄 Fases do CRISP-DM

1. **Entendimento do Negócio (Business Understanding)**  
   Definir objetivos, metas e necessidades do projeto.

2. **Entendimento dos Dados (Data Understanding)**  
   Coletar, explorar e compreender os dados disponíveis.

3. **Preparação dos Dados (Data Preparation)**  
   Limpeza, transformação e formatação dos dados para modelagem.

4. **Modelagem (Modeling)**  
   Aplicar algoritmos de ML e ajustar parâmetros.

5. **Avaliação (Evaluation)**  
   Verificar se os resultados atendem aos objetivos de negócio.

6. **Implantação (Deployment)**  
   Entregar a solução final para uso real e monitoramento contínuo.

---

> O CRISP-DM garante uma estrutura **reprodutível, iterativa e voltada ao negócio**.

---

## 🧩 ML Canvas

O **Machine Learning Canvas** foi criado em **2016** como uma ferramenta visual para auxiliar equipes e stakeholders a **planejar** e **comunicar os aspectos centrais** de um projeto de machine learning de forma clara e concisa.

### 🎯 Objetivo
Ajudar na **estruturação de projetos** de ML, promovendo alinhamento entre áreas técnicas e de negócio desde a concepção da solução.

### 📌 Origem
Inspirado no **Business Model Canvas**, o ML Canvas foi adaptado para os **desafios específicos dos projetos de aprendizado de máquina**, considerando seus componentes únicos.

### 👥 Aplicação
Utilizado por profissionais da área para:
- Planejar iniciativas de ML
- Identificar lacunas no projeto
- Promover comunicação entre partes técnicas e estratégicas
- Garantir que todos os elementos-chave sejam considerados e compreendidos por todos os envolvidos

> O ML Canvas facilita o entendimento e direcionamento do projeto desde o início, promovendo melhores resultados e integração entre áreas.

---

## 🧠 AI Canvas

O **AI Canvas** foi criado em **2018** por professores da **Universidade de Toronto** com o objetivo de ajudar pessoas a:

- Tomarem **melhores decisões**
- Estruturarem projetos com a ajuda da **Inteligência Artificial (IA/ML)**

### 📌 Estrutura

Inspirado no Business Model Canvas, o AI Canvas dá **ênfase na questão humana**, capturando:
- O julgamento humano sobre as predições
- Ações que dependem dessas predições
- Feedbacks para **melhoria contínua do modelo**

### 🔷 Blocos do AI Canvas

| Bloco       | Pergunta-chave |
|-------------|----------------|
| **Prediction** | O que você precisa saber para tomar a decisão? |
| **Judgment**   | Como você avalia diferentes resultados e erros? |
| **Action**     | O que você está tentando fazer? |
| **Outcome**    | Quais são suas métricas de sucesso para a tarefa? |
| **Input**      | Quais dados você precisa para rodar o algoritmo preditivo? |
| **Training**   | Quais dados são necessários para treinar o algoritmo? |
| **Feedback**   | Como os resultados podem melhorar o algoritmo? |

> Fonte: Ajay Agrawal et al. (Harvard Business Review)

---

