# Fundamentos de ML - Introdução

O objetivo deste módulo é apresentar alguns conceitos 
fundamentais que farão parte de toda jornada de projeto 
ligado a aprendizado de máquina (machine learning). 
Através destes conceitos, será possível entender melhor o 
landscape de algoritmos e técnicas para se lidar com 
projetos de Machine Learning, bem como estar atento a 
possíveis desafios que irão emergir e como superá-los, em 
temas como redução de dimensionalidade, overfitting e 
underfitting, dentre outros

# O que é Aprendizado de Máquina?
Machine Learning, ou Aprendizado de Máquina, é um campo da inteligência artificial que utiliza <font color=yellow>algoritmos e dados</font> <u>para simular a forma como os seres humanos aprendem</u>. Os algoritmos são treinados automaticamente, aprendendo com os erros e ajustando-se continuamente. Após o treinamento, esses algoritmos podem <u>identificar padrões, fazer previsões e tomar decisões com base nos dados coletados</u>. O processo de treinamento resulta em aprendizado, que é representado por padrões identificados. Com o modelo treinado, é possível realizar previsões e inferências, validando-os por meio de experiências e ajustando o algoritmo ou os dados com base nessa experiência.

![image.png](attachment:image.png)

# Pipeline de Aprendizado de Máquina (ML)

#### 1º Carregar os Dados
- **Descrição:** Obter os dados a partir de fontes internas, externas, APIs, bancos de dados, arquivos CSV, JSON, etc.
  - Verificar a integridade dos dados durante a importação (detectar erros, duplicatas ou inconsistências na leitura).
  - Documentar a origem dos dados para garantir rastreabilidade.
  - Se necessário, realizar uma amostragem dos dados para lidar com grandes volumes.
#### 2º Exploração e Análise dos Dados (EDA - Exploratory Data Analysis)
- **Descrição:** Examinar os dados para entender sua estrutura, distribuição e possíveis problemas que possam impactar o modelo.
  - Gerar estatísticas descritivas (média, mediana, moda, desvio padrão, etc.).
  - Verificar correlações entre variáveis (ex.: matriz de correlação).
  - Identificar variáveis redundantes ou irrelevantes.
  - Avaliar a presença de desequilíbrios em classes (em problemas de classificação).
  - Verificar a qualidade temporal dos dados (se for uma série temporal) e identificar tendências ou sazonalidades.
#### 3º Pré-processamento dos Dados
- **Descrição:** Realizar todas as transformações necessárias para preparar os dados para o modelo.
  - **Limpeza dos Dados:**
    - Identificar e tratar inconsistências ou erros nos dados.
    - Tratar valores ausentes com técnicas apropriadas (ex.: substituição por média, mediana, ou modelos de imputação).
    - Decidir o que fazer com outliers (truncamento, exclusão, ou manter dependendo do caso).
  - **Feature Engineering (Engenharia de Atributos):**
    - Criar variáveis derivadas que possam capturar melhor a relação entre os dados (ex.: categorias agrupadas, interações entre variáveis, etc.).
    - Escalar ou padronizar dados numéricos (MinMaxScaler, StandardScaler, etc.).
    - Codificar variáveis categóricas (one-hot encoding, label encoding para modelos lineares ou embeddings para redes neurais, etc.).
    - Trabalhar com variáveis temporais (ex.: criar atributos como "final de semana" ou "hora do dia").
  - **Codificação de Variáveis Categóricas:**
    - Escolher a abordagem certa (ex.: one-hot encoding para modelos lineares ou embeddings para redes neurais).
  - **Escalonamento e Normalização:**
    - Garantir que os dados estejam na mesma escala, especialmente para algoritmos sensíveis a isso (ex.: KNN, SVM, redes neurais).
    - Escolher a técnica adequada para o problema (ex.: padronização versus normalização).
  - **Redução de Dimensionalidade (se necessário):**
    - Avaliar a utilização de PCA, t-SNE ou UMAP, especialmente em casos de dados de alta dimensionalidade.
#### 4º Separar os Dados em Conjuntos de Treino, Validação e Teste
- **Descrição:** Dividir os dados para garantir a avaliação justa do modelo.
  - Garantir que a divisão seja estratificada (em problemas de classificação) para preservar a proporção das classes.
  - Para séries temporais, usar técnicas de divisão baseadas no tempo (ex.: divisão treino/teste sequencial ou validação por "time series split").
  - Considerar validação cruzada (cross-validation) para aumentar a robustez da avaliação.
  - Definir proporções apropriadas (ex.: 70% treino, 15% validação, 15% teste).
#### 5º Selecionar o Modelo
- **Descrição:** Escolher o algoritmo que melhor se adapta ao problema.
  - Testar múltiplos algoritmos adequados ao problema (ex.: regressão linear, árvores de decisão, redes neurais, etc.).
  - Levar em consideração a interpretabilidade do modelo (ex.: preferir modelos lineares para domínios onde a explicabilidade é essencial).
  - Se for um problema de classificação com classes desbalanceadas, considerar modelos ou técnicas que lidem bem com esse cenário (ex.: XGBoost, SMOTE, etc.).
#### 6º Treinar o Modelo com os Dados de Treino
- **Descrição:** Ajustar o modelo aos dados de treino.
  - Utilizar pipelines para garantir que o pré-processamento seja integrado ao modelo (ex.: `Pipeline` do scikit-learn).
  - Registrar os parâmetros utilizados no treinamento para rastreabilidade.
#### 7º Ajustar e Otimizar o Modelo
- **Descrição:** Melhorar o desempenho do modelo com ajustes finos.
  - Avaliar diferentes métodos de busca de hiperparâmetros:
    - Grid Search (exaustivo) para pequenos espaços de busca.
    - Random Search para espaços mais amplos.
    - Otimização Bayesiana (em casos mais avançados).
  - Adicionar regularização (L1, L2, elastic net) para modelos sensíveis a overfitting.
  - Para modelos complexos (ex.: redes neurais), implementar técnicas como dropout ou batch normalization.
#### 8º Fazer Previsões com os Dados de Teste
- **Descrição:** Realizar previsões com os dados que o modelo nunca viu.
  - Garantir que os conjuntos de teste estejam devidamente pré-processados de forma idêntica ao conjunto de treino.
  - Avaliar previsões qualitativamente (ex.: inspecionar individualmente os resultados em amostras).
#### 9º Calcular Métricas de Desempenho
- **Descrição:** Avaliar o desempenho do modelo usando métricas apropriadas.
  - Para problemas de classificação desequilibrada, usar métricas como ROC-AUC, F1-score ou MCC (Coeficiente de Correlação de Matthews), em vez de apenas acurácia.
  - Para regressão, usar métricas complementares (ex.: MAE e RMSE juntos).
  - Para clustering, avaliar a consistência dos clusters gerados além das métricas quantitativas (ex.: observar visualizações).
#### 10º Ajustar e Iterar (se necessário)
- **Descrição:** Revisar o pipeline com base nos resultados obtidos.
  - Revisar as hipóteses iniciais e os passos do pré-processamento.
  - Testar mais modelos ou coletar mais dados, se possível.
  - Implementar técnicas avançadas como ensembles (ex.: bagging, boosting, stacking).
#### 11º Implantar o Modelo em Produção (Deployment)
- **Descrição:** Tornar o modelo disponível para uso.
  - Escolher a forma de deployment (ex.: APIs, aplicações web, dispositivos embutidos).
  - Garantir que os dados de entrada em produção sigam o mesmo pipeline de pré-processamento usado no treinamento.
  - Configurar monitoramento contínuo para detectar problemas de desempenho ou drift de dados.
#### 12º Manutenção e Atualização do Modelo
- **Descrição:** Garantir que o modelo continue relevante e performando bem.
  - Implementar alertas para identificar desvios na distribuição dos dados (data drift) ou mudanças no desempenho do modelo (concept drift).
  - Atualizar o modelo periodicamente com novos dados (retraining) ou ajustar hiperparâmetros conforme necessário.
  - Documentar todas as alterações realizadas no modelo.

# Tipos de Aprendizado
Alguns conceitos fundamentais são: as **variáveis independentes, também conhecidas como features**, que são as características que usamos para prever a **variável dependente, também chamada de label ou target**. Em seguida, o fluxo do aprendizado supervisionado, onde dividimos os dados em um conjunto de treinamento e um conjunto de teste, treinamos um algoritmo para criar um modelo com base nos dados de treinamento e, em seguida, usamos esse modelo para fazer previsões em dados não treinados. Temos também o aprendizado não supervisionado, o semi-supervisionado e o por reforço, que são usados para diferentes propósitos. Por fim, destacamos a importância da validação dos resultados e a possibilidade de automatizar o processo de rotulação de dados no aprendizado semi-supervisionado.

![image.png](attachment:image.png)

## Supervisionado
- Regressão: são usados para prever valores, como o preço de uma casa ou o valor de uma ação.<br>
- Classificação: são usados para prever categorias, como se um cliente vai abandonar um serviço ou não.

![image.png](attachment:image.png)

## Não Supervisionado
- Agrupamento ou Clustering: é um algoritmo onde você tem um conjunto de registros quaisquer e ele distribui, os registros de forma a agrupar registros que tenham características comuns, de forma a formar o que a gente chama de clusters, ou agrupamentos ou grupos.<br>
- Redução de Dimensionalidade: se você tem um data set muito grande, você pode reduzir a quantidade de features para você ter um modelo um pouco mais simplificado, para que seu modelo conseguiga performar melhor, sem que você perca, de fato, informação sobre aquelas features. Então na verdade você faz um processo de transformação que compacta essas features, uma feature única, e essa feature única vai no modelo.<br>
- Associação ou Regras de associação: utilizado em sistemas de recomendação dentre outras situações, ou seja, se eu compro tal coisa, eu compro aquela coisa; se eu faço isso, eu também faço aquilo, se eu assisto aquele filme, eu também assisto esse filme. Então um algoritmo não supervisionado de associação tem esse conceito, de você associar um evento ou um registro a outro registro. 

![image.png](attachment:image.png)

## Semi Supervisionado

![image.png](attachment:image.png)

## Por Reforço
- Por valor: se você está querendo otimizar qual o valor da sua recompensa, ou qual o valor que você está obtendo do seu objetivo.<br>
- Política: seria a sua política, a sua estratégia de como obter aquele objetivo.<br> 
- Ator crítico: que é uma combinação dessas duas abordagens, por valor e política.

![image-3.png](attachment:image-3.png)

## Aprendizado Profundo ou Deeplearn
-Redes Convulacionais: são muito usadas para sistemas de visão computacional em reconhecimento de imagem, detecção de objetos numa imagem, são alguns dos exemplos que usam
redes convolucionais.<br>
- Redes Recorrentes: são redes que tratam de dados em sequência, como por exemplo texto, por isso são bastante usadas em aplicações de texto, aplicações de processamento de linguagem natural, como as aplicações dos grandes modelos de linguagem, os LLMs da OpenAI.<br>
- GANs - Generative Adversarial Networks: foram a origem do que a gente chama hoje de modelos generativos, da IA generativa. As GANs tem o objetivo de você ter uma rede que
gera um dado sintético e você ter uma outra rede que consegue avaliar se aquele dado foi gerado, ele é sintético, de fato ele é verdadeiro, então é por isso que ela é adversarial, porque ela está ali sempre, a todo momento gerando um dado e você tem um dado verdadeiro e a outra está tentando identificar quando que é o verdadeiro, quando foi gerado pela outra rede.
- Transformes:

## Computação Natural
- Genéticos: inspirados na genética, cromossomos.
- Sistemas Imunológicos Artificiais: detecção de anomalias.
- Otimizador por colônias ou enxames: Exemplo: Caminho que o jogador percorre pra fazer o gol.
- Computação quântica:

# Tipos de Algoritmos

Os algoritmos de aprendizado de máquina podem ser classificados em diferentes categorias com base no tipo de problema que eles resolvem e na forma como são treinados. Vamos explorar as principais categorias:

![image.png](attachment:image.png)

**1. Algoritmos Supervisionados**

Algoritmos supervisionados utilizam um conjunto de dados rotulados para aprender o mapeamento entre entradas (features) e saídas (labels). Eles são amplamente usados em problemas onde já sabemos a "resposta" esperada durante o treinamento. 

**Regressão**
- **Definição**: São usados para prever valores contínuos. Exemplo: prever o preço de uma casa, a temperatura em um determinado dia ou a receita de uma empresa.
- **Exemplos de algoritmos de regressão**: 
  - Regressão Linear
  - Regressão Polinomial
  - Regressão de Ridge e Lasso
  - Árvores de Regressão e Florestas Aleatórias
  - Regressão baseada em Redes Neurais (para problemas mais complexos)
- **Aplicações**: Previsão de vendas, análise financeira, modelagem de tendências.

**Classificação**
- **Definição**: São usados para prever categorias ou classes. Exemplo: prever se um cliente vai cancelar uma assinatura (sim ou não), identificar se uma imagem contém um gato ou um cachorro.
- **Exemplos de algoritmos de classificação**:
  - Regressão Logística
  - K-Nearest Neighbors (KNN)
  - Suport Vector Machines (SVM)
  - Árvores de Decisão e Random Forest
  - Redes Neurais (Deep Learning)
- **Aplicações**: Diagnóstico médico (ex.: detectar câncer a partir de imagens), detecção de fraudes, classificação de e-mails (spam ou não-spam).

---

**2. Algoritmos Não Supervisionados**

Algoritmos não supervisionados são usados quando não temos rótulos ou saídas esperadas associadas aos dados. Eles buscam identificar padrões ou estruturas ocultas nos dados. 

**Clustering (Agrupamento)**
- **Definição**: Agrupa registros com características similares em clusters ou grupos. O objetivo é descobrir padrões ou relações entre os dados.
- **Exemplos de algoritmos de clustering**:
  - K-Means
  - DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
  - Hierarchical Clustering
- **Aplicações**: Segmentação de clientes, agrupamento de documentos, análise de redes sociais.

**Redução de Dimensionalidade**
- **Definição**: Reduz o número de variáveis (features) em um conjunto de dados, mantendo a maior quantidade de informação possível. Isso melhora a eficiência e simplifica a interpretação dos dados.
- **Exemplos de técnicas**:
  - PCA (Principal Component Analysis)
  - t-SNE (t-distributed Stochastic Neighbor Embedding)
  - Autoencoders (redes neurais para compressão de dados)
- **Aplicações**: Visualização de dados em alta dimensão, compressão de imagens, aceleração de algoritmos de aprendizado.

**Regras de Associação**
- **Definição**: Descobre relações entre variáveis nos dados, frequentemente utilizadas em sistemas de recomendação.
- **Exemplo**: "Se um cliente compra pão, ele tem maior probabilidade de comprar leite".
- **Exemplos de algoritmos**:
  - Apriori
  - FP-Growth (Frequent Pattern Growth)
- **Aplicações**: Sistemas de recomendação (como os usados por Amazon ou Netflix), análise de comportamento de compras.

---

**3. Algoritmos de Reforço**

Algoritmos de aprendizado por reforço funcionam com base na interação com um ambiente. Um agente aprende a tomar ações que maximizem sua recompensa ao longo do tempo, explorando e aprendendo por tentativa e erro. 

**Por valor**
- **Definição**: O agente busca maximizar o valor total de recompensa futura em um ambiente.
- **Exemplo**: Algoritmo Q-Learning.

**Por política**
- **Definição**: Define diretamente uma estratégia (ou política) que mapeia ações para estados. Exemplo: redes neurais de políticas diretas.
  
**Ator-Crítico**
- **Definição**: Combina as abordagens de "por valor" e "por política", permitindo aprendizado mais eficiente. Exemplo: Proximal Policy Optimization (PPO).

**Aplicações**: 
- Jogos (AlphaGo, AlphaStar)
- Controle de robôs
- Veículos autônomos.

---

**4. Aprendizado Profundo (Deep Learning)**

O aprendizado profundo é uma subárea do aprendizado de máquina que utiliza redes neurais profundas para modelar problemas complexos. É amplamente usado em tarefas que exigem alta capacidade de generalização e processamento de dados não estruturados.

**Redes Convolucionais (CNNs)**
- **Definição**: Redes especializadas em dados espaciais, como imagens. Elas detectam padrões visuais (bordas, texturas, etc.).
- **Aplicações**: 
  - Reconhecimento de imagens
  - Detecção de objetos (ex.: veículos, pedestres)
  - Diagnóstico por imagens médicas (ex.: radiografias)

**Redes Recorrentes (RNNs)**
- **Definição**: Redes projetadas para trabalhar com dados sequenciais, como séries temporais e texto.
- **Variações avançadas**: LSTMs (Long Short-Term Memory) e GRUs (Gated Recurrent Units).
- **Aplicações**:
  - Previsão de séries temporais (ex.: preços de ações)
  - Tradução automática
  - Geração de texto.

**GANs (Generative Adversarial Networks)**
- **Definição**: Compostas por duas redes: uma geradora (que cria dados sintéticos) e uma discriminadora (que avalia a autenticidade desses dados). 
- **Aplicações**: 
  - Geração de imagens realistas
  - Aumento de dados (Data Augmentation)
  - Criação de vídeos, músicas, etc.

**Transformers**
- **Definição**: Arquitetura baseada em mecanismos de atenção, fundamental para grandes modelos de linguagem (como GPT, BERT e T5).
- **Aplicações**:
  - Tradução automática
  - Resumo de textos
  - Modelos generativos, como os LLMs (Large Language Models).

---

**5. Computação Natural**

Inspirada em fenômenos naturais, essa área inclui métodos que buscam soluções para problemas complexos de otimização.

**Algoritmos Genéticos**
- **Definição**: Simulam o processo de evolução genética para encontrar soluções ótimas.
- **Aplicações**: Otimização em engenharia, resolução de problemas de layout.

**Sistemas Imunológicos Artificiais**
- **Definição**: Inspirados no sistema imunológico humano, usados para detecção de anomalias.
- **Aplicações**: Segurança cibernética, detecção de intrusões.

**Otimizadores por Colônias ou Enxames**
- **Definição**: Simulam o comportamento de insetos (formigas, abelhas) ou bandos (de pássaros, peixes).
- **Exemplos**:
  - Otimização por Enxame de Partículas (PSO)
  - Algoritmo de Colônia de Formigas (ACO)
- **Aplicações**: Roteamento, planejamento de trajetórias.

---

**6. Computação Quântica**

Uma área emergente que utiliza princípios da física quântica para resolver problemas de aprendizado de máquina de forma mais eficiente. Promete acelerar algoritmos para grandes volumes de dados.

**Status**: Ainda em desenvolvimento, com foco em pesquisa.

---

**Ferramentas Populares**

A **Scikit-Learn** é uma biblioteca popular de Python que implementa diversos algoritmos de aprendizado de máquina. Ela fornece funcionalidades para:
- Treinamento de modelos supervisionados e não supervisionados.
- Pré-processamento de dados (normalização, padronização, etc.).
- Avaliação e validação de modelos.

Outras ferramentas importantes:
- **TensorFlow e PyTorch**: Para aprendizado profundo (Deep Learning).
- **pandas e NumPy**: Para manipulação e análise de dados.


# **Ferramentas Populares**

A **Scikit-Learn** é uma biblioteca popular de Python que implementa diversos algoritmos de aprendizado de máquina. Ela fornece funcionalidades para:
- Treinamento de modelos supervisionados e não supervisionados.
- Pré-processamento de dados (normalização, padronização, etc.).
- Avaliação e validação de modelos.

Outras ferramentas importantes:
- **TensorFlow e PyTorch**: Para aprendizado profundo (Deep Learning).
- **pandas e NumPy**: Para manipulação e análise de dados.


# A Maldição da Dimensionalidade
Lidar com a maldição da dimensionalidade é um desafio que surge ao lidar com conjuntos de dados de alta dimensão. A quantidade de dados necessários para alcançar um determinado conhecimento impacta exponencialmente o número de atributos necessários. Isso resulta em dados mais esparsos, dificultando a identificação de padrões e prejudicando o desempenho do modelo de machine learning. Apresentamos duas técnicas para lidar com esse problema: <u>seleção de features e redução de dimensionalidade.</u> A seleção de features envolve apresentar apenas as características mais relevantes para a tarefa em questão, enquanto a redução de dimensionalidade combina várias features em uma única representação. Essas técnicas ajudam a superar a maldição da dimensionalidade e facilitam a análise exploratória de dados.

![image.png](attachment:image.png)

## Engenharia e Seleção de Features
A engenharia de features é uma etapa fundamental no processo de desenvolvimento de modelos de machine learning. Refere-se ao <font color=green>**processo de selecionar, extrair, transformar ou criar novas variáveis (features)** </font>a partir dos dados brutos para melhorar o desempenho dos modelos. Uma boa engenharia de features pode <font color=green>**tornar um modelo mais preciso, eficiente e interpretável.</font>** A engenharia de features é um <font color=green>**processo iterativo.</font>** Os especialistas em IA/ML geralmente começam com um conjunto inicial de features e então testam diferentes combinações de features para determinar a melhor configuração para o modelo.
<p>
Durante a engenharia de features, realizamos várias atividades para melhorar nossos modelos de machine learning. A <font color=green>seleção de features</font> envolve escolher as variáveis mais relevantes para o modelo, usando técnicas como pontuação de importância e matriz de correlação. <font color=green>Extração de features</font> usa técnicas de redução de dimensionalidade para tornar o modelo mais eficiente. A <font color=green>transformação de features</font> inclui normalizar variáveis numéricas e codificar variáveis categóricas. <font color=green>criar novas features</font> combinando informações existentes. A engenharia de features é um processo iterativo e fundamental para obter modelos mais precisos e interpretáveis.

![image.png](attachment:image.png)

# Overfitting e Underfitting
O overfitting e o underfitting são dois termos importantes no aprendizado supervisionado de machine learning. O underfitting ocorre quando o modelo é muito simples para aprender a relação entre as variáveis durante o treinamento, resultando em previsões imprecisas para novos dados. Já o overfitting ocorre quando o modelo se ajusta muito bem aos dados de treinamento, incluindo o ruído, mas não consegue generalizar para dados não vistos anteriormente. Existem técnicas para lidar com esses problemas, como a <u>regularização, o uso de ensemble de modelos, a seleção de boas features e a redução da dimensionalidade dos dados.</u> A <u>validação cruzada</u> também é uma técnica importante para evitar o overfitting e o underfitting.

![image.png](attachment:image.png)

## Como Lidar com Overfitting e Underfitting
1. Regularização
2. Ensemble de modelos
3. Seleção de features
4. Redução de dimensionalidade
5. Validação cruzada

# Trade-off entre viés e variância em modelos de ML
O viés é o erro sistemático que ocorre quando um modelo não consegue aprender a relação real entre as variáveis. A variância, por outro lado, é a variabilidade dos resultados do modelo quando aplicado a diferentes conjuntos de dados. Um modelo com baixo viés e baixa variância é o ideal, pois consegue generalizar bem para novos dados e tem uma boa precisão nas previsões. No entanto, é importante encontrar um equilíbrio entre viés e variância para evitar overfitting ou underfitting.
<p>
O <font color=green>Trade-off entre viés e variância</font> descreve a relação entre a capacidade de um modelo de aprender a partir de dados e sua capacidade de generalizar para dados novos.
<p>
<font color=green>Viés</font> é o erro sistemático que um modelo comete ao aprender a partir de dados. Ele ocorre quando o modelo não é capaz de aprender a relação real entre as variáveis.
<p>
<font color=green>Variância</font> é a variabilidade dos resultados de um modelo ao ser aplicado a diferentes conjuntos de dados. Ele ocorre quando o modelo é muito complexo ou quando os dados de treinamento são insuficientes.

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

# Validação de modelos
![image-2.png](attachment:image-2.png)





As métricas de negócio ajudam a demonstrar o valor real do modelo em termos práticos, além de guiar os ajustes para melhorar a performance dentro de um contexto empresarial.

<font color=green>**Questões Não Funcionais**</font><br>
Além das questões diretamente ligadas ao desempenho, aspectos não funcionais também precisam ser considerados:

<font color=yellow>Escalabilidade:</font> O modelo consegue lidar com grandes volumes de dados ou crescer junto com a demanda?
<font color=yellow>Latência:</font> O tempo de resposta do modelo é adequado para a aplicação (ex.: em tempo real)?
<font color=yellow>Robustez:</font> Como o modelo se comporta com dados fora do esperado ou ruído?
<font color=yellow>Segurança e Privacidade:</font> O modelo respeita requisitos como GDPR ou LGPD (no Brasil)?
<font color=yellow>Manutenibilidade:</font> O modelo é fácil de atualizar e reimplantar?

Essas questões garantem que o modelo seja adequado para uso no ambiente real, além de sustentável ao longo do tempo.

## Divisão do Conjunto de Dados (Supervisionado)
Esta etapa é crucial no treinamento de modelos supervisionados. A ideia é separar os dados disponíveis em diferentes conjuntos, como:



**Treinamento:** Usado para ajustar os parâmetros do modelo.<br>
**Validação:** Usado para otimizar os hiperparâmetros e evitar overfitting.<br>
**Teste:** Usado para avaliar o desempenho final do modelo.<br>

Exemplos de estratégias de divisão:

**Holdout:** Divisão única (ex.: 70% treinamento, 15% validação, 15% teste).<br>
![image-5.png](attachment:image-5.png)

**Cross-validation (Validação Cruzada):** Dados são divididos em múltiplos subconjuntos (folds) para garantir que o modelo seja testado em todas as partes do dataset.
![image-4.png](attachment:image-4.png)

![image-2.png](attachment:image-2.png)

**Stratified Splitting:** Para manter a proporção das classes nos conjuntos de dados, especialmente em problemas de classificação.<br>
![image-3.png](attachment:image-3.png)

## Métricas de Desempenho:
São usadas para medir a eficácia do modelo em relação ao objetivo do problema. Algumas métricas comuns incluem:

![image.png](attachment:image.png)

Tão importante quanto escolher o modelo para o seu problema, é saber selecionar as métricas que seu modelo está no 
caminho certo. A escolha da métrica deve levar em conta não apenas o modelo, mas a estrutura dos dados e tipo de 
problema a ser resolvido.

- Qual o tipo de problema a ser resolvido? 
- Qual o tipo de dado sendo tratado? 
- Qual o tipo de tarefa será executada?
- Qual o tipo de resultado quero obter?
<p>Para depois definir qual a métrica.

### Regressão

<font color=yellow>MAE (Mean Absolute Error):</font> Média dos erros absolutos entre os valores reais e previstos.<br>
<font color=yellow>RMSE (Root Mean Square Error):</font> Raiz quadrada da média dos erros quadráticos.<br>
<font color=yellow>R² (Coeficiente de Determinação):</font> Mede quão bem os dados se ajustam ao modelo.<br>
<font color=yellow>MSE:</font><br>
<font color=yellow>MAPE:</font>

### Classificação

<font color=yellow>Acurácia:</font> Percentual de previsões corretas.<br>
<font color=yellow>Precisão:</font> Proporção de previsões positivas corretas em relação ao total de previsões positivas.<br>
<font color=yellow>Recall (Sensibilidade):</font> Proporção de exemplos positivos corretamente classificados.<br>
<font color=yellow>F1-Score:</font> Média harmônica entre precisão e recall.<br>
<font color=yellow>Matriz de Confusão:</font> Representação detalhada do desempenho para cada classe.<br>
<font color=yellow>AUC:</font>

### Clustering ou Não Supervisionado:

<font color=yellow>Silhouette Score:</font> Mede a qualidade dos clusters formados.<br>
<font color=yellow>Dunn Index:</font> Avalia a separação entre clusters.<br>
<font color=yellow>Índice de Davies Boldin:</font><br>

### Por Refroço

<font color=yellow>Retorno:</font><br>
<font color=yellow>Tempo de recompensa:</font><br>
<font color=yellow>Eficiência:</font><br>

## Métricas de Negócio
Além das métricas, é importante alinhar o modelo às métricas relevantes para o contexto de negócio. Exemplos:

![image.png](attachment:image.png)

<font color=yellow>Taxa de Retenção:</font> Em um modelo de churn, quantos clientes foram retidos devido à intervenção gerada pelo modelo.<br>
<font color=yellow>Aumento de Receita:</font> Em sistemas de recomendação, qual o impacto do modelo nas vendas.<br>
<font color=yellow>Redução de Custos:</font> Em aplicações de manutenção preditiva, quanto o modelo ajudou a economizar.<br>

## Questões não funcionais de modelos
- Se é fácil de ser interpretado
- Se está sendo justo em diversas situações de diversidade (Fairness)
- Se está sendo eficiente tanto no processo de treinamento como no de inferência
- O quanto está protegendo os dados que está usando, durante o treino e teste

![image-2.png](attachment:image-2.png)

# Tópicos Avançados

## Ensemble de modelos

![image-2.png](attachment:image-2.png)

O Ensemble de Modelos em Machine Learning é uma técnica que <font color=yellow>combina as previsões de diversos modelos</font> para melhorar o desempenho geral da tarefa que queremos realizar. Existem diferentes tipos de Ensemble, como o <u>Bagging</u>, que treina vários modelos em paralelo em subconjuntos aleatórios dos dados de treinamento; o <u>Boosting</u>, que treina os modelos sequencialmente, corrigindo os erros do modelo anterior; o <u>Stacking</u>, que combina as previsões de vários modelos usando um modelo de meta aprendizado; e o <u>Voting</u>, que combina as previsões de diversos modelos usando um processo de votação.

Essa técnica é baseada no princípio de que a combinação de modelos pode ajudar a reduzir o <font color=green>viés e a variância</font>, o que pode levar a previsões mais precisas.
Essas técnicas são frequentemente usadas em competições de aprendizado de máquina, onde a combinação de modelos pode dar uma vantagem crítica. 
No entanto, vale a pena notar que os ensembles podem <font color=green>aumentar a complexidade e o tempo de treinamento</font>, portanto, é sempre bom considerar o trade-off entre 
performance e complexidade.

Cada tipo de Ensemble tem suas características e pode ser aplicado de acordo com as necessidades do problema. <font color=red>

É importante</font> considerar o trade-off entre a performance e a complexidade ao escolher o tipo de Ensemble a ser utilizado.

### Ilustração Bagging e Boosting

![image.png](attachment:image.png)

### Ilustração Stacking e Voting

![image.png](attachment:image.png)

## Estruturas de projetos de IA/ML
O Machine Learning Campus é uma estrutura visual que ajuda a modelar projetos de Machine Learning. Ele é dividido em seções que abordam aspectos como dados, previsões e monitoramento. O objetivo é garantir que todos os elementos do projeto sejam considerados e entendidos por todas as partes envolvidas. Além disso, o AI Canvas é uma versão mais enxuta do ML Canvas, focando mais na questão humana do que na técnica do modelo. Outra estrutura comumente usada é o CRISP-DM, que 

![image.png](attachment:image.png)

## CRISP-DM: Estrutura Cíclica Iterativa
É um processo cíclico e iterativo para a mineração de dados. A combinação do CRISP-DM com práticas ágeis permite uma entrega mais rápida e eficiente.

![image-2.png](attachment:image-2.png)