# Machine Learning Concepts

####  1. Qual é a diferença entre aprendizado supervisionado e não supervisionado? Cite exemplos de cada tipo.

1. **Aprendizado Supervisionado**:
   - O modelo é treinado com um conjunto de dados rotulados, ou seja, os dados de entrada estão associados às respostas (variáveis-alvo).
   - O objetivo é aprender a relação entre os dados de entrada (features) e a saída (rótulo) para fazer previsões em novos dados.
   - **Exemplos**:
     - **Classificação**: Identificar se um e-mail é spam ou não (Spam/Não Spam).
     - **Regressão**: Prever o preço de uma casa com base em características como área, localização, e número de quartos.

2. **Aprendizado Não Supervisionado**:
   - O modelo é treinado com dados não rotulados, ou seja, ele precisa encontrar padrões ou estruturas nos dados sem orientações explícitas.
   - O objetivo é identificar agrupamentos ou reduzir a dimensionalidade dos dados.
   - **Exemplos**:
     - **Clusterização**: Agrupar clientes com comportamentos semelhantes para estratégias de marketing (Segmentação de Clientes).
     - **Redução de Dimensionalidade**: Usar PCA (Análise de Componentes Principais) para reduzir o número de variáveis em um conjunto de dados.
3. **Aprendizado por Reforço**:

4. **Aprendizado semi-supervisionado**:

![image.png](attachment:ae18c92b-fcc7-400c-bd72-c674f9ac72d5.png)

#### 2. Cite os principais algoritmos usados dentro do Machine Learning e Deep Learning

   - **Principais Algoritmos**:
     -  **Regressão Linear**: Para prever valores contínuos.
     -  **Regressão Logística**: Para tarefas de classificação binária.
     -  **Árvores de Decisão**: Estruturas de decisão hierárquicas.
     -  **Random Forest**: Conjunto de múltiplas árvores de decisão.
     -  **Support Vector Machines (SVM)**: Para separação de classes em um espaço de alta dimensão.
     -  **K-Nearest Neighbors (KNN)**: Classificação com base na proximidade.
     -  **Gradient Boosting (e.g., XGBoost, LightGBM)**: Modelos baseados em boosting.

####  3. Quais seriam os seus primeiros passos para entender uma base de dados desconhecida?

![image.png](attachment:26384b63-ef66-46d7-9b9a-dfa3a82f5711.png)

1. **Entender o contexto do problema**
2. **Carregar e visualizar os dados**:
3. **Identificar a estrutura dos dados**:
4. **Procurar dados ausentes ou inconsistências**:
5. **Explorar as variáveis**:
6. **Visualizar os dados**:
7. **Documentar descobertas iniciais**:


####  4. Ferramentas e Bibliotecas de ML

* **Numpy**: Algebra Linear e Matrizes
* **Pandas**: Leitura e tratamento de bases até milhões de registros
* **PySpark e mlLib**: Leitura e tratamento de mais de 5 milhões de registro (Big Data)

1. **Scikit-Learn** : Biblioteca Python para aprendizado supervisionado e não supervisionado. Oferece uma ampla gama de algoritmos de ML, como regressão, classificação, clustering e redução de dimensionalidade.

2. **TensorFlow**: Biblioteca de código aberto desenvolvida pelo Google para computação numérica e aprendizado de máquina. Ampliamente usada para deep learning. Ideal para redes neurais profundas (Deep Learning), incluindo modelos como CNNs e RNNs.

3. **PyTorch**: Biblioteca de deep learning desenvolvida pelo Facebook, muito usada em pesquisa e produção. Permite o cálculo dinâmico de gráficos computacionais.

4. **LightGBM**: Biblioteca de boosting baseada em árvore de decisão que é mais rápida e eficiente que o XGBoost, especialmente para grandes volumes de dados.Ideal para competições de ML e problemas com grandes volumes de dados.

####  5. O que é overfitting em Machine Learning? Explique em suas palavras e dê um exemplo prático.

Overfitting ocorre quando um modelo aprende tão bem os detalhes e o ruído do conjunto de treinamento que perde a capacidade de generalizar para novos dados. Isso significa que ele tem um desempenho excelente no treinamento, mas ruim em testes ou dados do mundo real.

**Exemplo Prático**:
Imagine que você está treinando um modelo para classificar imagens de gatos e cachorros. Se o modelo memorizar características específicas de cada imagem do treinamento (como o fundo de uma imagem específica), ele pode não conseguir classificar corretamente novas imagens.


#### 6. Diferença entre Regressão linear e Logística?

![image.png](attachment:87f280bc-c1ab-429e-8eef-cfac1049e832.png)

##### Erro Quadrático Médio - Regressão Linear
\\[
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
\\]

##### Função de Perda Logarítmica - Regressão Logística
\\[
\text{Log-Loss} = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right]
\\]

#### 7. Dados de Treino e Teste

Em Machine Learning, a divisão dos dados em treino e teste é uma prática fundamental para evitar overfitting e garantir que o modelo tenha boa capacidade de generalização para dados não vistos.

- **Dados de Treinamento (Treino)**:
Objetivo: O modelo aprende a partir desses dados. Ou seja, ele usa os dados de treino para ajustar seus parâmetros e "aprender" a fazer previsões.
Exemplo: Se tivermos um conjunto de dados de vendas, os dados de treino são usados para ensinar o modelo a prever o preço de um produto com base em suas características.

- **Dados de Teste**:
Objetivo: Servem para avaliar o desempenho do modelo em dados que ele nunca viu antes. Isso simula a situação do mundo real, onde o modelo deve ser capaz de generalizar para novos dados.
Exemplo: Após treinar o modelo com os dados de treino, usamos os dados de teste para verificar se o modelo consegue prever corretamente os preços dos produtos que ele não viu no conjunto de treinamento.
Exemplo de Divisão de Dados
Se tivermos 1.000 registros de dados:


1.  80% para treino: 800 registros são usados para treinar o modelo.
2.  20% para teste: 200 registros são usados para testar a performance do modelo.

#### 8. O que é a validação cruzada? Por que utilizamos?

A validação cruzada (ou cross-validation) é uma técnica usada para avaliar a capacidade de generalização de um modelo de aprendizado de máquina. Ela divide os dados em diferentes subconjuntos (ou "folds") para garantir que o modelo seja avaliado de forma justa e robusta, usando partes diferentes do conjunto de dados para treinamento e teste em cada iteração.

![image.png](attachment:1eccba36-43d1-4b1c-b6a4-da6233657d18.png)

#### 9. O que significa dados desbalanceados?

**Dados desbalanceados**  referem-se a um cenário em que as classes de um conjunto de dados de classificação não estão distribuídas de forma uniforme. Isso significa que uma ou mais classes possuem significativamente mais amostras do que outras. Esse problema é comum em diversas aplicações práticas de machine learning, como:

- Detecção de fraudes financeiras (fraudes são minoria em relação às transações legítimas).
- Diagnóstico de doenças (doenças raras têm menos casos comparados a pessoas saudáveis).
- Sistemas de alerta (eventos críticos ocorrem com menor frequência que eventos normais).

##### Resumo das Técnicas para ajuste do desbalanceamento

- **Pré-processamento**: SMOTE, undersampling/oversampling.
- **Modelagem**: Class weights, algoritmos balanceados (Random Forest, XGBoost).
- **Pós-processamento**: Ajuste de thresholds, ensemble methods.
- **Métricas de Avaliação**: Precision, recall, F1-Score, AUC-ROC, Precision-Recall Curve.
'


#### 10. Me explique os modelos de arvore.

#### Estrutura
Uma árvore de decisão é composta por **nós** e **ramos**: O nó raiz é onde a divisão inicial dos dados ocorre. Os nós internos representam decisões baseadas em uma regra (ex.: "quilometragem > 50.000?"). 

- Os nós folha representam a saída (ex.: "Preço = R$ 30.000" ou "Categoria: vendido"). Cada divisão (ou split) é feita com base em um critério que maximiza a separação, como **Gini impurity**, **entropia**, ou **redução de variância**.


$$
Gini = 1 - \sum_{i=1}^{C} p_i^2
$$

$$
Entropia = - \sum_{i=1}^{C} p_i \cdot \log_2(p_i)
$$


#### Processo de construção 
O algoritmo avalia as variáveis independentes e encontra os melhores pontos de corte para dividir os dados. A árvore continua crescendo até atingir um critério de parada, como número mínimo de amostras por nó ou profundidade máxima.

#### Previsão
Para prever, o modelo segue o caminho na árvore com base nos critérios estabelecidos nos nós, até alcançar um nó folha.

![image.png](attachment:5dc64258-dbe7-4a48-aa60-43f5429ef84a.png)

#### 11. Como funciona o Modelo de Random Forest?

O Random Forest é um modelo de ensemble learning, que utiliza várias árvores de decisão para tomar uma decisão final (média para regressão ou votação para classificação).

##### Construção do modelo:

Ele cria várias árvores de decisão de forma independente. Cada árvore é treinada usando um subconjunto dos dados, selecionados aleatoriamente com reposição (bagging). Em cada nó, apenas uma amostra aleatória das variáveis é considerada para divisão, o que promove diversidade entre as árvores.

##### Previsão:
Para classificação, o modelo realiza uma votação majoritária entre as árvores.
Para regressão, calcula a média das previsões das árvores.

##### Vantagens:
- Reduz o risco de overfitting, pois combina os resultados de várias árvores.
- É robusto a outliers e variáveis irrelevantes.
- Funciona bem com dados com muitas variáveis.

##### Desvantagens:
- Pode ser mais lento para treinar e prever em comparação com modelos mais simples.
- Perde um pouco de interpretabilidade devido à complexidade (não é fácil entender todas as árvores ao mesmo tempo).

#### 12. Explique o trade-off de viés e variância(bias-variance trade-off)?

Abaixo, uma tabela detalhada sobre o comportamento do erro de Bias e Variância, onde ocorrem, suas características e os impactos no modelo.

| **Aspecto**           | **Bias (Viés)**                                                                 | **Variância**                                                                 |
|------------------------|----------------------------------------------------------------------------------|-------------------------------------------------------------------------------|
| **Ocorre em**          | Principalmente no **treinamento**.                                              | Principalmente no **teste**.                                                 |
| **Causa**             | Modelo muito simples para capturar os padrões nos dados (subajuste).             | Modelo muito complexo, sensível ao ruído nos dados de treinamento (sobreajuste). |
| **Erro no Treinamento**| Alto erro no conjunto de treino. O modelo não aprende bem os padrões.            | Baixo erro no conjunto de treino. O modelo aprende até os detalhes irrelevantes. |
| **Erro no Teste**      | Alto erro no conjunto de teste, devido à incapacidade de aprender padrões.       | Alto erro no conjunto de teste, devido à falta de generalização.             |
| **Exemplo**            | Usar um modelo linear para dados com relações altamente não-lineares.            | Usar uma rede neural profunda sem regularização em um conjunto pequeno de dados. |
| **Solução**            | Tornar o modelo mais complexo (adicionar features, usar outro algoritmo).        | Tornar o modelo mais simples (usar regularização, mais dados, menor complexidade). |
| **Impacto no Modelo**  | **Subajuste (Underfitting)**: O modelo é muito limitado para capturar os dados.  | **Sobreajuste (Overfitting)**: O modelo memoriza em vez de aprender padrões. |

#### Visualização Simplificada
- **Alto Bias**: O modelo não consegue capturar padrões básicos → Simples demais. Alto erro tanto no conjunto de treino quanto no de teste.
- **Alta Variância**: O modelo captura até os ruídos → Complexo demais. Baixo erro no treino, mas alto no teste.

O objetivo é encontrar o **equilíbrio ideal**, minimizando tanto o erro de bias quanto o de variância para que o modelo tenha boa generalização.


####  13. O que é a Regularização? Em que ela ajuda? Quais os tipos?


---

# Metrics

####  13. O que é a métrica de erro quadrático médio (MSE) e para que ela é utilizada?

A métrica de Erro Quadrático Médio (MSE - Mean Squared Error) mede a média dos quadrados das diferenças entre os valores previstos pelo modelo e os valores reais. É amplamente utilizada para avaliar modelos de regressão. Um MSE baixo indica que o modelo está próximo das respostas corretas.


**Uso**: É útil para comparar diferentes modelos e avaliar seu desempenho. Um MSE menor geralmente indica um modelo melhor.

\\[
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
\\]

#### 14. O que é a matriz de Confusão? E quais são as métricas calculadas em cima dela?

A matriz de confusão é uma tabela usada para avaliar o desempenho de um modelo de classificação. Ela compara os valores reais das classes com as previsões feitas pelo modelo, permitindo a análise de erros e acertos.

A matriz de confusão para um problema binário é representada como:

|                    | **Previsão Positiva** | **Previsão Negativa** |
|--------------------|------------------------|------------------------|
| **Classe Positiva** | Verdadeiro Positivo (TP) | Falso Negativo (FN)    |
| **Classe Negativa** | Falso Positivo (FP)     | Verdadeiro Negativo (TN) |

### Termos:
- **TP (True Positive)**: Número de casos positivos corretamente classificados.
- **TN (True Negative)**: Número de casos negativos corretamente classificados.
- **FP (False Positive)**: Número de casos negativos incorretamente classificados como positivos.
- **FN (False Negative)**: Número de casos positivos incorretamente classificados como negativos.

---

### Métricas Calculadas

#### 1. **Acurácia (Accuracy)**
A proporção de predições corretas em relação ao total de casos.

\\[
\text{Acurácia} = \frac{TP + TN}{TP + TN + FP + FN}
\\]

---

#### 2. **Precisão (Precision)**
A proporção de predições positivas que são realmente positivas.

\\[
\text{Precisão} = \frac{TP}{TP + FP}
\\]

---

#### 3. **Recall (Sensibilidade ou TPR - True Positive Rate)**
A proporção de casos positivos identificados corretamente.

\\[
\text{Recall} = \frac{TP}{TP + FN}
\\]

---

#### 4. **Especificidade (Specificity ou TNR - True Negative Rate)**
A proporção de casos negativos identificados corretamente.

\\[
\text{Especificidade} = \frac{TN}{TN + FP}
\\]

---

#### 5. **F1-Score**
A média harmônica entre Precisão e Recall.

\\[
\text{F1-Score} = 2 \cdot \frac{\text{Precisão} \cdot \text{Recall}}{\text{Precisão} + \text{Recall}}
\\]

---

#### 6. **Taxa de Falsos Positivos (FPR - False Positive Rate)**
A proporção de casos negativos que foram classificados incorretamente como positivos.

\\[
\text{FPR} = \frac{FP}{FP + TN}
\\]

---

#### 7. **Taxa de Falsos Negativos (FNR - False Negative Rate)**
A proporção de casos positivos que foram classificados incorretamente como negativos.

\\[
\text{FNR} = \frac{FN}{FN + TP}
\\]

---

#### 8. **MCC (Matthews Correlation Coefficient)**
Uma métrica que considera todas as categorias da matriz de confusão, sendo útil mesmo para classes desbalanceadas.

\\[
\text{MCC} = \frac{(TP \cdot TN) - (FP \cdot FN)}{\sqrt{(TP + FP)(TP + FN)(TN + FP)(TN + FN)}}
\\]

---

#### 9. **Kappa de Cohen**
Mede a concordância entre predições e valores reais, ajustando para o acaso.

\\[
\kappa = \frac{\text{Acurácia Observada} - \text{Acurácia Esperada}}{1 - \text{Acurácia Esperada}}
\\]

---

Estas métricas são amplamente utilizadas para avaliar modelos de classificação, especialmente em problemas onde a proporção entre classes está desbalanceada.


# Statistics

#### 15. Por que feature scaling e normalização são importantes?

**Feature Scaling** e **normalização** são essenciais para modelos sensíveis à escala das variáveis. Elas garantem que os dados estejam em uma escala comparável, melhorando a performance e a convergência dos algoritmos.

## 1. Feature Scaling

**Definição**: Ajusta os valores das variáveis para que todas estejam na mesma escala.

### Tipos de Feature Scaling:
- **Min-Max Scaling**:
  \\[
  X' = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
  \\]
  - Redimensiona os valores para o intervalo [0, 1].
  
- **Z-Score (Standardization)**:
  \\[
  X' = \frac{X - \mu}{\sigma}
  \\]
  - Transforma os dados para média 0 e desvio padrão 1.

## 2. Normalização

**Definição**: Transforma as variáveis para uma distribuição padrão, útil para otimização em modelos como redes neurais.

### Técnicas de Normalização:
- **Min-Max Scaling**: Ajuste para o intervalo [0, 1].
- **Robust Scaler**: Utiliza a mediana e o quartil, resistente a outliers.

## Por que são Importantes?

| **Modelo/Algoritmo**       | **Importância de Scaling/Normalização**                                   |
|----------------------------|--------------------------------------------------------------------------|
| **K-NN**                   | Utiliza distâncias, sensível à escala das variáveis.                     |
| **SVM**                    | A eficácia depende da escala das variáveis.                              |
| **Redes Neurais**          | Melhora a convergência e evita problemas de gradiente.                   |
| **K-Means**                | Utiliza distâncias para formar clusters, sensível à escala.             |

## Conclusão

**Feature scaling** e **normalização** ajudam a melhorar a **precisão** e a **convergência** dos modelos, tornando-os mais eficientes, especialmente para algoritmos que dependem de distâncias ou gradientes.



#### 16. O que são outliers?

**Outliers** (ou **valores discrepantes**) são pontos de dados que se destacam de maneira significativa do restante do conjunto de dados. Esses valores são **muito maiores** ou **muito menores** do que os outros valores e podem indicar variações extremas ou erros nos dados.

Identificação de Outliers

1. **Métodos Estatísticos**:
   - **Desvio padrão**: Para dados com distribuição normal, qualquer valor que esteja a mais de 2 ou 3 desvios padrão da média pode ser considerado um outlier.
   - **Boxplot**: O boxplot é uma ferramenta comum para detectar outliers. Valores fora do intervalo de 1.5 vezes o **intervalo interquartil (IQR)** são frequentemente considerados outliers.

### Efeitos dos Outliers
**Modelos de Machine Learning**: Outliers podem distorcer modelos como **regressão linear**, **K-means**, e outros algoritmos baseados em distâncias. Eles podem afetar a **média** e o **desvio padrão**, impactando negativamente a performance do modelo. **Análise estatística**: Outliers podem distorcer os testes estatísticos, como médias e correlações, levando a conclusões erradas.

### Como Lidar com Outliers?

- **Remover os Outliers**
- **Transformação dos Dados**
- **Modelos Robustos**
- **Substituição de Outliers**

#### 17. Quais os modelos utilizados em séries temporais? O que eles diferem do Machine Learning Classico? Explique as janelas do tempo.

#### 18. O que é o p-value? O que significa dizer que ele é baixo ou alto?

#### 19. Explique o algoritmo Naive-Beyes.

# Deep Learning Exploration

#### 20. Como é a arquitetura de uma rede neural?


#### 21. Por que as redes neurais tradicionais tem dificuldade em lidr com imagens?


#### 22. Quais são os parâmetros usados em uma CNN?


#### 23. O que é o fine-tuning?


#### 24. O que é tokenização e word embedding?


#### 25. Como funciona uma LSTM (Long Short-Term Memory) E a RNN?


#### 26. Qual é a arquitetura de um Transformer no contexto de um modelo coder-decoder?


#### 27. Como treinar um LLM do zero utilizando um mpdelo d eTransofmers e colocá-lo em produção?


#### 28. O que é o self supervised Learning?

 O próprio modelo determina os objetivos do problema, nao existe supervisão mas o proóprio modelo determina o mascaramento de respostas. Exemplo do Bert

#### 29. Diferenças entre Stochastic gradiente decendente, mini-batch e gradiente decendente?


#### 30. Qual é a diferença entre Machine Learning e Deep Learning.

## Deploy and DevOps

# Coding

#### 31. Implement an attention mechanism using PyTorch


#### 32. Develop a convolutional filter using Pytorch

#### 33. Conduct K-means Clustering

#### 34. Identify the common ancestors in a tree