<div align="center">

# Fórum 5: Escolhendo features para treinamento

</div>

<div style="text-align: justify;">
No aprendizado supervisionado, um dos desafios é escolher as características (features) mais relevantes para ajudar um modelo a fazer previsões. Essas características são basicamente as informações que fornecemos ao modelo para ele aprender e fazer suas análises. Neste fórum, você vai refletir sobre quais dados são mais importantes para prever um resultado e sobre como a escolha dessas características pode afetar a precisão do modelo.
</div>
<div style="text-align: justify;">
Imagine que você está criando um modelo de IA para prever se um aluno vai passar ou não no final do ano com base em algumas características. Você tem várias informações sobre cada aluno, como: horas de estudo por semana, presença nas aulas, notas anteriores, participação em atividades extracurriculares e número de faltas. 
</div>
<div style="text-align: justify;">
No entanto, incluir muitas informações no modelo pode não ser eficiente e até atrapalhar a precisão. Você precisa escolher as três características que considera mais importantes para ajudar o modelo a prever se o aluno vai ser aprovado ou reprovado.
</div>

# Questão 1
<div style="text-align: justify;">
Quais três características (features) você escolheria para treinar o seu modelo de IA e por quê? Explique como cada uma dessas características pode influenciar no desempenho escolar e ajudar a prever se o aluno será aprovado ou reprovado no final do ano.
</div>

Situação Criar um modelo de IA para prever se um aluno vai passar ou não no final do ano com base em algumas características.
Atividade relacionada: Classificação/previsão

Features (Suposição do tipo da variável):
- horas de estudo por semana  - float16  
- presença nas aulas          - int8     
- notas anteriores            - float16  
- participação em atividades  - bool -> int8 
- participação em atividades extracurriculares bool -> int8 ou categórica (nome da atividade) 
- número de faltas - int8   

Objetivo: Selecionar as três melhores variáveis para prever à aprovação do aluno.

- Horas de estudo por semana: Essa variável pode ser muito interessante. É claro que é importante identificar o método de estudo, porém, se o aluno está dedicando um certo período de forma contínua, já é um bom indicativo.

- Presença nas aulas: Como já temos uma variável relacionada à presença ou frequência, que é a quantidade de faltas, essa variável pode ser entendida como a participação do aluno na aula. Isso pode ou não refletir diretamente no desempenho, pois alguns alunos podem ser mais tímidos.

- Notas anteriores: Pode ser uma variável relevante, pois reflete o histórico do aluno, permitindo identificar em quais pontos ele tem maior aptidão.

- Participação em atividades: Essa variável pode ser útil, pois reflete o interesse do aluno no conteúdo.

- Participação em atividades extracurriculares: Pode indicar o envolvimento do aluno com outras atividades e sua atenção aos resultados das disciplinas.

- Número de faltas: Essa pode ser uma métrica relevante, pois, considerando que a aprovação final depende da frequência do aluno, essa variável pode ter grande impacto.

# Método Estatístico

![matriz_correlacao_conj4.png](attachment:matriz_correlacao_conj4.png)

Para a determinação das melhores variáveis que podem ser utilizadas para treinar o modelo e assim obter as melhores métricas de avaliação, é uma caraterizada como seleção de variáveis ou feature engenharia. Um dos métodos que eu já utilizei em atividades anteriores é o Método Estatístico baseado na correção da variável alvo com todas as outras variáveis do conjunto de dados e verificando quais são as três variáveis que apresentam uma correlação mais forte, seja essa positiva ou negativa com a variável alvo.

Também é importante a utilização dos valores da matriz de correlação para identificar se o conjunto de dados é eficiente com relação a previsão da variável alvo que foi selecionado, considerando a relação linear com a variável, logo somente essa métrica não é suficiente para essa determinação. 

Em termos matemáticos, se tivermos um conjunto de variáveis \(X_1, X_2, ..., X_n\) e uma variável alvo \(Y\), o somatório das correlações seria dado por:

$$
\sum_{i=1}^{n} \text{corr}(X_i, Y)
$$

Onde:
- \(\text{corr}(X_i, Y)\) representa a correlação entre a variável \(X_i\) e a variável alvo \(Y\).
- \(n\) é o número de variáveis independentes.

Conforme apresentado na figura 1, temos uma matriz de correlação de um conjunto qualquer 


# Métodos de Seleção de Variáveis Baseados em Modelos

Se aplicamos uma regressão linear penalizada no conjunto de dados L1 ou L2, essa vai tentar aproximar o máximo possível os coeficientes obtidos, ou seja, deixando o mais próximo do peso ou relevância real da variável para o modelo, sendo aqueles coeficientes mais próximos indicando uma baixa relação com a variável alvo. Outros métodos também podem ser utilizados

# Métodos de Seleção Baseados em Métodos de Pesquisa

Temos como exemplo o método de Busca para frente (Forward Selection) onde escolhemos uma determinada métrica de avalição e o modelo inicial o treinamento somente com a primeira variável do conjunto de dados, vai verificar o resultado obtido na métrica e vai treinar novamente adicionando agora a segunda variável e verifica se a métrica aumentou ou diminuiu

# Métodos de Seleção Combinatório (Matemática)

$$
\text{Combinações} = \binom{n}{p} = \frac{n!}{p!(n-p)!}
$$

Logo, a quantidade de maneiras diferentes de escolher 3 variáveis a partir do conjunto de 6 variáveis é dada pelo coeficiente binomial:

$$
\text{Combinações} = \binom{6}{3} = \frac{6!}{3!(6-3)!}
$$

Resolvendo a equação:

$$
\binom{6}{3} = \frac{6!}{3!3!} = \frac{6 \times 5 \times 4}{3 \times 2 \times 1} = 20
$$

Portanto, há **20** maneiras diferentes de combinar essas variáveis em conjuntos de 3.

# Métodos de Redução de Dimensionalidade

 Embora tradicionalmente usado para regressão, o PCA também pode ser útil em classificação para reduzir a dimensionalidade dos dados antes de aplicar modelos como SVM ou KNN, especialmente quando tem muitas variáveis. A quantidade de componentes principais a serem mantidos é definida com base na variância explicada, garantindo que a transformação preserve informações relevantes. Dessa forma, o modelo pode inicialmente receber as 6 variáveis originais, aplicar o PCA para projetar os dados em um novo espaço com menos dimensões e, em seguida, utilizar essas componentes transformadas como entrada para o classificador.