# 📊 Challenge – Data Science (Júnior)

Bem-vindo ao **Challenge de Data Science** da BU de Dados e IA da GFT!

Este desafio faz parte do nosso processo de seleção para integrar a equipe responsável pelo **Agent Factory**, uma iniciativa estratégica com foco em soluções de inteligência baseadas em dados.

---

## 🎯 Objetivo

Seu objetivo neste desafio é construir um modelo simples de **machine learning** utilizando dados reais do ENEM, com o foco em **prever a nota da redação** de um candidato a partir de informações disponíveis no conjunto de dados.

---

## 🔍 O que você vai fazer

Você será responsável por seguir as principais etapas de um projeto de Ciência de Dados, de forma simples e organizada:

### 1. **Carregamento e exploração dos dados**

* Utilize o dataset que disponibilizamos neste link: 
* Faça a leitura, entenda as colunas disponíveis e identifique quais podem ser úteis para a tarefa.

### 2. **Análise exploratória dos dados (EDA)**

* Crie visualizações e tabelas para entender o comportamento das variáveis.
* Observe possíveis correlações com a nota da redação (`NU_NOTA_REDACAO`).
* Verifique a existência de valores ausentes ou inconsistentes.

### 3. **Construção do modelo**

Você pode escolher entre duas abordagens:

* **Regressão:** prever a nota exata da redação (de 0 a 1000).
* **Classificação:** prever a faixa de desempenho da redação (por exemplo):

  * **Baixa**: 0–400
  * **Média**: 401–800
  * **Alta**: 801–1000

> Lembre-se principalmente da etapa de Feature Engineering. O dataset tem algumas variáveis que, apesar de representadas por valores numéricos, são **categóricas**. Você deverá tratá-las corretamente para adicioná-las ao modelo, se julgar necessário.

### 4. **Avaliação do modelo**

* Para regressão: use métricas como **MAE**, **RMSE** ou **R²**.
* Para classificação: utilize **acurácia**, **precisão**, **recall**, **matriz de confusão**, etc.

### 5. **Conclusão**

* Destaque as variáveis que mais influenciaram na previsão.
* Comente o desempenho do modelo e possíveis melhorias.
* Aqui o que mais vale é sua explicação. Demonstre que entendeu todo o processo.

---

## 📁 Sobre os dados

Você estará trabalhando com um dataset real do ENEM 2019, extraído do site do INEP. Para este desafio, selecionamos apenas 10.000 registros e algumas colunas, com o objetivo de não tornar o dataset tão pesado para as análises. As colunas selecionadas foram: 

| Coluna            | Descrição                                                                 | Categorias / Valores Possíveis                                                       |
|-------------------|---------------------------------------------------------------------------|----------------------------------------------------------------------------------------|
| NU_ANO            | Ano de realização do exame.                                               | Ex: 2019                                                                  |
| NU_NOTA_CN        | Nota em Ciências da Natureza.                                             | Varia entre 0 e 1000                                                                  |
| NU_NOTA_CH        | Nota em Ciências Humanas.                                                 | Varia entre 0 e 1000                                                                  |
| NU_NOTA_LC        | Nota em Linguagens e Códigos.                                             | Varia entre 0 e 1000                                                                  |
| NU_NOTA_MT        | Nota em Matemática.                                                       | Varia entre 0 e 1000                                                                  |
| TP_ESCOLA         | Tipo de escola em que o participante concluiu ou está concluindo o EM.    | 1: Não respondeu <br>2: Pública<br>3: Privada<br>4: Exterior       |
| NU_NOTA_REDACAO   | Nota obtida na redação.                                                   | Varia entre 0 e 1000                                                                  |
| TP_ST_CONCLUSAO   | Situação de conclusão do Ensino Médio do participante.                    | 1: Já concluí<br>2: Estou cursando e vou concluir em 2019<br>3: Estou cursando e vou concluir após 2019 <br>4: Não concluí e não estou cursando o Ensino Médio|

---

## 📌 Entrega

Você deverá entregar um **notebook Jupyter (.ipynb)** com:

* As análises e visualizações realizadas
* O(s) modelo(s) criados
* Métricas utilizadas para avaliação
* Conclusões finais

> Organização, clareza nos comentários e boas práticas contam muitos pontos!

---

## 💡 Dicas

* Comece com uma amostra menor para explorar os dados mais rapidamente.
* Elimine colunas que não fazem sentido (como CPF, nome, código da prova, etc.).
* Tente diferentes algoritmos, mas priorize o entendimento sobre a complexidade.
* Comente cada etapa no seu notebook explicando o que está fazendo e por quê.
* **Não se preocupe *tanto* com o resultado final**. O objetivo maior do exercício é avaliar a linha de raciocínio e o pensamento crítico resolver o case.
* Você pode usar aplicações de IA Generativa. No entanto, todas as decisões serão questionadas. É importante entender o que está fazendo a todo momento.

---

## ✅ Critérios de Avaliação

* Clareza e organização do notebook
* Qualidade da análise exploratória
* Adequação do modelo e interpretação dos resultados
* Justificativa das decisões técnicas
* Comunicação das conclusões

---

Boa sorte, e divirta-se no processo!
Estamos ansiosos para ver como você vai transformar dados em conhecimento. 🚀

# 0. Imports

Faça aqui nesta seção todos os imports que você precisar. Já deixamos algumas sugestões prontas mas fique a vontade para usar quaisquer outras desejadas :)

In [None]:
%pip install pandas
%pip install numpy
%pip install matplotlib
%pip install scikit-learn
%pip install xgboost
%pip install seaborn

## 📁 1. Carregamento e limpeza dos dados

### Limpeza e tratamento

### Visualizações iniciais

## 🤖 2. Análise exploratória dos dados

## 🧪 3. Construção do modelo (Treinamento e avaliação)

## 🧠 4. Avaliação do modelo

## 🗣️ 5. Conclusão