# **Projeto de Machine Learning**

---

Objetivo: **Desenvolver um pipeline completo de Machine Learning usando o dataset** [Adult Census Income](https://archive.ics.uci.edu/ml/datasets/Adult) da [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/).

Grupo: `dupla` - `até 2 pessoas`

---

O projeto de Machine Learning está dividido em 3 etapas, sendo elas:

- APS1: **Projeto EDA** (20%)
- APS2: **Projeto Regressão** (40%)
- APS3: **Projeto Classificação** (40%)

Lembrando das regras:

- APS entregue fora do prazo, conceito limite é C;
- APS não entregue implica em conceito I;
- **Com conceito I em qualquer APS, toda a nota de grupo é ZERO**, ou seja, não entregar qualquer uma das APSs implica em zerar a nota de grupo.

## Entrega

- Cada etapa do projeto tem seu `deadline`;
- A entrega deve ser feita via BlackBoard, com um arquivo `.ipynb` ou com um link para um `Colab`;
- O material entregue deve ter, além dos requisitados básicos de cada etapa:
    - Identificação dos membros do grupo;
    - Título do projeto;
    - Data de entrega;
    - Referências bibliográficas utilizadas (se houver);
    - Qualquer outra informação que o grupo julgar relevante para a avaliação do projeto.

## **Dataset**

O dataset no qual o projeto deve ser desenvolvido é o [Adult Census Income](https://archive.ics.uci.edu/ml/datasets/Adult) da [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/). Ele contém informações sobre indivíduos, como idade, trabalho, educação, estado civil, ocupação, renda, entre outros.

## APS1: **EDA**

> Deadline: 12 Março, 2026

Na etapa de EDA, o grupo deve realizar uma análise exploratória abrangente para entender a estrutura, qualidade, distribuições, relações entre variáveis (numéricas e categóricas) e desafios, como missing values e vieses, preparando para encoding e modelagem nas fases subsequentes.
Descrição do Dataset: O dataset Adult consiste em 48.842 instâncias, cada uma representando um indivíduo com 14 features mistas e o target 'income'. Valores ausentes são representados por '?'. Use o conjunto completo para EDA, mas amostras estratificadas (por income) para visualizações eficientes se necessário.

Tarefas básicas de EDA:

1. Carregamento e inspeção inicial dos dados:

    - Explicar cada feature do dataset;
    - Verificar o número de instâncias e features.
    - Identificar tipos de dados (numéricos, categóricos).
    - Detectar valores ausentes ('?') e inconsistências.
    - Analisar a distribuição do target 'income'.

2. Análise univariada:

    - Para variáveis numéricas: calcular estatísticas descritivas (média, mediana, desvio padrão) e criar histogramas ou boxplots.
    - Para variáveis categóricas: calcular frequências e criar gráficos de barras.
    - Detectar outliers em variáveis numéricas usando boxplots ou z-scores.

3. Análise bivariada e multivariada:

    - Analisar correlações entre variáveis numéricas usando matrizes de correlação e scatter plots (use heatmaps para visualização).
    - Analisar relações entre variáveis categóricas e o target 'income' usando gráficos de barras ou tabelas de contingência.
    - Analisar relações entre variáveis numéricas e categóricas usando boxplots ou violin plots.

4. Análise de qualidade dos dados:

    - Identificar e quantificar valores ausentes.
    - Analisar a distribuição de classes no target 'income' para detectar desequilíbrios.
    - Identificar possíveis vieses ou inconsistências nos dados.

5. Pré-processamento para modelagem:

    - Propor estratégias para lidar com valores ausentes (remoção, imputação).
    - Propor estratégias para lidar com outliers (remoção, transformação).
    - Propor estratégias para lidar com desequilíbrios de classe (undersampling, oversampling).
    - Propor estratégias para encoding de variáveis categóricas (one-hot encoding, label encoding).
    - Propor estratégias para normalização ou padronização de variáveis numéricas (Min-Max Scaling, Standardization, etc.).
    - Construir um pipeline de pré-processamento que inclua as etapas acima, garantindo que seja aplicável para as fases de modelagem subsequentes.

6. Redução de dimensionalidade:

    - Propor e aplicar técnicas de redução de dimensionalidade, como PCA, t-SNE ou UMAP, para visualizar a estrutura dos dados e identificar possíveis agrupamentos ou padrões.
    - Analisar os resultados da redução de dimensionalidade para obter insights sobre a separabilidade das classes e a importância das features.

7. Documentação e apresentação:

    - Documentar todas as etapas da análise, incluindo insights e decisões tomadas. **Justificar as escolhas de pré-processamento com base nos achados da EDA.**
    - Sugerir feature engineering baseada nos insights da EDA, como criação de novas features a partir das existentes (ex: idade em grupos, interações entre variáveis).
    - Criar visualizações claras e informativas para comunicar os resultados da EDA.
    - Preparar um relatório que resuma os principais achados e as estratégias propostas para a modelagem.
    - Discutir as limitações do dataset e os desafios que podem surgir durante a modelagem, como overfitting, underfitting, ou problemas de generalização.
    - Discutir implicações das descobertas através das análises do dataset para:

        - Regressão, e;
        - Classificação.

Instruções adicionais:

- O código deve ser bem organizado, com comentários explicativos para cada etapa.
- As visualizações devem ser claras, com títulos, rótulos e legendas adequados
- O relatório deve ser conciso, focando nos insights mais relevantes e nas decisões de pré-processamento.
- O grupo deve justificar todas as escolhas de pré-processamento com base nos achados da EDA, garantindo que as estratégias propostas sejam adequadas para os desafios identificados no dataset.
- O relatório deve incluir uma seção de conclusões, resumindo os principais insights e as estratégias propostas para a modelagem, além de discutir as limitações do dataset e os desafios que podem surgir durante a modelagem.
- Python obrigatório, utilizando bibliotecas como Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn, entre outras para análise e visualização dos dados.


### Critérios de avaliação:

| Conceito | Descrição |
| --- | --- |
| `I` | Não entrega da APS. |
| `D` | Entrega com contúdo incompleto, análise superficial, falta de justificativas para as escolhas de pré-processamento, ou visualizações inadequadas. |
| `C` | Entrega completa, mas com algumas falhas na análise, justificativas ou visualizações. |
| `B` | Entrega completa, com análise detalhada, justificativas claras para as escolhas de pré-processamento, e visualizações adequadas. |
| `A` | Entrega completa, com análise aprofundada, justificativas muito claras e bem fundamentadas para as escolhas de pré-processamento, visualizações excelentes, e um relatório muito bem estruturado e informativo. |

O critério `+` pode ser utilizado para destacar entregas que se destacam em algum aspecto específico, como criatividade na análise, qualidade das visualizações ou clareza do relatório.

## APS2: **Regressão**

> Deadline: - Abril, 2026

*Em definição.*

## APS3: **Classificação**

> Deadline: - Maio, 2026

*Em definição.*