# Projeto de Machine Learning: Descrição e Tarefas

Neste projeto, cada grupo irá escolher um dos cinco conjuntos de dados abaixo e desenvolver um modelo de aprendizado supervisionado para resolver o problema proposto. O foco estará em todo o ciclo de desenvolvimento de um projeto de Machine Learning, desde a compreensão dos dados até a avaliação final do modelo. Cada etapa será cuidadosamente planejada para garantir que o modelo seja bem-sucedido na tarefa de predição.

Conjuntos de Dados Disponíveis:

1. [Telco Customer Churn](https://www.kaggle.com/datasets/blastchar/telco-customer-churn?select=WA_Fn-UseC_-Telco-Customer-Churn.csv)

2.	[Adult Census Income](https://www.kaggle.com/datasets/uciml/adult-census-income)

3.	[UCI Heart Disease Data](https://www.kaggle.com/datasets/redwankarimsony/heart-disease-data)

4.	[Bank Marketing Dataset](https://www.kaggle.com/datasets/janiobachmann/bank-marketing-dataset)

5.	[Default of Credit Card Clients Dataset](https://www.kaggle.com/datasets/uciml/default-of-credit-card-clients-dataset)

## Estrutura do Projeto

Cada grupo deve seguir as etapas descritas abaixo, adequando o processo ao conjunto de dados escolhido.

### 1. Entendimento do Problema e Definição de Objetivos

•	Tarefa: Analisar o problema proposto pelo conjunto de dados escolhido. Entender a natureza do problema (classificação binária, multiclasse ou regressão) e definir claramente os objetivos do projeto.

•	Exemplo: No caso do `Telco Customer Churn`, o objetivo será prever se um usuario faz parte do churn ou não.

### 2. Coleta e Preparação de Dados

•	Tarefa: Realizar o carregamento do dataset e fazer uma análise exploratória inicial. Isso inclui uma análise detalhada das variáveis, tipos de dados, presença de valores nulos ou inconsistências.

	•	Subtarefas:
	•	Remover ou preencher valores ausentes.
	•	Normalizar e padronizar as variáveis (se necessário).
	•	Codificar variáveis categóricas (se aplicável).

### 3. Análise Exploratória de Dados (EDA)

•	Tarefa: Realizar uma análise exploratória de dados aprofundada para entender as correlações entre as variáveis, distribuições e possíveis padrões.
	•	Subtarefas:
	•	Criar gráficos (distribuição, histogramas, box plots, etc.).
	•	Analisar correlações entre as variáveis.
	•	Identificar variáveis que podem ser eliminadas ou combinadas.


### 4. Divisão dos Dados em Conjuntos de Treinamento e Teste

•	Tarefa: Dividir o dataset em treinamento e teste (usualmente 80%/20%) para garantir a capacidade do modelo de generalizar bem a novos dados.

### 5. Escolha e Implementação de Algoritmos

•	Tarefa: Escolher um ou mais algoritmos de aprendizado supervisionado para treinar o modelo. Testar diferentes algoritmos e ajustar seus hiperparâmetros para melhorar a performance.

•	Algoritmos sugeridos: Logistic Regression, Decision Trees, Random Forest, KNN Classifier/Regression etc.

### 6. Avaliação do Modelo

•	Tarefa: Avaliar o desempenho do modelo usando métricas apropriadas para o tipo de problema.

•	Classificação:
	•	Métricas: Acurácia, Precisão, Revocação, F1-Score, AUC-ROC.
	•	Regressão:
	•	Métricas: RMSE, MAE, R².

### 7. Ajuste de Hiperparâmetros e Tuning do Modelo

•	Tarefa: Utilizar técnicas como `Grid Search` ou `Random Search` para ajustar hiperparâmetros e melhorar o desempenho do modelo.


### 8. Validação Cruzada e Teste Final

•	Tarefa: Aplicar validação cruzada para verificar a robustez do modelo e garantir que ele não esteja superajustado (overfitting). Em seguida, realizar o teste final no conjunto de teste.

### 9. Interpretação dos Resultados e Conclusão

•	Tarefa: Interpretar os resultados do modelo, destacando insights importantes, limitações e sugestões para melhorias futuras.


### 10. Relatório Final

•	Tarefa: Cada grupo deve compilar um relatório que inclua:

•	Descrição do problema.

•	Explicação da preparação e exploração de dados.

•	Justificativa da escolha dos algoritmos.

•	Análise dos resultados e gráficos gerados.

•	Conclusão com possíveis melhorias futuras.

•	Código comentado.

**Nota:** Este relatório pode ser feito no próprio notebook da modelagem

Avaliação

A avaliação do projeto será feita com base nos seguintes critérios:

•	Qualidade e profundidade da análise exploratória.

•	Eficiência e desempenho do modelo criado.

•	Clareza do relatório final e apresentação dos resultados.

•	Qualidade do código desenvolvido.

Boa sorte no desenvolvimento do projeto!