# Projeto de Data Science - Metodologia CRISP-DM

Desenvolvido por André Moreira 
- [Git](https://github.com/moreira-and)
- [Linkedin](https://www.linkedin.com/in/moreira-and/)

## 1. Compreensão do Negócio (Business Understanding)
- **Objetivo de Negócio:** Definir o objetivo final do projeto com base nas necessidades do negócio (ex.: previsão, classificação, clusterização).
- **Situação Atual:** Entender o contexto e os fatores que motivam o projeto (ex.: por que essa análise é importante? Quais problemas ou oportunidades estão sendo abordados?).
- **Critérios de Sucesso:** Definir métricas ou resultados que caracterizam o sucesso do projeto (ex.: precisão mínima, aumento de eficiência, insights acionáveis).


## 2. Compreensão dos Dados (Data Understanding)
- **Coleta de Dados:** Identificar e adquirir os dados necessários para a análise (ex.: de sistemas internos, APIs, fontes públicas).
- **Exploração Inicial:** Examinar as primeiras linhas do dataset, identificar os tipos de variáveis, verificar as estatísticas descritivas e entender a estrutura dos dados (`df.head()`, `df.info()`, `df.describe()`).
- **Qualidade dos Dados:** Avaliar a qualidade dos dados, identificando valores ausentes, inconsistências, e possíveis outliers (`df.isnull().sum()`, gráficos de boxplot, etc.).
- **Análise Inicial:** Realizar análises exploratórias básicas para verificar correlações, distribuições e padrões que possam existir nos dados.

## 3. Preparação dos Dados (Data Preparation)
- **Seleção de Dados:** Escolher as colunas ou features que são relevantes para o problema, descartando as que não contribuem.
- **Limpeza de Dados:** Tratar valores ausentes, duplicados, ou inconsistentes de maneira adequada (ex.: preenchimento, exclusão ou imputação).
- **Transformação de Dados:** Realizar transformações nos dados, como codificação de variáveis categóricas (One-Hot Encoding), normalização ou padronização de variáveis numéricas.
- **Criação de Novas Features (Feature Engineering):** Criar novas variáveis ou transformar variáveis existentes para melhor representar o problema (ex.: combinação de variáveis, transformação de colunas temporais, categorias de idade).

## 4. Modelagem (Modeling)
- **Seleção de Algoritmo:** Escolher algoritmos de machine learning ou técnicas analíticas adequadas ao problema (ex.: regressão, classificação, árvore de decisão, redes neurais, clusterização).
- **Divisão dos Dados:** Separar o dataset em conjuntos de treino e teste para evitar overfitting e validar o modelo (`train_test_split`).
- **Treinamento do Modelo:** Treinar o modelo escolhido com os dados de treino (`model.fit()`).
- **Ajuste de Hiperparâmetros (se aplicável):** Ajustar parâmetros do modelo para melhorar o desempenho e a precisão, utilizando técnicas como busca em grade (Grid Search) ou otimização bayesiana.
- **Validação Cruzada (se aplicável):** Utilizar técnicas de validação cruzada para verificar a generalização do modelo em diferentes divisões do dataset.

## 5. Avaliação (Evaluation)
- **Predições:** Fazer previsões com o modelo treinado usando os dados de teste (`model.predict()`).
- **Métricas de Desempenho:** Avaliar o modelo com métricas apropriadas ao problema (ex.: acurácia, precisão, recall, F1-score, ROC-AUC para classificação; erro médio quadrático, R² para regressão).
- **Análise das Métricas:** Analisar os resultados das métricas para determinar se o modelo atende aos requisitos de negócio. Verificar trade-offs, como precisão vs. recall, se aplicável.
- **Importância das Variáveis (se aplicável):** Identificar as variáveis que mais influenciam o modelo (ex.: `model.feature_importances_` para modelos baseados em árvores).

## 6. Implantação (Deployment)
- **Comunicação dos Resultados:** Apresentar insights e resultados por meio de relatórios, visualizações e dashboards para os stakeholders.
- **Automatização (se aplicável):** Criar pipelines ou workflows que automatizam o processo de coleta, limpeza, modelagem e previsão para novos dados.
- **Desenvolvimento de Aplicações (se aplicável):** Implementar uma interface ou sistema para utilização contínua dos modelos preditivos, como por meio de uma API, aplicação web (ex.: Flask, Streamlit) ou ferramentas de visualização (ex.: Power BI, Tableau).