Este projeto realiza uma Análise Exploratória de Dados (EDA) sobre um dataset de diamantes, buscando entender como diferentes atributos físicos e qualitativos influenciam o seu preço. A partir dessas análises, são formuladas hipóteses e desenvolvidas novas variáveis (feature engineering) para capturar melhor os padrões presentes nos dados.
Utilizamos o conjunto de dados público disponível no Kaggle: Diamonds Characteristics and Pricing Dataset
O dataset contém informações como:
- Peso (carat)
- Dimensões físicas (x, y, z)
- Profundidade (depth)
- Tabela (table)
- Avaliações de qualidade (cut, color, clarity)
- Preço (price)
- Realizar uma EDA completa para compreender as relações entre atributos.
- Identificar padrões, tendências e possíveis outliers.
- Formular hipóteses sobre o comportamento do preço.
- Criar novas variáveis que possam melhorar modelos preditivos futuros.
- Limpeza e inspeção inicial dos dados.
- Visualizações estatísticas (pairplot, heatmap, scatterplots, boxplots).
- Análise de correlações entre variáveis.
- Detecção e estudo de outliers.
- Feature Engineering baseada nas hipóteses criadas durante a análise.
- Melhor compreensão dos fatores que influenciam diretamente o preço do diamante.
- Base sólida para construção de modelos de Machine Learning mais eficientes.
- Conjunto de features enriquecido e mais representativo da realidade do mercado.