# üíé An√°lise Explorat√≥ria de Dados (EDA) de Diamantes

**Autor:** J√©ssica Oliveira

Este projeto realiza uma An√°lise Explorat√≥ria de Dados (EDA) no famoso conjunto de dados de diamantes do Kaggle, que cont√©m atributos como `carat` (peso), `cut` (corte), `color` (cor), `clarity` (clareza) e `price` (pre√ßo). O objetivo √© entender a distribui√ß√£o das vari√°veis, identificar correla√ß√µes e determinar os principais fatores que influenciam o pre√ßo de um diamante.

---

## üõ†Ô∏è Configura√ß√£o e Carregamento de Bibliotecas

Importa√ß√£o das bibliotecas essenciais para manipula√ß√£o de dados (`pandas`, `numpy`) e visualiza√ß√£o (`matplotlib`, `seaborn`).

In [None]:
!pip install pandas
!pip install matplotlib
!pip install seaborn
!pip install numpy

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np # Importa a biblioteca para manipula√ß√£o matem√°tica, como logaritmo

In [None]:
# 1. Carregar os dados (ajuste o nome do arquivo, se necess√°rio)
df = pd.read_csv('diamonds.csv')

In [None]:
print(df.shape)

## üßπ Tratamento e Limpeza de Dados

O conjunto de dados, embora limpo, cont√©m algumas entradas inv√°lidas, onde as dimens√µes (`x`, `y`, `z`) ou o `price` s√£o registrados como **zero**. Essas entradas s√£o fisicamente imposs√≠veis e devem ser removidas para evitar distor√ß√µes nas estat√≠sticas e visualiza√ß√µes.

**Aten√ß√£o:** Removemos **20** linhas do DataFrame.

In [None]:
# Remover linhas onde 'price' ou as dimens√µes (x, y, z) s√£o zero.
# Diamantes n√£o podem ter pre√ßo ou dimens√µes zero.
df = df.drop(df[ (df["x"]==0) | (df["y"]==0) | (df["z"]==0) | (df["price"]==0) ].index, axis=0)

In [None]:
print(df.shape)

## üìä An√°lise da Distribui√ß√£o de Vari√°veis Num√©ricas

Vari√°veis como o peso (`carat`) e o pre√ßo (`price`) s√£o cruciais. Analisar sua distribui√ß√£o √© o primeiro passo para entender sua natureza.

### Distribui√ß√£o de `Carat` (Peso)
O histograma revela uma **forte assimetria positiva**, com a maioria dos diamantes concentrada em pesos menores.

### Distribui√ß√£o de `Price` (Pre√ßo)
Devido √† assimetria exponencial do pre√ßo, aplicamos a **transforma√ß√£o logar√≠tmica** (`np.log(price)`) para visualizar a distribui√ß√£o de forma mais normalizada.

In [None]:
plt.figure(figsize=(10, 6))
# kde=True: Adiciona a linha de densidade para suavizar o gr√°fico.
sns.histplot(df['carat'], bins=50, kde=True, color='skyblue') 
plt.title('Distribui√ß√£o do Peso do Diamante (Carat)')
plt.xlabel('Carat')
plt.ylabel('Frequ√™ncia')
plt.show()

1. üîç Assimetria Positiva (Skewness)

A barra mais alta est√° localizada √† extrema esquerda do gr√°fico (perto de $0$ Carat), e a cauda do gr√°fico se estende por um longo caminho para a direita (at√© $5$ Carat).
Interpreta√ß√£o: A distribui√ß√£o √© fortemente assim√©trica √† direita (Positive Skew). A grande maioria dos diamantes no dataset possui um peso baixo (abaixo de $1.0$ Carat). Diamantes com peso mais alto ($2.0$ Carat ou mais) s√£o raros. Isso √© o que se espera do mercado de diamantes.

2. ‚õ∞Ô∏è Picos (Modas) da Distribui√ß√£o

O gr√°fico n√£o √© suave, mas tem picos distintos, al√©m do pico principal. H√° picos claros pr√≥ximos a $0.3$ Carat, $0.7$ Carat e, de forma mais acentuada, em torno de $1.0$ Carat e $1.5$ Carat.
Interpreta√ß√£o: Estes picos representam as modas ou as frequ√™ncias mais altas de pesos espec√≠ficos. Os picos em n√∫meros "arredondados" como $1.0$ e $1.5$ Carat sugerem uma tend√™ncia de corte e com√©rcio. Os lapidadores de diamantes frequentemente buscam manter ou alcan√ßar esses pesos inteiros ou semi-inteiros, pois eles s√£o conhecidos como "pesos m√°gicos" e t√™m um valor de mercado desproporcionalmente maior.

3. üìâ Densidade da Curva (KDE Plot)

A linha azul suave (KDE) segue a forma do histograma e cai abruptamente ap√≥s o pico inicial.
Interpreta√ß√£o: A frequ√™ncia de ocorr√™ncia de diamantes de alto peso diminui rapidamente. Quanto maior o diamante, mais raro ele √©. Se o seu modelo de precifica√ß√£o for sens√≠vel √† frequ√™ncia, ele deve ser robusto o suficiente para lidar com a raridade dos dados de alto carat.Em resumo, o gr√°fico mostra que o peso (Carat) √© uma vari√°vel n√£o-normal (altamente assim√©trica), e qualquer an√°lise estat√≠stica (como regress√£o) que dependa da normalidade provavelmente se beneficiar√° da transforma√ß√£o logar√≠tmica do Carat (assim como do Price), para tornar a distribui√ß√£o mais manej√°vel.

In [None]:
plt.figure(figsize=(10, 6))
# np.log(df['price']) : Aplica o logaritmo natural (log) a todos os pre√ßos.
sns.histplot(np.log(df['price']), bins=50, kde=True, color='purple') 
plt.title('Distribui√ß√£o do Pre√ßo (Transforma√ß√£o Logar√≠tmica)')
plt.xlabel('Log do Pre√ßo')
plt.ylabel('Frequ√™ncia')
plt.show()

1. üî¨ Motivo da Transforma√ß√£o Logar√≠tmica

A transforma√ß√£o (Log do Pre√ßo) √© usada para normalizar a distribui√ß√£o. O resultado mostra que a distribui√ß√£o agora est√° muito mais uniforme, o que √© ideal para t√©cnicas estat√≠sticas como a Regress√£o Linear, que pressup√µem uma distribui√ß√£o normal  dos erros.

2. ‚õ∞Ô∏è Natureza Bimodal (Dois Picos)

A curva de densidade roxa (KDE) e as barras mostram claramente dois picos principais (bimodal).
Primeiro Pico: Concentrado em torno de $6.5$ a $7.0$ (o que corresponde a pre√ßos mais baixos).
Segundo Pico: Concentrado em torno de $8.0$ a $8.5$ (o que corresponde a pre√ßos mais altos).
Interpreta√ß√£o: Esta distribui√ß√£o sugere que o conjunto de dados pode ser composto por duas popula√ß√µes distintas de diamantes. Primeira Popula√ß√£o (Pico Esquerdo): Provavelmente a maioria dos diamantes menores (baixo carat), que s√£o cortados e vendidos em massa. Segunda Popula√ß√£o (Pico Direito): Provavelmente diamantes maiores ou de alta qualidade (alto carat e/ou excelente cut/clarity), que representam um pr√™mio de mercado.

3. üìâ Assimetria Residual

Mesmo ap√≥s a transforma√ß√£o logar√≠tmica, a distribui√ß√£o n√£o √© uma curva normal perfeita. A cauda da distribui√ß√£o se estende ligeiramente mais √† direita (pre√ßos mais altos no logaritmo) do que √† esquerda.
Interpreta√ß√£o: O pre√ßo do diamante ainda tem uma leve assimetria positiva residual. Isso refor√ßa a ideia de que os pre√ßos mais altos (diamantes grandes ou de qualidade excepcional) s√£o mais dif√≠ceis de prever e representam uma varia√ß√£o maior no mercado.Em resumo, este gr√°fico indica que a vari√°vel pre√ßo est√° pronta para uso em modelos de regress√£o, mas o comportamento bimodal sugere que um modelo preditivo pode se beneficiar ao considerar o Carat (peso) como uma vari√°vel de segmenta√ß√£o para lidar com essas duas popula√ß√µes de pre√ßos distintas.

## üé® An√°lise das Vari√°veis Categ√≥ricas e sua Rela√ß√£o com o Pre√ßo

As vari√°veis categ√≥ricas (`cut`, `color`, `clarity`) definem a qualidade e s√£o avaliadas para entender seu impacto no valor final.

### Frequ√™ncia de Qualidade de Corte (`Cut`)
O gr√°fico de barras (`Count Plot`) mostra a contagem de diamantes em cada categoria de corte.

### Impacto da Clareza (`Clarity`) no Pre√ßo
O `Box Plot` √© ideal para comparar a distribui√ß√£o de pre√ßos em diferentes grupos de clareza, revelando a **mediana** e a **dispers√£o** de pre√ßo para cada n√≠vel de qualidade.

In [None]:
plt.figure(figsize=(8, 5))
# order=df['cut'].value_counts().index: Garante que as barras estejam ordenadas pela contagem.
sns.countplot(x='cut', data=df, order=df['cut'].value_counts().index, palette='viridis')
plt.title('Contagem de Diamantes por Qualidade de Corte')
plt.xlabel('Corte')
plt.ylabel('Contagem')
plt.show()

1. ü•á Predomin√¢ncia da Alta Qualidade

As barras para as categorias "Ideal" (aproximadamente $21.500$ diamantes) e "Premium" (aproximadamente $13.500$ diamantes) s√£o significativamente mais altas do que as demais.
Interpreta√ß√£o: A maioria dos diamantes no seu conjunto de dados possui a mais alta qualidade de corte. Isso sugere que a qualidade de corte √© extremamente valorizada, e que cortes inferiores (como "Good" e "Fair") s√£o muito menos comuns neste dataset espec√≠fico. Isso pode refletir a demanda do mercado por diamantes bem lapidados ou a forma como o dataset foi coletado (focando em varejo de alta qualidade).

2. üìâ Rara Ocorr√™ncia de Baixa Qualidade

   
A contagem cai drasticamente para "Good" (cerca de $5.000$) e, especialmente, para "Fair" (menos de $2.000$).
Interpreta√ß√£o: As categorias de corte "Good" e "Fair" s√£o as mais raras no seu conjunto de dados. Para fins de modelagem preditiva, voc√™ deve ter cuidado ao prever o pre√ßo de um diamante com corte "Fair" ou "Good", pois o modelo ter√° menos dados de treinamento nessas categorias. Embora o pre√ßo tenda a ser mais baixo, a falta de amostras pode tornar a previs√£o menos precisa ou menos robusta para esses casos.

3. Ordem da Qualidade
   
As categorias est√£o naturalmente ordenadas da esquerda (Melhor: Ideal) para a direita (Pior: Fair).
Interpreta√ß√£o: A contagem geralmente diminui √† medida que a qualidade do corte diminui (com exce√ß√£o de "Premium" sendo ligeiramente menos comum que "Ideal", mas ainda assim √† frente de "Very Good"). Isso refor√ßa o entendimento de que a prioridade na ind√∫stria √© a lapida√ß√£o de alta precis√£o.
Em resumo, o gr√°fico confirma que o seu dataset √© enviesado para a alta qualidade de corte, o que √© um ponto importante a ser notado ao analisar o impacto de outras vari√°veis no pre√ßo.

In [None]:
plt.figure(figsize=(10, 6))
# Box plot: Ideal para comparar a distribui√ß√£o de uma vari√°vel num√©rica (y) em categorias (x).
sns.boxplot(x='clarity', y='price', data=df, 
            order=['I1', 'SI2', 'SI1', 'VS2', 'VS1', 'VVS2', 'VVS1', 'IF'], palette='Blues')
plt.title('Distribui√ß√£o de Pre√ßos por Clareza')
plt.xlabel('Clareza')
plt.ylabel('Pre√ßo (USD)')
plt.show()

1. üìè O Efeito Contraintuitivo da Clareza

Observando a linha central (mediana) de cada caixa:As categorias de clareza mais baixa (I1, SI2, SI1) t√™m medianas de pre√ßo (linha central da caixa) mais altas do que as categorias de clareza muito alta (VVS2, VVS1, IF).
Interpreta√ß√£o: A mediana do pre√ßo n√£o aumenta consistentemente com a melhoria da clareza. Este padr√£o ocorre porque a vari√°vel dominante, o peso (Carat), est√° mascarando o efeito da clareza.Diamantes grandes (alto Carat) s√£o caros, mesmo que tenham uma clareza m√©dia ou baixa.Diamantes pequenos (baixo Carat) podem ter clareza perfeita (IF), mas seu pre√ßo base √© muito baixo.Portanto, a popula√ß√£o de diamantes grandes e de clareza m√©dia/baixa est√° elevando a mediana das categorias I1 a SI1.

2. üìâ Dispers√£o e Concentra√ß√£o de Pre√ßos

O tamanho das caixas e a posi√ß√£o das caixas na vertical.A caixa para SI2 e VS2 parece ser uma das maiores.As caixas para VVS1 e IF (clareza perfeita) est√£o localizadas mais abaixo no gr√°fico.Interpreta√ß√£o: A variabilidade de pre√ßo (tamanho da caixa) √© maior nas categorias de clareza m√©dia (SI2, VS2).Significado: Isso sugere que a maioria dos diamantes negociados tem clareza m√©dia, o que significa que h√° uma maior mistura de pesos e outros atributos nessas caixas. J√° os diamantes de clareza perfeita (IF) tendem a ser mais uniformemente pequenos e caros, mas o pre√ßo m√°ximo √© limitado.

3. ‚ö™ Outliers (Pontos Extremos)

Muitos pontos pretos (c√≠rculos) no topo das "hastes" em todas as categorias.
Interpreta√ß√£o: Todas as categorias possuem outliers (valores at√≠picos de pre√ßo).Significado: Os diamantes mais caros ($17.500$ USD e acima) aparecem em todas as categorias de clareza. Esses outliers representam os diamantes mais raros ‚Äî geralmente aqueles que combinam um peso (Carat) muito alto com uma clareza aceit√°vel.Em resumo, este Box Plot nos ensina que, isoladamente, a clareza n√£o √© o fator de maior peso no pre√ßo; o pre√ßo √© uma fun√ß√£o multiplicativa do Carat e das vari√°veis de qualidade.

## üîó An√°lise de Rela√ß√µes e Correla√ß√µes

Esta √© a etapa onde identificamos a rela√ß√£o entre as vari√°veis, crucial para a futura modelagem de pre√ßos.

### Correla√ß√£o Carat vs. Price
O `Scatter Plot` mostra uma **correla√ß√£o positiva muito forte** e n√£o linear, confirmando que o peso √© o principal fator de precifica√ß√£o. A transpar√™ncia (`alpha`) foi usada para visualizar a densidade de pontos.

### Mapa de Calor da Correla√ß√£o (Heatmap)
A matriz de correla√ß√£o quantifica a rela√ß√£o entre todas as vari√°veis num√©ricas, destacando a alta correla√ß√£o entre o `carat` e as dimens√µes (`x`, `y`, `z`).

In [None]:
plt.figure(figsize=(10, 6))
# alpha=0.1: Define a transpar√™ncia dos pontos. √ötil para datasets grandes!
sns.scatterplot(x='carat', y='price', data=df, alpha=0.1, color='darkred')
plt.title('Correla√ß√£o entre Pre√ßo e Peso (Carat)')
plt.xlabel('Carat')
plt.ylabel('Pre√ßo (USD)')
plt.show()

1. üîó Correla√ß√£o Positiva e N√£o Linear

Os pontos formam uma nuvem que se move de forma consistente para cima e para a direita. A rela√ß√£o inicial √© apertada e depois se alarga.
Interpreta√ß√£o: Existe uma correla√ß√£o positiva muito forte entre Carat e Price. Quanto maior o peso do diamante, maior √© o seu pre√ßo. A curva √© exponencial (n√£o linear), o que significa que o aumento de pre√ßo por unidade de peso √© maior para diamantes mais pesados (acima de $1.0$ Carat).

2. üéöÔ∏è Pontos de Salto de Pre√ßo

H√° bandas verticais de alta densidade (pontos agrupados) que aparecem em pesos espec√≠ficos, notavelmente em $1.0$ Carat, $1.5$ Carat e $2.0$ Carat.Interpreta√ß√£o: Estes s√£o os "pesos m√°gicos" do mercado. Diamantes que cruzam um peso-chave (como passar de $0.99$ para $1.00$ Carat) experimentam um salto desproporcional no pre√ßo, mesmo que a diferen√ßa de peso seja m√≠nima. Os vendedores cobram um pr√™mio por atingir esses marcos.

3. ‚òÅÔ∏è Aumento da Vari√¢ncia (Dispers√£o)

A nuvem de pontos √© muito estreita para diamantes abaixo de $1.0$ Carat. Acima de $1.0$ Carat, a nuvem de pontos se alarga verticalmente (mais dispers√£o).Interpreta√ß√£o: A vari√¢ncia (dispers√£o) do pre√ßo aumenta drasticamente com o peso. Para diamantes pequenos, h√° pouca diferen√ßa de pre√ßo entre qualidades (o pre√ßo √© determinado principalmente pelo Carat).Para diamantes grandes (acima de $1.0$ Carat), a diferen√ßa de pre√ßo entre um diamante de corte "Fair" e um de corte "Ideal" √© enorme, causando grande dispers√£o vertical. As outras vari√°veis de qualidade (Cut, Clarity, Color) t√™m seu maior impacto no pre√ßo de diamantes mais pesados.Em resumo, o gr√°fico prova que o Carat √© o principal driver de pre√ßo, mas que a qualidade (as outras vari√°veis) √© o que define a dispers√£o e o pr√™mio de pre√ßo nos pesos mais altos.

In [None]:
# Selecionar vari√°veis num√©ricas para a matriz de correla√ß√£o
corr_matrix = df[['carat', 'depth', 'table', 'price', 'x', 'y', 'z']].corr() 

plt.figure(figsize=(8, 7))
# annot=True: Mostra o valor da correla√ß√£o na c√©lula.
# cmap='coolwarm': Define o esquema de cores.
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Mapa de Calor da Correla√ß√£o entre Vari√°veis Num√©ricas')
plt.show()

1. ü•á Rela√ß√£o Principal: Pre√ßo e Peso (price e carat)

A correla√ß√£o entre price e carat √© $0.92$ (c√©lula vermelha escura).
Interpreta√ß√£o: Esta √© uma correla√ß√£o positiva extremamente forte. Confirma que o peso (carat) √© o principal fator que impulsiona o pre√ßo (price) do diamante. Se o peso aumenta, o pre√ßo aumenta de forma previs√≠vel.

2. üìè Rela√ß√£o entre Peso e Dimens√µes

O carat apresenta correla√ß√µes quase perfeitas com as dimens√µes (x, y, z):carat vs. x (comprimento): $0.98$carat vs. y (largura): $0.95$carat vs. z (profundidade): $0.96$Interpreta√ß√£o: Isso √© esperado e l√≥gico. Diamantes mais pesados s√£o, naturalmente, fisicamente maiores. Essas dimens√µes est√£o t√£o altamente correlacionadas com carat que voc√™ pode considerar que elas cont√™m informa√ß√µes redundantes. Em modelos preditivos, incluir carat e as tr√™s dimens√µes pode levar √† multicolinearidade (vari√°veis que medem quase a mesma coisa).

3. üéØ Impacto das M√©tricas de Corte

O price tem correla√ß√µes muito baixas com depth (profundidade) e table (mesa):price vs. depth: $-0.01$ (Quase zero)price vs. table: $0.13$ (Fraca positiva)Interpreta√ß√£o: Essas m√©tricas geom√©tricas do corte n√£o t√™m um forte impacto linear no pre√ßo. O price √© dominado pelo carat. Embora um bom depth e table sejam importantes para a qualidade (que √© capturada pelas vari√°veis categ√≥ricas cut e clarity), o efeito direto e linear dessas dimens√µes no pre√ßo √© m√≠nimo em compara√ß√£o com o peso.

4. üîÄ Correla√ß√£o Negativa (depth e table)

A correla√ß√£o entre depth e table √© $-0.30$ (c√©lula azul).Interpreta√ß√£o: Esta √© uma correla√ß√£o negativa fraca a moderada. Isso sugere que, em geral, se um diamante tem uma profundidade (depth) maior, ele tende a ter uma mesa (table) menor, e vice-versa. Isso reflete um compromisso comum no processo de lapida√ß√£o para otimizar o peso ou o brilho.Em resumo, este mapa de calor prova numericamente o que o Scatter Plot sugeriu: o carat √© de longe o fator mais importante para o pre√ßo. As outras vari√°veis de dimens√£o e corte s√£o secund√°rias ou redundantes.

## ‚úÖ Conclus√£o e Resumo dos Insights

Esta An√°lise Explorat√≥ria de Dados (EDA) forneceu evid√™ncias visuais e num√©ricas para os fatores que influenciam o pre√ßo dos diamantes:

1.  **O Peso √© o Rei:** A correla√ß√£o fort√≠ssima entre **`carat` e `price` ($\mathbf{0.92}$)** prova que ele √© o principal *driver* de pre√ßo, superando todos os outros fatores lineares.
2.  **Pr√™mio de Qualidade no Alto Carat:** As vari√°veis de qualidade (`cut`, `clarity`, `color`) t√™m seu maior impacto e causam maior dispers√£o de pre√ßo em diamantes mais pesados (acima de 1.0 Carat).
3.  **Prepara√ß√£o para Modelagem:** A transforma√ß√£o logar√≠tmica no pre√ßo e a identifica√ß√£o de vari√°veis altamente correlacionadas (como as dimens√µes `x, y, z`) s√£o passos essenciais para a constru√ß√£o de um modelo de regress√£o preciso.
