# Análise exploratória de dados

In [41]:
# Bibliotecas
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

import scipy.stats as stats
from scipy.stats import norm
from sklearn.preprocessing import LabelEncoder

## 1. Descrição dos dados

"Diamonds" é um dataset retirado do Kaggle com preços e atributos de mais de 54.000 diamantes. Ele possui 53.940 linhas e dez variáveis, que são:

- **price**: O preço do diamante em dólares americanos (\$326 - $18823)
- **carat**: O peso do diamante em quilates (0.2 - 5.01)
- **cut**: A qualidade do corte do diamante (Fair, Good, Very Good, Premium, Ideal)
- **color**: Cor do diamante, de J (pior) à D (melhor).
- **clarity**: O quão claro é o diamante (do pior para o melhor, I1-SI2-SI1-VS2-VS1-VVS2-VVS1-IF).
- **x**: Comprimento em milímetros (0 - 10.74)
- **y**: Largura em milímetros (0 - 58.9)
- **z**: Profundidade em milímetros (0 - 31.8)
- **depth**: A porcentagem total de profundidade do diamante, calculada através da fórmula:
    $\LARGE \frac{z}{\bar{x}(x, y)} = \frac{2 \times z}{(x+y) (43-79)}$
- **table**: A largura do topo do diamante (superfície chata) relativa ao seu ponto mais largo (43 - 95)

In [42]:
# Ler o dataframe, exibir primeiras dez linhas
df = pd.read_csv('../data/raw/diamonds.csv', index_col=[0])

df.head(10)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
5,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
6,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
7,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
8,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
9,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


---
Sobre os dados no dataframe:

In [43]:
# Exibir informações sobre as variáveis
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   carat    53940 non-null  float64
 1   cut      53940 non-null  object 
 2   color    53940 non-null  object 
 3   clarity  53940 non-null  object 
 4   depth    53940 non-null  float64
 5   table    53940 non-null  float64
 6   price    53940 non-null  int64  
 7   x        53940 non-null  float64
 8   y        53940 non-null  float64
 9   z        53940 non-null  float64
dtypes: float64(6), int64(1), object(3)
memory usage: 4.5+ MB


---
Resumo estatístico do dataframe:

In [44]:
# Descrição estatística do dataframe
df.describe()

Unnamed: 0,carat,depth,table,price,x,y,z
count,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0
mean,0.79794,61.749405,57.457184,3932.799722,5.731157,5.734526,3.538734
std,0.474011,1.432621,2.234491,3989.439738,1.121761,1.142135,0.705699
min,0.2,43.0,43.0,326.0,0.0,0.0,0.0
25%,0.4,61.0,56.0,950.0,4.71,4.72,2.91
50%,0.7,61.8,57.0,2401.0,5.7,5.71,3.53
75%,1.04,62.5,59.0,5324.25,6.54,6.54,4.04
max,5.01,79.0,95.0,18823.0,10.74,58.9,31.8


---
Dicionário de dados

In [45]:
dictionary_path = '../data/external/diamond_dictionary.csv'

df_diamond_dict = pd.read_csv(dictionary_path)

# Exibe dicionário
df_diamond_dict

Unnamed: 0,variable,description,type,subtype
0,price,valor em dólares americanos (USD),quantitativa,discreta
1,carat,peso do diamante em quilates,quantitativa,discreta
2,cut,"qualidade do corte (fair, good, very good, pre...",qualitativa,ordinal
3,color,"cor do diamante, de D (melhor) a J (pior)",qualitativa,ordinal
4,clarity,o quão claro (translúcido) é o diamante (I1 (p...,qualitativa,ordinal
5,x,comprimento em milímetros (0 - 10.74),quantitativa,contínua
6,y,largura em milímetros (0 - 58.9),quantitativa,contínua
7,z,profundidade em milímetros (0 - 31.8),quantitativa,contínua
8,depth,porcentagem de profundidade total (z / mean (x...,quantitativa,discreta
9,table,largura do topo do diamante relativo ao seu po...,quantitativa,contínua


## 2. Perguntas de partida e hipóteses

#### 1. O peso dos diamantes é relativo ao seu preço?
Diamantes mais pesados são mais caros que diamantes mais leves?

In [None]:
# Preço e Tamanho dos diamantes
price_to_weight = df.groupby('price')['carat'].mean()

In [None]:
# Criação do gráfico de barra
plt.figure(figsize=(16, 10))
sns.barplot(x = price_to_weight.index, y = price_to_weight.values)

plt.show()

#### 2. Como a clareza dos diamantes interfere em seus preços?
Existe alguma relação entre o quão claro é um diamante e seu valor de mercado?

#### 3. O quanto a cor do diamante interfere no seu valor?
A diferença de preço de um diamante de melhor cor (D) e de um diamante de pior cor (J) é muito grande?

#### 4. A cor do diamante interfere na sua clareza?
Qual a relação entre a cor de um diamante e sua clareza? Existe algum padrão a se identificar?

## 3. Insights