# Análise exploratória de dados

In [2]:
### Import de bibliotecas para manipulação dos dados
import pandas as pd
import numpy as np
import math

### para visualizacao
import seaborn as sns
import matplotlib.pyplot as plt

### para obter estatisticas de teste
import scipy.stats as stats
from scipy.stats import norm

## 1. Descrição dos dados

In [5]:
# Caminho do arquivo no projeto
pasta_arquivo = '/mnt/c/Users/Isabel/Documents/bootcamp_CDD/avanti-bootcamp-cdd/data/raw/diamonds.csv'

#Leitura do conjunto de dados 
df = pd.read_csv(pasta_arquivo, delimiter=',')
df.head(10)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
5,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
6,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
7,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
8,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
9,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


In [4]:
#Dicionário de dados

In [3]:
pasta_dicionario = '/mnt/c/Users/Isabel/Documents/bootcamp_CDD/avanti-bootcamp-cdd/data/external/Dicionario_de_dados.csv'
#Leitura do conjunto de dados 
dicionario = pd.read_csv(pasta_dicionario, delimiter=',')
dicionario.head(10)



Unnamed: 0,Variável,Tradução,Descrição,Espectro de opções,Tipo,Subtipo
0,Carat,Quilate (ct),Peso do diamante em quilates,0.2 ---- 5.01 ct,Quatitativo - Float,Contínua
1,Cut,Corte,Qualidade do corte,"Fair, Good, Very Good, Premium, Ideal",Qualitativo - String,Ordinal
2,Color,Cor,Cor do diamante,D (best) - J (worst),Qualitativa - string,Ordinal
3,Clarity,Clareza,Clareza do diamante,"1 (worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF ...",Qualitativo - String,Ordinal
4,Depth,Profundidade,Profundidade do diamante,Valor obtido pela equação ( percentual de prof...,Quantitativo - Float,Contínua
5,Table,Proporção,Proporção base vs topo,43.0 - 95.0,Quantitativo - Float,Contínua
6,Price,Preço,Valor do diamante em USD,"$326 ---- $18,823",Quantitativo - Float,Discretas
7,X,Comprimento,Comprimento em milímetros (mm),0--10.74 mm,Quantitativo - Float,Contínua
8,Y,Largura,Largura em milímetros(mm),0--58.9 mm,Quantitativo - Float,Contínua
9,Z,Altura,Altura em milímetros (mm),0--31.8 mm,Quantitativo - Float,Contínua


In [None]:
#Análise geral do DF
# Verificar a quantidade de valores nulos e ausentes em cada coluna
missing_values = df.isnull().sum()

# Verificar a porcentagem de valores ausentes por coluna
missing_percentage = (missing_values / len(df)) * 100

# Verificar os tipos de dados de cada coluna
data_types = df.dtypes

# Verificar se há valores duplicados no DataFrame
duplicate_rows = df.duplicated().sum()

# Exibir as informações
print("Valores nulos por coluna:")
print(missing_values)
print("\nPorcentagem de valores nulos por coluna:")
print(missing_percentage)
print("\nTipos de dados por coluna:")
print(data_types)
print("\nNúmero de linhas duplicadas:")
print(duplicate_rows)

In [None]:
#Análise do tipo das variáveis a serem analisadas
df.info()

In [None]:
#Análise  das estatisticas descritiva geral do DF 
analise_quilates = df['carat'].describe()
print(f'Análise estatística descritiva geral do quesito quilates:')
print(analise_quilates)

analise_profundidade = df['depth'].describe()
print(f'Análise estatística descritiva geral do quesito profundidade:')
print(analise_profundidade)

analise_proporcao = df['table'].describe()
print(f'Análise estatística descritiva geral do quesito proporção:')
print(analise_proporcao)

analise_preco = df['price'].describe()
print(f'Análise estatística descritiva geral do quesito preço:')
print(analise_preco)

analise_comprimento = df['x'].describe()
print(f'Análise estatística descritiva geral do quesito comprimento:')
print(analise_comprimento)

analise_largura = df['y'].describe()
print(f'Análise estatística descritiva geral do quesito Largura:')
print(analise_largura)

analise_altura = df['z'].describe()
print(f'Análise estatística descritiva geral do quesito altura:')
print(analise_altura)

## 2. Perguntas de partida e hipóteses

In [None]:
# 2.1) Análise da relação entre preço, corte, cor e clareza do diamante

In [None]:
'''
Pergunta:
Como a qualidade do corte e a cor dos diamantes influenciam seus preços, independentemente da clareza?"

Hipótese:
"Diamantes com cortes de maior qualidade (como 'Ideal' e 'Premium') terão preços mais elevados, independentemente da cor ou clareza,
devido à maior demanda por esses cortes devido ao brilho e estética superiores. Além disso, a cor dos diamantes influenciará os preços,
com diamantes de cores mais claras (D, E, F) sendo mais caros, independentemente do corte e clareza."
'''

# Dicionário com a escala de cores dos diamantes para consulta
color_scale = {
    "D": "D: Incolor (melhor qualidade)",
    "E": "E: Incolor (excelente qualidade)",
    "F": "F: Incolor (alta qualidade)",
    "G": "G: Quase incolor (leve tonalidade)",
    "H": "H: Quase incolor (leve tonalidade)",
    "I": "I: Quase incolor (tonalidade visível)",
    "J": "J: Quase incolor (mais perceptível)"
}

# Ajustes gerais para os gráficos
sns.set(style="whitegrid", palette="muted")

# Gráfico de boxplot da relação entre preço, corte, cor e clareza do diamante
plt.figure(figsize=(14, 8))
sns.boxplot(data=diamonds, x='cut', y='price', hue='color')

# Título e rótulos do gráfico
plt.title("Distribuição dos preços por corte e cor do diamante")
plt.xlabel("Corte")
plt.ylabel("Preço")

# Substituição da legenda pela tabela de cor no gráfico
handles, labels = plt.gca().get_legend_handles_labels()

# Criando uma nova legenda com as descrições equivalentes
new_labels = [color_scale[label] for label in labels]
plt.legend(handles=handles, labels=new_labels, title="Escala de cor", bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()


In [None]:
# 2.2 A influência entre peso (carat), preço e corte do diamante.

In [None]:
'''
Pergunta: 
"Como o peso (carat) e o corte de um diamante influenciam seu preço, e qual a relação entre esses fatores?"

Hipótese
Diamantes com maior peso (carat) e corte de alta qualidade (Ideal ou Premium) têm uma 
correlação positiva com preços mais elevados. Isso ocorre porque o aumento do peso e a
qualidade do corte são atributos valorizados no mercado de diamantes.
'''

## Segmentando o peso (carat) em intervalos par avaliação posterior
df['carat_bins'] = pd.cut(df['carat'], bins=[0, 0.5, 1, 1.5, 2, 2.5, 3, 5], 
                                 labels=['0-0.5', '0.5-1', '1-1.5', '1.5-2', '2-2.5', '2.5-3', '3-5'])

# Visualizando a distribuição de preço por peso (carat) e corte
plt.figure(figsize=(14, 8))
sns.boxplot(data=df, x='carat_bins', y='price', hue='cut', palette="viridis")
plt.title("Distribuição de Preço por Peso (Carat) e Corte")
plt.xlabel("Peso (Carat) - Intervalos")
plt.ylabel("Preço")
plt.legend(title="Corte", bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

In [None]:
# 2.3 Análise da influência das proporções (depth e table) no preço

In [None]:
'''
Pergunta:
"Como as proporções do diamante, especificamente a profundidade ('depth') e a tabela ('table'),
influenciam seu preço, e qual é a relação entre essas variáveis e a qualidade visual do diamante?"

Hipótese
As proporções do diamante, representadas pelas variáveis 'depth' (profundidade) e 'table' (tabela), têm uma relação
não-linear com o preço. Diamantes com profundidade e tabela bem equilibradas, dentro das faixas recomendadas para otimizar
a luz e o brilho, terão preços mais elevados, enquanto diamantes fora dessas faixas terão preços mais baixos devido à redução
na qualidade visual.
'''
# Verificando a correlação entre 'depth', 'table' e 'price'
print("\nCorrelação entre 'depth', 'table' e 'price':")
correlation = df[['depth', 'table', 'price']].corr()
print(correlation)

# Configurando o estilo do gráfico
sns.set(style="whitegrid")

# Criação do gráfico de dispersão com preço como cor, profundidade e mesa como eixos
plt.figure(figsize=(14, 7))

# Gráfico de dispersão para depth vs. table, com preço (price) como a cor
scatter = plt.scatter(data=df, x='depth', y='table', c=df['price'], cmap='viridis', alpha=0.7, s=30)

# Título e rótulos dos eixos
plt.title("Influência das Proporções (Depth e Table) no Preço do Diamante", fontsize=16)
plt.xlabel("Proporção de Profundidade (Depth)", fontsize=12)
plt.ylabel("Proporção da Mesa (Table)", fontsize=12)

# Adicionando a barra de cores representando o preço
plt.colorbar(scatter, label="Preço")

# Criando um gráfico de dispersão para explorar a relação com a qualidade (cut)
plt.figure(figsize=(14, 7))

# Gráfico de dispersão para depth vs. table, colorido pela qualidade (cut)
scatter_quality = plt.scatter(data=df, x='depth', y='table', c=df['cut'].astype('category').cat.codes, cmap='viridis', alpha=0.7, s=30)

# Título e rótulos dos eixos para o gráfico de qualidade
plt.title("Influência das Proporções (Depth e Table) na Qualidade Visual do Diamante", fontsize=16)
plt.xlabel("Proporção de Profundidade (Depth)", fontsize=12)
plt.ylabel("Proporção da Mesa (Table)", fontsize=12)

# Adicionando a barra de cores representando a qualidade
plt.colorbar(scatter_quality, label="Qualidade (Cut)")

# Exibindo os gráficos
plt.show()

## 3. Insights

In [None]:
# Sobre a questão 2.1:  Análise da relação entre preço, corte, cor e clareza do diamante
'''
"A análise da relação entre preço, corte, cor e clareza sugere que o corte e a cor são os principais determinantes do preço de um diamante,
mais do que a clareza. Diamantes com cortes 'Ideal' e 'Premium' apresentam preços significativamente mais altos, enquanto aqueles com cores
mais claras (D, E, F) também tendem a ser mais valorizados no mercado. A clareza, embora importante, parece ter um impacto menor no preço do
que o corte e a cor."
'''

In [None]:
#Sobre a questão 2.2: A influência entre peso (carat), preço e corte do diamante.
'''
O preço dos diamantes aumenta com o peso (carat) e a qualidade do corte. Diamantes mais pesados e com 
corte Ideal ou Premium tendem a ter preços mais elevados. A variação de preços é maior em diamantes menores 
(0-0.5 carat), especialmente com corte Fair. Isso indica que o mercado valoriza tanto o peso quanto a qualidade 
do corte na formação do preço.
'''

In [None]:
#Sobre a questão 2.3: A influência das proporções (depth e table) no preço.
'''
Em termos de correlação, a profundidade e o preço têm uma relação praticamente nula (-0,01), o que sugere que
a profundidade do diamante não tem um impacto significativo no seu preço. A relação entre table e o preço é
fraca e positiva (0,13), indicando que diamantes com table maiores tendem a ter preços um pouco mais altos, embora
essa relação não seja marcante. Além disso, a correlação entre a profundidade e table é moderada e negativa (-0,30), 
o que pode indicar que, em alguns casos, à medida que a profundidade aumenta, table tende a ser menor.

Quanto à distribuição das categorias de corte, a maioria dos diamantes tem classificação de corte Ideal (21.551 diamantes) 
ou Premium (13.791 diamantes), enquanto as classificações Good e Fair são menos comuns, sugerindo que o corte é um fator 
importante na qualidade dos diamantes.

Em resumo, a análise indica que as variáveis profundidade e table não estão fortemente relacionadas ao preço dos diamantes, 
enquanto o corte, apesar de ser mais distribuído, parece desempenhar um papel relevante na classificação e na qualidade
dos diamantes.
'''