In [None]:
# Importando bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuração para visualização
sns.set(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

# Carregar os dados
file_path = 'C:/Users/menon/OneDrive/Documentos/Menon/CarlaMenon/Diamonds Prices2022.csv'
data = pd.read_csv(file_path, delimiter=',')

# Verificar se a coluna 'Unnamed: 0' existe e removê-la
if 'Unnamed: 0' in data.columns:
    data = data.drop(columns=['Unnamed: 0'])

# Converter colunas para os tipos corretos (exemplo: 'carat' e 'price' para float)
data['carat'] = pd.to_numeric(data['carat'], errors='coerce')
data['price'] = pd.to_numeric(data['price'], errors='coerce')

# Seção 1: Descrição dos Dados
print("### Descrição dos Dados ###")
print(f"Quantidade de instâncias: {data.shape[0]}")
print(f"Quantidade de variáveis: {data.shape[1]}")
print("\nTipos de variáveis:")
print(data.dtypes)

print("\nQuantidade de valores faltantes por variável:")
print(data.isnull().sum())

print("\nPrimeiras linhas do dataset:")
print(data.head())

# Dicionário de Dados
dicionario_dados = {
    'carat': 'Peso do diamante em quilates',
    'cut': 'Qualidade do corte do diamante',
    'color': 'Classificação da cor do diamante',
    'clarity': 'Classificação da clareza do diamante',
    'depth': 'Profundidade total do diamante (%)',
    'table': 'Largura da tabela do diamante (%)',
    'price': 'Preço do diamante (USD)',
    'x': 'Comprimento do diamante (mm)',
    'y': 'Largura do diamante (mm)',
    'z': 'Altura do diamante (mm)'
}

print("\n### Dicionário de Dados ###")
for coluna, descricao in dicionario_dados.items():
    print(f"{coluna}: {descricao}")

# Seção 2: Perguntas de Partida e Hipóteses
print("\n### Perguntas de Partida e Hipóteses ###")
perguntas_hipoteses = [
    ("Qual é a relação entre o peso (carat) e o preço dos diamantes?",
     "Diamantes com maior peso (carat) terão um preço mais alto."),
    ("Como a qualidade do corte influencia o preço?",
     "Cortes de maior qualidade (ex: 'Ideal') terão preços mais altos."),
    ("A clareza do diamante tem impacto no preço?",
     "Diamantes com clareza superior serão mais caros."),
    ("Existem correlações entre as dimensões (x, y, z) e o preço?",
     "Dimensões maiores indicam diamantes mais valiosos.")
]
for pergunta, hipotese in perguntas_hipoteses:
    print(f"- Pergunta: {pergunta}")
    print(f"  Hipótese: {hipotese}")

# Seção 3: Visualizações para Insights

# Relação entre peso (carat) e preço
plt.figure()
sns.scatterplot(x='carat', y='price', data=data, alpha=0.5)
plt.title('Relação entre Peso (Carat) e Preço')
plt.xlabel('Peso (Carat)')
plt.ylabel('Preço (USD)')
plt.show()

# Preço por qualidade de corte
plt.figure()
sns.boxplot(x='cut', y='price', data=data)
plt.title('Preço por Qualidade de Corte')
plt.xlabel('Qualidade de Corte')
plt.ylabel('Preço (USD)')
plt.show()

# Preço por clareza
plt.figure()
sns.boxplot(x='clarity', y='price', data=data, order=data['clarity'].value_counts().index)
plt.title('Preço por Clareza')
plt.xlabel('Clareza')
plt.ylabel('Preço (USD)')
plt.show()

# Correlação entre dimensões e preço
dimensoes = ['x', 'y', 'z']
correlacoes = data[dimensoes + ['price']].corr()
print("\n### Correlações ###")
print(correlacoes)

# Insights
print("\n### Insights ###")
insights = [
    "Diamantes de maior peso (carat) têm, em geral, preços mais altos, indicando uma forte correlação positiva.",
    "A qualidade do corte influencia os preços: cortes mais altos, como 'Ideal', apresentam maior preço médio.",
    "Diamantes com clareza superior também são mais caros, mas a relação é menos marcante do que para 'carat'.",
    "As dimensões (x, y, z) apresentam correlação moderada com o preço."
]
for insight in insights:
    print(f"- {insight}")
