# Diamonds Dataset

### Descrição

"This classic dataset contains the prices and other attributes of almost 54,000 diamonds. It's a great dataset for beginners learning to work with data analysis and visualization."

### Colunas

* **price** - preço em dólares americanos (326--18,823)  

* **carat** -  peso do diamante (0.2--5.01)  

* **corte** -  qualidade do corte (Fair, Good, Very Good, Premium, Ideal)  

* **cor** -  cor do diamante, de J (pior) a D (melhor)

* **claridade** -  medida do quão claro o diamante é (I1 (pior), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (melhor))

* **x** - comprimento em mm (0--10.74)

* **y** -  largura em mm (0--58.9)

* **z** - profundidade em mm (0--31.8)

* **depth** - percetagem total de profundidade = z / mean(x, y) = 2 * z / (x + y) (43--79)

* **table** -  largura do topo do diamante relativamente ao ponto mais largo (43--95)

![diamond](https://ichef.bbci.co.uk/news/640/cpsprodpb/17D8D/production/_102677679_gettyimages-177419934.jpg)



In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import seaborn as sns

## Criação do Dataframe e tratamento de dados

In [None]:
diamonds = pd.read_csv("../input/diamonds/diamonds.csv")

diamonds.head()

In [None]:
diamonds.describe()

In [None]:
diamonds.columns

Vamos selecionar apenas uma parte do datagrame, já que este tem muitas linhas.

In [None]:
diamonds.sample(n=10000)

Vamos eliminar a coluna 'Unnamed: 0' pois é apenas um índice para identificação dos diamantes

In [None]:
diamonds_df = diamonds.drop('Unnamed: 0',1) #o valor 1 é para colunas
diamonds_df.columns

Vamos confirmar os diferentes valores que temos para cada coluna não numérica.

In [None]:
print(diamonds_df['cut'].unique())
print(diamonds_df['color'].unique())
print(diamonds_df['clarity'].unique())

In [None]:
diamonds_df['cut'].replace({"Fair" : 0, "Good" : 1, "Very Good" : 2, "Premium" : 3, "Ideal" : 4}, inplace=True)
diamonds_df['clarity'].replace({"I1" : 0, "SI2" : 1, "SI1" : 2, "VS2" : 3, "VS1" : 4, "VVS2" : 5, "VVS1" : 6, "IF" : 7}, inplace=True)
diamonds_df['color'].replace({"J" : 0,"I" : 1,"H" : 2,"G" : 3, "F" : 4, "E" : 5, "D" : 6}, inplace=True)
diamonds_df.head()

In [None]:
diamonds_df.isnull().sum()

Verificamos que não existem valores em falta.

## Visualização de dados

In [None]:
sns.pairplot(diamonds_df)

In [None]:
sns.heatmap(diamonds_df.corr())

Com a matriz de correlção verificamos que o comprimento, largura e profundidade têm uma grande influência no preço do diamante.

In [None]:
sns.distplot(diamonds_df['price'])

Verificamos que o preço não segue uma distribuição normal. Muitos diamantes da amostra têm preços mais baixos (o que é expectável, porque diamantes com preços muito elevados são diamantes mais raros)