# Алмазы

## Описание данных

price - цена в долларах США (326-18823)
carat - вес алмаза (0,2-5,01)
cut - качество огранки (Fair, Good, Very Good, Premium, Ideal)
color - цвет алмаза J (худший) to D (лучший)
clarity - чистота алмаза I1 (худший), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (лучший)
x - длина (0--10.74) мм
y - ширина (0--58.9) мм
z - глубина (0--31.8) мм
depth - общая глубина = z / mean(x, y) = 2 * z / (x + y) (43--79)
table - соотношение ширины вершины относительно самой широкой плоскости алмаза

## Подключаем библиотеки

In [2]:
import pandas as pd
import seaborn as sns
import sklearn


In [3]:
data = pd.read_csv("../datasets/diamonds.csv.zip")
data.head(10)

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
5,6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
6,7,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
7,8,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
8,9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
9,10,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  53940 non-null  int64  
 1   carat       53940 non-null  float64
 2   cut         53940 non-null  object 
 3   color       53940 non-null  object 
 4   clarity     53940 non-null  object 
 5   depth       53940 non-null  float64
 6   table       53940 non-null  float64
 7   price       53940 non-null  int64  
 8   x           53940 non-null  float64
 9   y           53940 non-null  float64
 10  z           53940 non-null  float64
dtypes: float64(6), int64(2), object(3)
memory usage: 4.5+ MB


Признаки cut, color и clarity относятся к типу "object" и являются порядковыми (градация от худшего к лучшему).
В данных нет пропусков.

In [10]:
# удалим Unnamed
data = data.drop(labels=['Unnamed: 0'], axis=1)
data.describe()

Unnamed: 0,carat,depth,table,price,x,y,z
count,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0
mean,0.79794,61.749405,57.457184,3932.799722,5.731157,5.734526,3.538734
std,0.474011,1.432621,2.234491,3989.439738,1.121761,1.142135,0.705699
min,0.2,43.0,43.0,326.0,0.0,0.0,0.0
25%,0.4,61.0,56.0,950.0,4.71,4.72,2.91
50%,0.7,61.8,57.0,2401.0,5.7,5.71,3.53
75%,1.04,62.5,59.0,5324.25,6.54,6.54,4.04
max,5.01,79.0,95.0,18823.0,10.74,58.9,31.8


In [19]:
clarity_ = data.clarity.unique()
for i in clarity_:
    print(f"Доля алмазов со значение чистоты {i}: {data[data['clarity'] == i]['clarity'].count()/data['clarity'].count()}")

Доля алмазов со значение чистоты SI2: 0.17044864664441972
Доля алмазов со значение чистоты SI1: 0.2422135706340378
Доля алмазов со значение чистоты VS1: 0.15148312940304043
Доля алмазов со значение чистоты VS2: 0.22725250278086764
Доля алмазов со значение чистоты VVS2: 0.0939191694475343
Доля алмазов со значение чистоты VVS1: 0.06776047460140898
Доля алмазов со значение чистоты I1: 0.013737486095661847
Доля алмазов со значение чистоты IF: 0.03318502039302929


In [20]:
data[data['clarity'] == 'I1'].describe()

Unnamed: 0,carat,depth,table,price,x,y,z
count,741.0,741.0,741.0,741.0,741.0,741.0,741.0
mean,1.283846,62.734278,58.303779,3924.168691,6.761093,6.709379,4.207908
std,0.632436,2.831829,2.569386,2806.77827,1.030663,1.032846,0.718363
min,0.3,55.6,52.0,345.0,4.33,4.29,0.0
25%,0.96,61.1,56.0,2080.0,6.22,6.14,3.86
50%,1.12,62.2,58.0,3344.0,6.65,6.61,4.11
75%,1.51,64.3,60.0,5161.0,7.34,7.28,4.6
max,5.01,78.2,67.0,18531.0,10.74,10.54,6.98


Доля алмазов с чистотой I1 = 1,4 %, это худшее качество чистоты, при этом максимальная цена в данной категории 18531, близка к максимальной по всем данным