In [6]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from scipy import stats

In [7]:
data = pd.read_csv('../data/diamonds.csv')

## Исследование исходных данных 
### Вывод базовой информации

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  53940 non-null  int64  
 1   carat       53940 non-null  float64
 2   cut         53940 non-null  object 
 3   color       53940 non-null  object 
 4   clarity     53940 non-null  object 
 5   depth       53940 non-null  float64
 6   table       53940 non-null  float64
 7   price       53940 non-null  int64  
 8   x           53940 non-null  float64
 9   y           53940 non-null  float64
 10  z           53940 non-null  float64
dtypes: float64(6), int64(2), object(3)
memory usage: 4.5+ MB


<font size=3>
Датасет содержит следующие поля:

- `carat` — вес алмаза в каратах
- `cut` — качество огранки алмаза (описано в порядке возрастания: удовлетворительное, хорошее, очень хорошее, премиум, идеальное)
- `color` — цвет бриллианта, где D — лучший, а J — худший
- `clarity` — показатель чистоты алмаза
- `depth` — глубина (%): высота алмаза, измеренная от калетта до площадки, деленная на средний диаметр его рундиста
- `table` — ширина площадки алмаза, выраженная в процентах от его среднего диаметра
- `price` — цена бриллианта
- `x` — длина  в мм
- `y` — ширина в мм
- `z` — высота в мм
</font>

In [9]:
data.head(20)

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
5,6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
6,7,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
7,8,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
8,9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
9,10,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


Удалим первый столбец, так как он содержит номер строки датасета и не является полезным для дальнешей работы.

In [10]:
data = data.drop(data.columns[0], axis=1)

data.head(10)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
5,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
6,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
7,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
8,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
9,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


In [11]:
data.describe()

Unnamed: 0,carat,depth,table,price,x,y,z
count,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0
mean,0.79794,61.749405,57.457184,3932.799722,5.731157,5.734526,3.538734
std,0.474011,1.432621,2.234491,3989.439738,1.121761,1.142135,0.705699
min,0.2,43.0,43.0,326.0,0.0,0.0,0.0
25%,0.4,61.0,56.0,950.0,4.71,4.72,2.91
50%,0.7,61.8,57.0,2401.0,5.7,5.71,3.53
75%,1.04,62.5,59.0,5324.25,6.54,6.54,4.04
max,5.01,79.0,95.0,18823.0,10.74,58.9,31.8


Признаки `table`, `price` можно перевести из float64, а признаки `color`, `clarity`, необходимо закодировать числовыми значениями.

### Обработка пропущенных значений

In [12]:
(data.isna().sum() / data.shape[0] * 100).sort_values(ascending=False)

carat      0.0
cut        0.0
color      0.0
clarity    0.0
depth      0.0
table      0.0
price      0.0
x          0.0
y          0.0
z          0.0
dtype: float64

Пропущенные значения отсутсвуют.

### Коррекция типов
#### Числовых признаков

In [13]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   carat    53940 non-null  float64
 1   cut      53940 non-null  object 
 2   color    53940 non-null  object 
 3   clarity  53940 non-null  object 
 4   depth    53940 non-null  float64
 5   table    53940 non-null  float64
 6   price    53940 non-null  int64  
 7   x        53940 non-null  float64
 8   y        53940 non-null  float64
 9   z        53940 non-null  float64
dtypes: float64(6), int64(1), object(3)
memory usage: 4.1+ MB


Проверим, что столбцы `table` и `price` можно перевести в int:

In [14]:
def can_convert_to_int(series):
    return (series % 1 == 0).all()

cols = [data['table'], data['price']]

print(sum([can_convert_to_int(x) for x in cols]))

1


In [15]:
np.seterr(over='ignore')

data['table'] = data['table'].astype('int8')
data['price'] = data['price'].astype('int16')

data.describe()

Unnamed: 0,carat,depth,table,price,x,y,z
count,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0
mean,0.79794,61.749405,57.448665,3932.799722,5.731157,5.734526,3.538734
std,0.474011,1.432621,2.239779,3989.439738,1.121761,1.142135,0.705699
min,0.2,43.0,43.0,326.0,0.0,0.0,0.0
25%,0.4,61.0,56.0,950.0,4.71,4.72,2.91
50%,0.7,61.8,57.0,2401.0,5.7,5.71,3.53
75%,1.04,62.5,59.0,5324.25,6.54,6.54,4.04
max,5.01,79.0,95.0,18823.0,10.74,58.9,31.8


#### Категориальных признаков

In [16]:
data['cut'].value_counts()

cut
Ideal        21551
Premium      13791
Very Good    12082
Good          4906
Fair          1610
Name: count, dtype: int64

In [None]:
dict_cut = {
    'Ideal': 5,
    'Premium' : 4,
    'Very Good' : 3,
    'Good' : 2,
    'Fair' : 1
}

data['cut'] = data['cut'].map(dict_cut)        

In [21]:
data['cut'].value_counts()

cut
5    21551
4    13791
3    12082
2     4906
1     1610
Name: count, dtype: int64

In [18]:
data['color'].value_counts()

color
G    11292
E     9797
F     9542
H     8304
D     6775
I     5422
J     2808
Name: count, dtype: int64

In [23]:
dict_color = {
    'D' : 7,
    'E' : 6,
    'F' : 5, 
    'G' : 4, 
    'H' : 3,
    'I' : 2,
    'J' : 1
}

data['color'] = data['color'].map(dict_color)

In [24]:
data['color'].value_counts()

color
4    11292
6     9797
5     9542
3     8304
7     6775
2     5422
1     2808
Name: count, dtype: int64

In [19]:
data['clarity'].value_counts()

clarity
SI1     13065
VS2     12258
SI2      9194
VS1      8171
VVS2     5066
VVS1     3655
IF       1790
I1        741
Name: count, dtype: int64

In [25]:
dict_color = {
    'IF' : 8,
    'VVS1' : 7,
    'VVS2' : 6,
    'VS1' : 5, 
    'VS2' : 4, 
    'SI1' : 3,
    'SI2' : 2,
    'I1' : 1
}

data['clarity'] = data['clarity'].map(dict_color)

In [26]:
data['clarity'].value_counts()

clarity
3    13065
4    12258
2     9194
5     8171
6     5066
7     3655
8     1790
1      741
Name: count, dtype: int64

**Изменения**
- `table`, `price` переведены из float64 в int8 и int16 соответственно, так как они являются целыми;
- `color`, `clarity`, закодированы числовыми значениями.

### Проверка "очищенных" данных

In [None]:
print(data.duplicated().sum())

146


Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,5,6,2,61.5,55,326,3.95,3.98,2.43
1,0.21,4,6,3,59.8,61,326,3.89,3.84,2.31
2,0.23,2,6,5,56.9,65,327,4.05,4.07,2.31
3,0.29,4,2,4,62.4,58,334,4.20,4.23,2.63
4,0.31,2,1,2,63.3,58,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...,...
53935,0.72,5,7,3,60.8,57,2757,5.75,5.76,3.50
53936,0.72,2,7,3,63.1,55,2757,5.69,5.75,3.61
53937,0.70,3,7,3,62.8,60,2757,5.66,5.68,3.56
53938,0.86,4,3,2,61.0,58,2757,6.15,6.12,3.74


In [35]:
data = data.drop_duplicates()

print(data.duplicated().sum())

0
