<a href="https://colab.research.google.com/github/Lomikk/diamonds_data_analysis_practice-2025-Yashkov/blob/main/diamonds_preprocessing_practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Постановка бизнес-задачи и описание предметной области

## 1.1 Описание предметной области
Бриллианты — одни из самых дорогих и ценных драгоценных камней на рынке. Их стоимость формируется не случайно: ключевыми характеристиками при оценке алмаза являются **вес (carat)**, **качество огранки (cut)**, **цвет (color)**, **чистота (clarity)**, а также геометрические параметры (глубина, ширина площадки и пр.). Эти параметры известны как система **«4 С»** и активно применяются в ювелирной отрасли.  

Участники рынка (магазины, ритейлеры, покупатели) заинтересованы в прозрачной и обоснованной системе оценки алмазов, чтобы не переплачивать и не занижать цену.

## 1.2 Контекст бизнеса
Бизнес, связанный с продажей и оценкой алмазов, сталкивается с задачей: **как точно и быстро определить рыночную стоимость камня**, опираясь только на его измеримые характеристики. Это важно как при продаже, так и при закупке, особенно для онлайн-ритейлеров, где физический осмотр невозможен.

## 1.3 Бизнес-задача проекта
Понять, **какие характеристики алмаза сильнее всего влияют на его цену**, выявить закономерности в данных, очистить и подготовить набор для последующего анализа и возможного построения модели оценки стоимости.

## 1.4 Основные проблемы в предметной области
- Непрозрачность ценообразования: одинаковые на вид камни могут стоить по-разному.
- Возможные ошибки или неточности в данных (пропуски, дубли, нули в физических измерениях).
- Высокая чувствительность клиентов к цене: завышение/занижение может привести к потере доверия и прибыли.

## 1.5 Причины проблем
- Человеческий фактор при занесении данных.
- Ограниченные возможности визуального контроля в онлайн-продажах.
- Различные подходы к оценке параметров у разных поставщиков.

## 1.6 Описание набора данных
Датасет **«Diamonds Prices»** был загружен с платформы Kaggle. Он содержит **53 943 записи** о бриллиантах с указанием следующих характеристик:
- `carat` — вес камня в каратах  
- `cut` — качество огранки  
- `color` — цвет (от D до J)  
- `clarity` — чистота (от I1 до IF)  
- `depth`, `table` — геометрические параметры (в процентах)  
- `x`, `y`, `z` — размеры в миллиметрах  
- `price` — цена в долларах США

## 1.7 Структура данных
Типы данных:
- Числовые (`float`, `int`): `carat`, `depth`, `table`, `price`, `x`, `y`, `z`  
- Категориальные (`object`): `cut`, `color`, `clarity`


# Предобработка данных «Diamonds Prices»

In [24]:
# Импорт библиотек
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import kagglehub

In [25]:
# Download latest version
path = kagglehub.dataset_download("nancyalaswad90/diamonds-prices")

df = pd.read_csv("/kaggle/input/diamonds-prices/Diamonds Prices2022.csv")

### 1. Начало знакомства с данными

In [26]:
# Первые строки
display(df.head())

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [27]:
# Последние строки
display(df.tail())

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
53938,53939,0.86,Premium,H,SI2,61.0,58.0,2757,6.15,6.12,3.74
53939,53940,0.75,Ideal,D,SI2,62.2,55.0,2757,5.83,5.87,3.64
53940,53941,0.71,Premium,E,SI1,60.5,55.0,2756,5.79,5.74,3.49
53941,53942,0.71,Premium,F,SI1,59.8,62.0,2756,5.74,5.73,3.43
53942,53943,0.7,Very Good,E,VS2,60.5,59.0,2757,5.71,5.76,3.47


In [28]:
# Случайные строки
display(df.sample(5))

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
30654,30655,0.33,Ideal,D,SI1,60.9,56.0,736,4.46,4.5,2.73
22184,22185,1.3,Ideal,G,VS1,62.0,55.0,10221,7.02,6.98,4.34
24306,24307,2.0,Good,H,SI2,63.8,59.0,12554,7.93,7.88,5.04
35519,35520,0.43,Ideal,F,VS2,61.1,56.0,905,4.88,4.91,2.99
6519,6520,0.91,Very Good,H,VS1,61.7,56.0,4066,6.22,6.25,3.85


In [29]:
# Информация о датафрейме и типы данных
df.info()
# Количество строк и столбцов датасета
print(df.shape)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53943 entries, 0 to 53942
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  53943 non-null  int64  
 1   carat       53943 non-null  float64
 2   cut         53943 non-null  object 
 3   color       53943 non-null  object 
 4   clarity     53943 non-null  object 
 5   depth       53943 non-null  float64
 6   table       53943 non-null  float64
 7   price       53943 non-null  int64  
 8   x           53943 non-null  float64
 9   y           53943 non-null  float64
 10  z           53943 non-null  float64
dtypes: float64(6), int64(2), object(3)
memory usage: 4.5+ MB
(53943, 11)


В датасете отсутствуют пропущенные значения, все строки полностью заполнены.
В нем присутствуют разные типы данных, как числовые, так и категориальные.
Из 10 столбцов полезных только 9 первых, столбец "Unnamed: 0" можно удалить.

### 2. Проблемы в данных

In [30]:
# Удалим лишний столбоец
df = df.drop(df.columns[0], axis=1)

In [31]:
# Посчитает, сколько всего ячеек, содержащих в себе число 0
print((df == 0).sum().sum())

35


In [32]:
# Посчитает сколько всего полностью одинаковых дубликатов
print(df.duplicated().sum())

149


Выводы о структуре данных:

Проблемы, которые удалось выявить при беглом осмотре
*   Лишний столбец Unnamed: 0 (удалён)
*   Категориальные колонки (cut, color, clarity) имеют тип object
*   В ячейках встречаются нули, для данного датасета это невозможно и является аномалией
*   Названия столбцов в разном регистре
*   Дубликаты строк
*   Почти все числовые столбцы хранятся как float64 / int64

### 3. Решение выявленых проблем

In [33]:
# 1. Приводим имена столбцов к нижнему регистру
df.columns = [col.lower() for col in df.columns]

# 2. Приводим все текстовые (object) столбцы к нижнему регистру
text_cols = df.select_dtypes(include="object").columns
for col in text_cols:df[col] = df[col].str.lower()

In [34]:
df

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,ideal,e,si2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,premium,e,si1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,good,e,vs1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,premium,i,vs2,62.4,58.0,334,4.20,4.23,2.63
4,0.31,good,j,si2,63.3,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...,...
53938,0.86,premium,h,si2,61.0,58.0,2757,6.15,6.12,3.74
53939,0.75,ideal,d,si2,62.2,55.0,2757,5.83,5.87,3.64
53940,0.71,premium,e,si1,60.5,55.0,2756,5.79,5.74,3.49
53941,0.71,premium,f,si1,59.8,62.0,2756,5.74,5.73,3.43


### 4. Проверьте датафрейм на пропуски

In [35]:
# Посчитает, сколько всего ячеек, содержащих в себе число 0
print((df == 0).sum().sum())

35


Было принято решение удалить строки с нулевыми значениями в столбцах x, y, z по причине того что у бриллианта не может быть длины, ширины или глубины, равных нулю а доля строк с нулями составляет менее 0,1 %.
Заполнение этих строк средними значениями могло бы исказить данные, поскольку невозможно точно определить, нет ли других ошибок в строках с нулевыми значениями.

In [36]:
# Удаляем строки с нулями в x, y или z
df = df[(df['x'] != 0) & (df['y'] != 0) & (df['z'] != 0)]
# Проверим там ли они были
print((df == 0).sum().sum())

0


Поскольку функция вернула значение 0, можно с уверенностью сказать, что ячейки, содержащие цифры 0, были найдены только в столбцах `x`, `y`, `z`

### 5. Изменение типа данных

Преобразование типов выполнено для экономии памяти и ускорения операций без потери требуемой точности:

Вещественные столбцы переведены из float64 в float32, а целочисленный price – из int64 в int32, поскольку 32-битная точность полностью покрывает диапазон и разброс значений.

Категориальные поля (cut, color, clarity) переведены из object в category, чтобы вместо длинных строк хранились компактные коды и список уникальных меток, что значительно сокращает объём данных и ускоряет группировки и фильтрацию.

In [37]:
df = df.astype({
    'carat'  : 'float32',
    'depth'  : 'float32',
    'table'  : 'float32',
    'x'      : 'float32',
    'y'      : 'float32',
    'z'      : 'float32',
    'price'  : 'int32',
    'cut'    : 'category',
    'color'  : 'category',
    'clarity': 'category'
})
df.info()


<class 'pandas.core.frame.DataFrame'>
Index: 53923 entries, 0 to 53942
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53923 non-null  float32 
 1   cut      53923 non-null  category
 2   color    53923 non-null  category
 3   clarity  53923 non-null  category
 4   depth    53923 non-null  float32 
 5   table    53923 non-null  float32 
 6   price    53923 non-null  int32   
 7   x        53923 non-null  float32 
 8   y        53923 non-null  float32 
 9   z        53923 non-null  float32 
dtypes: category(3), float32(6), int32(1)
memory usage: 2.0 MB


In [38]:
df

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,ideal,e,si2,61.500000,55.0,326,3.95,3.98,2.43
1,0.21,premium,e,si1,59.799999,61.0,326,3.89,3.84,2.31
2,0.23,good,e,vs1,56.900002,65.0,327,4.05,4.07,2.31
3,0.29,premium,i,vs2,62.400002,58.0,334,4.20,4.23,2.63
4,0.31,good,j,si2,63.299999,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...,...
53938,0.86,premium,h,si2,61.000000,58.0,2757,6.15,6.12,3.74
53939,0.75,ideal,d,si2,62.200001,55.0,2757,5.83,5.87,3.64
53940,0.71,premium,e,si1,60.500000,55.0,2756,5.79,5.74,3.49
53941,0.71,premium,f,si1,59.799999,62.0,2756,5.74,5.73,3.43


### 5. Поиск/Удаление дубликатов

In [39]:
# Реальное количество полностью одинаковых дубликатов
print(df.duplicated().sum())

148


   Данные могли сливаться из нескольких файлов или выгружаться разными способами, и одна и та же запись попала в итоговый датасет дважды.

In [40]:
# Удалим дубликаты и сбросим нумерацию
df.drop_duplicates(inplace=True)
df.reset_index(drop=True, inplace=True)

In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53775 entries, 0 to 53774
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53775 non-null  float32 
 1   cut      53775 non-null  category
 2   color    53775 non-null  category
 3   clarity  53775 non-null  category
 4   depth    53775 non-null  float32 
 5   table    53775 non-null  float32 
 6   price    53775 non-null  int32   
 7   x        53775 non-null  float32 
 8   y        53775 non-null  float32 
 9   z        53775 non-null  float32 
dtypes: category(3), float32(6), int32(1)
memory usage: 1.6 MB


### Промежуточные выводы

1. **Объём и структура данных**  
   — Изначально загружен датасет «Diamonds Prices» с Kaggle: 53 943 записи и 11 столбцов
   — После удаления служебного столбца `Unnamed: 0`, строк с некорректными размерами (`x, y, z = 0`) и 148 полных дубликатов осталось 53 775 строк и 10 столбцов.

2. **Качество данных и обработка ошибок**  
   — Выявлены «скрытые» пропуски в физически невозможных значениях размеров камней (нулей < 0,1 % строк) — строки удалены
   — Явных `NaN` не было.

3. **Приведение к единому стилю**  
   — Все имена столбцов и текстовые значения приведены к нижнему регистру (snake_case).

4. **Оптимизация типов данных**  
   — Числовые поля (`carat`, `depth`, `table`, `x`, `y`, `z`) переведены в `float32`, цена (`price`) — в `int32`
   — Категориальные признаки (`cut`, `color`, `clarity`) переведены из `object` в `category` для экономии памяти и ускорения группировок.

5. **Экономия ресурсов**  
   — Память уменьшена с ≈ 4.5 МБ до ≈ 1.6 МБ благодаря удалению лишних строк и смене типов, индекс сброшен до компактного `RangeIndex`
