In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
from matplotlib import pyplot as plt
import seaborn as sns
from scipy.stats import mode

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

%matplotlib inline
import warnings
warnings.filterwarnings('ignore')
        

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# **Курсовая работа**

### **Тема: EDA (расчёт описательных статистик и графический анализ с выводами)**

**Описание датасета**<br>
Датасет содержит основную информацию о большом количестве бриллиантов<br>
https://www.kaggle.com/shivam2503/diamonds

**carat** - масса бриллианта *в каратах* <br>
**cut** - огранка бриллианта (*удовлетворительная, хорошая, очень хорошая, отличная, идеальная*)<br>
**color** - цвет (*от J до D*)<br>
**clarity** - чистота бриллианта (*I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF*)<br>
**depth** - отношение глубины бриллианта к среднему значению его остальных размеров (*в процентах*)<br>
**table** - табличное отношение ширины бриллианта<br>
**price** - стоимость бриллианта *в долларах США*<br>
**x** - длина бриллианта *в мм*<br>
**y** - ширина бриллианта *в мм* <br>
**z** - глубина бриллианта в *в мм*





### Загрузка и обзор датасета

In [None]:
df = pd.read_csv('../input/diamonds/diamonds.csv')
df

In [None]:
# Вывод названий колонок
df.columns

In [None]:
# Переименуем колонку с номером бриллианта
df.rename({'Unnamed: 0': 'diamond_id'}, axis = 1, inplace = True)
df

In [None]:
# Проверка пропущенных значений
df.isna().sum()

### Вещественные признаки

#### Carat

In [None]:
carat_avg = np.mean(df['carat'])
carat_std = np.std(df['carat'], ddof = 1)
carat_var = np.var(df['carat'], ddof = 1)
carat_med = np.median(df['carat'])
carat_mod = mode(df['carat'])
carat_25 = np.quantile(df['carat'], q = 0.25)
carat_75 = np.quantile(df['carat'], q = 0.75)
print('Статистические характеристики для признака carat')
print(70*'-')
print(f'Среднее значение:{carat_avg}')
print(f'Несмещённое стандартное отклонение:{carat_std}')
print(f'Несмещённая оценка дисперсии:{carat_var}')
print(f'Медиана: {carat_med}')
print(f'Мода: {carat_mod[0]}, частота: {carat_mod[1]}')
print(f'Первый квартиль: {carat_25}')
print(f'Третий квартиль: {carat_75}')
print(f'Интерквартильное расстояние: {carat_75 - carat_25}')

In [None]:
plt.title('Распределение массы бриллиантов', fontsize = 15)
plt.ylabel('Количество бриллиантов', fontsize = 12)
plt.xlabel('Масса бриллиантов, карат',fontsize = 12)
x_avg = carat_avg * np.ones(10)
y = np.linspace(0, 26000, 10)
x_med = carat_med * np.ones(10)
x_mod = carat_mod[0] * np.ones(10)
x_25 = carat_25 * np.ones(10)
x_75 = carat_75 * np.ones(10)
plt.plot(x_avg, y, color = 'red', linewidth = 3, label = 'Среднее значение')
plt.plot(x_med, y, color = 'orange', linewidth = 3, label = 'Медиана')
plt.plot(x_mod, y, color = 'pink', linewidth = 3, label = 'Мода')
plt.plot(x_25, y, color = 'brown', linewidth = 3, label = 'Первый квартиль', linestyle = ':')
plt.plot(x_75, y, color = 'brown', linewidth = 3, label = 'Третий квартиль', linestyle = ':')
plt.legend()
df['carat'].hist(density = False, bins = 10, ec = 'black', color = 'lightskyblue')
plt.show()

In [None]:
sns.boxplot(df['carat'], whis = 1.5)

**Вывод:** Подавляющее большинство бриллиантов имеют массу менее 1 карата. Самой популярной оказалась масса 0.3 карата. Среднее значение массы и медиана отличаются незначительно. Из гистограммы видно, что с увеличением массы бриаллинтов их число уменьшается, т.е бриллинты с большой массой встречаются крайне редко.

#### Price

In [None]:
price_avg = np.mean(df['price'])
price_std = np.std(df['price'], ddof = 1)
price_var = np.var(df['price'], ddof = 1)
price_med = np.median(df['price'])
price_mod = mode(df['price'])
price_25 = np.quantile(df['price'], q = 0.25)
price_75 = np.quantile(df['price'], q = 0.75)
print('Статистические характеристики для признака price')
print(70*'-')
print(f'Среднее значение:{price_avg}')
print(f'Несмещённое стандартное отклонение:{price_std}')
print(f'Несмещённая оценка дисперсии:{price_var}')
print(f'Медиана: {price_med}')
print(f'Мода: {price_mod[0]}, частота: {price_mod[1]}')
print(f'Первый квартиль: {price_25}')
print(f'Третий квартиль: {price_75}')
print(f'Интерквартильное расстояние: {price_75 - price_25}')

In [None]:
plt.title('Распределение цены бриллиантов', fontsize = 15)
plt.ylabel('Количество бриллиантов', fontsize = 12)
plt.xlabel('Цена бриллиантов, доллар США',fontsize = 12)
x_avg = price_avg * np.ones(10)
y = np.linspace(0, 27000, 10)
x_med =price_med * np.ones(10)
x_mod = price_mod[0] * np.ones(10)
x_25 = price_25 * np.ones(10)
x_75 = price_75 * np.ones(10)
plt.plot(x_avg, y, color = 'red', linewidth = 2, label = 'Среднее значение')
plt.plot(x_med, y, color = 'orange', linewidth = 2, label = 'Медиана')
plt.plot(x_mod, y, color = 'pink', linewidth = 2, label = 'Мода')
plt.plot(x_25, y, color = 'brown', linewidth = 2, label = 'Первый квартиль', linestyle = ':')
plt.plot(x_75, y, color = 'brown', linewidth = 2, label = 'Третий квартиль', linestyle = ':')
plt.legend()
df['price'].hist(density = False, bins = 20, ec = 'black', color = 'lightskyblue')
plt.show()

In [None]:
sns.boxplot(df['price'], whis = 1.5)

**Вывод**: Подавляющее число бриллиантов имеют стоимость до 5000 долларов. Самая популярная цена - 605 долларов. При увеличении стоимости бриллиантов их количество уменьшается, т.е. дорогих бриллиантов крайне мало.

#### Depth

In [None]:
depth_avg = np.mean(df['depth'])
depth_std = np.std(df['depth'], ddof = 1)
depth_var = np.var(df['depth'], ddof = 1)
depth_med = np.median(df['depth'])
depth_mod = mode(df['depth'])
depth_25 = np.quantile(df['depth'], q = 0.25)
depth_75 = np.quantile(df['depth'], q = 0.75)
print('Статистические характеристики для признака depth')
print(70*'-')
print(f'Среднее значение:{depth_avg}')
print(f'Несмещённое стандартное отклонение:{depth_std}')
print(f'Несмещённая оценка дисперсии:{depth_var}')
print(f'Медиана: {depth_med}')
print(f'Мода: {depth_mod[0]}, частота: {depth_mod[1]}')
print(f'Первый квартиль: {depth_25}')
print(f'Третий квартиль: {depth_75}')
print(f'Интерквартильное расстояние: {depth_75 - depth_25}')

In [None]:
plt.title('Распределение относительной глубины бриллиантов', fontsize = 15)
plt.ylabel('Количество бриллиантов', fontsize = 12)
plt.xlabel('Относительная глубина бриллиантов',fontsize = 12)
x_avg = depth_avg * np.ones(10)
y = np.linspace(0, 27000, 10)
x_med =depth_med * np.ones(10)
x_mod = depth_mod[0] * np.ones(10)
x_25 = depth_25 * np.ones(10)
x_75 = depth_75 * np.ones(10)
plt.plot(x_avg, y, color = 'red', linewidth = 2, label = 'Среднее значение')
plt.plot(x_med, y, color = 'orange', linewidth = 2, label = 'Медиана')
plt.plot(x_mod, y, color = 'pink', linewidth = 2, label = 'Мода')
plt.plot(x_25, y, color = 'brown', linewidth = 2, label = 'Первый квартиль', linestyle = ':')
plt.plot(x_75, y, color = 'brown', linewidth = 2, label = 'Третий квартиль', linestyle = ':')
plt.legend()
df['depth'].hist(density = False, bins = 15, ec = 'black', color = 'lightskyblue')
plt.show()

In [None]:
sns.boxplot(df['depth'], whis = 1.5)

**Вывод**: Большинство бриллиантов имеют относительную глубину от 60 до 65. Самое частое значение этого параметра - 62. Разница между медианой и средним значением пренебрежима мала. Основная часть значений относительной глубины сосредоточена около среднего - 61.7.

#### Table

In [None]:
table_avg = np.mean(df['table'])
table_std = np.std(df['table'], ddof = 1)
table_var = np.var(df['table'], ddof = 1)
table_med = np.median(df['table'])
table_mod = mode(df['table'])
table_25 = np.quantile(df['table'], q = 0.25)
table_75 = np.quantile(df['table'], q = 0.75)
print('Статистические характеристики для признака table')
print(70*'-')
print(f'Среднее значение:{table_avg}')
print(f'Несмещённое стандартное отклонение:{table_std}')
print(f'Несмещённая оценка дисперсии:{table_var}')
print(f'Медиана: {table_med}')
print(f'Мода: {table_mod[0]}, частота: {table_mod[1]}')
print(f'Первый квартиль: {table_25}')
print(f'Третий квартиль: {table_75}')
print(f'Интерквартильное расстояние: {table_75 - table_25}')

In [None]:
plt.title('Распределение табличного отношения ширины', fontsize = 15)
plt.ylabel('Количество бриллиантов', fontsize = 12)
plt.xlabel('Табличное отношение ширины',fontsize = 12)
x_avg = table_avg * np.ones(10)
y = np.linspace(0, 27000, 10)
x_med =table_med * np.ones(10)
x_mod = table_mod[0] * np.ones(10)
x_25 = table_25 * np.ones(10)
x_75 = table_75 * np.ones(10)
plt.plot(x_avg, y, color = 'red', linewidth = 2, label = 'Среднее значение')
plt.plot(x_med, y, color = 'orange', linewidth = 2, label = 'Медиана')
plt.plot(x_mod, y, color = 'pink', linewidth = 2, label = 'Мода')
plt.plot(x_25, y, color = 'brown', linewidth = 2, label = 'Первый квартиль', linestyle = ':')
plt.plot(x_75, y, color = 'brown', linewidth = 2, label = 'Третий квартиль', linestyle = ':')
plt.legend()
df['table'].hist(density = False, bins = 15, ec = 'black', color = 'lightskyblue')
plt.show()

In [None]:
sns.boxplot(df['table'], whis = 1.5)

**Вывод:** БОльшая часть значений данного признака располагается возле среднего значения (57.5), которое совсем незначительно отличается от медианы(57). Кроме того первый квартиль совпадает с модой -56.

#### Размеры (x,y,z)

In [None]:
df_size = df[['x', 'y', 'z']]
df_size

In [None]:
# Основные статистические харакетристики для размеров
df_size.describe()

In [None]:
df_size.hist(figsize=(10,10), bins=100, grid=True)

**Вывод**: Из графиков видно, что длина x изменяется достаточно в широком диапозоне (примерно от 4 до 8) для большинства бриллиантов в отличие от других размеров (y и z), которые сосредоточены в более узких интервалах. Можно заметить, что большинство статистических хараетристик для размеров x и y отличаются незначительно (среднее, стандартное отклонение, квартили)

### Категориальные признаки

#### Cut

In [None]:
counts = df['cut'].value_counts()

In [None]:
plt.ylabel('Количество бриллиантов', fontsize = 12)
plt.xlabel('Огранка',fontsize = 12)    
plt.title('Огранка бриллианта', fontsize = 15)
sns.barplot(counts.index, counts.values)
    
plt.show()

**Вывод:** Из данного распределения можно видеть, что большинство бриллиантов имеют идеальную огранку. Чем хуже огранка, тем меньше бриллиантов в этой категории.

#### Color

In [None]:
counts = df['color'].value_counts()

In [None]:
plt.ylabel('Количество бриллиантов', fontsize = 12)
plt.xlabel('Цвет',fontsize = 12)    
plt.title('Цвет бриллианта', fontsize = 15)
sns.barplot(counts.index, counts.values)
    
plt.show()

**Вывод:** Шкала цветов для бриллинтов имеет следующий вид: J (худший) - D(лучший). Из данного распределения видно, что бОльшая часть бриллиантов в выборке имеет средние цвета: G, E, F, H. Меньше всего бриллиантов относится к плохим категориям цвета -I и J. Небольшая часть бриллиантов относится к наилучшей категории цвета - D.

#### Clarity

In [None]:
counts = df['clarity'].value_counts()

In [None]:
plt.ylabel('Количество бриллиантов', fontsize = 12)
plt.xlabel('Чистота',fontsize = 12)    
plt.title('Чистота бриллианта', fontsize = 15)
sns.barplot(counts.index, counts.values)
    
plt.show()

**Вывод:** Шкала чистоты бриллинтов имеет следующий вид: I1 (худший), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (лучший). Из данного распределения видно, что бОльшая часть бриллиантов в выборке имеет среднюю частоту:  SI2, SI1, VS2, VS1. Небольшое число бриллиантов имеет хорошую чистоту WS2 и WS1. Наименьшее число бриллинтов имеют худшую (IF) и лучшую чистоту I1.