# **Разведочный анализ данных. Исследование и визуализация данных.**

# 1) Текстовое описание набора данных

Датасет состоит из одного файла apple_quality.csv


Файл содержит следующие колонки:
1.   A_id: Уникальный идентификатор для каждого фрукта
2.   Size: Размер плода
3.   Weight: Масса плода
4.   Sweetness: Степень сладости плода
5.   Crunchiness: Текстура, указывающая на хрусткость плода
6.   Juiciness: Уровень сочности плода
7.   Ripeness: Стадия спелости плода
8.   Acidity: Уровень кислотности плода
9.   Quality: Общее качество плода

# Импорт библиотек

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
sns.set(style="ticks")

Matplotlib is building the font cache; this may take a moment.


# Загрузка данных

In [2]:
data = pd.read_csv('apple_quality.csv', sep=",")

FileNotFoundError: [Errno 2] No such file or directory: '/apple_quality.csv'

# 2) Основные характеристики датасета

---



In [None]:
data.head()

In [None]:
data.shape

In [None]:
total_count = data.shape[0]
print('Всего строк: {}'.format(total_count))

In [None]:
data.columns

In [None]:
data.dtypes

In [None]:
for col in data.columns:
    # Количество пустых значений - все значения заполнены
    temp_null_count = data[data[col].isnull()].shape[0]
    print('{} - {}'.format(col, temp_null_count))

In [None]:
data.replace('', pd.NA, inplace=True)
data.dropna(how='any', inplace=True)

In [None]:
# более простой способ
data.isnull().sum()

In [None]:
data.describe()

In [None]:
data['Quality'].unique()

# 3) Визуальное исследование датасета

In [None]:
fig, ax = plt.subplots(figsize=(10,10))
sns.scatterplot(ax=ax, x='Size', y='Weight', data=data)

In [None]:
fig, ax = plt.subplots(figsize=(10,10))
sns.scatterplot(ax=ax, x='Size', y='Weight', data=data, hue='Quality')

# Гистограмма

In [None]:
fig, ax = plt.subplots(figsize=(10,10))
sns.distplot(data['Size'])

In [None]:
sns.jointplot(x='Size', y='Weight', data=data)

In [None]:
sns.jointplot(x='Size', y='Weight', data=data, kind="hex")

In [None]:
sns.jointplot(x='Size', y='Weight', data=data, kind="kde")

In [None]:
sns.pairplot(data)

In [None]:
sns.pairplot(data, hue="Quality")

# Ящик с усами

In [None]:
sns.boxplot(x=data['Size'])

In [None]:
sns.boxplot(y=data['Size'])

In [None]:
sns.boxplot(x='Quality', y='Size', data=data)

# Violin plot

In [None]:
sns.violinplot(x=data['Size'])

In [None]:
fig, ax = plt.subplots(2, 1, figsize=(10,10))
sns.violinplot(ax=ax[0], x=data['Size'])
sns.distplot(data['Size'], ax=ax[1])

In [None]:
sns.violinplot(x='Quality', y='Size', data=data)

In [None]:
sns.catplot(y='Size', x='Quality', data=data, kind="violin", split=True)

# 4) Информация о корреляции признаков

In [None]:
data.corr()

In [None]:
data.corr(method='kendall')

In [None]:
sns.heatmap(data.corr())

In [None]:
sns.heatmap(data.corr(), annot=True, fmt='.3f')