<a href="https://colab.research.google.com/github/M2203114/Python_AI/blob/fall2024/02_lab_EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Название датасета

Датасет называется "winequality-red.csv".

# 2. Постановка задачи

Датасет winequality-red.csv содержит информацию о характеристиках красного вина, таких как кислотность, содержание сахара, алкоголя и другие параметры. Целевой переменной является quality, которая представляет собой оценку качества вина по шкале от 0 до 10.


__________________________________________________________________________________
**Задача заключается в построении модели, которая будет предсказывать качество вина на основе его физико-химических свойств.**


__________________________________________________________________________________
**Целевая переменная quality является дискретной, так как она принимает значения от 0 до 10.**

Переменные:

fixed acidity (фиксированная кислотность)

volatile acidity (летучая кислотность)

citric acid (лимонная кислота)

residual sugar (остаточный сахар)

chlorides (хлориды)

free sulfur dioxide (свободный диоксид серы)

total sulfur dioxide (общий диоксид серы)

density (плотность)

pH (уровень pH)

sulphates (сульфаты)

alcohol (алкоголь)

quality (качество) — целевая переменная

# 3. Распределение целевой переменной

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Загрузка данных
data = pd.read_csv('winequality-red.csv')

# Гистограмма распределения целевой переменной
plt.figure(figsize=(10, 6))
plt.hist(data['quality'], bins=11, edgecolor='black')
plt.title('Распределение качества вина')
plt.xlabel('Качество')
plt.ylabel('Частота')
plt.show()

# Количество уникальных значений целевой переменной
unique_values = data['quality'].nunique()
print(f"Количество уникальных значений целевой переменной: {unique_values}")

# 4. Основные статистики по переменным

In [None]:
# Основные статистики
data.describe()

# 5. Основная информация по датасету

In [None]:
data.info()

# 6. Количество пропусков#



In [None]:
a = data.isnull().sum()
print(a)
if(a.sum() == 0):
    print("В датасете нет пропусков.")


# 7. Гистограммы 5 любых признаков

In [None]:
features = ['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'alcohol']

for feature in features:
    plt.figure(figsize=(10, 6))
    plt.hist(data[feature], bins=30, edgecolor='black')
    plt.title(f'Распределение {feature}')
    plt.xlabel(feature)
    plt.ylabel('Частота')
    plt.show()

*   ***fixed acidity:*** Распределение смещено в сторону меньших значений.
*   ***volatile acidity:*** Распределение также смещено в сторону меньших значений, но имеет более широкий диапазон.

*   ***citric acid:*** Распределение имеет пик около нуля, что указывает на наличие множества вин без лимонной кислоты.
*   ***residual sugar:*** Распределение смещено в сторону меньших значений, но имеет длинный хвост в сторону больших значений.

*   ***alcohol:*** Распределение смещено в сторону меньших значений, но имеет более симметричный вид по сравнению с другими признаками.


# 8. Графики зависимости переменных от целевой переменной

In [None]:
for feature in features:
    plt.figure(figsize=(10, 6))
    plt.scatter(data[feature], data['quality'], alpha=0.5)
    plt.title(f'Зависимость качества от {feature}')
    plt.xlabel(feature)
    plt.ylabel('Качество')
    plt.show()


Выводы:
* ***Fixed Acidity (Фиксированная кислотность):*** На графике видно, что нет четкой линейной зависимости между фиксированной кислотностью и качеством вина. Однако можно заметить, что вина с более высоким качеством (6-8) имеют более широкий диапазон значений фиксированной кислотности.

* ***Volatile Acidity (Летучая кислотность): ***Здесь наблюдается обратная зависимость: чем ниже летучая кислотность, тем выше качество вина. Вина с качеством 5 и ниже имеют более высокие значения летучей кислотности.

* ***Citric Acid (Лимонная кислота):*** Лимонная кислота, как и фиксированная кислотность, не показывает четкой линейной зависимости с качеством. Однако вина с более высоким качеством имеют более широкий диапазон значений лимонной кислоты.

* ***Residual Sugar (Остаточный сахар):*** Зависимость между остаточным сахаром и качеством вина также не является линейной. Вина с более высоким качеством могут иметь как низкие, так и высокие значения остаточного сахара.

* ***Alcohol (Алкоголь):*** Наиболее четкая зависимость наблюдается между содержанием алкоголя и качеством вина. Вина с более высоким содержанием алкоголя, как правило, имеют более высокое качество.

Заключение:

**Из всех рассмотренных переменных наиболее сильная зависимость наблюдается между содержанием алкоголя и летучей кислотностью. Переменные volatile acidity и alcohol могут быть использованы для прогнозирования качества вина, так как они показывают более четкую взаимосвязь с целевой переменной. Переменные fixed acidity, citric acid и residual sugar имеют слабую взаимосвязь с качеством вина и будут менее полезны для прогнозирования.**










# EXTRA Зависимость двух переменных одновременно от целевой переменной:

In [None]:
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111, projection='3d')

ax.scatter(data['volatile acidity'], data['alcohol'], data['quality'], c=data['quality'], cmap='viridis', s=50)
ax.set_xlabel('Volatile Acidity')
ax.set_ylabel('Alcohol')
ax.set_zlabel('Quality')
plt.title('Зависимость качества от Volatile Acidity и Alcohol')
plt.show()

#Зависимость качества от "alcohol":

*   ***Высокий уровень алкоголя:*** Вина с высоким содержанием алкоголя (более 11%) чаще имеют более высокое качество (более светлые точки на графике).
*   ***Средний уровень алкоголя:*** Вина со средним содержанием алкоголя (от 9% до 11%) демонстрируют разное качество, что также указывает на влияние других факторов.
*   ***Низкий уровень алкоголя:*** Вина с низким содержанием алкоголя (менее 9%) обычно имеют более низкое качество (более темные точки на графике).









#Зависимость качества от "volatile acidity":

*   Высокая летучая кислотность: Вина с высоким уровнем "volatile acidity" (более 0.6) обычно имеют более низкое качество (более темные точки на графике).
*   Средняя летучая кислотность: Вина со средним уровнем "volatile acidity" (от 0.4 до 0.6) демонстрируют разное качество, что указывает на то, что другие факторы, такие как "alcohol", также играют важную роль.
*   Низкая летучая кислотность: Вина с низким уровнем "volatile acidity" (менее 0.4) чаще имеют более высокое качество (более светлые точки на графике).










# Выводы:

*   Низкая  летучая кислотность и высокий уровень алкоголя чаще всего связаны с более высоким качеством вина.
*   Средние значения летучая кислотность и "alcohol" могут приводить к разному качеству, что указывает на необходимость учета других факторов для более точного предсказания качества.
*  Высокая летучая кислотность и низкий уровень алкоголя чаще всего связаны с более низким качеством вина.







