In [1]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
df = pd.read_csv("WineQT.csv")
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,Id
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,0
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,1
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,2
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,3
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,4


In [2]:
# Создаем категориальный признак по качеству
df["quality_category"] = pd.cut(
    df["quality"],
    bins=[0, 5, 7, 10],
    labels=["low", "medium", "high"]
)

df["quality_category"].value_counts()

quality_category
medium    605
low       522
high       16
Name: count, dtype: int64

In [3]:
def label_encode_column(data, column):
    le = LabelEncoder()
    data[column + "_label"] = le.fit_transform(data[column])
    return data

df = label_encode_column(df, "quality_category")


In [8]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

def one_hot_encode_column(data, column):
    # создаем объект кодировщика
    encoder = OneHotEncoder(sparse_output=False)
    
    # обучаем и преобразуем
    encoded = encoder.fit_transform(data[[column]])
    
    # создаем DataFrame из закодированных данных
    encoded_df = pd.DataFrame(
        encoded,
        columns=encoder.get_feature_names_out([column])
    )
    data = pd.concat([data.reset_index(drop=True), encoded_df], axis=1)# объединяем с исходным датасетом
    
    return data

# применение
df = one_hot_encode_column(df, "quality_category")

In [9]:
def scale_standard(data, columns):
    scaler = StandardScaler()
    data[columns] = scaler.fit_transform(data[columns])
    return data

numeric_columns = df.select_dtypes(include=np.number).columns
df_scaled_standard = df.copy()
df_scaled_standard = scale_standard(df_scaled_standard, numeric_columns)

In [10]:
def scale_minmax(data, columns):
    scaler = MinMaxScaler()
    data[columns] = scaler.fit_transform(data[columns])
    return data

df_scaled_minmax = df.copy()
df_scaled_minmax = scale_minmax(df_scaled_minmax, numeric_columns)

In [11]:
# 1. Отношение алкоголя к плотности
df["alc_density_ratio"] = df["alcohol"] / df["density"]

# 2. Общая сернистость
df["total_sulfur_ratio"] = (
    df["free sulfur dioxide"] / 
    (df["total sulfur dioxide"] + 0.001)
)

In [12]:
def drop_irrelevant_columns(data):
    columns_to_drop = ["quality_category"]
    return data.drop(columns=columns_to_drop)

df_final = drop_irrelevant_columns(df)

In [15]:
# Разделяем признаки и целевую переменную
X = df_final.drop("quality", axis=1)
y = df_final["quality"]

print("Финальный размер X:", X.shape)
print("Размер y:", y.shape)

Финальный размер X: (1143, 18)
Размер y: (1143,)


In [14]:
#Лабораторная работа №2

#Очистка данных и подготовка признаков для моделирования

#1. Добавление категориального признака
#В рамках подготовки данных был создан новый категориальный признак quality_category, полученный на основе исходного числового признака quality.
#Цель создания признака — упростить задачу классификации и сделать интерпретацию результатов более наглядной.
#Категории были сформированы следующим образом:
#low — низкое качество
#medium — среднее качество
#high — высокое качество
#Таким образом, задача может рассматриваться как задача классификации по категориям качества.

#2. Анализ категориальных признаков
#Был проведен анализ распределения категориального признака quality_category.
#Проверено: количество объектов в каждой категории, баланс классов, процентное соотношение категорий.
#Это позволило определить, присутствует ли дисбаланс классов, что может повлиять на обучение модели.

#3. Кодирование категориальных признаков
#Для подготовки данных к машинному обучению были использованы два различных метода кодирования.
#3.1 Label Encoding
#Метод LabelEncoder преобразует категории в числовые значения:
#low → 0
#medium → 1
#high → 2
#Преимущества:
#Простота реализации
#Подходит для алгоритмов, не чувствительных к порядку меток
#Недостатки:
#Может вносить искусственный порядок между категориями

#3.2 One-Hot Encoding
#Метод OneHotEncoder преобразует каждую категорию в отдельный бинарный столбец:
#quality_low
#quality_medium
#quality_high
#Преимущества:
#Не создаёт ложного порядка
#Лучше подходит для линейных моделей
#Недостатки:
#Увеличивает размерность данных

#4. Масштабирование числовых признаков
#Масштабирование необходимо для алгоритмов, чувствительных к масштабу данных (например, логистическая регрессия, SVM, нейронные сети).
#Были применены два метода масштабирования:

#4.1 StandardScaler

#Преобразует данные по формуле:

#z = \frac{x - \mu}{\sigma}
#Где:
#μ — среднее значение
#σ — стандартное отклонение
#После преобразования:
#среднее ≈ 0
#стандартное отклонение ≈ 1
#Используется для большинства алгоритмов машинного обучения.

#4.2 MinMaxScaler
#Преобразует данные в диапазон от 0 до 1:
#x' = \frac{x - x_{min}}{x_{max} - x_{min}}
#Подходит для:
#нейронных сетей
#алгоритмов, требующих ограниченного диапазона значений

#5. Создание дополнительных признаков (Feature Engineering)
#Для повышения информативности данных были созданы новые признаки.
#5.1 alc_density_ratio
#Отношение содержания алкоголя к плотности:
#alc_density_ratio = alcohol / density
#Данный признак отражает взаимосвязь между концентрацией спирта и физическими свойствами напитка.

#5.2 total_sulfur_ratio
#Отношение общего содержания серы к свободной сере:
#total_sulfur_ratio = total_sulfur_dioxide / free_sulfur_dioxide
#Позволяет оценить степень химической стабилизации продукта.

#6. Удаление нерелевантных признаков
#Некоторые признаки были удалены по следующим причинам:
#высокая корреляция с другими признаками;
#низкая информативность;
#дублирование информации;
#потенциальная утечка данных.
#Удаление нерелевантных признаков снижает: риск переобучения, размерность данных, вычислительную сложность модели.

#7. Подготовка финального датасета
#На заключительном этапе был сформирован финальный датасет, который: не содержит пропусков, содержит закодированные категориальные признаки, включает масштабированные числовые признаки,
#дополнен новыми информативными признаками, очищен от нерелевантных столбцов.

In [16]:
df[["alc_density_ratio", "total_sulfur_ratio"]].head()

Unnamed: 0,alc_density_ratio,total_sulfur_ratio
0,9.420726,0.32352
1,9.831461,0.373129
2,9.829488,0.277773
3,9.819639,0.283329
4,9.420726,0.32352


In [17]:
# Label Encoding
df[["quality_category", "quality_category_label"]].head()

# One-Hot Encoding
df.filter(like="quality_category_").head()

Unnamed: 0,quality_category_label,quality_category_high,quality_category_low,quality_category_medium
0,1,0.0,1.0,0.0
1,1,0.0,1.0,0.0
2,1,0.0,1.0,0.0
3,2,0.0,0.0,1.0
4,1,0.0,1.0,0.0


In [18]:
df_scaled_standard[numeric_columns].head()  # StandardScaler
df_scaled_minmax[numeric_columns].head()    # MinMaxScaler

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,Id,quality_category_label,quality_category_high,quality_category_low,quality_category_medium
0,0.247788,0.39726,0.0,0.068493,0.106845,0.149254,0.09894,0.567548,0.606299,0.137725,0.153846,0.4,0.0,0.5,0.0,1.0,0.0
1,0.283186,0.520548,0.0,0.116438,0.143573,0.358209,0.215548,0.494126,0.362205,0.209581,0.215385,0.4,0.000626,0.5,0.0,1.0,0.0
2,0.283186,0.438356,0.04,0.09589,0.133556,0.208955,0.169611,0.508811,0.409449,0.191617,0.215385,0.4,0.001252,0.5,0.0,1.0,0.0
3,0.584071,0.109589,0.56,0.068493,0.105175,0.238806,0.190813,0.582232,0.330709,0.149701,0.215385,0.6,0.001879,1.0,0.0,0.0,1.0
4,0.247788,0.39726,0.0,0.068493,0.106845,0.149254,0.09894,0.567548,0.606299,0.137725,0.153846,0.4,0.002505,0.5,0.0,1.0,0.0
