Задание 1. Загрузите данные и создайте бинарную целевую переменную

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style='whitegrid')

# Загрузка данных
df = pd.read_csv('winequality-white.csv', sep=';')
print("Первые 5 строк данных:")
display(df.head())

print("\nИнформация о данных:")
print(df.info())

# Создание бинарной целевой переменной: good (1) — если качество >= 7, иначе 0
df['good'] = (df['quality'] >= 7).astype(int)

print("\nРаспределение классов (0 — обычное, 1 — хорошее):")
print(df['good'].value_counts())

sns.countplot(x='good', data=df)
plt.title('Распределение классов (0 — обычное, 1 — хорошее)')
plt.show()


Задание 2. Стандартизируйте признаки и разделите выборку

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Разделение признаков и целевой переменной
X = df.drop(columns=['quality', 'good'])
y = df['good']

# Стандартизация признаков
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.3, random_state=42, stratify=y
)

print(f"Размер обучающей выборки: {X_train.shape[0]}")
print(f"Размер тестовой выборки: {X_test.shape[0]}")


Задание 3. Обучите модели k-NN, Decision Tree и SVM

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

from sklearn.metrics import f1_score

# --- k-NN ---
f1_scores_knn = []
k_values = range(1, 21)

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred_knn = knn.predict(X_test)
    f1_scores_knn.append(f1_score(y_test, y_pred_knn))

best_k = k_values[np.argmax(f1_scores_knn)]
best_f1_knn = max(f1_scores_knn)

plt.plot(k_values, f1_scores_knn, marker='o')
plt.title('Зависимость F1-score от числа соседей (k)')
plt.xlabel('k')
plt.ylabel('F1-score')
plt.show()

print(f"Лучший F1-score для k-NN: {best_f1_knn:.4f} при k = {best_k}")

# --- Decision Tree ---
tree = DecisionTreeClassifier(random_state=42)
tree.fit(X_train, y_train)
y_pred_tree = tree.predict(X_test)
f1_tree = f1_score(y_test, y_pred_tree)
print(f"F1-score для Decision Tree: {f1_tree:.4f}")

# --- SVM ---
svm = SVC(kernel='rbf', random_state=42)
svm.fit(X_train, y_train)
y_pred_svm = svm.predict(X_test)
f1_svm = f1_score(y_test, y_pred_svm)
print(f"F1-score для SVM: {f1_svm:.4f}")


Задание 4. Сравните F1-score для каждой модели

In [None]:
import pandas as pd

results = pd.DataFrame({
    'Модель': ['k-NN', 'Decision Tree', 'SVM'],
    'F1-score': [best_f1_knn, f1_tree, f1_svm]
})

display(results.sort_values(by='F1-score', ascending=False))

best_model = results.loc[results['F1-score'].idxmax(), 'Модель']
print(f"Лучшая модель по F1-score: {best_model}")


Задание 5. Определите, какой алгоритм показал лучший баланс между точностью и полнотой

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Разделение признаков и целевой переменной
X = df.drop(columns=['quality', 'good'])
y = df['good']

# Стандартизация признаков
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.3, random_state=42, stratify=y
)

print(f"Размер обучающей выборки: {X_train.shape[0]}")
print(f"Размер тестовой выборки: {X_test.shape[0]}")
