In [1]:
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import scale
from typing import Tuple

import sys
sys.path.append("..")
from util import print_answer

## 1. Загрузите выборку Wine.

In [2]:
columns = [
    "Class",
    "Alcohol",
    "Malic acid",
    "Ash",
    "Alcalinity of ash",
    "Magnesium",
    "Total phenols",
    "Flavanoids",
    "Nonflavanoid phenols",
    "Proanthocyanins",
    "Color intensity",
    "Hue",
    "OD280/OD315 of diluted wines",
    "Proline",
]

df = pd.read_csv("wine.data", index_col=False, names=columns)
df.head()

Unnamed: 0,Class,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


## 2. Извлеките из данных признаки и классы.

Класс записан в первом столбце (три варианта), признаки — в столбцах со второго по последний. Более подробно о сути признаков можно прочитать по адресу https://archive.ics.uci.edu/ml/datasets/Wine (см. также файл wine.names, приложенный к заданию)

In [3]:
X = df.loc[:, df.columns != "Class"]
y = df["Class"]

## 3. Оценку качества необходимо провести методом кросс-валидации по 5 блокам (5-fold).

Создайте генератор разбиений, который перемешивает выборку перед формированием блоков (shuffle=True). Для воспроизводимости результата, создавайте генератор KFold с фиксированным параметром random_state=42. В качестве меры качества используйте долю верных ответов (accuracy).

In [4]:
cv = KFold(n_splits=5, shuffle=True, random_state=42)

## 4. Найдите точность классификации на кросс-валидации для метода k ближайших соседей (sklearn.neighbors.KNeighborsClassifier), при k от 1 до 50.

При каком k получилось оптимальное качество? Чему оно равно (число в интервале от 0 до 1)? Данные результаты и будут ответами на вопросы 1 и 2.

In [5]:
def get_best_score(X: pd.DataFrame, y: pd.Series, cv) -> Tuple[float, int]:
    best_score, best_k = None, None

    for k in range(1, 51):
        model = KNeighborsClassifier(n_neighbors=k)
        score = cross_val_score(model, X, y, cv=cv, scoring="accuracy").mean()
        
        if best_score is None or score > best_score:
            best_score, best_k = score, k
    
    return best_score, best_k

In [6]:
score, k = get_best_score(X, y, cv)
print_answer(1, str(k))
print_answer(2, f"{score:.2f}")

1
0.73


## 5. Произведите масштабирование признаков с помощью функции sklearn.preprocessing.scale.

Снова найдите оптимальное k на кросс-валидации.

In [7]:
score, k = get_best_score(scale(X), y, cv)

## 6. Какое значение k получилось оптимальным после приведения признаков к одному масштабу?

Приведите ответы на вопросы 3 и 4. Помогло ли масштабирование признаков?

In [8]:
print_answer(3, str(k))
print_answer(4, f"{score:.2f}")

29
0.98
