**Цель работы**

Цель данной лабораторной работы - освоить методы предварительной обработки данных и построения модели классификации на примере набора данных о винах. Основные задачи:

Изучение работы алгоритма K-ближайших соседей (KNN)

Освоение методов нормализации данных (логарифмическая трансформация)

Применение стандартизации данных с помощью StandardScaler

Сравнение эффективности модели с предобработкой данных и без *нее*

**1. Импорт библиотек и загрузка данных**

In [1]:
import pandas as pd
import numpy as np

wine = pd.read_csv('wine_types.csv')
wine.head()

Unnamed: 0,Type,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


**2. Подготовка данных для моделирования**

In [2]:
X = wine[['Proline', 'Total phenols', 'Hue', 'Nonflavanoid phenols']] #Создаем матрицу признаков X, выбирая 4 конкретных признака
y = wine['Type'] #Создаем вектор целевой переменной y (тип вина)

**3. Разделение данных и обучение модели KNN**

In [3]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier()

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y) #(по умолчанию 75%/25%)

# Обучение модели на обучающих данных
knn.fit(X_train, y_train)

# Оценка точности модели на тестовых данных
print(knn.score(X_test, y_test))

0.5555555555555556


**4. Анализ данных и нормализация признаков**

In [4]:
wine.describe()

# Вычисление дисперсии для признака Proline
print(wine['Proline'].var())

# Логарифмическая нормализация признака Proline
wine['Proline_log'] = np.log(wine['Proline'])

# Проверка дисперсии после нормализации
print(wine['Proline_log'].var())

99166.71735542428
0.17231366191842018


**5. Стандартизация данных**

In [5]:
wine[['Ash', 'Alcalinity of ash', 'Magnesium']].describe()

from sklearn.preprocessing import StandardScaler

# Создание объекта StandardScaler
ss = StandardScaler()

# Выбор подмножества признаков для масштабирования
wine_subset = wine[['Ash', 'Alcalinity of ash', 'Magnesium']]

print(wine_subset.iloc[:3])

# Применение стандартизации
wine_subset_scaled = ss.fit_transform(wine_subset)

print(wine_subset_scaled[:3])

    Ash  Alcalinity of ash  Magnesium
0  2.43               15.6        127
1  2.14               11.2        100
2  2.67               18.6        101
[[ 0.23205254 -1.16959318  1.91390522]
 [-0.82799632 -2.49084714  0.01814502]
 [ 1.10933436 -0.2687382   0.08835836]]


**6. Обучение модели на всех признаках без стандартизации**


In [6]:
wine = pd.read_csv('wine_types.csv')

X = wine.drop('Type', axis=1)
y = wine['Type']

knn = KNeighborsClassifier()
X_train, X_test, y_train, y_test = train_test_split(X, y)
knn.fit(X_train, y_train)
print(knn.score(X_test, y_test))

0.6888888888888889


**7. Обучение модели на всех признаках со стандартизацией**

In [7]:
knn = KNeighborsClassifier()
ss = StandardScaler()

# Стандартизация всех признаков
X_scaled = ss.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y)

knn.fit(X_train, y_train)
print(knn.score(X_test, y_test))

0.9777777777777777


В ходе лабораторной работы:

1.Была исследована зависимость качества модели KNN от предобработки данных

2.Показано, что нормализация и стандартизация могут значительно улучшить результаты классификации

3.Освоены основные методы предварительной обработки данных в sklearn

4.Получены практические навыки работы с алгоритмом KNN