# Задача 1.
1) Исследовать качество работы классификатора в зависимости от выбранного метода преобразования данных
2) Изучить методы преобразования данных: from sklearn.preprocessing https://scikit-learn.org/stable/modules/preprocessing.html
3) Критерий качества - accuracy
4) Сформировать таблицу для сравнения

# Решение
Выбранный датасет для выполнения задачи: **iris**, т.к. задача была прописана в файле AIM_practice_2_iris.

In [7]:
from sklearn.datasets import load_iris

iris = load_iris()
X, y = iris.data, iris.target

In [8]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Выбранные методы предобработки данных:
1) **StandardScaler** — для устранения влияния масштаба признаков.
2) **MinMaxScaler** — для приведения данных в один диапазон, что важно для моделей, чувствительных к расстояниям.
3) **Normalizer** — для нормализации данных, где важны относительные соотношения признаков.
4) **Binarizer** — чтобы учитывать только наличие признаков, а не их количественные значения. *(должен быть отрицательный результат работы)*
5) **MaxAbsScaler** — сохраняет масштаб признаков, ограниченных положительными и отрицательными значениями, не изменяя их знаки; особенно полезен для данных с признаками, уже находящимися в диапазоне [-1, 1] (и т.к. он использовался в AIM_practice_2_iris)

In [9]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, Normalizer, Binarizer, MaxAbsScaler

processing_methods = {
    'StandardScaler': StandardScaler(),
    'MinMaxScaler': MinMaxScaler(),
    'Normalizer': Normalizer(),
    'Binarizer': Binarizer(),
    'MaxAbsScaler': MaxAbsScaler()
}

Выбранный классификатор для выполнения задачи: **KNeighborsClassifier**, т.к. именно он использовался в файле AIM_practice_2_iris

In [10]:
from sklearn.neighbors import KNeighborsClassifier

classifier = KNeighborsClassifier(n_neighbors=1)

Предобрабатываем данные на основе выбранных методов и оцениваем точность (accuracy) для выбранного классификатора

In [11]:
from sklearn.metrics import accuracy_score

results = list()

for method_name, transformer in processing_methods.items():

    X_train_transformed = transformer.fit_transform(X_train)
    X_test_transformed = transformer.transform(X_test)

    classifier.fit(X_train_transformed, y_train)

    y_pred = classifier.predict(X_test_transformed)

    accuracy = accuracy_score(y_test, y_pred)

    results.append({
        'Proccessing method': method_name,
        'Accuracy': accuracy
    })

Вывод на экран таблицы сравнения

In [12]:
from pandas import DataFrame

DataFrame(results)

Unnamed: 0,Proccessing method,Accuracy
0,StandardScaler,0.977778
1,MinMaxScaler,1.0
2,Normalizer,0.977778
3,Binarizer,0.288889
4,MaxAbsScaler,0.977778


# Вывод
Метод маштабирования (предобработки данных) MinMaxScaler показал идеальный результат при его использовании на выбранном датасете.

Методы масштабирования StandardScaler, MaxAbsScaler и Normalizer показали также очень хороший результат. 

Binarizer оказался неэффективным, что говорит о том, что этот метод не подходит для таких задач, где важна информация о величинах признаков.