In [None]:
# Задача 1.
# Исследовать качество работы классификаторы в зависимости от выбранного метода преобразования данных
# Изучить методы преобразования данных: from sklearn.preprocessing https://scikit-learn.org/stable/modules/preprocessing.html
# Критерий качества - accuracy
# Сформировать таблицу для сравнения

In [11]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, MaxAbsScaler, RobustScaler, Normalizer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

In [19]:
# Загрузка данных
iris = load_iris()
iris_data = iris.data[:, :2]  # Используем только два признака для простоты визуализации
iris_target = iris.target


Использувем методы масштабирования такие методы, как StandardScaler, MinMaxScaler, MaxAbsScaler, RobustScaler и Normalizer.

In [15]:
# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_target, test_size=0.5, random_state=0)
# Определим список методов преобразования
scalers = {
    'StandardScaler': StandardScaler(),
    'MinMaxScaler': MinMaxScaler(),
    'MaxAbsScaler': MaxAbsScaler(),
    'RobustScaler': RobustScaler(),
    'Normalizer': Normalizer()
}
# Определим классификаторы
#LogisticRegression (логистическая регрессия),
#DecisionTreeClassifier (дерево решений).
classifiers = {
    'KNeighbors': KNeighborsClassifier(n_neighbors=1),
    'LogisticRegression': LogisticRegression(),
    'DecisionTree': DecisionTreeClassifier(random_state=0)
}

# Список для хранения результатов
results = []

# Проходим по каждому методу масштабирования
for scaler_name, scaler in scalers.items():
    # Трансформируем тренировочные и тестовые данные
    X_train_transformed = scaler.fit_transform(X_train)
    X_test_transformed = scaler.transform(X_test)
    
    # Проходим по каждому классификатору
    for clf_name, clf in classifiers.items():
        # Обучаем модель
        clf.fit(X_train_transformed, y_train)
        
        # Делаем предсказания
        y_pred = clf.predict(X_test_transformed)
        
        # Оцениваем точность
        accuracy = accuracy_score(y_test, y_pred)
        
        # Сохраняем результаты
        results.append({
            'Scaler': scaler_name,
            'Classifier': clf_name,
            'Accuracy': accuracy
        })


In [20]:
# Преобразуем результаты в таблицу DataFrame
df_results = pd.DataFrame(results)

# Выводим результаты
print(df_results.pivot(index='Scaler', columns='Classifier', values='Accuracy').round(3))

Classifier      DecisionTree  LogisticRegression
Scaler                                          
MaxAbsScaler           0.680               0.587
MinMaxScaler           0.680               0.640
Normalizer             0.640               0.573
RobustScaler           0.693               0.680
StandardScaler         0.680               0.693
