In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Perceptron
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import classification_report, accuracy_score

1 Пункт

In [2]:
# Load the dataset
data_url = "letter-recognition.data"
column_names = ['letter', 'x-box', 'y-box', 'width', 'high', 'onpix', 'x-bar', 'y-bar', 'x2bar', 'y2bar', 'xybar', 'x2ybr', 'xy2br', 'x-ege', 'xegvy', 'y-ege', 'yegvx']
df = pd.read_csv(data_url, header=None, names=column_names)

# Split the dataset into train and test sets
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

# Further split the train set into train and validation sets
train_df, val_df = train_test_split(train_df, test_size=0.2, random_state=42)

# Save each set into separate CSV files
train_df.to_csv('rain.csv', index=False)
val_df.to_csv('validation.csv', index=False)
test_df.to_csv('test.csv', index=False)



2 пункт

In [3]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Инициализация scaler'ов
standard_scaler = StandardScaler()
minmax_scaler = MinMaxScaler()

# Разделение числовых признаков и целевой переменной
numerical_features = ['x-box', 'y-box', 'width', 'high', 'onpix', 'x-bar', 'y-bar', 'x2bar', 'y2bar', 'xybar', 'x2ybr', 'xy2br', 'x-ege', 'xegvy', 'y-ege', 'yegvx']
target_feature = 'letter'  # Предполагаем, что это ваша целевая переменная

# Масштабирование числовых признаков
if not train_df.empty and not val_df.empty and not test_df.empty:
    # Стандартизация признаков
    train_df_scaled = train_df.copy()
    val_df_scaled = val_df.copy()
    test_df_scaled = test_df.copy()
    
    train_df_scaled[numerical_features] = standard_scaler.fit_transform(train_df[numerical_features])
    val_df_scaled[numerical_features] = standard_scaler.transform(val_df[numerical_features])
    test_df_scaled[numerical_features] = standard_scaler.transform(test_df[numerical_features])

    # Нормализация признаков
    train_df_normalized = train_df.copy()
    val_df_normalized = val_df.copy()
    test_df_normalized = test_df.copy()

    train_df_normalized[numerical_features] = minmax_scaler.fit_transform(train_df[numerical_features])
    val_df_normalized[numerical_features] = minmax_scaler.transform(val_df[numerical_features])
    test_df_normalized[numerical_features] = minmax_scaler.transform(test_df[numerical_features])

    print("Масштабирование числовых признаков выполнено.")

    # Вывод масштабированных и нормализованных данных в консоль
    print("Масштабированные числовые признаки обучающей выборки (стандартизация):")
    print(train_df_scaled[numerical_features])
    print("\nНормализованные числовые признаки обучающей выборки:")
    print(train_df_normalized[numerical_features])

    print("\nМасштабированные числовые признаки валидационной выборки (стандартизация):")
    print(val_df_scaled[numerical_features])
    print("\nНормализованные числовые признаки валидационной выборки:")
    print(val_df_normalized[numerical_features])

    print("\nМасштабированные числовые признаки тестовой выборки (стандартизация):")
    print(test_df_scaled[numerical_features])
    print("\nНормализованные числовые признаки тестовой выборки:")
    print(test_df_normalized[numerical_features])

else:
    print("Ошибка: Не удалось найти данные для масштабирования числовых признаков.")


Масштабирование числовых признаков выполнено.
Масштабированные числовые признаки обучающей выборки (стандартизация):
          x-box     y-box     width      high     onpix     x-bar     y-bar  \
252   -0.531201  0.292157 -0.555270  0.275128 -0.226868  0.542297 -0.638526   
18632 -1.575812 -1.221364 -2.041458 -1.928926 -1.604002  0.542297 -0.211016   
19138 -0.531201  0.594861 -0.555270  0.715939 -0.685913 -0.929690 -0.211016   
1673   1.558021  1.502974  0.435523  0.275128  0.232176  0.542297 -0.638526   
17688  1.035716  0.897565  1.921712  1.156749  3.445488  0.542297 -1.066035   
...         ...       ...       ...       ...       ...       ...       ...   
4650  -0.531201 -0.010547 -0.555270 -0.165683 -0.685913 -0.439028 -1.493545   
9403  -0.008896 -0.010547 -0.059873 -0.165683 -0.226868  0.051635 -0.211016   
14354  1.035716  0.292157  0.435523  0.275128  0.232176 -0.439028  1.499023   
1802  -1.053507 -0.918660 -1.050666 -1.047304 -0.685913 -0.439028  0.216494   
9952   2.08032

3 пункт

In [25]:
from sklearn.linear_model import Perceptron
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

# Инициализация моделей
perceptron_model = Perceptron(random_state=42)
mlp_model = MLPClassifier(random_state=42, max_iter=1000, tol=1e-4)

# Обучение моделей
perceptron_model.fit(train_df_scaled[numerical_features], train_df_scaled[target_feature])
mlp_model.fit(train_df_scaled[numerical_features], train_df_scaled[target_feature])

print("Train Data Shape:", train_df_scaled[numerical_features].shape)
print("Target Data Shape:", train_df[target_feature].shape)

print("Модели нейронной сети обучены успешно.")



Train Data Shape: (12800, 16)
Target Data Shape: (8192,)
Модели нейронной сети обучены успешно.


4 пункт

In [28]:
perceptron_test_accuracy = perceptron_model.score(train_df_scaled[numerical_features], train_df_scaled[target_feature])
mlp_test_accuracy = mlp_model.score(train_df_scaled[numerical_features], train_df_scaled[target_feature])

print("Точность Perceptron на тестовой выборке:", perceptron_test_accuracy)
print("Точность MLPClassifier на тестовой выборке:", mlp_test_accuracy)


Точность Perceptron на тестовой выборке: 0.52390625
Точность MLPClassifier на тестовой выборке: 1.0


5 пункт

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.linear_model import Perceptron
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import GridSearchCV
import matplotlib.pyplot as plt
import numpy as np

# Загрузка данных
data_url = "letter-recognition.data"
column_names = ['letter', 'x-box', 'y-box', 'width', 'high', 'onpix', 'x-bar', 'y-bar', 'x2bar', 'y2bar', 'xybar', 'x2ybr', 'xy2br', 'x-ege', 'xegvy', 'y-ege', 'yegvx']
df = pd.read_csv(data_url, header=None, names=column_names)

# Разделение данных на тренировочный и тестовый наборы
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

# Дополнительное разделение тренировочного набора на тренировочный и валидационный наборы
train_df, val_df = train_test_split(train_df, test_size=0.2, random_state=42)

# Определение числовых признаков и целевой переменной
numerical_features = ['x-box', 'y-box', 'width', 'high', 'onpix', 'x-bar', 'y-bar', 'x2bar', 'y2bar', 'xybar', 'x2ybr', 'xy2br', 'x-ege', 'xegvy', 'y-ege', 'yegvx']
target_feature = 'letter'

# Масштабирование данных
scaler = StandardScaler()
train_df_scaled = train_df.copy()
val_df_scaled = val_df.copy()
test_df_scaled = test_df.copy()

train_df_scaled[numerical_features] = scaler.fit_transform(train_df[numerical_features])
val_df_scaled[numerical_features] = scaler.transform(val_df[numerical_features])
test_df_scaled[numerical_features] = scaler.transform(test_df[numerical_features])

# Инициализация моделей
perceptron_model = Perceptron(random_state=42)
mlp_model = MLPClassifier(random_state=42, max_iter=1000, tol=1e-4)

# Обучение моделей
perceptron_model.fit(train_df_scaled[numerical_features], train_df[target_feature])
mlp_model.fit(train_df_scaled[numerical_features], train_df[target_feature])

print("Train Data Shape:", train_df_scaled[numerical_features].shape)
print("Target Data Shape:", train_df[target_feature].shape)

print("Модели нейронной сети обучены успешно.")

perceptron_test_accuracy = perceptron_model.score(test_df_scaled[numerical_features], test_df[target_feature])
mlp_test_accuracy = mlp_model.score(test_df_scaled[numerical_features], test_df[target_feature])

print("Точность Perceptron на тестовой выборке:", perceptron_test_accuracy)
print("Точность MLPClassifier на тестовой выборке:", mlp_test_accuracy)

# Задаем диапазоны значений параметров для перебора
param_grid = {
    'learning_rate_init': [0.001, 0.01, 0.1],
    'alpha': [0.0001, 0.001, 0.01],
    'solver': ['adam', 'sgd', 'lbfgs']
}

# Создаем экземпляр модели MLPClassifier
mlp = MLPClassifier(random_state=42, max_iter=2000)

# Инициализируем GridSearchCV для перебора параметров
grid_search = GridSearchCV(mlp, param_grid, cv=5, scoring='accuracy')

# Обучаем GridSearchCV на обучающей выборке
grid_search.fit(train_df_scaled[numerical_features], train_df[target_feature])

# Получаем наилучшие параметры и точность на валидационной выборке
best_params = grid_search.best_params_
best_accuracy = grid_search.best_score_

print("Наилучшие параметры:", best_params)
print("Точность наилучшей модели на валидационной выборке:", best_accuracy)

# Используем наилучшие параметры для обучения модели на всей обучающей выборке
best_mlp = MLPClassifier(random_state=42, max_iter=2000, **best_params)
best_mlp.fit(train_df_scaled[numerical_features], train_df[target_feature])

# Оцениваем качество модели на тестовой выборке
test_accuracy = best_mlp.score(test_df_scaled[numerical_features], test_df[target_feature])
print("Точность модели на тестовой выборке:", test_accuracy)

# Визуализация результатов
# Для примера - построение тепловой карты оценок производительности в зависимости от параметров
scores = np.array(grid_search.cv_results_['mean_test_score']).reshape(len(param_grid['learning_rate_init']), len(param_grid['alpha']))
plt.imshow(scores, interpolation='nearest', cmap=plt.cm.hot)
plt.xlabel('alpha')
plt.ylabel('learning_rate_init')
plt.colorbar()
plt.xticks(np.arange(len(param_grid['alpha'])), param_grid['alpha'], rotation=45)
plt.yticks(np.arange(len(param_grid['learning_rate_init'])), param_grid['learning_rate_init'])
plt.title('Validation accuracy')
plt.show()


Train Data Shape: (12800, 16)
Target Data Shape: (12800,)
Модели нейронной сети обучены успешно.
Точность Perceptron на тестовой выборке: 0.519
Точность MLPClassifier на тестовой выборке: 0.95275


