In [31]:
from scipy.io import arff
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.linear_model import Perceptron
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import GridSearchCV

1. Написать программу, которая разделяет исходную выборку на обучающую и тестовую (training set, validation set, test set), если такое разделение не предусмотрено предложенным набором данных.

In [32]:
# Чтение файла ARFF и загрузка данных
data, meta = arff.loadarff('seismic-bumps.arff')

# Преобразование данных в DataFrame
df = pd.DataFrame(data)

# Разделение данных на признаки (X) и целевую переменную (y)
X = df.drop(columns=['class'])
y = df['class']

# Разделение данных на обучающую (70%), валидационную (15%) и тестовую (15%) выборки
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.15, random_state=42, stratify=y)
X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.1765, random_state=42, stratify=y_train_val)

# Сохранение обучающей выборки в CSV файл
Xy_train = pd.concat([X_train, y_train], axis=1)
Xy_train.to_csv('train_data.csv', index=False)

# Сохранение валидационной выборки в CSV файл
Xy_val = pd.concat([X_val, y_val], axis=1)
Xy_val.to_csv('val_data.csv', index=False)

# Сохранение тестовой выборки в CSV файл
Xy_test = pd.concat([X_test, y_test], axis=1)
Xy_test.to_csv('test_data.csv', index=False)

print("Выборки сохранены в CSV файлы.")


Выборки сохранены в CSV файлы.


2. Произвести масштабирование признаков (scaling).

In [33]:
# Загрузка данных из CSV файлов
train_data = pd.read_csv('train_data.csv')
val_data = pd.read_csv('val_data.csv')
test_data = pd.read_csv('test_data.csv')

# Разделение числовых признаков и целевой переменной
numerical_features = ['genergy', 'gpuls', 'gdenergy', 'gdpuls', 'nbumps', 'nbumps2', 'nbumps3', 
                      'nbumps4', 'nbumps5', 'nbumps6', 'nbumps7', 'nbumps89', 'energy', 'maxenergy']

X_train = train_data[numerical_features]
y_train = train_data['class']

X_val = val_data[numerical_features]
y_val = val_data['class']

X_test = test_data[numerical_features]
y_test = test_data['class']

# Инициализация и обучение scaler'ов
standard_scaler = StandardScaler()
minmax_scaler = MinMaxScaler()

# Проверка наличия данных перед масштабированием
if not X_train.empty:
    # Стандартизация признаков
    X_train_scaled = standard_scaler.fit_transform(X_train)
    # Нормализация признаков
    X_train_normalized = minmax_scaler.fit_transform(X_train)
    print("Масштабирование числовых признаков обучающей выборки выполнено.")
    print("Масштабированные числовые признаки обучающей выборки (стандартизация):")
    print(X_train_scaled)
    print("\nНормализованные числовые признаки обучающей выборки:")
    print(X_train_normalized)
else:
    print("Ошибка: Не удалось найти данные для масштабирования числовых признаков обучающей выборки.")

if not X_val.empty:
    # Стандартизация признаков
    X_val_scaled = standard_scaler.transform(X_val)
    # Нормализация признаков
    X_val_normalized = minmax_scaler.transform(X_val)
    print("Масштабирование числовых признаков валидационной выборки выполнено.")
    print("\nМасштабированные числовые признаки валидационной выборки (стандартизация):")
    print(X_val_scaled)
    print("\nНормализованные числовые признаки валидационной выборки:")
    print(X_val_normalized)
else:
    print("Ошибка: Не удалось найти данные для масштабирования числовых признаков валидационной выборки.")

if not X_test.empty:
    # Стандартизация признаков
    X_test_scaled = standard_scaler.transform(X_test)
    # Нормализация признаков
    X_test_normalized = minmax_scaler.transform(X_test)
    print("Масштабирование числовых признаков тестовой выборки выполнено.")
    print("\nМасштабированные числовые признаки тестовой выборки (стандартизация):")
    print(X_test_scaled)
    print("\nНормализованные числовые признаки тестовой выборки:")
    print(X_test_normalized)
else:
    print("Ошибка: Не удалось найти данные для масштабирования числовых признаков тестовой выборки.")


Масштабирование числовых признаков обучающей выборки выполнено.
Масштабированные числовые признаки обучающей выборки (стандартизация):
[[-0.30049373  0.08183243  0.54158503 ...  0.         -0.24210825
  -0.22092067]
 [-0.37713439 -0.77528822 -0.69698126 ...  0.         -0.1269119
  -0.11905458]
 [-0.22044203  0.21120914  0.50442804 ...  0.          0.7178613
   0.79774021]
 ...
 [-0.17907767 -0.08707604  0.55397069 ...  0.         -0.24210825
  -0.22092067]
 [-0.32065778 -0.2775473  -0.43688234 ...  0.         -0.24210825
  -0.22092067]
 [-0.34552821 -0.28832869 -0.8827662  ...  0.         -0.24210825
  -0.22092067]]

Нормализованные числовые признаки обучающей выборки:
[[0.00912716 0.13454045 0.11334825 ... 0.         0.         0.        ]
 [0.00228853 0.02521201 0.03877703 ... 0.         0.00597015 0.005     ]
 [0.01627015 0.15104286 0.11111111 ... 0.         0.04975124 0.05      ]
 ...
 [0.01996109 0.11299565 0.11409396 ... 0.         0.         0.        ]
 [0.00732793 0.08870044 

3. С использованием библиотеки scikit-learn обучить 2 модели нейронной сети (Perceptron и MLPClassifier) по обучающей выборке. Перед обучением необходимо осуществить масштабирование признаков. Пример MLPClassifier Пример и описание Perceptron

In [34]:
# Инициализация моделей с увеличенным количеством итераций
perceptron_model = Perceptron(random_state=42)
mlp_model = MLPClassifier(random_state=42, max_iter=1000, tol=1e-4)  # Установка max_iter на 500

# Обучение моделей
perceptron_model.fit(X_train_scaled, y_train)
mlp_model.fit(X_train_scaled, y_train)

print("Модели нейронной сети обучены успешно.")


Модели нейронной сети обучены успешно.


4. Проверить точность модели по тестовой выборке.

In [35]:
# Оценка качества моделей на тестовой выборке
perceptron_test_accuracy = perceptron_model.score(X_test_scaled, y_test)
mlp_test_accuracy = mlp_model.score(X_test_scaled, y_test)

print("Точность Perceptron на тестовой выборке:", perceptron_test_accuracy)
print("Точность MLPClassifier на тестовой выборке:", mlp_test_accuracy)

Точность Perceptron на тестовой выборке: 0.9226804123711341
Точность MLPClassifier на тестовой выборке: 0.9278350515463918


5. Провести эксперименты и определить наилучшие параметры коэффициента обучения, параметра регуляризации, функции оптимизации. Данные экспериментов необходимо представить в отчете (графики, ход проведения эксперимента, выводы).

In [30]:
# Задаем диапазоны значений параметров для перебора
param_grid = {
    'learning_rate_init': [0.001, 0.01, 0.1],
    'alpha': [0.0001, 0.001, 0.01],
    'solver': ['adam', 'sgd']
}

# Создаем экземпляр модели MLPClassifier
mlp = MLPClassifier(random_state=42, max_iter=2000)

# Инициализируем GridSearchCV для перебора параметров
grid_search = GridSearchCV(mlp, param_grid, cv=5, scoring='accuracy')

# Обучаем GridSearchCV на обучающей выборке
grid_search.fit(X_train_scaled, y_train)

# Получаем наилучшие параметры и точность на валидационной выборке
best_params = grid_search.best_params_
best_accuracy = grid_search.best_score_

print("Наилучшие параметры:", best_params)
print("Точность наилучшей модели на валидационной выборке:", best_accuracy)

# Используем наилучшие параметры для обучения модели на всей обучающей выборке
best_mlp = MLPClassifier(random_state=42, max_iter=2000, **best_params)
best_mlp.fit(X_train_scaled, y_train)

# Оцениваем качество модели на тестовой выборке
test_accuracy = best_mlp.score(X_test_scaled, y_test)
print("Точность модели на тестовой выборке:", test_accuracy)


Наилучшие параметры: {'alpha': 0.0001, 'learning_rate_init': 0.001, 'solver': 'sgd'}
Точность наилучшей модели на валидационной выборке: 0.9341822133117033
Точность модели на тестовой выборке: 0.9304123711340206
