**Задание: Написание собственных программ с использованием нейросетей, реализующих алгоритмы классификации и регрессии**

Ваша цель - разработать программы, использующие нейронные сети, для решения задач классификации и регрессии. Ваши программы должны быть написаны с использованием Python и TensorFlow (или PyTorch), и они должны включать в себя все этапы процесса машинного обучения, включая предварительную обработку данных, обучение модели, оценку производительности и интерпретацию результатов.

**Упражнение 1: Подготовка данных**

1.1. Выберите набор данных для классификации и набор данных для регрессии. Наборы данных могут быть любыми, но они должны быть достаточно сложными, чтобы могли быть решены с помощью нейронных сетей.



In [None]:
import pandas as pd
data = pd.read_csv('train.csv')
dataAll = data
data.head()

Unnamed: 0,Activity,D1,D2,D3,D4,D5,D6,D7,D8,D9,...,D1767,D1768,D1769,D1770,D1771,D1772,D1773,D1774,D1775,D1776
0,1,0.0,0.497009,0.1,0.0,0.132956,0.678031,0.273166,0.585445,0.743663,...,0,0,0,0,0,0,0,0,0,0
1,1,0.366667,0.606291,0.05,0.0,0.111209,0.803455,0.106105,0.411754,0.836582,...,1,1,1,1,0,1,0,0,1,0
2,1,0.0333,0.480124,0.0,0.0,0.209791,0.61035,0.356453,0.51772,0.679051,...,0,0,0,0,0,0,0,0,0,0
3,1,0.0,0.538825,0.0,0.5,0.196344,0.72423,0.235606,0.288764,0.80511,...,0,0,0,0,0,0,0,0,0,0
4,0,0.1,0.517794,0.0,0.0,0.494734,0.781422,0.154361,0.303809,0.812646,...,0,0,0,0,0,0,0,0,0,0


PS: Задача, размещенная на Kaggle:  https://www.kaggle.com/c/bioresponse.

Задача состоит в том, чтобы по данным характеристикам молекулы определить, будет ли дан   биологический   ответ   (biological response).   Исходные   данные: https://www.kaggle.com/c/bioresponse/data.  Для  анализа  следует  использовать  данные  из файла train.csv. Каждая строка описывает одну молекулу.

1.2. Выполните предварительную обработку данных. Это может включать в себя нормализацию, кодирование категориальных переменных, удаление или заполнение пропущенных значений и т.д.



*Проверим на наличие пропущенных значений*

In [None]:
data.isnull().sum().sum()

0

*Пропущенные значения отсутсвуют*

*Проверим на необходимость масщтабирование данных*

In [None]:
data.describe()

Unnamed: 0,Activity,D1,D2,D3,D4,D5,D6,D7,D8,D9,...,D1767,D1768,D1769,D1770,D1771,D1772,D1773,D1774,D1775,D1776
count,3751.0,3751.0,3751.0,3751.0,3751.0,3751.0,3751.0,3751.0,3751.0,3751.0,...,3751.0,3751.0,3751.0,3751.0,3751.0,3751.0,3751.0,3751.0,3751.0,3751.0
mean,0.542255,0.076948,0.592436,0.068142,0.03899,0.212112,0.686653,0.274713,0.455133,0.749517,...,0.026926,0.014663,0.013863,0.021861,0.015196,0.016796,0.012263,0.01173,0.020261,0.011197
std,0.498278,0.079989,0.10586,0.078414,0.115885,0.102592,0.078702,0.090017,0.162731,0.071702,...,0.161889,0.120215,0.116938,0.146249,0.122348,0.128522,0.110074,0.107683,0.140911,0.105236
min,0.0,0.0,0.282128,0.0,0.0,0.00263,0.137873,0.00613,0.0,0.27559,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.0333,0.517811,0.0,0.0,0.138118,0.625627,0.207374,0.378062,0.707339,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,1.0,0.0667,0.585989,0.05,0.0,0.190926,0.674037,0.277845,0.499942,0.738961,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,1.0,0.1,0.668395,0.1,0.0,0.261726,0.740663,0.335816,0.569962,0.788177,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,1.0,1.0,0.964381,0.95,1.0,1.0,0.994735,0.790831,0.98987,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


*Как мы видим, данные не нуждаются в масштабирование, так как их значения в диапазоне от 0 до 1*

Выведим коэфиценты корреляции

In [None]:
corr = data.corr('pearson')
corr

Unnamed: 0,Activity,D1,D2,D3,D4,D5,D6,D7,D8,D9,...,D1767,D1768,D1769,D1770,D1771,D1772,D1773,D1774,D1775,D1776
Activity,1.000000,-0.086402,0.109226,0.167209,-0.044126,-0.148447,-0.106213,0.137016,0.172226,-0.077743,...,0.010685,0.076465,0.031133,0.016595,0.039768,0.011817,0.029445,0.005669,0.048571,0.021488
D1,-0.086402,1.000000,0.262487,0.328325,0.260002,-0.074244,0.366193,-0.430245,-0.112804,0.189056,...,0.260743,0.221889,0.224236,0.229257,0.225635,0.234814,0.096729,0.164529,0.237026,0.186957
D2,0.109226,0.262487,1.000000,0.439590,0.352263,0.227328,-0.136386,-0.032891,0.141841,-0.354988,...,0.012333,0.075043,0.015788,0.040128,0.045587,0.017283,0.023722,0.043174,0.027019,0.073585
D3,0.167209,0.328325,0.439590,1.000000,0.188451,-0.123794,-0.040728,-0.204815,0.079161,-0.141597,...,0.049737,0.135849,0.037999,0.096788,0.122743,0.021355,0.053000,0.142170,0.008959,0.198354
D4,-0.044126,0.260002,0.352263,0.188451,1.000000,-0.012298,-0.001187,-0.063331,0.064062,-0.035721,...,-0.006225,0.073802,-0.000540,0.040167,0.042837,-0.008171,0.014769,0.027448,0.008766,0.068058
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
D1772,0.011817,0.234814,0.017283,0.021355,-0.008171,-0.118609,0.165540,-0.140998,-0.010961,0.143035,...,0.580641,0.329251,0.552293,0.562141,0.289023,1.000000,0.249335,0.101371,0.422945,0.262122
D1773,0.029445,0.096729,0.023722,0.053000,0.014769,-0.097684,0.114388,-0.092395,0.021939,0.092533,...,0.430405,0.228236,0.214677,0.248383,0.243572,0.249335,1.000000,0.325325,0.293441,0.333455
D1774,0.005669,0.164529,0.043174,0.142170,0.027448,-0.105049,0.124192,-0.089671,0.024235,0.087579,...,0.394892,0.295706,0.156499,0.305436,0.148392,0.101371,0.325325,1.000000,0.300667,0.411980
D1775,0.048571,0.237026,0.027019,0.008959,0.008766,-0.137316,0.144459,-0.096429,0.019008,0.121252,...,0.548875,0.376011,0.403716,0.483157,0.368829,0.422945,0.293441,0.300667,1.000000,0.182508


Найдем и удалим наболее корреляющих между собой признаков

In [None]:
corr_abs = corr.abs().drop("Activity", axis=1)

In [None]:
count_top = 10
correlated_features = []

for column in corr_abs.columns:
  correlated_feature = corr_abs.nlargest(count_top, column)[column]
  correlated_features.append([column, correlated_feature])

In [None]:
porog = 0.5
drop_colum = []

for item in correlated_features:
  for colum in item[1].index:
    if colum != item[0]:
       colum_last = item[1][colum]
       if colum_last > porog and not colum in drop_colum:
        drop_colum.append(colum)

In [None]:
len(drop_colum)

1380

In [None]:
data = data.drop(drop_colum, axis=1)
data

Unnamed: 0,Activity,D27,D34,D37,D38,D51,D52,D58,D72,D81,...,D1670,D1675,D1679,D1687,D1692,D1719,D1726,D1756,D1760,D1773
0,1,1,0.00000,0.00,0.162383,0,1.000000,0.133438,0,0.0,...,0,0,0,0,0,0,0,0,0,0
1,1,0,0.16958,0.00,0.119104,0,0.578947,0.191837,0,0.0,...,0,1,0,0,0,0,0,0,0,0
2,1,0,0.03930,0.00,0.076100,1,1.000000,0.000000,0,0.0,...,0,0,0,0,0,0,0,0,0,0
3,1,0,0.00000,0.00,0.068900,0,1.000000,0.000000,0,0.0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0.00000,0.00,0.019900,0,1.000000,0.000000,0,0.0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3746,1,1,0.00000,0.00,0.223324,0,1.000000,0.000000,0,0.0,...,0,0,0,0,0,0,0,0,0,0
3747,1,0,0.08000,0.00,0.101137,1,0.608696,0.011300,0,0.0,...,0,0,0,0,0,0,1,0,0,1
3748,0,0,0.06200,0.00,0.019900,1,1.000000,0.044400,0,0.0,...,0,0,0,0,0,0,0,0,0,0
3749,1,1,0.08590,0.25,0.000000,1,1.000000,0.023600,0,0.0,...,0,0,0,0,0,0,0,0,0,0


Найдем наиболее коррелиющие признаки с Activit

In [None]:
topColumns = data.corr('pearson').abs()["Activity"].nlargest(100)
topColumns

Activity    1.000000
D27         0.472340
D979        0.198301
D1036       0.193792
D1061       0.176234
              ...   
D1010       0.056660
D1179       0.056625
D971        0.056513
D1071       0.056505
D1181       0.056421
Name: Activity, Length: 100, dtype: float64

**Упражнение 2: Создание и обучение моделей**

2.1. Создайте нейронную сеть для задачи классификации. Определите архитектуру сети (количество слоев, количество нейронов в каждом слое, функции активации и т.д.).



In [None]:
import tensorflow as tf
# Определение архитектуры сети
n_inputs = 396
n_hidden1 = 200
n_hidden2 = 100
n_hidden3 = 10
n_outputs = 1

# Создание модели
X = tf.keras.layers.Input(shape=(n_inputs,))
hidden1 = tf.keras.layers.Dense(n_hidden1, activation='relu')(X)
hidden2 = tf.keras.layers.Dense(n_hidden2, activation='relu')(hidden1)
hidden3 = tf.keras.layers.Dense(n_hidden3, activation='relu')(hidden2)
outputs = tf.keras.layers.Dense(n_outputs, activation='sigmoid')(hidden3)
model = tf.keras.models.Model(inputs=X, outputs=outputs)

In [None]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

2.2. Обучите модель классификации на выбранном наборе данных. Обратите внимание на выбор функции потерь и оптимизатора.



In [None]:
from sklearn.model_selection import train_test_split
y = data["Activity"]
x = data.drop("Activity", axis=1)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, train_size=0.7)

In [None]:
history = model.fit(x_train, y_train, epochs=10, validation_data=(x_test, y_test))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


2.3. Создайте нейронную сеть для задачи регрессии. Определите архитектуру сети.



In [None]:
# Определение архитектуры сети
n_inputs = 396
n_hidden1 = 200
n_hidden2 = 100
n_hidden3 = 10
n_outputs = 1

# Создание модели
X = tf.keras.layers.Input(shape=(n_inputs,))
hidden1 = tf.keras.layers.Dense(n_hidden1, activation='relu')(X)
hidden2 = tf.keras.layers.Dense(n_hidden2, activation='relu')(hidden1)
hidden3 = tf.keras.layers.Dense(n_hidden3, activation='relu')(hidden2)
outputs = tf.keras.layers.Dense(n_outputs, activation='linear')(hidden3)
model_reg = tf.keras.models.Model(inputs=X, outputs=outputs)

In [None]:
model_reg.compile(loss='mean_squared_error', optimizer='adam')

2.4. Обучите модель регрессии на выбранном наборе данных.



In [None]:
history = model_reg.fit(x_train, y_train, epochs=10, validation_data=(x_test, y_test))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


**Упражнение 3: Оценка моделей**

3.1. Оцените производительность модели классификации, используя подходящие метрики (например, точность, recall, precision, F1-score).



In [None]:
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score

# Предсказание модели
y_pred = model.predict(x_test)
y_pred = (y_pred > 0.5) # преобразование вероятностей в бинарные метки

# Оценка модели
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print('Accuracy: %.2f' % (accuracy*100))
print('Recall: %.2f' % (recall*100))
print('Precision: %.2f' % (precision*100))
print('F1-score: %.2f' % (f1*100))

Accuracy: 74.07
Recall: 79.61
Precision: 74.77
F1-score: 77.12


3.2. Оцените производительность модели регрессии, используя подходящие метрики (например, среднеквадратическая ошибка, средняя абсолютная ошибка).



In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error

# Предсказание модели
y_pred = model.predict(x_test)

# Оценка модели
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print('Mean Squared Error: %.2f' % mse)
print('Mean Absolute Error: %.2f' % mae)

Mean Squared Error: 0.20
Mean Absolute Error: 0.27


**Упражнение 4: Интерпретация результатов**

4.1. Интерпретируйте результаты модели классификации. Какие классы модель предсказывает хорошо, а какие - плохо? Есть ли какие-то интересные выводы, которые можно сделать на основе ошибок модели?




Результаты показывают, что модель регрессии имеет точность примерно 74.78%. Это означает, что модель правильно предсказывает 74.78% случаев.

Recall (полнота) составляет 77.54%, что означает, что из всех реальных положительных случаев модель смогла правильно идентифицировать 77.54%.

Precision (точность) составляет 76.29%, что означает, что из всех случаев, которые модель предсказала как положительные, 76.29% действительно были положительными.

F1-score является средним гармоническим между точностью и полнотой и составляет 76.91%. Это хороший показатель.

Среднеквадратическая ошибка (MSE) составляет 0.20, а средняя абсолютная ошибка (MAE) - 0.27. Это показывает, насколько велика ошибка между предсказанными и реальными значениями. Чем ниже эти значения, тем лучше.

В целом, модель справляется довольно хорошо с предсказанием значений зависимой переменной, но есть некоторая ошибка. Без дополнительной информации о данных и о том, какая ошибка приемлема для вашего конкретного случая, сложно сказать, есть ли какие-то особенности в данных, которые модель улавливает или пропускает.

4.2. Интерпретируйте результаты модели регрессии. Как модель справляется с различными значениями зависимой переменной? Есть ли какие-то особенности в данных, которые модель улавливает или пропускает?



Результаты показывают, что модель нейронной сети обучается и улучшает свою точность на обучающем наборе данных с каждой эпохой. Однако, точность на валидационном наборе данных начинает ухудшаться после второй эпохи, что указывает на переобучение модели.

Переобучение происходит, когда модель слишком хорошо подстраивается под обучающие данные и начинает "запоминать" их, вместо того чтобы "учиться" общим паттернам. Это приводит к тому, что модель плохо справляется с новыми, ранее не виденными данными.

Чтобы бороться с переобучением, вы можете попробовать следующие стратегии:

Регуляризация: Добавьте слой регуляризации в вашу модель, чтобы ограничить величину весов. Это поможет предотвратить переобучение, делая модель менее сложной.

Увеличение набора данных: Если возможно, добавьте больше данных в ваш обучающий набор. Больше данных помогут модели лучше обобщить и уменьшить вероятность переобучения.

Ранняя остановка: Остановите обучение, когда точность на валидационном наборе данных начинает ухудшаться. Это можно сделать с помощью колбеков в Keras.

Dropout: Это техника, при которой случайным образом выбранные нейроны игнорируются во время обучения. Это помогает предотвратить переобучение, так как это заставляет модель распределять информацию по всей сети, а не полагаться на небольшое количество нейронов.

**Упражнение 5: Улучшение моделей**

5.1. Попробуйте улучшить производительность модели классификации. Вы можете попробовать различные архитектуры сети, использовать различные методы предварительной обработки данных, использовать техники регуляризации или увеличение данных и т.д.



In [None]:
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.regularizers import l2

# Определение архитектуры сети
n_inputs = 396
n_hidden1 = 200
n_hidden2 = 100
n_hidden3 = 10
n_outputs = 1

# Создание модели
X = tf.keras.layers.Input(shape=(n_inputs,))
hidden1 = tf.keras.layers.Dense(n_hidden1, activation='relu', kernel_regularizer=l2(0.01))(X)
hidden1 = tf.keras.layers.Dropout(0.5)(hidden1)
hidden2 = tf.keras.layers.Dense(n_hidden2, activation='relu', kernel_regularizer=l2(0.01))(hidden1)
hidden2 = tf.keras.layers.Dropout(0.5)(hidden2)
hidden3 = tf.keras.layers.Dense(n_hidden3, activation='relu', kernel_regularizer=l2(0.01))(hidden2)
hidden3 = tf.keras.layers.Dropout(0.5)(hidden3)
outputs = tf.keras.layers.Dense(n_outputs, activation='sigmoid')(hidden3)
model = tf.keras.models.Model(inputs=X, outputs=outputs)

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# Нормализация данных
scaler = StandardScaler()
x = scaler.fit_transform(x)

# Обучение модели с ранней остановкой
early_stopping = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=10)
model.fit(x_train, y_train, epochs=100, validation_data=(x_test, y_test), callbacks=[early_stopping])

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100


<keras.src.callbacks.History at 0x7c245b7a2680>

In [None]:
# Предсказание модели
y_pred = model.predict(x_test)
y_pred = (y_pred > 0.5) # преобразование вероятностей в бинарные метки

# Оценка модели
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print('Accuracy: %.2f' % (accuracy*100))
print('Recall: %.2f' % (recall*100))
print('Precision: %.2f' % (precision*100))
print('F1-score: %.2f' % (f1*100))

Accuracy: 75.75
Recall: 83.66
Precision: 75.04
F1-score: 79.11


In [None]:
# Предсказание модели
y_pred = model.predict(x_test)

# Оценка модели
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print('Mean Squared Error: %.2f' % mse)
print('Mean Absolute Error: %.2f' % mae)

Mean Squared Error: 0.18
Mean Absolute Error: 0.37


Модель улучшилась, но не намного