# Задание

Используя модуль **datasets** библиотеки **sklearn**, загрузите базу вин (`.load_wine()`).

Используя шаблон ноутбука, выполните загрузку, подготовку и предобработку данных. Обязательное условие: разделение данных на три выборки осуществляется по шаблону (изменять параметры подготовки данных запрещается)!

Проведите серию экспериментов и добейтесь максимальной точности классификации на тестовой выборке выше 94%.

---

С помощью метода `.summary()` зафиксируйте количество параметров созданной вами нейронной сети.


# Шаблон ноутбука

In [15]:

# Последовательная модель НС
from tensorflow.keras.models import Sequential

# Основные слои
from tensorflow.keras.layers import Dense, Activation, Dropout, BatchNormalization, Input

# Утилиты для to_categorical()
from tensorflow.keras import utils

# Алгоритмы оптимизации для обучения модели
from tensorflow.keras.optimizers import Adam

# Библиотека для работы с массивами
import numpy as np

# Отрисовка графиков
import matplotlib.pyplot as plt

# Разделение данных на выборки
from sklearn.model_selection import train_test_split

# Для загрузки датасета
from sklearn.datasets import load_wine

# Отрисовка изображений в ноутбуке, а не в консоли или файле
%matplotlib inline

##Описание базы

1. Датасет состоит из набора данных о винах и их классах.
2. Данные по одному вину хранятся в numpy-массиве `x_data`: (`13` параметров).
3. В датасете `3` класса вин: `y_data`.
4. Количество примеров: `178`.

In [16]:
x_data = load_wine()['data']              # Загрузка набора данных о винах
y_data = load_wine()['target']            # Загрузка классов вин

print('Размерность x_data -', x_data.shape)
print('Размерность y_data -', y_data.shape)
print()

# Вывод примера данных
print('Данные по первому вину:',x_data[0])
print('Класс вина:',y_data[0])

Размерность x_data - (178, 13)
Размерность y_data - (178,)

Данные по первому вину: [1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
 2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]
Класс вина: 0


## Подготовка данных

In [17]:
# Перевод в one hot encoding
y_data = utils.to_categorical(y_data, 3)

# Разбиение наборов на общую и тестовую выборки
x_all, x_test, y_all, y_test = train_test_split(x_data,
                                                y_data,
                                                test_size=0.1,
                                                shuffle=True,
                                                random_state = 6)

# Разбиение общей выборки на обучающую и проверочную
x_train, x_val, y_train, y_val = train_test_split(x_all,
                                                  y_all,
                                                  test_size=0.1,
                                                  shuffle=True,
                                                  random_state = 6)

print(x_train.shape)
print(y_train.shape)
print()
print(x_val.shape)
print(y_val.shape)

(144, 13)
(144, 3)

(16, 13)
(16, 3)


# Лабораторная работа № 3.

--------

**Выполнил:** Маковеев Никита Владимирович.

--------------------

In [18]:
# давайте немного посмотрим на структуру целевоего признака

y_test[:5], x_train.shape[1]


(array([[1., 0., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [0., 1., 0.],
        [1., 0., 0.]]),
 13)

Как видно у нас всего 3 категории и 13 признаков. На последнем слое используем функцию softmax.

In [19]:
model = Sequential([
    Input((13,)),
    Dense(64),
    BatchNormalization(),
    Activation('relu'),
    Dropout(0.5),
    Dense(3, activation="softmax")
])
model.compile(optimizer="adam", loss="categorical_crossentropy", metrics=["accuracy"])


In [20]:
model.fit(
    x_train, y_train,
    epochs=100,
    batch_size=13,
    validation_data=(x_val, y_val),
    verbose=1
)

Epoch 1/100
[1m12/12[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 37ms/step - accuracy: 0.3932 - loss: 1.3050 - val_accuracy: 0.2500 - val_loss: 7.9388
Epoch 2/100
[1m12/12[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.5806 - loss: 0.8553 - val_accuracy: 0.2500 - val_loss: 5.6357
Epoch 3/100
[1m12/12[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.4597 - loss: 0.8426 - val_accuracy: 0.2500 - val_loss: 4.4297
Epoch 4/100
[1m12/12[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.5939 - loss: 0.8034 - val_accuracy: 0.2500 - val_loss: 3.6671
Epoch 5/100
[1m12/12[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 7ms/step - accuracy: 0.6898 - loss: 0.7271 - val_accuracy: 0.2500 - val_loss: 2.9298
Epoch 6/100
[1m12/12[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 8ms/step - accuracy: 0.6144 - loss: 0.8656 - val_accuracy: 0.2500 - val_loss: 2.2689
Epoch 7/100
[1m12/12[0m [32m━━

<keras.src.callbacks.history.History at 0x230ad906f60>

In [21]:
model.summary()

In [22]:


# Предсказания классов
y_pred = np.argmax(model.predict(x_test), axis=1)
y_test_cat = np.argmax(y_test, axis=1)
y_pred, 

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 74ms/step


(array([0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 2, 0, 1, 0, 0, 0], dtype=int64),)

In [23]:
import numpy as np
from sklearn.metrics import classification_report, confusion_matrix
# Метрики
print(classification_report(y_test_cat, y_pred))
print(confusion_matrix(y_test_cat, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         9
           1       1.00      1.00      1.00         8
           2       1.00      1.00      1.00         1

    accuracy                           1.00        18
   macro avg       1.00      1.00      1.00        18
weighted avg       1.00      1.00      1.00        18

[[9 0 0]
 [0 8 0]
 [0 0 1]]


## Итог
Ну, как видно нам удалось достичь 100% результата на тестовой выборке. Что конечное не является полной правдой, тк разрмер данных довольно маленький.

-----
Но с заданием поставленным в лабораторной работе модель справилась.

--------
Всего параметров модели 3,787