In [1]:
# Вспомогательные библиотеки
# Работа с датафреймом
import pandas as pd
# Линейная алгебра
import numpy as np
# Рисование графиков
import matplotlib.pyplot as plt
# Для логов
import datetime

In [2]:
# Tensorflow
import tensorflow as tf


In [3]:
# Keras
from tensorflow.python import keras
from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense, Flatten, Conv2D, Dropout
from tensorflow.python.keras.callbacks import ModelCheckpoint,EarlyStopping,TensorBoard

In [4]:
# Настройки генератора случайных чисел
from tensorflow import random
random.set_seed(31)
np.random.seed(31)

In [5]:
# sklearn
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

### Подготовка данных

In [6]:
# Считываем датасеты
train = pd.read_csv('data/fashion-mnist_train.csv')
test = pd.read_csv('data/fashion-mnist_test.csv')

In [7]:
# train-это датасет на котором мы будем тренировать модели
# test - это датасет на котором мы будем проверять качество наших моделей
train.shape,test.shape

((60000, 785), (10000, 785))

In [17]:
train.head()

Unnamed: 0,label,pixel1,pixel2,pixel3,pixel4,pixel5,pixel6,pixel7,pixel8,pixel9,...,pixel775,pixel776,pixel777,pixel778,pixel779,pixel780,pixel781,pixel782,pixel783,pixel784
0,2,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,9,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,6,0,0,0,0,0,0,0,5,0,...,0,0,0,30,43,0,0,0,0,0
3,0,0,0,0,1,2,0,0,0,0,...,3,0,0,0,0,1,0,0,0,0
4,3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [19]:
# Редактируем датафреймы.
# Тренировочный
x_train = train.drop('label',axis=1)/255
y_train = train['label']
# Тестовый
x_test = test.drop('label',axis=1)/255
y_test = test['label']

In [20]:
# Кодируем категориальный целевой признак в 0 или 1
# Создаем экземляр класса
encoder = OneHotEncoder()

In [21]:
# Вид до преобразования
y_train.head()

0    2
1    9
2    6
3    0
4    3
Name: label, dtype: int64

In [14]:
y_train_labels = encoder.fit_transform(np.reshape(np.array(y_train), (-1,1))).toarray()
y_test_labels = encoder.transform(np.reshape(np.array(y_test), (-1,1))).toarray()

In [22]:
# Вид после
y_train_labels[1]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 1.])

###  Логистическая регрессия


In [56]:
# Разделим тренировочные данные(x_train и y_train) еще раз на тренировочную
# и валидационную.
x_TRAIN, x_VALID, y_TRAIN, y_VALID = train_test_split(
    x_train,y_train_labels,test_size=0.2,
random_state = 31)

In [57]:
# Создаем модель
logistick_model = Sequential()
# Добавляем в нее полносвязный слой 
logistick_model.add(Dense(10, input_shape=(784,), activation='softmax'))

In [58]:
# Настраиваем процесс обучения
logistick_model.compile(loss='categorical_crossentropy',
                        optimizer='sgd',
                        metrics=['accuracy'])

In [59]:
# Создаем callbacks
# Остановка обучения если результат перестал улучшаться
early_stopping =  EarlyStopping(patience=3, monitor='val_loss')
# Tensorboard
# profile_batch чтобы не выскакивала ошибка профилировщика
tensorboard = TensorBoard(log_dir=f'Logs\\{datetime.datetime.now().strftime("%Y%m%d-%H%M%S")}',
                          profile_batch = 100000000)
callbacks = [early_stopping,tensorboard]

In [36]:
# # Загружаем веса модели из файла.
# logistick_model.load_weights('Logistic_model_stohastic_gradient.h5')
# # Проверяем на тестовых данных
# _, score = logistick_model.evaluate(x_test.values, y_test_labels)
# print("Логистическая регрессия   accuracy: {0:.3f}".format(score))


In [60]:
# # Обучаем модель
# logistick_model.fit(x_TRAIN.values, y_TRAIN, batch_size=500,
#                     validation_data=(x_VALID.values, y_VALID),
#                        callbacks=callbacks, epochs=1000)

Train on 48000 samples, validate on 12000 samples
Epoch 1/1000
Epoch 2/1000
Epoch 3/1000
Epoch 4/1000
Epoch 5/1000
Epoch 6/1000
Epoch 7/1000
Epoch 8/1000
Epoch 9/1000
Epoch 10/1000
Epoch 11/1000
Epoch 12/1000
Epoch 13/1000
Epoch 14/1000
Epoch 15/1000
Epoch 16/1000
Epoch 17/1000
Epoch 18/1000
Epoch 19/1000
Epoch 20/1000
Epoch 21/1000
Epoch 22/1000
Epoch 23/1000
Epoch 24/1000
Epoch 25/1000
Epoch 26/1000
Epoch 27/1000
Epoch 28/1000
Epoch 29/1000
Epoch 30/1000
Epoch 31/1000
Epoch 32/1000
Epoch 33/1000
Epoch 34/1000
Epoch 35/1000
Epoch 36/1000
Epoch 37/1000
Epoch 38/1000
Epoch 39/1000
Epoch 40/1000
Epoch 41/1000
Epoch 42/1000
Epoch 43/1000
Epoch 44/1000
Epoch 45/1000
Epoch 46/1000
Epoch 47/1000
Epoch 48/1000
Epoch 49/1000
Epoch 50/1000
Epoch 51/1000
Epoch 52/1000
Epoch 53/1000
Epoch 54/1000


Epoch 55/1000
Epoch 56/1000
Epoch 57/1000
Epoch 58/1000
Epoch 59/1000
Epoch 60/1000
Epoch 61/1000
Epoch 62/1000
Epoch 63/1000
Epoch 64/1000
Epoch 65/1000
Epoch 66/1000
Epoch 67/1000
Epoch 68/1000
Epoch 69/1000
Epoch 70/1000
Epoch 71/1000
Epoch 72/1000
Epoch 73/1000
Epoch 74/1000
Epoch 75/1000
Epoch 76/1000
Epoch 77/1000
Epoch 78/1000
Epoch 79/1000
Epoch 80/1000
Epoch 81/1000
Epoch 82/1000
Epoch 83/1000
Epoch 84/1000
Epoch 85/1000
Epoch 86/1000
Epoch 87/1000
Epoch 88/1000
Epoch 89/1000
Epoch 90/1000
Epoch 91/1000
Epoch 92/1000
Epoch 93/1000
Epoch 94/1000
Epoch 95/1000
Epoch 96/1000
Epoch 97/1000
Epoch 98/1000
Epoch 99/1000
Epoch 100/1000
Epoch 101/1000
Epoch 102/1000
Epoch 103/1000
Epoch 104/1000
Epoch 105/1000
Epoch 106/1000
Epoch 107/1000


Epoch 108/1000
Epoch 109/1000
Epoch 110/1000
Epoch 111/1000
Epoch 112/1000
Epoch 113/1000
Epoch 114/1000
Epoch 115/1000
Epoch 116/1000
Epoch 117/1000
Epoch 118/1000
Epoch 119/1000
Epoch 120/1000
Epoch 121/1000
Epoch 122/1000
Epoch 123/1000
Epoch 124/1000
Epoch 125/1000
Epoch 126/1000
Epoch 127/1000
Epoch 128/1000
Epoch 129/1000
Epoch 130/1000
Epoch 131/1000
Epoch 132/1000
Epoch 133/1000
Epoch 134/1000
Epoch 135/1000
Epoch 136/1000
Epoch 137/1000
Epoch 138/1000
Epoch 139/1000
Epoch 140/1000
Epoch 141/1000
Epoch 142/1000
Epoch 143/1000
Epoch 144/1000
Epoch 145/1000
Epoch 146/1000
Epoch 147/1000
Epoch 148/1000
Epoch 149/1000
Epoch 150/1000
Epoch 151/1000
Epoch 152/1000
Epoch 153/1000
Epoch 154/1000
Epoch 155/1000
Epoch 156/1000
Epoch 157/1000
Epoch 158/1000
Epoch 159/1000
Epoch 160/1000
Epoch 161/1000


Epoch 162/1000
Epoch 163/1000
Epoch 164/1000
Epoch 165/1000
Epoch 166/1000
Epoch 167/1000
Epoch 168/1000
Epoch 169/1000
Epoch 170/1000
Epoch 171/1000
Epoch 172/1000
Epoch 173/1000
Epoch 174/1000
Epoch 175/1000
Epoch 176/1000
Epoch 177/1000
Epoch 178/1000
Epoch 179/1000
Epoch 180/1000
Epoch 181/1000
Epoch 182/1000
Epoch 183/1000
Epoch 184/1000
Epoch 185/1000
Epoch 186/1000
Epoch 187/1000
Epoch 188/1000
Epoch 189/1000
Epoch 190/1000
Epoch 191/1000
Epoch 192/1000
Epoch 193/1000
Epoch 194/1000
Epoch 195/1000
Epoch 196/1000
Epoch 197/1000
Epoch 198/1000
Epoch 199/1000
Epoch 200/1000
Epoch 201/1000
Epoch 202/1000
Epoch 203/1000
Epoch 204/1000
Epoch 205/1000
Epoch 206/1000
Epoch 207/1000
Epoch 208/1000
Epoch 209/1000
Epoch 210/1000
Epoch 211/1000
Epoch 212/1000
Epoch 213/1000
Epoch 214/1000


Epoch 215/1000
Epoch 216/1000
Epoch 217/1000
Epoch 218/1000
Epoch 219/1000
Epoch 220/1000
Epoch 221/1000
Epoch 222/1000
Epoch 223/1000
Epoch 224/1000
Epoch 225/1000
Epoch 226/1000
Epoch 227/1000
Epoch 228/1000
Epoch 229/1000
Epoch 230/1000
Epoch 231/1000
Epoch 232/1000
Epoch 233/1000
Epoch 234/1000
Epoch 235/1000
Epoch 236/1000
Epoch 237/1000
Epoch 238/1000
Epoch 239/1000
Epoch 240/1000
Epoch 241/1000
Epoch 242/1000
Epoch 243/1000
Epoch 244/1000
Epoch 245/1000
Epoch 246/1000
Epoch 247/1000
Epoch 248/1000
Epoch 249/1000
Epoch 250/1000
Epoch 251/1000
Epoch 252/1000
Epoch 253/1000
Epoch 254/1000
Epoch 255/1000
Epoch 256/1000
Epoch 257/1000
Epoch 258/1000
Epoch 259/1000
Epoch 260/1000
Epoch 261/1000
Epoch 262/1000
Epoch 263/1000
Epoch 264/1000
Epoch 265/1000
Epoch 266/1000
Epoch 267/1000


Epoch 268/1000
Epoch 269/1000
Epoch 270/1000
Epoch 271/1000
Epoch 272/1000
Epoch 273/1000
Epoch 274/1000
Epoch 275/1000


<tensorflow.python.keras.callbacks.History at 0x23e3ed0bc8>

In [61]:
# # # Сохраняем  полученные веса модели
# logistick_model.save_weights('Logistic_model_stohastic_gradient.h5',
#                              save_format ='h5')

### График качества модели(метрика accuracy) на тренировочной и  валидационной выборках в зависимости от количества эпох.


<img src ='data\logistick_model_accuracy.jpg'>

### Проверяем качество модели на тестовой выборке

In [69]:
_, score = logistick_model.evaluate(x_test.values, y_test_labels)
print("Логистическая регрессия \nAccuracy на тестовой выборке равна: {0:.4f}".format(score))

Логистическая регрессия 
Accuracy на тестовой выборке равна: 0.8503


Наша модель показывает похожие результаты как валидационной выборке, так и на тестовой. Что может говорить о том что она не переобучилась на тренировочных данных.