<a href="https://colab.research.google.com/github/Pestrdan/netology_research/blob/main/Keras/%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D0%B7%D1%80%D0%B5%D0%BD%D0%B8%D0%B5/CVML_12_HW2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dogs vs Cats

https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition

In [None]:
import cv2
import numpy as np
import tensorflow as tf
from tensorflow.keras.applications import vgg16

print(tf.__version__)
print(tf.executing_eagerly())

2.15.0
True


In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
!unzip drive/My\ Drive/test.zip

In [None]:
!unzip drive/My\ Drive/train.zip

## Функции загрузки данных

In [None]:
import os
from random import shuffle
from glob import glob

IMG_SIZE = (224, 224)  # размер входного изображения сети

train_files = glob('train/*.jpg')
test_files = glob('test/*.jpg')

# загружаем входное изображение и предобрабатываем
def load_image(path, target_size=IMG_SIZE):
    img = cv2.imread(path)[...,::-1]
    img = cv2.resize(img, target_size)
    return vgg16.preprocess_input(img)  # предобработка для VGG16

# функция-генератор загрузки обучающих данных с диска
def fit_generator(files, batch_size=128):
    batch_size = min(batch_size, len(files))
    while True:
        shuffle(files)
        for k in range(len(files) // batch_size):
            i = k * batch_size
            j = i + batch_size
            if j > len(files):
                j = - j % len(files)
            x = np.array([load_image(path) for path in files[i:j]])
            y = np.array([1.00 if os.path.basename(path).startswith('dog') else 0.00
                          for path in files[i:j]])
            yield (x, y)

# функция-генератор загрузки тестовых изображений с диска
def predict_generator(files):
    while True:
        for path in files:
            yield np.array([load_image(path)])

## Визуализируем примеры для обучения

## Загружаем предобученную модель

In [None]:
# base_model - объект класса keras.models.Model (Functional Model)
base_model = vgg16.VGG16(weights='imagenet',
                         include_top=False,
                         input_shape=(IMG_SIZE[0], IMG_SIZE[1], 3))

In [None]:
#base_model.summary()

## Добавляем полносвязный слой и dropout

In [None]:
# фиксируем все веса предобученной сети
for layer in base_model.layers:
    layer.trainable = False

x = base_model.layers[-5].output
x = tf.keras.layers.Flatten()(x)
x = tf.keras.layers.Dropout(0.3)(x)
x = tf.keras.layers.Dense(16, activation='relu')(x)
x = tf.keras.layers.Dense(8, activation='relu')(x)
x = tf.keras.layers.BatchNormalization()(x)
x = tf.keras.layers.Dense(1,  # один выход (бинарная классификация)
                          activation='sigmoid',  # функция активации
                          kernel_regularizer=tf.keras.regularizers.l1(1e-4))(x)

model = tf.keras.Model(inputs=base_model.input, outputs=x, name='dogs_vs_cats')

## Выводим архитектуру модели

In [None]:
#model.summary()

## Компилируем модель и запускаем обучение

In [None]:
model.compile(optimizer='adam',
              loss='binary_crossentropy',  # функция потерь binary_crossentropy (log loss
              metrics=['accuracy'])

In [None]:
val_samples = 5  # число изображений в валидационной выборке

shuffle(train_files)  # перемешиваем обучающую выборку
validation_data = next(fit_generator(train_files[:val_samples], val_samples))
train_data = fit_generator(train_files[val_samples:])  # данные читаем функцией-генератором

# запускаем процесс обучения
model.fit(train_data,
          steps_per_epoch=10,  # число вызовов генератора за эпоху
          epochs=20,  # число эпох обучения
          validation_data=validation_data)

In [None]:
model.save('cats-dogs-vgg16.hdf5')

In [None]:
for i in list_213:
  print(i)

## Предсказания на проверочной выборке

In [None]:
test_pred = model.predict(
    predict_generator(test_files), steps=len(test_files))

In [None]:
#test_pred

## Готовим данные для отправки

In [None]:
import re

In [None]:
id_l = []
for id in test_files:
  id_l.append(re.findall('(\d+).jpg$', id))

In [None]:
id_list = []
for x in id_l:
  id_list.append(x.pop())

In [None]:
#test_pred_list = []
#for i in test_pred:
  #test_pred_list.append(round(float(i), 1))

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame()

In [None]:
df['id'] = id_list

In [None]:
#df['label'] = test_pred_list

In [None]:
df['label'] = test_pred

In [None]:
df['id'] = df['id'].astype(int)

In [None]:
df = df.sort_values(by=['id'])

In [None]:
df.head()

In [None]:
df.to_csv('sample_submission.csv', index= False )