![1386351973_2067112755.jpg](attachment:a2489325-7c9c-4832-b756-246477150a33.jpg)
## Классификация модели автомобиля по фотографии(EfficientNetB5). Car model detection.
( проект Ford vs Ferrari "Skillfactory.ru")

#### Задача
Необходимо создать модель компьютерного зрения, которая будет предсказывать модель автомобиля по его фотографии.   
#### Исходные данные   
Используем фотографии машин у нас их более 16 тыс.(предварительно поделенные на 10 категории)  
#### Реализация  
В данном ноутбуке я провел разведывательный анализ данных и дополнил его фотографиями редких моделей (парсинг с avto.ru).  
Использовал аугментацию данных (Albumentations)  и TTA (Test Time Augmentation).
Проэксперемнтировал с построением  предобученной нейросети  Xception.  
Построил сверточную нейросеть CNN на базе SOTA архитектуры сетей - EfficientNetB5, B0, B3.

In [None]:
!nvidia-smi

In [1]:
# Загружаем обвязку под keras для использования продвинутых библиотек аугментации, например, albuminations
!pip install git+https://github.com/mjkvaak/ImageDataAugmentor update tensorflow -q
    
# Загружаем  более новые и эффективные модели    
!pip install -U keras-efficientnet-v2 -q

In [2]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import plotly.express as px
import PIL
from PIL import ImageOps, ImageFilter, Image

import tensorflow as tf
from tensorflow.keras.preprocessing import image
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.callbacks import LearningRateScheduler, ModelCheckpoint,EarlyStopping, ReduceLROnPlateau
from tensorflow.keras.applications.xception import Xception
from tensorflow.keras import optimizers
from tensorflow.keras.layers import *
from tensorflow.keras.applications.efficientnet import EfficientNetB0, EfficientNetB5, EfficientNetB3
import keras_efficientnet_v2
from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.models import load_model
import albumentations as a
from ImageDataAugmentor.image_data_augmentor import *

import sys, pickle,zipfile, os, csv
from IPython.display import FileLink

from sklearn.model_selection import train_test_split, StratifiedKFold

from pylab import rcParams
rcParams['figure.figsize'] = 10,5
#графики в svg выглядят более четкими
%config InlineBackend.figure_format = 'svg' 
%matplotlib inline
import warnings; warnings.simplefilter('ignore')

In [3]:
#Фунции
def plot_cars(train_df,columns, class_car=[1]):
    '''Печать 9 случайных картинок, с возможностью  вывода определенного класса '''
    random_image = train_df[train_df[columns].isin(class_car)].sample(9)
    random_paths = random_image.Id.values
    random_category = random_image.Category.values.astype(int)
    plt.figure(figsize =(12,8))
    for index, path in enumerate(random_paths):
            image = PIL.Image.open(PATH + 'train/'+path)
            plt.subplot(3,3, index+1)
            plt.imshow(image)
            plt.title(class_cars[random_category[index]])
            plt.text(-50,1,image.size, fontsize=8, rotation='vertical', #размер картинки
                va='top')
#             plt.text(1,image.size[1]+30,path, va='center') #директория
            plt.axis('Off')
#             print(path)
            if 'False_score' in random_image.columns:
                category_score = random_image.Category_score.values.astype(int)
                plt.text(-50,-20,class_cars[category_score[index]], 
                fontsize=7, va='top', color='r')
    return plt.show()

In [4]:
print(os.listdir('../input'))
print(sys.version.split('\n')[0])
print(np.__version__)
print(np.__version__)

In [5]:
!pip freeze > requirements.txt

In [6]:
tf.keras.backend.clear_session()

# 0. Setup

In [7]:
EPOCHS = 3
BATCH_SIZE = 2
CLASS_NUM = 10
IMG_SIZE = 320
IMG_CHANNELS = 3
LR = 1e-5
VAL_SPLIT = 0.15
input_shape = (IMG_SIZE, IMG_SIZE,IMG_CHANNELS)


DATA_PATH = '../input//sf-dl-car-classification/'
PATH = '../working/car/'

os.makedirs(PATH,exist_ok=False)
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)
PYTHONHASHSEED = 0

In [8]:
#добавим народные названия категориям моделей машин
class_cars = [
  'Приора', #0
  'Ford Focus', #1
  'Четырнадцатая', #2
  'Десятка', #3
  'Жигули', #4
  'Нива', #5
  'Калина', #6
  'Девятка', #7
  'Volkswagen Passat', #8
  '99' #9
]

# 1. EDA / Анализ данных

In [9]:
train_df = pd.read_csv(DATA_PATH+"train.csv")
train_df['Category'] = train_df['Category'].astype(str)
train_df['Id'] = train_df.Category + '/' + train_df['Id'] #добавим название папки к названию фото

sample_submission = pd.read_csv(DATA_PATH+"sample-submission.csv")
print(train_df.shape)
train_df.head()
# учебный датасет небольшой.

In [10]:
train_df.info()

In [11]:
px.bar(train_df.Category.value_counts(), color = class_cars, title = 'Распределение моделей автомобилей в учебном наборе данных') 

In [12]:
#Распаковываем картинки
!unzip -q {DATA_PATH}train.zip -d{PATH} 
!unzip -q {DATA_PATH}test.zip -d{PATH} 

print(os.listdir(PATH))
print(f'Количество картинок в папке тест: {len(os.listdir(PATH+"/test_upload"))} шт.')

In [14]:
#Посмотрим на примеры картинок и их размеры чтоб понимать как их лучше обработать и сжимать.
plot_cars(train_df, 'Category',['3','9', '5', '1']) 


#### Предварительные итоги:
* Всего 22 236 фото в том числе: 15 561 в трейне и 6 675 в тесте.
* Категории вполне сбалансированны.
* Размеры разные от  360x337 до 640x480. Фот цветные снятые с телефона.
* Ингода на фотографиях присутствуют другие машины 
* Фото авто спереди наиболее непрезентативно. К примеру "девятка" и "99" не имеют в таком ракурсе отличий.
* Ввиду сильного сходства "девятки" и "99" фотографиий по этим классам должно быть больше.
* Одна и таже модель имеет разный тип кузова и поколение.


 **Проверим какие картинки наиболее сложны в обучении. Запустим первую модель на основе EfficientNetB5 с минимальными настройками и временем обучения.**  

In [None]:
# edagen = ImageDataGenerator(rescale = 1./255,
#                            horizontal_flip= True)
                            
# eda_datagen = edagen.flow_from_dataframe( # ссылки из датасета
#                 train_df,
#                 directory=PATH+'train/', 
#                 x_col='Id',
#                 y_col='Category',
#                 target_size=(IMG_SIZE, IMG_SIZE),
#                 batch_size=BATCH_SIZE,
#                 class_mode='categorical',
#                 shuffle=True #False перед предсказанием
#                 ) 
# base_model = EfficientNetB5(weights='imagenet', include_top=False, input_shape=input_shape)
# base_model.trainable = True

# model = Sequential()
# model.add(base_model)
# model.add(GlobalAveragePooling2D())
# model.add(Dense(CLASS_NUM, activation='softmax'))

# model.compile(loss="categorical_crossentropy", optimizer=optimizers.Adam(learning_rate=LR), metrics=["accuracy"])    

# history = model.fit(eda_datagen,
#                     steps_per_epoch = len(eda_datagen),
#                     epochs = EPOCHS
#                     )

# model.save('../working/model_eda.hdf5')
# from IPython.display import FileLink
# FileLink(r'./model_eda.hdf5') # для сохранения на локальный компьютер

In [None]:
# score = np.argmax(model.predict(eda_datagen, verbose=1),axis=1) #посчитаем оценки модели EfficientNetB5
# train_df['Category_score'] = score.astype(str)
# train_df['False_score'] = train_df['Category_score']==train_df['Category']
# # false_score = train_df['False_score'].value_counts()[1]
# # print(f'Модель ошиблась на {false_score} фотографиях')
# px.bar(train_df.query('False_score == False').Category.value_counts(sort=False),
#        color = class_cars, title = 'Распределение ошибок по классам автомобилей, модель EfficientNetB5') #посмотрим на каких классах больше ошибок


In [None]:
#Посмотрим на проблемные фотографии 
# plot_cars(train_df.query('Category==["4", "5"]'), 'False_score',[False])

![image.png](attachment:b73924f4-dfff-4a0d-9c6e-b1016440f67c.png)


За 3 эпохи обучения модель дала 93% правильных ответов.  
***Основные проблемы с исходными данными:***  
1. ***"Девятка" и "99"*** создают 3/4 проблем. Попробую добавить еще данных по этим моделям.
2. Явные ошибки в разметке классов. Возможно специально сделано организаторами. 
3. Аварийные машины, где груда металолома
4. Две машины на 1 фотографии
5. Левые модели (Газон, газель, шнива, митсубиши). Возможно специально подмешано организаторами.
6. Тюнинг
7. Focus хэтчбэк
8. Старый Passat

Решил удалить фотографии не соответствующие классам, вручную просмотрел все фотографии которые модель не смогла идентифицировать правильно.

Решил добавить еще фотографий с auto.ru:  
1. Девятки 
2. 99
3. Шнива будет Нива
4. Калина
5. Старый passat
6. Focus хэтчбэк
7. Приора универсал  
Парсинг с удалением дублирующихся фоток https://colab.research.google.com/drive/1Gvkksn87V3g6IMVHnaFJWo2iYfN0DGTc#scrollTo=kSK_GCArKbfC  
Датасет на 3000 картинок: Ограничения Kaggle на 1000 файлов в датасете подпортили все планы. 
    1. 99 https://www.kaggle.com/mikhailperebatov/db-vaz-99  
    2. Девятка https://www.kaggle.com/mikhailperebatov/db-vaz-09  
    3. Остальные  https://www.kaggle.com/mikhailperebatov/dbvaz-focus  


In [None]:
#Очистим датасет от неправильно размеченных фотографий(72 шт.). 
remove_cars = pd.read_csv('../input/remove2/remove_cars.csv', names=['remove'])
for image in remove_cars.remove.values:
    os.remove(PATH+'train/'+image)

In [None]:
#Дополняем новыми данными наш датасет. 
!ls -1 /kaggle/input/dbvaz-focus/db_VAZ_FOCUS/0/ | xargs -i cp /kaggle/input/dbvaz-focus/db_VAZ_FOCUS/0/{} /kaggle/working/car/train/0/
!ls -1 /kaggle/input/dbvaz-focus/db_VAZ_FOCUS/1/ | xargs -i cp /kaggle/input/dbvaz-focus/db_VAZ_FOCUS/1/{} /kaggle/working/car/train/1/
!ls -1 /kaggle/input/dbvaz-focus/db_VAZ_FOCUS/5/ | xargs -i cp /kaggle/input/dbvaz-focus/db_VAZ_FOCUS/5/{} /kaggle/working/car/train/5/
!ls -1 /kaggle/input/dbvaz-focus/db_VAZ_FOCUS/6/ | xargs -i cp /kaggle/input/dbvaz-focus/db_VAZ_FOCUS/6/{} /kaggle/working/car/train/6/
!ls -1 /kaggle/input/db-vaz-09/7/ | xargs -i cp /kaggle/input/db-vaz-09/7/{} /kaggle/working/car/train/7/
!ls -1 /kaggle/input/dbvaz-focus/db_VAZ_FOCUS/8/ | xargs -i cp /kaggle/input/dbvaz-focus/db_VAZ_FOCUS/8/{} /kaggle/working/car/train/8/
!ls -1 /kaggle/input/db-vaz-99/9/ | xargs -i cp /kaggle/input/db-vaz-99/9/{} /kaggle/working/car/train/9/
print('OK')

# 2. Data

### Аугментация данных (Albumentations)

In [None]:
EPOCHS               = 8 
BATCH_SIZE           = 2   
LR                   = 1e-5
VAL_SPLIT            = 0.15 
IMG_SIZE             = 520  
IMG_CHANNELS         = 3
input_shape          = (IMG_SIZE, IMG_SIZE, IMG_CHANNELS)
PATH = '../working/car/'

In [None]:
#Аугментация данных
augmentations = a.Compose([a.HorizontalFlip(),# разворот по горизонтали
                          a.CLAHE(clip_limit=20.0, tile_grid_size=(11, 41),p=0.1),#понравился световой фильтр
                          a.OneOf([
                                a.CenterCrop(height=520, width=350),# обрезка фрагмента 520х350 с вероятностю 0,5. Против других машин в кадре и лишнего фона
                                a.CenterCrop(height=350, width=520),
                                ],p=0.5),
                          a.Cutout(always_apply=False, num_holes=10, max_h_size=40, max_w_size=40, p=0.4), #пустые фрагменты на картинке
                        
#                           a.CoarseDropout(max_width=40, max_height=40, p=0.2),#пустые фрагменты на картинке
                          a.Rotate(limit=20, interpolation=1, border_mode=4, value=None, mask_value=None, always_apply=False, p=0.5),
                          a.OneOf([
                            a.RandomBrightnessContrast(brightness_limit=0.3, contrast_limit=0.3),
                            a.RandomBrightnessContrast(brightness_limit=0.1, contrast_limit=0.1)
                          ],p=0.5),
                          a.GaussianBlur(p=0.05),
                          a.HueSaturationValue(p=0.5),
                          a.RGBShift(p=0.5),
                          a.FancyPCA(alpha=0.1, always_apply=False, p=0.5),
                          a.Resize(IMG_SIZE, IMG_SIZE)
                          ]) 


traingen = ImageDataAugmentor(rescale = 1./255,
                        augment=augmentations, 
                        seed=RANDOM_SEED,
                        validation_split=VAL_SPLIT)

testgen = ImageDataAugmentor(#rescale = 1./255,
                        seed=RANDOM_SEED,
                        validation_split=VAL_SPLIT) 

valgen = ImageDataGenerator(rescale = 1./255,)
# Test Time Augmentation (TTA)
subvalgen = ImageDataGenerator(rescale = 1./255,
                         horizontal_flip= True,
                         shear_range=15,
                         width_shift_range=0.1, 
                         height_shift_range=0.1,
                        )

### Генерация данных

In [None]:
train_datagen = traingen.flow_from_directory(
    PATH+'train/',     
    target_size=(IMG_SIZE, IMG_SIZE),
    batch_size=BATCH_SIZE,
    class_mode='categorical',
    shuffle=True, 
    subset='training') # обучающие данные

test_datagen = testgen.flow_from_directory(
    PATH+'train/',
    target_size=(IMG_SIZE, IMG_SIZE),
    batch_size=BATCH_SIZE,
    class_mode='categorical',
    shuffle=True,
    subset='validation') # данные проверки


valgen_generator = valgen.flow_from_dataframe(dataframe=sample_submission,
                                            directory=PATH+'test_upload/',
                                            x_col="Id",
                                            y_col=None,
                                            shuffle=False,
                                            class_mode=None,
                                            target_size=(IMG_SIZE, IMG_SIZE),
                                            batch_size=BATCH_SIZE)


# Test Time Augmentation (TTA)
val_sub_generator = subvalgen.flow_from_dataframe(dataframe=sample_submission,
                                            directory=PATH+'test_upload/',
                                            x_col="Id",
                                            y_col=None,
                                            shuffle=False,
                                            class_mode=None,
                                            target_size=(IMG_SIZE, IMG_SIZE),
                                            batch_size=BATCH_SIZE)

**Посмотрим как генерирует train_datagen**

In [None]:
x = val_sub_generator.next()
print('Пример картинок из train_generator')
plt.figure(figsize=(12,8))

for i in range(0,2):
    image = x[i]
    plt.subplot(1,2, i+1)
    plt.imshow(image)
#     plt.title(class_cars[list(y[i]).index(1)])
    plt.axis('off')
plt.show()

# 3. Model

Предобученная сеть Xception для модели с тонкой настройкой:
* Результат модели составила 94,45% при image_shape = (320,320) за 8 эпох.
* Разморозка сначала половины слоев, затем 75% и полностью, пошагово уменьшаяя learning rate - accuracy ухудшилась.

Эксперементы с  EfficientNetB0 и  EfficientNetB3 до конца не завершил, остановил досрочно так как после 4 эпох показатели выглядели хуже.  
Более обнадеживающей выглядит  модель: EfficientNetB5, Результат модели составил 95,18% при image_shape = (320,320) за 8 эпох.  
**Далле я дополнил данные и использовал EfficientNetB5 при image_shape = (520,520)**

In [None]:
tf.config.list_physical_devices('gpu') #позволяет проверить видит ли TF видеокарту

In [None]:
base_model = EfficientNetB5(weights='imagenet', include_top=False, input_shape=input_shape)
base_model.trainable = True
# Set new head
model = Sequential()
model.add(base_model)

# Add pooling layer
model.add(GlobalAveragePooling2D())

# And a final layer for 10 classes
model.add(Dense(CLASS_NUM, activation='softmax'))

# This is the model we will train
model.compile(loss="categorical_crossentropy", optimizer=optimizers.Adam(learning_rate=LR), 
              metrics=["accuracy"])

In [None]:
# Добавим функцию контрольной точки, чтобы сохранить лучшую модель
checkpoint = ModelCheckpoint('best_model.hdf5', 
                             monitor = ['val_accuracy'], 
                             verbose = 1,
                             mode = 'max'
                             #save_best_only=True 
                            )
# Добавим lr_scheduler (экспоненциально уменьшать скорость через 2 эпохи)
lr_scheduler = ReduceLROnPlateau(monitor='val_loss',
                              factor=0.2, # уменьшим lr в 5 раз
                              patience=5, # если нет улучшения через 7 эпохи - уменьшить lr
                              min_lr=0.0000001,
                              verbose=1,
                              mode='auto')
# Добавим раннюю остановку
earlystop = EarlyStopping(monitor = 'val_accuracy',
                          patience = 7,
                          restore_best_weights = True)

callbacks_list = [checkpoint, lr_scheduler, earlystop]

## Fit

In [None]:
#Загружаю веса своей модели 10
model.load_weights('../input/may-efficientnetb5-10epochs/best_model_efn5.hdf5')

In [None]:
# history = model.fit(
#         train_datagen,
#         steps_per_epoch = len(train_datagen),
#         validation_data = test_datagen, 
#         validation_steps = len(test_datagen),
#         epochs = EPOCHS,
#         callbacks = callbacks_list
# )

In [None]:
#Финальная модель считалась ~8 часов. при продолжениии обучения(12 эпох) , Accuracy только ухудшалось 
model.save('../working/model_1.hdf5')

In [None]:
scores = model.evaluate(test_datagen, steps=len(test_datagen), verbose=1)
print("Accuracy: %.2f%%" % (scores[1]*100))
# Accuracy: 94.42% с малым чмслом аугментаций переобучение произошле уже на 4 эпохе
# Accuracy: 94.05 с большим числом аугментаций 10 эпох

In [None]:
def plot_history(history):
    acc = history.history['accuracy']
    val_acc = history.history['val_accuracy']
    loss = history.history['loss']
    val_loss = history.history['val_loss']

    epochs = range(len(acc))

    plt.plot(epochs, acc, 'b', label='Training acc')
    plt.plot(epochs, val_acc, 'r', label='Validation acc')
    plt.title('Training and validation accuracy')
    plt.legend()

    plt.figure()

    plt.plot(epochs, loss, 'b', label='Training loss')
    plt.plot(epochs, val_loss, 'r', label='Validation loss')
    plt.title('Training and validation loss')
    plt.legend()
    return plt.show()
    

![ef _1_10.PNG](attachment:786977b6-5a2c-40a0-b0ae-224119e0ca1f.PNG)

## Model efficientnet_v2

In [None]:
# https://github.com/leondgarse/Keras_efficientnet_v2
base_model = keras_efficientnet_v2.EfficientNetV2M(input_shape=input_shape, drop_connect_rate=0.2, num_classes=0, pretrained="imagenet21k-ft1k")
base_model.trainable = True
# Set new head
model = Sequential()
model.add(base_model)

# Add pooling layer
model.add(GlobalAveragePooling2D())

# And a final layer for 10 classes
model.add(Dense(CLASS_NUM, activation='softmax'))

# This is the model we will train
model.compile(loss="categorical_crossentropy", optimizer=optimizers.Adam(learning_rate=LR), 
              metrics=["accuracy"])

In [None]:
# history = model.fit(
#         train_datagen,
#         steps_per_epoch = len(train_datagen),
#         validation_data = test_datagen, 
#         validation_steps = len(test_datagen),
#         epochs = EPOCHS,
#         callbacks = callbacks_list
# )

# scores = model.evaluate(test_datagen, steps=len(test_datagen), verbose=1)
# print("Accuracy: %.2f%%" % (scores[1]*100))

# #Финальная модель считалась ~8 часов. при продолжениии обучения(12 эпох) , Accuracy только ухудшалось 
# model.save('../working/model_2.hdf5')
# FileLink(r'./model_2.hdf5')
# plot_history(history)

![efficin_v2_graf.PNG](attachment:437a462d-00c6-4402-9aca-3ea46ad649d2.PNG)

# Submission

In [None]:
model_0 = load_model('../input/may-efficientnetb5-10epochs/model_eda.hdf5')
model_1 = load_model('../input/may-efficientnetb5-10epochs/best_model_efn5.hdf5')
model_2 = load_model('../input/may-efficientnetb5-10epochs/model_2_ef_v2.hdf5')

In [None]:
# # сделаем сабмит
# predictions = model.predict(valgen_generator, verbose=1).argmax(axis=1)
# submission = pd.DataFrame({
#     'Id': valgen_generator.filenames,
    
#     'Category': predictions
# }, columns=['Id', 'Category'])
# submission.to_csv('submission.csv', index=False)

In [None]:
# # сделаем 6 предсказаний с усреднением результата
# val_sub_generator.reset()
# predictions_tta = []
# for _ in range(6):
#     predictions_tta.append(model_2.predict(val_sub_generator, verbose=1))
#     val_sub_generator.reset()
# predictions_tta = np.mean(np.array(predictions_tta), axis=0).argmax(axis=1)
# submission_tta = pd.DataFrame({
#     'Id': val_sub_generator.filenames,
#     'Category': predictions_tta
# }, columns=['Id', 'Category'])
# # сделаем сабмит из 6
# submission_tta.to_csv('submission_tta.csv', index=False)


#### Ансамблирование

In [None]:
# val_sub_generator.reset()
# predictions_tta_ansemble = []
# # model_1 - много аугментаций, 8 эпох, EfficientNetB5, 520x520 дополнительные картинки
# # model_2 - много аугментаций, 8 эпох, EfficientNetV2M, 520x520, чистка датасета 
# for _ in range(4):
#     predictions_tta_ansemble.append(0.25*model_1.predict(val_sub_generator, verbose=1)\
#                                     +0.75*model_2.predict(val_sub_generator, verbose=1))
#     val_sub_generator.reset()
# predictions_tta_ansemble = np.mean(np.array(predictions_tta_ansemble), axis=0).argmax(axis=1)
# submission_tta_ansemble = pd.DataFrame({
#     'Id': val_sub_generator.filenames,
#     'Category': predictions_tta_ansemble
# }, columns=['Id', 'Category'])
# submission_tta_ansemble.to_csv('submission_tta_ansemble.csv', index=False)

In [None]:
# Clean PATH
# import shutil
# shutil.rmtree(PATH)

# Результаты:
* Ставка на обучение модели сложных  марок авто, таких как "99" и "девятка" и других редко встречаемые не оправдала надежд финальный score 96.45%. При этом на трейне Accuracy едва достигала 90.1% что говорит о том что в валидационной выборке в основном простые фотки.    
* Аугментации здесь нужно много, попробовав небольшое число простых аугментаций что приводит к быстрому  переобучению (см. картинку).  
* Применение модели на базе SOTA архитектуры сетей EfficientNetV2M с очсткой не верно размеченных данных дало - 97.063%.
* Добавление TTA (Test Time Augmentation) позволила увеличить точность предсказания для модели на основе EfficientNetV2M с 97.063% до **97.123%**.
* Применение метода ансамблирования EfficientNetB5 и EfficientNetV2M не улучшило итоговый показатель(96.913.) на соревновании в Кегле.

![ef _1_.png](attachment:0a7f5ac9-17b7-49ca-b146-895e04ce59f5.png)
 