## Юнит 9. Профориентация в Data Science
### Skillfactory: DSPR-19
### Проект 7. Возьмёте Бэтмобиль? 

### 1. Чем займёмся в этом проекте?
→ Поздравляем! Вы приступаете к выполнению финального проекта блока Профориентация, в котором вы сможете на практике поработать с задачами из всех трёх направлений — ML, CV и NLP.

За основу возьмем решение, которое нам уже известно, — построенную на табличных данных модель «Предсказание стоимости автомобиля» — и добавим туда модели Deep Learning, которые будут распознавать изображения и обрабатывать текст.

За последние несколько месяцев работы в компании «Старый друг» вы разработали две модели, которые уже успешно крутятся в продакшне и приносят деньги компании и радость сотрудникам (по словам Анны из отдела продаж).

→ Осталось довести свою работу до логичного завершения и, обогатив датасет текстовыми данными из объявлений о продаже, свести все наши модели в единое решение — Multi-inputs сеть. Приступим?

### КАК БУДЕМ РЕШАТЬ ПРОЕКТ?

### ПОСТРОИМ БАЗОВОЕ РЕШЕНИЕ:

- Шаг 1. Построим «наивную» ML-модель на табличных данных, которая предсказывает цену по модели и году выпуска. Это позволит нам задать направление для дальнейших экспериментов. Впоследствии на этом этапе вы можете доработать вашу модель из проекта «Выбираем авто выгодно». 
- Шаг 2. Обработаем и отнормируем признаки и сделаем первую модель на основе градиентного бустинга с помощью CatBoost.
- Шаг 3. Решим эту же задачу с помощью DL (модель NN Tabular) и сравним результаты.
- Шаг 4. Добавим текстовые данные (NLP) и сделаем Multi-Input нейронную сеть для анализа и табличных данных, и текста одновременно.
- Шаг 5. Добавим обработку изображений в Multi-Input нейронную сеть.
- Шаг 6. Осуществим ансамблирование градиентного бустинга и нейронной сети (усредним их предсказания).

### САМОСТОЯТЕЛЬНАЯ ЧАСТЬ

- Ознакомьтесь с критериями оценивания проекта.
- Следуйте нашим рекомендациям, чтобы построить самую лучшую модель.
- Задавайте вопросы одногруппникам и менторам в Slack.
- Загрузите итоговое решение на kaggle и добавьте описание проекта на git.  

На выполнение проекта отводится: две недели.

### ЧТО ВЫ ПОЛУЧИТЕ В РЕЗУЛЬТАТЕ ПРОЕКТА?

- Потренируетесь обрабатывать данные и оптимизировать NLP-модели.
- Пройдетесь по всему циклу разработки комплексной Multi-Inputs модели (от обработки данных до внедрения в продакшн).
- Увидите, как использование blend-решений влияет на целевые метрики.
- Примерите на себя роль специалиста каждого из трёх треков второго года обучения.



— Возьмете Бэтмобиль?  
— Нет. Слишком заметно.  
— Ну тогда возьмите Ламборгини. Это менее заметно.

### 2. Начнём с простой модели

Начнём с разработки baseline нашего решения и посмотрим, как происходит обращение с входящими данными и что нужно получить на выходе. 

По ссылке вы обнаружите baseline. 

СКАЧАТЬ BASELINE (https://github.com/luhakv/cv_ml_nlp/blob/master/baseline-sf-dst-car-price-part2-v6.ipynb)

Итак, наша задача — предсказать стоимость автомобиля по его характеристикам, текстовому описанию или картинке. 

Начнём знакомиться с baseline-решением. Как видим, данные не сильно отличаются от прежних:

bodyType — категориальный  
brand —  категориальный   
color —  категориальный  
description —  текстовый  
engineDisplacement — числовой, представленный как текст  
enginePower — числовой, представленный как текст  
fuelType — категориальный  
mileage —  числовой   
modelDate — числовой  
model_info — категориальный  
name — категориальный, желательно сократить размерность  
numberOfDoors — категориальный  
price — числовой, целевой  
productionDate — числовой  
sell_id — изображение (файл доступен по адресу, основанному на sell_id)  
vehicleConfiguration — не используется (комбинация других столбцов)  
vehicleTransmission — категориальный  
Владельцы — категориальный  
Владение — числовой, представленный как текст  
ПТС — категориальный  
Привод — категориальный  
Руль — категориальный  


Однако кое-что, скорее всего, придётся переделать, поскольку есть дополнительные столбцы. 

→ Переходим к построению самой простой «наивной» модели, которая предсказывает среднюю цену по модели автомобиля и году выпуска. Начинать решение всегда стоит именно с простой модели, чтобы понимать, куда вы движетесь — к улучшению или к ухудшению решения. Это сэкономит вам множество сил и ресурсов. 

Наша модель предсказывает среднее значение по стоимости относительно модели и года выпуска.



In [None]:
# Наивная модель
predicts = []
for index, row in pd.DataFrame(data_test[['model_info', 'productionDate']]).iterrows():
    query = f"model_info == '{row[0]}' and productionDate == '{row[1]}'"
    predicts.append(data_train.query(query)['price'].median())

# заполним не найденные совпадения
predicts = pd.DataFrame(predicts)
predicts = predicts.fillna(predicts.median())

# округлим
predicts = (predicts // 1000) * 1000

#оцениваем точность
print(f"Точность наивной модели по метрике MAPE: {(mape(data_test['price'], predicts.values[:, 0]))*100:0.2f}%")

### 3. EDA и модель на основе градиентного бустинга

На этом этапе нам важно посмотреть на распределение числовых признаков, опуская категориальные, поскольку задача этого шага — посмотреть, подходят ли данные для загрузки в сеть. 




In [None]:
#посмотрим, как выглядят распределения числовых признаков
def visualize_distributions(titles_values_dict):
  columns = min(3, len(titles_values_dict))
  rows = (len(titles_values_dict) - 1) // columns + 1
  fig = plt.figure(figsize = (columns * 6, rows * 4))
  for i, (title, values) in enumerate(titles_values_dict.items()):
    hist, bins = np.histogram(values, bins = 20)
    ax = fig.add_subplot(rows, columns, i + 1)
    ax.bar(bins[:-1], hist, width = (bins[1] - bins[0]) * 0.7)
    ax.set_title(title)
  plt.show()

visualize_distributions({
    'mileage': train['mileage'].dropna(),
    'modelDate': train['modelDate'].dropna(),
    'productionDate': train['productionDate'].dropna()
})

Распределение признаков ненормальное, поэтому их необходимо нормировать. 

Разбиваем на категориальные признаки и числовые:

In [None]:
#используем все текстовые признаки как категориальные без предобработки
categorical_features = ['bodyType', 'brand', 'color', 'engineDisplacement', 'enginePower', 'fuelType', 'model_info', 'name',
  'numberOfDoors', 'vehicleTransmission', 'Владельцы', 'Владение', 'ПТС', 'Привод', 'Руль']

#используем все числовые признаки
numerical_features = ['mileage', 'modelDate', 'productionDate']

Объединяем тренировочный и тестовый сеты:



In [None]:
train['sample'] = 1 # помечаем где у нас трейн
test['sample'] = 0 # помечаем где у нас тест
test['price'] = 0 # в тесте у нас нет значения price, мы его должны предсказать, по этому пока просто заполняем нулями

data = test.append(train, sort=False).reset_index(drop=True) # объединяем
print(train.shape, test.shape, data.shape)

Выполняем предобработку данных: удаляем лишнее, заполняем пропуски, если они есть, выполняем нормирование. На CatBoost это не должно повлиять. Наконец, выполняем Label Encoding или One-Hot Encoding.



In [None]:
def preproc_data(df_input):
    '''includes several functions to pre-process the predictor data.'''
    
    df_output = df_input.copy()
    
    # ################### 1. Предобработка ############################################################## 
    # убираем не нужные для модели признаки
    df_output.drop(['description','sell_id',], axis = 1, inplace=True)
    
    
    # ################### Numerical Features ############################################################## 
    # Далее заполняем пропуски
    for column in numerical_features:
        df_output[column].fillna(df_output[column].median(), inplace=True)
    # тут ваш код по обработке NAN
    # ....
    
    # Нормализация данных
    scaler = MinMaxScaler()
    for column in numerical_features:
        df_output[column] = scaler.fit_transform(df_output[[column]])[:,0]
    
    
    
    # ################### Categorical Features ############################################################## 
    # Label Encoding
    for column in categorical_features:
        df_output[column] = df_output[column].astype('category').cat.codes
        
    # One-Hot Encoding: в pandas есть готовая функция - get_dummies.
    df_output = pd.get_dummies(df_output, columns=categorical_features, dummy_na=False)
    # убираем признаки которые еще не успели обработать, 
    df_output.drop(['vehicleConfiguration'], axis = 1, inplace=True)
    
    return df_output


Запускаем и смотрим на чистые данные. 



In [None]:
df_preproc = preproc_data(data)
df_preproc.sample(10)

Мы получили целевую переменную price, дату производства, пробег, столбец с указанием принадлежности к тренировочному или тестовому наборам.   

Затем выделяем тестовую часть:



In [None]:
train_data = df_preproc.query('sample == 1').drop(['sample'], axis=1)
test_data = df_preproc.query('sample == 0').drop(['sample'], axis=1)

y = train_data.price.values     # наш таргет
X = train_data.drop(['price'], axis=1)
X_sub = test_data.drop(['price'], axis=1)

Теперь мы можем запустить уже не наивную модель, а построить модель на основе градиентного бустинга при помощи CatBoost. 



In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, shuffle=True, random_state=RANDOM_SEED)


In [None]:
model = CatBoostRegressor(iterations = 5000,
                          #depth=10,
                          #learning_rate = 0.5,
                          random_seed = RANDOM_SEED,
                          eval_metric='MAPE',
                          custom_metric=['RMSE', 'MAE'],
                          od_wait=500,
                          #task_type='GPU',
                         )
model.fit(X_train, y_train,
         eval_set=(X_test, y_test),
         verbose_eval=100,
         use_best_model=True,
         #plot=True
         )

Проверяем MAPE у тестовой части: 



In [None]:
test_predict_catboost = model.predict(X_test)
print(f"TEST mape: {(mape(y_test, test_predict_catboost))*100:0.2f}%")

Мы получили MAPE 13.23%. Это неплохой результат, поскольку CatBoost хорошо работает с небольшим количеством данных и множеством категориальных признаков.

Сохраняем submission: 

In [None]:
sub_predict_catboost = model.predict(X_sub)
sample_submission['price'] = sub_predict_catboost
sample_submission.to_csv('catboost_submission.csv', index=False)

### 4. Простая нейронная сеть

Перед построением Dense-модели проверим данные и убедимся в том, что их формат нам подходит:



In [None]:
X_train.head(5)

Полторы тысячи столбцов — это большое количество, но нейронные сети с таким объёмом справляются спокойно. Далее строим обычную Dense-сеть из трёх слоёв с дропаутами:

In [None]:
model = Sequential()
model.add(L.Dense(512, input_dim=X_train.shape[1], activation="relu"))
model.add(L.Dropout(0.5))
model.add(L.Dense(256, activation="relu"))
model.add(L.Dropout(0.5))
model.add(L.Dense(1, activation="linear"))

In [None]:
model.summary()

Компилируем модель:



In [None]:
optimizer = tf.keras.optimizers.Adam(0.01)
model.compile(loss='MAPE',optimizer=optimizer, metrics=['MAPE'])

Сохраняем чекпойнты и настраиваем EarlyStopping:



In [None]:
checkpoint = ModelCheckpoint('../working/best_model.hdf5' , monitor=['val_MAPE'], verbose=0  , mode='min')
earlystop = EarlyStopping(monitor='val_MAPE', patience=50, restore_best_weights=True,)
callbacks_list = [checkpoint, earlystop]

Запускаем обучение на 500 эпох. batch_size устанавливаем достаточно большого размера, поскольку данные занимают немного места.



In [None]:
history = model.fit(X_train, y_train,
                    batch_size=512,
                    epochs=500, # фактически мы обучаем пока EarlyStopping не остановит обучение
                    validation_data=(X_test, y_test),
                    callbacks=callbacks_list,
                    verbose=0,
                   )

Посмотрим на нашу сеть:



In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

Кривая обучения получилась достаточно ровной.

Не забываем сохранить:



In [None]:
model.load_weights('../working/best_model.hdf5')
model.save('../working/nn_1.hdf5')

И смотрим на MAPE:



In [None]:
test_predict_nn1 = model.predict(X_test)
print(f"TEST mape: {(mape(y_test, test_predict_nn1[:,0]))*100:0.2f}%")

Итак, простая нейронная сеть нам дала 14%.

Сохраняем submission:

In [None]:
sub_predict_nn1 = model.predict(X_sub)
sample_submission['price'] = sub_predict_nn1[:,0]
sample_submission.to_csv('nn1_submission.csv', index=False)

### КАК МОЖНО УЛУЧШИТЬ ЭТУ СЕТЬ?

1. В нейросеть желательно подавать данные с распределением, близким к нормальному, поэтому от некоторых числовых признаков имеет смысл перед нормализацией взять логарифм. 

Пример: 

In [None]:
modelDateNorm = np.log(2020 - data['modelDate'])

→ Статья по теме на Хабре (https://habr.com/ru/company/ods/blog/325422/). 

2. Извлечение числовых значений из текста. Парсинг признаков 'engineDisplacement', 'enginePower', 'Владение' для извлечения числовых значений.

3. Cокращение размерности категориальных признаков. Признак 'name' содержит данные, которые уже есть в других столбцах ('enginePower', 'engineDisplacement', 'vehicleTransmission'). Можно удалить эти данные. Затем можно ещё сильнее сократить размерность, например, выделив наличие xDrive в качестве отдельного признака.



### 5. Multi-Input сеть: табличные данные + текст

Вспомните, что вы узнали в модуле об NLP и обработке текста. Итак, у нас есть текстовое описание: 




In [None]:
data.description

Произведём токенизацию этого поля:



In [None]:
# TOKENIZER
# The maximum number of words to be used. (most frequent)
MAX_WORDS = 100000
# Max number of words in each complaint.
MAX_SEQUENCE_LENGTH = 256

И не забываем разбить данные: 



In [None]:
# split данных
text_train = data.description.iloc[X_train.index]
text_test = data.description.iloc[X_test.index]
text_sub = data.description.iloc[X_sub.index]

Создаём словарь — в Keras это занимает буквально пару строк:



In [None]:
%%time
tokenize = Tokenizer(num_words=MAX_WORDS)
tokenize.fit_on_texts(data.description)

In [None]:
tokenize.word_index

Благодаря получившемуся словарю мы сможем произвести дальнейшую векторизацию нашего текста. 



In [None]:
%%time
text_train_sequences = sequence.pad_sequences(tokenize.texts_to_sequences(text_train), maxlen=MAX_SEQUENCE_LENGTH)
text_test_sequences = sequence.pad_sequences(tokenize.texts_to_sequences(text_test), maxlen=MAX_SEQUENCE_LENGTH)
text_sub_sequences = sequence.pad_sequences(tokenize.texts_to_sequences(text_sub), maxlen=MAX_SEQUENCE_LENGTH)

print(text_train_sequences.shape, text_test_sequences.shape, text_sub_sequences.shape, )

Давайте посмотрим, как теперь выглядит наш текст:

In [None]:
print(text_train.iloc[6])
print(text_train_sequences[6])

Теперь строим сеть для обработки текста. Для простоты в примере используем LSTM:



In [None]:
model_nlp = Sequential()
model_nlp.add(L.Input(shape=MAX_SEQUENCE_LENGTH, name="seq_description"))
model_nlp.add(L.Embedding(len(tokenize.word_index)+1, MAX_SEQUENCE_LENGTH,))
model_nlp.add(L.LSTM(256, return_sequences=True))
model_nlp.add(L.Dropout(0.5))
model_nlp.add(L.LSTM(128,))
model_nlp.add(L.Dropout(0.25))
model_nlp.add(L.Dense(64, activation="relu"))
model_nlp.add(L.Dropout(0.25))

Обратите внимание, что эта сеть построена «без головы». Добавим ещё одну сеть — созданную нами ранее для табличных данных:



In [None]:
model_mlp = Sequential()
model_mlp.add(L.Dense(512, input_dim=X_train.shape[1], activation="relu"))
model_mlp.add(L.Dropout(0.5))
model_mlp.add(L.Dense(256, activation="relu"))
model_mlp.add(L.Dropout(0.5))

Нам осталось объединить их в Multi-Input сеть, то есть сеть, которая позволяет брать на вход несколько сетей и объединять их результаты. За объединение отвечает слой L.concatenate:

In [None]:
combinedInput = L.concatenate([model_nlp.output, model_mlp.output])
# being our regression head
head = L.Dense(64, activation="relu")(combinedInput)
head = L.Dense(1, activation="linear")(head)

model = Model(inputs=[model_nlp.input, model_mlp.input], outputs=head)

Кстати, существуют и сети с несколькими выходами, но наша задача на этом этапе — отработать построение сети с несколькими входами и одним выходом.

Смотрим, что у нас получилось:

In [None]:
model.summary()

Готовимся к обучению: настраиваем показатели, чекпойнты, EarlyStopping:



In [None]:
optimizer = tf.keras.optimizers.Adam(0.01)
model.compile(loss='MAPE',optimizer=optimizer, metrics=['MAPE'])

In [None]:
checkpoint = ModelCheckpoint('../working/best_model.hdf5', monitor=['val_MAPE'], verbose=0, mode='min')
earlystop = EarlyStopping(monitor='val_MAPE', patience=10, restore_best_weights=True,)
callbacks_list = [checkpoint, earlystop]

Важный момент при обучении — указать отдельно текстовые элементы и табличные, а для валидации не забыть указать несколько входов именно в той последовательности, которую мы установили ранее.



In [None]:
history = model.fit([text_train_sequences, X_train], y_train,
                    batch_size=512,
                    epochs=500, # фактически мы обучаем пока EarlyStopping не остановит обучение
                    validation_data=([text_test_sequences, X_test], y_test),
                    callbacks=callbacks_list
                   )

Проверим, как прошло обучение:



In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

Не забываем сохраняться. Затем смотрим на MAPE:



In [None]:
test_predict_nn2 = model.predict([text_test_sequences, X_test])
print(f"TEST mape: {(mape(y_test, test_predict_nn2[:,0]))*100:0.2f}%")

Видим, что показатель ошибки стал чуть выше. Скорее всего, это связано с недостаточной обработкой текста перед реализацией модели.

Не забудьте сохранить submission!

### КАК МОЖНО УЛУЧШИТЬ ЭТУ МОДЕЛЬ?

Выделить из описаний часто встречающиеся блоки текста, заменив их на кодовые слова или удалив их.
Сделать предобработку текста, например лемматизацию — алгоритм, который ставит все слова в форму по умолчанию (глаголы в инфинитив и так далее). Это позволит токенайзеру не преобразовывать разные формы слова в разные числа. Статья по теме на Хабре (https://habr.com/ru/company/Voximplant/blog/446738/).
Поработать над алгоритмами очистки и аугментации текста.  

→ Мы закончили работать с NLP, познакомились с Multi-Input сетью — самое время перейти к картинкам!


### 6. Multi-Input сеть: табличные данные + текст + изображения

Для загрузки и обработки изображений далее мы будем использовать библиотеки PIL и OpenCV.  

К нашей сети осталось подгрузить картинки. У нас есть sell_id. Давайте возьмём его в качестве названия картинки. 

Убедимся, что цены и фото подгрузились корректно:


In [None]:
plt.figure(figsize = (12,8))

random_image = train.sample(n = 9)
random_image_paths = random_image['sell_id'].values
random_image_cat = random_image['price'].values

for index, path in enumerate(random_image_paths):
    im = PIL.Image.open(DATA_DIR+'img/img/' + str(path) + '.jpg')
    plt.subplot(3, 3, index + 1)
    plt.imshow(im)
    plt.title('price: ' + str(random_image_cat[index]))
    plt.axis('off')
plt.show()

Подгрузим эти картинки в память и создадим матрицу:



In [None]:
size = (320, 240)

def get_image_array(index):
    images_train = []
    for index, sell_id in enumerate(data['sell_id'].iloc[index].values):
        image = cv2.imread(DATA_DIR + 'img/img/' + str(sell_id) + '.jpg')
        assert(image is not None)
        image = cv2.resize(image, size)
        images_train.append(image)
    images_train = np.array(images_train)
    print('images shape', images_train.shape, 'dtype', images_train.dtype)
    return(images_train)

images_train = get_image_array(X_train.index)
images_test = get_image_array(X_test.index)
images_sub = get_image_array(X_sub.index)

Важно! Если датасет небольшой (как в нашем случае), крайне важно делать аугментацию картинок. 

Для аугментации можно использовать популярную библиотеку albumentation. 

In [None]:
from albumentations import (
    HorizontalFlip, IAAPerspective, ShiftScaleRotate, CLAHE, RandomRotate90,
    Transpose, ShiftScaleRotate, Blur, OpticalDistortion, GridDistortion, HueSaturationValue,
    IAAAdditiveGaussianNoise, GaussNoise, MotionBlur, MedianBlur, IAAPiecewiseAffine,
    IAASharpen, IAAEmboss, RandomBrightnessContrast, Flip, OneOf, Compose
)


#пример взят из официальной документации: https://albumentations.readthedocs.io/en/latest/examples.html
augmentation = Compose([
    HorizontalFlip(),
    OneOf([
        IAAAdditiveGaussianNoise(),
        GaussNoise(),
    ], p=0.2),
    OneOf([
        MotionBlur(p=0.2),
        MedianBlur(blur_limit=3, p=0.1),
        Blur(blur_limit=3, p=0.1),
    ], p=0.2),
    ShiftScaleRotate(shift_limit=0.0625, scale_limit=0.2, rotate_limit=15, p=1),
    OneOf([
        OpticalDistortion(p=0.3),
        GridDistortion(p=0.1),
        IAAPiecewiseAffine(p=0.3),
    ], p=0.2),
    OneOf([
        CLAHE(clip_limit=2),
        IAASharpen(),
        IAAEmboss(),
        RandomBrightnessContrast(),
    ], p=0.3),
    HueSaturationValue(p=0.3),
], p=1)

#пример
plt.figure(figsize = (12,8))
for i in range(9):
    img = augmentation(image = images_train[0])['image']
    plt.subplot(3, 3, i + 1)
    plt.imshow(img)
    plt.axis('off')
plt.show()


Заметно, какие изменения происходят с изображением:

![dst-auto-force-13.png](attachment:dst-auto-force-13.png)

Ваша задача — настроить самостоятельно, какие изменения приемлемы, а какие нет.

Наконец мы создаём функцию для аугментации:



In [None]:
def make_augmentations(images):
  print('применение аугментаций', end = '')
  augmented_images = np.empty(images.shape)
  for i in range(images.shape[0]):
    if i % 200 == 0:
      print('.', end = '')
    augment_dict = augmentation(image = images[i])
    augmented_image = augment_dict['image']
    augmented_images[i] = augmented_image
  print('')
  return augmented_images

Если сейчас всё подгруженное мы отправим в память, может возникнуть её нехватка. Что же делать? 

### ИТЕРАТОР TF.DATA.DATASET 

Метод .fit() модели keras может принимать либо данные в виде массивов или тензоров, либо разного рода итераторы, из которых наиболее современным и гибким является tf.data.Dataset. Он представляет собой конвейер: мы указываем, откуда берем данные и какую цепочку преобразований с ними выполняем. Далее мы будем работать именно с этим итератором.

- Dataset хранит информацию о конечном или бесконечном наборе кортежей (tuple) с данными и может возвращать эти наборы по очереди. Например, данными могут быть пары (input, target) для обучения нейросети. С данными по мере необходимости можно осуществлять преобразования. Такой подход называется lazy evaluation (с англ. «ленивая оценка»).
- tf.data.Dataset.from_tensor_slices(data) — создаёт датасет из данных, которые представляют собой либо массив, либо кортеж из массивов. Деление осуществляется по первому индексу каждого массива. Например, если data = (np.zeros((128, 256, 256)), np.zeros(128)), то датасет будет содержать 128 элементов, каждый из которых содержит один массив 256x256 и одно число.
- dataset2 = dataset1.map(func) — применение функции к датасету; функция должна принимать столько аргументов, каков размер кортежа в датасете1 и возвращать столько, сколько нужно иметь в датасете2. Пусть, например, датасет содержит изображения и метки, а нам нужно создать датасет только из изображений, тогда мы напишем так: dataset2 = dataset.map(lambda img, label: img).
- dataset2 = dataset1.batch(8) — группировка по батчам; если датасет2 должен вернуть один элемент, то он берет из датасета1 восемь элементов, склеивает их (нулевой индекс результата - номер элемента) и возвращает.
- dataset.__iter__() — превращение датасета в итератор, из которого можно получать элементы методом .__next__(). Итератор, в отличие от самого датасета, хранит позицию текущего элемента. Можно также перебирать датасет циклом for.
- dataset2 = dataset1.repeat(X) — датасет2 будет повторять датасет1 X раз.  

Если нам нужно взять из датасета 1000 элементов и использовать их как тестовые, а остальные как обучающие, то мы напишем так:

In [None]:
test_dataset = dataset.take(1000)
train_dataset = dataset.skip(1000)

Датасет по сути остается неизменен: такие операции, как map, batch, repeat, take, skip никак не затрагивают оригинальный датасет. Если датасет хранит элементы 1,2,3, то выполнив три раза подряд функцию dataset.take(1), мы получим три новых датасета, каждый из которых вернёт число 1. Если же мы выполним функцию dataset.skip(1), мы получим датасет, возвращающий числа 2,3, но исходный датасет всё равно будет возвращать 1,2,3 каждый раз, когда мы его перебираем.

tf.Dataset всегда выполняется в graph-режиме (в противоположность eager-режиму). По этой причине либо преобразования (.map()) должны содержать только tensorflow-функции, либо мы должны использовать tf.py_function в качестве обертки для функций, вызываемых в .map(). Подробнее можно прочитать здесь (https://www.tensorflow.org/guide/data#applying_arbitrary_python_logic).

Вернёмся к нашей модели. Используем токенизатор: 

In [None]:
tokenize = Tokenizer(num_words=MAX_WORDS)
tokenize.fit_on_texts(data.description)

Пишем функции:



In [None]:
def process_image(image):
    return augmentation(image = image.numpy())['image']

def tokenize_(descriptions):
  return sequence.pad_sequences(tokenize.texts_to_sequences(descriptions), maxlen = MAX_SEQUENCE_LENGTH)

def tokenize_text(text):
    return tokenize_([text.numpy().decode('utf-8')])[0]

def tf_process_train_dataset_element(image, table_data, text, price):
    im_shape = image.shape
    [image,] = tf.py_function(process_image, [image], [tf.uint8])
    image.set_shape(im_shape)
    [text,] = tf.py_function(tokenize_text, [text], [tf.int32])
    return (image, table_data, text), price

def tf_process_val_dataset_element(image, table_data, text, price):
    [text,] = tf.py_function(tokenize_text, [text], [tf.int32])
    return (image, table_data, text), price

train_dataset = tf.data.Dataset.from_tensor_slices((
    images_train, X_train, data.description.iloc[X_train.index], y_train
    )).map(tf_process_train_dataset_element)

test_dataset = tf.data.Dataset.from_tensor_slices((
    images_test, X_test, data.description.iloc[X_test.index], y_test
    )).map(tf_process_val_dataset_element)

y_sub = np.zeros(len(X_sub))
sub_dataset = tf.data.Dataset.from_tensor_slices((
    images_sub, X_sub, data.description.iloc[X_sub.index], y_sub
    )).map(tf_process_val_dataset_element)

#проверяем, что нет ошибок (не будет выброшено исключение):
train_dataset.__iter__().__next__();
test_dataset.__iter__().__next__();
sub_dataset.__iter__().__next__();

Переходим к построению сверточной сети для анализа изображений. Наверняка вы помните, что в анализе изображений себя неплохо зарекомендовала EfficientNet. Мы возьмём сеть поменьше, EfficientNetB3 — большая сеть может перегрузить оперативную память. Поскольку нормализация уже включена в сеть, на вход она будет принимать данные типа unit8. Сеть обучена на imagenet, используем её без головы.

In [None]:
efficientnet_model = tf.keras.applications.efficientnet.EfficientNetB3(weights = 'imagenet', include_top = False, input_shape = (size[1], size[0], 3))
efficientnet_output = L.GlobalAveragePooling2D()(efficientnet_model.output)

Сеть, распознающая картинки, готова! Далее идёт сеть для анализа табличных данных. Обратите внимание, что мы можем построить её и несколько другим способом, отличным от способов в предыдущих главах.

In [None]:
tabular_model = Sequential([
    L.Input(shape = X.shape[1]),
    L.Dense(512, activation = 'relu'),
    L.Dropout(0.5),
    L.Dense(256, activation = 'relu'),
    L.Dropout(0.5),
    ])

Также остаётся сеть NLP для текстовой предобработки:



In [None]:
nlp_model = Sequential([
    L.Input(shape=MAX_SEQUENCE_LENGTH, name="seq_description"),
    L.Embedding(len(tokenize.word_index)+1, MAX_SEQUENCE_LENGTH,),
    L.LSTM(256, return_sequences=True),
    L.Dropout(0.5),
    L.LSTM(128),
    L.Dropout(0.25),
    L.Dense(64),
    ])

Объединяем выходы трёх нейросетей. Голову делаем побольше, поскольку работаем с картинками. Сеть получится большая, объединение вы увидите в конце.

In [None]:
combinedInput = L.concatenate([efficientnet_output, tabular_model.output, nlp_model.output])

# being our regression head
head = L.Dense(256, activation="relu")(combinedInput)
head = L.Dense(1,)(head)

model = Model(inputs=[efficientnet_model.input, tabular_model.input, nlp_model.input], outputs=head)
model.summary()

Настраиваем метрики, задаем чекпойнты и EarlyStopping, обучаем и смотрим на результаты. Будьте готовы к тому, что обучение будет идти долго.

In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

Не забываем сохраняться. Смотрим на MAPE:



In [None]:
test_predict_nn3 = model.predict(test_dataset.batch(30))
print(f"TEST mape: {(mape(y_test, test_predict_nn3[:,0]))*100:0.2f}%")

→ Как видим, результат лучше, чем при обучении только на табличных данных. Умение строить такие сети даст вам большой толчок к дальнейшему профессиональному развитию. Учитесь их улучшать!

### КАК МОЖНО УЛУЧШИТЬ НАШУ МОДЕЛЬ?

→ Общие рекомендации

- Попробовать разные архитетктуры.
- Осуществлять предобработку текста.
- Попробовать раличные подходы в управлении LR и оптимизаторы.
- Работа с таргетом.
- Анализ результатов.
- Fine-tuning.  

→ Tabular

- В нейросеть желательно подавать данные с распределением, близким к нормальному, поэтому от некоторых числовых признаков имеет смысл взять логарифм перед нормализацией.
- Извлечение числовых значений из текста.
- Cокращение размерности категориальных признаков.
- Поработать над Feature Engineering.  

→ NLP

- Выделить из описаний часто встречающиеся блоки текста, заменив их на кодовые слова или удалив.
- Сделать предобработку текста, например сделать лемматизацию.
- Поработать над алгоритмами очистки и аугментации текста.  

→ CV

- Попробовать различные аугментации.
- Fine-tuning.


→ А теперь мы попробуем улучшить результат наших предсказаний при помощи ансамблирования сетей. 

### 7. Ансамблируем ML- и DL-сети

Одним из основных плюсов применения Multi-Input сетей в продакшне является их монолитность — вам поступает множество признаков различного характера, но вы работаете с одной сетью. Такую сеть проще администрировать, ей легче обеспечить надежность и отказоустойчивость. Вы будете избавлены от создания множества алгоритмов. 

Показатель ошибок у нашей сети относительно невысокий, но выше, чем у наивной модели. Что можно сделать? Можно слить два алгоритма и получить отличный позитивный сдвиг по метрике: 



In [None]:
blend_predict = (test_predict_catboost + test_predict_nn3[:,0]) / 2
print(f"TEST mape: {(mape(y_test, blend_predict))*100:0.2f}%")

→ По этой причине рекомендуется использовать и классические ML-модели, и DL-сети. Вместе они дают потрясающие результаты.

### 8. Бонус: проброс признака

Multi-Input сеть отлично работает не только на тексте, но и на отдельных признаках. Разберём на примере. 

У нас есть признак productiondate, который мы считаем очень важным и хотим, чтобы сеть перед принятием решений его учитывала. В таком случае мы можем добавить ещё один слой L.Input для этого признака после того, как сеть обработала текст и табличные данные. Можно обработать этот признак как категориальный при помощи слоя L.Embedding.



In [None]:
productiondate = L.Input(shape=[1], name="productiondate")
# Embeddings layers
emb_productiondate = L.Embedding(len(X.productionDate.unique().tolist())+1, 20)(productiondate)

Объединяем выходы:



In [None]:
combinedInput = L.concatenate([model_nlp.output, model_mlp.output, L.Flatten()(emb_productiondate),])
# being our regression head
head = L.Dense(64, activation="relu")(combinedInput)
head = L.Dense(1, activation="linear")(head)

model = Model(inputs=[model_nlp.input, model_mlp.input, productiondate], outputs=head)

Смотрим, какая получилась структура сети:



In [None]:
model.summary()

Как всегда, прописываем метрики:



In [None]:
optimizer = tf.keras.optimizers.Adam(0.01)
model.compile(loss='MAPE',optimizer=optimizer, metrics=['MAPE'])

В подаче данных обязательно прописываем нужный нам признак:



In [None]:
history = model.fit([text_train_sequences, X_train, X_train.productionDate.values], y_train,
                    batch_size=512,
                    epochs=500, # фактически мы обучаем пока EarlyStopping не остановит обучение
                    validation_data=([text_test_sequences, X_test, X_test.productionDate.values], y_test),
                    callbacks=callbacks_list
                   )

Проверяем MAPE:



In [None]:
model.load_weights('../working/best_model.hdf5')
test_predict_nn_bonus = model.predict([text_test_sequences, X_test, X_test.productionDate.values])
print(f"TEST mape: {(mape(y_test, test_predict_nn_bonus[:,0]))*100:0.2f}%")

→ Бывает полезно прокинуть через сеть признак напрямую, чтобы улучшить результат предсказания. Это достаточно распространённый метод.

### 9. Самостоятельная работа

→ Пора приступить к основной части проекта, а именно — к улучшению baseline.

### РЕКОМЕНДАЦИИ К ВЫПОЛНЕНИЮ ПРОЕКТА

### ОБЩИЕ РЕКОМЕНДАЦИИ

- Провести более детальный анализ результатов.
- Попробовать разные архитектуры.
- Поработать с таргетом.
- Использовать Fine-tuning.
- Попробовать различные подходы в управление LR и оптимизаторы.

### ТАБЛИЧНЫЕ ДАННЫЕ И NN TABULAR

- В нейросеть желательно подавать данные с распределением, близким к нормальному, поэтому от некоторых числовых признаков имеет смысл взять логарифм перед нормализацией.
- Извлечение числовых значений из текста: парсинг признаков 'engineDisplacement', 'enginePower', 'Владение' для извлечения числовых значений.
- Cокращение размерности категориальных признаков. Признак name 'name' содержит данные, которые уже есть в других столбцах ('enginePower', 'engineDisplacement', 'vehicleTransmission'). Можно удалить эти данные. Затем можно еще сильнее сократить размерность, например, выделив наличие xDrive в качестве отдельного признака.
- Поработать над Feature Engineering.

### NLP

- Выделить из описаний часто встречающиеся блоки текста, заменив их на кодовые слова или удалив.
- Сделать предобработку текста, например сделать лемматизацию.
- Поработать над алгоритмами очистки и аугментации текста.

### CV

- Попробовать различные аугментации.
- Применить Fine-tuning.  

Ограничения. Обратите внимание, что у вас будет пять сабмитов в сутки! Ограничение на использование kaggle-сервера — 43 часа в неделю.

Лайфхак. Используйте параллельные процессы на kaggle: работайте над улучшением модели, пока две другие обучаются!

### КРИТЕРИИ ОЦЕНКИ

→ Качество кода и оформление проекта на Github — 3 балла.

- Соблюдение стандартов оформления pep-8
- Комментирование кода
- Наличие выводов  

→ Качество разведывательного анализа данных (EDA) — 3 балла.

- Датасет очищен от дубликатов, пропущенных значений, обработаны выбросы
- Подобраны новые переменные, выполнена нормализация и стандартизация признаков, применены методы для кодирования категориальных признаков
- Произведена генерация и отбор признаков  

→ Построение модели по обработке естественного языка (NLP) — 3 балла.

- Выбор стандартных архитектур
- Применение стандартных архитектур  

→ Построение модели по обработке естественного языка (NLP) — 3 балла.

-  Применение различных методов обучения (Fine-tuning, transfer-learning)  

→ Построение модели по обработке естественного языка (NLP) — 3 балла.

- Обработка текста: применены дополнительные методы предобработки (аугментация, лемматизация)
- Применены продвинутые архитектуры (SOTA) для обработки текста  

→ Добавление изображений в решение — 3 балла.

- Выбор стандартных архитектур
- Применение стандартных архитектур  

→ Добавление изображений в решение — 3 балла.

- Применены различные методы обучения (Fine-tuning, transfer-learning, LR-Cycle)  

→Добавление изображений в решение — 3 балла.

- Обработка изображений: применены дополнительные методы предобработки (аугментация).
- Применены продвинутые архитектуры (SOTA) для обработки изображений.  

→ Оценка модели и интерпретация результатов — 3 балла.

- Применены основные методы оценки ошибки обучения.
- Выявлены этапы переобучения моделей и приняты меры по его устранению.
- Установлены оптимальные параметры обучения.
- Произведён анализ результатов работы модели.  

→ Качество решения: результат метрики MAPE — 3 балла.

→ Работа сдана к дедлайну — 3 балла.

### ЧТО ОЗНАЧАЮТ БАЛЛЫ:

0	задание не выполнено или результатами работы невозможно воспользоваться на практике  
1	есть большие неточности в выполнении задания  
2	задача решена, требуются минимальные доработки  
3	задача решена полностью, можно использовать результат на практике
