# Car Price prediction

<img src="https://whatcar.vn/media/2018/09/car-lot-940x470.jpg"/>

## Прогнозирование стоимости автомобиля по характеристикам





С учетом baseline необходимо: 
- поработать с признаками автомобиля. В частности, работа проводилась с объявлением о продаже автомобиля;
- посмотреть влияние нового признака на target;
- создать дамми-переменные из категориальных признаков;
- понять, какие из признаков можно оставить, а какими можно пожертвовать из-за их малозначительности;
- применить машинное обучение - на основе градиентного бустинга с помощью CatBoost;
- применить логорафмирование к признаку с датой автомобиля (пробовал применить, но получилось очень странным и завышенным значение MAPE, поэтому отказался от логарифмирования; написал об этом ниже);
- применить глубокое обучение - модель на основе нейронных сетей;
- сделать multi-input нейронную сеть для анализа табличных данных и текста одновременно, при анализе текста применить лемматизацию с последующей токенизацией;
- добавить в multi-input сеть обработку изображений;
- применить Transfer Learning и FineTuning; 
- осуществить ансамблирование градиентного бустинга и нейронной сети (усреднение их предсказаний);
- выложить ансамблированный submission

In [None]:
!pip install --upgrade pip

In [None]:
!pip install -q tensorflow==2.3

In [None]:
#аугментации изображений
!pip install albumentations -q

In [None]:
!pip install pymorphy2 # понадобится для легитиммации русских слов

In [None]:
# всегда фиксируйте RANDOM_SEED, чтобы ваши эксперименты были воспроизводимы!
RANDOM_SEED = 42


In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import random
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import os
import sys
import PIL
import cv2
import re
from string import punctuation
from collections import defaultdict
# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

from catboost import CatBoostRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import RobustScaler


# # keras
import tensorflow as tf
import tensorflow.keras.layers as L
from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing import sequence
import tensorflow.keras.backend as K
import tensorflow.keras.callbacks as C
from tensorflow.keras.preprocessing import image
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.callbacks import LearningRateScheduler,ModelCheckpoint, EarlyStopping
from tensorflow.keras import optimizers
import albumentations
tf.random.set_seed(RANDOM_SEED)
np.random.seed(RANDOM_SEED)

import nltk
from nltk.stem import WordNetLemmatizer # подгружаем для лемматизации слов в описании авто
import re
from nltk.corpus import stopwords # подгрузим стоп-слова, чтобы выбросить их до векторизации текста
import pymorphy2
from pymorphy2 import MorphAnalyzer # подгрузим лемматизатор русских слов

import PIL
from PIL import ImageOps, ImageFilter
# plt
import matplotlib.pyplot as plt
#увеличим дефолтный размер графиков
from pylab import rcParams
rcParams['figure.figsize'] = 10, 5
#графики в svg выглядят более четкими
%config InlineBackend.figure_format = 'svg' 
%matplotlib inline
import seaborn as sns
import matplotlib.pyplot as plt


# You can write up to 5GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [None]:
print('Python       :', sys.version.split('\n')[0])
print('Numpy        :', np.__version__)
print('Tensorflow   :', tf.__version__)

In [None]:
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred-y_true)/y_true))

In [None]:
!pip freeze > requirements.txt

# DATA

Посмотрим на типы признаков:

* bodyType - категориальный
* brand - категориальный
* color - категориальный
* description - текстовый
* engineDisplacement - числовой, представленный как текст
* enginePower - числовой, представленный как текст
* fuelType - категориальный
* mileage - числовой
* modelDate - числовой
* model_info - категориальный
* name - категориальный, желательно сократить размерность
* numberOfDoors - категориальный
* price - числовой, целевой
* productionDate - числовой
* sell_id - изображение (файл доступен по адресу, основанному на sell_id)
* vehicleConfiguration - не используется (комбинация других столбцов)
* vehicleTransmission - категориальный
* Владельцы - категориальный
* Владение - числовой, представленный как текст
* ПТС - категориальный
* Привод - категориальный
* Руль - категориальный

In [None]:
DATA_DIR = '../input/sf-dst-car-price-prediction-part2/'
train = pd.read_csv(DATA_DIR + 'train.csv')
test = pd.read_csv(DATA_DIR + 'test.csv')
sample_submission = pd.read_csv(DATA_DIR + 'sample_submission.csv')

In [None]:
# Отключаем предупреждения
import warnings
warnings.filterwarnings("ignore")

# Model 1: Создадим "наивную" модель 
Эта модель будет предсказывать среднюю цену по модели и году выпуска. 
C ней будем сравнивать другие модели.



In [None]:
# split данных
data_train, data_test = train_test_split(train, test_size=0.15, shuffle=True, random_state=RANDOM_SEED)

In [None]:
train.head(2)
#train.shape

In [None]:
# Наивная модель
predicts = []
for index, row in pd.DataFrame(data_test[['model_info', 'productionDate']]).iterrows():
    query = f"model_info == '{row[0]}' and productionDate == '{row[1]}'"
    predicts.append(data_train.query(query)['price'].median())

# заполним не найденные совпадения
predicts = pd.DataFrame(predicts)
predicts = predicts.fillna(predicts.median())

# округлим
predicts = (predicts // 1000) * 1000

#оцениваем точность
print(f"Точность наивной модели по метрике MAPE: {(mape(data_test['price'], predicts.values[:, 0]))*100:0.2f}%")

# EDA

Проведем быстрый анализ данных для того, чтобы понимать, сможет ли с этими данными работать наш алгоритм.

Посмотрим, как выглядят распределения числовых признаков:

In [None]:
#посмотрим, как выглядят распределения числовых признаков
def visualize_distributions(titles_values_dict):
  columns = min(3, len(titles_values_dict))
  rows = (len(titles_values_dict) - 1) // columns + 1
  fig = plt.figure(figsize = (columns * 6, rows * 4))
  for i, (title, values) in enumerate(titles_values_dict.items()):
    hist, bins = np.histogram(values, bins = 20)
    ax = fig.add_subplot(rows, columns, i + 1)
    ax.bar(bins[:-1], hist, width = (bins[1] - bins[0]) * 0.7)
    ax.set_title(title)
  plt.show()

visualize_distributions({
    'mileage': train['mileage'].dropna(),
    'modelDate': train['modelDate'].dropna(),
    'productionDate': train['productionDate'].dropna()
})

Итого:
* CatBoost сможет работать с признаками и в таком виде, но для нейросети нужны нормированные данные.

# PreProc Tabular Data

In [None]:
# ВАЖНО! дря корректной обработки признаков объединяем трейн и тест в один датасет
train['sample'] = 1 # помечаем где у нас трейн
test['sample'] = 0 # помечаем где у нас тест
test['price'] = 0 # в тесте у нас нет значения price, мы его должны предсказать, поэтому пока просто заполняем нулями

data = test.append(train, sort=False).reset_index(drop=True) # объединяем
print(train.shape, test.shape, data.shape)

In [None]:
data.head(2)

In [None]:
data.isna().sum()

признак "Владение" содержит более 50% отсутствия данных- подлежит удалению. 
признак "Владельцы" необходимо обработать

In [None]:
data.Владельцы.unique()

In [None]:
def prepare_bodyType(bodyType):
    return bodyType.split()[0]
def prepare_engineDisplacement(engineDisplacement):
    result = engineDisplacement.split(' ')
    return float(result[0].replace('undefined', '0'))
def prepare_engine_power(enginePower):
    result = enginePower.split(' ')
    return int(result[0])    
def prepare_owner(Владельцы):
    result = Владельцы[0] if not type(Владельцы) == float else 0
    #print (result)
    return result
    

In [None]:
data.engineDisplacement = data.engineDisplacement.apply(prepare_engineDisplacement)

In [None]:
data['Владельцы'] = data['Владельцы'].apply(prepare_owner)

In [None]:
data.bodyType = data.bodyType.apply(prepare_bodyType)

In [None]:
data['enginePower'] = data.enginePower.apply(prepare_engine_power)


In [None]:
data.head(2)

Посмотрим на распределение целевой переменной прологарифмировав выбросы



In [None]:
plt.figure(figsize=(15, 3))
plt.subplot(1,2,1)
plt.title(f"Распределение {'price'} после логарифмирования")
sns.distplot(np.log(data[data['sample'] == 1]['price']), bins=50)

plt.subplot(1,2,2)
sns.boxplot(np.log(data[data['sample'] == 1]['price']))
plt.xlabel('Price')
plt.title('Боксплот price после логарифмирования', fontsize=15)
plt.show()

In [None]:
# извлечем слова описания автомобилей и составим их рейтинг по повторяемости

all_words_list = []

for i in data.index:
    words_in_cell = [x.strip(punctuation).lower() for x in data['description'][i].split()]
    all_words_list += words_in_cell
    counter = defaultdict(int)
for word in all_words_list:
    if len(word) >= 2:
        counter[word] += 1
top_words = sorted(counter.items()) #,
                   


In [None]:
# этот код позволил выявить типичные слова-маркеры для объявлений дилеров. 
# Редкие слова, т.е. те которые повторяются менее 100 раз, нас не интересуют. Их учет не усилит обобщающую способность модели

words_more_than_100 = []
words_more_than_300 = []
words_more_than_500 = []
words_more_than_700 = []
words_more_than_900 = []
words_more_than_1100 = []

for i in top_words:
    if i[1] >= 100 and i[1] < 300:
        words_more_than_100.append(i[0])
    if i[1] >= 300 and i[1] < 500:
        words_more_than_300.append(i[0])    
    if i[1] >= 500 and i[1] < 700:
        words_more_than_500.append(i[0])
    if i[1] >= 700 and i[1] < 900:
        words_more_than_700.append(i[0])
    if i[1] >= 900 and i[1] < 1100:
        words_more_than_900.append(i[0])
    if i[1] >= 1100 and i[1]:
        words_more_than_1100.append(i[0])

In [None]:
# слова-маркеры для объявлений дилеров

dilers = ['автодом','автокредит','банка-партнёра','взноса','гарантируем','памавто-трейд','предоставляем','приглашаем','работаем','спецпредложения','trade-in','трейд-ин',
          'гипермаркет','панавто','abtodom','☑️','ассортимент','предпродажная','клиент'] # 'предпродажная','trade','клиент',   'рольф','«рольф»','abtodom'!!!,

In [None]:
data['trader'] = 0
for i in data.index:
    for j in dilers:
        if data['description'][i].__contains__(j):
            data['trader'][i] = 1
data['trader'].value_counts()

In [None]:
# корреляция признаков с ценой, для этого возьмем часть датасета с ценой 
train_1 = data.query('sample == 1').drop(['sample'], axis=1).copy()

fig, ax = plt.subplots(1, 1, figsize=(10, 5))
ax = sns.heatmap(train_1.corr(),fmt='.1g',
                 annot=True, cmap='coolwarm')

Сильная корреляция modelDate/productionDate - mileage. удалим modelDate.
При этом корреляция нашего нового прихнака trader с признаком price довольно высока - 0,1. Стало быть это - удачный новый признак для нашей модели

In [None]:
#используем все текстовые признаки как категориальные без предобработки
categorical_features = ['bodyType', 'brand', 'color', 'fuelType', 'model_info',
  'numberOfDoors', 'vehicleTransmission', 'Владельцы', 'ПТС', 'Привод', 'Руль','xDrive',]

#используем все числовые признаки
numerical_features = ['mileage', 'enginePower','productionDate','engineDisplacement'] 

In [None]:
# моя подготовка данных с учетом baseline

def preproc_data(df_input):
    '''includes several functions to pre-process the predictor data.'''
    
    df_output = df_input.copy()
    
    # пробовал логарифмировать перед нормализацией, но значительно вырастает MAPE глубоком обучении
    # df_output['productionDateNorm'] = np.log(2020 - df_output['productionDate'])
    
    # ################### Numerical Features ############################################################## 
     # пропусков нет
    # for column in numerical_features:
        # df_output[column].fillna(df_output[column].median(), inplace=True)
    
    # Нормализация данных
    scaler = RobustScaler()  # применим эту устойчивую к выбросам стандартизацию
    for column in numerical_features:
        df_output[column] = scaler.fit_transform(df_output[[column]])[:,0]
    
    # ################### Feature Engineering ####################################################
    # В name все отражающиеся данные, кроме xDrive,  есть в ДФ
    # сгенерируем новые признаки xDrive и trader
    df_output['xDrive'] = df_output['name'].apply(lambda x: 1 if 'xDrive' in x else 0)
    
    dilers = ['автодом','автокредит','банка-партнёра','взноса','гарантируем','памавто-трейд','предоставляем','приглашаем','работаем','спецпредложения','trade-in','трейд-ин',
          'гипермаркет','панавто','abtodom','☑️','ассортимент','предпродажная','клиент']
    df_output['trader'] = 0
    for i in df_output.index:
        for j in dilers:
            if df_output['description'][i].__contains__(j):
                df_output['trader'][i] = 1
                
    # ################### Categorical Features ############################################################## 
    # Label Encoding
    for column in categorical_features:
        df_output[column] = df_output[column].astype('category').cat.codes
        
    # One-Hot Encoding: в pandas есть готовая функция - get_dummies.
    df_output = pd.get_dummies(df_output, columns=categorical_features, dummy_na=False)
    
    
    # ################### Clean #################################################### 
    # убираем все ненужные для модели признаки  
    
    df_output.drop(['sell_id','Владение','vehicleConfiguration', 'name','modelDate','description'], axis = 1, inplace=True)   
    
    return df_output

In [None]:
# Запускаем и проверяем, что получилось
df_preproc = preproc_data(data)
df_preproc.sample(10)

In [None]:
from pandas import Series 
from sklearn.feature_selection import f_classif, mutual_info_classif
# понадобится для разложения признаков на отдельные столбцы для анализа значимости каждого признака

train_1 = df_preproc.query('sample == 1').drop(['sample'], axis=1).copy()

cols = train_1.columns 

imp_cat = Series(mutual_info_classif(train_1[cols], 
                                     train_1['price'], discrete_features =True), 
                 index = cols)
imp_cat.sort_values(inplace = True) # выстраиваем рейтинг признаков по их значимости
plt.figure(figsize=(16, 50))
imp_cat.plot(kind = 'barh')

In [None]:
print(imp_cat[:20]) # первые 4 признака в отсортированном списке признаков imp_cat имеют влияние на признак price менее 1.0е-15, эти признаки удалим
less_imp_cat_cols = list(imp_cat[:4].index)

In [None]:
df_preproc.drop(less_imp_cat_cols, axis = 1, inplace=True)
df_preproc

## Split data

In [None]:
# Теперь выделим тестовую часть
train_data = df_preproc.query('sample == 1').drop(['sample'], axis=1)
test_data = df_preproc.query('sample == 0').drop(['sample'], axis=1)

y = train_data.price.values     # наш таргет
X = train_data.drop(['price'], axis=1)
X_sub = test_data.drop(['price'], axis=1)

In [None]:
y

In [None]:
test_data.info()

# Model 2: CatBoostRegressor

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, shuffle=True, random_state=RANDOM_SEED)

In [None]:
model = CatBoostRegressor(iterations = 5000,
                          depth=5,
                          learning_rate = 0.05,
                          random_seed = RANDOM_SEED,
                          eval_metric='MAPE',
                          custom_metric=['RMSE', 'MAE'],
                          od_wait=500,
                          # task_type='GPU',
                         )
model.fit(X_train, np.log(y_train),
         eval_set=(X_test, np.log(y_test)),
         verbose_eval=100,
         use_best_model=True,
         #plot=True
         )

In [None]:
test_predict_catboost = np.exp(model.predict(X_test))
print(f"TEST mape: {(mape(y_test, test_predict_catboost))*100:0.2f}%")

### Submission

In [None]:
sub_predict_catboost = np.exp(model.predict(X_sub))
sample_submission['price'] = sub_predict_catboost
sample_submission.to_csv('catboost_submission.csv', index=False)

# Model 3: Tabular NN

Построим обычную сеть:

In [None]:
X_train.head(2)

## Simple Dense NN

In [None]:
model = Sequential()
model.add(L.Dense(512, input_dim=X_train.shape[1], activation="sigmoid"))
model.add(L.Dropout(0.5))
model.add(L.Dense(256, activation="relu"))
model.add(L.Dense(256, activation="relu"))

model.add(L.Dropout(0.5))
model.add(L.Dense(1, activation="linear"))

In [None]:
model.summary()

In [None]:
# Compile model
optimizer = tf.keras.optimizers.Adam(0.01)
model.compile(loss='MAPE',optimizer=optimizer, metrics=['MAPE'])

In [None]:
checkpoint = ModelCheckpoint('../working/best_model.hdf5' , monitor=['val_MAPE'], verbose=0  , mode='min')
earlystop = EarlyStopping(monitor='val_MAPE', patience=50, restore_best_weights=True,)
callbacks_list = [checkpoint, earlystop]

### Fit

In [None]:
history = model.fit(X_train, y_train,
                    batch_size=512,
                    epochs=2000, # фактически мы обучаем пока EarlyStopping не остановит обучение
                    validation_data=(X_test, y_test),
                    callbacks=callbacks_list,
                    verbose=0,
                   )

In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

In [None]:
model.load_weights('../working/best_model.hdf5')
model.save('../working/nn_1.hdf5')

In [None]:
test_predict_nn1 = model.predict(X_test)
print(f"TEST mape: {(mape(y_test, test_predict_nn1[:,0]))*100:0.2f}%")

Попытка прологорифмировать значения в столбце 'productionDate' до стандартизации значений привела к тому, что значение mape подскочило аж до 50.01!
Соответственно, вариант с логарифмированием был отброшен. 
Однако такой удивидительный показатель MAPE и взгляд на график MAPE без логарифмирования навёл на мысль, что при логарифмировании почему-то модель при градитентном спуске, вероятно, останавливается у локального экстремума (на графике явно виден выступ как раз в районе МАРЕ = 50). Впрочем, может быть, я ошибаюсь. Но если я угадал, то я не нашел способ выхода из этого локального экстремума. В машинном обучении для этого, как я понял, применяется стохастический градиентный спуск. А какой способ можно применить в глубоком обучении? 
Почитал про ценность логорифмирования в глубоком обучении. Сложилось впечатление, что на точность предсказаний это никак не влияет, влияет лишь на скорость обучения.

1. С полносвязным добавочным слоем model.add(L.Dense(256, activation="relu"))
 и активацией softmax - 12.57%
2. С полносвязным добавочным слоем model.add(L.Dense(256, activation="relu"))
 и активацией relu - 11.51%
3. С полносвязным добавочным слоем model.add(L.Dense(256, activation="relu"))
 и активацией sigmoid - 11.36%

In [None]:
sub_predict_nn1 = model.predict(X_sub)
sample_submission['price'] = sub_predict_nn1[:,0]
sample_submission.to_csv('nn1_submission.csv', index=False)

Рекомендации для улучшения Model 3:    
* В нейросеть желательно подавать данные с распределением, близким к нормальному, поэтому от некоторых числовых признаков имеет смысл взять логарифм перед нормализацией. Пример:
`modelDateNorm = np.log(2020 - data['modelDate'])`
Статья по теме: https://habr.com/ru/company/ods/blog/325422

* Извлечение числовых значений из текста:
Парсинг признаков 'engineDisplacement', 'enginePower', 'Владение' для извлечения числовых значений.

* Cокращение размерности категориальных признаков
Признак name 'name' содержит данные, которые уже есть в других столбцах ('enginePower', 'engineDisplacement', 'vehicleTransmission'), поэтому эти данные можно удалить. Затем следует еще сильнее сократить размерность, например, выделив наличие xDrive в качестве отдельного признака.

# Model 4: NLP + Multiple Inputs

In [None]:
data.description

In [None]:
%%time
patterns = "[A-Za-z0-9!#$%&'()*+,./:;<=>?@[\]^_`{|}~—\"\-]+" # определим ненужные нам в тексте описания авто символы
stopwords_ru = stopwords.words("russian") # определим ненужные русские слова
morph = MorphAnalyzer()
# определим Lemmatizer
lemmatizer = WordNetLemmatizer()
# создадим колонку под слова из description с лемматизацией

data['basic_words'] = 0

for i in data.index:
    doc = re.sub(patterns, ' ', data['description'][i])
    tokens = []
    for token in doc.split():
        if token and token not in stopwords_ru:
            token = token.strip()
            token = morph.normal_forms(token)[0]
            if len(token) > 2 or token == 'не':
                tokens.append(token)       
    # преобразуем список лемматизированных слов по одному авто в лемматизированный текст
    data['basic_words'][i] = ' '.join([lemmatizer.lemmatize(word) for word in tokens])
data['basic_words'].sample(10)

In [None]:
# TOKENIZER
# The maximum number of words to be used. (most frequent)
MAX_WORDS = 100000
# Max number of words in each complaint.
MAX_SEQUENCE_LENGTH = 256

In [None]:
# split данных с лемматизацией
text_train = data.basic_words.iloc[X_train.index]
text_test = data.basic_words.iloc[X_test.index]
text_sub = data.basic_words.iloc[X_sub.index]

### Tokenizer

In [None]:
%%time
tokenize = Tokenizer(num_words=MAX_WORDS)
tokenize.fit_on_texts(data.basic_words) # basic_words

In [None]:
tokenize.word_index

In [None]:
%%time
text_train_sequences = sequence.pad_sequences(tokenize.texts_to_sequences(text_train), maxlen=MAX_SEQUENCE_LENGTH)
text_test_sequences = sequence.pad_sequences(tokenize.texts_to_sequences(text_test), maxlen=MAX_SEQUENCE_LENGTH)
text_sub_sequences = sequence.pad_sequences(tokenize.texts_to_sequences(text_sub), maxlen=MAX_SEQUENCE_LENGTH)

print(text_train_sequences.shape, text_test_sequences.shape, text_sub_sequences.shape, )

In [None]:
# вот так теперь выглядит наш текст
# print(text_train.iloc[6])
print(text_train_sequences[6])

### RNN NLP

In [None]:
model_nlp = Sequential()
model_nlp.add(L.Input(shape=MAX_SEQUENCE_LENGTH, name="seq_description"))
model_nlp.add(L.Embedding(len(tokenize.word_index)+1, MAX_SEQUENCE_LENGTH,))
model_nlp.add(L.LSTM(256, return_sequences=True))
model_nlp.add(L.Dropout(0.5))
model_nlp.add(L.Dense(64, activation="sigmoid")) #добавим полносвязный слой с sigmoid

model_nlp.add(L.LSTM(128,))
model_nlp.add(L.Dropout(0.25))
model_nlp.add(L.Dense(64, activation="relu"))
model_nlp.add(L.Dropout(0.25))

### MLP

In [None]:
# Добавим сеть,созданную нами ранее для табличных данных:
model_mlp = Sequential()
model_mlp.add(L.Dense(512, input_dim=X_train.shape[1], activation="sigmoid"))
model_mlp.add(L.Dropout(0.5))
model_mlp.add(L.Dense(256, activation="relu"))
model_mlp.add(L.Dense(256, activation="relu")) #добавим еще один полносвязный слой
model_mlp.add(L.Dropout(0.5))

### Multiple Inputs NN

In [None]:
combinedInput = L.concatenate([model_nlp.output, model_mlp.output])
# being our regression head
head = L.Dense(64, activation="relu")(combinedInput)
head = L.Dense(1, activation="linear")(head)

model = Model(inputs=[model_nlp.input, model_mlp.input], outputs=head)

In [None]:
model.summary()

### Fit

In [None]:
optimizer = tf.keras.optimizers.Adam(0.01)
model.compile(loss='MAPE',optimizer=optimizer, metrics=['MAPE'])

In [None]:
checkpoint = ModelCheckpoint('../working/best_model.hdf5', monitor='val_MAPE', verbose=0, mode='min')
earlystop = EarlyStopping(monitor='val_MAPE', patience=10, restore_best_weights=True,)
callbacks_list = [checkpoint, earlystop]

In [None]:
%%time
history = model.fit([text_train_sequences, X_train], y_train,
                    batch_size=512,
                    epochs=500, # фактически мы обучаем пока EarlyStopping не остановит обучение
                    validation_data=([text_test_sequences, X_test], y_test),
                    callbacks=callbacks_list
                   )

In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

In [None]:
model.load_weights('../working/best_model.hdf5')
model.save('../working/nn_mlp_nlp.hdf5')

In [None]:
test_predict_nn2 = model.predict([text_test_sequences, X_test])
print(f"TEST mape: {(mape(y_test, test_predict_nn2[:,0]))*100:0.2f}%")

In [None]:
sub_predict_nn2 = model.predict([text_sub_sequences, X_sub])
sample_submission['price'] = sub_predict_nn2[:,0]
sample_submission.to_csv('nn2_submission.csv', index=False)

Идеи для улучшения NLP части:
* Выделить из описаний часто встречающиеся блоки текста, заменив их на кодовые слова или удалив
* Сделать предобработку текста, например, сделать лемматизацию - алгоритм ставящий все слова в форму по умолчанию (глаголы в инфинитив и т. д.), чтобы токенайзер не преобразовывал разные формы слова в разные числа
Статья по теме: https://habr.com/ru/company/Voximplant/blog/446738/
* Поработать над алгоритмами очистки и аугментации текста

# Model 5: Добавляем картинки

### Data

In [None]:
# убедимся, что цены и фото подгрузились верно
plt.figure(figsize = (12,8))

random_image = train.sample(n = 9)
random_image_paths = random_image['sell_id'].values
random_image_cat = random_image['price'].values

for index, path in enumerate(random_image_paths):
    im = PIL.Image.open(DATA_DIR+'img/img/' + str(path) + '.jpg')
    plt.subplot(3, 3, index + 1)
    plt.imshow(im)
    plt.title('price: ' + str(random_image_cat[index]))
    plt.axis('off')
plt.show()

In [None]:
size = (320, 240)

def get_image_array(index):
    images_train = []
    for index, sell_id in enumerate(data['sell_id'].iloc[index].values):
        image = cv2.imread(DATA_DIR + 'img/img/' + str(sell_id) + '.jpg')
        assert(image is not None)
        image = cv2.resize(image, size)
        images_train.append(image)
    images_train = np.array(images_train)
    print('images shape', images_train.shape, 'dtype', images_train.dtype)
    return(images_train)

images_train = get_image_array(X_train.index)
images_test = get_image_array(X_test.index)
images_sub = get_image_array(X_sub.index)

### albumentations

In [None]:
from albumentations import (
    HorizontalFlip, IAAPerspective, ShiftScaleRotate, CLAHE, RandomRotate90,
    Transpose, ShiftScaleRotate, Blur, OpticalDistortion, GridDistortion, HueSaturationValue,
    IAAAdditiveGaussianNoise, GaussNoise, MotionBlur, MedianBlur, IAAPiecewiseAffine,
    IAASharpen, IAAEmboss, RandomBrightnessContrast, Flip, OneOf, Compose
)
AUGMENTATIONS = albumentations.Compose([
    albumentations.HorizontalFlip(p=0.5),#Отразите ввод по горизонтали вокруг оси y.
    albumentations.Rotate(limit=30, interpolation=1, border_mode=4, value=None, mask_value=None, always_apply=False, p=0.5),#Поверните ввод на угол, случайно выбранный из равномерного распределения.
    albumentations.OneOf([
        albumentations.CenterCrop(height=220, width=200),# Обрежьте центральную часть входа.
        albumentations.CenterCrop(height=200, width=220),
    ],p=0.5),
    albumentations.OneOf([
        albumentations.RandomBrightnessContrast(brightness_limit=0.3, contrast_limit=0.3),#Произвольно изменяйте яркость и контраст входного изображения.
        albumentations.RandomBrightnessContrast(brightness_limit=0.1, contrast_limit=0.1)
    ],p=0.5),
    albumentations.GaussianBlur(p=0.05),#Размытие входного изображения с помощью фильтра Гаусса
    albumentations.HueSaturationValue(p=0.5),# Произвольно меняет оттенок, насыщенность, значение входного изображения.


    albumentations.RGBShift(p=0.5),# Произвольно смещайте значения для каждого канала входного изображения RGB.

    albumentations.FancyPCA(alpha=0.1, always_apply=False, p=0.5), #Увеличьте изображение RGB с помощью FancyPCA 
    albumentations.Resize(240, 320)#Измените размер ввода до заданной высоты и ширины.
])



In [None]:
from albumentations import (
    HorizontalFlip, IAAPerspective, ShiftScaleRotate, CLAHE, RandomRotate90,
    Transpose, ShiftScaleRotate, Blur, OpticalDistortion, GridDistortion, HueSaturationValue,
    IAAAdditiveGaussianNoise, GaussNoise, MotionBlur, MedianBlur, IAAPiecewiseAffine,
    IAASharpen, IAAEmboss, RandomBrightnessContrast, Flip, OneOf, Compose
)



#пример
plt.figure(figsize = (12,8))
for i in range(9):
    img = AUGMENTATIONS(image = images_train[0])['image']
    plt.subplot(3, 3, i + 1)
    plt.imshow(img)
    plt.axis('off')
plt.show()

In [None]:
def make_augmentations(images):
    print('применение аугментаций', end = '')
    augmented_images = np.empty(images.shape)
    for i in range(images.shape[0]):
        if i % 200 == 0:
            print('.', end = '')
        augment_dict = augmentation(image = images[i])
        augmented_image = augment_dict['image']
        augmented_images[i] = augmented_image
        print('')
    return augmented_images

## tf.data.Dataset
Если все изображения мы будем хранить в памяти, то может возникнуть проблема ее нехватки. Не храните все изображения в памяти целиком!

Метод .fit() модели keras может принимать либо данные в виде массивов или тензоров, либо разного рода итераторы, из которых наиболее современным и гибким является [tf.data.Dataset](https://www.tensorflow.org/guide/data). Он представляет собой конвейер, то есть мы указываем, откуда берем данные и какую цепочку преобразований с ними выполняем. Далее мы будем работать с tf.data.Dataset.

Dataset хранит информацию о конечном или бесконечном наборе кортежей (tuple) с данными и может возвращать эти наборы по очереди. Например, данными могут быть пары (input, target) для обучения нейросети. С данными можно осуществлять преобразования, которые осуществляются по мере необходимости ([lazy evaluation](https://ru.wikipedia.org/wiki/%D0%9B%D0%B5%D0%BD%D0%B8%D0%B2%D1%8B%D0%B5_%D0%B2%D1%8B%D1%87%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F)).

`tf.data.Dataset.from_tensor_slices(data)` - создает датасет из данных, которые представляют собой либо массив, либо кортеж из массивов. Деление осуществляется по первому индексу каждого массива. Например, если `data = (np.zeros((128, 256, 256)), np.zeros(128))`, то датасет будет содержать 128 элементов, каждый из которых содержит один массив 256x256 и одно число.

`dataset2 = dataset1.map(func)` - применение функции к датасету; функция должна принимать столько аргументов, каков размер кортежа в датасете 1 и возвращать столько, сколько нужно иметь в датасете 2. Пусть, например, датасет содержит изображения и метки, а нам нужно создать датасет только из изображений, тогда мы напишем так: `dataset2 = dataset.map(lambda img, label: img)`.

`dataset2 = dataset1.batch(8)` - группировка по батчам; если датасет 2 должен вернуть один элемент, то он берет из датасета 1 восемь элементов, склеивает их (нулевой индекс результата - номер элемента) и возвращает.

`dataset.__iter__()` - превращение датасета в итератор, из которого можно получать элементы методом `.__next__()`. Итератор, в отличие от самого датасета, хранит позицию текущего элемента. Можно также перебирать датасет циклом for.

`dataset2 = dataset1.repeat(X)` - датасет 2 будет повторять датасет 1 X раз.

Если нам нужно взять из датасета 1000 элементов и использовать их как тестовые, а остальные как обучающие, то мы напишем так:

`test_dataset = dataset.take(1000)
train_dataset = dataset.skip(1000)`

Датасет по сути неизменен: такие операции, как map, batch, repeat, take, skip никак не затрагивают оригинальный датасет. Если датасет хранит элементы [1, 2, 3], то выполнив 3 раза подряд функцию dataset.take(1) мы получим 3 новых датасета, каждый из которых вернет число 1. Если же мы выполним функцию dataset.skip(1), мы получим датасет, возвращающий числа [2, 3], но исходный датасет все равно будет возвращать [1, 2, 3] каждый раз, когда мы его перебираем.

tf.Dataset всегда выполняется в graph-режиме (в противоположность eager-режиму), поэтому либо преобразования (`.map()`) должны содержать только tensorflow-функции, либо мы должны использовать tf.py_function в качестве обертки для функций, вызываемых в `.map()`. Подробнее можно прочитать [здесь](https://www.tensorflow.org/guide/data#applying_arbitrary_python_logic).

In [None]:
# NLP part, этот код уже был запущен выше
# tokenize = Tokenizer(num_words=MAX_WORDS)
# tokenize.fit_on_texts(data.description)

In [None]:
def process_image(image):
    return AUGMENTATIONS(image = image.numpy())['image']

def tokenize_(descriptions):
    return sequence.pad_sequences(tokenize.texts_to_sequences(descriptions), maxlen = MAX_SEQUENCE_LENGTH)

def tokenize_text(text):
    return tokenize_([text.numpy().decode('utf-8')])[0]

def tf_process_train_dataset_element(image, table_data, text, price):
    im_shape = image.shape
    [image,] = tf.py_function(process_image, [image], [tf.uint8])
    image.set_shape(im_shape)
    [text,] = tf.py_function(tokenize_text, [text], [tf.int32])
    return (image, table_data, text), price

def tf_process_val_dataset_element(image, table_data, text, price):
    [text,] = tf.py_function(tokenize_text, [text], [tf.int32])
    return (image, table_data, text), price

train_dataset = tf.data.Dataset.from_tensor_slices((
    images_train, X_train, data.description.iloc[X_train.index], y_train
    )).map(tf_process_train_dataset_element)

test_dataset = tf.data.Dataset.from_tensor_slices((
    images_test, X_test, data.description.iloc[X_test.index], y_test
    )).map(tf_process_val_dataset_element)

y_sub = np.zeros(len(X_sub))
sub_dataset = tf.data.Dataset.from_tensor_slices((
    images_sub, X_sub, data.description.iloc[X_sub.index], y_sub
    )).map(tf_process_val_dataset_element)

#проверяем, что нет ошибок (не будет выброшено исключение):
train_dataset.__iter__().__next__();
test_dataset.__iter__().__next__();
sub_dataset.__iter__().__next__();

In [None]:
size

### Строим сверточную сеть для анализа изображений без "головы"

In [None]:
#нормализация включена в состав модели EfficientNetB3, поэтому на вход она принимает данные типа uint8
efficientnet_model = tf.keras.applications.efficientnet.EfficientNetB3(weights = 'imagenet', include_top = False, input_shape = (size[1], size[0], 3))
efficientnet_output = L.GlobalAveragePooling2D()(efficientnet_model.output) #при последующем применении FineTuning efficientnet_output нам не потребуется


In [None]:
# применяем FineTuning
efficientnet_model.trainable = False
base_model=Sequential()
base_model.add(efficientnet_model)
base_model.add(L.GlobalAveragePooling2D(),)
base_model.add(L.Dense(512,activation='relu')) 
base_model.add(L.Dropout(0.5)) 
# base_model_effic.add(L.BatchNormalization()) #
# base_model_effic.add(L.Dense(CLASS_NUM, activation='softmax'))

In [None]:
base_model.summary()

In [None]:
# сколько слоев и обучаемых переменных
print('layers: ', len(base_model.layers))
print('trainable_variables: ',len(base_model.trainable_variables))

In [None]:
# нейросеть для анализа табличных данных 
tabular_model = Sequential([
    L.Input(shape = X.shape[1]),
    L.Dense(512, activation = 'sigmoid'),  # изменим функцию активации
    L.LayerNormalization(),
    L.Dropout(0.5),
    L.Dense(256, activation = 'relu'),#добавили еще один полносвязный слой 
    L.Dense(256, activation = 'relu'),
    L.Dropout(0.5),
    ])


In [None]:
# NLP
nlp_model = Sequential([
    L.Input(shape=MAX_SEQUENCE_LENGTH, name="seq_description"),
    L.Embedding(len(tokenize.word_index)+1, MAX_SEQUENCE_LENGTH,),
    L.LSTM(256, return_sequences=True),
    L.Dropout(0.5),
    L.Dense(128, activation = 'sigmoid'), #добавили полносвязный слой с функцией активации sigmoid
    L.Dropout(0.5),
    L.LSTM(64),
    L.Dropout(0.25),
    L.Dense(64),
    L.Dropout(0.25)
    ])

In [None]:
# объединяем
combinedInput = L.concatenate([base_model.output, tabular_model.output, nlp_model.output])

# being our regression head
head = L.Dense(256, activation="relu")(combinedInput)
head = L.Dense(1,)(head)

model = Model(inputs=[base_model.input, tabular_model.input, nlp_model.input], outputs=head)
model.summary()

In [None]:
optimizer = tf.keras.optimizers.Adam(0.005)
model.compile(loss='MAPE',optimizer=optimizer, metrics=['MAPE'])

In [None]:
checkpoint = ModelCheckpoint('../working/best_model.hdf5', monitor='val_MAPE', verbose=0, mode='min')
earlystop = EarlyStopping(monitor='val_MAPE', patience=10, restore_best_weights=True,)
callbacks_list = [checkpoint, earlystop]

In [None]:
%%time

history = model.fit(train_dataset.batch(30),
                    epochs=500, 
                    validation_data = test_dataset.batch(30),
                    callbacks=callbacks_list
                   )

In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

In [None]:
test_predict_nn3 = model.predict(test_dataset.batch(30))
print(f"TEST mape: {(mape(y_test, test_predict_nn3[:,0]))*100:0.2f}%")

In [None]:
# второй этап FineTuning, "разморозим" часть последних переменных efficientnet_model, основанной на EfficientNetB3
efficientnet_model.trainable = True

# Fine-tune from this layer onwards
fine_tune_at = 200

# Freeze all the layers before the `fine_tune_at` layer
for layer in efficientnet_model.layers[:fine_tune_at]:
    layer.trainable =  False

In [None]:
print('Количество тренируемых переменных в efficientnet_model: ',len(efficientnet_model.trainable_variables))
print('Количество тренируемых переменных в общей модели: ',len(model.trainable_variables))

In [None]:
%%time

history = model.fit(train_dataset.batch(30),
                    epochs=500, 
                    validation_data = test_dataset.batch(30),
                    callbacks=callbacks_list
                   )

In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

In [None]:
test_predict_nn3 = model.predict(test_dataset.batch(30))
print(f"TEST mape: {(mape(y_test, test_predict_nn3[:,0]))*100:0.2f}%")

In [None]:
# третий этап FineTuning, "разморозим" еще 100 переменных efficientnet_model, основанной на EfficientNetB3
efficientnet_model.trainable = True

# Fine-tune from this layer onwards
fine_tune_at = 100

# Freeze all the layers before the `fine_tune_at` layer
for layer in efficientnet_model.layers[:fine_tune_at]:
    layer.trainable =  False

In [None]:
print('Количество тренируемых переменных в efficientnet_model: ',len(efficientnet_model.trainable_variables))
print('Количество тренируемых переменных в общей модели: ',len(model.trainable_variables))

In [None]:
%%time

history = model.fit(train_dataset.batch(30),
                    epochs=500, 
                    validation_data = test_dataset.batch(30),
                    callbacks=callbacks_list
                   )

In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

In [None]:
test_predict_nn3 = model.predict(test_dataset.batch(30))
print(f"TEST mape: {(mape(y_test, test_predict_nn3[:,0]))*100:0.2f}%")

In [None]:
# заключительный этап FineTuning - "размораживаем" все переменные efficientnet_model
efficientnet_model.trainable = True

In [None]:
print('Количество тренируемых переменных в efficientnet_model: ',len(efficientnet_model.trainable_variables))
print('Количество тренируемых переменных в общей модели: ',len(model.trainable_variables))

In [None]:
model.summary()

In [None]:
history = model.fit(train_dataset.batch(30),
                    epochs=500,
                    validation_data = test_dataset.batch(30),
                    callbacks=callbacks_list
                   )

In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

In [None]:
test_predict_nn3 = model.predict(test_dataset.batch(30))
print(f"TEST mape: {(mape(y_test, test_predict_nn3[:,0]))*100:0.2f}%")

In [None]:
# model.load_weights('../working/best_model.hdf5')
# model.save('../working/nn_final.hdf5')

In [None]:
sub_predict_nn3 = model.predict(sub_dataset.batch(30))
sample_submission['price'] = sub_predict_nn3[:,0]
sample_submission.to_csv('nn3_submission.csv', index=False)


#### Общие рекомендации:
* Попробовать разные архитектуры
* Провести более детальный анализ результатов
* Попробовать различные подходы в управление LR и оптимизаторы
* Поработать с таргетом
* Использовать Fine-tuning

#### Tabular
* В нейросеть желательно подавать данные с распределением, близким к нормальному, поэтому от некоторых числовых признаков имеет смысл взять логарифм перед нормализацией. Пример:
`modelDateNorm = np.log(2020 - data['modelDate'])`
Статья по теме: https://habr.com/ru/company/ods/blog/325422

* Извлечение числовых значений из текста:
Парсинг признаков 'engineDisplacement', 'enginePower', 'Владение' для извлечения числовых значений.

* Cокращение размерности категориальных признаков
Признак name 'name' содержит данные, которые уже есть в других столбцах ('enginePower', 'engineDisplacement', 'vehicleTransmission'). Можно удалить эти данные. Затем можно еще сильнее сократить размерность, например выделив наличие xDrive в качестве отдельного признака.

* Поработать над Feature engineering



#### NLP
* Выделить из описаний часто встречающиеся блоки текста, заменив их на кодовые слова или удалив
* Сделать предобработку текста, например сделать лемматизацию - алгоритм ставящий все слова в форму по умолчанию (глаголы в инфинитив и т. д.), чтобы токенайзер не преобразовывал разные формы слова в разные числа
Статья по теме: https://habr.com/ru/company/Voximplant/blog/446738/
* Поработать над алгоритмами очистки и аугментации текста



#### CV
* Попробовать различные аугментации
* Fine-tuning

# Blend

In [None]:
blend_predict = (test_predict_catboost + test_predict_nn3[:,0]) / 2
print(f"TEST mape: {(mape(y_test, blend_predict))*100:0.2f}%")

In [None]:
blend_sub_predict = (sub_predict_catboost + sub_predict_nn3[:,0]) / 2
sample_submission['price'] = blend_sub_predict
sample_submission.to_csv('blend_submission.csv', index=False)

In [117]:
os.chdir(r'../working')
from IPython.display import FileLink
FileLink(r'blend_submission.csv')

In [None]:
# 