In [1]:
# установка и импорт библиотек
!pip install -q tensorflow==2.3
!pip install albumentations -q
!pip install pymystem3
#! pip install pymorphy2
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import random
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import os
import sys
import PIL
import cv2
import re

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

from catboost import CatBoostRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

# keras
import tensorflow as tf
import tensorflow.keras.layers as L
from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing import sequence
from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import *
import albumentations

import nltk
from nltk.corpus import wordnet
from nltk.corpus import stopwords
from tqdm import tqdm
#import pymorphy2
from string import punctuation
from pymystem3 import Mystem
from sklearn.feature_extraction.text import TfidfVectorizer
nltk.download('stopwords')
nltk.download('wordnet')

# plt
import matplotlib.pyplot as plt
import seaborn as sns
#увеличим дефолтный размер графиков
from pylab import rcParams
rcParams['figure.figsize'] = 10, 5
#графики в svg выглядят более четкими
%config InlineBackend.figure_format = 'svg' 
%matplotlib inline

# You can write up to 5GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [2]:
print('Python       :', sys.version.split('\n')[0])
print('Numpy        :', np.__version__)
#print('Tensorflow   :', tf.__version__)

In [3]:
# фиксируем значения
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)
x_size = 8
y_size = 5

In [4]:
def mape(y_true, y_pred):
    """функция для определения целевой метрики"""
    return np.mean(np.abs((y_pred-y_true)/y_true))

def getCountPlot(df, feature, x_s=x_size, y_s=y_size):
    """функция для построения каунтпловот для категорийных признаков"""
    plt.figure(figsize=(x_s, y_s))
    sns.countplot(data=df,
            order = df[feature].value_counts().index, 
            y=feature)
    plt.title(f'Распределение значений признака {feature}')
    plt.show;
    
def emission_replacement(df, column, method='median'):
    '''
    Заменяет выбросы в серии вычисленным значением 
    method='median' - замена на медиану
    method='average' - замена на среднее
    method ='probable' - вероятностное распределение
    '''
    IQR = df[column].quantile(0.75) - df[column].quantile(0.25)
    perc25 = df[column].quantile(0.25)
    perc75 = df[column].quantile(0.75)

    f = perc25 - 1.5*IQR
    l = perc75 + 1.5*IQR

    if method =='median':
        df.loc[(df[column] < f) | (df[column] > l), column] = df[column].median()
    elif method =='average':
        df.loc[(df[column] < f) | (df[column] > l), column] = df[column].mean()
    elif method =='probable':
        # замена выбросов на nan 
        df[column] = np.where((df[column] < f) | (df[column] > l), np.nan, df[column])
        mask = df[column].isna()
        # статистика распределения значений
        p = df[column].value_counts() / len(df[column].dropna())
        # заполняем пропуски с вероятностью `p`
        df.loc[mask, column] = np.random.choice(p.index.to_list(),
                                            size=mask.sum(), 
                                            p=p.to_list())

In [5]:
!pip freeze > requirements.txt

# DATA

типы признаков:

* bodyType - категориальный
* brand - категориальный
* color - категориальный
* description - текстовый
* engineDisplacement - числовой, представленный как текст
* enginePower - числовой, представленный как текст
* fuelType - категориальный
* mileage - числовой
* modelDate - числовой
* model_info - категориальный
* name - категориальный, желательно сократить размерность
* numberOfDoors - категориальный
* price - числовой, целевой
* productionDate - числовой
* sell_id - изображение (файл доступен по адресу, основанному на sell_id)
* vehicleConfiguration - не используется (комбинация других столбцов)
* vehicleTransmission - категориальный
* Владельцы - категориальный
* Владение - числовой, представленный как текст
* ПТС - категориальный
* Привод - категориальный
* Руль - категориальный

In [6]:
# загружаем данные 
DATA_DIR = '../input/sf-dst-car-price-prediction-part2/'
train = pd.read_csv(DATA_DIR + 'train.csv')
test = pd.read_csv(DATA_DIR + 'test.csv')
sample_submission = pd.read_csv(DATA_DIR + 'sample_submission.csv')

# Model 1: Создадим "наивную" модель 
Эта модель будет предсказывать среднюю цену по модели и году выпуска. 
C ней будем сравнивать другие модели.



In [7]:
# split данных
data_train, data_test = train_test_split(train, test_size=0.15, shuffle=True, random_state=RANDOM_SEED)

In [8]:
# Наивная модель
predicts = []
for index, row in pd.DataFrame(data_test[['model_info', 'productionDate']]).iterrows():
    query = f"model_info == '{row[0]}' and productionDate == '{row[1]}'"
    predicts.append(data_train.query(query)['price'].median())

# заполним не найденные совпадения
predicts = pd.DataFrame(predicts)
predicts = predicts.fillna(predicts.median())

# округлим
predicts = (predicts // 1000) * 1000

#оцениваем точность
print(f"Точность наивной модели по метрике MAPE: {(mape(data_test['price'], predicts.values[:, 0]))*100:0.2f}%")

Точность наивной модели по метрике MAPE: 19.88%

# EDA and preproc

In [9]:
train['sample'] = 1 # помечаем где у нас трейн
test['sample'] = 0 # помечаем где у нас тест
test['price'] = 0 # в тесте у нас нет значения price, мы его должны предсказать, поэтому пока просто заполняем нулями

data = test.append(train, sort=False).reset_index(drop=True) # объединяем
print(train.shape, test.shape, data.shape)

In [10]:
data.info()

In [11]:
# взглянем на количество пропусков
data.isnull().sum()

In [12]:
# проверим на дубликаты
len(data.drop_duplicates()) - len(data)

## Осмотрим признаки

In [13]:
# bodyType
getCountPlot(data,'bodyType', 5, 3)

In [14]:
# brand
getCountPlot (data,'brand', 4, 2)

In [15]:
# color
getCountPlot(data,'color', 5, 4)

In [16]:
# engineDisplacement
getCountPlot(data,'engineDisplacement', 8, 12)

In [17]:
# извлечём цифры
data['engineDisplacement'] = data['engineDisplacement'].astype(str).apply(lambda x: x.split()[0])
# заменим неопределённость на число
data['engineDisplacement'] =  data['engineDisplacement'].replace('undefined', 0.0)
# приведём всё к одному формату
data['engineDisplacement'] = data['engineDisplacement'].astype(float)

In [18]:
# enginePower
data['enginePower'].unique()

In [19]:
# извлечём цифры мощности и приведём к удобному формату
data['enginePower'] = data['enginePower'].str.split().apply(lambda x: x[0]) 
data['enginePower'] = data['enginePower'].apply(lambda x: int(x))

In [20]:
# fuelType
getCountPlot(data,'fuelType', 5, 2)

In [21]:
# model_info
data['model_info'].unique()

In [22]:
# name
data['name'].sample(10)

In [23]:
# большинство характеристик упоминаются в других столбцах
# вынесим отсюда пару признаков
data['4wd'] = data['name'].apply(lambda x: 1 if '4WD' in x else 0)
data['xdrive'] = data['name'].apply(lambda x: 1 if 'xDrive' in x else 0)

In [24]:
# и удалим
data.drop(['name'], axis=1, inplace=True)

In [25]:
# numberOfDoors
getCountPlot(data,'numberOfDoors', 4, 2)

In [26]:
# vehicleConfiguration
data['vehicleConfiguration'].value_counts()

In [27]:
# все параметры упоминаются в других столбцах. удалим
data.drop(['vehicleConfiguration'], axis=1, inplace=True)

In [28]:
# vehicleTransmission
getCountPlot(data,'vehicleTransmission', 4.2, 2)

In [29]:
# Владельцы
getCountPlot(data,'Владельцы', 4, 2)

In [30]:
# Владение
data['Владение'].value_counts()

In [31]:
# больше половины значений пустые. удалим
data.drop(['Владение'], axis=1, inplace=True)

In [32]:
# ПТС
getCountPlot(data,'ПТС', 4, 2)

In [33]:
# Руль
getCountPlot(data,'Руль', 4, 2)

In [34]:
# нет вариативности признака. удалим
data.drop(['Руль'], axis=1, inplace=True)

In [35]:
# Привод
getCountPlot(data,'Привод', 4, 2)

In [36]:
#посмотрим, как выглядят распределения числовых признаков
def visualize_distributions(titles_values_dict):
  columns = min(3, len(titles_values_dict))
  rows = (len(titles_values_dict) - 1) // columns + 1
  fig = plt.figure(figsize = (columns * 5, rows * 3))
  for i, (title, values) in enumerate(titles_values_dict.items()):
    hist, bins = np.histogram(values, bins = 20)
    ax = fig.add_subplot(rows, columns, i + 1)
    ax.bar(bins[:-1], hist, width = (bins[1] - bins[0]) * 0.7)
    ax.set_title(title)
  plt.show()

visualize_distributions({
    'mileage': train['mileage'].dropna(),
    'modelDate': train['modelDate'].dropna(),
    'productionDate': train['productionDate'].dropna()
})

In [37]:
# избавимся от выбросов
emission_replacement(data, 'mileage', method='average')

In [38]:
# добавим призанки 
# лет в использовании
data['years_in_use'] = 2021 - data['productionDate']
# количество пробега за год
data['mileage_per_year'] = data['mileage'] / data['years_in_use']

In [39]:
#создали список категориальных
categorical_features = ['bodyType', 'brand', 'color', 'fuelType', 'model_info', '4wd', 'xdrive', 'numberOfDoors',
                        'vehicleTransmission', 'Владельцы', 'ПТС', 'Привод']

#cоздали список числовых признаков
numerical_features = ['productionDate','modelDate', 'mileage',
                     'years_in_use', 'mileage_per_year', 'enginePower', 'engineDisplacement']

In [40]:
#логарифмируем числовые признаки

for col in data[numerical_features]:
    data[col] = data[col].apply(lambda x: np.log(x) if x>0 else x)

In [41]:
def preproc_data(df_input):
    '''функция для удаления лишний признаков, энкодингов'''
    
    df_output = df_input.copy()
    
    # убираем не нужные для модели признаки
    df_output.drop(['description','sell_id'], axis = 1, inplace=True)
    
     
    # Далее заполняем пропуски
    for column in numerical_features:
        df_output[column].fillna(df_output[column].median(), inplace=True)

    
    # Нормализация данных
    scaler = MinMaxScaler()
    for column in numerical_features:
        df_output[column] = scaler.fit_transform(df_output[[column]])[:,0]
    
    # Label Encoding
    for column in categorical_features:
        df_output[column] = df_output[column].astype('category').cat.codes
        
    # One-Hot Encoding
    df_output = pd.get_dummies(df_output, columns=categorical_features, dummy_na=False)
    
    
    return df_output

# Запускаем и проверяем, что получилось
df_preproc = preproc_data(data)
df_preproc.sample(10)

In [42]:
# логарифмируем целевую переменную
df_preproc['price'] = data['price'].apply(lambda x: np.log(x) if x>0 else x)

## Split data

In [43]:
# Теперь выделим тестовую часть
train_data = df_preproc.query('sample == 1').drop(['sample'], axis=1)
test_data = df_preproc.query('sample == 0').drop(['sample'], axis=1)

y = train_data.price.values     # наш таргет
X = train_data.drop(['price'], axis=1)
X_sub = test_data.drop(['price'], axis=1)

### CatBoostRegressor

In [44]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, shuffle=True, random_state=RANDOM_SEED)

In [45]:
model = CatBoostRegressor(iterations = 5000,
                          #depth=10,
                          #learning_rate = 0.5,
                          random_seed = RANDOM_SEED,
                          eval_metric='MAPE',
                          custom_metric=['RMSE', 'MAE'],
                          od_wait=500,
                          #task_type='GPU',
                         )
model.fit(X_train, y_train,
         eval_set=(X_test, y_test),
         verbose_eval=100,
         use_best_model=True,
         #plot=True
         )

In [46]:
test_predict_catboost = model.predict(X_test)
print(f"TEST mape: {(mape(np.exp(y_test), np.exp(test_predict_catboost)))*100:0.2f}%")

TEST mape: TEST mape: 11.08%

### Submission

In [47]:
sub_predict_catboost = model.predict(X_sub)
sample_submission['price'] = np.exp(sub_predict_catboost)
sample_submission.to_csv('catboost_submission.csv', index=False)

### LightAutoML

In [48]:
!pip install LightAutoML

In [49]:
from lightautoml.automl.presets.tabular_presets import TabularAutoML
from lightautoml.tasks import Task

In [50]:
# сплитим 
tr_data, valid_data = train_test_split(train_data, test_size=0.2,random_state=42)

In [51]:
# определим параметры обучения 
task = Task('reg', metric='mape',greater_is_better=False,loss='mape')

automl = TabularAutoML(task = task,
                       timeout = 1500,
                       cpu_limit = 4,
                       general_params = {'use_algos':'auto'}
                      )

In [52]:
# обучаем модель
oof_pred = automl.fit_predict(
    train_data,
    roles = {'target': 'price'})

In [53]:
# предсказываем
valid_pred = automl.predict(valid_data)

In [54]:
print(f"OOF mape: {(mape((train_data['price'].values), oof_pred.data[:, 0]))*100:0.2f}%")
print(f"VAL mape: {(mape(valid_data['price'].values, valid_pred.data[:, 0]))*100:0.2f}%")

In [55]:
test_pred = automl.predict(test_data)

In [None]:
sample_submission['price'] = ((test_pred.data[:, 0])).astype(int)
sample_submission.to_csv('lama.csv', index = False)

# Tabular NN

Построим обычную сеть:

In [None]:
X_train.head(5)

## Simple Dense NN

In [None]:
model = Sequential()
model.add(L.Dense(512, input_dim=X_train.shape[1], activation="relu"))
model.add(L.Dropout(0.5))
model.add(L.Dense(256, activation="relu"))
model.add(L.Dropout(0.5))
model.add(L.Dense(1, activation="linear"))

In [None]:
# model.summary()

In [None]:
all_preds = []
all_subs = []

for i in range(10):
    model = Sequential([
        L.Dense(1000, 'relu'),
        L.Dropout(0.6),
        L.Dense(1000, 'relu'),
        L.Dropout(0.6),
        L.Dense(1)
    ])

    model.compile(loss='mape', optimizer=Adam(1e-2))
    model.fit(X_train, np.exp(y_train), batch_size=256, epochs=500,
              validation_data=(X_test, np.exp(y_test)), verbose=0,
              callbacks=[
                  EarlyStopping(monitor='val_mape', patience=50, restore_best_weights=True),
                  ReduceLROnPlateau(monitor='val_mape', patience=40, factor=0.1)
              ])

    preds = model.predict(X_test)[:,0]
    print(mape(np.exp(y_test), preds)*100)
    all_preds.append(preds)
    all_subs.append(model.predict(X_sub))

print(mape(np.exp(y_test), np.array(all_preds).mean(axis=0))*100)

In [None]:
print(mape(np.exp(y_test), np.array(all_preds).mean(axis=0))*100)

In [None]:
#sub_predict_nn1 = model.predict(X_sub)
sample_submission['price'] = np.array(all_subs).mean(axis=0)
sample_submission.to_csv('nn1_submission.csv', index=False)

# Model 4: NLP + Multiple Inputs

In [None]:
# data.description[0]

In [None]:
# TOKENIZER
# максимальное количество слов использовано
MAX_WORDS = 100000
# максимальное количество слов в строке
MAX_SEQUENCE_LENGTH = 256

In [None]:
# Лемматизируем и удалим стоп слова
#mystem = Mystem() 
#russian_stopwords = stopwords.words("russian")
#
#def preprocess_text(text):
#    """функция для предобработки текста"""
#    tokens = mystem.lemmatize(text.lower())
#    tokens = [token for token in tokens if token not in russian_stopwords\
#             and token != " " \
#             and token.strip() not in punctuation]
#    text = " ".join(tokens)
#
#    return text

In [None]:
# предобработку не используем, так как качество с ней лучше не становится
#df_preproc['description_preproc'] = data['description'].apply(preprocess_text)

df_preproc['description_preproc'] = data['description']

In [None]:
#%%time
tokenize = Tokenizer(num_words=MAX_WORDS)
tokenize.fit_on_texts(df_preproc.description_preproc)
#tokenize.word_index

In [None]:
# split данных
text_train = df_preproc.description_preproc.iloc[X_train.index]
text_test = df_preproc.description_preproc.iloc[X_test.index]
text_sub = df_preproc.description_preproc.iloc[X_sub.index]

# %%time
text_train_sequences = sequence.pad_sequences(tokenize.texts_to_sequences(text_train), maxlen=MAX_SEQUENCE_LENGTH)
text_test_sequences = sequence.pad_sequences(tokenize.texts_to_sequences(text_test), maxlen=MAX_SEQUENCE_LENGTH)
text_sub_sequences = sequence.pad_sequences(tokenize.texts_to_sequences(text_sub), maxlen=MAX_SEQUENCE_LENGTH)

print(text_train_sequences.shape, text_test_sequences.shape, text_sub_sequences.shape, )

In [None]:
# вот так теперь выглядит наш текст
print(text_train.iloc[6])
print(text_train_sequences[6])

### RNN NLP

In [None]:
model_nlp = Sequential()
model_nlp.add(L.Input(shape=MAX_SEQUENCE_LENGTH, name="seq_description"))
model_nlp.add(L.Embedding(len(tokenize.word_index)+1, MAX_SEQUENCE_LENGTH,))
model_nlp.add(L.LSTM(256, return_sequences=True))
model_nlp.add(L.Dropout(0.5))
model_nlp.add(L.LSTM(128,))
model_nlp.add(L.Dropout(0.25))
model_nlp.add(L.Dense(64, activation="relu"))
model_nlp.add(L.Dropout(0.25))

### MLP

In [None]:
model_mlp = Sequential()
model_mlp.add(L.Dense(512, input_dim=X_train.shape[1], activation="relu"))
model_mlp.add(L.Dropout(0.5))
model_mlp.add(L.Dense(256, activation="relu"))
model_mlp.add(L.Dropout(0.5))

### Multiple Inputs NN

In [None]:
combinedInput = L.concatenate([model_nlp.output, model_mlp.output])
# being our regression head
head = L.Dense(64, activation="relu")(combinedInput)
head = L.Dense(1, activation="linear")(head)

model = Model(inputs=[model_nlp.input, model_mlp.input], outputs=head)

In [None]:
#model.summary()

### Fit

In [None]:
optimizer = tf.keras.optimizers.Adam(0.01)
model.compile(loss='MAPE',optimizer=optimizer, metrics=['MAPE'])

In [None]:
checkpoint = ModelCheckpoint('../working/best_model.hdf5', monitor=['val_MAPE'], verbose=0, mode='min')
earlystop = EarlyStopping(monitor='val_MAPE', patience=10, restore_best_weights=True,)
callbacks_list = [checkpoint, earlystop]

In [None]:
history = model.fit([text_train_sequences, X_train], np.exp(y_train),
                    batch_size=512,
                    epochs=500, # фактически мы обучаем пока EarlyStopping не остановит обучение
                    validation_data=([text_test_sequences, X_test], np.exp(y_test)),
                    callbacks= callbacks_list)

In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train', color='green')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

In [None]:
model.load_weights('../working/best_model.hdf5')
model.save('../working/nn_mlp_nlp.hdf5')

In [None]:
test_predict_nn2 = model.predict([text_test_sequences, (X_test)])
print(f"TEST mape: {(mape(np.exp(y_test), test_predict_nn2[:,0]))*100:0.2f}%")

TEST mape: 12.28%

In [None]:
#sub_predict_nn2 = model.predict([text_sub_sequences, X_sub])
#sample_submission['price'] = sub_predict_nn2[:,0]
#sample_submission.to_csv('nn2_submission.csv', index=False)

### Добавляем картинки

In [None]:
# убедимся, что цены и фото подгрузились верно
plt.figure(figsize = (12,8))

random_image = train.sample(n = 9)
random_image_paths = random_image['sell_id'].values
random_image_cat = random_image['price'].values

for index, path in enumerate(random_image_paths):
    im = PIL.Image.open(DATA_DIR+'img/img/' + str(path) + '.jpg')
    plt.subplot(3, 3, index + 1)
    plt.imshow(im)
    plt.title('price: ' + str(random_image_cat[index]))
    plt.axis('off')
plt.show()

In [None]:
size = (320, 240)

def get_image_array(index):
    images_train = []
    for index, sell_id in enumerate(data['sell_id'].iloc[index].values):
        image = cv2.imread(DATA_DIR + 'img/img/' + str(sell_id) + '.jpg')
        assert(image is not None)
        image = cv2.resize(image, size)
        images_train.append(image)
    images_train = np.array(images_train)
    print('images shape', images_train.shape, 'dtype', images_train.dtype)
    return(images_train)

images_train = get_image_array(X_train.index)
images_test = get_image_array(X_test.index)
images_sub = get_image_array(X_sub.index)

In [None]:
from albumentations import (
    HorizontalFlip, IAAPerspective, ShiftScaleRotate, CLAHE, RandomRotate90,
    Transpose, ShiftScaleRotate, Blur, OpticalDistortion, GridDistortion, HueSaturationValue,
    IAAAdditiveGaussianNoise, GaussNoise, MotionBlur, MedianBlur, IAAPiecewiseAffine,
    IAASharpen, IAAEmboss, RandomBrightnessContrast, Flip, OneOf, Compose
)


#пример взят из официальной документации: https://albumentations.readthedocs.io/en/latest/examples.html
augmentation = Compose([
    HorizontalFlip(),
    OneOf([
        IAAAdditiveGaussianNoise(),
        GaussNoise(),
    ], p=0.2),
    OneOf([
        MotionBlur(p=0.2),
        MedianBlur(blur_limit=3, p=0.1),
        Blur(blur_limit=3, p=0.1),
    ], p=0.2),
    ShiftScaleRotate(shift_limit=0.0625, scale_limit=0.2, rotate_limit=15, p=1),
    OneOf([
        OpticalDistortion(p=0.3),
        GridDistortion(p=0.1),
        IAAPiecewiseAffine(p=0.3),
    ], p=0.2),
    OneOf([
        CLAHE(clip_limit=2),
        IAASharpen(),
        IAAEmboss(),
        RandomBrightnessContrast(),
    ], p=0.3),
    HueSaturationValue(p=0.3),
], p=1)

#пример
plt.figure(figsize = (12,8))
for i in range(9):
    img = augmentation(image = images_train[0])['image']
    plt.subplot(3, 3, i + 1)
    plt.imshow(img)
    plt.axis('off')
plt.show()

In [None]:
def make_augmentations(images):
    print('применение аугментаций', end = '')
    augmented_images = np.empty(images.shape)
    for i in range(images.shape[0]):
        if i % 200 == 0:
            print('.', end = '')
        augment_dict = augmentation(image = images[i])
        augmented_image = augment_dict['image']
        augmented_images[i] = augmented_image
    print('')
    return augmented_images

In [None]:
# TOKENIZER
# максимальное количество слов использовано
MAX_WORDS = 100000
# максимальное количество слов в строке
MAX_SEQUENCE_LENGTH = 256

# Лемматизируем и удалим стоп слова
mystem = Mystem() 
russian_stopwords = stopwords.words("russian")

def preprocess_text(text):
    """функция для предобработки текста"""
    tokens = mystem.lemmatize(text.lower())
    tokens = [token for token in tokens if token not in russian_stopwords\
             and token != " " \
             and token.strip() not in punctuation]
    text = " ".join(tokens)

    return text

#df_preproc['description_preproc'] = data['description'].apply(preprocess_text)
df_preproc['description_preproc'] = data['description']


# split данных
#text_train = df_preproc.description_preproc.iloc[X_train.index]
#text_test = df_preproc.description_preproc.iloc[X_test.index]
#text_sub = df_preproc.description_preproc.iloc[X_sub.index]

#%%time
tokenize = Tokenizer(num_words=MAX_WORDS)
tokenize.fit_on_texts(df_preproc.description_preproc)
#tokenize.word_index



Качество модели после препроцессинга description, стало хуже

In [None]:
def process_image(image):
    return augmentation(image = image.numpy())['image']

def tokenize_(descriptions):
    return sequence.pad_sequences(tokenize.texts_to_sequences(descriptions), maxlen = MAX_SEQUENCE_LENGTH)

def tokenize_text(text):
    return tokenize_([text.numpy().decode('utf-8')])[0]

def tf_process_train_dataset_element(image, table_data, text, price):
    im_shape = image.shape
    [image,] = tf.py_function(process_image, [image], [tf.uint8])
    image.set_shape(im_shape)
    [text,] = tf.py_function(tokenize_text, [text], [tf.int32])
    return (image, table_data, text), price

def tf_process_val_dataset_element(image, table_data, text, price):
    [text,] = tf.py_function(tokenize_text, [text], [tf.int32])
    return (image, table_data, text), price

train_dataset = tf.data.Dataset.from_tensor_slices((
    images_train, X_train, df_preproc['description_preproc'].iloc[X_train.index], np.exp(y_train)
    )).map(tf_process_train_dataset_element)

test_dataset = tf.data.Dataset.from_tensor_slices((
    images_test, X_test, df_preproc['description_preproc'].iloc[X_test.index], np.exp(y_test)
    )).map(tf_process_val_dataset_element)
y_sub = np.zeros(len(X_sub))
sub_dataset = tf.data.Dataset.from_tensor_slices((
    images_sub, X_sub, df_preproc['description_preproc'][X_sub.index], y_sub
    )).map(tf_process_val_dataset_element)

#проверяем, что нет ошибок (не будет выброшено исключение):
train_dataset.__iter__().__next__();
test_dataset.__iter__().__next__();
sub_dataset.__iter__().__next__();

In [None]:
# Строим сверточную сеть для анализа изображений без "головы"
#нормализация включена в состав модели EfficientNetB3, поэтому на вход она принимает данные типа uint8
efficientnet_model = tf.keras.applications.efficientnet.EfficientNetB3(weights = 'imagenet', include_top = False, input_shape = (size[1], size[0], 3))
efficientnet_output = L.GlobalAveragePooling2D()(efficientnet_model.output)

In [None]:
#строим нейросеть для анализа табличных данных
tabular_model = Sequential([
    L.Input(shape = X.shape[1]),
    L.Dense(512, activation = 'relu'),
    L.Dropout(0.5),
    L.Dense(256, activation = 'relu'),
    L.Dropout(0.5),
    ])

In [None]:
# NLP
nlp_model = Sequential([
    L.Input(shape=MAX_SEQUENCE_LENGTH, name="seq_description"),
    L.Embedding(len(tokenize.word_index)+1, MAX_SEQUENCE_LENGTH,),
    L.LSTM(256, return_sequences=True),
    L.Dropout(0.5),
    L.LSTM(128),
    L.Dropout(0.25),
    L.Dense(64),
    ])

In [None]:
#объединяем выходы трех нейросетей
combinedInput = L.concatenate([efficientnet_output, tabular_model.output, nlp_model.output])

# being our regression head
head = L.Dense(256, activation="relu")(combinedInput)
head = L.Dense(1,)(head)

model = Model(inputs=[efficientnet_model.input, tabular_model.input, nlp_model.input], outputs=head)
#model.summary()

In [None]:
optimizer = tf.keras.optimizers.Adam(0.005)
model.compile(loss='MAPE',optimizer=optimizer, metrics=['MAPE'])

In [None]:
checkpoint = ModelCheckpoint('../working/best_model.hdf5', monitor=['val_MAPE'], verbose=0, mode='min')
earlystop = EarlyStopping(monitor='val_MAPE', patience=10, restore_best_weights=True,)
callbacks_list = [checkpoint, earlystop]

In [None]:
history = model.fit(train_dataset.batch(30),
                    epochs=100,
                    validation_data = test_dataset.batch(30),
                    callbacks=callbacks_list)

In [None]:
plt.title('Loss')
plt.plot(history.history['MAPE'], label='train')
plt.plot(history.history['val_MAPE'], label='test')
plt.show();

In [None]:
model.load_weights('../working/best_model.hdf5')
model.save('../working/nn_final.hdf5')

In [None]:
test_predict_nn3 = model.predict(test_dataset.batch(30))
print(f"TEST mape: {(mape(np.exp(y_test), test_predict_nn3[:,0]))*100:0.2f}%")

TEST mape: 13.12%


In [None]:
sub_predict_nn3 = model.predict(sub_dataset.batch(30))
sample_submission['price'] = sub_predict_nn3[:,0]
sample_submission.to_csv('nn3_submission.csv', index=False)

### Blend

In [None]:
blend_predict = (np.exp(test_predict_catboost) + test_predict_nn3[:,0]) / 2
print(f"TEST mape: {(mape(np.exp(y_test), blend_predict))*100:0.2f}%")

TEST mape: 10.91%


TEST mape: 10.94% c предобработкой description

In [None]:
blend_sub_predict = (np.exp(sub_predict_catboost) + sub_predict_nn3[:,0]) / 2
sample_submission['price'] = blend_sub_predict
sample_submission.to_csv('blend_submission.csv', index=False)

****Итог****

В результате, лучшую обучающую способнось показал блэндинг из катбуста и нейросети с предобработанными табличными значениями, картинками и nlp без предобработанного description. 