# Описание задачи
## В задачи пректа входит:
- Нахождение данных для обученяи модели: парсинг и/или иные источники;
- Предобработка полученных данных
- Создание новых признаков с использованием полученных данных;
- Отбор признаков;
- Отбор моделей;
- Обучение и тестирование отобранных моделей на отобранных признаках;
- Подбор макропараметров модели на отобранных признаках;
- Получение предсказанных моделью значений, подготовка и отправка submission

# Импорт библиотек, установка параметров, определение функций
## Импорт бибилиотек

In [1]:
import pandas as pd
import numpy as np
import json 
from datetime import datetime
from datetime import date

from pprint import pprint

import warnings
import os

## Установка параметров

In [2]:
%pylab inline

warnings.filterwarnings("ignore")

pd.set_option('display.max_rows', 70)    # выведем больше строк
pd.set_option('display.max_columns', 30) # выведем больше колонок

# альтернативные пути для kaggle и локальный (НЕ ЗАБЫВАТЬ МЕНЯТЬ!)
path = './Project_5_data/'
# path = '/kaggle/input/.....'

# фиксация randomstate
RANDOM_SEED = 42

Populating the interactive namespace from numpy and matplotlib


`%matplotlib` prevents importing * from pylab and numpy
  "\n`%matplotlib` prevents importing * from pylab and numpy"


## Определение функций

In [3]:
def describe_df(df):
    '''
    Вывод простой статистки DataFrame
    '''
    desc = df.describe(include='all',percentiles=[0.5]).drop(index=['mean','std','50%']).T 
    desc['type'] = [type(x) for x in df.iloc[0]]
    desc['NaN_prop'] = round(df.isna().sum()/len(df),3)
    desc.unique = df.nunique()
    desc.top = df.mode(axis=0).iloc[0]
    desc.top = [str(x)[:30] for x in df.mode(axis=0).iloc[0]]

    desc.freq = [df[col].value_counts().iloc[0] for col in  df.columns]
    
    return desc

def cat_visualisation():
    pass

def num_visualisation():
    pass

# Изучение  валидационных данных 

Что бы понимать какие признаки нам нужны для обучения модели нам необходимо узнать какие признаки описывают наблюдения, для которых мы должны предсказать целевую переменную.  

Поэтому для начала исследуем набор данных эти наблюдения описывающие.

In [4]:
df_test = pd.read_csv(f'{path}test.csv')

### Общий обзор

In [5]:
df_test.info(verbose=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34686 entries, 0 to 34685
Columns: 32 entries, bodyType to Таможня
dtypes: int64(6), object(26)
memory usage: 8.5+ MB


In [6]:
describe_df(df_test)

Unnamed: 0,count,unique,top,freq,min,max,type,NaN_prop
bodyType,34686,24,седан,13147,,,<class 'str'>,0.0
brand,34686,12,BMW,4473,,,<class 'str'>,0.0
car_url,34686,34686,https://auto.ru/cars/used/sale,1,,,<class 'str'>,0.0
color,34686,16,чёрный,11010,,,<class 'str'>,0.0
complectation_dict,6418,2364,"{""id"":""4562904"",""name"":""Elegan",51,,,<class 'float'>,0.815
description,34686,31732,Выгода до 82 000 руб. при обме,264,,,<class 'str'>,0.0
engineDisplacement,34686,55,2.0 LTR,7391,,,<class 'str'>,0.0
enginePower,34686,315,249 N12,1708,,,<class 'str'>,0.0
equipment_dict,24690,23705,"{""leather"":true}",108,,,<class 'str'>,0.288
fuelType,34686,5,бензин,28601,,,<class 'str'>,0.0


Всего в исходном валидационном датасете 32 колонки с разными типами данных (6 int, 26 object) и разыми типами признаков:   
-бинарные (в колонках `vendor`, `ПТС`, `Руль`);   
-категориальные (например в колонках `bodyType`, `brand`, `color`, `Владельцы`);  
-количественные (например в `enginePower` или `mileage`).  

Некоторын колонки содержат словари или длинные строки, содержащие сразу несколько признаков. 

Колонка `brand` содержит 12 уникальных значений. Это позволяет нам существенно сократить обьем работы по парсингу, ведь релевантными будут только данные по этим 12 брендам, поэтому только по ним и будем собирать информацию.

Колонка `car_url` содержит ссылки на обьявления о продаже авто на сайте ***auto.ru***, что как бы намекает, что валидационный набор спарсен с сайта ***auto.ru***. Воспользуемся этим же источником.

Три колонки  `priceCurrency`, `Состояние` и `Таможня` содержат только одно уникальное хначение, они ненесут никакой информации, поэтому исключим их из рассмотрения.  
  
Теперь следует ознакомиться с  каждым признак/колонку более детально. Это позволит нам понять в каком виде/формате содержится информация в колонках и соответсвенно сформировать набор данных для обучения в том же виде/формате. Так же детальное ознакомлене позволит окончательно определится с необходимость включения информации из колонок в рассмотрение моделью. В случае включения данных в рассмотрение моделью, провеем EDA. 

### Детальное ознакомление
### bodyType

In [7]:
df_test.bodyType.sample(3)

33133    внедорожник 5 дв.
9118                 седан
15280    внедорожник 5 дв.
Name: bodyType, dtype: object

In [8]:
df_test.bodyType.unique()

array(['лифтбек', 'внедорожник 5 дв.', 'хэтчбек 5 дв.', 'седан',
       'компактвэн', 'универсал 5 дв.', 'пикап одинарная кабина',
       'хэтчбек 3 дв.', 'купе', 'кабриолет', 'минивэн',
       'пикап двойная кабина', 'внедорожник 3 дв.', 'родстер', 'микровэн',
       'седан 2 дв.', 'купе-хардтоп', 'фастбек', 'тарга',
       'внедорожник открытый', 'лимузин', 'пикап полуторная кабина',
       'седан-хардтоп', 'фургон'], dtype=object)

Колонка содержит наименование типа кузова в виде строковой величины. Принимается в пассмоттение. 

### brand

In [9]:
df_test.brand.sample(3)

5337          HONDA
18854      MERCEDES
24696    VOLKSWAGEN
Name: brand, dtype: object

In [10]:
df_test.brand.unique()

array(['SKODA', 'AUDI', 'HONDA', 'VOLVO', 'BMW', 'NISSAN', 'INFINITI',
       'MERCEDES', 'TOYOTA', 'LEXUS', 'VOLKSWAGEN', 'MITSUBISHI'],
      dtype=object)

Колонка содержит наименование марки в виде строковой величины. Принимается в рассмотрение.

### car_url

In [11]:
df_test.car_url.sample(5)

15544    https://auto.ru/cars/used/sale/mercedes/glc_kl...
30390    https://auto.ru/cars/used/sale/volkswagen/tigu...
13082    https://auto.ru/cars/used/sale/nissan/x_trail/...
9116     https://auto.ru/cars/used/sale/bmw/3er/1084491...
4242     https://auto.ru/cars/used/sale/audi/a5/1101168...
Name: car_url, dtype: object

В этой колонке содержаться ссылки на обьявления о продаже, послужившие источником при парсинге `test`. В настоящий момент скорее всего ссылки уже не активны, потому колокна будет исключена из рассмотрения моделью. Но нформация в ней содержащаяся позволит нам проверить не попадают ли в тренировочный набор данных наблюдения из валидационного. 

### color

In [12]:
df_test.color.sample(3)

33416    чёрный
26508     белый
6276      белый
Name: color, dtype: object

In [13]:
df_test.color.unique()

array(['синий', 'чёрный', 'серый', 'коричневый', 'белый', 'пурпурный',
       'бежевый', 'серебристый', 'красный', 'зелёный', 'жёлтый',
       'голубой', 'оранжевый', 'фиолетовый', 'золотистый', 'розовый'],
      dtype=object)

Колонка содержит название цвета кузова, принимется в рассмотрение. 

### complectation_dict

In [14]:
df_test.complectation_dict.head(3)

0                                                  NaN
1                                                  NaN
2    {"id":"20026336","name":"Ambition","available_...
Name: complectation_dict, dtype: object

In [15]:
df_test.complectation_dict.loc[2]

'{"id":"20026336","name":"Ambition","available_options":["heated-wash-system","airbag-passenger","lock","door-sill-panel","electro-mirrors","mirrors-heat","cooling-box","computer","seat-transformation","wheel-power","fabric-seats","airbag-side","abs","wheel-leather","climate-control-1","esp","adaptive-light","audiopreparation","ashtray-and-cigarette-lighter","front-centre-armrest","electro-window-back","16-inch-wheels","body-mouldings","condition","airbag-driver","isofix","aux","electro-window-front","light-sensor","hcc","ptf","rain-sensor","tyre-pressure","audiosystem-cd","front-seats-heat","wheel-configuration2","wheel-configuration1","immo","12v-socket","third-rear-headrest"]}'

Колонка содержит словарь стандартной комплектации с наименованием комплектации и списком обрудования (зачастую стандартного, имеющегося в любом автомобиле, например "12v-socket" или "lock") входящим в такую комплектацию. Доля пррпусков (свыше 0.8), перечисление оборудования присутсвуюшегов любом авто данной марки и модели и наличие колонки `equipment_dict` с гораздо меньшим количеством пропусков позволяет исключить колонку из рассмотрения.

### description

In [16]:
print(df_test.description[0])

Все автомобили, представленные в продаже, проходят тщательную проверку по более 40 параметрам. Предоставляем гарантию юридической чистоты, а так же год технической гарантии на двигатель и КПП. Бесплатный тест-драйв. Возможно оформление автомобиля в кредит!

Преимущества автокредитования:
— Первоначальный взнос от 0%;
— Более 30 кредитных программ;
— Процентная ставка от 6% годовых;
— Срок кредита от 6 месяцев до 7 лет;
— Оформление кредита по двум документам;
— Досрочное погашение без штрафов и комиссий;
— Сумма кредита до 2 млн рублей;
— Оформление КАСКО – по желанию;
— Без справок и поручителей.

Сотрудничаем с 12 аккредитованными и сертифицированными банками РФ, среднее время ожидания решения банка 20–30 минут.

При покупке автомобиля по программе «Trade-in – выгодный обмен» или в кредит, получите дополнительную скидку до 80 000 рублей на данный автомобиль!

Записаться на тест-драйв, а так же получить подробную информацию можно у специалистов автоцентра по указанному номеру телефона

В колонке содержится текст, относящийся скорее к продавцу, чем к конкретному автомобилю. Поэтому на данном этапе ( и вероятно вообще) колонка исключается из рассмотрения.

### engineDisplacement

In [17]:
df_test.engineDisplacement.unique()

array(['1.2 LTR', '1.6 LTR', '1.8 LTR', '2.0 LTR', '1.4 LTR', '1.3 LTR',
       '1.0 LTR', '3.6 LTR', '1.5 LTR', '1.9 LTR', '2.8 LTR', '1.1 LTR',
       '2.5 LTR', '4.2 LTR', '3.0 LTR', '4.0 LTR', '5.9 LTR', '2.7 LTR',
       '3.1 LTR', '2.4 LTR', '5.2 LTR', '3.2 LTR', '4.1 LTR', '6.3 LTR',
       '2.3 LTR', '6.0 LTR', '2.2 LTR', '3.7 LTR', '2.9 LTR', '5.0 LTR',
       '3.3 LTR', '2.1 LTR', '2.6 LTR', ' LTR', '3.5 LTR', '1.7 LTR',
       '0.7 LTR', '4.4 LTR', '4.8 LTR', '5.4 LTR', '6.6 LTR', '4.9 LTR',
       '3.8 LTR', '3.4 LTR', '3.9 LTR', '4.6 LTR', '5.6 LTR', '4.5 LTR',
       '5.5 LTR', '6.2 LTR', '4.7 LTR', '4.3 LTR', '5.8 LTR', '5.3 LTR',
       '5.7 LTR'], dtype=object)

In [18]:
df_test.engineDisplacement.value_counts()[' LTR']

55

Колонка содержит обьем двигателя, принимется в рассмотрение. Следует отметить наличие скрытых пропусков (55 стрк `' LTR'`)

### enginePower

In [19]:
df_test.enginePower.unique()[:100]

array(['105 N12', '110 N12', '152 N12', '200 N12', '102 N12', '150 N12',
       '90 N12', '180 N12', '220 N12', '122 N12', '70 N12', '140 N12',
       '125 N12', '54 N12', '86 N12', '75 N12', '64 N12', '95 N12',
       '260 N12', '170 N12', '80 N12', '68 N12', '160 N12', '115 N12',
       '280 N12', '53 N12', '60 N12', '143 N12', '42 N12', '101 N12',
       '58 N12', '193 N12', '79 N12', '30 N12', '100 N12', '50 N12',
       '163 N12', '225 N12', '420 N12', '211 N12', '245 N12', '560 N12',
       '500 N12', '249 N12', '450 N12', '605 N12', '250 N12', '354 N12',
       '120 N12', '290 N12', '230 N12', '350 N12', '204 N12', '255 N12',
       '340 N12', '177 N12', '272 N12', '372 N12', '210 N12', '130 N12',
       '300 N12', '190 N12', '239 N12', '435 N12', '333 N12', '271 N12',
       '326 N12', '238 N12', '310 N12', '233 N12', '252 N12', '133 N12',
       '460 N12', '520 N12', '400 N12', '525 N12', '367 N12', '265 N12',
       '550 N12', '580 N12', '88 N12', '165 N12', '430 N12', '335 N

Колонка содержит мощность двигателя, принмается в рассмотрение.

### equipment_dict

In [20]:
dict.keys

<method 'keys' of 'dict' objects>

In [21]:
# ttt = df_test.equipment_dict.apply(lambda x: json.loads(x) if x==x else x)

In [22]:
# len(ttt[0])

In [23]:
# ttt.head()

In [24]:
# ttt.apply(lambda x: list(x.keys()) if x==x else []).sum()

In [25]:
df_test.equipment_dict.sample(5)

13931                                                  NaN
27593                                                  NaN
15825    {"engine-proof":true,"cruise-control":true,"es...
31604                                                  NaN
34316    {"cruise-control":true,"tinted-glass":true,"es...
Name: equipment_dict, dtype: object

In [26]:
# df_test.equipment_dict.apply(lambda x: json.loads(x) if x==x else x).sample(5)

В колонке много пропусков (почти 29%), не пропущенные значения представляют собой текстово епредсьавление словаря с перечислением оснащения автомобиля. В рассмотрнеие моделью будет приняты те пункты оснащения, что будут пересекаться с пунктами оснащения обучающего набора данных.

### fuelType

In [27]:
df_test.fuelType.unique()

array(['бензин', 'дизель', 'гибрид', 'электро', 'газ'], dtype=object)

Колонка содержит тип топлива. Принимается врассмотрнеи.

### image

In [28]:
df_test.image.sample(5)

3628     https://avatars.mds.yandex.net/get-autoru-vos/...
25353    https://avatars.mds.yandex.net/get-autoru-vos/...
11351    https://avatars.mds.yandex.net/get-autoru-vos/...
17447    https://autoru.naydex.net/ESooa9149/468b9eoMem...
10225    https://avatars.mds.yandex.net/get-autoru-vos/...
Name: image, dtype: object

Колонка содержит ссылки на фото или аватар авто, исключается из рассмотрения.

### mileage

In [29]:
df_test.mileage.sample(5)

13059    228000
31542    242248
24180     60000
20973     50200
26779    129600
Name: mileage, dtype: int64

Колонка содержит пробег авто, принмается в рассмотрениею

### modelDate

In [30]:
df_test.modelDate.unique()

array([2013, 2017, 2008, 2009, 2016, 2012, 2015, 2010, 2006, 2000, 2007,
       1994, 2004, 1999, 2005, 1976, 2001, 1969, 1996, 1998, 1989, 1934,
       2014, 2011, 2018, 1986, 1997, 1990, 2019, 2002, 1991, 1987, 1980,
       1982, 1938, 1988, 2003, 1983, 1978, 1979, 1984, 1992, 1995, 1993,
       1985, 1974, 1966, 1977, 1981, 1972, 1968, 1975, 1949, 1937, 1936,
       1973, 1959, 1958, 2020, 1965, 1971, 1904, 1963, 1955, 1951, 1960],
      dtype=int64)

Колонка содержит год начала выпуска модели, принимется в рассмотрние.

### model_info

In [31]:
df_test.model_info.sample(5)

22880    {"code":"LS","name":"LS","ru_name":"LS","morph...
15142    {"code":"FX","name":"FX","ru_name":"FX","morph...
31702    {"code":"GLE_KLASSE_AMG","name":"GLE AMG","ru_...
86       {"code":"OCTAVIA","name":"Octavia","ru_name":"...
34553    {"code":"CRESTA","name":"Cresta","ru_name":"Кр...
Name: model_info, dtype: object

Колонка содержит наименование модели в трех вариантах. Учитывая наличие `model_name` колонка исключается из рассмотрения

### model_name

In [32]:
df_test.model_name.sample(5)

1553        FABIA
31612    E_KLASSE
17792    S_KLASSE
13059       TIIDA
22975          LX
Name: model_name, dtype: object

Наименование модели. Принимается к рассмотрению.

### name

In [33]:
df_test.name.sample(5)

13487     1.6 MT (114 л.с.) 4WD
12309        3.5 CVT (249 л.с.)
23395         1.6 AT (110 л.с.)
651      1.8 AMT (152 л.с.) 4WD
6002      2.4 AT (166 л.с.) 4WD
Name: name, dtype: object

Колонка содержит расширение названия модели, указывающее на обьем двигателя и тип привода. Поскольку эта информация уже получена из других колонок, эта в рассмотрнеие не принимается

### numberOfDoors

In [34]:
df_test.numberOfDoors.unique()

array([5, 4, 2, 3, 0], dtype=int64)

Колонка содержит числовое представление количества дверей, принимется в рассмотрение.

### parsing_unixtime

Колонка судя по названию содержит время сбора информации в валидационный набор данных. Непосредственно для обученяи информация не нужна. Но время сбора поможет внести поправку на изменение коньюктуры(курс валюты и т.д.). 
Посмотрим на диапазон `parsing_unixtime`:

In [35]:
# datetime.utcfromtimestamp(df_test.parsing_unixtime.min())

In [36]:
# datetime.utcfromtimestamp(df_test.parsing_unixtime.max())

In [37]:
date.fromtimestamp(df_test.parsing_unixtime.min()),date.fromtimestamp(df_test.parsing_unixtime.max())

(datetime.date(2020, 10, 19), datetime.date(2020, 10, 26))

Как видим парсинг произведен с 19 по 26 октября 20-го года

### productionDate

In [38]:
df_test.productionDate.unique()

array([2014, 2017, 2012, 2011, 2019, 2018, 2010, 2020, 2016, 2013, 2006,
       2007, 2015, 2005, 2008, 2009, 1997, 2004, 2002, 1987, 2003, 2001,
       1976, 2000, 1998, 1995, 1999, 1993, 1939, 1996, 1984, 1990, 1991,
       1992, 1989, 1982, 1985, 1994, 1938, 1981, 1988, 1983, 1980, 1986,
       1978, 1970, 1979, 1977, 1972, 1975, 1969, 1950, 1953, 1949, 1937,
       1959, 1968, 1936, 1904, 1974, 1967, 1961, 1960, 1965, 1963, 1957,
       1952, 1973, 1948], dtype=int64)

Год производства автомобиля ( наверное наряду с моделью автомобиля самы значимый признак). Принмается в рассмотрнеие.

### sell_id

In [39]:
df_test.car_url[1]

'https://auto.ru/cars/used/sale/skoda/octavia/1100549428-595cadf2/'

In [40]:
df_test.sell_id[1]

1100549428

In [41]:
df_test.sell_id.unique()

array([1100575026, 1100549428, 1100658222, ..., 1101364889, 1101362518,
       1101256068], dtype=int64)

Колонка содержит ***id*** обьявления. Как непосредственный признак не интересен, в рассмотрение моделью не принимается. Но если предположить, что ***id*** отражает хронологический порядок появления обьявления, то, например, можно попробовать при "тонкой настройке" модели придать более новым обьявлениям больший вес при обучении.

### super_gen

In [42]:
df_test.super_gen[0]

'{"id":"10373605","displacement":1197,"engine_type":"GASOLINE","gear_type":"FORWARD_CONTROL","transmission":"ROBOT","power":105,"power_kvt":77,"human_name":"1.2 AMT (105 л.с.)","acceleration":10.5,"clearance_min":155,"fuel_rate":5}'

Колонка содержит ***id*** и параметры автомобиля, которые либо являются по сути атрибутами модели (у всех автомобилей одной модели одинаковый клиренс) либо уже известны нам из других колонок (например тип трансмиссии). В рассмотрнеи не принимается.

### vehicleConfiguration

In [43]:
df_test.vehicleConfiguration.sample(5)

9024      ALLROAD_5_DOORS AUTOMATIC 4.8
14518      ALLROAD_5_DOORS VARIATOR 2.0
24793              SEDAN MECHANICAL 1.8
32570    ALLROAD_5_DOORS MECHANICAL 2.0
2179                 LIFTBACK ROBOT 1.4
Name: vehicleConfiguration, dtype: object

Содержит информацию о типе кузова, типе трансмиссии обьеме двигателя количестве дверей. Эта информация доступна в других колонках, поэтому `vehicleConfiguration` в рассмотрение не принимется 

### vehicleTransmission

In [44]:
df_test.vehicleTransmission.unique()

array(['роботизированная', 'механическая', 'автоматическая', 'вариатор'],
      dtype=object)

Колонка содержит в тестовом виде тип трансмиссии. Принимается в рассмотрение.

### vendor

In [45]:
df_test.vendor.unique()

array(['EUROPEAN', 'JAPANESE'], dtype=object)

In [46]:
df_test.groupby('vendor').brand.unique()

vendor
EUROPEAN      [SKODA, AUDI, VOLVO, BMW, MERCEDES, VOLKSWAGEN]
JAPANESE    [HONDA, NISSAN, INFINITI, TOYOTA, LEXUS, MITSU...
Name: brand, dtype: object

Как видим колонка содержит обобщающий признак - принадлежность марки к европейским либо японским. Как подсказывает опыт автовладельца динамика падения цены от срока владения у этих двух групп различается (японцы обычно дешевеют медленнее, особенно Toyota). Посчитаем признак полезным, примем в рассмотрение моделью.

### Владельцы

In [47]:
df_test.Владельцы.unique()

array(['3 или более', '1\xa0владелец', '2\xa0владельца'], dtype=object)

Колонка содержит в текстовом виде три категории количества владельцев авто. Примем в рассмотрение

### Владение

In [48]:
df_test.Владение.unique()[:20]

array([nan, '3 года и 2 месяца', '11 месяцев', '4 года и 1 месяц',
       '2 года и 4 месяца', '1 месяц', '3 года и 10 месяцев',
       '2 года и 6 месяцев', '6 лет и 4 месяца', '2 месяца', '4 месяца',
       '1 год и 10 месяцев', '2 года и 7 месяцев', '7 лет и 11 месяцев',
       '7 лет и 5 месяцев', '1 год и 11 месяцев', '2 года и 1 месяц',
       '7 лет', '4 года и 2 месяца', '2 года и 8 месяцев'], dtype=object)

Колонка содержит время прошедшее с момента выпуска авто. Очевидно линейно зависит о даты выпуска автомобиля - исключается из рассмотрения.

### ПТС

In [49]:
df_test.ПТС.unique()

array(['Оригинал', 'Дубликат', nan], dtype=object)

Колонка содержит (если значение не nan) категорию ПТС. Принимается в рассмотрение.

### Привод

In [50]:
df_test.Привод.unique()

array(['передний', 'полный', 'задний'], dtype=object)

Колонка содержит категорию привода. Принимается в расмотрние.

### Руль

In [51]:
df_test.Руль.unique()

array(['Левый', 'Правый'], dtype=object)

Колонка содержит категрию право- или левосторонности управления . В рассмотрение.
 ## Колонки подлежащие рассмотрению моделью
Итого из валидационного набора данных, содержащихся в `df_test` будем спользовать для построения модели информацию из следующих колонок:



In [52]:
columns_to_handle = ['bodyType', 'brand', 'car_url', 'color', 'engineDisplacement', 'enginePower', 
                      'equipment_dict','fuelType', 'mileage', 'modelDate', 'model_name', 'numberOfDoors', 
                      'productionDate', 'sell_id', 'vehicleTransmission', 'vendor', 
                      'Владельцы', 'ПТС', 'Привод', 'Руль']
useful_columns = ['parsing_unixtime']

In [53]:
test = df_test[columns_to_handle]

## Унификация test и train

In [55]:
train = pd.read_csv(f'{path}all_marks.csv')

## РАЗРАБОТКА
## =========================================

In [56]:
def categ_diff(column):
    one = train[column]
    another = test[column]
    one_another = set(one.unique()) - set(another.unique())
    another_one = set(another.unique()) - set(one.unique())
    print(one_another)
    print(another_one)
    
def categ_diff2(one,another):
    one_another = set(one.unique()) - set(another.unique())
    another_one = set(another.unique()) - set(one.unique())
    print(one_another)
    print(another_one)
    
def categ_matches(column):
    one = train[column]
    another = test[column]
    matches = set(one.unique()) & set(another.unique())
    return (matches)
    
def categ_matches2(one,another):
    matches = set(one.unique()) & set(another.unique())
    return (matches)

In [58]:
def unification(train):
    df = train.copy()
    
    fuelType_unification = {
    'бензин':'бензин',
    'дизель': 'дизель',
    'бензин, газобаллонное оборудование': 'бензин',
    'гибрид': 'гибрид',
    'дизель, газобаллонное оборудование': 'дизель',
    'гибрид, газобаллонное оборудование': 'гибрид',
    'газ': 'газ',
    'газ, газобаллонное оборудование': 'газ'}
    
    df.brand = df.brand.apply(lambda x: 'MERCEDES' if x=='MERCEDES-BENZ' else x)
#     df.engineDisplacement = df.engineDisplacement.apply(lambda x: float(x[:-4]) if x[:-4] else np.NaN)
#     df.enginePower = df.enginePower.apply(lambda x: float(x[:-4]) if x[:-4] else np.NaN).unique()
    df.fuelType = df.fuelType.str.lower().map(fuelType_unification)
    df.mileage = df.mileage.apply(lambda x: int(x) if x==x else 0)
    df.model_name = df.model_name.str.upper()
    df.productionDate = df.productionDate.apply(lambda x: int(x) if x==x else 0)
    
    return df

In [66]:
# bodyType +++
# categ_diff('bodyType')

In [65]:
# brand +++

# categ_diff('brand')
# заменить 'MERCEDES-BENZ' на 'MERCEDES'
# ttt = train.brand.apply(lambda x: 'MERCEDES' if x=='MERCEDES-BENZ' else x)
# categ_diff2(ttt,test.brand)

In [67]:
# car_url +++

# categ_diff('color')

In [61]:
# engineDisplacement +++

# categ_diff('engineDisplacement')

# test.engineDisplacement.apply(lambda x: float(x[:-4]) if x[:-4] else np.NaN).unique()

In [60]:
# enginePower +++

# categ_diff('enginePower')
# test.enginePower.str[:-4].unique()
# test.enginePower.apply(lambda x: float(x[:-4]) if x[:-4] else np.NaN).unique()

In [None]:
# <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
# <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

# equipment_dict 

'equipment_dict'



In [75]:
# fuelType +++
# categ_diff('fuelType')
# categ_diff2(train.fuelType.str.lower(),test.fuelType)
fuelType_unification = {
    'бензин':'бензин',
    'дизель': 'дизель',
    'бензин, газобаллонное оборудование': 'бензин',
    'гибрид': 'гибрид',
    'дизель, газобаллонное оборудование': 'дизель',
    'гибрид, газобаллонное оборудование': 'гибрид',
    'газ': 'газ',
    'газ, газобаллонное оборудование': 'газ'}

# train.fuelType.str.lower().map(fuelType_unification)

In [78]:
# mileage +++
# привести к типу int в train
# train.mileage.apply(lambda x: int(x) if x==x else 0)

In [None]:
# modelDate +++
# привести к дате выпуска в train

In [84]:
# model_name +++
# train.model_name.str.upper()
# categ_diff('model_name')
# привести к верхнему регистру в train

#
# <<<<<<<<<<<<<<<<<<<<<<< ПРОВЕРИТЬ СОВПАДЕНИЕ ОИЕН В test train
#

In [97]:
# numberOfDoors +++ 
# categ_diff('numberOfDoors')

In [90]:
# productionDate +++
# categ_diff('productionDate')
# train.productionDate.apply(lambda x: int(x) if x==x else 0)
# привести к типу int в train

In [None]:
# sell_id +++

In [104]:
# vehicleTransmission +++
# categ_diff('vehicleTransmission')

In [105]:
# vendor +++ 
# categ_diff('vendor')

In [107]:
# Владельцы +++
# categ_diff('Владельцы')

In [108]:
# ПТС +++
# categ_diff('ПТС')

In [109]:
# Привод +++
# categ_diff('Привод')

In [110]:
# Руль
# categ_diff('Руль')

In [120]:
type(train.enginePower[0])

numpy.float64

In [59]:
tmp = unification(train)

In [73]:
for col in tmp.columns.drop(['car_url','equipment_dict','mileage','sell_id',]):
    categ_diff2(test[col],tmp[col])
    print (col, '\n')

set()
{nan, 'хэтчбек 4 дв.', 'универсал 3 дв.', 'спидстер'}
bodyType 

set()
{nan, 'ALPINA', 'SHANGHAI MAPLE', 'HYUNDAI', 'ROLLS-ROYCE', 'DELAGE', 'DODGE', 'SUBARU', 'ГОНОЧНЫЙ АВТОМОБИЛЬ', 'ЗАЗ', 'TIANMA', 'ZX', 'FAW', 'GREAT WALL', 'BORGWARD', 'GENESIS', 'SSANGYONG', 'DAIMLER', 'SCION', 'SATURN', 'FORD', 'ROVER', 'HAWTAI', 'GEELY', 'HEINKEL', 'LIGIER', 'EXCALIBUR', 'ZOTYE', 'МОСКВИЧ', 'SMART', 'MAHINDRA', 'LINCOLN', 'DACIA', 'RENAULT', 'MERCURY', 'PACKARD', 'SUZUKI', 'BUICK', 'LIFAN', 'PLYMOUTH', 'VORTEX', 'GMC', 'DS', 'ЗИС', 'GAC', 'MG', 'ТАГАЗ', 'MASERATI', 'EAGLE', 'MAYBACH', 'FIAT', 'LAND ROVER', 'HUMMER', 'ARO', 'HAFEI', 'CHANGAN', 'ADLER', 'ALFA ROMEO', 'ЗИЛ', 'LAMBORGHINI', 'DONINVEST', 'RAVON', 'ЛУАЗ', 'CHERY', 'HAVAL', 'BYD', 'JAGUAR', 'SAAB', 'AUBURN', 'ASTON MARTIN', 'BRABUS', 'MITSUOKA', 'DAEWOO', 'ИЖ', 'AC', 'ACURA', 'JAC', 'JEEP', 'TESLA', 'LUXGEN', 'TRIUMPH', 'AMC', 'CITROEN', 'OPEL', 'BENTLEY', 'DKW', 'MINI', 'PROTON', 'CHEVROLET', 'DERWAYS', 'HAIMA', 'FOTON', 'BRILLIA

set()
{'NAN'}
vendor 

set()
{nan}
Владельцы 

set()
set()
ПТС 

set()
{nan}
Привод 

set()
{nan}
Руль 



KeyError: 'offerprice'

## =========================================

## Проверка на отсутсвие в train наблюдений из test

## Оработка пропусков

## Объединение test и train

## EDA test и train

## Предобработка

## Base-line

## Features construction

## Отбор признаков

## Подбор гиперпараметров

## ========================================================

# Подвал

In [None]:
'''tt = df_test.complectation_dict[2]
ttt = json.loads(tt)
ttt['available_options']'''

In [None]:
'''bodyType', 'brand', 'car_url', 'color',
        'engineDisplacement', 'enginePower', 'equipment_dict',
       'fuelType', 'mileage', 'modelDate', 'model_name',
    'numberOfDoors', 'parsing_unixtime', 
       'productionDate', 'sell_id', 
       'vehicleTransmission', 'vendor', 'Владельцы', 'Владение', 'ПТС',
       'Привод', 'Руль''';

In [None]:
# df_test[df_test.brand == "AUDI"].model_name

In [60]:
'''tmp = pd.read_csv(f'{path}all_marks.csv')
tmp.columns =pd.Index(['bodyType', 'brand', 'car_url', 'color', 'engineDisplacement',
       'enginePower', 'equipment_dict', 'fuelType', 'mileage', 'modelDate',
       'model_name', 'numberOfDoors', 'productionDate', 'sell_id',
       'vehicleTransmission', 'vendor', 'Владельцы', 'ПТС', 'Привод', 'Руль',
       'offerprice'],
      dtype='object')
tmp.to_csv(f'{path}all_marks.csv',index=False)

tmp = pd.read_csv(f'{path}extra_train.csv')
tmp.columns =pd.Index(['bodyType', 'brand', 'car_url', 'color', 'engineDisplacement',
       'enginePower', 'equipment_dict', 'fuelType', 'mileage', 'modelDate',
       'model_name', 'numberOfDoors', 'productionDate', 'sell_id',
       'vehicleTransmission', 'vendor', 'Владельцы', 'ПТС', 'Привод', 'Руль',
       'offerprice'],
      dtype='object')
tmp.to_csv(f'{path}extra_train.csv',index=False)

tmp = pd.read_csv(f'{path}train.csv')
tmp.columns =pd.Index(['bodyType', 'brand', 'car_url', 'color', 'engineDisplacement',
       'enginePower', 'equipment_dict', 'fuelType', 'mileage', 'modelDate',
       'model_name', 'numberOfDoors', 'productionDate', 'sell_id',
       'vehicleTransmission', 'vendor', 'Владельцы', 'ПТС', 'Привод', 'Руль',
       'offerprice'],
      dtype='object')
tmp.to_csv(f'{path}train.csv',index=False)''';

In [101]:
train[train.brand == 'TESLA']

Unnamed: 0,bodyType,brand,car_url,color,engineDisplacement,enginePower,equipment_dict,fuelType,mileage,modelDate,model_name,numberOfDoors,productionDate,sell_id,vehicleTransmission,vendor,Владельцы,ПТС,Привод,Руль,offerprice
62782,седан,TESLA,https://auto.ru/cars/used/sale/tesla/model_3/1...,белый,,,,,11000.0,2018.0,Model 3,,2019.0,1102283481,автоматическая,NAN,1 владелец,Оригинал,задний,Левый,3400000.0
62783,седан,TESLA,https://auto.ru/cars/used/sale/tesla/model_3/1...,чёрный,,,{'Безопасность': ['Антипробуксовочная система ...,,32800.0,2018.0,Model 3,,2019.0,1102280379,автоматическая,NAN,1 владелец,Оригинал,задний,Левый,3580000.0
62784,седан,TESLA,https://auto.ru/cars/used/sale/tesla/model_3/1...,чёрный,,,,,10000.0,2018.0,Model 3,,2020.0,1102725846,автоматическая,NAN,1 владелец,Оригинал,полный,Левый,5350000.0
62785,седан,TESLA,https://auto.ru/cars/used/sale/tesla/model_3/1...,белый,,,{'Безопасность': ['Антипробуксовочная система ...,,13000.0,2018.0,Model 3,,2019.0,1102673072,автоматическая,NAN,1 владелец,Оригинал,полный,Левый,5250000.0
62786,седан,TESLA,https://auto.ru/cars/used/sale/tesla/model_3/1...,белый,,,{'Безопасность': ['Антипробуксовочная система ...,,12500.0,2018.0,Model 3,,2019.0,1102175148,автоматическая,NAN,1 владелец,Оригинал,задний,Левый,3850000.0
62787,седан,TESLA,https://auto.ru/cars/used/sale/tesla/model_3/1...,белый,,,{'Безопасность': ['Система стабилизации (ESP)'...,,59300.0,2018.0,Model 3,,2018.0,1101670618,автоматическая,NAN,1 владелец,Оригинал,задний,Левый,3820000.0
62788,седан,TESLA,https://auto.ru/cars/used/sale/tesla/model_3/1...,чёрный,,,"{'Комфорт': ['Круиз-контроль', 'Бортовой компь...",,15980.0,2018.0,Model 3,,2019.0,1102437051,автоматическая,NAN,1 владелец,Оригинал,задний,Левый,3950000.0
62789,седан,TESLA,https://auto.ru/cars/used/sale/tesla/model_3/1...,белый,,,{'Безопасность': ['Система стабилизации (ESP)'...,,41000.0,2018.0,Model 3,,2019.0,1102516936,автоматическая,NAN,1 владелец,Оригинал,задний,Левый,3500000.0
62790,седан,TESLA,https://auto.ru/cars/used/sale/tesla/model_3/1...,чёрный,,,,,9000.0,2018.0,Model 3,,2019.0,1102586180,автоматическая,NAN,1 владелец,Оригинал,полный,Левый,3750000.0
62791,лифтбек,TESLA,https://auto.ru/cars/used/sale/tesla/model_s/1...,красный,,,"{'Салон': ['Тонированные стекла', 'Передний це...",,120000.0,2018.0,Model S,,2018.0,1102613930,автоматическая,NAN,1 владелец,Оригинал,полный,Левый,3950000.0
