# Описание задачи
## В задачи пректа входит:
Обработка предоставленных данных: нахождение и заполнение пропусков, кодировка, нормализация признаков;
Создание новых признаков с использованием предоставленных данных;
Отбор признаков;
Обучение и тестирование модели на полученных признаках;
Оптимизация размера набора данных и подбор макропараметров модели на оптимизированном наборе;
Получение предсказанных моделью значений, подготовка и отправка submission
## Описание датасета
Первоначальная версия датасета состоит из 14-ти столбцов, содержащих следующую информацию:

client_id - идентификатор клиента
education - уровень образования
sex - пол заёмщика
age - возраст заёмщика
car - флаг наличия автомобиля
car_type - флаг автомобиля-иномарки
decline_app_cnt - количество отказанных прошлых заявок
good_work - флаг наличия «хорошей» работы
bki_request_cnt - количество запросов в БКИ
home_address - категоризатор домашнего адреса
work_address - категоризатор рабочего адреса
income - доход заёмщика
foreign_passport - наличие загранпаспорта
sna - связь заемщика с клиентами банка
first_time - давность наличия информации о заемщике
score_bki - скоринговый балл по данным из БКИ
region_rating - рейтинг региона
app_date - дата подачи заявки
default - наличие дефолта (целевая переменная)
# Импорт библиотек, установка параметров, определение функций
## Импорт бибилиотек

In [1]:
import pandas as pd
import numpy as np
import json 
from pprint import pprint

## Установка параметров

In [2]:
%pylab inline

pd.set_option('display.max_rows', 70) # выведем больше строк
pd.set_option('display.max_columns', 30) # выведем больше колонок

Populating the interactive namespace from numpy and matplotlib


## Определение функций

# Получение данных

In [3]:
df_test = pd.read_csv('./Project_5_data/test.csv')

In [4]:
df_test.head()

Unnamed: 0,bodyType,brand,color,fuelType,modelDate,name,numberOfDoors,productionDate,vehicleConfiguration,vehicleTransmission,engineDisplacement,enginePower,description,mileage,Комплектация,Привод,Руль,Состояние,Владельцы,ПТС,Таможня,Владение,id
0,седан,BMW,чёрный,дизель,2016.0,520d 2.0d AT (190 л.с.),4.0,2017.0,SEDAN AUTOMATIC 2.0,автоматическая,2.0 LTR,190 N12,В РОЛЬФ Ясенево представлено более 500 автомоб...,158836.0,"['[{""name"":""Безопасность"",""values"":[""Антипробу...",задний,Левый,Не требует ремонта,1 владелец,Оригинал,Растаможен,,0
1,седан,BMW,белый,дизель,2018.0,318d 2.0d AT (150 л.с.),4.0,2019.0,SEDAN AUTOMATIC 2.0,автоматическая,2.0 LTR,150 N12,Автомобиль из демонстрационного парка по спец ...,10.0,"['[{""name"":""Комфорт"",""values"":[""Круиз-контроль...",задний,Левый,Не требует ремонта,1 владелец,Оригинал,Растаможен,,1
2,седан,BMW,синий,бензин,2009.0,550i xDrive 4.4 AT (407 л.с.) 4WD,4.0,2012.0,SEDAN AUTOMATIC 4.4,автоматическая,4.4 LTR,407 N12,Машина собиралась под заказ! \n\n,120000.0,"['[{""name"":""Комфорт"",""values"":[""Круиз-контроль...",полный,Левый,Не требует ремонта,2 владельца,Оригинал,Растаможен,7 лет и 2 месяца,2
3,внедорожник 5 дв.,BMW,белый,дизель,2014.0,30d 3.0d AT (249 л.с.) 4WD,5.0,2015.0,ALLROAD_5_DOORS AUTOMATIC 3.0,автоматическая,3.0 LTR,249 N12,АВТОМОБИЛЬ В БЕЗУПРЕЧНОМ ВНЕШНЕМ И ТЕХНИЧЕСКОМ...,111466.0,"['[{""name"":""Комфорт"",""values"":[""Круиз-контроль...",полный,Левый,Не требует ремонта,2 владельца,Оригинал,Растаможен,,3
4,внедорожник 5 дв.,BMW,синий,дизель,2014.0,M50d 3.0d AT (381 л.с.) 4WD,5.0,2019.0,ALLROAD_5_DOORS AUTOMATIC 3.0,автоматическая,3.0 LTR,381 N12,Автомобиль не имеет собственников ( физ. лиц) ...,11891.0,"['[{""name"":""Комфорт"",""values"":[""Круиз-контроль...",полный,Левый,Не требует ремонта,1 владелец,Оригинал,Растаможен,,4


In [5]:
df_test.columns

Index(['bodyType', 'brand', 'color', 'fuelType', 'modelDate', 'name',
       'numberOfDoors', 'productionDate', 'vehicleConfiguration',
       'vehicleTransmission', 'engineDisplacement', 'enginePower',
       'description', 'mileage', 'Комплектация', 'Привод', 'Руль', 'Состояние',
       'Владельцы', 'ПТС', 'Таможня', 'Владение', 'id'],
      dtype='object')

In [6]:
df_test.bodyType.unique()

array(['седан', 'внедорожник 5 дв.', 'хэтчбек 3 дв.', 'хэтчбек 5 дв.',
       'купе', 'родстер', 'лифтбек', 'универсал 5 дв.', 'кабриолет',
       'седан 2 дв.', 'компактвэн'], dtype=object)

In [7]:
df_test.brand.unique()

array(['BMW'], dtype=object)

In [8]:
df_test.color.unique()

array(['чёрный', 'белый', 'синий', 'коричневый', 'красный', 'серый',
       'бежевый', 'серебристый', 'золотистый', 'оранжевый', 'голубой',
       'пурпурный', 'жёлтый', 'зелёный', 'фиолетовый'], dtype=object)

In [9]:
df_test.fuelType.unique()

array(['дизель', 'бензин', 'гибрид', 'электро'], dtype=object)

In [10]:
df_test.modelDate.unique()

array([2016., 2018., 2009., 2014., 2013., 2010., 2006., 2011., 2007.,
       2005., 2008., 2000., 2012., 2015., 2017., 2002., 2001., 1999.,
       2003., 1998., 2019., 1990., 1995., 2004., 1987., 1981., 1994.,
       1986., 1982., 1975., 1977.])

In [11]:
df_test.name.sort_values().unique()

array(['1.5 AT (136 л.с.)', '1.5hyb AT (231 л.с.) 4WD',
       '116i 1.6 AT (115 л.с.)', '116i 1.6 AT (136 л.с.)',
       '116i 1.6 MT (115 л.с.)', '116i 1.6 MT (122 л.с.)',
       '116i 1.6 MT (136 л.с.)', '118d 2.0d MT (122 л.с.)',
       '118i 1.5 AT (136 л.с.)', '118i 1.6 AT (136 л.с.)',
       '118i 1.6 AT (170 л.с.)', '118i 1.6 MT (170 л.с.)',
       '118i 2.0 AT (129 л.с.)', '118i 2.0 AT (136 л.с.)',
       '120d 2.0d AT (163 л.с.)', '120d 2.0d AT (177 л.с.)',
       '120d 2.0d AT (184 л.с.)', '120d 2.0d AT (190 л.с.)',
       '120d 2.0d MT (177 л.с.)', '120d 2.0d MT (184 л.с.) 4WD',
       '120d xDrive 2.0d AT (190 л.с.) 4WD', '120i 2.0 AT (150 л.с.)',
       '120i 2.0 AT (156 л.с.)', '120i 2.0 MT (156 л.с.)',
       '125i 3.0 AT (218 л.с.)', '130i 3.0 AT (265 л.с.)',
       '130i 3.0 MT (265 л.с.)', '135i 3.0 AT (306 л.с.)',
       '18d xDrive 2.0d AT (150 л.с.) 4WD', '18i 2.0 AT (150 л.с.)',
       '18i sDrive 1.5 AMT (140 л.с.)', '18i sDrive 1.5 AT (136 л.с.)',
       '2.0 M

In [12]:
df_test.numberOfDoors.unique()

array([4., 5., 3., 2.])

In [13]:
df_test.productionDate.unique()

array([2017., 2019., 2012., 2015., 2013., 2008., 2011., 2016., 2007.,
       2014., 2000., 2009., 2018., 2005., 2003., 2006., 2010., 2002.,
       2004., 2001., 1997., 1998., 1999., 1995., 1996., 1993., 1987.,
       1984., 1989., 1991., 1988., 1994., 1992., 1981., 1990., 1986.,
       1982.])

In [14]:
df_test.vehicleConfiguration.sort_values().unique()

array(['ALLROAD_5_DOORS AUTOMATIC 1.5', 'ALLROAD_5_DOORS AUTOMATIC 2.0',
       'ALLROAD_5_DOORS AUTOMATIC 2.5', 'ALLROAD_5_DOORS AUTOMATIC 2.9',
       'ALLROAD_5_DOORS AUTOMATIC 3.0', 'ALLROAD_5_DOORS AUTOMATIC 4.4',
       'ALLROAD_5_DOORS AUTOMATIC 4.6', 'ALLROAD_5_DOORS AUTOMATIC 4.8',
       'ALLROAD_5_DOORS MECHANICAL 3.0', 'ALLROAD_5_DOORS ROBOT 1.5',
       'CABRIO AUTOMATIC 2.0', 'CABRIO AUTOMATIC 2.5',
       'CABRIO AUTOMATIC 3.0', 'CABRIO AUTOMATIC 4.4',
       'CABRIO MECHANICAL 1.8', 'CABRIO MECHANICAL 2.5',
       'CABRIO ROBOT 4.0', 'COMPACTVAN AUTOMATIC 1.5',
       'COMPACTVAN ROBOT 1.5', 'COUPE AUTOMATIC 1.5',
       'COUPE AUTOMATIC 2.0', 'COUPE AUTOMATIC 2.5',
       'COUPE AUTOMATIC 2.8', 'COUPE AUTOMATIC 3.0',
       'COUPE AUTOMATIC 4.4', 'COUPE AUTOMATIC 4.8',
       'COUPE MECHANICAL 1.6', 'COUPE MECHANICAL 1.8',
       'COUPE MECHANICAL 2.0', 'COUPE MECHANICAL 2.5',
       'COUPE MECHANICAL 3.0', 'COUPE ROBOT 3.0', 'COUPE ROBOT 4.0',
       'COUPE ROBOT 4.4'

In [15]:
df_test.vehicleTransmission.unique()

array(['автоматическая', 'механическая', 'роботизированная'], dtype=object)

In [16]:
df_test.engineDisplacement.sort_values().unique()

array(['1.5 LTR', '1.6 LTR', '1.8 LTR', '1.9 LTR', '2.0 LTR', '2.2 LTR',
       '2.5 LTR', '2.8 LTR', '2.9 LTR', '3.0 LTR', '3.4 LTR', '3.5 LTR',
       '3.6 LTR', '4.0 LTR', '4.4 LTR', '4.6 LTR', '4.8 LTR', '5.0 LTR',
       '5.4 LTR', '6.0 LTR', '6.6 LTR', 'undefined LTR'], dtype=object)

In [17]:
df_test.enginePower.sort_values().unique()
df_test.enginePower.str[:-4].astype(int).sort_values().unique()

array([ 90, 100, 102, 105, 113, 115, 118, 122, 125, 129, 136, 140, 143,
       150, 156, 163, 170, 177, 184, 188, 190, 192, 193, 197, 204, 211,
       218, 230, 231, 235, 243, 245, 249, 252, 258, 264, 265, 269, 272,
       286, 300, 306, 313, 320, 326, 329, 333, 340, 347, 355, 360, 367,
       370, 374, 381, 400, 407, 410, 420, 431, 445, 449, 450, 460, 462,
       507, 530, 544, 555, 560, 575, 600, 609, 610, 625], dtype=int64)

In [18]:
df_test.mileage.nunique()

1942

In [19]:
df_test.Комплектация.nunique()

3295

In [20]:
df_test.Привод.unique()

array(['задний', 'полный', 'передний'], dtype=object)

In [21]:
df_test.Руль.unique()

array(['Левый'], dtype=object)

In [22]:
df_test.Состояние.unique()

array(['Не требует ремонта'], dtype=object)

In [23]:
df_test.Владельцы.unique()

array(['1\xa0владелец', '2\xa0владельца', '3 или более'], dtype=object)

In [24]:
df_test.ПТС.unique()

array(['Оригинал', 'Дубликат'], dtype=object)

In [25]:
df_test.Таможня.unique()

array(['Растаможен'], dtype=object)

In [26]:
df_test.Владение.sort_values().unique()

array(['1 год', '1 год и 1 месяц', '1 год и 10 месяцев',
       '1 год и 11 месяцев', '1 год и 2 месяца', '1 год и 3 месяца',
       '1 год и 4 месяца', '1 год и 5 месяцев', '1 год и 6 месяцев',
       '1 год и 7 месяцев', '1 год и 8 месяцев', '1 год и 9 месяцев',
       '1 месяц', '10 лет', '10 лет и 1 месяц', '10 лет и 10 месяцев',
       '10 лет и 11 месяцев', '10 лет и 2 месяца', '10 лет и 3 месяца',
       '10 лет и 4 месяца', '10 лет и 6 месяцев', '10 лет и 8 месяцев',
       '10 лет и 9 месяцев', '10 месяцев', '11 лет', '11 лет и 1 месяц',
       '11 лет и 2 месяца', '11 лет и 3 месяца', '11 лет и 4 месяца',
       '11 лет и 6 месяцев', '11 лет и 8 месяцев', '11 месяцев',
       '12 лет и 1 месяц', '12 лет и 10 месяцев', '12 лет и 11 месяцев',
       '12 лет и 2 месяца', '12 лет и 5 месяцев', '12 лет и 7 месяцев',
       '13 лет и 1 месяц', '13 лет и 2 месяца', '14 лет и 4 месяца',
       '14 лет и 6 месяцев', '14 лет и 7 месяцев', '15 лет и 10 месяцев',
       '15 лет и 5 месяц

In [27]:
import re

pattern_yaer = re.compile('\d+(?= (?:год|лет))')
pattern_month = re.compile('\d+(?= мес)')

year = lambda x: int(pattern_yaer.search(x).group(0)) if pattern_yaer.search(x) else 0
month = lambda x: int(pattern_month.search(x).group(0)) if pattern_month.search(x) else 0



months_count = lambda x: year(x)*12 + month(x) if x==x else x

months_count(df_test.Владение[0])

nan

In [28]:
df_test.Владение.apply(lambda x: year(x)*12 + month(x) if x==x else x)

0         NaN
1         NaN
2        86.0
3         NaN
4         NaN
5         NaN
6        35.0
7         NaN
8        84.0
9         NaN
10        NaN
11        NaN
12        8.0
13        NaN
14       87.0
15        NaN
16       13.0
17        NaN
18        NaN
19        NaN
20        NaN
21        NaN
22        NaN
23        6.0
24        NaN
25       27.0
26       44.0
27        NaN
28        NaN
29       19.0
30       69.0
31       27.0
32        NaN
33       17.0
34        NaN
        ...  
3802     51.0
3803      NaN
3804      NaN
3805      NaN
3806      NaN
3807      6.0
3808     93.0
3809      NaN
3810     61.0
3811    128.0
3812      NaN
3813      NaN
3814      NaN
3815      NaN
3816      NaN
3817     69.0
3818      NaN
3819      NaN
3820      NaN
3821      NaN
3822      NaN
3823      NaN
3824     68.0
3825     22.0
3826      NaN
3827     36.0
3828      NaN
3829      NaN
3830      NaN
3831     42.0
3832      NaN
3833      NaN
3834     19.0
3835     82.0
3836     89.0
Name: 

In [41]:
df_test.id.unique()

array([   0,    1,    2, ..., 3834, 3835, 3836], dtype=int64)

## df_test.Комплектация


In [50]:
new_configuration = df_test.Комплектация.apply(lambda x: json.loads(x[2:-2]) if x != '[]' else [])
new_configuration.head()

0    [{'name': 'Безопасность', 'values': ['Антипроб...
1    [{'name': 'Комфорт', 'values': ['Круиз-контрол...
2    [{'name': 'Комфорт', 'values': ['Круиз-контрол...
3    [{'name': 'Комфорт', 'values': ['Круиз-контрол...
4    [{'name': 'Комфорт', 'values': ['Круиз-контрол...
Name: Комплектация, dtype: object

In [55]:
# lambda configuration: [category['name'] for category in configuration]
all_categories = set(new_configuration.apply(lambda configuration: [category['name'] for category in configuration]).sum())
all_categories

{'Безопасность',
 'Защита от угона',
 'Комфорт',
 'Мультимедиа',
 'Обзор',
 'Прочее',
 'Салон',
 'Элементы экстерьера'}

In [76]:
new_configuration[0]

[{'name': 'Безопасность',
  'values': ['Антипробуксовочная система (ASR)',
   'Система стабилизации (ESP)',
   'Подушка безопасности водителя',
   'Крепление детского кресла (задний ряд) ISOFIX',
   'Подушки безопасности оконные (шторки)',
   'Подушка безопасности пассажира',
   'Подушки безопасности боковые задние',
   'Подушки безопасности боковые',
   'Датчик давления в шинах',
   'Антиблокировочная система (ABS)',
   'Блокировка замков задних дверей',
   'Подушка безопасности для защиты коленей водителя']},
 {'name': 'Комфорт',
  'values': ['Система «старт-стоп»',
   'Электростеклоподъёмники передние',
   'Мультифункциональное рулевое колесо',
   'Прикуриватель и пепельница',
   'Бортовой компьютер',
   'Усилитель руля',
   'Электропривод зеркал',
   'Электростеклоподъёмники задние',
   'Парктроник передний',
   'Регулировка руля по вылету',
   'Климат-контроль 2-зонный',
   'Электроскладывание зеркал',
   'Парктроник задний']},
 {'name': 'Мультимедиа',
  'values': ['AUX', 'USB', '

In [77]:
def category_separation(category,row):
    for cat in row:
        if(cat['name'] == category) : 
            return cat['values']
    return []

In [79]:
new_configuration.apply(lambda x: category_separation('Салон',x))

0       [Регулировка передних сидений по высоте, Перед...
1       [Спортивные передние сиденья, Передний централ...
2       [Спортивные передние сиденья, Люк, Подогрев за...
3       [Передний центральный подлокотник, Складывающе...
4       [Передний центральный подлокотник, Люк, Подогр...
5                                                      []
6       [Передний центральный подлокотник, Складывающе...
7       [Тонированные стекла, Регулировка передних сид...
8       [Тонированные стекла, Передний центральный под...
9                                                      []
10      [Тонированные стекла, Передний центральный под...
11                                                     []
12      [Тонированные стекла, Регулировка передних сид...
13      [Тонированные стекла, Передний центральный под...
14      [Передний центральный подлокотник, Кожа (Матер...
15      [Электрорегулировка сиденья водителя, Люк, Под...
16      [Тонированные стекла, Передний центральный под...
17      [Тонир

In [78]:
category_separation('Салон',new_configuration[0])

['Регулировка передних сидений по высоте',
 'Передний центральный подлокотник',
 'Складывающееся заднее сиденье',
 'Электрорегулировка передних сидений',
 'Тёмный салон',
 'Кожа (Материал салона)',
 'Обогрев рулевого колеса',
 'Подогрев передних сидений',
 'Отделка кожей рулевого колеса']

# ПОДВАЛ

In [33]:
tt = df_test.Комплектация[0]
tt

'[\'[{"name":"Безопасность","values":["Антипробуксовочная система (ASR)","Система стабилизации (ESP)","Подушка безопасности водителя","Крепление детского кресла (задний ряд) ISOFIX","Подушки безопасности оконные (шторки)","Подушка безопасности пассажира","Подушки безопасности боковые задние","Подушки безопасности боковые","Датчик давления в шинах","Антиблокировочная система (ABS)","Блокировка замков задних дверей","Подушка безопасности для защиты коленей водителя"]},{"name":"Комфорт","values":["Система «старт-стоп»","Электростеклоподъёмники передние","Мультифункциональное рулевое колесо","Прикуриватель и пепельница","Бортовой компьютер","Усилитель руля","Электропривод зеркал","Электростеклоподъёмники задние","Парктроник передний","Регулировка руля по вылету","Климат-контроль 2-зонный","Электроскладывание зеркал","Парктроник задний"]},{"name":"Мультимедиа","values":["AUX","USB","Аудиосистема","Bluetooth"]},{"name":"Обзор","values":["Датчик света","Автоматический корректор фар","Омывател

In [36]:
tt

'[\'[{"name":"Безопасность","values":["Антипробуксовочная система (ASR)","Система стабилизации (ESP)","Подушка безопасности водителя","Крепление детского кресла (задний ряд) ISOFIX","Подушки безопасности оконные (шторки)","Подушка безопасности пассажира","Подушки безопасности боковые задние","Подушки безопасности боковые","Датчик давления в шинах","Антиблокировочная система (ABS)","Блокировка замков задних дверей","Подушка безопасности для защиты коленей водителя"]},{"name":"Комфорт","values":["Система «старт-стоп»","Электростеклоподъёмники передние","Мультифункциональное рулевое колесо","Прикуриватель и пепельница","Бортовой компьютер","Усилитель руля","Электропривод зеркал","Электростеклоподъёмники задние","Парктроник передний","Регулировка руля по вылету","Климат-контроль 2-зонный","Электроскладывание зеркал","Парктроник задний"]},{"name":"Мультимедиа","values":["AUX","USB","Аудиосистема","Bluetooth"]},{"name":"Обзор","values":["Датчик света","Автоматический корректор фар","Омывател

In [17]:
pd.__version__

'0.23.0'

In [16]:
np.__version__

'1.14.3'

https://www.youtube.com/watch?v=cQPcEZoxvi0  
http://jsonviewer.stack.hu/  
https://www.youtube.com/watch?v=ykjBVT57r68  
https://pythonru.com/biblioteki/kratkoe-rukovodstvo-po-biblioteke-python-requests  


In [3]:
df = pd.read_csv('./Project_5_data/all_auto_ru_09_09_2020.csv')

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 89378 entries, 0 to 89377
Data columns (total 26 columns):
bodyType                89377 non-null object
brand                   89378 non-null object
color                   89378 non-null object
fuelType                89378 non-null object
modelDate               89377 non-null float64
name                    89377 non-null object
numberOfDoors           89377 non-null float64
productionDate          89378 non-null int64
vehicleConfiguration    89377 non-null object
vehicleTransmission     89377 non-null object
engineDisplacement      89377 non-null object
enginePower             89377 non-null float64
description             86124 non-null object
mileage                 89378 non-null int64
Комплектация            89378 non-null object
Привод                  89377 non-null object
Руль                    89378 non-null object
Состояние               0 non-null float64
Владельцы               75790 non-null float64
ПТС               