# SkillFactory
## Введение в ML, введение в sklearn

В этом задании мы с вами рассмотрим данные с конкурса [Задача предсказания отклика клиентов ОТП Банка](http://www.machinelearning.ru/wiki/index.php?title=%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BE%D1%82%D0%BA%D0%BB%D0%B8%D0%BA%D0%B0_%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%9E%D0%A2%D0%9F_%D0%91%D0%B0%D0%BD%D0%BA%D0%B0_%28%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81%29)

In [598]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12,5)

### Грузим данные

Считаем описание данных

In [599]:

df_descr = pd.read_csv('data/otp_description.csv', sep='\t', encoding='utf8')

In [600]:
df_descr

Unnamed: 0,ПОЛЕ,ОПИСАНИЕ
0,AGREEMENT_RK,уникальный идентификатор объекта в выборке
1,AGE,возраст клиента
2,SOCSTATUS_WORK_FL,социальный статус клиента относительно работы ...
3,SOCSTATUS_PENS_FL,социальный статус клиента относительно пенсии ...
4,GENDER,"пол клиента (1- женщины, 0-мужчины)"
5,CHILD_TOTAL,количество детей клиента
6,DEPENDANTS,количество иждивенцев клиента
7,EDUCATION,образование
8,MARITAL_STATUS,семейное положение
9,GEN_INDUSTRY,отрасль работы клиента


Считаем обучающую выборки и тестовую (которую мы как бы не видим)

In [601]:
df_train = pd.read_csv('data/otp_train.csv', sep='\t', encoding='utf8')

In [602]:
df_train.shape

(15223, 52)

In [603]:
df_test = pd.read_csv('data/otp_test.csv', sep='\t', encoding='utf8')

In [604]:
df_test.shape

(14910, 52)

In [605]:
df_train.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,EDUCATION,MARITAL_STATUS,...,REG_PHONE_FL,GEN_PHONE_FL,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ,LOAN_AVG_DLQ_AMT,LOAN_MAX_DLQ_AMT,PREVIOUS_CARD_NUM_UTILIZED
0,59910150,0,49,1,0,1,2,1,Среднее специальное,Состою в браке,...,0,1,1,1,6,2,1,1580,1580,
1,59910230,0,32,1,0,1,3,3,Среднее,Состою в браке,...,0,1,1,1,6,1,1,4020,4020,
2,59910525,0,52,1,0,1,4,0,Неполное среднее,Состою в браке,...,0,1,2,1,11,0,0,0,0,
3,59910803,0,39,1,0,1,1,1,Высшее,Состою в браке,...,1,1,1,1,6,3,1,158992333333333,1590,
4,59911781,0,30,1,0,0,0,0,Среднее,Состою в браке,...,0,1,2,1,16,2,1,115215,2230,


## Объединим две выборки

Так как пока мы пока не умеем работать sklearn  Pipeline, то для того, чтобы после предобработки столбцы в двух выборках находились на своих местах.

Для того, чтобы в дальнейшем отделить их введем новый столбец "sample"

In [606]:
df_train.loc[:, 'sample'] = 'train'
df_test.loc[:, 'sample'] = 'test'

In [607]:
df = df_test.append(df_train).reset_index(drop=True)

In [608]:
df.shape

(30133, 53)

### Чуть-чуть посмотрим на данные

Посмотрим типы данных и их заполняемость

In [609]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 53 columns):
AGREEMENT_RK                  30133 non-null int64
TARGET                        30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null object
REG_ADDRESS_PRO

Видим, что часть данных - object, скорее всего стоки.


Давайте выведем эти значения для каждого столбца

In [610]:
for i in df_train.columns: # перебираем все столбцы
    if str(df_train[i].dtype) == 'object': # если тип столбца - object
        print('='*10)
        print(i) # выводим название столбца
        print(set(df_train[i])) # выводим все его значения (но делаем set - чтоб значения не повторялись)
        print('\n') # выводим пустую строку

EDUCATION
{'Неоконченное высшее', 'Среднее специальное', 'Среднее', 'Ученая степень', 'Неполное среднее', 'Два и более высших образования', 'Высшее'}


MARITAL_STATUS
{'Не состоял в браке', 'Состою в браке', 'Вдовец/Вдова', 'Разведен(а)', 'Гражданский брак'}


GEN_INDUSTRY
{nan, 'Транспорт', 'Подбор персонала', 'Банк/Финансы', 'Юридические услуги/нотариальные услуги', 'Развлечения/Искусство', 'Ресторанный бизнес/Общественное питание', 'Информационные технологии', 'Сельское хозяйство', 'Страхование', 'Энергетика', 'Сборочные производства', 'Другие сферы', 'Туризм', 'Химия/Парфюмерия/Фармацевтика', 'Наука', 'Здравоохранение', 'Информационные услуги', 'Металлургия/Промышленность/Машиностроение', 'Строительство', 'Торговля', 'Государственная служба', 'ЧОП/Детективная д-ть', 'Коммунальное хоз-во/Дорожные службы', 'Маркетинг', 'Образование', 'Нефтегазовая промышленность', 'Недвижимость', 'Логистика', 'Салоны красоты и здоровья', 'СМИ/Реклама/PR-агенства', 'Управляющая компания'}


GEN_TITLE


Mожно заметить что некоторые переменные, которые обозначены как строки (например PERSONAL_INCOME) на самом деле числа, но по какой-то причине были распознаны как строки

Причина же что использовалась запятая для разделения не целой части числа..

Перекодировать их можно например так:

In [None]:
df['PERSONAL_INCOME'].map(lambda x: x.replace(',', '.')).astype('float')

Такой эффект наблюдается в столбцах `PERSONAL_INCOME`, `CREDIT`, `FST_PAYMENT`, `LOAN_AVG_DLQ_AMT`, `LOAN_MAX_DLQ_AMT`

### Теперь ваше небольшое исследование

#### Задание 1. Есть ли пропуски в данных? Что с ними сделать?

(единственного верного ответа нет - аргументируйте)

In [611]:
# пропуски есть, в зависимости от того, что это за данные (числа, суммы, категории) нужно их заполнить чем-то, 
# например, средним значением, или константой

#### Задание 2. Есть ли категориальные признаки? Что с ними делать?

In [612]:
# заменим на числа

#EDUCATION
#'Неоконченное высшее', 1
#'Среднее специальное', 2
#'Среднее', 3
#'Ученая степень', 4
#'Неполное среднее', 5
#'Два и более высших образования', 6
#'Высшее' 7
def ret_edu(pFI):
    ret = \
    pFI.replace('', 0)\
    .replace('Неоконченное высшее', 1)\
    .replace('Среднее специальное', 2)\
    .replace('Среднее', 3)\
    .replace('Ученая степень', 4)\
    .replace('Неполное среднее', 5)\
    .replace('Два и более высших образования', 6)\
    .replace('Высшее', 7)
    return ret


#MARITAL_STATUS
#'Не состоял в браке', 1
#'Состою в браке', 2
#'Вдовец/Вдова', 3
#'Разведен(а)', 4
#'Гражданский брак' 5
def ret_marital(pFI):
    ret = \
    pFI.replace('', 0)\
    .replace('Не состоял в браке', 1)\
    .replace('Состою в браке', 2)\
    .replace('Вдовец/Вдова', 3)\
    .replace('Разведен(а)', 4)\
    .replace('Гражданский брак', 5)
    
    return ret


#GEN_INDUSTRY
#nan, 0
#'Транспорт', 1
#'Подбор персонала', 2
#'Банк/Финансы', 3
#'Юридические услуги/нотариальные услуги', 4
#'Развлечения/Искусство', 5
#'Ресторанный бизнес/Общественное питание', 6
#'Информационные технологии', 7
#'Сельское хозяйство', 8
#'Страхование', 9
#'Энергетика', 10
#'Сборочные производства', 11
#'Другие сферы', 12
#'Туризм', 13
#'Химия/Парфюмерия/Фармацевтика', 14
#'Наука', 15
#'Здравоохранение', 16
#'Информационные услуги', 17
#'Металлургия/Промышленность/Машиностроение', 18
#'Строительство', 19
#'Торговля', 20
#'Государственная служба', 21
#'ЧОП/Детективная д-ть', 22
#'Коммунальное хоз-во/Дорожные службы', 23
#'Маркетинг', 24
#'Образование', 25
#'Нефтегазовая промышленность', 26
#'Недвижимость', 27
#'Логистика', 28
#'Салоны красоты и здоровья', 29
#'СМИ/Реклама/PR-агенства', 30
#'Управляющая компания' 31
def ret_industry(pFI):
    ret = \
    pFI.replace("", 0)\
    .replace('Транспорт', 1)\
    .replace('Подбор персонала', 2)\
    .replace('Банк/Финансы', 3)\
    .replace('Юридические услуги/нотариальные услуги', 4)\
    .replace('Развлечения/Искусство', 5)\
    .replace('Ресторанный бизнес/Общественное питание', 6)\
    .replace('Информационные технологии', 7)\
    .replace('Сельское хозяйство', 8)\
    .replace('Страхование', 9)\
    .replace('Энергетика', 10)\
    .replace('Сборочные производства', 11)\
    .replace('Другие сферы', 12)\
    .replace('Туризм', 13)\
    .replace('Химия/Парфюмерия/Фармацевтика', 14)\
    .replace('Наука', 15)\
    .replace('Здравоохранение', 16)\
    .replace('Информационные услуги', 17)\
    .replace('Металлургия/Промышленность/Машиностроение', 18)\
    .replace('Строительство', 19)\
    .replace('Торговля', 20)\
    .replace('Государственная служба', 21)\
    .replace('ЧОП/Детективная д-ть', 22)\
    .replace('Коммунальное хоз-во/Дорожные службы', 23)\
    .replace('Маркетинг', 24)\
    .replace('Образование', 25)\
    .replace('Нефтегазовая промышленность', 26)\
    .replace('Недвижимость', 27)\
    .replace('Логистика', 28)\
    .replace('Салоны красоты и здоровья', 29)\
    .replace('СМИ/Реклама/PR-агенства', 30)\
    .replace('Управляющая компания', 31)
    
    return ret




#GEN_TITLE
#nan, 0
#'Работник сферы услуг', 1
#'Руководитель низшего звена', 2
#'Руководитель высшего звена', 3
#'Рабочий', 4
#'Служащий', 5
#'Партнер', 6
#'Руководитель среднего звена', 7
#'Индивидуальный предприниматель', 8
#'Высококвалифиц. специалист', 9
#'Специалист', 10
#'Другое', 11
#'Военнослужащий по контракту' 12
def ret_title(pFI):

    ret = \
    pFI.replace("", 0)\
    .replace('Работник сферы услуг', 1)\
    .replace('Руководитель низшего звена', 2)\
    .replace('Руководитель высшего звена', 3)\
    .replace('Рабочий', 4)\
    .replace('Служащий', 5)\
    .replace('Партнер', 6)\
    .replace('Руководитель среднего звена', 7)\
    .replace('Индивидуальный предприниматель', 8)\
    .replace('Высококвалифиц. специалист', 9)\
    .replace('Специалист', 10)\
    .replace('Другое', 11)\
    .replace('Военнослужащий по контракту', 12)
    
    return ret


#ORG_TP_STATE
#nan, 0
#'Частная ком. с инос. капиталом', 1
#'Государственная комп./учреж.', 2
#'Частная компания', 3
#'Некоммерческая организация', 4
#'Индивидуальный предприниматель' 5
def ret_tp_state(pFI):
    ret = \
    pFI.replace("", 0)\
    .replace('Частная ком. с инос. капиталом', 1)\
    .replace('Государственная комп./учреж.', 2)\
    .replace('Частная компания', 3)\
    .replace('Некоммерческая организация', 4)\
    .replace('Индивидуальный предприниматель', 5)
    
    return ret




#ORG_TP_FCAPITAL
#nan, 0
#'Без участия', 1
#'С участием' 2
def ret_tp_capital(pFI):
    ret = \
    pFI.replace("", 0)\
    .replace('Без участия', 1)\
    .replace('С участием', 2)
    
    return ret



#JOB_DIR
#nan, 0
# 'Реклама и маркетинг', 1
# 'Бухгалтерия, финансы, планир.', 2
# 'Пр-техн. обесп. и телеком.', 3
# 'Вспомогательный техперсонал', 4
# 'Адм-хоз. и трансп. службы', 5
# 'Кадровая служба и секретариат', 6
# 'Юридическая служба', 7
# 'Участие в основ. деятельности', 8
# 'Снабжение и сбыт', 9
# 'Служба безопасности' 10
def ret_job_dir(pFI):
    ret = \
    pFI.replace('', 0)\
    .replace('Реклама и маркетинг', 1)\
    .replace('Бухгалтерия, финансы, планир.', 2)\
    .replace('Пр-техн. обесп. и телеком.', 3)\
    .replace('Вспомогательный техперсонал', 4)\
    .replace('Адм-хоз. и трансп. службы', 5)\
    .replace('Кадровая служба и секретариат', 6)\
    .replace('Юридическая служба', 7)\
    .replace('Участие в основ. деятельности', 8)\
    .replace('Снабжение и сбыт', 9)\
    .replace('Служба безопасности', 10)
    
    return ret



#FAMILY_INCOME
# ret_fi возвращает числовое значение справочника FAMILY_INCOME
#'до 5000 руб.', 1
#'свыше 50000 руб.', 2
#'от 10000 до 20000 руб.', 3
#'от 20000 до 50000 руб.', 4
#'от 5000 до 10000 руб.' 5
def ret_fi(pFI):
    ret = \
    pFI.replace('до 5000 руб.', 1)\
    .replace('свыше 50000 руб.', 2)\
    .replace('от 10000 до 20000 руб.', 3)\
    .replace('от 20000 до 50000 руб.', 4)\
    .replace('от 5000 до 10000 руб.', 5)
    return ret


#REGION_NM
#'ПРИВОЛЖСКИЙ', nan, 'СЕВЕРО-ЗАПАДНЫЙ', 'ЦЕНТРАЛЬНЫЙ 1', 'ВОСТОЧНО-СИБИРСКИЙ', 'УРАЛЬСКИЙ', 'ЦЕНТРАЛЬНЫЙ 2', 'ЗАПАДНО-СИБИРСКИЙ', 'ПОВОЛЖСКИЙ', 'ДАЛЬНЕВОСТОЧНЫЙ', 'ЦЕНТРАЛЬНЫЙ ОФИС', 'ЮЖНЫЙ'}
def ret_region_no(pFI):
    ret = \
    pFI.replace('', 0)\
    .replace('ПРИВОЛЖСКИЙ', 1)\
    .replace('СЕВЕРО-ЗАПАДНЫЙ',2)\
    .replace('ЦЕНТРАЛЬНЫЙ 1',3)\
    .replace('ВОСТОЧНО-СИБИРСКИЙ',4)\
    .replace('УРАЛЬСКИЙ',5)\
    .replace('ЦЕНТРАЛЬНЫЙ 2',6)\
    .replace('ЗАПАДНО-СИБИРСКИЙ',7)\
    .replace('ПОВОЛЖСКИЙ',8)\
    .replace('ДАЛЬНЕВОСТОЧНЫЙ',9)\
    .replace('ЦЕНТРАЛЬНЫЙ ОФИС',10)\
    .replace('ЮЖНЫЙ',11)
    return ret

# отдельно составим список областей - одну функцию на 4 поля
#df_reg = pd.DataFrame([])
#for a in df_train['FACT_ADDRESS_PROVINCE']:
#    df_reg = df_reg.append(pd.DataFrame({"AREA":a}, index=[0]), ignore_index=True) 
#for a in df_train['TP_PROVINCE']:
#    df_reg = df_reg.append(pd.DataFrame({"AREA":a}, index=[0]), ignore_index=True) 
#for a in df_train['REG_ADDRESS_PROVINCE']:
#    df_reg = df_reg.append(pd.DataFrame({"AREA":a}, index=[0]), ignore_index=True) 
#for a in df_train['POSTAL_ADDRESS_PROVINCE']:
#    df_reg = df_reg.append(pd.DataFrame({"AREA":a}, index=[0]), ignore_index=True) 

#df_reg = df_reg['AREA'].unique()

#print(df_reg)

# AREAS encoding
def ret_area(pFI):
    ret = 0
    re = {'':0, 'Агинский Бурятский АО': 1, 'Адыгея': 2, 'Алтайский край': 3, 'Амурская область': 4, 'Архангельская область': 5, 'Астраханская область': 6, 'Башкирия': 7, 'Белгородская область': 8, 'Брянская область': 9, 'Бурятия': 10, 'Владимирская область': 11, 'Волгоградская область': 12, 'Вологодская область': 13, 'Воронежская область': 14, 'Горный Алтай': 15, 'Дагестан': 16, 'Еврейская АО': 17, 'Ивановская область': 18, 'Иркутская область': 19, 'Кабардино-Балкария': 20, 'Калининградская область': 21, 'Калмыкия': 22, 'Калужская область': 23, 'Камчатская область': 24, 'Карачаево-Черкесия': 25, 'Карелия': 26, 'Кемеровская область': 27, 'Кировская область': 28, 'Коми': 29, 'Костромская область': 30, 'Краснодарский край': 31, 'Красноярский край': 32, 'Курганская область': 33, 'Курская область': 34, 'Ленинградская область': 35, 'Липецкая область': 36, 'Магаданская область': 37, 'Марийская республика': 38, 'Мордовская республика': 39, 'Москва': 40, 'Московская область': 41, 'Мурманская область': 42, 'Нижегородская область': 43, 'Новгородская область': 44, 'Новосибирская область': 45, 'Омская область': 46, 'Оренбургская область': 47, 'Орловская область': 48, 'Пензенская область': 49, 'Пермская область': 50, 'Приморский край': 51, 'Псковская область': 52, 'Ростовская область': 53, 'Рязанская область': 54, 'Самарская область': 55, 'Санкт-Петербург': 56, 'Саратовская область': 57, 'Сахалинская область': 58, 'Свердловская область': 59, 'Северная Осетия': 60, 'Смоленская область': 61, 'Ставропольский край': 62, 'Тамбовская область': 63, 'Татарстан': 64, 'Тверская область': 65, 'Томская область': 66, 'Тульская область': 67, 'Тюменская область': 68, 'Удмуртия': 69, 'Ульяновская область': 70, 'Усть-Ордынский Бурятский АО': 71, 'Хабаровский край': 72, 'Хакасия': 73, 'Ханты-Мансийский АО': 74, 'Челябинская область': 75, 'Читинская область': 76, 'Чувашия': 77, 'Эвенкийский АО': 78, 'Якутия': 79, 'Ямало-Ненецкий АО': 80}
    ret = re[pFI]
    return ret
#TypeError: 'Series' objects are mutable, thus they cannot be hashed

def ret_area1(pFI):
    ret = \
    pFI.replace('', 0)\
    .replace('Агинский Бурятский АО', 1)\
    .replace('Адыгея', 2 )\
    .replace('Алтайский край', 3 )\
    .replace('Амурская область', 4 )\
    .replace('Архангельская область', 5 )\
    .replace('Астраханская область', 6 )\
    .replace('Башкирия', 7 )\
    .replace('Белгородская область', 8 )\
    .replace('Брянская область', 9 )\
    .replace('Бурятия', 10 )\
    .replace('Владимирская область', 11 )\
    .replace('Волгоградская область' ,12 )\
    .replace('Вологодская область', 13 )\
    .replace('Воронежская область', 14 )\
    .replace('Горный Алтай', 15)\
    .replace('Дагестан', 16)\
    .replace('Еврейская АО', 17)\
    .replace('Ивановская область', 18)\
    .replace('Иркутская область', 19)\
    .replace('Кабардино-Балкария', 20)\
    .replace('Калининградская область', 21)\
    .replace('Калмыкия', 22)\
    .replace('Калужская область', 23)\
    .replace('Камчатская область', 24)\
    .replace('Карачаево-Черкесия', 25)\
    .replace('Карелия', 26)\
    .replace('Кемеровская область', 27)\
    .replace('Кировская область', 28)\
    .replace('Коми', 29)\
    .replace('Костромская область', 30)\
    .replace('Краснодарский край', 31)\
    .replace('Красноярский край', 32)\
    .replace('Курганская область', 33)\
    .replace('Курская область', 34)\
    .replace('Ленинградская область', 35)\
    .replace('Липецкая область', 36)\
    .replace('Магаданская область', 37)\
    .replace('Марийская республика', 38)\
    .replace('Мордовская республика', 39)\
    .replace('Москва', 40)\
    .replace('Московская область', 41)\
    .replace('Мурманская область', 42)\
    .replace('Нижегородская область', 43)\
    .replace('Новгородская область', 44)\
    .replace('Новосибирская область', 45)\
    .replace('Омская область' ,46)\
    .replace('Оренбургская область', 47)\
    .replace('Орловская область', 48)\
    .replace('Пензенская область', 49)\
    .replace('Пермская область', 50)\
    .replace('Приморский край', 51)\
    .replace('Псковская область', 52)\
    .replace('Ростовская область', 53)\
    .replace('Рязанская область', 54)\
    .replace('Самарская область', 55)\
    .replace('Санкт-Петербург', 56)\
    .replace('Саратовская область', 57)\
    .replace('Сахалинская область', 58)\
    .replace('Свердловская область', 59)\
    .replace('Северная Осетия', 60)\
    .replace('Смоленская область', 61)\
    .replace('Ставропольский край', 62)\
    .replace('Тамбовская область', 63)\
    .replace('Татарстан', 64)\
    .replace('Тверская область', 65)\
    .replace('Томская область', 66)\
    .replace('Тульская область', 67)\
    .replace('Тюменская область', 68)\
    .replace('Удмуртия', 69)\
    .replace('Ульяновская область', 70)\
    .replace('Усть-Ордынский Бурятский АО', 71)\
    .replace('Хабаровский край', 72)\
    .replace('Хакасия',73)\
    .replace('Ханты-Мансийский АО',74)\
    .replace('Челябинская область',75)\
    .replace('Читинская область', 76)\
    .replace('Чувашия', 77)\
    .replace('Эвенкийский АО', 78)\
    .replace('Якутия', 79)\
    .replace('Чечня', 83)\
    .replace('Коми-Пермяцкий АО', 82)\
    .replace('Ярославская область', 81)\
    .replace('Ямало-Ненецкий АО', 80)
    return ret


In [566]:
re = {'':0, 'Агинский Бурятский АО': 1, 'Адыгея': 2, 'Алтайский край': 3, 'Амурская область': 4, 'Архангельская область': 5, 'Астраханская область': 6, 'Башкирия': 7, 'Белгородская область': 8, 'Брянская область': 9, 'Бурятия': 10, 'Владимирская область': 11, 'Волгоградская область': 12, 'Вологодская область': 13, 'Воронежская область': 14, 'Горный Алтай': 15, 'Дагестан': 16, 'Еврейская АО': 17, 'Ивановская область': 18, 'Иркутская область': 19, 'Кабардино-Балкария': 20, 'Калининградская область': 21, 'Калмыкия': 22, 'Калужская область': 23, 'Камчатская область': 24, 'Карачаево-Черкесия': 25, 'Карелия': 26, 'Кемеровская область': 27, 'Кировская область': 28, 'Коми': 29, 'Костромская область': 30, 'Краснодарский край': 31, 'Красноярский край': 32, 'Курганская область': 33, 'Курская область': 34, 'Ленинградская область': 35, 'Липецкая область': 36, 'Магаданская область': 37, 'Марийская республика': 38, 'Мордовская республика': 39, 'Москва': 40, 'Московская область': 41, 'Мурманская область': 42, 'Нижегородская область': 43, 'Новгородская область': 44, 'Новосибирская область': 45, 'Омская область': 46, 'Оренбургская область': 47, 'Орловская область': 48, 'Пензенская область': 49, 'Пермская область': 50, 'Приморский край': 51, 'Псковская область': 52, 'Ростовская область': 53, 'Рязанская область': 54, 'Самарская область': 55, 'Санкт-Петербург': 56, 'Саратовская область': 57, 'Сахалинская область': 58, 'Свердловская область': 59, 'Северная Осетия': 60, 'Смоленская область': 61, 'Ставропольский край': 62, 'Тамбовская область': 63, 'Татарстан': 64, 'Тверская область': 65, 'Томская область': 66, 'Тульская область': 67, 'Тюменская область': 68, 'Удмуртия': 69, 'Ульяновская область': 70, 'Усть-Ордынский Бурятский АО': 71, 'Хабаровский край': 72, 'Хакасия': 73, 'Ханты-Мансийский АО': 74, 'Челябинская область': 75, 'Читинская область': 76, 'Чувашия': 77, 'Эвенкийский АО': 78, 'Якутия': 79, 'Ямало-Ненецкий АО': 80}



#### Задание 3. Фунция предобработки

Напишите функцию, которая бы

* Удаляло идентификатор `AGREEMENT_RK`
* Избавлялась от проблем с '.' и ',' в стобцах PERSONAL_INCOME, CREDIT, FST_PAYMENT, LOAN_AVG_DLQ_AMT, LOAN_MAX_DLQ_AMT
* Что-то делала с пропусками
* Кодировала категориальные признаки

В результате, ваш датафрейм должен содержать только числа и не содержать пропусков!

In [613]:
def preproc_data(df_input):
    df_output = df_input.copy()
    
    ## Your Code Here
    
    df_output.drop('AGREEMENT_RK', inplace=True, axis=1)
    # замена запятой на точку в числовых полях и преобразование в числовой тип
    df_output['PERSONAL_INCOME'] = df_input['PERSONAL_INCOME'].map(lambda x: x.replace(',', '.')).astype('float')
    df_output['CREDIT'] = df_input['CREDIT'].map(lambda x: x.replace(',', '.')).astype('float')
    df_output['FST_PAYMENT'] = df_input['FST_PAYMENT'].map(lambda x: x.replace(',', '.')).astype('float')
    df_output['LOAN_AVG_DLQ_AMT'] = df_input['LOAN_AVG_DLQ_AMT'].map(lambda x: x.replace(',', '.')).astype('float')
    df_output['LOAN_MAX_DLQ_AMT'] = df_input['LOAN_MAX_DLQ_AMT'].map(lambda x: x.replace(',', '.')).astype('float')
    
    df_output['FAMILY_INCOME'] =  ret_fi(df_input['FAMILY_INCOME'])
    df_output['EDUCATION'] =  ret_edu(df_input['EDUCATION'])
    df_output['MARITAL_STATUS'] =  ret_marital(df_input['MARITAL_STATUS'])
    # в следующей конструкции лямбда преобразует наны в пустые строковые значения
    df_output['GEN_INDUSTRY'] = ret_industry( df_input['GEN_INDUSTRY'].map(lambda x: "" if pd.isnull(x) else x) )
    df_output['GEN_TITLE'] = ret_title( df_input['GEN_TITLE'].map(lambda x1: "" if pd.isnull(x1) else x1) )
    df_output['ORG_TP_STATE'] = ret_tp_state( df_input['ORG_TP_STATE'].map(lambda x1: "" if pd.isnull(x1) else x1) )
    df_output['ORG_TP_FCAPITAL'] = ret_tp_capital( df_input['ORG_TP_FCAPITAL'].map(lambda x1: "" if pd.isnull(x1) else x1) )
    df_output['JOB_DIR'] = ret_job_dir( df_input['JOB_DIR'].map(lambda x1: "" if pd.isnull(x1) else x1) )
    df_output['REGION_NM'] = ret_region_no( df_input['REGION_NM'].map(lambda x1: "" if pd.isnull(x1) else x1) )
    df_output['FACT_ADDRESS_PROVINCE'] = ret_area1( df_input['FACT_ADDRESS_PROVINCE'].map(lambda x1: "" if pd.isnull(x1) else x1) )
    df_output['TP_PROVINCE'] = ret_area1( df_input['TP_PROVINCE'].map(lambda x1: "" if pd.isnull(x1) else x1) )
    df_output['REG_ADDRESS_PROVINCE'] = ret_area1( df_input['REG_ADDRESS_PROVINCE'].map(lambda x1: "" if pd.isnull(x1) else x1) )
    df_output['POSTAL_ADDRESS_PROVINCE'] = ret_area1( df_input['POSTAL_ADDRESS_PROVINCE'].map(lambda x1: "" if pd.isnull(x1) else x1) )


    # тут нужно пустые значения заменить на 0
    df_output['PREVIOUS_CARD_NUM_UTILIZED'] = df_input['PREVIOUS_CARD_NUM_UTILIZED'].map(lambda x1: 0 if pd.isnull(x1) else x1) 
    df_output['WORK_TIME'] = df_input['WORK_TIME'].map(lambda x1: 0 if pd.isnull(x1) else x1) 

    return df_output

In [614]:
# my test

#for index, row in df.iterrows():
#    print (index, type(row['GEN_TITLE']), row['GEN_TITLE'])
#    df_p = preproc_data(row)
#    if 'Специалист' == row['GEN_TITLE']:
#        print(row['GEN_TITLE'].replace('Специалист', '10'))
#    if index >20:
#        break

df_preproc = df.pipe(preproc_data)

In [620]:
df_preproc = df.pipe(preproc_data)

df_train_preproc = df_preproc.query('sample == "train"').drop(['sample'], axis=1)
df_test_preproc = df_preproc.query('sample == "test"').drop(['sample'], axis=1)

#### Задание 4. Отделите целевую переменную и остальные признаки

Должно получится:
* 2 матрицы: X и X_test
* 2 вектора: y и y_test

In [647]:
# target variable is target
X, y = df_train_preproc.iloc[0:, 1:].values, df_train_preproc.iloc[:, 0].values
#print(y)
#print(X)

#df_train_preproc.info()
#df_test_preproc.info()

#df_train_preproc.head(30)


#### Задание 5. Обучение и оценка качества разных моделей

In [652]:
from sklearn.cross_validation import train_test_split
# test_size=0.3, random_state=42

## Your Code Here
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=42)

print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)


(10656, 50)
(4567, 50)
(10656,)
(4567,)


In [653]:
# Попробовать следующие "черные ящики": интерфейс одинаковый 
# Постепенно мы узнаем, что они делают а сейчас учимся понимать какой работает качественнее
#     fit, 
#     predict, 
#     predict_proba

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

## Your Code Here

In [None]:
# Посчитать метрики стандартные
# accuracy, precision, recall

from sklearn.metrics import accuracy_score, precision_score, recall_score

## Your Code Here

In [None]:
# Визуалищировать эти метрики всех моделей на одном графике (чтоб визуально сравнить)
# Возможно вас удивит качество! Но задача подобрана специально ;) Такое качество тоже бывает

## Your Code Here

In [None]:
# Потроить roc-кривые всех можелей на одном графике
# Вывести roc_auc каждой моделе
# Подпишите оси и линии

## Your Code Here

In [None]:
from sklearn.cross_validation import cross_val_score
# Сделать k-fold (10 фолдов) кросс-валидацию каждой модели
# И посчитать средний roc_auc

## Your Code Here

In [None]:
# Взять лучшую модель и сделать предсказания (с вероятностями (!!!)) для test выборки

predict = 
## Your Code Here

In [None]:
# Померить roc_auc на тесте
# Вывести текстом и на графике =)

## Your Code Here

### Больше обязательных заданий нет, но ниже вы можете провести исследование, поиграться с данными
### Это возможность написать код, который я посмотрю и в случае чего откомметирую. ;)
### Это не оценивается и остается на ваше усмотрение. Просто дополнительная возможность

In [1]:
### И далее ;)