# SkillFactory
## Введение в ML, введение в sklearn

В этом задании мы с вами рассмотрим данные с конкурса [Задача предсказания отклика клиентов ОТП Банка](http://www.machinelearning.ru/wiki/index.php?title=%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BE%D1%82%D0%BA%D0%BB%D0%B8%D0%BA%D0%B0_%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%9E%D0%A2%D0%9F_%D0%91%D0%B0%D0%BD%D0%BA%D0%B0_%28%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81%29)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12,5)

### Грузим данные

Считаем описание данных

In [2]:

df_descr = pd.read_csv('data/otp_description.csv', sep='\t', encoding='utf8')

In [3]:
df_descr

Unnamed: 0,ПОЛЕ,ОПИСАНИЕ
0,AGREEMENT_RK,уникальный идентификатор объекта в выборке
1,AGE,возраст клиента
2,SOCSTATUS_WORK_FL,социальный статус клиента относительно работы ...
3,SOCSTATUS_PENS_FL,социальный статус клиента относительно пенсии ...
4,GENDER,"пол клиента (1- женщины, 0-мужчины)"
5,CHILD_TOTAL,количество детей клиента
6,DEPENDANTS,количество иждивенцев клиента
7,EDUCATION,образование
8,MARITAL_STATUS,семейное положение
9,GEN_INDUSTRY,отрасль работы клиента


Считаем обучающую выборки и тестовую (которую мы как бы не видим)

In [4]:
df_train = pd.read_csv('data/otp_train.csv', sep='\t', encoding='utf8')

In [5]:
df_train.shape

(15223, 52)

In [6]:
df_test = pd.read_csv('data/otp_test.csv', sep='\t', encoding='utf8')

In [7]:
df_test.shape

(14910, 52)

In [8]:
df_train.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,EDUCATION,MARITAL_STATUS,...,REG_PHONE_FL,GEN_PHONE_FL,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ,LOAN_AVG_DLQ_AMT,LOAN_MAX_DLQ_AMT,PREVIOUS_CARD_NUM_UTILIZED
0,59910150,0,49,1,0,1,2,1,Среднее специальное,Состою в браке,...,0,1,1,1,6,2,1,1580,1580,
1,59910230,0,32,1,0,1,3,3,Среднее,Состою в браке,...,0,1,1,1,6,1,1,4020,4020,
2,59910525,0,52,1,0,1,4,0,Неполное среднее,Состою в браке,...,0,1,2,1,11,0,0,0,0,
3,59910803,0,39,1,0,1,1,1,Высшее,Состою в браке,...,1,1,1,1,6,3,1,158992333333333,1590,
4,59911781,0,30,1,0,0,0,0,Среднее,Состою в браке,...,0,1,2,1,16,2,1,115215,2230,


## Объединим две выборки

Так как пока мы пока не умеем работать sklearn  Pipeline, то для того, чтобы после предобработки столбцы в двух выборках находились на своих местах.

Для того, чтобы в дальнейшем отделить их введем новый столбец "sample"

In [9]:
df_train.loc[:, 'sample'] = 0
df_test.loc[:, 'sample'] = 1

In [10]:
df = df_test.append(df_train).reset_index(drop=True)

In [11]:
df.shape

(30133, 53)

### Чуть-чуть посмотрим на данные

Посмотрим типы данных и их заполняемость

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 53 columns):
AGREEMENT_RK                  30133 non-null int64
TARGET                        30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null object
REG_ADDRESS_PRO

Видим, что часть данных - object, скорее всего стоки.


Давайте выведем эти значения для каждого столбца

In [13]:
for i in df_train.columns: # перебираем все столбцы
    if str(df_train[i].dtype) == 'object': # если тип столбца - object
        print('='*10)
        print(i) # выводим название столбца
        print(set(df_train[i])) # выводим все его значения (но делаем set - чтоб значения не повторялись)
        print('\n') # выводим пустую строку

EDUCATION
{'Ученая степень', 'Высшее', 'Неполное среднее', 'Два и более высших образования', 'Неоконченное высшее', 'Среднее специальное', 'Среднее'}


MARITAL_STATUS
{'Состою в браке', 'Не состоял в браке', 'Разведен(а)', 'Гражданский брак', 'Вдовец/Вдова'}


GEN_INDUSTRY
{nan, 'Логистика', 'Туризм', 'Энергетика', 'Банк/Финансы', 'Сборочные производства', 'Наука', 'Здравоохранение', 'Транспорт', 'СМИ/Реклама/PR-агенства', 'Страхование', 'Строительство', 'Развлечения/Искусство', 'Сельское хозяйство', 'Образование', 'Другие сферы', 'Химия/Парфюмерия/Фармацевтика', 'Салоны красоты и здоровья', 'Подбор персонала', 'Юридические услуги/нотариальные услуги', 'Нефтегазовая промышленность', 'Информационные услуги', 'Информационные технологии', 'Торговля', 'Коммунальное хоз-во/Дорожные службы', 'Маркетинг', 'Недвижимость', 'Ресторанный бизнес/Общественное питание', 'Металлургия/Промышленность/Машиностроение', 'Управляющая компания', 'Государственная служба', 'ЧОП/Детективная д-ть'}


GEN_TITLE


Mожно заметить что некоторые переменные, которые обозначены как строки (например PERSONAL_INCOME) на самом деле числа, но по какой-то причине были распознаны как строки

Причина же что использовалась запятая для разделения не целой части числа..

Перекодировать их можно например так:

In [14]:
for col in ['PERSONAL_INCOME','CREDIT','FST_PAYMENT','LOAN_AVG_DLQ_AMT','LOAN_MAX_DLQ_AMT']:
    df[col] = df[col].map(lambda x: x.replace(',', '.')).astype('float')

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 53 columns):
AGREEMENT_RK                  30133 non-null int64
TARGET                        30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null float64
REG_ADDRESS_PR

Такой эффект наблюдается в столбцах `PERSONAL_INCOME`, `CREDIT`, `FST_PAYMENT`, `LOAN_AVG_DLQ_AMT`, `LOAN_MAX_DLQ_AMT`

### Теперь ваше небольшое исследование

#### Задание 1. Есть ли пропуски в данных? Что с ними сделать?

(единственного верного ответа нет - аргументируйте)

In [16]:
for col in ['WORK_TIME','PREVIOUS_CARD_NUM_UTILIZED']:
    df[col] = df[col].fillna(df[col].median())

In [17]:
listObject = ['EDUCATION',
              'MARITAL_STATUS',
              'GEN_INDUSTRY',
              'GEN_TITLE',
              'ORG_TP_STATE',
              'ORG_TP_FCAPITAL',
              'JOB_DIR',
              'FAMILY_INCOME',
              'REG_ADDRESS_PROVINCE',
              'FACT_ADDRESS_PROVINCE',
              'POSTAL_ADDRESS_PROVINCE',
              'TP_PROVINCE',
              'REGION_NM'
             ]
for col in listObject:
    for item in set(df[col]):
        df[item] = df[col].map(lambda a: 1 if item == a else 0)

df.drop(listObject, axis=1 , inplace=True)

In [18]:
df.info(verbose = True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 211 columns):
AGREEMENT_RK                                 int64
TARGET                                       int64
AGE                                          int64
SOCSTATUS_WORK_FL                            int64
SOCSTATUS_PENS_FL                            int64
GENDER                                       int64
CHILD_TOTAL                                  int64
DEPENDANTS                                   int64
PERSONAL_INCOME                              float64
REG_FACT_FL                                  int64
FACT_POST_FL                                 int64
REG_POST_FL                                  int64
REG_FACT_POST_FL                             int64
REG_FACT_POST_TP_FL                          int64
FL_PRESENCE_FL                               int64
OWN_AUTO                                     int64
AUTO_RUS_FL                                  int64
HS_PRESENCE_FL       

#### Задание 2. Есть ли категориальные признаки? Что с ними делать?

#### Задание 3. Фунция предобработки

Напишите функцию, которая бы

* Удаляло идентификатор `AGREEMENT_RK`
* Избавлялась от проблем с '.' и ',' в стобцах PERSONAL_INCOME, CREDIT, FST_PAYMENT, LOAN_AVG_DLQ_AMT, LOAN_MAX_DLQ_AMT
* Что-то делала с пропусками
* Кодировала категориальные признаки

В результате, ваш датафрейм должен содержать только числа и не содержать пропусков!

In [19]:


df_train_preproc = df.query('sample == 1').drop(['sample'], axis=1)
df_test_preproc = df.query('sample == 0').drop(['sample'], axis=1)

In [20]:
df_train_preproc.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,REG_FACT_FL,...,ЮЖНЫЙ,ПРИВОЛЖСКИЙ,ЦЕНТРАЛЬНЫЙ 1,СЕВЕРО-ЗАПАДНЫЙ,ПОВОЛЖСКИЙ,ВОСТОЧНО-СИБИРСКИЙ,ЦЕНТРАЛЬНЫЙ ОФИС,УРАЛЬСКИЙ,ДАЛЬНЕВОСТОЧНЫЙ,ЗАПАДНО-СИБИРСКИЙ
0,59909969,0,30,1,0,1,1,1,7000.0,0,...,0,0,0,0,0,1,0,0,0,0
1,59910420,0,48,0,1,1,0,0,4100.0,1,...,0,0,1,0,0,0,0,0,0,0
2,59911223,0,35,1,0,0,1,0,40000.0,1,...,0,0,0,0,0,0,0,0,0,0
3,59911322,0,22,1,0,0,0,0,20000.0,1,...,0,0,0,0,0,1,0,0,0,0
4,59911438,0,27,1,0,1,2,2,17000.0,1,...,0,0,0,0,0,0,0,0,1,0


#### Задание 4. Отделите целевую переменную и остальные признаки

Должно получится:
* 2 матрицы: X и X_test
* 2 вектора: y и y_test

In [21]:
df.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,PERSONAL_INCOME,REG_FACT_FL,...,ЮЖНЫЙ,ПРИВОЛЖСКИЙ,ЦЕНТРАЛЬНЫЙ 1,СЕВЕРО-ЗАПАДНЫЙ,ПОВОЛЖСКИЙ,ВОСТОЧНО-СИБИРСКИЙ,ЦЕНТРАЛЬНЫЙ ОФИС,УРАЛЬСКИЙ,ДАЛЬНЕВОСТОЧНЫЙ,ЗАПАДНО-СИБИРСКИЙ
0,59909969,0,30,1,0,1,1,1,7000.0,0,...,0,0,0,0,0,1,0,0,0,0
1,59910420,0,48,0,1,1,0,0,4100.0,1,...,0,0,1,0,0,0,0,0,0,0
2,59911223,0,35,1,0,0,1,0,40000.0,1,...,0,0,0,0,0,0,0,0,0,0
3,59911322,0,22,1,0,0,0,0,20000.0,1,...,0,0,0,0,0,1,0,0,0,0
4,59911438,0,27,1,0,1,2,2,17000.0,1,...,0,0,0,0,0,0,0,0,1,0


#### Задание 5. Обучение и оценка качества разных моделей

In [22]:
df_train_preproc.shape

(14910, 210)

In [23]:
df_test_preproc.shape

(15223, 210)

In [29]:
from sklearn.cross_validation import train_test_split
# test_size=0.3, random_state=42

## Your Code Here

X_train, X_test, y_train, y_test = train_test_split(df_train_preproc.drop(['TARGET'], axis=1, ), df_train_preproc['TARGET'], test_size=0.3, random_state=42)


In [36]:
# Попробовать следующие "черные ящики": интерфейс одинаковый 
#     fit, 
#     predict, 
#     predict_proba

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

## Your Code Here

In [41]:
lr = LogisticRegression()
lr.fit(X_train, y_train)
pred = lr.predict_proba(X_test)
pred

array([[0.88969246, 0.11030754],
       [0.88718573, 0.11281427],
       [0.86843836, 0.13156164],
       ...,
       [0.88346284, 0.11653716],
       [0.87076705, 0.12923295],
       [0.91007712, 0.08992288]])

In [44]:
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
dt.predict_proba(X_test)

array([[1., 0.],
       [1., 0.],
       [1., 0.],
       ...,
       [1., 0.],
       [1., 0.],
       [1., 0.]])

In [23]:
# Посчитать метрики стандартные
# accuracy, precision, recall

from sklearn.metrics import accuracy_score, precision_score, recall_score

## Your Code Here
    


In [24]:
# Визуалищировать эти метрики всех моделей на одном графике (чтоб визуально посмотреть)

## Your Code Here

In [25]:
# Потроить roc-кривые всех можелей на одном графике
# Вывести roc_auc каждой моделе

## Your Code Here

In [26]:
from sklearn.cross_validation import cross_val_score
from sklearn.model_selection import StratifiedKFold
# Сделать k-fold (10 фолдов) кросс-валидацию каждой модели
# И посчитать средний roc_auc
cv = StratifiedKFold(n_splits=10, shuffle=True, random_state=123)

## Your Code Here

In [27]:
# Взять лучшую модель и сделать predict (с вероятностями (!!!)) для test выборки


## Your Code Here

In [28]:
# Померить roc_auc на тесте
