# SkillFactory
## Введение в ML, введение в sklearn

В этом задании мы с вами рассмотрим данные с конкурса [Задача предсказания отклика клиентов ОТП Банка](http://www.machinelearning.ru/wiki/index.php?title=%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BE%D1%82%D0%BA%D0%BB%D0%B8%D0%BA%D0%B0_%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%9E%D0%A2%D0%9F_%D0%91%D0%B0%D0%BD%D0%BA%D0%B0_%28%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81%29)

In [56]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12,5)

### Грузим данные

Считаем описание данных

In [57]:

df_descr = pd.read_csv('data/otp_description.csv', sep='\t', encoding='utf8')

In [58]:
df_descr

Unnamed: 0,ПОЛЕ,ОПИСАНИЕ
0,AGREEMENT_RK,уникальный идентификатор объекта в выборке
1,AGE,возраст клиента
2,SOCSTATUS_WORK_FL,социальный статус клиента относительно работы ...
3,SOCSTATUS_PENS_FL,социальный статус клиента относительно пенсии ...
4,GENDER,"пол клиента (1- женщины, 0-мужчины)"
5,CHILD_TOTAL,количество детей клиента
6,DEPENDANTS,количество иждивенцев клиента
7,EDUCATION,образование
8,MARITAL_STATUS,семейное положение
9,GEN_INDUSTRY,отрасль работы клиента


Считаем обучающую выборки и тестовую (которую мы как бы не видим)

In [59]:
df_train = pd.read_csv('data/otp_train.csv', sep='\t', encoding='utf8')

In [60]:
df_train.shape

(15223, 52)

In [61]:
df_test = pd.read_csv('data/otp_test.csv', sep='\t', encoding='utf8')

In [62]:
df_test.shape

(14910, 52)

In [63]:
df_train.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,EDUCATION,MARITAL_STATUS,...,REG_PHONE_FL,GEN_PHONE_FL,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ,LOAN_AVG_DLQ_AMT,LOAN_MAX_DLQ_AMT,PREVIOUS_CARD_NUM_UTILIZED
0,59910150,0,49,1,0,1,2,1,Среднее специальное,Состою в браке,...,0,1,1,1,6,2,1,1580,1580,
1,59910230,0,32,1,0,1,3,3,Среднее,Состою в браке,...,0,1,1,1,6,1,1,4020,4020,
2,59910525,0,52,1,0,1,4,0,Неполное среднее,Состою в браке,...,0,1,2,1,11,0,0,0,0,
3,59910803,0,39,1,0,1,1,1,Высшее,Состою в браке,...,1,1,1,1,6,3,1,158992333333333,1590,
4,59911781,0,30,1,0,0,0,0,Среднее,Состою в браке,...,0,1,2,1,16,2,1,115215,2230,


## Объединим две выборки

Так как пока мы пока не умеем работать sklearn  Pipeline, то для того, чтобы после предобработки столбцы в двух выборках находились на своих местах.

Для того, чтобы в дальнейшем отделить их введем новый столбец "sample"

In [64]:
df_train.loc[:, 'sample'] = 'train'
df_test.loc[:, 'sample'] = 'test'

In [65]:
df = df_test.append(df_train).reset_index(drop=True)

In [66]:
df.shape

(30133, 53)

### Чуть-чуть посмотрим на данные

Посмотрим типы данных и их заполняемость

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 53 columns):
AGREEMENT_RK                  30133 non-null int64
TARGET                        30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null object
REG_ADDRESS_PRO

Видим, что часть данных - object, скорее всего стоки.


Давайте выведем эти значения для каждого столбца

In [67]:
for i in df_train.columns: # перебираем все столбцы
    if str(df_train[i].dtype) == 'object': # если тип столбца - object
        print('='*10)
        print(i) # выводим название столбца
        print(set(df_train[i])) # выводим все его значения (но делаем set - чтоб значения не повторялись)
        print('\n') # выводим пустую строку

EDUCATION
set([u'\u0423\u0447\u0435\u043d\u0430\u044f \u0441\u0442\u0435\u043f\u0435\u043d\u044c', u'\u041d\u0435\u043f\u043e\u043b\u043d\u043e\u0435 \u0441\u0440\u0435\u0434\u043d\u0435\u0435', u'\u041d\u0435\u043e\u043a\u043e\u043d\u0447\u0435\u043d\u043d\u043e\u0435 \u0432\u044b\u0441\u0448\u0435\u0435', u'\u0414\u0432\u0430 \u0438 \u0431\u043e\u043b\u0435\u0435 \u0432\u044b\u0441\u0448\u0438\u0445 \u043e\u0431\u0440\u0430\u0437\u043e\u0432\u0430\u043d\u0438\u044f', u'\u0412\u044b\u0441\u0448\u0435\u0435', u'\u0421\u0440\u0435\u0434\u043d\u0435\u0435', u'\u0421\u0440\u0435\u0434\u043d\u0435\u0435 \u0441\u043f\u0435\u0446\u0438\u0430\u043b\u044c\u043d\u043e\u0435'])


MARITAL_STATUS
set([u'\u0420\u0430\u0437\u0432\u0435\u0434\u0435\u043d(\u0430)', u'\u0412\u0434\u043e\u0432\u0435\u0446/\u0412\u0434\u043e\u0432\u0430', u'\u041d\u0435 \u0441\u043e\u0441\u0442\u043e\u044f\u043b \u0432 \u0431\u0440\u0430\u043a\u0435', u'\u0413\u0440\u0430\u0436\u0434\u0430\u043d\u0441\u043a\u0438\u0439 \

Mожно заметить что некоторые переменные, которые обозначены как строки (например PERSONAL_INCOME) на самом деле числа, но по какой-то причине были распознаны как строки

Причина же что использовалась запятая для разделения не целой части числа..

Перекодировать их можно например так:

In [68]:
df['PERSONAL_INCOME'].map(lambda x: x.replace(',', '.')).astype('float')

0         7000.0
1         4100.0
2        40000.0
3        20000.0
4        17000.0
5         7000.0
6        10000.0
7         7500.0
8         9000.0
9         4000.0
10       15000.0
11       12000.0
12        8000.0
13       20000.0
14       18500.0
15       14000.0
16        6000.0
17        9000.0
18        5000.0
19       15000.0
20        6100.0
21       22180.0
22        9000.0
23        8700.0
24        7000.0
25        6000.0
26       15000.0
27       12000.0
28       11000.0
29        8000.0
          ...   
30103    12000.0
30104    10000.0
30105    10000.0
30106     8000.0
30107    11000.0
30108     7000.0
30109    10000.0
30110     8000.0
30111    25000.0
30112    10000.0
30113    12000.0
30114     7000.0
30115    12000.0
30116    14500.0
30117    12000.0
30118     8000.0
30119     7000.0
30120    10000.0
30121    10000.0
30122    10000.0
30123    15000.0
30124     8100.0
30125     9500.0
30126    13000.0
30127    10000.0
30128    12000.0
30129    10000.0
30130     6000

Такой эффект наблюдается в столбцах `PERSONAL_INCOME`, `CREDIT`, `FST_PAYMENT`, `LOAN_AVG_DLQ_AMT`, `LOAN_MAX_DLQ_AMT`

### Теперь ваше небольшое исследование

#### Задание 1. Есть ли пропуски в данных? Что с ними сделать?

(единственного верного ответа нет - аргументируйте)

In [16]:
df.info()
# пропуски в данных есть вот в этих столбцах:
#GEN_INDUSTRY                  27420 non-null object
#GEN_TITLE                     27420 non-null object
#ORG_TP_STATE                  27420 non-null object
#ORG_TP_FCAPITAL               27425 non-null object
#JOB_DIR  27420 non-null object
#TP_PROVINCE                   29543 non-null object
#WORK_TIME                     27416 non-null float64
#PREVIOUS_CARD_NUM_UTILIZED    600 non-null float64
# из 30133

df.PREVIOUS_CARD_NUM_UTILIZED.value_counts()

# данные с пропусками (кроме PREVIOUS_CARD_NUM_UTILIZED) 
# можно удалить из выборки, при этом все равно выборка останется достаточно большой (27416). 
# PREVIOUS_CARD_NUM_UTILIZED - заменить на 0 пропущенные значения, тк
# заполненных всего 600 - это очень мало.
# Кроме того, этот показатель - кол-во ранее утилизированных карт, и 0 - нормальное значение для клиентов, которые пока не перевыпускали карту.



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 53 columns):
AGREEMENT_RK                  30133 non-null int64
TARGET                        30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null object
REG_ADDRESS_PRO

1.0    595
2.0      5
Name: PREVIOUS_CARD_NUM_UTILIZED, dtype: int64

#### Задание 2. Есть ли категориальные признаки? Что с ними делать?

In [None]:
# категориальные признаки: GEN_INDUSTRY, MARITAL_STATUS, ORG_TP_STATE, REG_ADDRESS_PROVINCE, FACT_ADDRESS_PROVINCE, 
#POSTAL_ADDRESS_PROVINCE, TP_PROVINCE, REGION_NM

# перекодировать категориальные признаки с помощью get_dummies или OneHotEcncoder

In [84]:
# Для PERSONAL_INCOME - уже выше было сделано
df['CREDIT'].map(lambda x: x.replace(',', '.')).astype('float')
df['FST_PAYMENT'].map(lambda x: x.replace(',', '.')).astype('float')
df['LOAN_AVG_DLQ_AMT'].map(lambda x: x.replace(',', '.')).astype('float')
df['LOAN_MAX_DLQ_AMT'].map(lambda x: x.replace(',', '.')).astype('float')

0           0.00
1           0.00
2           0.00
3           0.00
4           0.00
5           0.00
6           0.00
7           0.00
8           0.00
9           0.00
10          0.00
11          0.00
12          0.00
13        806.93
14          0.00
15          0.00
16          0.00
17          0.00
18          0.00
19          0.00
20          0.00
21          0.00
22          0.00
23          0.00
24          0.00
25          0.00
26          0.00
27          0.00
28          0.00
29          0.00
          ...   
30103       0.00
30104       0.00
30105       0.00
30106       0.00
30107       0.00
30108       0.00
30109       0.00
30110     605.59
30111       0.00
30112       0.00
30113       0.00
30114       0.00
30115       0.00
30116       0.00
30117       0.00
30118       0.00
30119       0.00
30120       0.00
30121       0.00
30122       0.00
30123       0.00
30124       0.00
30125       0.00
30126    3300.00
30127       0.00
30128       0.00
30129       0.00
30130       0.

#### Задание 3. Фунция предобработки

Напишите функцию, которая бы

* Удаляло идентификатор `AGREEMENT_RK`
* Избавлялась от проблем с '.' и ',' в стобцах PERSONAL_INCOME, CREDIT, FST_PAYMENT, LOAN_AVG_DLQ_AMT, LOAN_MAX_DLQ_AMT
* Что-то делала с пропусками
* Кодировала категориальные признаки

В результате, ваш датафрейм должен содержать только числа и не содержать пропусков!

In [91]:
def preproc_data(df_input):
    df_output = df_input.copy()
    
    
    ## Your Code Here
    df_output = df_output.drop('AGREEMENT_RK', axis=1)

    
    df_output = pd.get_dummies(df_output, columns=['GEN_INDUSTRY', 'MARITAL_STATUS', 'ORG_TP_STATE', 'REG_ADDRESS_PROVINCE', 'FACT_ADDRESS_PROVINCE', 
'POSTAL_ADDRESS_PROVINCE', 'TP_PROVINCE', 'REGION_NM'])
   
    
    # Удаляем объекты с пропусками
    df_output = df_output.dropna()
    
    return df_output

In [73]:
df.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,EDUCATION,MARITAL_STATUS,...,GEN_PHONE_FL,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ,LOAN_AVG_DLQ_AMT,LOAN_MAX_DLQ_AMT,PREVIOUS_CARD_NUM_UTILIZED,sample
0,59909969,0,30,1,0,1,1,1,Среднее специальное,Не состоял в браке,...,1,2,2,8,0,0,0,0,,test
1,59910420,0,48,0,1,1,0,0,Среднее,Состою в браке,...,0,2,1,15,0,0,0,0,,test
2,59911223,0,35,1,0,0,1,0,Среднее,Не состоял в браке,...,1,1,1,1,0,0,0,0,,test
3,59911322,0,22,1,0,0,0,0,Среднее,Не состоял в браке,...,1,3,2,9,0,0,0,0,,test
4,59911438,0,27,1,0,1,2,2,Высшее,Состою в браке,...,1,1,1,5,0,0,0,0,,test


In [93]:
df_preproc = df.pipe(preproc_data)
df_preproc.head()
df_train_preproc = df_preproc.query('sample == "train"').drop(['sample'], axis=1)
df_test_preproc = df_preproc.query('sample == "test"').drop(['sample'], axis=1)

#### Задание 4. Отделите целевую переменную и остальные признаки

Должно получится:
* 2 матрицы: X и X_test
* 2 вектора: y и y_test

In [123]:
# Призаки
X = df_preproc.iloc[:, 1:].values

# Таргет - целевая переменная
y = df_preproc.loc[:, 'TARGET'].values


#### Задание 5. Обучение и оценка качества разных моделей

In [124]:
from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.model_selection import cross_val_score


# test_size=0.3, random_state=42

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## Your Code Here

cv = KFold(n_splits=3, random_state=42)


In [125]:
for X_train, X_test in cv.split(X, y):
    print('=== Очередной фолд ===')
    print('Обучение - {} объектов, валидация - {} объектов'.format(X_train.shape[0], X_test.shape[0]))
    print('Target (отток клиентов): обучение - {}, валидация - {}'.format(y[X_train].mean(), y[X_test].mean()))

=== Очередной фолд ===
Обучение - 372 объектов, валидация - 186 объектов
Target (отток клиентов): обучение - 0.306451612903, валидация - 0.290322580645
=== Очередной фолд ===
Обучение - 372 объектов, валидация - 186 объектов
Target (отток клиентов): обучение - 0.317204301075, валидация - 0.268817204301
=== Очередной фолд ===
Обучение - 372 объектов, валидация - 186 объектов
Target (отток клиентов): обучение - 0.279569892473, валидация - 0.344086021505


In [142]:
# Попробовать следующие "черные ящики": интерфейс одинаковый 
#     fit, 
#     predict, 
#     predict_proba

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
    
## Your Code Here

tree = DecisionTreeClassifier(random_state=123)
cv1 = StratifiedKFold(n_splits=5, shuffle=True, random_state=123)
train_scores, valid_scores = validation_curve(tree, X, y, 
                                              'max_depth', range(1, 10),
                                              cv=cv1, scoring='roc_auc')



forest = RandomForestClassifier(max_depth=3, random_state=42)

#tree.fit(X, y)

ValueError: could not convert string to float: train

In [None]:
# Посчитать метрики стандартные
# accuracy, precision, recall

from sklearn.metrics import accuracy_score, precision_score, recall_score

## Your Code Here
    


In [None]:
# Визуалищировать эти метрики всех моделей на одном графике (чтоб визуально посмотреть)

## Your Code Here

In [None]:
# Потроить roc-кривые всех можелей на одном графике
# Вывести roc_auc каждой моделе

## Your Code Here

In [None]:
from sklearn.cross_validation import cross_val_score
from sklearn.model_selection import StratifiedKFold
# Сделать k-fold (10 фолдов) кросс-валидацию каждой модели
# И посчитать средний roc_auc
cv = StratifiedKFold(n_splits=10, shuffle=True, random_state=123)

## Your Code Here

In [None]:
# Взять лучшую модель и сделать predict (с вероятностями (!!!)) для test выборки


## Your Code Here

In [None]:
# Померить roc_auc на тесте
