# SkillFactory
## Введение в ML, введение в sklearn

В этом задании мы с вами рассмотрим данные с конкурса [Задача предсказания отклика клиентов ОТП Банка](http://www.machinelearning.ru/wiki/index.php?title=%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BE%D1%82%D0%BA%D0%BB%D0%B8%D0%BA%D0%B0_%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%9E%D0%A2%D0%9F_%D0%91%D0%B0%D0%BD%D0%BA%D0%B0_%28%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81%29)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12,5)

### Грузим данные

Считаем описание данных

In [27]:

df_descr = pd.read_csv('data/otp_description.csv', sep='\t', encoding='utf8')

In [28]:
df_descr

Unnamed: 0,ПОЛЕ,ОПИСАНИЕ
0,AGREEMENT_RK,уникальный идентификатор объекта в выборке
1,AGE,возраст клиента
2,SOCSTATUS_WORK_FL,социальный статус клиента относительно работы ...
3,SOCSTATUS_PENS_FL,социальный статус клиента относительно пенсии ...
4,GENDER,"пол клиента (1- женщины, 0-мужчины)"
5,CHILD_TOTAL,количество детей клиента
6,DEPENDANTS,количество иждивенцев клиента
7,EDUCATION,образование
8,MARITAL_STATUS,семейное положение
9,GEN_INDUSTRY,отрасль работы клиента


Считаем обучающую выборки и тестовую (которую мы как бы не видим)

In [29]:
df_train = pd.read_csv('data/otp_train.csv', sep='\t', encoding='utf8')

In [30]:
df_train.shape

(15223, 52)

In [31]:
df_test = pd.read_csv('data/otp_test.csv', sep='\t', encoding='utf8')

In [32]:
df_test.shape

(14910, 52)

In [33]:
df_train.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,EDUCATION,MARITAL_STATUS,...,REG_PHONE_FL,GEN_PHONE_FL,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ,LOAN_AVG_DLQ_AMT,LOAN_MAX_DLQ_AMT,PREVIOUS_CARD_NUM_UTILIZED
0,59910150,0,49,1,0,1,2,1,Среднее специальное,Состою в браке,...,0,1,1,1,6,2,1,1580,1580,
1,59910230,0,32,1,0,1,3,3,Среднее,Состою в браке,...,0,1,1,1,6,1,1,4020,4020,
2,59910525,0,52,1,0,1,4,0,Неполное среднее,Состою в браке,...,0,1,2,1,11,0,0,0,0,
3,59910803,0,39,1,0,1,1,1,Высшее,Состою в браке,...,1,1,1,1,6,3,1,158992333333333,1590,
4,59911781,0,30,1,0,0,0,0,Среднее,Состою в браке,...,0,1,2,1,16,2,1,115215,2230,


## Объединим две выборки

Так как пока мы пока не умеем работать sklearn  Pipeline, то для того, чтобы после предобработки столбцы в двух выборках находились на своих местах.

Для того, чтобы в дальнейшем отделить их введем новый столбец "sample"

In [34]:
df_train.loc[:, 'sample'] = 'train'
df_test.loc[:, 'sample'] = 'test'

In [35]:
df = df_test.append(df_train).reset_index(drop=True)

In [36]:
df.shape

(30133, 53)

### Чуть-чуть посмотрим на данные

Посмотрим типы данных и их заполняемость

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 53 columns):
AGREEMENT_RK                  30133 non-null int64
TARGET                        30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null object
REG_ADDRESS_PRO

Видим, что часть данных - object, скорее всего стоки.


Давайте выведем эти значения для каждого столбца

In [38]:
for i in df_train.columns: # перебираем все столбцы
    if str(df_train[i].dtype) == 'object': # если тип столбца - object
        print('='*10)
        print(i) # выводим название столбца
        print(set(df_train[i])) # выводим все его значения (но делаем set - чтоб значения не повторялись)
        print('\n') # выводим пустую строку

EDUCATION
{'Неполное среднее', 'Среднее специальное', 'Среднее', 'Неоконченное высшее', 'Два и более высших образования', 'Ученая степень', 'Высшее'}


MARITAL_STATUS
{'Состою в браке', 'Гражданский брак', 'Вдовец/Вдова', 'Разведен(а)', 'Не состоял в браке'}


GEN_INDUSTRY
{'Образование', nan, 'Другие сферы', 'Наука', 'Коммунальное хоз-во/Дорожные службы', 'Химия/Парфюмерия/Фармацевтика', 'Недвижимость', 'Развлечения/Искусство', 'Строительство', 'Здравоохранение', 'СМИ/Реклама/PR-агенства', 'Сборочные производства', 'Транспорт', 'Страхование', 'ЧОП/Детективная д-ть', 'Туризм', 'Логистика', 'Сельское хозяйство', 'Государственная служба', 'Банк/Финансы', 'Металлургия/Промышленность/Машиностроение', 'Торговля', 'Нефтегазовая промышленность', 'Ресторанный бизнес/Общественное питание', 'Информационные технологии', 'Юридические услуги/нотариальные услуги', 'Информационные услуги', 'Маркетинг', 'Салоны красоты и здоровья', 'Энергетика', 'Подбор персонала', 'Управляющая компания'}


GEN_TITLE


Mожно заметить что некоторые переменные, которые обозначены как строки (например PERSONAL_INCOME) на самом деле числа, но по какой-то причине были распознаны как строки

Причина же что использовалась запятая для разделения не целой части числа..

Перекодировать их можно например так:

In [39]:
df['PERSONAL_INCOME'].map(lambda x: x.replace(',', '.')).astype('float')

0         7000.0
1         4100.0
2        40000.0
3        20000.0
4        17000.0
5         7000.0
6        10000.0
7         7500.0
8         9000.0
9         4000.0
10       15000.0
11       12000.0
12        8000.0
13       20000.0
14       18500.0
15       14000.0
16        6000.0
17        9000.0
18        5000.0
19       15000.0
20        6100.0
21       22180.0
22        9000.0
23        8700.0
24        7000.0
25        6000.0
26       15000.0
27       12000.0
28       11000.0
29        8000.0
          ...   
30103    12000.0
30104    10000.0
30105    10000.0
30106     8000.0
30107    11000.0
30108     7000.0
30109    10000.0
30110     8000.0
30111    25000.0
30112    10000.0
30113    12000.0
30114     7000.0
30115    12000.0
30116    14500.0
30117    12000.0
30118     8000.0
30119     7000.0
30120    10000.0
30121    10000.0
30122    10000.0
30123    15000.0
30124     8100.0
30125     9500.0
30126    13000.0
30127    10000.0
30128    12000.0
30129    10000.0
30130     6000

Такой эффект наблюдается в столбцах `PERSONAL_INCOME`, `CREDIT`, `FST_PAYMENT`, `LOAN_AVG_DLQ_AMT`, `LOAN_MAX_DLQ_AMT`

### Теперь ваше небольшое исследование

#### Задание 1. Есть ли пропуски в данных? Что с ними сделать?

(единственного верного ответа нет - аргументируйте)

#### Задание 2. Есть ли категориальные признаки? Что с ними делать?

In [40]:
df.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,EDUCATION,MARITAL_STATUS,...,GEN_PHONE_FL,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ,LOAN_AVG_DLQ_AMT,LOAN_MAX_DLQ_AMT,PREVIOUS_CARD_NUM_UTILIZED,sample
0,59909969,0,30,1,0,1,1,1,Среднее специальное,Не состоял в браке,...,1,2,2,8,0,0,0,0,,test
1,59910420,0,48,0,1,1,0,0,Среднее,Состою в браке,...,0,2,1,15,0,0,0,0,,test
2,59911223,0,35,1,0,0,1,0,Среднее,Не состоял в браке,...,1,1,1,1,0,0,0,0,,test
3,59911322,0,22,1,0,0,0,0,Среднее,Не состоял в браке,...,1,3,2,9,0,0,0,0,,test
4,59911438,0,27,1,0,1,2,2,Высшее,Состою в браке,...,1,1,1,5,0,0,0,0,,test


In [41]:
df.isnull().sum()

AGREEMENT_RK                      0
TARGET                            0
AGE                               0
SOCSTATUS_WORK_FL                 0
SOCSTATUS_PENS_FL                 0
GENDER                            0
CHILD_TOTAL                       0
DEPENDANTS                        0
EDUCATION                         0
MARITAL_STATUS                    0
GEN_INDUSTRY                   2713
GEN_TITLE                      2713
ORG_TP_STATE                   2713
ORG_TP_FCAPITAL                2708
JOB_DIR                        2713
FAMILY_INCOME                     0
PERSONAL_INCOME                   0
REG_ADDRESS_PROVINCE              0
FACT_ADDRESS_PROVINCE             0
POSTAL_ADDRESS_PROVINCE           0
TP_PROVINCE                     590
REGION_NM                         2
REG_FACT_FL                       0
FACT_POST_FL                      0
REG_POST_FL                       0
REG_FACT_POST_FL                  0
REG_FACT_POST_TP_FL               0
FL_PRESENCE_FL              

#### Задание 3. Фунция предобработки

Напишите функцию, которая бы

* Удаляло идентификатор `AGREEMENT_RK`
* Избавлялась от проблем с '.' и ',' в стобцах PERSONAL_INCOME, CREDIT, FST_PAYMENT, LOAN_AVG_DLQ_AMT, LOAN_MAX_DLQ_AMT
* Что-то делала с пропусками
* Кодировала категориальные признаки

В результате, ваш датафрейм должен содержать только числа и не содержать пропусков!

In [42]:
#df.head()

#df["AGE"].mean()

#df.isnull().sum()

#df['GEN_INDUSTRY'] = df['GEN_INDUSTRY'].fillna(1)

#df.isnull().sum()

from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()

print('\n')
print('=== GEN_INDUSTRY ====================================================')

label_encoder = LabelEncoder()
pd.Series(label_encoder.fit_transform(df['GEN_INDUSTRY'].astype('str')))
print(dict(enumerate(label_encoder.classes_)))

print('\n')
print('=== GEN_TITLE =======================================================')

label_encoder = LabelEncoder()
pd.Series(label_encoder.fit_transform(df['GEN_TITLE'].astype('str')))
print(dict(enumerate(label_encoder.classes_)))

print('\n')
print('=== ORG_TP_STATE ====================================================')

label_encoder = LabelEncoder()
pd.Series(label_encoder.fit_transform(df['ORG_TP_STATE'].astype('str')))
print(dict(enumerate(label_encoder.classes_)))

print('\n')
print('=== ORG_TP_FCAPITAL =================================================')

label_encoder = LabelEncoder()
pd.Series(label_encoder.fit_transform(df['ORG_TP_FCAPITAL'].astype('str')))
print(dict(enumerate(label_encoder.classes_)))

print('\n')
print('=== JOB_DIR =========================================================')

label_encoder = LabelEncoder()
pd.Series(label_encoder.fit_transform(df['JOB_DIR'].astype('str')))
print(dict(enumerate(label_encoder.classes_)))

print('\n')
print('=== TP_PROVINCE =====================================================')

label_encoder = LabelEncoder()
pd.Series(label_encoder.fit_transform(df['TP_PROVINCE'].astype('str')))
print(dict(enumerate(label_encoder.classes_)))





{0: 'nan', 1: 'Банк/Финансы', 2: 'Государственная служба', 3: 'Другие сферы', 4: 'Здравоохранение', 5: 'Информационные технологии', 6: 'Информационные услуги', 7: 'Коммунальное хоз-во/Дорожные службы', 8: 'Логистика', 9: 'Маркетинг', 10: 'Металлургия/Промышленность/Машиностроение', 11: 'Наука', 12: 'Недвижимость', 13: 'Нефтегазовая промышленность', 14: 'Образование', 15: 'Подбор персонала', 16: 'Развлечения/Искусство', 17: 'Ресторанный бизнес/Общественное питание', 18: 'СМИ/Реклама/PR-агенства', 19: 'Салоны красоты и здоровья', 20: 'Сборочные производства', 21: 'Сельское хозяйство', 22: 'Страхование', 23: 'Строительство', 24: 'Торговля', 25: 'Транспорт', 26: 'Туризм', 27: 'Управляющая компания', 28: 'Химия/Парфюмерия/Фармацевтика', 29: 'ЧОП/Детективная д-ть', 30: 'Энергетика', 31: 'Юридические услуги/нотариальные услуги'}


{0: 'nan', 1: 'Военнослужащий по контракту', 2: 'Высококвалифиц. специалист', 3: 'Другое', 4: 'Индивидуальный предприниматель', 5: 'Партнер', 6: 'Работник сферы у

In [38]:
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()

def preproc_data(df_input):
    df_output = df_input.drop(['AGREEMENT_RK', 'PREVIOUS_CARD_NUM_UTILIZED'], axis=1)

    for column in ['PERSONAL_INCOME', 'CREDIT', 'FST_PAYMENT', 'LOAN_AVG_DLQ_AMT', 'LOAN_MAX_DLQ_AMT']:
        df_output[column].map(lambda x: x.replace(',', '.')).astype('float')

    categorical_columns = df_output.columns[df_output.dtypes == 'object']
    
    for column in categorical_columns:
        df_output[column] = label_encoder.fit_transform(df_output[column].astype('str'))
        
    

    return df_output


In [39]:
df_preproc = df.pipe(preproc_data)

#df_preproc.head()

df_preproc.isnull().sum()

#df_train_preproc = df_preproc.query('sample == "train"').drop(['sample'], axis=1)
#df_test_preproc = df_preproc.query('sample == "test"').drop(['sample'], axis=1)

TARGET                        0
AGE                           0
SOCSTATUS_WORK_FL             0
SOCSTATUS_PENS_FL             0
GENDER                        0
CHILD_TOTAL                   0
DEPENDANTS                    0
EDUCATION                     0
MARITAL_STATUS                0
GEN_INDUSTRY                  0
GEN_TITLE                     0
ORG_TP_STATE                  0
ORG_TP_FCAPITAL               0
JOB_DIR                       0
FAMILY_INCOME                 0
PERSONAL_INCOME               0
REG_ADDRESS_PROVINCE          0
FACT_ADDRESS_PROVINCE         0
POSTAL_ADDRESS_PROVINCE       0
TP_PROVINCE                   0
REGION_NM                     0
REG_FACT_FL                   0
FACT_POST_FL                  0
REG_POST_FL                   0
REG_FACT_POST_FL              0
REG_FACT_POST_TP_FL           0
FL_PRESENCE_FL                0
OWN_AUTO                      0
AUTO_RUS_FL                   0
HS_PRESENCE_FL                0
COT_PRESENCE_FL               0
GAR_PRES

#### Задание 4. Отделите целевую переменную и остальные признаки

Должно получится:
* 2 матрицы: X и X_test
* 2 вектора: y и y_test

#### Задание 5. Обучение и оценка качества разных моделей

In [14]:
from sklearn.cross_validation import train_test_split
# test_size=0.3, random_state=42

## Your Code Here




In [None]:
# Попробовать следующие "черные ящики": интерфейс одинаковый 
#     fit, 
#     predict, 
#     predict_proba

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

## Your Code Here

In [None]:
# Посчитать метрики стандартные
# accuracy, precision, recall

from sklearn.metrics import accuracy_score, precision_score, recall_score

## Your Code Here
    


In [None]:
# Визуалищировать эти метрики всех моделей на одном графике (чтоб визуально посмотреть)

## Your Code Here

In [None]:
# Потроить roc-кривые всех можелей на одном графике
# Вывести roc_auc каждой моделе

## Your Code Here

In [None]:
from sklearn.cross_validation import cross_val_score
from sklearn.model_selection import StratifiedKFold
# Сделать k-fold (10 фолдов) кросс-валидацию каждой модели
# И посчитать средний roc_auc
cv = StratifiedKFold(n_splits=10, shuffle=True, random_state=123)

## Your Code Here

In [None]:
# Взять лучшую модель и сделать predict (с вероятностями (!!!)) для test выборки


## Your Code Here

In [None]:
# Померить roc_auc на тесте
