# SkillFactory
## Введение в ML, введение в sklearn

В этом задании мы с вами рассмотрим данные с конкурса [Задача предсказания отклика клиентов ОТП Банка](http://www.machinelearning.ru/wiki/index.php?title=%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BE%D1%82%D0%BA%D0%BB%D0%B8%D0%BA%D0%B0_%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%9E%D0%A2%D0%9F_%D0%91%D0%B0%D0%BD%D0%BA%D0%B0_%28%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81%29)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12,5)

### Грузим данные

Считаем описание данных

In [2]:
df_descr = pd.read_csv('otp_description.csv', sep='\t', encoding='utf8')

In [3]:
df_descr

Unnamed: 0,ПОЛЕ,ОПИСАНИЕ
0,AGREEMENT_RK,уникальный идентификатор объекта в выборке
1,AGE,возраст клиента
2,SOCSTATUS_WORK_FL,социальный статус клиента относительно работы ...
3,SOCSTATUS_PENS_FL,социальный статус клиента относительно пенсии ...
4,GENDER,"пол клиента (1- женщины, 0-мужчины)"
5,CHILD_TOTAL,количество детей клиента
6,DEPENDANTS,количество иждивенцев клиента
7,EDUCATION,образование
8,MARITAL_STATUS,семейное положение
9,GEN_INDUSTRY,отрасль работы клиента


Считаем обучающую выборки и тестовую (которую мы как бы не видим)

In [4]:
df_train = pd.read_csv('otp_train.csv', sep='\t', encoding='utf8')

In [5]:
df_train.shape

(15223, 52)

In [6]:
df_test = pd.read_csv('otp_test.csv', sep='\t', encoding='utf8')

In [7]:
df_test.shape

(14910, 52)

In [8]:
df_train.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,EDUCATION,MARITAL_STATUS,...,REG_PHONE_FL,GEN_PHONE_FL,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ,LOAN_AVG_DLQ_AMT,LOAN_MAX_DLQ_AMT,PREVIOUS_CARD_NUM_UTILIZED
0,59910150,0,49,1,0,1,2,1,Среднее специальное,Состою в браке,...,0,1,1,1,6,2,1,1580,1580,
1,59910230,0,32,1,0,1,3,3,Среднее,Состою в браке,...,0,1,1,1,6,1,1,4020,4020,
2,59910525,0,52,1,0,1,4,0,Неполное среднее,Состою в браке,...,0,1,2,1,11,0,0,0,0,
3,59910803,0,39,1,0,1,1,1,Высшее,Состою в браке,...,1,1,1,1,6,3,1,158992333333333,1590,
4,59911781,0,30,1,0,0,0,0,Среднее,Состою в браке,...,0,1,2,1,16,2,1,115215,2230,


## Объединим две выборки

Так как пока мы пока не умеем работать sklearn  Pipeline, то для того, чтобы после предобработки столбцы в двух выборках находились на своих местах.

Для того, чтобы в дальнейшем отделить их введем новый столбец "sample"

In [9]:
df_train.loc[:, 'sample'] = 'train'
df_test.loc[:, 'sample'] = 'test'

In [10]:
df = df_test.append(df_train).reset_index(drop=True)

In [11]:
df.shape

(30133, 53)

### Чуть-чуть посмотрим на данные

Посмотрим типы данных и их заполняемость

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 53 columns):
AGREEMENT_RK                  30133 non-null int64
TARGET                        30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null object
REG_ADDRESS_PRO

Видим, что часть данных - object, скорее всего стоки.


Давайте выведем эти значения для каждого столбца

In [None]:
for i in df_train.columns: # перебираем все столбцы
    if str(df_train[i].dtype) == 'object': # если тип столбца - object
        print('='*10)
        print(i) # выводим название столбца
        print(set(df_train[i])) # выводим все его значения (но делаем set - чтоб значения не повторялись)
        print('\n') # выводим пустую строку

Mожно заметить что некоторые переменные, которые обозначены как строки (например PERSONAL_INCOME) на самом деле числа, но по какой-то причине были распознаны как строки

Причина же что использовалась запятая для разделения не целой части числа..

Перекодировать их можно например так:

In [None]:
#df['PERSONAL_INCOME'].map(lambda x: x.replace(',', '.')).astype('float')


Такой эффект наблюдается в столбцах `PERSONAL_INCOME`, `CREDIT`, `FST_PAYMENT`, `LOAN_AVG_DLQ_AMT`, `LOAN_MAX_DLQ_AMT`

### Теперь ваше небольшое исследование

#### Задание 1. Есть ли пропуски в данных? Что с ними сделать?

(единственного верного ответа нет - аргументируйте)

Да, пропуски в данных есть. Данные о предыдущих картах удалим - потому что процент заполненных данных там слишком мал. Остальные пропуски удалим - их не так много

#### Задание 2. Есть ли категориальные признаки? Что с ними делать?

Да, часть категориальных признаков представлена в цифровом формате, а часть - в текстовом. Необходимо превратить текстовый в числовой.

#### Задание 3. Фунция предобработки

Напишите функцию, которая бы

* Удаляло идентификатор `AGREEMENT_RK`
* Избавлялась от проблем с '.' и ',' в стобцах PERSONAL_INCOME, CREDIT, FST_PAYMENT, LOAN_AVG_DLQ_AMT, LOAN_MAX_DLQ_AMT
* Что-то делала с пропусками
* Кодировала категориальные признаки

В результате, ваш датафрейм должен содержать только числа и не содержать пропусков!

In [13]:
def preproc_data(df_input):
    df_output = df_input.copy()
    df_output = df_output.drop(['AGREEMENT_RK', 'PREVIOUS_CARD_NUM_UTILIZED'], axis=1)
    col = ['PERSONAL_INCOME', 'CREDIT', 'FST_PAYMENT', 'LOAN_AVG_DLQ_AMT', 'LOAN_MAX_DLQ_AMT']
    for i in col:
        df_output[i].map(lambda x: x.replace(',', '.')).astype('float64')
        df_output[i] = pd.to_numeric(df_output[i], errors='coerce')
    df_output.dropna(inplace=True)    
    #df_output = df_output.fillna(0)    
    for i in df_output.columns:
        if str(df_output[i].dtype) == 'object':
            m = len(set(df_output[i]))
            new_df = dict(zip([a for a in list(set(df_output[i]))],[n for n in range(m)]))
            df_output[i].replace(to_replace=new_df, inplace=True)
                    
            
    return df_output

In [14]:
df_preproc = df.pipe(preproc_data)

df_train_preproc = df_preproc.query('sample == 1').drop(['sample'], axis=1)
df_test_preproc = df_preproc.query('sample == 0').drop(['sample'], axis=1)

#### Задание 4. Отделите целевую переменную и остальные признаки

Должно получиться:
* 2 матрицы: X и X_test
* 2 вектора: y и y_test

In [15]:
y = df_train_preproc['TARGET']
y_test = df_test_preproc['TARGET']
x = df_train_preproc.drop(['TARGET'], axis=1)
x_test = df_test_preproc.drop(['TARGET'], axis=1)

print(x.shape)
print(y.shape)
print(x_test.shape)
print(y_test.shape)

(11919, 49)
(11919,)
(12181, 49)
(12181,)


#### Задание 5. Обучение и оценка качества разных моделей

In [16]:
from sklearn.cross_validation import train_test_split
# test_size=0.3, random_state=42
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)
## Your Code Here


In [17]:
# Попробовать следующие "черные ящики": интерфейс одинаковый 
# Постепенно мы узнаем, что они делают а сейчас учимся понимать какой работает качественнее
#     fit, 
#     predict, 
#     predict_proba

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score, roc_curve



## Your Code Here

In [19]:
dtc = DecisionTreeClassifier()
fit = dtc.fit(X_train, y_train)
predict = dtc.predict(X_test)
predict_proba = dtc.predict_proba(X_test)
print(predict.shape)

print('precision', precision_score(y_test, predict))
print('recall', recall_score(y_test, predict))
print('accuracy', accuracy_score(y_test, predict))

(3576,)
precision 0.13737373737373737
recall 0.16790123456790124
accuracy 0.7863534675615212


In [25]:
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
predict1 = rfc.predict(X_test)
predict_proba1 = rfc.predict_proba(X_test)
print(predict1.shape)

print('precision', precision_score(y_test, predict1))
print('recall', recall_score(y_test, predict1))
print('accuracy', accuracy_score(y_test, predict1))

(3576,)
precision 0.13333333333333333
recall 0.0049382716049382715
accuracy 0.883668903803132


In [26]:
lg = LogisticRegression()
lg.fit(X_train, y_train)
predict2 = lg.predict(X_test)
predict_proba2 = lg.predict_proba(X_test)
print(predict.shape)

print('precision', precision_score(y_test, predict2))
print('recall', recall_score(y_test, predict2))
print('accuracy', accuracy_score(y_test, predict2))

(3576,)
precision 0.0
recall 0.0
accuracy 0.8861856823266219


In [None]:
# Визуалищировать эти метрики всех моделей на одном графике (чтоб визуально сравнить)
# Возможно вас удивит качество! Но задача подобрана специально ;) Такое качество тоже бывает


In [28]:
# Потроить roc-кривые всех можелей на одном графике
# Вывести roc_auc каждой моделе
# Подпишите оси и линии

print('roc_auc DTC: ', roc_auc_score(y_test, dtc.predict_proba(X_test)[:,1]))
print('roc_auc RFC: ', roc_auc_score(y_test, rfc.predict_proba(X_test)[:,1]))
print('roc_auc LR: ', roc_auc_score(y_test, lg.predict_proba(X_test)[:,1]))


roc_auc DTC:  0.5166216989616548
roc_auc RFC:  0.5672343109429202
roc_auc LR:  0.5907860977765319


In [30]:
from sklearn.cross_validation import cross_val_score
# Сделать k-fold (10 фолдов) кросс-валидацию каждой модели
# И посчитать средний roc_auc
rfc = RandomForestClassifier()
cross_val_score(
    rfc,
    x,
    y,
    scoring='roc_auc',
    cv=10
)
## Your Code Here

array([0.59687286, 0.54383485, 0.58066279, 0.53624714, 0.55757097,
       0.54625112, 0.5310444 , 0.58254306, 0.5728639 , 0.57095576])

In [36]:
# Взять лучшую модель и сделать предсказания (с вероятностями (!!!)) для test выборки

predict = dtc.predict(X_test)
predict_pr = dtc.predict_proba(X_test)
print (predict, predict_pr)
## Your Code Here

[0 0 1 ... 1 0 0] [[1. 0.]
 [1. 0.]
 [0. 1.]
 ...
 [0. 1.]
 [1. 0.]
 [1. 0.]]


In [None]:
# Померить roc_auc на тесте
# Вывести текстом и на графике =)

## Your Code Here

### Больше обязательных заданий нет, но ниже вы можете провести исследование, поиграться с данными
### Это возможность написать код, который я посмотрю и в случае чего откомметирую. ;)
### Это не оценивается и остается на ваше усмотрение. Просто дополнительная возможность

In [None]:
### И далее ;)