# SkillFactory
## Введение в ML, введение в sklearn

В этом задании мы с вами рассмотрим данные с конкурса [Задача предсказания отклика клиентов ОТП Банка](http://www.machinelearning.ru/wiki/index.php?title=%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B0_%D0%BF%D1%80%D0%B5%D0%B4%D1%81%D0%BA%D0%B0%D0%B7%D0%B0%D0%BD%D0%B8%D1%8F_%D0%BE%D1%82%D0%BA%D0%BB%D0%B8%D0%BA%D0%B0_%D0%BA%D0%BB%D0%B8%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%9E%D0%A2%D0%9F_%D0%91%D0%B0%D0%BD%D0%BA%D0%B0_%28%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D1%81%29)

In [46]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12,5)

### Грузим данные

Считаем описание данных

In [48]:

df_descr = pd.read_csv('data/otp_description.csv', sep='\t', encoding='utf8')

In [49]:
df_descr

Unnamed: 0,ПОЛЕ,ОПИСАНИЕ
0,AGREEMENT_RK,уникальный идентификатор объекта в выборке
1,AGE,возраст клиента
2,SOCSTATUS_WORK_FL,социальный статус клиента относительно работы ...
3,SOCSTATUS_PENS_FL,социальный статус клиента относительно пенсии ...
4,GENDER,"пол клиента (1- женщины, 0-мужчины)"
5,CHILD_TOTAL,количество детей клиента
6,DEPENDANTS,количество иждивенцев клиента
7,EDUCATION,образование
8,MARITAL_STATUS,семейное положение
9,GEN_INDUSTRY,отрасль работы клиента


Считаем обучающую выборки и тестовую (которую мы как бы не видим)

In [251]:
df_train = pd.read_csv('data/otp_train.csv', sep='\t', encoding='utf8')

In [252]:
df_train.shape

(15223, 52)

In [253]:
df_test = pd.read_csv('data/otp_test.csv', sep='\t', encoding='utf8')

In [254]:
df_test.shape

(14910, 52)

In [255]:
df_train.head()

Unnamed: 0,AGREEMENT_RK,TARGET,AGE,SOCSTATUS_WORK_FL,SOCSTATUS_PENS_FL,GENDER,CHILD_TOTAL,DEPENDANTS,EDUCATION,MARITAL_STATUS,...,REG_PHONE_FL,GEN_PHONE_FL,LOAN_NUM_TOTAL,LOAN_NUM_CLOSED,LOAN_NUM_PAYM,LOAN_DLQ_NUM,LOAN_MAX_DLQ,LOAN_AVG_DLQ_AMT,LOAN_MAX_DLQ_AMT,PREVIOUS_CARD_NUM_UTILIZED
0,59910150,0,49,1,0,1,2,1,Среднее специальное,Состою в браке,...,0,1,1,1,6,2,1,1580,1580,
1,59910230,0,32,1,0,1,3,3,Среднее,Состою в браке,...,0,1,1,1,6,1,1,4020,4020,
2,59910525,0,52,1,0,1,4,0,Неполное среднее,Состою в браке,...,0,1,2,1,11,0,0,0,0,
3,59910803,0,39,1,0,1,1,1,Высшее,Состою в браке,...,1,1,1,1,6,3,1,158992333333333,1590,
4,59911781,0,30,1,0,0,0,0,Среднее,Состою в браке,...,0,1,2,1,16,2,1,115215,2230,


## Объединим две выборки

Так как пока мы пока не умеем работать sklearn  Pipeline, то для того, чтобы после предобработки столбцы в двух выборках находились на своих местах.

Для того, чтобы в дальнейшем отделить их введем новый столбец "sample"

In [256]:
df_train.loc[:, 'sample'] = 'train'
df_test.loc[:, 'sample'] = 'test'

In [257]:
df = df_test.append(df_train).reset_index(drop=True)

In [258]:
df.shape

(30133, 53)

### Чуть-чуть посмотрим на данные

Посмотрим типы данных и их заполняемость

In [None]:
df.info()

Видим, что часть данных - object, скорее всего стоки.


Давайте выведем эти значения для каждого столбца

In [None]:
for i in df_train.columns: # перебираем все столбцы
    if str(df_train[i].dtype) == 'object': # если тип столбца - object
        print('='*10)
        print(i)
               
        # выводим название столбца
        print(set(df_train[i])) # выводим все его значения (но делаем set - чтоб значения не повторялись)
        print('\n') # выводим пустую строку

Mожно заметить что некоторые переменные, которые обозначены как строки (например PERSONAL_INCOME) на самом деле числа, но по какой-то причине были распознаны как строки

Причина же что использовалась запятая для разделения не целой части числа..

Перекодировать их можно например так:

Такой эффект наблюдается в столбцах `PERSONAL_INCOME`, `CREDIT`, `FST_PAYMENT`, `LOAN_AVG_DLQ_AMT`, `LOAN_MAX_DLQ_AMT`

### Теперь ваше небольшое исследование

#### Задание 1. Есть ли пропуски в данных? Что с ними сделать?

(единственного верного ответа нет - аргументируйте)
Пропуски есть,  удалить строки с пропусками, а для "PREVIOUS_CARD_NUM_UTILIZED" заменить на 0.

In [None]:
#df.dropna(df['GEN_INDUSTRY'].notnull())
values={'PREVIOUS_CARD_NUM_UTILIZED':0}
df=df.fillna(value=values)
df.info()

In [None]:
df=df.dropna()

In [None]:
df.info()

In [None]:
#проверка работы
df[df['PREVIOUS_CARD_NUM_UTILIZED'].isnull()]



#### Задание 2. Есть ли категориальные признаки? Что с ними делать?

Категириальные признаки есть,  преобразовать в category 

In [None]:
df['EDUCATION_G']=df['EDUCATION'].astype('category')

In [None]:
for i in df.columns: # перебираем все столбцы
    if str(df[i].dtype) == 'object': # если тип столбца - object
        print('='*10)
        print(i)
               
        # выводим название столбца
        print(set(df_train[i])) # выводим все его значения (но делаем set - чтоб значения не повторялись)
        print('\n') # выводим пустую строку

#### Задание 3. Фунция предобработки

Напишите функцию, которая бы

* Удаляло идентификатор `AGREEMENT_RK`
* Избавлялась от проблем с '.' и ',' в стобцах PERSONAL_INCOME, CREDIT, FST_PAYMENT, LOAN_AVG_DLQ_AMT, LOAN_MAX_DLQ_AMT
* Что-то делала с пропусками
* Кодировала категориальные признаки

В результате, ваш датафрейм должен содержать только числа и не содержать пропусков!

In [301]:
def preproc_data(df_input):
    df_output = df_input.copy()
    #print (df_output.info())
    # drop AGREEMENT_RK
    df_output=df_output.drop('AGREEMENT_RK', axis=1)
    print (df_output.info())
    # устранение проблем с '.' ',' в атрибутах Val
    Val=[ 'PERSONAL_INCOME', 'CREDIT', 'FST_PAYMENT', 'LOAN_AVG_DLQ_AMT', 'LOAN_MAX_DLQ_AMT']
    #print (df_output['PERSONAL_INCOME'])
    for i in Val:
        df_output[i+'$']=df_output[i].map(lambda x: x.replace(',', '.')).astype('float')
        #df_output.drop(i)
    #  пропуски устранение, замена Nan на 0 в атрибуте 'PREVIOUS_CARD_NUM_UTILIZED' 
    # пояснение надо почему так ? 
    values={'PREVIOUS_CARD_NUM_UTILIZED':0}
    list_del=[]
    df_output=df_output.fillna(value=values)
    # удаление строк с пропусками, самый жестикй вариант, лучше заполнить медианами или средним,
    # по  группам или использовать метод interpolate()
    df_output=df_output.dropna()
    ## Your Code Here
    ## Кодирование категориальных признаков.
    for i in df.columns: # перебираем все столбцы
        if str(df[i].dtype) == 'object': # если тип столбца - object
            df_output[i+'_C']=df_output[i].astype('category')
            if i=='sample':
                continue
            else :
                list_del.append(i)
    print ('list_del=',list_del)
    
    df_output.drop(list_del,axis=1,inplace=True)
    
    for i in list_del:
        df_output=df_output.rename(columns={i+'_C':i})
    df_output.drop(Val,axis=1,inplace=True)
    for j in Val:
        df_output=df_output.rename(columns={j+'$':j})
    
   #df_output=df_output.drop(list_del,axis=1,inplace=True)
   #     """
    #df_output=df_output.drop('sample',axis=1,inplace=True)
    #df_output=df_output.rename(columns={'sample_C':'sample'})
    return df_output

In [308]:
df_preproc = preproc_data(df)
del_list=[]
for i in df_preproc.columns:
    if str(df_preproc[i].dtype)=='category':
        if i=='sample':
            continue
        else :
            del_list.append(i)
del_list
df_preproc.drop(del_list,axis=1,inplace=True)
df_preproc.info()
#df_train_preproc = df_preproc.query('sample == "train"').drop(['sample'], axis=1)
#df_test_preproc = df_preproc.query('sample == "test"').drop(['sample'], axis=1)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 52 columns):
TARGET                        30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null object
REG_ADDRESS_PROVINCE          30133 non-null object
FACT_ADDRESS_P

In [307]:
#df_preproc=df_preproc.drop('AGREEMENT_RK',axis=1)
#df_preproc.info()
df_preproc.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 26840 entries, 0 to 30132
Data columns (total 39 columns):
TARGET                        26840 non-null int64
AGE                           26840 non-null int64
SOCSTATUS_WORK_FL             26840 non-null int64
SOCSTATUS_PENS_FL             26840 non-null int64
GENDER                        26840 non-null int64
CHILD_TOTAL                   26840 non-null int64
DEPENDANTS                    26840 non-null int64
REG_FACT_FL                   26840 non-null int64
FACT_POST_FL                  26840 non-null int64
REG_POST_FL                   26840 non-null int64
REG_FACT_POST_FL              26840 non-null int64
REG_FACT_POST_TP_FL           26840 non-null int64
FL_PRESENCE_FL                26840 non-null int64
OWN_AUTO                      26840 non-null int64
AUTO_RUS_FL                   26840 non-null int64
HS_PRESENCE_FL                26840 non-null int64
COT_PRESENCE_FL               26840 non-null int64
GAR_PRESENCE_FL         

#### Задание 4. Отделите целевую переменную и остальные признаки

Должно получится:
* 2 матрицы: X и X_test
* 2 вектора: y и y_test

In [314]:
X_test=df_preproc[df_preproc['sample']=='test']
X_train=df_preproc[~(df_preproc['sample']=='test')]
y_test=df_preproc[df_preproc['sample']=='test']['TARGET']
y_train=df_preproc[~(df_preproc['sample']=='test')]['TARGET']
#
#X_test=X_test.drop(['TARGET','sample_C','sample'],axis=1)
X_train.drop('sample',axis=1)
#X_train=X_train.drop(['TARGET','sample_C','sample'],axis=1)
y=df_preproc['TARGET']



#### Задание 5. Обучение и оценка качества разных моделей

In [315]:
from sklearn.cross_validation import train_test_split
# test_size=0.3, random_state=42

## Your Code Here
X_train, X_test, y_train, y_test = train_test_split(df_preproc, y, test_size=0.33, random_state=42)

In [337]:

#X_train=X_train.drop(['sample_C'],axis=1)
#X_test=X_test.drop(['sample'],axis=1)

#X_train=X_train.drop('sample',axis=1)
X_test=X_test.drop('sample',axis=1)
y_train.shape
#y.shape

(17982,)

In [344]:
# Попробовать следующие "черные ящики": интерфейс одинаковый 
# Постепенно мы узнаем, что они делают а сейчас учимся понимать какой работает качественнее
#     fit, 
#     predict, 
#     predict_proba

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

## Your Code Here
model=DecisionTreeClassifier()
model.fit(X_train,y_train)
predict=model.predict(X_train)
print ('DecTree=',sum(abs(y_train - predict)))
predict_proba=model.predict(X_test)
print ('DecTree test=',sum(abs(y_test - predict_proba)))

model=LogisticRegression()
model.fit(X_train,y_train)
predict_f=model.predict(X_train)
print ('logreg=',sum(abs(y_train - predict)))
predict_proba_f=model.predict(X_test)
print ('logreg test=',sum(abs(y_test - predict_proba)))


model=RandomForestClassifier()
model.fit(X_train,y_train)
predict=model.predict(X_train)
print ('randforesr=',sum(abs(y_train - predict)))
predict_proba=model.predict(X_test)
print ('randforest=',sum(abs(y_test - predict_proba)))


DecTree= 0
DecTree test= 0
logreg= 0
logreg test= 0
randforesr= 0
randforest= 0


In [352]:
# Посчитать метрики стандартные
# accuracy, precision, recall

from sklearn.metrics import accuracy_score, precision_score, recall_score,classification_report

## Your Code Here
print(precision_score(y_train, predict_f))
print(precision_score(y_test, predict_proba_f))
print(recall_score(y_train, predict_f))
print(recall_score(y_test, predict_proba_f))
print(accuracy_score(y_train, predict_f))
print(accuracy_score(y_test, predict_proba_f))
print(classification_report(y_train, predict_f))
print(classification_report(y_test, predict_proba_f))

0.25
0.0
0.0008888888888888889
0.0
0.8746524302079858
0.8786407766990292
             precision    recall  f1-score   support

          0       0.87      1.00      0.93     15732
          1       0.25      0.00      0.00      2250

avg / total       0.80      0.87      0.82     17982

             precision    recall  f1-score   support

          0       0.88      1.00      0.94      7783
          1       0.00      0.00      0.00      1075

avg / total       0.77      0.88      0.82      8858



  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


In [360]:
predict_proba_f[:1]

array([0], dtype=int64)

In [363]:
# Визуалищировать эти метрики всех моделей на одном графике (чтоб визуально сравнить)
# Возможно вас удивит качество! Но задача подобрана специально ;) Такое качество тоже бывает

## Your Code Here
%matplotlib inline
from matplotlib import pyplot as plt
from sklearn.metrics import roc_auc_score, roc_curve
fpr, tpr, thresholds = roc_curve(y_test, predict_proba_f[:])
plt.figure(figsize=(5, 5))
plt.plot(fpr, tpr)
plt.plot([0, 1], [0, 1])
plt.ylabel('tpr')
plt.xlabel('fpr')
plt.grid(True)
plt.title('ROC curve')
plt.xlim((-0.01, 1.01))
plt.ylim((-0.01, 1.01))

IndexError: too many indices for array

In [366]:
# Потроить roc-кривые всех можелей на одном графике
# Вывести roc_auc каждой моделе
# Подпишите оси и линии

## Your Code Here
roc_auc_score(y_test, predict_proba_f[:])

0.5

In [367]:
from sklearn.cross_validation import cross_val_score
# Сделать k-fold (10 фолдов) кросс-валидацию каждой модели
# И посчитать средний roc_auc

## Your Code Here
from sklearn.model_selection import cross_val_score
rfc = RandomForestClassifier()
cross_val_score(
    rfc,
    X_train,
    y_train,
    scoring='roc_auc',
    cv=10
)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [None]:
# Взять лучшую модель и сделать предсказания (с вероятностями (!!!)) для test выборки

predict = 
## Your Code Here

In [None]:
# Померить roc_auc на тесте
# Вывести текстом и на графике =)

## Your Code Here

### Больше обязательных заданий нет, но ниже вы можете провести исследование, поиграться с данными
### Это возможность написать код, который я посмотрю и в случае чего откомметирую. ;)
### Это не оценивается и остается на ваше усмотрение. Просто дополнительная возможность

In [None]:
### И далее ;)