In [44]:
import pandas as pd

In [45]:
# считаем описание данных
df = pd.read_csv('02_otp_desc.csv', sep=';').loc[:,'ПОЛЕ':'ОПИСАНИЕ']

In [46]:
df

Unnamed: 0,ПОЛЕ,ОПИСАНИЕ
0,AGREEMENT_RK,уникальный идентификатор объекта в выборке
1,TARGET,целевая переменная:отклик на маркетинговую кам...
2,AGE,возраст клиента
3,SOCSTATUS_WORK_FL,социальный статус клиента относительно работы ...
4,SOCSTATUS_PENS_FL,социальный статус клиента относительно пенсии ...
5,GENDER,пол клиента
6,CHILD_TOTAL,количество детей клиента
7,DEPENDANTS,количество иждивенцев клиента
8,EDUCATION,образование
9,MARITAL_STATUS,семейное положение


In [47]:
# считаем все-все данные
train = pd.read_csv('02_otp_train.csv', sep=';')
train.shape

(15223, 52)

In [48]:
test = pd.read_csv('02_otp_test.csv', sep=';')
test.shape

(14910, 51)

In [49]:
# отделим таргет от TRAIN-а
y = train['TARGET']
train = train.drop('TARGET', axis=1)

In [50]:
# соеденим train и test
train['is_test'] = False
test['is_test'] = True
all_data = pd.concat([train, test])
all_data.shape

(30133, 52)

In [51]:
# необходимо удалить индекс
# у нас есть 0-строка в train и 0-строка в test (и так далее 1,2,3,4)
# если мы просто объеденим - у нас сохранятся индексы
# мы же просто уберем индекс и автоматически создастся новый индекс, сквозной и уникальный
all_data = all_data.reset_index(drop=True)

In [52]:
# посмотрим типы данных и их заполняемость
all_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 52 columns):
AGREEMENT_RK                  30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null object
REG_ADDRESS_PROVINCE          30133 non-null object
FACT_ADDRESS_P

In [53]:
# Видим, что часть данных - object, скорее всего стоки.
# Давайте выведем эти значения для каждого столбца

for i in all_data.columns: # перебираем все столбцы
    if str(all_data[i].dtype) == 'object': # если тип столбца - object
        print(i) # выводим название столбца
        print(set(all_data[i])) # выводим все его значения (но делаем set - чтоб значения не повторялись)
        print() # выводим пустую строку

EDUCATION
{'Среднее специальное', 'Неоконченное высшее', 'Высшее', 'Неполное среднее', 'Среднее', 'Два и более высших образования', 'Ученая степень'}

MARITAL_STATUS
{'Разведен(а)', 'Не состоял в браке', 'Состою в браке', 'Вдовец/Вдова', 'Гражданский брак'}

GEN_INDUSTRY
{nan, 'Сборочные производства', 'Управляющая компания', 'Транспорт', 'Коммунальное хоз-во/Дорожные службы', 'Логистика', 'Юридические услуги/нотариальные услуги', 'Сельское хозяйство', 'СМИ/Реклама/PR-агенства', 'Химия/Парфюмерия/Фармацевтика', 'Энергетика', 'Страхование', 'Развлечения/Искусство', 'Недвижимость', 'Туризм', 'Строительство', 'Другие сферы', 'Банк/Финансы', 'Наука', 'Подбор персонала', 'Здравоохранение', 'Государственная служба', 'Металлургия/Промышленность/Машиностроение', 'Информационные технологии', 'Нефтегазовая промышленность', 'Маркетинг', 'Образование', 'Информационные услуги', 'ЧОП/Детективная д-ть', 'Салоны красоты и здоровья', 'Ресторанный бизнес/Общественное питание', 'Торговля'}

GEN_TITLE
{'Р

In [54]:
# можно заметить что некоторые переменные, 
# которые обозначены как строки (например PERSONAL_INCOME) на самом деле числа,
# но по какой-то (ниже увидим) причине были распознаны как строки
all_data['PERSONAL_INCOME'] = all_data['PERSONAL_INCOME'].map(lambda x: x.replace(',', '.')).astype('float')

In [55]:
# причина же что использовалась запятая для разделения не целой части числа
all_data['CREDIT'] = all_data['CREDIT'].map(lambda x: x.replace(',', '.')).astype('float')
all_data['FST_PAYMENT'] = all_data['FST_PAYMENT'].map(lambda x: x.replace(',', '.')).astype('float')
all_data['LOAN_AVG_DLQ_AMT'] = all_data['LOAN_AVG_DLQ_AMT'].map(lambda x: x.replace(',', '.')).astype('float')
all_data['LOAN_MAX_DLQ_AMT'] = all_data['LOAN_MAX_DLQ_AMT'].map(lambda x: x.replace(',', '.')).astype('float')

In [56]:
# запускаем повторно код и смотрим, какие столбцы с какими строковыми значениями остались
for i in all_data.columns:
    if str(all_data[i].dtype) == 'object':
        print(i)
        print(set(all_data[i]))
        print()

EDUCATION
{'Среднее специальное', 'Неоконченное высшее', 'Высшее', 'Неполное среднее', 'Среднее', 'Два и более высших образования', 'Ученая степень'}

MARITAL_STATUS
{'Разведен(а)', 'Не состоял в браке', 'Состою в браке', 'Вдовец/Вдова', 'Гражданский брак'}

GEN_INDUSTRY
{nan, 'Сборочные производства', 'Управляющая компания', 'Транспорт', 'Коммунальное хоз-во/Дорожные службы', 'Логистика', 'Юридические услуги/нотариальные услуги', 'Сельское хозяйство', 'СМИ/Реклама/PR-агенства', 'Химия/Парфюмерия/Фармацевтика', 'Энергетика', 'Страхование', 'Развлечения/Искусство', 'Недвижимость', 'Туризм', 'Строительство', 'Другие сферы', 'Банк/Финансы', 'Наука', 'Подбор персонала', 'Здравоохранение', 'Государственная служба', 'Металлургия/Промышленность/Машиностроение', 'Информационные технологии', 'Нефтегазовая промышленность', 'Маркетинг', 'Образование', 'Информационные услуги', 'ЧОП/Детективная д-ть', 'Салоны красоты и здоровья', 'Ресторанный бизнес/Общественное питание', 'Торговля'}

GEN_TITLE
{'Р

# Данные готовы, теперь вам предлагается начать решать задачу

In [57]:
# Есть ли пропуски в данных? что с ними сделать?
all_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 52 columns):
AGREEMENT_RK                  30133 non-null int64
AGE                           30133 non-null int64
SOCSTATUS_WORK_FL             30133 non-null int64
SOCSTATUS_PENS_FL             30133 non-null int64
GENDER                        30133 non-null int64
CHILD_TOTAL                   30133 non-null int64
DEPENDANTS                    30133 non-null int64
EDUCATION                     30133 non-null object
MARITAL_STATUS                30133 non-null object
GEN_INDUSTRY                  27420 non-null object
GEN_TITLE                     27420 non-null object
ORG_TP_STATE                  27420 non-null object
ORG_TP_FCAPITAL               27425 non-null object
JOB_DIR                       27420 non-null object
FAMILY_INCOME                 30133 non-null object
PERSONAL_INCOME               30133 non-null float64
REG_ADDRESS_PROVINCE          30133 non-null object
FACT_ADDRESS_

In [58]:
# Удалим все строковые фичи
all_data = all_data.drop(['GEN_INDUSTRY', 'GEN_INDUSTRY', 'GEN_TITLE', 'ORG_TP_STATE', 'ORG_TP_FCAPITAL', 'JOB_DIR', 'PERSONAL_INCOME', 'REG_ADDRESS_PROVINCE', 'FACT_ADDRESS_PROVINCE', 'POSTAL_ADDRESS_PROVINCE', 'TP_PROVINCE', 'REGION_NM', 'PREVIOUS_CARD_NUM_UTILIZED'], axis=1)

In [59]:
#all_data['PREVIOUS_CARD_NUM_UTILIZED'].replace(to_replace = 'Null', value="0", inplace=True)

In [60]:
all_data.WORK_TIME[all_data.WORK_TIME.isnull()] = all_data.WORK_TIME.mean()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [61]:
# Как поступить со строковыми переменными?
# Переведем строковые значения признака FAMILY_INCOME в значения от 0 до 4
#'от 20000 до 50000 руб.', 'до 5000 руб.', 'от 10000 до 20000 руб.', 'от 5000 до 10000 руб.', 'свыше 50000 руб.'

all_data['FAMILY_INCOME'].replace(to_replace = 'до 5000 руб.', value="0", inplace=True)
all_data['FAMILY_INCOME'].replace(to_replace = 'от 5000 до 10000 руб.', value="1", inplace=True)
all_data['FAMILY_INCOME'].replace(to_replace = 'от 10000 до 20000 руб.', value="2", inplace=True)
all_data['FAMILY_INCOME'].replace(to_replace = 'от 20000 до 50000 руб.', value="3", inplace=True)
all_data['FAMILY_INCOME'].replace(to_replace = 'свыше 50000 руб.', value="4", inplace=True)
all_data['FAMILY_INCOME'] = all_data.FAMILY_INCOME.astype('int64')

In [62]:
all_data = pd.get_dummies(all_data, columns=['EDUCATION', 'MARITAL_STATUS'])

In [63]:
# В итоге должны получиться данные без пропусков и только числовые
all_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30133 entries, 0 to 30132
Data columns (total 50 columns):
AGREEMENT_RK                                30133 non-null int64
AGE                                         30133 non-null int64
SOCSTATUS_WORK_FL                           30133 non-null int64
SOCSTATUS_PENS_FL                           30133 non-null int64
GENDER                                      30133 non-null int64
CHILD_TOTAL                                 30133 non-null int64
DEPENDANTS                                  30133 non-null int64
FAMILY_INCOME                               30133 non-null int64
REG_FACT_FL                                 30133 non-null int64
FACT_POST_FL                                30133 non-null int64
REG_POST_FL                                 30133 non-null int64
REG_FACT_POST_FL                            30133 non-null int64
REG_FACT_POST_TP_FL                         30133 non-null int64
FL_PRESENCE_FL                              30

In [64]:
# Вновь разделите на train и test (не мешая)
train = all_data[~all_data.is_test].drop(['is_test'], axis=1)
test = all_data[all_data.is_test].drop(['is_test'], axis=1)
train.shape

(15223, 49)

In [65]:
# Сделать hold-out sampling на train выборке
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(train, y, test_size=0.3, random_state=42)

In [66]:
X_train.shape
X_test.shape
print(X_train.shape, X_test.shape)

(10656, 49) (4567, 49)


In [None]:
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import accuracy_score, f1_score

# Первая модель - Дерево решений

In [86]:
from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier()
dtc.fit(X_train, y_train)
predict_dtc = dtc.predict(X_test)

print('precision', precision_score(y_test, predict_dtc))
print('recall', recall_score(y_test, predict_dtc))
print('accuracy', accuracy_score(y_test, predict_dtc))
print('f1', f1_score(y_test, predict_dtc))

precision 0.184039087948
recall 0.203603603604
accuracy 0.793518721261
f1 0.193327630453


# Вторая модель - Случай лес

In [87]:
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
predict_rfc = rfc.predict(X_test)

print('precision', precision_score(y_test, predict_rfc))
print('recall', recall_score(y_test, predict_rfc))
print('accuracy', accuracy_score(y_test, predict_rfc))
print('f1', f1_score(y_test, predict_rfc))

precision 0.32
recall 0.0144144144144
accuracy 0.876505364572
f1 0.0275862068966


# Третья модель - Лог.регрессия

In [89]:
from sklearn.linear_model import LogisticRegression
log = LogisticRegression()
log.fit(X_train, y_train)
predict_log = log.predict(X_test)

print('precision', precision_score(y_test, predict_log))
print('recall', recall_score(y_test, predict_log))
print('accuracy', accuracy_score(y_test, predict_log))
print('f1', f1_score(y_test, predict_log))

precision 0.0
recall 0.0
accuracy 0.878476023648
f1 0.0


  'precision', 'predicted', average, warn_for)
  'precision', 'predicted', average, warn_for)


In [90]:
# Визуалищировать эти метрики всех моделей на одном графике (чтоб визуально посмотреть)
%matplotlib inline
from matplotlib import pyplot as plt
from sklearn.metrics import roc_auc_score, roc_curve
fpr, tpr, thresholds = roc_curve(y_test, predict_dtc[:,1])
plt.figure(figsize=(5, 5))
plt.plot(fpr, tpr)
plt.plot([0, 1], [0, 1])
plt.ylabel('tpr')
plt.xlabel('fpr')
plt.grid(True)
plt.title('ROC curve')
plt.xlim((-0.01, 1.01))
plt.ylim((-0.01, 1.01))

IndexError: too many indices for array

In [None]:
# Потроить roc-кривые всех моделей на одном графике
# Вывести roc_auc каждой моделе

# Ваш код :-)

In [84]:
from sklearn.cross_validation import cross_val_score
# Сделать k-fold (10 фолдов) кросс-валидацию каждой модели
# И посчитать средний roc_auc

rfc = RandomForestClassifier()
cross_val_score(
    rfc,
    X_train,
    y_train,
    scoring='roc_auc',
    cv=10
)

array([ 0.59612884,  0.58674434,  0.60182793,  0.53376393,  0.5981974 ,
        0.59991135,  0.62575144,  0.55997447,  0.52696596,  0.59517785])

In [37]:
# Взять лучшую модель и сделать predict (с вероятностями (!!!)) для test выборки

# Ваш код :-)