In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

  return f(*args, **kwds)


## Rosbank ML Competition

Ссылка на соревнование: https://boosters.pro/champ_15

Росбанк – часть ведущей международной финансовой группы Societe Generale, банк включен ЦБ РФ в число 11 системно значимых кредитных организаций России. Инновации неотъемлемый процесс работы Росбанка, поэтому активно развивается направленный анализа больших данных.

- Данные

Датасет, который содержит историю транзакций клиентов за 3 месяца льготного использования банковского продукта

- Задача

Задача бинарной классификации – прогноз оттока клиентов

Колонка cl_id содержит вутренний id клиента. Для каждого уникальнго cl_id следует предсказать продолжит ли клиент пользоваться продуктом (target_flag). Значение 0 соответствует отказу, а значение 1 соответствует продолжению использования

In [4]:
train = pd.read_csv('train.csv')
train.head(5)

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category,target_flag,target_sum
0,01/10/2017,0,5200,,810,21OCT17:00:00:00,5023.0,POS,0,0.0
1,01/10/2017,0,6011,,810,12OCT17:12:24:07,20000.0,DEPOSIT,0,0.0
2,01/12/2017,0,5921,,810,05DEC17:00:00:00,767.0,POS,0,0.0
3,01/10/2017,0,5411,,810,21OCT17:00:00:00,2031.0,POS,0,0.0
4,01/10/2017,0,6012,,810,24OCT17:13:14:24,36562.0,C2C_OUT,0,0.0


In [5]:
test = pd.read_csv('test.csv')
test.head(5)

Unnamed: 0,PERIOD,cl_id,MCC,channel_type,currency,TRDATETIME,amount,trx_category
0,01/04/2017,2,5814,,810,18APR17:00:00:00,153.0,POS
1,01/03/2017,2,5812,,810,10MAR17:00:00:00,388.08,POS
2,01/02/2017,2,5691,,810,21FEB17:00:00:00,999.0,POS
3,01/04/2017,2,5814,,810,26APR17:00:00:00,90.0,POS
4,01/04/2017,2,5814,,810,08APR17:00:00:00,130.0,POS


In [6]:
train.drop('target_sum', axis=1, inplace=True)

In [7]:
test['target_flag'] = "y"

In [8]:
train.columns == test.columns

array([ True,  True,  True,  True,  True,  True,  True,  True,  True])

In [9]:
df = pd.concat([train, test])

In [10]:
def get_amount_sum(r):
    return r.amount.sum()

In [11]:
def get_main_currency(r):
    return(r.currency.value_counts().index.tolist()[0])

In [12]:
data_full = pd.DataFrame({
        'amount_sum' : df.groupby( [ "cl_id", "target_flag" ] ).apply(get_amount_sum),
        'main_currency' :  df.groupby( [ "cl_id", "target_flag" ] ).apply(get_main_currency)
    }).reset_index()

In [13]:
data_full.head(10)

Unnamed: 0,cl_id,target_flag,amount_sum,main_currency
0,0,0,64383.0,810
1,1,0,267578.04,810
2,2,y,328717.72,810
3,3,y,270848.77,810
4,4,y,338177.98,810
5,5,1,546369.13,810
6,6,y,460876.84,810
7,7,y,194243.43,810
8,8,y,303505.35,810
9,9,0,849315.09,810


In [24]:
X_train = data_full[data_full.target_flag!='y'].drop('target_flag', axis=1)
X_test = data_full[data_full.target_flag=='y'].drop('target_flag', axis=1)

In [25]:
Y_train = data_full[data_full.target_flag!='y']['target_flag'].apply(int)

In [30]:
X_train.shape[0] == Y_train.shape[0]

True

In [31]:
from sklearn.linear_model import LogisticRegression

In [32]:
lr = LogisticRegression()

In [33]:
lr.fit(X_train,Y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [45]:
lr.score(X_train,Y_train)

0.696

In [36]:
predictions = lr.predict(X_test)

In [42]:
submission = '_ID_,_VAL_\n'
submission += '\n'.join(['{},{}'.format(uid, prediction) for uid, prediction in zip(data_full[data_full.target_flag=='y'].cl_id, predictions)])

In [44]:
with open('submission2.txt', 'w') as file:
    file.write(submission)


## Домашняя работа

1. Наборы данных вида Transactions (несколько транзакций на одного клиента) трансформировать в таблицу, где cl_id будут уникальными (соответственно 4000 строк в train и 1000 строк в test
2. Для каждого cl_id будет уникальное целевое событие target_flag, а также уникальный канал привлечения клиента channel_type (клиент привлекается лишь однажды и с самого начала его записи присваивается значение канала привлечения)
3. При агрегации (*pandas.DataFrame.groupby*) по cl_id (или по связке cl_id, channel_type, target_flag) необходимо создавать производные фичи, идеи для таких фичей могут быть следующими:

    - общая сумма транзакций по каждой из trx_category
    - общая сумма транзакции по основным вылютам (напр. выделить рубли, доллары и евро - предположительно, это будут самые крупные категории)
    - общая сумма транзакций по категориям MCC кодов (например, выбрать основные/популярные MCC коды). ВНИМАНИ! Некоторые MCC коды из train могут быть не представлены в test. Про MCC коды в целом: http://www.banki.ru/wikibank/mcc-kod/; Справочник MCC кодов: https://mcc-codes.ru/code; Про некоторые категории кэшбека Росбанка: https://mcc-codes.ru/card/rosbank-sverkh-plus;
    - возможные агрегации по времени суток и дням недели - траты в выходные (праздники) или будни, в ночное время или в рабочее и т.д.
3. **Обязательная часть**: провести первичный анализ данных - посмотреть распределения признаков, выделить самые популярные MCC, помотреть активность клиентов по дням недели/времени, какие категории транзакции (trx_category) наиболее популярны и т.д. Получить инсайты, которые в дальнейшем помогут вам правильно подготовить фичи
4. **Обязательная часть**: на большом количестве фичей применить Lasso регрессию и посмотреть, какие переменные получают 0 в качестве коэффициентов
5. **Обязательная часть**: на фичах из MCC кодов применить PCA и посмотреть, какие фичи получаются и что они могут объяснять (для этого посмотреть на коэффициенты в *sklearn.decomposition.pca.components_* после построения главных компонент)
6. **Обязательная часть**: с отобранными фичами и полученными компонентами обучить модель (тип алгоритма на свой вкус, можно начать с линейной) и померить качество на локальном тестовом наборе данных (локальная валидация), который создается в этом ноутбуке. Сравнить качество модели до добавления компонент/после добавления/только на главных компонентах. **Метрика оценки качества - ROC AUC**(https://en.wikipedia.org/wiki/Receiver_operating_characteristic)
8. **Дополнительная часть**: поучаствовать в соревновании - загрузить предсказания на https://boosters.pro/champ_15. Для этого необходимо использовать все данные из файла rosbank_train.csv, на них делать feature engineering и обучениеб затем делать предсказания для клиентов из файла rosbank_test.csv, предварительно создав фичи по аналогии с train.
9. Задания принимаются в виде ноутбука с кодом/картинками выполненной обязательной части + указанием места в leaderboard при решении дополнительной

При возникновении вопросов и для отправки домашнего задания - egsachko@gmail.com или http://fb.com/sachkoe
    