# Предсказание банковских транзакций

**Описание задачи**<br/>
Одним из самых ценных источников информации о клиенте являются данные о банковских транзакциях.</br>
В этом соревновании участникам предлагается предсказать будущие траты клиента, используя информацию о совершенных тратах.</br>

**Полезная информация**</br>
Для понимания представленных данных будет полезна следующая <a href="https://www.banki.ru/wikibank/mcc-kod/">*статья*</a></br>

<a href="https://mcc-codes.ru/code">Описание MCC-кодов.</a></br>

**BaseLine**</br>
Для быстрого старта можно использовать решение, приведенное ниже:</br>
https://www.kaggle.com/prampampam/baseline-popular-transactions

**Формат решения задачи**</br>
Решение ожидаем в виде файла csv. Пример: submission_file.csv из <a href="https://www.kaggle.com/competitions/alfabank-campus/data">раздела Data.</a></br>

**Вопросы**</br>
https://www.kaggle.com/competitions/alfabank-campus/discussion/442418

**Метрика качества**</br>
<a href="https://habr.com/ru/companies/econtenta/articles/303458">**MAP@10**</a></br>

**Описание набора данных**




**File descriptions**</br>
1. df_train.csv — данные для обучения предиктиного алгоритма
2. df_test.csv — тестовый датасет
3. submission_file.csv — пример файла сабмита клиента

**Data fields** </br>
1. df_train.csv
   - data - история трат клиентов (последовательность mcc-кодов в хронологическом порядке);
   - target - последовательность будущих трат клиента.
3. df_test.csv
   - Id - идентификатор клиента;
   - история трат клиентов (последовательность mcc-кодов в хронологическом порядке). 
5. submission_file.scv
   - Id - идентификатор клиента;
   - Predicted - предсказание следующих 10 транзакций клиента.

## Получение данных

Общая концепция: 
1. Избавиться от выбросов
2. Определить количество значений у каждого id, построить ящик с усами, оставить только ниболее большое количество значений или то количество значений, соответствующее выборке с предсказаниями.
3. Обучить модель на данных
4. Предсказать значения для нескольких случаев(10)

Произведём загрузку данных, библиотек и их компонентов

In [1]:
import pandas as pd
from IPython.display import display 
import matplotlib.pyplot as plt

Определим функцию для загрузки файла

In [2]:
def download_file(name, sep=';'):
    try:
        data = pd.read_csv('data/' + name, index_col ='Id', sep=sep)
        return data
    except Exception as _:
        print('Загрузка файла вызвала ошибку\n', _)

Получим наборы данных для изучения

In [3]:
df_train = download_file('df_train.csv')
df_test = download_file('df_test.csv')
submission_baseline_2 = download_file('submission_baseline_2.csv', sep=',')

### Оценка наборов данных

Изучим данные

**df_train**

In [4]:
df_train.head(5)

Unnamed: 0_level_0,Data,Target
Id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,"4814,4814,6010,6011,4814,6011,6011,4814,6011,6...",4814481448144814541148144814481448144814
1,"6011,6011,6011,6011,6011,6011,6011,4814,4814,4...",4814601148146011481448146011481460114814
2,"8021,6011,6011,6010,4829,4814,6011,6011,6011,6...",6011601160104829482960106011601148146011
3,"4814,6011,4814,4814,4814,6011,6011,5691,5691,5...",6011601160106011601148144814601148144814
4,"4814,4814,4814,4814,4814,4814,5946,4814,4814,6...",5499601148144829520054115499591254115912


In [5]:
df_train.loc[0, 'Data'][:20]

'4814,4814,6010,6011,'

In [6]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7033 entries, 0 to 7032
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Data    7033 non-null   object
 1   Target  7033 non-null   object
dtypes: object(2)
memory usage: 422.9+ KB


**df_test**

In [7]:
df_test.head(5)

Unnamed: 0_level_0,Data
Id,Unnamed: 1_level_1
0,"4814,4814,6011,6011,6010,6011,6011,4814,6011,4..."
1,"6010,6011,6010,5411,5411,5977,6011,6010,5411,6..."
2,"4814,6011,5251,6011,7832,5641,5814,4829,5311,6..."
3,"6011,4722,4722,4722,4814,6011,6011,4829,6011,6..."
4,"4814,4814,4814,6011,4814,4814,4814,4814,4814,4..."


In [8]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7033 entries, 0 to 7032
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Data    7033 non-null   object
dtypes: object(1)
memory usage: 109.9+ KB


**submission_baseline_2**\
Посмотрим на пример вывода

In [9]:
submission_baseline_2.head()

Unnamed: 0_level_0,Predicted
Id,Unnamed: 1_level_1
0,[6011 4814 6010 4829 5499 5541 5411 6011 6010 ...
1,[6011 6010 5411 6011 6010 4814 5411 4829 5499 ...
2,[6011 6010 5499 4814 5411 5814 4829 5812 6011 ...
3,[6011 4814 5964 5411 4829 5912 6010 6012 5814 ...
4,[4814 6011 6011 6010 4814 5411 4829 5499 5541 ...


In [10]:
submission_baseline_2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7033 entries, 0 to 7032
Data columns (total 1 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Predicted  7033 non-null   object
dtypes: object(1)
memory usage: 109.9+ KB


**Заключение**\
Данные имеют строчный формат, для анализа неободимо привести их в целочисленный вид.

### Подготовка данных

In [11]:
df_train['Data'] = df_train['Data'].apply(lambda x: list(map(int, x.split(','))))
df_train['Target'] = df_train['Target'].apply(lambda x: list(map(int, x.split(','))))
df_test['Data'] = df_test['Data'].apply(lambda x: list(map(int, x.split(','))))

Посмотрим на предсказания. Изучим какое значение в среднем бывет.

In [None]:
len([int(el) for el in submission_baseline_2.loc[0, 'Predicted'][1:-1].split()])

In [None]:
how = submission_baseline_2['Predicted'].apply(lambda x: len([int(el) for el in x[1: -1].split()]))
how.describe()

In [None]:
how.hist(range=(11, 20))
plt.title('Количество предсказаний')
plt.xlabel('классы')
plt.ylabel('количество');

### Вывод

* для `df_train` и `df_test` можно сделать заключение, что необходимо преобразовать данные из строчного формата в целочисленный;
* MCC коды напоминают токены в обработке текста, возможно это свойство получиться использовать;
* также, вероятно, что данные подойдут для обучения нейросетью. 


Приведение значений из строчного формата в чиловой

In [None]:
df_train['Data'] = df_train.Data.apply(lambda s: list(map(int, s.split(','))))
df_train['Target'] = df_train.Target.apply(lambda s: list(map(int, s.split(','))))
df_test['Data'] = df_test.Data.apply(lambda s: list(map(int, s.split(','))))

In [None]:
df_train.head(2)

In [None]:
df_test.head(2)

In [None]:
submission_baseline_2.head(2)

Изучим получившиеся наборы данных

In [None]:
df_train.head()

Определить количество значений у каждого id, построить ящик с усами, оставить только ниболее большое количество значений или то количество значений, соответствующее выборке с предсказаниями.

In [None]:
# d_train = {}
# for el in df_train.loc[0, 'Data']:
#     if el not in d_train.keys():
#         d_train[el] = 1
#     else:
#         d_train[el] += 1

# #d_train
# for key, val in d_train.items():
#     df_train.loc[:, key] = val
#     print(key, val)

In [None]:
def make_columns(row):
    d_train = {}
    for el in row['Data']:
        if el not in d_train.keys():
            d_train[el] = 1
        else:
            d_train[el] += 1

    
    # display(pd.DataFrame([d_train.values()], columns=d_train.keys()))
    new_data = pd.DataFrame([d_train.values()], columns=d_train.keys())
    
    # for key, val in d_train.items():
    #     row[key] = val
    
    # print(key, val)
    # print(row)
    # # row[2] = d_train.keys()
    
    return row#d_train.keys()
    

    

In [None]:
df_train.head(1).apply(make_columns, axis=1)

In [None]:
df_train.head()

In [None]:
for el in set(df_train.loc[0, 'Data']):
    print(df_train.loc[df_train['Data'] == el, 'Data'])

In [None]:
[i for i in range(len(df_train.loc[0, 'Data'])) if df_train.loc[0, 'Data'][i] == 4814]

In [None]:
df_train.loc[0, 'Data'][0]

Определим функцию для отображения первичной информации

In [None]:
def first_info(name):
    display(name.head())
    display(name.info())

In [None]:
top10_codes = df_train['Data'].explode().value_counts().head(10)
top10_codes

In [None]:
df_train['Data'].explode().value_counts().reset_index().hist(bins=20)

In [None]:
boxplot_train = df_train['Data'].explode().value_counts().reset_index().boxplot('Data', return_type='dict')
boxplot_train;

Получим граничные значения

In [None]:
[item.get_ydata()[1] for item in boxplot_train['whiskers']] 

*Значения, которые не соответствуют диапазону удалим*

Общая концепция: 
1. Избавиться от выбросов
2. Определить количество значений у каждого id, построить ящик с усами, оставить только ниболее большое количество значений или то количество значений, соответствующее выборке с предсказаниями.
3. Обучить модель на данных
4. Предсказать значения для нескольких случаев(10)

In [None]:
first_info(submission_baseline_2)

## fgfg

In [None]:
def str_info(num):
    print(len(df_train.loc[num, 'Data']))
    print(len(df_test.loc[num, 'Data']))
    print(len(submission_baseline_2.loc[num, "Predicted"][1:-1].split(' ')))

str_info(0)

In [None]:
# for i in range(5):
#     print(i+1)
#     str_info(i)
#     print()

In [None]:
submission_baseline_2.columns