In [1]:
import os
import pathlib

import pandas as pd

---

In [2]:
PAYMENTS_MAIN_NEW_PATH = pathlib.Path(os.getcwd()) / ".." / "data" / "processed" / "payments_main.tsv"
PAYMENTS_TRAINING_NEW_PATH = pathlib.Path(os.getcwd()) / ".." / "data" / "processed" / "payments_training.tsv"

In [3]:
df = pd.read_csv(PAYMENTS_TRAINING_NEW_PATH, sep='\t')
df.head()

Unnamed: 0,Date,Amount,Description,Category
0,07.11.2024,15300.00,За участие в конференции в г. Майкоп по догово...,SERVICE
1,07.11.2024,4020000,За оказание услуг по договору №79-02726В от 01...,SERVICE
2,07.11.2024,1440-00,Оплата за Порошок стиральный Ariel Color autom...,NON_FOOD_GOODS
3,07.11.2024,240000000-00,Возврат денежных средств по договору займа №04...,LOAN
4,07.11.2024,1360000.00,"Оплата Дог №452 от 13/03/2021, согл. Сч 0745-2...",NOT_CLASSIFIED


In [4]:
unique_examples = 5

template_list = []
template_count = unique_examples*9

categories_names = df['Category'].unique()
categories_count = {category: [] for category in categories_names}

In [5]:
def check_categories_count():
    for category, item in categories_count.items():
        if len(item) < unique_examples:
            return False
    return True

In [6]:
for index, row in df.iterrows():
    if check_categories_count():
        break
    
    current_category = row['Category']
    if len(categories_count[current_category]) < unique_examples:
        categories_count[current_category].append(index)

In [7]:
categories_count

{'SERVICE': [0, 1, 12, 13, 15],
 'NON_FOOD_GOODS': [2, 6, 7, 17, 19],
 'LOAN': [3, 9, 10, 14, 63],
 'NOT_CLASSIFIED': [4, 61, 76, 87, 120],
 'LEASING': [5, 20, 25, 26, 39],
 'FOOD_GOODS': [8, 16, 22, 24, 27],
 'BANK_SERVICE': [11, 35, 38, 46, 69],
 'TAX': [18, 21, 41, 57, 67],
 'REALE_STATE': [79, 86, 100, 154, 196]}

In [8]:
df_compressed = []

for category in categories_count:
    for index in categories_count[category]:
        df_compressed.append(df.loc[index])

df_compressed = pd.DataFrame(df_compressed)

In [9]:
df_compressed

Unnamed: 0,Date,Amount,Description,Category
0,07.11.2024,15300.00,За участие в конференции в г. Майкоп по догово...,SERVICE
1,07.11.2024,4020000,За оказание услуг по договору №79-02726В от 01...,SERVICE
12,07.11.2024,1190000,За тур.поездку по договору №Д-03749/70 от 12 с...,SERVICE
13,07.11.2024,391000,"За гостиницу (Россия, г. Королёв)",SERVICE
15,07.11.2024,9600-00,Лечение по договору №Е-00248/69 от 28.12.2026,SERVICE
2,07.11.2024,1440-00,Оплата за Порошок стиральный Ariel Color autom...,NON_FOOD_GOODS
6,07.11.2024,490000,Оплата за Мицеллярная вода Чистая Линия Цветоч...,NON_FOOD_GOODS
7,07.11.2024,325000,Оплата за Стиральные порошки по счету 19434127...,NON_FOOD_GOODS
17,07.11.2024,1380000.00,Предоплата за автозапчасти по счету 0067 от 27...,NON_FOOD_GOODS
19,07.11.2024,338000,Оплата за Суперклей Liberhaus Универсал 3г по ...,NON_FOOD_GOODS


In [10]:
for index, row in df_compressed.iterrows():
    if len(template_list) < template_count:
        category_by_index = {
            'index': index,
            'category': row['Category']
        }

        template_list.append(category_by_index)
    
    else:
        break    

In [11]:
len(template_list)

45

In [12]:
for template in template_list:
    index = template['index']
    
    current_row = df_compressed.loc[index]
    
    print(current_row['Amount'], current_row['Description'], sep='\t')

15300.00	За участие в конференции в г. Майкоп по договору 88.367840-ДВ от 11 апреля 2026
40200,00	За оказание услуг по договору №79-02726В от 01/01/2024г.
11900,00	За тур.поездку по договору №Д-03749/70 от 12 сентября 2024
3910,00	За гостиницу (Россия, г. Королёв)
9600-00	Лечение по договору №Е-00248/69 от 28.12.2026
1440-00	Оплата за Порошок стиральный Ariel Color automat 3кг по счету 89649723803465939448 от 14 августа 2024г Сумма 1440-00
4900,00	Оплата за Мицеллярная вода Чистая Линия Цветочная 3в1 для всех типов кожи 400мл по счету 08804953061434955152 от 08 мая 2027г Сумма 4900,00
3250,00	Оплата за Стиральные порошки по счету 19434127004879168364 от 05.06.2026г. Сумма 3250,00
1380000.00	Предоплата за автозапчасти по счету 0067 от 27.07.2026 г. года; Договор 26.072663-АБ от 08 октября 2028 г.
3380,00	Оплата за Суперклей Liberhaus Универсал 3г по счету 80621549698721971780 от 2027.06.04 Сумма 3380,00
240000000-00	Возврат денежных средств по договору займа №04156А от 11/12/2023. Без Н

In [13]:
df_compressed = df_compressed.reset_index(drop=True)
template_list = []
for index, row in df_compressed.iterrows():
    if len(template_list) < template_count:
        category_by_index = {
            'index': index,
            'category': row['Category']
        }

        template_list.append(category_by_index)
    
    else:
        break 

In [14]:
template_list

[{'index': 0, 'category': 'SERVICE'},
 {'index': 1, 'category': 'SERVICE'},
 {'index': 2, 'category': 'SERVICE'},
 {'index': 3, 'category': 'SERVICE'},
 {'index': 4, 'category': 'SERVICE'},
 {'index': 5, 'category': 'NON_FOOD_GOODS'},
 {'index': 6, 'category': 'NON_FOOD_GOODS'},
 {'index': 7, 'category': 'NON_FOOD_GOODS'},
 {'index': 8, 'category': 'NON_FOOD_GOODS'},
 {'index': 9, 'category': 'NON_FOOD_GOODS'},
 {'index': 10, 'category': 'LOAN'},
 {'index': 11, 'category': 'LOAN'},
 {'index': 12, 'category': 'LOAN'},
 {'index': 13, 'category': 'LOAN'},
 {'index': 14, 'category': 'LOAN'},
 {'index': 15, 'category': 'NOT_CLASSIFIED'},
 {'index': 16, 'category': 'NOT_CLASSIFIED'},
 {'index': 17, 'category': 'NOT_CLASSIFIED'},
 {'index': 18, 'category': 'NOT_CLASSIFIED'},
 {'index': 19, 'category': 'NOT_CLASSIFIED'},
 {'index': 20, 'category': 'LEASING'},
 {'index': 21, 'category': 'LEASING'},
 {'index': 22, 'category': 'LEASING'},
 {'index': 23, 'category': 'LEASING'},
 {'index': 24, 'cat