In [1]:
import os
import pathlib

import pandas as pd

In [2]:
PAYMENTS_MAIN_NEW_PATH = pathlib.Path(os.getcwd()) / ".." / "data" / "processed" / "payments_main.tsv"
PAYMENTS_TRAINING_NEW_PATH = pathlib.Path(os.getcwd()) / ".." / "data" / "processed" / "payments_training.tsv"

In [3]:
df = pd.read_csv(PAYMENTS_TRAINING_NEW_PATH, sep='\t')
df.shape

(500, 4)

In [4]:
unique_examples = 30

template_list = []
template_count = unique_examples*9

categories_names = df['Category'].unique()
categories_count = {category: [] for category in categories_names}

In [5]:
def check_categories_count():
    for category, item in categories_count.items():
        if len(item) < unique_examples:
            return False
    return True

In [6]:
for index, row in df.iterrows():
    if check_categories_count():
        break
    
    current_category = row['Category']
    if len(categories_count[current_category]) < unique_examples:
        categories_count[current_category].append(index)

In [7]:
categories_count

{'SERVICE': [0,
  1,
  12,
  13,
  15,
  23,
  31,
  33,
  42,
  50,
  62,
  71,
  74,
  78,
  84,
  85,
  92,
  94,
  97,
  102,
  106,
  110,
  111,
  121,
  136,
  149,
  151,
  162,
  165,
  168],
 'NON_FOOD_GOODS': [2,
  6,
  7,
  17,
  19,
  28,
  30,
  34,
  40,
  44,
  45,
  47,
  49,
  53,
  55,
  58,
  59,
  65,
  73,
  80,
  90,
  93,
  95,
  98,
  104,
  105,
  113,
  116,
  117,
  133],
 'LOAN': [3,
  9,
  10,
  14,
  63,
  68,
  96,
  124,
  132,
  140,
  144,
  145,
  167,
  178,
  190,
  191,
  195,
  224,
  235,
  242,
  245,
  250,
  266,
  298,
  302,
  312,
  328,
  334,
  337,
  352],
 'NOT_CLASSIFIED': [4,
  61,
  76,
  87,
  120,
  122,
  134,
  155,
  173,
  225,
  251,
  254,
  279,
  283,
  286,
  294,
  297,
  326,
  339,
  364,
  378,
  428,
  450],
 'LEASING': [5,
  20,
  25,
  26,
  39,
  48,
  82,
  91,
  101,
  108,
  118,
  153,
  163,
  166,
  177,
  182,
  188,
  199,
  204,
  212,
  215,
  229,
  230,
  265,
  301,
  316,
  323,
  338,
  345,
  354],

In [8]:
df_compressed = []

for category in categories_count:
    for index in categories_count[category]:
        df_compressed.append(df.loc[index])

df_compressed = pd.DataFrame(df_compressed)

In [9]:
df_compressed

Unnamed: 0,Date,Amount,Description,Category
0,07.11.2024,15300.00,За участие в конференции в г. Майкоп по догово...,SERVICE
1,07.11.2024,4020000,За оказание услуг по договору №79-02726В от 01...,SERVICE
12,07.11.2024,1190000,За тур.поездку по договору №Д-03749/70 от 12 с...,SERVICE
13,07.11.2024,391000,"За гостиницу (Россия, г. Королёв)",SERVICE
15,07.11.2024,9600-00,Лечение по договору №Е-00248/69 от 28.12.2026,SERVICE
...,...,...,...,...
386,07.11.2024,280000000,Долевое инвестирование в жилищное строительство,REAL_ESTATE
417,07.11.2024,49600-00,Доплата по счету №В-00688/65 от 13 марта 2025г...,REAL_ESTATE
429,07.11.2024,125000000,Долевое инвестирование в жилищное строительство,REAL_ESTATE
464,07.11.2024,620000-00,Оплата по счету № 0331 от 29.08.2027г. за арен...,REAL_ESTATE


In [10]:
for index, row in df_compressed.iterrows():
    if len(template_list) < template_count:
        category_by_index = {
            'index': index,
            'category': row['Category']
        }

        template_list.append(category_by_index)
    
    else:
        break    

In [11]:
len(template_list)

260

In [12]:
for template in template_list:
    index = template['index']
    
    current_row = df_compressed.loc[index]
    
    print(current_row['Amount'], current_row['Description'], sep='\t')

15300.00	За участие в конференции в г. Майкоп по договору 88.367840-ДВ от 11 апреля 2026
40200,00	За оказание услуг по договору №79-02726В от 01/01/2024г.
11900,00	За тур.поездку по договору №Д-03749/70 от 12 сентября 2024
3910,00	За гостиницу (Россия, г. Королёв)
9600-00	Лечение по договору №Е-00248/69 от 28.12.2026
11300-00	Оказание прочих услуг
1640-00	Оплата коммунальных услуг
4010-00	За гостиницу (Россия, г. Кемерово)
1420-00	За гостиницу (Россия, г. Омск)
7400-00	За оказание услуг по договору №099 от 23 апреля 2024
6500-00	За медицинское обслуживание по договору №5-00651/69 от 30/06/2027
840000,00	За строительные работы по адресу г. Магнитогорск, Лесная ул., д. 3 по договору №40-03324В от 27/08/2025
10400,00	За консультации юриста по договору №62Г-02182 от 25.01.2027
32400.00	За участие в конференции в г. Элиста по договору №В04751/41 от 12.04.2024
4690.00	Оплата коммунальных услуг
32100.00	Оказание прочих услуг
28100-00	За информационные услуги по договору №Г01555/18 от 28.01.20

In [13]:
df_compressed = df_compressed.reset_index(drop=True)
template_list = []
for index, row in df_compressed.iterrows():
    if len(template_list) < template_count:
        category_by_index = {
            'index': index,
            'category': row['Category']
        }

        template_list.append(category_by_index)
    
    else:
        break 

In [14]:
template_list

[{'index': 0, 'category': 'SERVICE'},
 {'index': 1, 'category': 'SERVICE'},
 {'index': 2, 'category': 'SERVICE'},
 {'index': 3, 'category': 'SERVICE'},
 {'index': 4, 'category': 'SERVICE'},
 {'index': 5, 'category': 'SERVICE'},
 {'index': 6, 'category': 'SERVICE'},
 {'index': 7, 'category': 'SERVICE'},
 {'index': 8, 'category': 'SERVICE'},
 {'index': 9, 'category': 'SERVICE'},
 {'index': 10, 'category': 'SERVICE'},
 {'index': 11, 'category': 'SERVICE'},
 {'index': 12, 'category': 'SERVICE'},
 {'index': 13, 'category': 'SERVICE'},
 {'index': 14, 'category': 'SERVICE'},
 {'index': 15, 'category': 'SERVICE'},
 {'index': 16, 'category': 'SERVICE'},
 {'index': 17, 'category': 'SERVICE'},
 {'index': 18, 'category': 'SERVICE'},
 {'index': 19, 'category': 'SERVICE'},
 {'index': 20, 'category': 'SERVICE'},
 {'index': 21, 'category': 'SERVICE'},
 {'index': 22, 'category': 'SERVICE'},
 {'index': 23, 'category': 'SERVICE'},
 {'index': 24, 'category': 'SERVICE'},
 {'index': 25, 'category': 'SERVICE