In [71]:
import pandas as pd
from gpt_sender_async import GPT_API as gpt
import asyncio
from tqdm import tqdm
import json

from typing import List, Dict

### Переименовать REAL_ESTATE обратно!

In [53]:
class_description = {
    "BANK_SERVICE": "банковские услуги: выдача и оплата кредитов, банковские комиссии и сборы",
    "FOOD_GOODS": "Продовольственные товары",
    "NON_FOOD_GOODS": "Непродовольственные товары",
    "LEASING": "лизинг (финансовая аренда)",
    "LOAN": "займы",
    "REALE_STATE": "недвижимость: покупка, аренда помещения, долевое инвестирование в жилищное строительство, средства водного транспорта (не входят ЖКУ, гостиницы)",
    "SERVICE": "услуги",
    "TAX": "налоги, штрафы, иные (не банковские) комиссии и сборы, социальные платежи включая заработную плату",
    "NOT_CLASSIFIED": "не подходит под предыдущие категории"
}


In [None]:
df = pd.read_csv("data/payments_training.tsv", sep='\t', header=None, index_col=0, names=["date", "money", "text", "class"])

In [178]:
df["class"].nunique()

9

In [55]:
df.head(2)

Unnamed: 0,date,money,text,class
1,07.11.2024,15300.0,За участие в конференции в г. Майкоп по догово...,SERVICE
2,07.11.2024,4020000.0,За оказание услуг по договору №79-02726В от 01...,SERVICE


In [56]:
def get_examples(df) -> None:
    dict_ = {}
    for class_ in df["class"].value_counts().index:
        df_ = df[df["class"]==class_].sample(frac=1, random_state=2).head()
        dict_[class_] = "(" + ";\n".join([f"{text}" for index, text in enumerate(df_.head()["text"])]).rstrip(";\n") + ")"
    return dict_

In [57]:
class_examples = get_examples(df)

In [58]:
class_prompt_list = []
for class_ in class_examples:
    class_prompt_list.append(f"- {class_} : {class_description[class_]}\nexamples: {class_examples[class_]}")

In [59]:
class_prompt = "\n".join(class_prompt_list).replace("REALE_STATE", "REAL_ESTATE")

In [60]:
#with open("class_prompt.txt", "w") as f:
#    f.write(class_prompt)

In [61]:
with open("class_prompt.txt", "r") as f:
    class_prompt = f.read()

In [62]:
def get_prompt(tema):
    return '''"""
__1__
"""
Классифицируй сообщения выше, опираясь на классы и примеры ниже. Примеры правдивые, опирайся на них при классификации. 
"""
__0__
"""

Верни в формате json. 
Пример: {"1": "str", "2": "str"}
Где вместо числа номер предложения (str), а вместо str один из классов (str). Return only python-parsable JSON.
'''.replace("__0__", class_prompt).replace("__1__", tema) 
    

In [63]:
async def get_responses(prompts):
    tasks = [gpt.get_response(prompt, json_output=False) 
             for prompt in prompts]
    responses = await asyncio.gather(*tasks)
    return responses


In [78]:
async def get_gpt_predictions(df: pd.DataFrame, texts_in_pompt_amount: int, batch_size: int ) -> List[Dict]:
    result = []
    try:
        texts: List[str] = df['text'].to_list()

        batched_texts, batched_indexes = [], []
        for index in range(0, len(texts), texts_in_pompt_amount):
            prompt_string_list, index_list = [], [] 
            for index_, text in enumerate(texts[index:index+texts_in_pompt_amount]):
                prompt_string_list.append(f"{index_ + 1}) {text}")
                index_list.append(str(index_ + 1 + index))
            batched_texts.append("\n".join(prompt_string_list).strip())
            batched_indexes.append(",".join(index_list).strip(","))

        for i in tqdm(range(0, len(batched_texts), batch_size)):
            # Add the batch to the batches list.
            data = batched_texts[i: i + batch_size]
            indexes = batched_indexes[i: i + batch_size]
            summaries = await get_responses([get_prompt(row) for row in data])
            for row, summary, ind in zip(data, summaries, indexes):

                try:
                    summary = list(json.loads(summary).values())
                except:
                    print(":()")
                    summary = [None] * len(ind.split(","))
                
                result.append({"indexes": ind, "text": row, "gpt_class":summary})
        
        return result
    except:
        print("Interrupting... Returning list.")
        return result

In [123]:
df_predict = pd.read_csv("data/payments_main.tsv", sep='\t', header=None, index_col=0, names=["date", "money", "text"])[3000:5000].drop_duplicates(["text"])

In [125]:
result = await get_gpt_predictions(df_predict, texts_in_pompt_amount=15, batch_size=10)

100%|██████████| 12/12 [01:05<00:00,  5.43s/it]


In [129]:
gpt_predicted_classes = [] 
for prediction in result:
    gpt_predicted_classes.extend(prediction["gpt_class"])

In [130]:
len(gpt_predicted_classes)

1655

In [131]:
df_ = df_predict

In [132]:
df_["gpt_class"] = gpt_predicted_classes

In [133]:
df_.to_csv("3000_5000_train_.tsv", sep="\t", index=False)

In [137]:
df1 = pd.read_csv("0_1900_train.tsv", sep='\t')
df2 = pd.read_csv("1900_3000_train_.tsv", sep='\t')
df3 = pd.read_csv("3000_5000_train_.tsv", sep='\t')

In [167]:
print(len(df1))
df1.head(2)

1900


Unnamed: 0,date,money,text,gpt_class
0,07.11.2024,40500.0,За тур.поездку по договору №001 от 27.01.2023г,SERVICE
1,07.11.2024,3260000.0,За оказание услуг по договору №53Б-02746 от 23...,SERVICE


In [168]:
print(len(df2))
df2.head(2)

1100


Unnamed: 0,date,money,text,gpt_class
0,07.11.2024,13300.0,Оплата дог 82.435844-ДБ от за 04/24г.согл.сч 0...,NOT_CLASSIFIED
1,07.11.2024,2050.0,гос.услуга,TAX


In [170]:
print(len(df3))
df3.tail(2)

1655


Unnamed: 0,date,money,text,gpt_class
1653,07.11.2024,103000000,"Оплата по договору №Б04046 от 04/08/2025г., сч...",FOOD_GOODS
1654,07.11.2024,1300-00,Оплата за Салфетки Tolli Plus бумажные в ассор...,NON_FOOD_GOODS


In [146]:
len(df1) + len(df2) + len(df3)

4655

In [172]:
df_res = pd.concat([df1, df2, df3]).reset_index(drop=True).drop_duplicates(["text"])

In [174]:
df_res.to_csv("data/train_gpt.csv", sep="\t")

In [176]:
df_res

Unnamed: 0,date,money,text,gpt_class
0,07.11.2024,40500.00,За тур.поездку по договору №001 от 27.01.2023г,SERVICE
1,07.11.2024,3260000,За оказание услуг по договору №53Б-02746 от 23...,SERVICE
2,07.11.2024,4710-00,Оплата штрафа,TAX
3,07.11.2024,30900-00,Лечение по договору №Д-00359/24 от 08.03.2025,SERVICE
4,07.11.2024,13200.00,Оплата основного долга за период с 16.12.2024г...,BANK_SERVICE
...,...,...,...,...
4650,07.11.2024,4670000,За участие в конференции в г. Елец по договору...,SERVICE
4651,07.11.2024,464000,Оплата за Браслет Конфитрейд со съемными насад...,NON_FOOD_GOODS
4652,07.11.2024,398000000,Предоставление кредита по договору №5-03344/96...,BANK_SERVICE
4653,07.11.2024,103000000,"Оплата по договору №Б04046 от 04/08/2025г., сч...",FOOD_GOODS


In [68]:
df_ = df[:len(gpt_predicted_classes)]

In [69]:
df_["predicted_class"] = gpt_predicted_classes

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_["predicted_class"] = gpt_predicted_classes


In [70]:
df_[(df_["class"] != df_["predicted_class"]) & ((df_["class"] != "REALE_STATE") & (df_["class"] != "REAL_ESTATE"))]

Unnamed: 0,date,money,text,class,predicted_class


In [51]:
df.loc[407]["text"]

'Предоставление кредита по договору №Е03722/09 от 20.07.2025г (приобретение транспортного средства)'

In [184]:
df_[df_["class"] != df_["predicted_class"]].loc[17]["text"]

'Оплата за Хлопья овсяные Ясно Солнышко №3 350г по счету 85386123522550808468 от 27.10.2027 Сумма 1840,00'

In [109]:
df_["predicted_class"].value_counts()

SERVICE           90
FOOD_GOODS        88
NON_FOOD_GOODS    72
TAX               47
BANK_SERVICE      47
NOT_CLASSIFIED    46
LOAN              44
LEASING           35
REAL_ESTATE       30
LEASE              1
Name: predicted_class, dtype: int64

In [34]:
gpt_predicted_classes

['SERVICE',
 'SERVICE',
 'NON_FOOD_GOODS',
 'LOAN',
 'NOT_CLASSIFIED',
 'LEASING',
 'NON_FOOD_GOODS',
 'NON_FOOD_GOODS',
 'FOOD_GOODS',
 'LOAN',
 'LOAN',
 'REAL_ESTATE',
 'NOT_CLASSIFIED',
 'NOT_CLASSIFIED',
 'LOAN',
 'SERVICE',
 'FOOD_GOODS',
 'NOT_CLASSIFIED',
 'TAX',
 'NON_FOOD_GOODS',
 'LEASING',
 'TAX',
 'NOT_CLASSIFIED',
 'SERVICE',
 'NOT_CLASSIFIED',
 'LEASING',
 'LEASING',
 'FOOD_GOODS',
 'NOT_CLASSIFIED',
 'FOOD_GOODS',
 'NON_FOOD_GOODS',
 'NOT_CLASSIFIED',
 'FOOD_GOODS',
 'NOT_CLASSIFIED',
 'NOT_CLASSIFIED',
 'BANK_SERVICE',
 'FOOD_GOODS',
 'FOOD_GOODS',
 'BANK_SERVICE',
 'LEASING',
 'NON_FOOD_GOODS',
 'TAX',
 'NOT_CLASSIFIED',
 'FOOD_GOODS',
 'NOT_CLASSIFIED',
 'NOT_CLASSIFIED',
 'BANK_SERVICE',
 'NON_FOOD_GOODS',
 'LEASING',
 'NOT_CLASSIFIED',
 'SERVICE',
 'FOOD_GOODS',
 'FOOD_GOODS',
 'FOOD_GOODS',
 'FOOD_GOODS',
 'NOT_CLASSIFIED',
 'FOOD_GOODS',
 'TAX',
 'NON_FOOD_GOODS',
 'NON_FOOD_GOODS',
 'FOOD_GOODS',
 'NOT_CLASSIFIED',
 'SERVICE',
 'LOAN',
 'FOOD_GOODS',
 'NON_FOOD_G

In [35]:
result

[{'indexes': '1,2,3,4,5,6,7,8,9,10,11,12,13,14,15',
  'text': '1) За участие в конференции в г. Майкоп по договору 88.367840-ДВ от 11 апреля 2026\n2) За оказание услуг по договору №79-02726В от 01/01/2024г.\n3) Оплата за Порошок стиральный Ariel Color automat 3кг по счету 89649723803465939448 от 14 августа 2024г Сумма 1440-00\n4) Возврат денежных средств по договору займа №04156А от 11/12/2023. Без НДС\n5) Оплата Дог №452 от 13/03/2021, согл. Сч 0745-27 от 09.03.2024г оплата за сброс загрязняющих веществ\n6) Оплата по дог.финансовой аренды №Б00358 от 30.03.2024 г., акт приема-передачи 855 от 04.06.2024г.. В т.ч. НДС(20%) 303333,33\n7) Оплата за Мицеллярная вода Чистая Линия Цветочная 3в1 для всех типов кожи 400мл по счету 08804953061434955152 от 08 мая 2027г Сумма 4900,00\n8) Оплата за Стиральные порошки по счету 19434127004879168364 от 05.06.2026г. Сумма 3250,00\n9) Оплата по договору №Е01368 от 03 августа 2027г, счету 0540 от 03 августа 2027г за мясные деликатесы. Сумма 5000,00 В т.ч

In [20]:
import requests
url = "https://api.theb.ai/v1/models"
# url = "https://api.baizhi.ai/v1/models"
headers = {
  'Authorization': 'Bearer sk-Uu24fj2VUPITT6LU6ZPOVGhlQi5BSQ17nWWBMjwiUT19NRFA'
}
response = requests.request("GET", url, headers=headers)
print(response.json())

{'object': 'list', 'data': [{'id': 'theb-ai', 'name': 'TheB.AI', 'family': 'chat', 'desc': 'Optimized conversation model, faster response, more natural and vivid language. Powered by gpt-4o-mini.', 'params': [{'name': 'temperature', 'label': 'Temperature', 'type': 'number', 'max': '2', 'min': '0', 'default': '1', 'precision': '0.01'}, {'name': 'top_p', 'label': 'Top P', 'type': 'number', 'max': '1', 'min': '0', 'default': '1', 'precision': '0.01'}, {'name': 'frequency_penalty', 'label': 'Frequency Penalty', 'type': 'number', 'min': '-2', 'max': '2', 'default': '0', 'precision': '0.01'}, {'name': 'presence_penalty', 'label': 'Presence Penalty', 'type': 'number', 'min': '-2', 'max': '2', 'default': '0', 'precision': '0.01'}], 'pricing': {'type': 'per_token', 'input': '0.0000005', 'output': '0.0000005'}}, {'id': 'theb-ai-4', 'name': 'TheB.AI 4.0', 'family': 'chat', 'desc': 'Upgraded version of TheB.AI model, optimized for conversations, with faster response, more natural and vivid languag

In [21]:
response.json()["data"]

[{'id': 'theb-ai',
  'name': 'TheB.AI',
  'family': 'chat',
  'desc': 'Optimized conversation model, faster response, more natural and vivid language. Powered by gpt-4o-mini.',
  'params': [{'name': 'temperature',
    'label': 'Temperature',
    'type': 'number',
    'max': '2',
    'min': '0',
    'default': '1',
    'precision': '0.01'},
   {'name': 'top_p',
    'label': 'Top P',
    'type': 'number',
    'max': '1',
    'min': '0',
    'default': '1',
    'precision': '0.01'},
   {'name': 'frequency_penalty',
    'label': 'Frequency Penalty',
    'type': 'number',
    'min': '-2',
    'max': '2',
    'default': '0',
    'precision': '0.01'},
   {'name': 'presence_penalty',
    'label': 'Presence Penalty',
    'type': 'number',
    'min': '-2',
    'max': '2',
    'default': '0',
    'precision': '0.01'}],
  'pricing': {'type': 'per_token',
   'input': '0.0000005',
   'output': '0.0000005'}},
 {'id': 'theb-ai-4',
  'name': 'TheB.AI 4.0',
  'family': 'chat',
  'desc': 'Upgraded versio

In [141]:
import json
from typing import Union
import aiohttp

class GPT_API:
    url = "https://api.theb.ai/v1/chat/completions"
    headers = {
        'Authorization': 'Bearer sk-Uu24fj2VUPITT6LU6ZPOVGhlQi5BSQ17nWWBMjwiUT19NRFA',
        'Content-Type': 'application/json'
    }
    
    @staticmethod
    def _create_gpt_message(prompt: str) -> str:
        '''
        Создает GPT формат для отправки с сообщением (промптом) и выбранной моделью)
        '''
        return json.dumps({
          "model": "gpt-4o",
          "messages": [{"role": "user", "content": prompt}],
          "stream": False })

    @classmethod
    async def get_response(cls, message: str, json_output: bool = False) -> Union[str, dict]:
        '''
        Отправляет запрос с нужным промптом и получает ответ в текстовом или json представлении
        '''
        async with aiohttp.ClientSession() as session:
            async with session.post(cls.url, headers=cls.headers, 
                                    data=cls._create_gpt_message(message)) as response:
                try:
                    response_data = await response.json()
                    content = response_data["choices"][0]["message"]["content"].lstrip(("\n```json\n")).rstrip("```\n")
                    if json_output:
                        return json.loads(content)
                    
                    return content
                except:
                    return

In [142]:
    async with aiohttp.ClientSession() as session:
        async with session.post(GPT_API.url, headers=GPT_API.headers, 
                                data=GPT_API._create_gpt_message("hi")) as response:
                response_data = await response.json()
                content = response_data["choices"][0]["message"]["content"].lstrip(("\n```json\n")).rstrip("```\n")

In [2]:
await gpt.get_response("HI")