# Создание ИИ Агнета, который использует тестовые данные

## План работ:
- Подключить LLM модель
- Обработать данные для того, чтобы предотсавить модели более понятную и структурированную информацию о платежах
- Прогнать данные через ML модель (точность на тестовых данных сильно хромает)
- Предоставить LLM модели промпт, в котором будут описаны параметры и данные, которые мы предоставляем модели, задача и пример вывода
- Оценить полученные результаты

## Цели работы:
- Создать ИИ-агнета который будет определять степент риска транзакции по данным: назначение, время проведения, сумма транзакции и кто провел транзакцию
- Точность должна быть от 90 процентов (но нет четкой метрики, по которой можно понять успешность агента)

## Материалы по работе: 
- 

### Подключение и настройка LLM

Для данной работы используется модель `GigaChat`. Она была выбрана, потому что предоставляет достаточно бесплатных токенов для экспериментов и тестирования. Альтернативно можно использовать другие модели, например `Qwen`, в зависимости от требований к функционалу и объему доступных ресурсов.  

Системный промпт хранится в файле `system_prompt.docx` в корневой папке проекта. В этом документе подробно описаны:  
- задачи, которые должна выполнять модель;  
- критерии оценки ответов модели и их приоритет;  
- примеры входных данных и соответствующих выходных результатов.  

Подключение системного промпта позволяет модели понимать контекст и задачи проекта, а также поддерживать единый стандарт качества ответов на протяжении всей сессии.


In [77]:
# Подключаем LLM
import base64
import requests

url = "https://ngw.devices.sberbank.ru:9443/api/v2/oauth"

payload={
  'scope': 'GIGACHAT_API_PERS'
}
headers = {
  'Content-Type': 'application/x-www-form-urlencoded',
  'Accept': 'application/json',
  'RqUID': '2aba969c-a22a-4816-a652-393a756a96c1',
  'Authorization': 'Basic MDE5OWNlMTEtNmEyOC03OTBjLWJkOGMtZDdhYTI5OGI0MmZhOmRmOWYyOTg4LTVhMmEtNGZhNS04ZDdmLTNhMjE3ZDQ1ODY3Mg==',
}

response = requests.request("POST", url, headers=headers, data=payload, verify=False)

print(response.text)



{"access_token":"eyJjdHkiOiJqd3QiLCJlbmMiOiJBMjU2Q0JDLUhTNTEyIiwiYWxnIjoiUlNBLU9BRVAtMjU2In0.S3Inkfy6yeyDybiTqWojUX7grIJHE3GaZol1634DhgwzGuUSoCZezSq193kRSbweNH2oP4eL6T7P3FfSZd4_zqX6A8sqqXbV-uw1zMD-AM2zwmMpJ713jA55QeyfSSLS1IO7c5LoQj7qM9mZ26QF4ekp7TORKAghPMbEnfmxjPg0UYXze3bF2YV31aGDoUVr7k0rHQQHG81OjY1hNknxyjltXZNL7CD1ILsx9M2cfXpeT6YxZ03bXlQRAGKpvUEwFtfmMnYu-vAN7ofXXBZEnM1Hu7Bs9IML0wRB9Gi_IxSFoMBfIenPmNYYEHaaVyAghZ05sLUJmmEzsikHBiPUSA.4Fe1rHSA0RT1pFCajdY04A.h1x1vjLIMyVxYH5Ds2bpr2m8QuJzw73iZNIZY0EDdML6mRYrxFDt65Sk4icEUsM_vqvX9YVkNCNUZ-ZSkGhYAK0KJbstVs7eMF93xak3BUElf8AChQ7tQDzM3LlhaQPTTDDlzsVv99jVXVyeug8jGCczLM_dj6vPnFLV4tEPrmi9qVvAzzo9F39ATSS5rUjyNUaItGtesxoGdq4TJDUntzCYFGjWAXtXI9YJ_hZJljdq3kj7QynR2oi7v_UR01_Zt9BKYb1TEbMZWO-MO1dmgGw64LeGx6G38krrKzlOqL_cValkHpZCMQMQo3vO9WoURI-ebCd4hS6V1gyCwQbJ1mcQptDIJvpbkfDBURYiTMRdfIfyXGnXYC1GnuYDAC6yZRG04w2eVswLwTpNc-GC4tdFiS6-DD2VQ0AKQGsNzlTBHFipRN4TjujkbPd4eeKuixQTW2gQb8sSNLVYDgkDtbEE8R1cAbEd-wXpGAmntK--kjddICFuGyGIIjpoG0STakhDpXnz2u7AgyWUEnHjp-OFCSsMR

In [78]:
data = response.json()
access_token = data['access_token']

In [79]:
import pandas as pd
from ddgs import DDGS
from langchain_gigachat.chat_models import GigaChat
from langchain.agents import initialize_agent
from langchain.tools import tool
import os

In [92]:
from langchain.schema import HumanMessage, SystemMessage
from langchain.memory import ConversationBufferMemory
from docx import Document
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
llm = GigaChat(credentials='MDE5OWNlMTEtNmEyOC03OTBjLWJkOGMtZDdhYTI5OGI0MmZhOmRmOWYyOTg4LTVhMmEtNGZhNS04ZDdmLTNhMjE3ZDQ1ODY3Mg==', model="GigaChat-2", top_p=0, timeout=120, verify_ssl_certs=False,)

doc_path = "system_prompt.docx"  
doc = Document(doc_path)
system_prompt = "\n".join([p.text for p in doc.paragraphs if p.text.strip()])

# Создаём память
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)

# Добавляем системный промпт в память один раз
memory.chat_memory.add_message(SystemMessage(content=system_prompt))

# Передаём системный промпт один раз
memory.chat_memory.add_message(SystemMessage(content=system_prompt))

### Создание цепочки действий для агента (Tools)

В этом блоке мы определяем набор инструментов (`tool`) для агента. Каждый инструмент — это отдельная функция, выполняющая конкретный шаг обработки данных. Агент использует эти инструменты для решения задач, таких как анализ транзакций, выявление аномалий и подготовка данных для ML модели.  

Использование инструментов позволяет:
- структурировать процесс обработки данных,
- повторно использовать код,
- поддерживать прозрачность логики работы агента.

#### Список инструментов:

1. **`read_data_from_file`**  
   Читает файл формата Excel или CSV и проверяет его на соответствие нужному формату.  
   - Поддерживаемые форматы: `.csv`, `.xls`, `.xlsx`.
   - Возвращает данные в формате JSON для последующей обработки.

2. **`preprocess_data`**  
   Выполняет все необходимые шаги предобработки данных для ML модели:
   - добавляет столбцы с закодированными юридическими формами (`LabelEncoding`),
   - бинарное кодирование признаков риска,
   - подготовка финального набора колонок для модели.  
   Возвращает подготовленные данные в JSON.

3. **`local_model_analysis`**  
   Применяет локальную ML модель (`RandomForestRegressor`) к подготовленным данным и добавляет столбец `ml_metric` — численный коэффициент риска.  
   Используется для предоставления LLM дополнительной количественной оценки уровня риска.

4. **`trace_money_flow`**  
   Отслеживает движение средств между счетами:
   - строит граф транзакций,
   - выявляет цепочки переводов с ограничением по времени (`time_window_hours`) и глубине цепочки (`max_depth`).
   - `добавить учет ООО ОАО и прочее`
   
   Возвращает JSON с найденными цепочками для анализа модели.
5. **`detect_regular_payments`**  
   Определяет регулярные платежи на основе:
   - однотипности сумм,
   - периодичности операций.  
   Добавляет колонки `is_regular_payment`, `median_amount` и `median_interval_hours` в исходный набор данных.

6. **`detect_anomalous_transactions`**  
   Выявляет аномальные транзакции по признакам:
   - сумма транзакции (`anomaly_amount`),
   - периодичность операций (`anomaly_frequency`),
   - назначение платежа (`anomaly_purpose`).  
   Также формирует общий признак аномалии `anomaly_overall`.  
   Результат возвращается в формате JSON для дальнейшего анализа.

---

**Примечание:**  
Каждая функция принимает данные в формате JSON (список словарей), преобразует их в DataFrame для внутренней обработки, а затем возвращает результат снова в JSON. Это позволяет агенту легко передавать результаты между инструментами и сохранять совместимость с LLM.


In [81]:
@tool("read_data_from_file", description="Читает файл excel/csv и проверяет его на соответствие нужному формату")
def read_data_from_file(file_path: str):
    import os
    ext = os.path.splitext(file_path)[1].lower()
    if ext == ".csv":
        df = pd.read_csv(file_path)
    elif ext in [".xls", ".xlsx"]:
        df = pd.read_excel(file_path)
    else:
        raise ValueError("Неподдерживаемый формат файла. Используйте CSV или Excel.")

    return df.to_json(orient="records")

In [82]:
import pandas as pd
import re
from sklearn.preprocessing import LabelEncoder
from langchain.tools import tool



def add_legal_form_columns(df, cols=["debit_name", "credit_name"]):
    '''
        Функция для определния наименования организации
        применяет LabelEncoding для кодирования и удобной передачи модели
    '''
    legal_forms = [
        "ООО", "ИП", "АО", "ПАО", "ЗАО", "ОАО",
        "ГУП", "МУП", "ФГУП", "НКО", "АНО", "ТОО", "ОДО", "ЧУП", "КФХ",
        "ПК", "ПТ", "СПК", "СНТ", "ТСЖ", "ЖСК", "ОП", "НП", "ФП", "Ассоциация", "Союз"
    ]
    patterns = {form: re.compile(rf'\b{form}\b', re.IGNORECASE) for form in legal_forms}

    def detect_legal_form(text):
        cleaned = re.sub(r'[\"«»“”,.()*/]', ' ', str(text))
        tokens = [t.upper() for t in re.split(r'\s+', cleaned.strip()) if t]
        for form, pattern in patterns.items():
            if any(pattern.search(t) for t in tokens):
                return form
        return "Другое"

    for col in cols:
        new_col = f"{col}_type"
        df[new_col] = df[col].astype(str).fillna("").apply(detect_legal_form)
        # LabelEncoding для колонки с типом
        le = LabelEncoder()
        df[f"{new_col}_encoded"] = le.fit_transform(df[new_col])
    return df


# Функция для бинарного кодирования риска (OneHot для ключевых слов)

def onehot_risk_features(df):
    '''
        Функция для определения стоп-слов в назначении платежа
        формирует колонки с помощью OneHotEcoder для удобной передачи модели
    '''
    df["purpose"] = df["purpose"].astype(str).fillna("")
    risk_keywords = {
        "loan_related": ["займ", "договор займа", "возврат займа"],
        "unclear_transfer": ["взаиморасчёт", "перевод средств", "без договора", "перевод на карту"],
        "no_contract": ["оплата без договора", "прочие расходы", "личные нужды"],
        "crypto_activity": ["крипто", "биткоин", "usdt", "биржа", "coin", "crypto"],
        "foreign_payment": ["иностранный перевод", "swift", "валютный счёт", "экспорт"],
        "related_party_transfer": ["возврат займа", "займ физ. лицу", "передача активов"],
        "cash_out": ["пополнение", "наличные", "выдача наличных", "обналичивание"],
        "donation": ["благотворительность", "пожертвование"],
        "agent_fee": ["агентское вознаграждение", "комиссионное"],
        "service_payment": ["оплата услуг", "услуги по договору", "консультационные", "маркетинг"],
        "bonus_related": ["премия", "бонус", "вознаграждение"],
        "advance_payment": ["аванс", "предоплата", "частичная оплата"],
        "lease_payment": ["аренда", "лизинг", "субаренда"],
        "logistics": ["логистика", "транспорт", "перевозка"],
        "has_docs": ["оплата по договору", "счёт-фактура", "акт выполненных работ", "ттн"],
        "salary_related": ["зарплата", "заработная плата", "компенсация отпуска", "взносы"],
        "utilities": ["коммунальные услуги", "аренда офиса", "интернет", "телефон"],
        "tax_payment": ["налоги", "страховые взносы", "пфр", "фнс", "пенсионный фонд"],
        "supplier_payment": ["поставщик", "поставка", "товары", "материалы", "сырьё"],
        "internal_transfer": ["внутренний перевод", "между счетами организации"]
    }

    for col_name, keywords in risk_keywords.items():
        pattern = r'(' + '|'.join([re.escape(k.lower()) for k in keywords]) + r')'
        df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
    return df


# Функция для LabelEncoding risk

def encode_risk_label(df):
    '''Кодирует risk'''
    le_risk = LabelEncoder()
    df['risk_encoded'] = le_risk.fit_transform(df['risk'].astype(str))
    return df


# Tool для агента

@tool("preprocess_data", description="Применяет все шаги предобработки для ML модели: добавление legal_form с LabelEncoding, бинарное кодирование риска и LabelEncoding risk")
def preprocess_data(json_records: str):
    
    records = json.loads(json_records)
    # Преобразуем список словарей в DataFrame
    df = pd.DataFrame(records)
    # Применяем все функции
    df = add_legal_form_columns(df)
    df = onehot_risk_features(df)
    df = encode_risk_label(df)
    # Список нужных колонок
    risk_cols = [
        "loan_related", "unclear_transfer", "no_contract", "crypto_activity",
        "foreign_payment", "related_party_transfer", "cash_out", "donation",
        "agent_fee", "service_payment", "bonus_related", "advance_payment",
        "lease_payment", "logistics", "has_docs", "salary_related", "utilities",
        "tax_payment", "supplier_payment", "internal_transfer"
    ]
    final_cols = [
        "debit_name_type_encoded",
        "credit_name_type_encoded",
        "risk_encoded", "purpose", 
        'anomaly_amount', 'anomaly_frequency',
        'anomaly_purpose', 'anomaly_overall', 'is_regular_payment'	
    ] + risk_cols

    df_final = df
    return df_final.to_json(orient="records")


In [83]:
from typing import List, Dict
from langchain.tools import tool
import pandas as pd
import joblib
import json

@tool(
    "local_model_analysis",
    description="Применяет локальную ML модель и добавляет колонку ml_metric — численный коэффициент риска"
)
def local_model_analysis(json_records: str):
    """
    Применяет локальную модель RandomForestRegressor к списку записей
    и добавляет к ним столбец 'ml_metric' — оценку степени риска.
    """
    model_path = "rf_reg_model.pkl"
    
    # Преобразуем входные данные
    records = json.loads(json_records)
    df = pd.DataFrame(records)

    # Загружаем модель
    rf_model = joblib.load(model_path)

    # Определяем набор признаков
    risk_cols = [
        "loan_related", "unclear_transfer", "no_contract", "crypto_activity",
        "foreign_payment", "related_party_transfer", "cash_out", "donation",
        "agent_fee", "service_payment", "bonus_related", "advance_payment",
        "lease_payment", "logistics", "has_docs", "salary_related", "utilities",
        "tax_payment", "supplier_payment", "internal_transfer"
    ]
    final_cols = [
        "debit_name_type_encoded",
        "credit_name_type_encoded",
        "risk_encoded", "purpose"
    ] + risk_cols

    # Формируем фичи для модели (все колонки кроме purpose и risk_encoded)
    feature_cols = [col for col in df.columns if col in final_cols and col not in ["purpose", "risk_encoded"]]

    # Предсказание модели
    y_pred = rf_model.predict(df[feature_cols])

    # Добавляем столбец с метрикой
    df["ml_metric"] = [round(val, 2) for val in y_pred]

    # Возвращаем обновлённые записи
    return df.to_json(orient="records")


In [84]:
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
from datetime import timedelta

@tool(
    "trace_money_flow",
    description="Отслеживает движение средств между счетами"
)
def trace_money_flow(json_records:str):
    """
    Отслеживает движение средств между счетами (INN),
    строит граф и выявляет цепочки транзакций,
    в которых переводы происходят с разрывом не более time_window_hours.

    Аргументы:
        df: DataFrame с колонками [date, debit_inn, credit_inn, debit_amount]
        time_window_hours: максимально допустимое время между транзакциями в цепочке
        max_depth: максимальная длина цепочки (по количеству шагов)
        visualize: визуализировать итоговый граф

    Возвращает  (старая версия):
        chains_df — таблицу цепочек (для анализа/модели)
        G — граф переводов (networkx.DiGraph)

    Возвращает:
        df_out — json с цепочками для анализа модели
    """
    
    time_window_hours=24 
    max_depth=5
    visualize=False
    
    # Подготовка данных
    records = json.loads(json_records)
    # Преобразуем список словарей в DataFrame
    df = pd.DataFrame(records)
    df['date'] = pd.to_datetime(df['date'])
    df['debit_inn'] = df['debit_inn'].astype(str)
    df['credit_inn'] = df['credit_inn'].astype(str)
    df = df.sort_values('date').reset_index(drop=True)

    time_window = timedelta(hours=time_window_hours)
    G = nx.DiGraph()
    chains = []  # список найденных цепочек

    # Добавляем все транзакции как рёбра в граф
    for _, row in df.iterrows():
        G.add_edge(
            row['debit_inn'],
            row['credit_inn'],
            amount=row['debit_amount'],
            date=row['date']
        )

    # Для ускорения создаём индекс по получателям
    by_receiver = df.groupby('credit_inn')

    # Теперь ищем хронологические цепочки
    for _, tx in df.iterrows():
        chain = [tx['debit_inn'], tx['credit_inn']]
        last_time = tx['date']
        current_node = tx['credit_inn']

        # Рекурсивное расширение цепочки
        depth = 1
        while depth < max_depth and current_node in by_receiver.groups:
            candidates = df[df['debit_inn'] == current_node]
            candidates = candidates[candidates['date'] >= last_time]  # только позже
            candidates = candidates[candidates['date'] - last_time <= time_window]  # в окне

            if candidates.empty:
                break

            # Берём самую раннюю транзакцию после last_time
            next_tx = candidates.sort_values('date').iloc[0]
            chain.append(next_tx['credit_inn'])
            last_time = next_tx['date']
            current_node = next_tx['credit_inn']
            depth += 1

        if len(chain) > 2:
            chains.append({
                "path": " → ".join(chain),
                "length": len(chain),
                "start": tx['date'],
                "end": last_time,
                "duration_hours": (last_time - tx['date']).total_seconds() / 3600.0,
            })

    chains_df = pd.DataFrame(chains).drop_duplicates(subset=["path"])

    # # Визуализация (убрать в финале)
    # if visualize and len(G) > 0:
    #     plt.figure(figsize=(10, 7))
    #     pos = nx.spring_layout(G, k=0.5)
    #     nx.draw(
    #         G, pos,
    #         with_labels=True,
    #         node_color="lightblue",
    #         node_size=1200,
    #         font_size=8,
    #         arrows=True
    #     )
    #     edge_labels = {
    #         (u, v): d['date'].strftime("%m-%d %H:%M") for u, v, d in G.edges(data=True)
    #     }
    #     nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels, font_size=6)
    #     plt.title(f"Движение средств (окно {time_window_hours}ч)")
    #     plt.show()

    # return chains_df, G
    df_out = chains_df.to_json(orient="records")
    return df_out

In [85]:
import pandas as pd
import numpy as np
import json
from datetime import timedelta


@tool(
    "detect_regular_payments",
    description="Отслеживает регулярные операции и добавляет признаки регулярности в исходный датасет"
)
def detect_regular_payments(json_records: str):
    """
    Обнаруживает регулярные операции и помечает их в исходном наборе данных.

    Ключевые аргументы:
        json_records: JSON-строка списка словарей с колонками:
            ['date', 'debit_inn', 'credit_inn', 'debit_amount', 'credit_amount']

    Возвращает:
        df_out: JSON исходного DataFrame с добавленными колонками:
            - is_regular_payment (bool)
            - median_amount (float)
            - median_interval_hours (float)
    """
    amount_tolerance = 0.3
    min_occurrences = 3
    frequency_tolerance_hours = 2

    # Преобразуем входные данные в DataFrame
    records = json.loads(json_records)
    df = pd.DataFrame(records)
    df['date'] = pd.to_datetime(df['date'])
    df = df.sort_values('date').reset_index(drop=True)

    # Добавляем новые столбцы
    df['is_regular_payment'] = False
    df['median_amount'] = np.nan
    df['median_interval_hours'] = np.nan

    # Анализ регулярности по парам (отправитель, получатель)
    for (credit_inn, debit_inn), group in df.groupby(['credit_inn', 'debit_inn']):
        amounts = group['credit_amount'].values
        dates = group['date'].values

        if len(amounts) < min_occurrences:
            continue

        # Проверка на однотипность сумм
        median_amount = np.median(amounts)
        if np.all(np.abs(amounts - median_amount) / median_amount <= amount_tolerance):
            # Проверка регулярности по времени
            if len(dates) >= 2:
                intervals = np.diff(dates).astype('timedelta64[s]').astype(float)
                median_interval = np.median(intervals)
                if np.all(np.abs(intervals - median_interval) <= frequency_tolerance_hours):
                    # Помечаем все транзакции этой пары как регулярные
                    mask = (df['credit_inn'] == credit_inn) & (df['debit_inn'] == debit_inn)
                    df.loc[mask, 'is_regular_payment'] = True
                    df.loc[mask, 'median_amount'] = median_amount
                    df.loc[mask, 'median_interval_hours'] = median_interval

    df_out = df.to_json(orient="records", date_format="iso")
    return df_out


In [86]:
@tool(
    "detect_anomalous_transactions",
    description="Выявляет аномальные транзакции для операций по кредиту по критериям: сумма транзакции, периодичность транзакций, назначение"
)
def detect_anomalous_transactions(json_records:str):
    """
    Определяет нетипичные транзакции для пользователей по сумме, периодичности и назначению платежа.
    
    Аргументы:
        df: DataFrame с колонками [date, debit_inn, credit_inn, debit_amount, credit_amount] 
            и опционально purpose_col
        user_col: колонка с пользователем (по кредиту или дебету)
        amount_col: колонка с суммой для анализа (credit_amount или debit_amount)
        date_col: колонка с датой транзакции
        purpose_col: колонка с назначением платежа (опционально)
        z_threshold: число стандартных отклонений для определения нетипичной суммы
        
    Возвращает:
        DataFrame с добавленными колонками:
            'anomaly_amount' - True, если сумма нетипичная
            'anomaly_frequency' - True, если нарушена периодичность
            'anomaly_purpose' - True, если назначение нетипичное
            'anomaly_overall' - True, если любая из аномалий True
    """

    user_col='credit_inn'
    amount_col='credit_amount'
    date_col='date' 
    purpose_col='puprose'
    z_threshold=3

    records = json.loads(json_records)
    # Преобразуем список словарей в DataFrame
    df = pd.DataFrame(records)
    df[date_col] = pd.to_datetime(df[date_col])
    df = df.sort_values([user_col, date_col])
    
    df['anomaly_amount'] = False
    df['anomaly_frequency'] = False
    df['anomaly_purpose'] = False
    
    # Группируем по пользователю
    for user, group in df.groupby(user_col):
        # --- Аномалия по сумме ---
        amounts = group[amount_col]
        mean = amounts.mean()
        std = amounts.std()
        df.loc[group.index, 'anomaly_amount'] = (np.abs(amounts - mean) > z_threshold * std)
        
        # --- Аномалия по периодичности ---
        dates = group[date_col].sort_values()
        if len(dates) > 1:
            intervals = dates.diff().dt.total_seconds().iloc[1:] / 3600  # интервалы в часах
            median_interval = intervals.median()
            # Метка аномалии, если интервал отклоняется больше чем ±50% от медианного
            anomaly_freq_mask = np.abs(intervals - median_interval) > 0.5 * median_interval
            # Сдвигаем индексы на 1, т.к. diff() уменьшает длину на 1
            df.loc[dates.index[1:], 'anomaly_frequency'] = anomaly_freq_mask.values
        
        # --- Аномалия по назначению платежа ---
        if purpose_col and purpose_col in df.columns:
            purpose_counts = group[purpose_col].value_counts()
            rare_purposes = purpose_counts[purpose_counts == 1].index
            df.loc[group.index, 'anomaly_purpose'] = group[purpose_col].isin(rare_purposes)
    
    # --- Общая аномалия ---
    df['anomaly_overall'] = df[['anomaly_amount', 'anomaly_frequency', 'anomaly_purpose']].any(axis=1)
    df_out = df.to_json(orient="records")
    return df_out

### Анализ транзакций с использованием агента и LLM

В этом блоке выполняется полный процесс обработки и анализа транзакций с использованием подготовленных инструментов (`tools`) и языковой модели (`LLM`). Основные этапы и цели блока:

1. **Инициализация агента и подключение инструментов**
   - Создаётся агент, который объединяет все функции-инструменты для анализа данных.
   - Агент может автоматически использовать эти инструменты для различных задач: чтение данных, предобработка, локальный ML-анализ, отслеживание движения средств, выявление регулярных и аномальных транзакций.

2. **Подготовка данных**
   - Загружается исходный CSV-файл с транзакциями.
   - Выбирается случайная подвыборка для ускоренного анализа.
   - Сохраняется новый CSV-файл с выбранными строками, который будет использоваться для пакетной обработки.

3. **Последовательная обработка данных инструментами**
   - Данные проходят несколько этапов:
     - чтение и преобразование в JSON,
     - выявление аномалий по сумме, частоте и назначению платежей,
     - определение регулярных платежей,
     - построение цепочек движения средств между счетами,
     - подготовка данных для ML-модели,
     - применение локальной модели для расчёта коэффициента риска.
   - Каждый инструмент добавляет новые признаки и метки к данным, делая их готовыми для анализа LLM.

4. **Очистка данных**
   - Удаляются лишние поля, которые не нужны для анализа LLM.
   - Это облегчает структуру данных и снижает вероятность ошибок при работе с моделью.

5. **Безопасный парсинг JSON от LLM**
   - Поскольку ответы модели могут содержать лишний текст или Markdown-разметку, используются функции `safe_parse_json` и `parse_llm_transactions`.
   - Они корректно извлекают JSON из текста и преобразуют его в список словарей для дальнейшей обработки.

6. **Пакетная обработка транзакций**
   - Данные отправляются в LLM частями (`batch_size=10`) для уменьшения нагрузки.
   - Для каждого пакета LLM анализирует транзакции и цепочки движения средств.
   - Результаты собираются в единый список `results`.

7. **Сохранение и оформление результатов**
   - Результаты конвертируются в DataFrame и сохраняются в Excel.
   - Настраивается автофильтр для удобного просмотра.
   - Добавляется цветовая маркировка по уровню риска (`зелёный`, `жёлтый`, `красный`) для быстрой визуальной оценки.
   - Итоговый файл готов к использованию для отчётов или дальнейшего анализа.

**Ожидаемый результат блока:**
- Полностью обработанный набор транзакций с дополнительными признаками (анализ риска, аномалии, регулярные платежи, цепочки движения средств).
- Excel-файл с визуальной маркировкой рисков и возможностью фильтрации для удобного анализа.


In [93]:
tools = [read_data_from_file, preprocess_data, local_model_analysis, trace_money_flow, detect_regular_payments, detect_anomalous_transactions]

agent = initialize_agent(
    tools=tools,
    llm=llm,
    agent="chat-zero-shot-react-description",
    verbose=True
)

In [75]:
import pandas as pd

# Читаем исходный CSV
df = pd.read_csv('data/statement_main.csv')

# Берем случанйные 5 строк
df_5 = df.sample(50)


original_file = 'data/statement_main.csv'
new_file = original_file.replace('.csv', '_5.csv')

# Сохраняем новый CSV
df_5.to_csv(new_file, index=False)

print(f"Сохранено первые 5 строк в файл: {new_file}")


Сохранено первые 5 строк в файл: data/statement_main_5.csv


In [94]:
import json
import re
import pandas as pd
from langchain.schema import HumanMessage, SystemMessage
from openpyxl import load_workbook
from openpyxl.styles import PatternFill
from tqdm import tqdm 

excel_file = "data/statement_main_5.csv"  
records = read_data_from_file.func(excel_file)  # считываем и преобразуем данные
records = detect_anomalous_transactions.func(records) # обнаружение аномальных транзакций по сумме, назначению и регулярности
records = detect_regular_payments.func(records)
money_flow = trace_money_flow.func(records)
records = preprocess_data.func(records) 
records = local_model_analysis.func(records)  # локальный анализ

results = []

if isinstance(records, str):
    records = json.loads(records)
fields_to_remove = [
    'risk_encoded', 'risk', 'risk_comment', 'date',
    'debit_account', 'debit_name', 'debit_inn',
    'credit_account', 'credit_name', 'credit_inn',
    'debit_name_type_encoded', 'credit_name_type', 'credit_name_type_encoded',
    'loan_related', 'unclear_transfer', 'no_contract', 'crypto_activity',
    'foreign_payment', 'related_party_transfer', 'cash_out', 'donation',
    'agent_fee', 'service_payment', 'bonus_related', 'advance_payment',
    'lease_payment', 'logistics', 'has_docs', 'salary_related', 'utilities',
    'tax_payment', 'supplier_payment', 'internal_transfer'
]

# fields_to_remove = [
#     'risk_encoded', 
#     'debit_name_type_encoded', 'credit_name_type', 'credit_name_type_encoded',
#     'loan_related', 'unclear_transfer', 'no_contract', 'crypto_activity',
#     'foreign_payment', 'related_party_transfer', 'cash_out', 'donation',
#     'agent_fee', 'service_payment', 'bonus_related', 'advance_payment',
#     'lease_payment', 'logistics', 'has_docs', 'salary_related', 'utilities',
#     'tax_payment', 'supplier_payment', 'internal_transfer'
# ]

for rec in records:
    for f in fields_to_remove:
        rec.pop(f, None)
records

# Пакетная отправка данных в LLM
batch_size = 10
results = []


import json
import re

def safe_parse_json(text: str):
    """
    Безопасно извлекает JSON массив или объект из ответа LLM,
    даже если перед ним есть текст, Markdown или обрезан JSON.
    Возвращает список объектов.
    """
    # Убираем блоки markdown ```json и ```
    clean_text = re.sub(r"^```json\s*|```$", "", text.strip(), flags=re.MULTILINE).strip()

    # Пытаемся найти первый массив или объект
    start_array = clean_text.find('[')
    start_object = clean_text.find('{')

    if start_array != -1 and (start_array < start_object or start_object == -1):
        json_text = clean_text[start_array:]
    elif start_object != -1:
        json_text = clean_text[start_object:]
    else:
        return []

    # Пытаемся парсить постепенно, если JSON обрезан
    for i in range(len(json_text), 0, -1):
        try:
            parsed = json.loads(json_text[:i])
            # Всегда возвращаем список объектов
            if isinstance(parsed, dict):
                return [parsed]
            elif isinstance(parsed, list):
                return parsed
        except:
            continue

    print("Не удалось распарсить JSON")
    return []

def parse_llm_transactions(text: str) -> pd.DataFrame:
    """
    Извлекает список транзакций из JSON-ответа LLM (в том числе с обрамлением ```json ... ```).
    Возвращает DataFrame с полями по каждой транзакции.
    """
    # Убираем Markdown-обрамление
    text = re.sub(r"^```json\s*", "", text.strip())
    text = re.sub(r"\s*```$", "", text.strip())

    # Убираем лишний текст до начала JSON
    start_idx = min(
        (text.find('{') if '{' in text else len(text)),
        (text.find('[') if '[' in text else len(text))
    )
    if start_idx > 0 and start_idx < len(text):
        text = text[start_idx:]

    try:
        data = json.loads(text)
        # Если словарь с ключом "transactions"
        if isinstance(data, dict) and 'transactions' in data:
            transactions = data['transactions']
        elif isinstance(data, list):
            transactions = data
        else:
            transactions = []

        # Преобразуем в DataFrame
        
        return transactions

    except json.JSONDecodeError as e:
        print(f"Ошибка JSON: {e}")
        return

# === Основной цикл по пакетам ===
for i in tqdm(range(0, len(records), batch_size), desc="Анализ пакетов", unit="пакет"):
    batch = records[i:i+batch_size]

    user_prompt = f"""
    Проанализируй следующие транзакции и движения денег:
    INPUT_DATA  = {json.dumps(batch, ensure_ascii=False)}
    CHAINS_DATA  = {json.dumps(money_flow, ensure_ascii=False)}
    """

    response = llm.invoke([
        SystemMessage(content=system_prompt),
        HumanMessage(content=user_prompt)
    ])

    text = response.content if hasattr(response, "content") else response[0].content

    # Безопасный парсинг JSON
    batch_results = safe_parse_json(text)
    batch_results = parse_llm_transactions(text)
    # Если batch_results — список списков, "разворачиваем"
    for item in batch_results:
        if isinstance(item, list):
            results.extend(item)
        elif isinstance(item, dict):
            results.append(item)

# === Сохраняем результаты в Excel ===
df_results = pd.DataFrame(results)

# Если нужно убрать колонку related_transactions
if "related_transactions" in df_results.columns:
    df_results = df_results.drop(columns=["related_transactions"])

output_path = "data/statement_main_20_with_ai-PRO.xlsx"
df_results.to_excel(output_path, index=False)

# === Цветовая маркировка и автофильтр ===
wb = load_workbook(output_path)
ws = wb.active

# Автофильтр
ws.auto_filter.ref = ws.dimensions

# Индекс колонки risk_label
risk_col_idx = None
for i, col in enumerate(ws[1], start=1):
    if col.value and col.value.lower() in ["risk_label", "risk_label_ml", "risk_level"]:
        risk_col_idx = i
        break

# Цветовая карта (русские метки)
color_map = {
    "зеленый": "90EE90",
    "желтый": "FFFF99",
    "красный": "FF9999",
}

# Применяем цвета
if risk_col_idx:
    for row in ws.iter_rows(min_row=2, min_col=risk_col_idx, max_col=risk_col_idx):
        cell = row[0]
        val = str(cell.value).lower().strip()
        if val in color_map:
            cell.fill = PatternFill(start_color=color_map[val], end_color=color_map[val], fill_type="solid")

wb.save(output_path)
wb.close()

print(f"\nАнализ завершён. Результаты сохранены в: {output_path}")
print("Колонка risk_label окрашена и имеет фильтрацию в Excel.")

  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["purpose"].str.lower().str.contains(pattern, regex=True).astype(int)
  df[col_name] = df["


Анализ завершён. Результаты сохранены в: data/statement_main_20_with_ai-PRO.xlsx
Колонка risk_label окрашена и имеет фильтрацию в Excel.



