# Equity Pipeline Debug Notebook

Демонстрация последовательных шагов подготовки данных: исходные сделки, трансформация сделок, загрузка свечей и простое объединение без дополнительных расчётов.

In [1]:
import pandas as pd
from pathlib import Path

from src.data.csv_transformer import load_transform_csv
from src.data.candle_loader import load_candles

pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', None)

## 1. Исходный CSV со сделками
Загружаем файл `test_result_SP.csv` без преобразований и выводим первые 60 строк.

In [2]:
raw_trades_path = Path('test_result_SP.csv')
raw_trades = pd.read_csv(raw_trades_path, sep=';', encoding='cp1251')
raw_trades.head(10)

Unnamed: 0,Дата и время,ID ТС,ID позиции,Код инструмента,ID транзакции,ID заявки,Сигнал,Цена входа позиции,Средняя цена позиции,Цена последней сделки,Текущее количество контрактов,Доход позиции,FlagStopPos,Unnamed: 13
0,16.09.2025 21:35:00,CNYRUBF_эталон_volMed_1_07_10_1_2,,CNYRUBF,0,0,Продажа,11.658,11.658,11.658,-1,0.0,0,
1,17.09.2025 10:21:15,CNYRUBF_эталон_volMed_1_07_10_1_2,,CNYRUBF,0,0,Продажа,11.658,11.677,11.696,-2,0.0,0,
2,17.09.2025 11:11:15,CNYRUBF_эталон_volMed_1_07_10_1_2,,CNYRUBF,0,0,Покупка,11.658,11.677,11.642,-1,34.0,0,
3,17.09.2025 15:11:15,CNYRUBF_эталон_volMed_1_07_10_1_2,,CNYRUBF,0,0,Продажа,11.658,11.6795,11.682,-2,34.0,0,
4,17.09.2025 17:00:00,CNYRUBF_эталон_volMed_1_07_10_1_2,,CNYRUBF,0,0,Покупка,11.658,11.6795,11.703,0,-15.0,0,
5,17.09.2025 17:00:00,CNYRUBF_эталон_volMed_1_07_10_1_2,,CNYRUBF,0,0,Покупка,11.703,11.703,11.703,2,0.0,0,
6,17.09.2025 17:56:15,CNYRUBF_эталон_volMed_1_07_10_1_2,,CNYRUBF,0,0,Покупка,11.703,11.702333,11.701,3,0.0,0,
7,18.09.2025 12:01:15,CNYRUBF_эталон_volMed_1_07_10_1_2,,CNYRUBF,0,0,Покупка,11.703,11.6905,11.655,4,0.0,0,
8,18.09.2025 17:56:15,CNYRUBF_эталон_volMed_1_07_10_1_2,,CNYRUBF,0,0,Продажа,11.703,11.6905,11.71,3,18.5,0,
9,22.09.2025 10:01:15,CNYRUBF_эталон_volMed_1_07_10_1_2,,CNYRUBF,0,0,Продажа,11.703,11.6905,11.755,2,82.0,0,


## 2. Преобразование сделок с помощью `load_transform_csv`
Применяем функцию из `csv_transformer.py` и отображаем первые 60 строк.

In [3]:
transformed_trades = load_transform_csv(raw_trades_path)
transformed_trades.head(60).sort_values('date_time')

  df["Дата и время"] = df["Дата и время"].dt.floor("T")  # 'T' == minute


Unnamed: 0,date_time,price,current_pos
1194,2025-09-17 09:00:00,11.65,1
1195,2025-09-17 10:01:00,11.7,0
1196,2025-09-17 10:16:00,11.7,1
1197,2025-09-17 11:25:00,11.65,2
1198,2025-09-17 15:36:00,11.7,1
1199,2025-09-18 11:45:00,11.65,2
1200,2025-09-18 12:41:00,11.7,1
1201,2025-09-18 13:35:00,11.67,2
1202,2025-09-18 20:46:00,11.72,1
1203,2025-09-22 10:01:00,11.75,0


In [4]:
transformed_trades.tail(20)

Unnamed: 0,date_time,price,current_pos
1301,2025-10-15 16:16:00,10.99,0
1302,2025-10-15 17:41:00,10.99,-1
1303,2025-10-16 09:01:00,10.94,0
1304,2025-10-16 09:21:00,10.94,-1
1305,2025-10-16 10:01:00,10.99,-2
1306,2025-10-16 10:35:00,11.07,0
1307,2025-10-16 10:35:00,11.07,2
1308,2025-10-16 10:35:00,11.08,3
1309,2025-10-16 11:06:00,11.02,4
1310,2025-10-16 12:31:00,11.08,3


## 3. Загрузка свечей через `load_candles`
Пытаемся получить свечи непосредственно из `candle_loader.py`. Если функция недоступна из-за отсутствия исходных данных, используем подготовленный файл `test_result_SP_candle_data.csv` и фиксируем это в выводе.

In [5]:
candles = None
try:
    candles = load_candles('test_result_SP.csv')
    print('Свечи получены через load_candles')
except Exception as exc:
    print(f'load_candles завершился с ошибкой: {exc}')
    fallback_path = Path('test_result_SP_candle_data.csv')
    if not fallback_path.exists():
        raise
    candles = pd.read_csv(fallback_path)
    print('Используем подготовленный файл test_result_SP_candle_data.csv')

candles.head(30)

Свечи получены через load_candles


Unnamed: 0,DATE_TIME,OPEN,HIGH,LOW,CLOSE,VOL,1_step_price
0,2025-09-17 08:59:00,11.646,11.646,11.646,11.646,193.0,1000.0
1,2025-09-17 09:00:00,11.645,11.654,11.64,11.65,1741.0,1000.0
2,2025-09-17 09:01:00,11.647,11.664,11.647,11.664,2979.0,1000.0
3,2025-09-17 09:02:00,11.662,11.664,11.659,11.661,1947.0,1000.0
4,2025-09-17 09:03:00,11.66,11.663,11.66,11.663,1605.0,1000.0
5,2025-09-17 09:04:00,11.664,11.665,11.662,11.663,1029.0,1000.0
6,2025-09-17 09:05:00,11.663,11.663,11.66,11.663,784.0,1000.0
7,2025-09-17 09:06:00,11.663,11.664,11.661,11.662,420.0,1000.0
8,2025-09-17 09:07:00,11.661,11.662,11.655,11.659,1187.0,1000.0
9,2025-09-17 09:08:00,11.66,11.669,11.66,11.668,3035.0,1000.0


## 4. Простое объединение свечей и трансформированных сделок
Объединяем данные по минутному времени (`left` join свечей и сделок) и выводим первые 60 строк для диагностики.

In [6]:
candles_frame = candles.copy()
candles_frame['date_time'] = pd.to_datetime(candles_frame['DATE_TIME']) #.dt.floor('T')

trades_frame = transformed_trades.copy()
trades_frame['date_time'] = pd.to_datetime(trades_frame['date_time'])

merged = pd.merge(
    candles_frame,
    trades_frame,
    how='outer',
    on='date_time',
    suffixes=('', '_trade'),
).sort_values('DATE_TIME')
# merged.head(60)

In [None]:
# ...existing code...
# диагностика перед merge
print("len(candles):", len(candles_frame), "unique date_time:", candles_frame['date_time'].nunique())
print("len(trades):", len(trades_frame), "unique date_time:", trades_frame['date_time'].nunique())
print("candles dup by date_time:", candles_frame.duplicated(subset=['date_time']).sum())
print("trades dup by date_time:", trades_frame.duplicated(subset=['date_time']).sum())

# какие times встречаются чаще всего
all_times = pd.concat([candles_frame['date_time'], trades_frame['date_time']])
print(all_times.value_counts().head(20))

# сколько строк в результате на каждую метку времени
cnt = merged.groupby('date_time').size().sort_values(ascending=False).head(10)
print("top merged multiplicities:\n", cnt)
# ...existing code...

In [8]:
merged.head(100)

Unnamed: 0,DATE_TIME,OPEN,HIGH,LOW,CLOSE,VOL,1_step_price,date_time,price,current_pos
0,2025-09-17 08:59:00,11.646,11.646,11.646,11.646,193.0,1000.0,2025-09-17 08:59:00,,
1,2025-09-17 09:00:00,11.645,11.654,11.64,11.65,1741.0,1000.0,2025-09-17 09:00:00,11.65,1.0
2,2025-09-17 09:01:00,11.647,11.664,11.647,11.664,2979.0,1000.0,2025-09-17 09:01:00,,
3,2025-09-17 09:02:00,11.662,11.664,11.659,11.661,1947.0,1000.0,2025-09-17 09:02:00,,
4,2025-09-17 09:03:00,11.66,11.663,11.66,11.663,1605.0,1000.0,2025-09-17 09:03:00,,
5,2025-09-17 09:04:00,11.664,11.665,11.662,11.663,1029.0,1000.0,2025-09-17 09:04:00,,
6,2025-09-17 09:05:00,11.663,11.663,11.66,11.663,784.0,1000.0,2025-09-17 09:05:00,,
7,2025-09-17 09:06:00,11.663,11.664,11.661,11.662,420.0,1000.0,2025-09-17 09:06:00,,
8,2025-09-17 09:07:00,11.661,11.662,11.655,11.659,1187.0,1000.0,2025-09-17 09:07:00,,
9,2025-09-17 09:08:00,11.66,11.669,11.66,11.668,3035.0,1000.0,2025-09-17 09:08:00,,
