In [115]:
import json
import os
import subprocess
import sys
import datetime
from typing import Any, Dict, List, Optional, Type, Union

def run_with_config(
    script_path: str,
    class_or_function: Optional[str] = None,
    method: Optional[str] = None,
    base_dir: str = '.',
    config_filename: str = 'config.json',
    **kwargs
) -> int:
    """
    Универсальная функция для запуска Python-скрипта с параметрами через конфигурационный файл.
    
    Args:
        script_path: Путь к Python-скрипту, который нужно запустить
        class_or_function: Имя класса или функции для вызова (опционально)
        method: Имя метода класса для вызова (для классов)
        base_dir: Базовая директория для сохранения конфигурационного файла
        config_filename: Имя файла конфигурации
        **kwargs: Любые параметры, которые нужно передать в скрипт
        
    Returns:
        Код возврата процесса (0 - успешное выполнение)
    """
    # Конвертируем все datetime объекты в строки
    processed_kwargs = {}
    for k, v in kwargs.items():
        if isinstance(v, datetime.date) or isinstance(v, datetime.datetime):
            processed_kwargs[k] = v.isoformat().split('T')[0]  # Формат YYYY-MM-DD
        else:
            processed_kwargs[k] = v
    
    # Создаем конфигурацию
    config = {
        "params": processed_kwargs
    }
    
    # Добавляем информацию о классе и методе, если указаны
    if class_or_function:
        config["target"] = class_or_function
    if method:
        config["method"] = method
    
    # Полный путь к конфигурационному файлу
    config_path = os.path.join(base_dir, config_filename)
    
    # Сохраняем конфигурацию в файл
    with open(config_path, 'w') as f:
        json.dump(config, f, indent=2)
    
    print(f"Конфигурация сохранена в {config_path}")
    
    # Проверяем существование скрипта
    if not os.path.exists(script_path):
        raise FileNotFoundError(f"Скрипт {script_path} не найден")
    
    # Запускаем скрипт с указанием файла конфигурации
    command = [sys.executable, script_path, '--config', config_path]
    
    print("Запуск команды:", " ".join(command))
    
    # Запускаем процесс и перенаправляем вывод
    process = subprocess.Popen(command, stdout=subprocess.PIPE, stderr=subprocess.STDOUT, 
                              universal_newlines=True, bufsize=1)
    
    # Выводим результаты в реальном времени
    for line in process.stdout:
        print(line, end='')
    
    # Ждем завершения процесса
    process.wait()
    
    if process.returncode == 0:
        print("\nПроцесс успешно завершен")
    else:
        print(f"\nОшибка при выполнении процесса, код: {process.returncode}")
    
    return process.returncode


In [116]:
import tinkoff.invest
from tinkoff.invest import PortfolioRequest, PortfolioPosition, Client, RequestError, CandleInterval, HistoricCandle, \
    OrderType, OrderDirection, Quotation, InstrumentIdType, InstrumentStatus
from tinkoff.invest.services import InstrumentsService
from datetime import datetime
import pandas as pd
import os
import sys
import requests
import time
import zipfile
import numpy as np
import importlib
from concurrent.futures import ThreadPoolExecutor

sys.path.append('/Users/aeshef/Documents/GitHub/kursach/pys')

#####

import market_data
importlib.reload(market_data)
from market_data import MarketDataManager

######

import fundamental_data
importlib.reload(fundamental_data)
from fundamental_data import FinamFinancialParser

######

import tech_analysis
importlib.reload(tech_analysis)
from tech_analysis import TechAnalysisPipeline


######

import news_pipeline
importlib.reload(news_pipeline)
from news_pipeline import NewsPipeline

######

import data_integration
importlib.reload(data_integration)
from data_integration import DataIntegrator

## Globals

In [10]:
token = "t.GVEetX09IVL9qECDUhjThfpg5TrE2Oxw9cUnAIOxcHh35M2sv1YMy9LBfkt73F3WlV_Ik08etZOVrUNI8StLBQ"
kursach_directory_path = "/Users/aeshef/Documents/GitHub/kursach"
your_directory_path = "/Users/aeshef/Documents/GitHub/kursach/data"

tickers = pd.read_csv(f"{your_directory_path}/tickers.csv")
tickers_list = [
    'SBER',  # Сбербанк
    'GAZP',  # Газпром
    'LKOH',  # Лукойл
    'GMKN',  # ГМК "Норильский никель"
    'ROSN',  # Роснефть
    'TATN',  # Татнефть
    'MTSS',  # МТС
    'ALRS',  # АК Алроса
    'SNGS',  # Сургутнефтегаз
    'VTBR',  # ВТБ
    'NVTK',  # Новатэк
    'MVID',  # М.Видео
    'PHOR',  # ФосАгро
    'SIBN',  # Сибнефть
    'AFKS',  # АФК Система
    'MAGN',  # Магнитогорский металлургический комбинат
    'RUAL'   # Русал
]

start_date="2024-06-01"
end_date="2025-04-21"
timeframe="1h"

YOUR_API_ID = 28994010
YOUR_API_HASH = "6e7a57fdfe1a10b0a3434104b42badf2"

## Initial parser

In [11]:
# manager = MarketDataManager(token, your_directory_path)

# multi_ticker_data = manager.get_data_for_multiple_tickers(
#     tickers=tickers_list, 
#     start_date=start_date, 
#     end_date=end_date, 
#     timeframe=timeframe
# )

## Fundamental

In [12]:
# import logging

# for ticker in tickers_list:
#     logging.info(f"\n========== Processing {ticker} ==========\n")
#     parser = FinamFinancialParser(ticker)   # ПЕРЕДАЁШЬ тикер!
#     financial_data_df = parser.parse_financial_data()
#     if financial_data_df is not None:
#         parser.save_to_csv(financial_data_df)
#         logging.info(f"Финансовые данные для {ticker} сохранены успешно")
#     else:
#         logging.warning(f"No data found for {ticker}. Проверь логи, html и soup-просмотр!")

## Tech

In [117]:
pipeline = TechAnalysisPipeline(base_dir="/Users/aeshef/Documents/GitHub/kursach")
pipeline.run_pipeline(
    
)

=== НАЧАЛО ТЕХНИЧЕСКОГО АНАЛИЗА ===

Обработка тикера: GAZP
Используем файл: GAZP_2024-06-01_2025-04-20.parquet
Index(['date', 'open', 'close', 'low', 'high', 'volume'], dtype='object')
Сохранен CSV с индикаторами: /Users/aeshef/Documents/GitHub/kursach/data/processed_data/GAZP/tech_analysis/GAZP_tech_indicators.csv
Сохранен график цены с индикаторами: /Users/aeshef/Documents/GitHub/kursach/data/processed_data/GAZP/tech_analysis/GAZP_price_indicators.png
Сохранен график MACD: /Users/aeshef/Documents/GitHub/kursach/data/processed_data/GAZP/tech_analysis/GAZP_MACD.png

Обработка тикера: SBER
Используем файл: SBER_2024-06-01_2025-04-20.parquet
Index(['date', 'open', 'close', 'low', 'high', 'volume'], dtype='object')
Сохранен CSV с индикаторами: /Users/aeshef/Documents/GitHub/kursach/data/processed_data/SBER/tech_analysis/SBER_tech_indicators.csv
Сохранен график цены с индикаторами: /Users/aeshef/Documents/GitHub/kursach/data/processed_data/SBER/tech_analysis/SBER_price_indicators.png
Сохр

## News

In [84]:
import datetime

run_with_config(
    script_path="/Users/aeshef/Documents/GitHub/kursach/pys/news_pipeline.py",
    class_or_function="NewsPipeline",
    method="run_pipeline",
    base_dir=kursach_directory_path,
    config_filename="news_pipeline_config.json",
    
    tickers=tickers_list,
    collect_telegram=True,
    telegram_api_id=YOUR_API_ID,
    telegram_api_hash=YOUR_API_HASH,
    telegram_channel="cbrstocks",
    telegram_limit=10000,
    start_date=start_date,
    end_date=end_date,
    use_cached_telegram=True
)

Конфигурация сохранена в /Users/aeshef/Documents/GitHub/kursach/news_pipeline_config.json
Запуск команды: /Library/Developer/CommandLineTools/usr/bin/python3 /Users/aeshef/Documents/GitHub/kursach/pys/news_pipeline.py --config /Users/aeshef/Documents/GitHub/kursach/news_pipeline_config.json
Запуск pipeline.run_pipeline с параметрами: {'tickers': ['SBER', 'GAZP', 'LKOH', 'GMKN', 'ROSN', 'TATN', 'MTSS', 'ALRS', 'SNGS', 'VTBR', 'NVTK', 'MVID', 'PHOR', 'SIBN', 'AFKS', 'MAGN', 'RUAL'], 'collect_telegram': True, 'telegram_api_id': 28994010, 'telegram_api_hash': '6e7a57fdfe1a10b0a3434104b42badf2', 'telegram_channel': 'cbrstocks', 'telegram_limit': 10000, 'start_date': datetime.date(2024, 6, 1), 'end_date': datetime.date(2025, 4, 21), 'use_cached_telegram': True}
2025-04-22 02:19:57 - NewsPipeline - INFO - Запуск пайплайна анализа новостей для 17 тикеров
2025-04-22 02:19:57 - NewsPipeline - INFO - Диапазон дат: 2024-06-01 - 2025-04-21
2025-04-22 02:19:57 - pymorphy2.opencorpora_dict.wrapper - 

KeyboardInterrupt: 

In [118]:
integrator = DataIntegrator(base_path='/Users/aeshef/Documents/GitHub/kursach/data/processed_data', nan_fill_method='zero')  # Замените на 'median' или 'mean', если нужно

# Загружаем и объединяем данные для всех тикеров
combined_data = integrator.load_multiple_tickers(tickers=tickers_list)

# Проверка результата
if not combined_data.empty:
    # Сохраняем объединенные данные
    output_path = '/Users/aeshef/Documents/GitHub/kursach/data/combined_features_fixed.csv'
    combined_data.to_csv(output_path, index=False)
    
    print(f"Данные успешно объединены и сохранены в {output_path}")
    print(f"Форма объединенного датасета: {combined_data.shape}")
    print(f"Количество уникальных тикеров: {combined_data['ticker'].nunique()}")
    
    # Проверка на пропущенные значения
    null_count = combined_data.isnull().sum().sum()
    print(f"Количество пропущенных значений: {null_count}")
else:
    print("Не удалось создать объединенный датасет")

Обработка тикера SBER...
  - Обнаружено 1186 пропущенных значений для SBER
  - Пропущенные значения заполнены методом zero
Обработка тикера GAZP...
  - Обнаружено 1050 пропущенных значений для GAZP
  - Пропущенные значения заполнены методом zero
Обработка тикера LKOH...
  - Обнаружено 1050 пропущенных значений для LKOH
  - Пропущенные значения заполнены методом zero
Обработка тикера GMKN...
  - Обнаружено 1278 пропущенных значений для GMKN
  - Пропущенные значения заполнены методом zero
Обработка тикера ROSN...
  - Обнаружено 1050 пропущенных значений для ROSN
  - Пропущенные значения заполнены методом zero
Обработка тикера TATN...
  - Обнаружено 1050 пропущенных значений для TATN
  - Пропущенные значения заполнены методом zero
Обработка тикера MTSS...
  - Обнаружено 1363 пропущенных значений для MTSS
  - Пропущенные значения заполнены методом zero
Обработка тикера ALRS...
  - Обнаружено 1154 пропущенных значений для ALRS
  - Пропущенные значения заполнены методом zero
Обработка тикера

In [119]:
combined_data["days_to_cbr_meeting"].value_counts

<bound method IndexOpsMixin.value_counts of 4506     0.0
4507     0.0
4508    99.0
4509    99.0
4510    99.0
        ... 
3216    99.0
3217     0.0
3218     0.0
3219     0.0
3220     0.0
Name: days_to_cbr_meeting, Length: 5473, dtype: float64>

In [121]:
combined_data.columns

Index(['date', 'open', 'high', 'low', 'close', 'volume', 'SMA_20', 'EMA_20',
       'WMA', 'RSI_14',
       ...
       'sentiment_zscore_7d_std14', 'sentiment_zscore_14d_ma3',
       'sentiment_zscore_14d_ma7', 'sentiment_zscore_14d_ma14',
       'sentiment_zscore_14d_ma30', 'sentiment_zscore_14d_std7',
       'sentiment_zscore_14d_std14', 'sentiment_return_corr',
       'news_count_volatility', 'ticker'],
      dtype='object', length=384)