In [1]:
# !pip freeze > requirements.txt
# !pip install -r requirements.txt

In [2]:
import os
import pandas as pd
from src.data_processor import DataProcessor
from src.risk_factor_analyzer import RiskFactorAnalyzer

In [5]:
files = os.listdir('data')
files = [file for file in files if file.split('.')[-1] == 'csv']
file_names = [file.split('.')[0] for file in files]
file_paths = {file_name: file for file_name, file in zip(file_names, list(map(lambda x: 'data/' + x, files)))}
file_paths

{'CHMF': 'data/CHMF.csv',
 'gazp': 'data/gazp.csv',
 'ROSN': 'data/ROSN.csv',
 'SNGSP': 'data/SNGSP.csv',
 'sber': 'data/sber.csv',
 'STSB': 'data/STSB.csv',
 'MGNT': 'data/MGNT.csv',
 'brent_prices': 'data/brent_prices.csv',
 'GMKN': 'data/GMKN.csv',
 'eur_rate': 'data/eur_rate.csv',
 'LPSB': 'data/LPSB.csv',
 'usd_rate': 'data/usd_rate.csv',
 'LKOH': 'data/LKOH.csv'}

In [6]:
# Пример создания списка торговых дней
start_date = '2020-01-01'
end_date = '2024-01-01'
trading_days = pd.DataFrame({'date': pd.date_range(start=start_date, end=end_date, freq='B')})

In [7]:
# Инициализируем процессор данных
data_processor = DataProcessor(trading_days)

In [8]:
# Загружаем и объединяем данные
data_frames = data_processor.load_data(file_paths)
renamed_data_frames = data_processor.rename_columns(data_frames)
all_data = data_processor.merge_data(renamed_data_frames)
cleaned_data = data_processor.clean_data(all_data)
filled_data = data_processor.fill_missing_data(cleaned_data, method='ffill')
full_data = filled_data.dropna()

In [11]:
full_data

Unnamed: 0,date,CHMF_<OPEN>,CHMF_<HIGH>,CHMF_<LOW>,CHMF_<CLOSE>,CHMF_<VOL>,gazp_<OPEN>,gazp_<HIGH>,gazp_<LOW>,gazp_<CLOSE>,...,LPSB_<HIGH>,LPSB_<LOW>,LPSB_<CLOSE>,LPSB_<VOL>,usd_rate_curs,LKOH_<OPEN>,LKOH_<HIGH>,LKOH_<LOW>,LKOH_<CLOSE>,LKOH_<VOL>
2,2020-01-03,940.6,947.4,938.4,945.8,571782.0,259.10,261.90,257.77,259.00,...,6.85,6.80,6.80,1600.0,61.9057,6203.5,6294.0,6185.0,6294.0,791658.0
3,2020-01-06,945.0,945.6,923.2,929.0,737166.0,258.91,258.96,254.80,256.55,...,6.80,6.60,6.70,14600.0,61.9057,6300.0,6382.0,6284.5,6382.0,751576.0
4,2020-01-07,945.0,945.6,923.2,929.0,737166.0,258.91,258.96,254.80,256.55,...,6.80,6.60,6.70,14600.0,61.9057,6300.0,6382.0,6284.5,6382.0,751576.0
5,2020-01-08,925.0,931.6,918.0,927.2,674513.0,256.25,257.32,254.77,255.79,...,6.70,6.45,6.65,11300.0,61.9057,6401.0,6513.0,6350.5,6496.5,974042.0
6,2020-01-09,927.0,937.0,927.0,928.2,1025618.0,255.66,256.68,251.82,254.07,...,6.60,6.30,6.55,12900.0,61.9057,6450.0,6523.5,6393.5,6430.0,876659.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1039,2023-12-26,1343.6,1377.2,1338.0,1375.2,767559.0,161.33,161.80,160.77,161.00,...,31.70,29.20,30.45,37300.0,91.9690,6749.0,6771.0,6720.0,6771.0,430163.0
1040,2023-12-27,1376.0,1389.4,1375.0,1382.0,646107.0,161.20,161.40,159.81,159.86,...,30.65,28.65,29.25,36700.0,91.7069,6773.5,6840.0,6761.0,6768.0,496504.0
1041,2023-12-28,1382.6,1414.0,1375.2,1408.0,891068.0,159.95,160.38,158.22,159.14,...,29.70,28.15,28.45,25100.0,91.7051,6767.5,6802.5,6725.5,6767.0,440041.0
1042,2023-12-29,1408.4,1409.8,1392.0,1407.0,558087.0,159.49,160.79,159.14,159.52,...,29.25,27.50,28.45,26300.0,90.3041,6773.0,6778.5,6729.0,6739.0,279198.0


In [None]:
# Инициализация и использование класса
analyzer = RiskFactorAnalyzer(full_data)
analyzer.handle_missing_data()
analyzer.fill_missing_data()

In [None]:
# Выполнение PCA
analyzer.perform_pca(n_components=10)
analyzer.plot_pca_variance()

In [None]:
# Визуализация риск-факторов
analyzer.visualize_risk_factors()

In [None]:
# Корреляционная матрица
analyzer.plot_correlation_matrix()

In [None]:
# Описательная статистика
stats = analyzer.descriptive_statistics()
stats

Коэффициенты эксцесса (kurtosis) и асимметрии (skewness) являются важными статистическими показателями, которые помогают описывать распределение данных. Вот их определения и интерпретации:

### 1. Асимметрия (Skewness)

**Определение:**
Асимметрия измеряет степень и направление асимметрии распределения данных. Она показывает, насколько распределение отклоняется от нормального распределения влево или вправо.

**Интерпретация:**
- **Skewness = 0**: Распределение является симметричным. Это характерно для нормального распределения.
- **Skewness > 0**: Распределение имеет положительную асимметрию (правостороннюю). Это означает, что хвост справа длиннее или "тяжелее", чем хвост слева. В этом случае большая часть значений сосредоточена слева от среднего значения.
- **Skewness < 0**: Распределение имеет отрицательную асимметрию (левостороннюю). Это означает, что хвост слева длиннее или "тяжелее", чем хвост справа. В этом случае большая часть значений сосредоточена справа от среднего значения.

### 2. Эксцесс (Kurtosis)

**Определение:**
Эксцесс измеряет "тяжесть хвостов" распределения, т.е. насколько хвосты распределения более тяжелые или легкие по сравнению с нормальным распределением.

**Интерпретация:**
- **Kurtosis < 3**: Распределение имеет отрицательный эксцесс (платикуртическое распределение). Это означает, что хвосты распределения легче, а пик распределения более плоский по сравнению с нормальным распределением.
- **Kurtosis = 3**: Распределение имеет нулевой эксцесс (мезокуртическое распределение). Это характерно для нормального распределения.
- **Kurtosis > 3**: Распределение имеет положительный эксцесс (лептокуртическое распределение). Это означает, что хвосты распределения тяжелее, а пик распределения более острый по сравнению с нормальным распределением.

### Примеры:

- **Положительная асимметрия (Skewness > 0)**: Представьте распределение доходов, где большинство людей зарабатывают в пределах среднего дохода, но небольшое количество людей зарабатывает значительно больше. Это создаст длинный правый хвост.

- **Отрицательная асимметрия (Skewness < 0)**: Представьте распределение оценок на экзамене, где большинство студентов получают высокие оценки, но небольшое количество студентов получает значительно низкие оценки. Это создаст длинный левый хвост.

- **Положительный эксцесс (Kurtosis > 3)**: Например, в финансовых данных, где есть частые небольшие колебания и редкие, но значительные выбросы. Это создаст распределение с тяжелыми хвостами и острым пиком.

- **Отрицательный эксцесс (Kurtosis < 3)**: Например, если данные равномерно распределены, то их пик будет более плоским, а хвосты менее тяжелыми по сравнению с нормальным распределением.

### Применение в анализе данных:

Эти показатели помогают понять распределение данных, что важно при анализе риска и принятии решений. В финансовых данных, например, положительный эксцесс может указывать на повышенные риски экстремальных изменений цен, что необходимо учитывать при разработке стратегий управления рисками.

In [None]:
# Анализ трендов, сезонности и стационарности для примера колонки 'gazp'
analyzer.trend_seasonality_stationarity('brent_prices_price')

In [None]:
analyzer.visualize_histograms()

In [None]:
analyzer.visualize_boxplots()