In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as sts
from math import *
import glob
from IPython.display import display

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Подгружаем таблицы с данными и сводим их в единую таблицу по опционам
names = glob.glob(r'/content/drive/MyDrive/Андан Проект/Данные опционы/*.xlsx',\
                  recursive=True)
cont = []
for i in range(len(names)):
    df = pd.read_excel(names[i], index_col=0)
    cont.append(df)
totaldata = pd.concat(cont)
df_options = totaldata.reset_index()

In [None]:
df_options.isnull().sum()

Unnamed: 0,0
transact_time,0
price,0
size,0
osi_root,38
expire_date,0
call_put_flag,38
strike_price,0
spread,0


In [None]:
 # Пропусков не так много, поэтому убираем строки со значением NAN
df_options = totaldata.reset_index().dropna()

In [None]:
# Удаляем цифру в начале названия тикера, т.к. цифра означает биржу,
# на которой был "listed" опцион (2 - Нью-Йоркская биржа, 4 - Чикагская)
df_options['ticker'] = df_options['osi_root'].apply(lambda x: x[1:])
df_options.drop(columns=['osi_root'], inplace=True)

# неинформативное значение
df_options = df_options.drop('spread', axis=1)

In [None]:
display(df_options['price'].describe(), df_options['size'].describe(),\
        df_options['strike_price'].describe())

Unnamed: 0,price
count,23634.0
mean,168.781258
std,761.80684
min,0.01
25%,1.62
50%,11.73
75%,65.45
max,20706.0


Unnamed: 0,size
count,23634.0
mean,566.925362
std,3157.606639
min,1.0
25%,3.0
50%,22.0
75%,125.0
max,116382.0


Unnamed: 0,strike_price
count,23634.0
mean,1291.109111
std,2979.701949
min,0.01
25%,88.0
50%,473.37
75%,605.48
max,27246.32


In [None]:
df_options['ticker'].value_counts().head(5)

Unnamed: 0_level_0,count
ticker,Unnamed: 1_level_1
SPY,11498
SPX,2718
QQQ,1462
IWM,956
MSTR,740


In [None]:
# Оставляем 3 самых значимых по вкладу тикера
df_options = df_options[df_options['ticker'].isin(['SPY', 'SPX', 'QQQ'])]

In [None]:
# Добавляем один час к времени, чтобы иметь возможность в будущем сравнивать
# одновременные торги на Чикагской бирже опционов (UTC -6)
# и торги акций на бирже в Нью-Йорке (UTC -5)
df_options['transact_time'] = df_options['transact_time'] +\
 pd.Timedelta(hours=1)

In [None]:
# После удаления тикеров с небольшими объемами, пересоздаем индекс
df_options = df_options.reset_index()
df_options.drop(columns=['index'], inplace=True)

# Рассчитаем время до даты эксперации
df_options['time_before_expire_date'] = df_options['expire_date'] -\
 df_options['transact_time'].apply(lambda x: x.floor('min'))
df_options

In [None]:
# Найдем объем в долларах купленных опционов
df_options['buy_volume'] = df_options['price'] * df_options['size']

In [None]:
df_options['buy_volume'].describe().round(2)

Unnamed: 0,buy_volume
count,15678.0
mean,12597.03
std,156953.58
min,0.01
25%,29.2
50%,229.23
75%,1210.36
max,7131605.4


Формула Блэка-Шоулза для оценки опциона:

$$
C(S, t) = S \cdot N(d_1) - K \cdot e^{-r(T - t)} \cdot N(d_2)
$$

$$
P(S, t) = K \cdot e^{-r(T - t)} \cdot N(-d_2) - S \cdot N(-d_1)
$$

Где:

$$
d_1 = \frac{\ln\left(\frac{S}{K}\right) + \left(r + \frac{\sigma^2}{2}\right)(T - t)}{\sigma \sqrt{T - t}}
$$

$$
d_2 = d_1 - \sigma \sqrt{T - t}
$$

Обозначения:
- $ C(S, t) $ — цена европейского опциона колл;
- $ P(S, t) $ — цена европейского опциона пут;
- $ S $ — текущая цена базового актива;
- $ K $ — страйк-цена опциона;
- $ T $ — время до экспирации опциона;
- $ t $ — текущее время;
-$ r $ — безрисковая процентная ставка;
- $ \sigma $ — волатильность базового актива;
- $ N(\cdot) $ — функция стандартного нормального распределения.