# проверить гипотезу о нормальности распределения логарифмических доходностей

In [1]:
import numpy as np
import pandas as pd
import yfinance as yfin
import requests 
import apimoex

from helper import get_data_markets

In [2]:
SBER = 'SBER'
APPLE = 'AAPL'

start_date = '2018-10-18'
end_date = '2023-10-18'

In [18]:
df_sber = get_data_markets(7, SBER, start_date, end_date)
df_sber.head()

Unnamed: 0,begin,open,close,high,low,value
0,2018-10-22 00:00:00,184.86,181.0,189.25,177.02,82618830000.0
1,2018-10-29 00:00:00,180.6,192.6,192.98,178.64,62995390000.0
2,2018-11-05 00:00:00,194.5,195.75,204.7,193.73,70877320000.0
3,2018-11-12 00:00:00,197.97,199.26,203.5,193.18,74147530000.0
4,2018-11-19 00:00:00,198.98,197.3,200.7,191.81,54342820000.0


In [19]:
df_apple = get_data_markets('1wk', APPLE, start_date, end_date, 'yahoo')
df_apple.columns = df_apple.columns.str.lower()
df_apple.tail()

Unnamed: 0,date,open,high,low,close,volume,dividends,stock splits
257,2023-09-18 00:00:00-04:00,176.479996,179.699997,173.860001,174.789993,297294000,0.0,0.0
258,2023-09-25 00:00:00-04:00,174.199997,176.970001,167.619995,171.210007,285792000,0.0,0.0
259,2023-10-02 00:00:00-04:00,171.220001,177.990005,170.820007,177.490005,260531400,0.0,0.0
260,2023-10-09 00:00:00-04:00,176.809998,182.339996,175.800003,178.850006,241810100,0.0,0.0
261,2023-10-16 00:00:00-04:00,176.75,179.080002,174.800003,175.839996,164830800,0.0,0.0


In [20]:
def log_income(df: pd.DataFrame):
    """
        marh:: `r_i(t) = ln(\frac{close_i(t)}{close_i(t-1)})`
    """

    # income_vec = np.zeros(len(df))

    # for i in range(1, len(df)):
    #     income_vec[i] += np.log(df.loc[i, 'close'] / df.loc[i-1, 'close'])

    close = df['close'].values

    income_vec = np.concatenate((np.array([0]), np.log(close[1:] / close[:-1])))

    return income_vec

In [21]:
sber_income_vec = log_income(df_sber)
apple_income_vec = log_income(df_apple)
sber_income_vec.shape, len(df_sber)

((258,), 258)

In [22]:
from scipy.stats import shapiro

In [23]:
significance = 0.95

In [24]:
_, pvalue = shapiro(sber_income_vec)
print(pvalue)
if pvalue < significance:
    print('Не нормальное распределение')
else:
    print('Нормальное распределение')

1.7143251552192225e-21
Не нормальное распределение


In [25]:
_, pvalue = shapiro(apple_income_vec)
print(pvalue)
if pvalue < significance:
    print('Не нормальное распределение')
else:
    print('Нормальное распределение')

4.9307891458738595e-05
Не нормальное распределение


## Если нормализовать вектор доходностей

In [26]:
def normalize_vector(vec):
    return (vec - np.min(vec)) / (np.max(vec) - np.min(vec))

In [27]:
norm_sber_income_vec = normalize_vector(sber_income_vec)

_, pvalue = shapiro(norm_sber_income_vec)
print(pvalue)
if pvalue < significance:
    print('Не нормальное распределение')
else:
    print('Нормальное распределение')

1.71435625527155e-21
Не нормальное распределение


In [28]:
norm_apple_income_vec = normalize_vector(apple_income_vec)

_, pvalue = shapiro(norm_apple_income_vec)
print(pvalue)
if pvalue < significance:
    print('Не нормальное распределение')
else:
    print('Нормальное распределение')

4.9307891458738595e-05
Не нормальное распределение


# Теперь окно 60

In [30]:
df_sber = get_data_markets(31, SBER, start_date, end_date)
df_apple = get_data_markets('1mo', APPLE, start_date, end_date, 'yahoo')
df_apple.columns = df_apple.columns.str.lower()

In [31]:
sber_income_vec = log_income(df_sber)
apple_income_vec = log_income(df_apple)
sber_income_vec.shape

(60,)

In [32]:
_, pvalue = shapiro(sber_income_vec)
print(pvalue)
if pvalue < significance:
    print('Не нормальное распределение')
else:
    print('Нормальное распределение')

4.442218592970448e-09
Не нормальное распределение


In [33]:
_, pvalue = shapiro(apple_income_vec)
print(pvalue)
if pvalue < significance:
    print('Не нормальное распределение')
else:
    print('Нормальное распределение')

0.045810531824827194
Не нормальное распределение


## Если нормализовать

In [34]:
norm_sber_income_vec = normalize_vector(sber_income_vec)

_, pvalue = shapiro(norm_sber_income_vec)
print(pvalue)
if pvalue < significance:
    print('Не нормальное распределение')
else:
    print('Нормальное распределение')

4.442218592970448e-09
Не нормальное распределение


In [35]:
norm_apple_income_vec = normalize_vector(apple_income_vec)

_, pvalue = shapiro(norm_apple_income_vec)
print(pvalue)
if pvalue < significance:
    print('Не нормальное распределение')
else:
    print('Нормальное распределение')

0.04581048712134361
Не нормальное распределение


# Теперь окно 1 неделя

In [36]:
df_sber = get_data_markets(7, SBER, start_date, end_date)
df_apple = get_data_markets('1wk', APPLE, start_date, end_date, 'yahoo')
df_apple.columns = df_apple.columns.str.lower()

In [37]:
sber_income_vec = log_income(df_sber)
apple_income_vec = log_income(df_apple)
sber_income_vec.shape

(258,)

In [38]:
_, pvalue = shapiro(sber_income_vec)
print(pvalue)
if pvalue < significance:
    print('Не нормальное распределение')
else:
    print('Нормальное распределение')

1.7143251552192225e-21
Не нормальное распределение


In [39]:
norm_apple_income_vec = normalize_vector(apple_income_vec)

_, pvalue = shapiro(norm_apple_income_vec)
print(pvalue)
if pvalue < significance:
    print('Не нормальное распределение')
else:
    print('Нормальное распределение')

4.9288351874565706e-05
Не нормальное распределение
