In [11]:
import pandas as pd
import numpy as np

### Загрузка данных

In [12]:
raw_data = pd.read_csv("data/raw/NASDAQ_FULL_2021_Close.csv")
raw_data.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data/raw/NASDAQ_FULL_2021_Close.csv'

In [None]:
raw_data.drop(columns=["Date"], inplace=True)
raw_data.head()

### Фильтрация активов

In [None]:
raw_data.isna().sum(axis=0).value_counts().sort_index()

Удалим те, что имеют более 50 пропусков (n/a). Это те активы, по которым либо не нашлось данных (ещё не обращались на бирже), либо листинг которых произошёл в 2021 году (например, в его середине), и полных данных по ним нет.

In [None]:
MAX_NA_THRESHOLD = 50

In [None]:
na_counts = raw_data.isna().sum(axis=0)
valid_tickers = na_counts[na_counts <= MAX_NA_THRESHOLD].index

data = raw_data[valid_tickers]

In [None]:
print(f"Tickers was: {data.shape[1]}")
print(f"Deleted tickers (NA > {MAX_NA_THRESHOLD}): {raw_data.shape[1] - data.shape[1]}")
print(f"Tickers left for analysis: {data.shape[1]}")

### Заполнение пропусков

In [None]:
data.ffill(inplace=True)
data.bfill(inplace=True)

Проверим, что мы точно почистили все n/a:

In [None]:
data.isna().sum(axis=0).value_counts()

Проверим, нет ли отрицательных цен в данных

In [None]:
# Удаление активов с аномальными ценами (Отрицательные или Нулевые)
# Цены акций не могут быть отрицательными. Если после Imputation появились отрицательные
# или нулевые значения, это серьезная ошибка данных. Удаляем такие тикеры.

has_non_positive_price = (data <= 0).any(axis=0)
non_positive_tickers = has_non_positive_price[has_non_positive_price].index.tolist()

print(f"Total tickers with non-positive price found: {len(non_positive_tickers)}")
print(f"Examples of non-positive tickers: {non_positive_tickers[:10]} ...")

initial_columns = data.shape[1]
# Drop columns (tickers) that have at least one non-positive price
data = data.drop(columns=non_positive_tickers, errors='ignore')
deleted_count = initial_columns - data.shape[1]

print(f"Removed {deleted_count} assets with non-positive prices.")
print(f"Tickers left after price cleaning: {data.shape[1]}")

# Финальная проверка чистоты данных
if (data <= 0).any().any():
    print("Error: Non-positive prices remain in data!")
elif data.isna().sum().sum() > 0:
    print("Error: N/A values remain in data!")
else:
    print("Data is clean and ready for return calculation.")

Экспортируем очищенные данные:

In [None]:
data.to_csv("data/processed/NASDAQ_FULL_2021_Cleaned_Imputed.csv", index=False)

# Nasdaq 100

In [18]:
raw_data = pd.read_csv("data/raw/NSDQ100-Price (daily)-2021-2021.txt", sep="\t")
raw_data.head()

Unnamed: 0,ticker,AAPL,ABNB,ADBE,ADI,ADP,ADSK,AEP,AMAT,AMD,...,VRTX,WBA,WBD,WDAY,XEL,ZS,AU10Y,BR10Y,CA10Y,CH10Y
0,2021-01-04,12941,13915,48534,14602,16896,29684,8154,8687,923,...,22943,414,3063,22808,65655,19609,99,686,677,28
1,2021-01-05,13101,1483,48569,14863,16849,3017,8143,896,9277,...,22858,4116,3152,22536,6502,19348,949,684,713,28
2,2021-01-06,1266,14277,46631,1493,1679,30287,8208,9083,9033,...,22665,4303,3425,220,6646,18442,1061,704,758,281
3,2021-01-07,13092,15127,47774,15561,16885,3152,7989,9456,9516,...,2329,4526,344,22621,6516,19305,1058,727,794,283
4,2021-01-08,13205,14977,4851,15674,17105,31985,7918,9556,9458,...,237,4521,3463,22765,6576,19737,1096,757,815,285


In [19]:
raw_data.columns

Index(['ticker', 'AAPL', 'ABNB', 'ADBE', 'ADI', 'ADP', 'ADSK', 'AEP', 'AMAT',
       'AMD',
       ...
       'VRTX', 'WBA', 'WBD', 'WDAY', 'XEL', 'ZS', 'AU10Y', 'BR10Y', 'CA10Y',
       'CH10Y'],
      dtype='object', length=101)

In [20]:
raw_data.drop(columns=["ticker"], inplace=True)

In [21]:
raw_data.isna().sum(axis=0).value_counts().sort_index()

Unnamed: 0,count
0,96
1,1
5,1
6,2


In [23]:
raw_data.ffill(inplace=True)
raw_data.bfill(inplace=True)

In [24]:
raw_data.isna().sum(axis=0).value_counts().sort_index()

Unnamed: 0,count
0,100


In [25]:
raw_data.to_csv("data/processed/NASDAQ_100_2021_Cleaned.csv", index=False)