# boors feature gathering

In [1]:
import pandas as pd
import numpy as np
import os
import warnings

warnings.filterwarnings('ignore')

# Create an empty dataframe
date_range = pd.date_range(start='2013-09-01', end='2023-08-31', name='Date')
df = pd.DataFrame(date_range)

folder_path = './raw_data'
data_list = os.listdir(folder_path)

for data in data_list:
    df2 = pd.read_excel(f'{folder_path}/{data}')
    df2.rename(columns={'تاریخ میلادی': 'Date'}, inplace=True)
    df2['Date'] = pd.to_datetime(df2['Date'])
    start_date = pd.to_datetime('2013-09-01')
    end_date = pd.to_datetime('2023-08-31')
    df2 = df2[(df2['Date'] >= start_date) & (df2['Date'] <= end_date)]

    # Check if the 'تاریخ شمسی' column exists in the dataframe
    if 'تاریخ شمسی' not in df.columns :
        df = pd.merge(df, df2, on='Date', how='outer')
    else :
        df2 = df2.drop(columns=['تاریخ شمسی'])
        df = pd.merge(df, df2, on='Date', how='outer')


# Reset the index
df.reset_index(inplace=True)

#Labeling the features
for col in df.columns :
    df.rename(columns={col: col + '*بورس*'}, inplace=True)


# Write the merged dataframe to an Excel file
df.to_excel('./merged_boors.xlsx', index=False)


# fixing missing values & Data types

In [1]:
import pandas as pd
import numpy as np

In [2]:
boors = pd.read_excel('./merged_boors.xlsx')

In [3]:
boors.head()

Unnamed: 0,Date,تاریخ شمسی,حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*,ارزش بنگاه به سود قبل از بهره و مالیات (EV/EBIT)-بورس*بورس*,ارزش معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*,قیمت به درآمد-بورس*بورس*,ارزش بازار (دلار آزاد)-بورس*بورس*,قیمت به سود نقدی-بورس*بورس*,درصد شناوری-بورس*بورس*,حجم معاملات سهام بلوکی-بورس*بورس*,...,شاخص بورس*بورس*,بازده حقوق صاحبان سهام-بورس*بورس*,خرید حقیقی حجم-بورس*بورس*,فروش حقیقی حجم-بورس*بورس*,خالص خرید حقیقی حجم-بورس*بورس*,سود خالص-چهار فصل اخیر-بورس*بورس*,حجم معاملات اوراق با درآمد ثابت عادی-بورس*بورس*,خرید حقوقی حجم-بورس*بورس*,فروش حقوقی حجم-بورس*بورس*,خالص خرید حقوقی حجم-بورس*بورس*
0,2013-09-01,1392-06-10,,,,1.758179,89707530000.0,,,,...,59057.0,0.433959,269620337.0,274431925.0,-4811588.0,431071400000000.0,63876.0,80808705.0,75997117.0,4811588.0
1,2013-09-02,1392-06-12,,,,,,,,,...,,,,,,,,,,
2,2013-09-03,1392-06-12,,,,1.75582,88743630000.0,,,,...,58963.0,0.433937,186055161.0,252135938.0,-66080777.0,431067000000000.0,11679.0,149925960.0,83845183.0,66080777.0
3,2013-09-04,1392-06-13,,,,1.731691,86590310000.0,,,,...,58146.0,0.433937,67792577.0,109571616.0,-41779039.0,431067000000000.0,18296.0,66714901.0,24935862.0,41779039.0
4,2013-09-05,1392-06-16,,,,,,,,,...,,,,,,,,,,


In [8]:
def clean_data(boors):
    # Replace gaps forward from the previous valid value in: 'حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*', 'ارزش بنگاه به سود قبل از بهره و مالیات (EV/EBIT)-بورس*بورس*' and 33 other columns
    boors = boors.fillna({'حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*': boors['حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*'].ffill(), 'ارزش بنگاه به سود قبل از بهره و مالیات (EV/EBIT)-بورس*بورس*': boors['ارزش بنگاه به سود قبل از بهره و مالیات (EV/EBIT)-بورس*بورس*'].ffill(), 'ارزش معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*': boors['ارزش معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*'].ffill(), 'قیمت به درآمد-بورس*بورس*': boors['قیمت به درآمد-بورس*بورس*'].ffill(), 'ارزش بازار (دلار آزاد)-بورس*بورس*': boors['ارزش بازار (دلار آزاد)-بورس*بورس*'].ffill(), 'قیمت به سود نقدی-بورس*بورس*': boors['قیمت به سود نقدی-بورس*بورس*'].ffill(), 'درصد شناوری-بورس*بورس*': boors['درصد شناوری-بورس*بورس*'].ffill(), 'حجم معاملات سهام بلوکی-بورس*بورس*': boors['حجم معاملات سهام بلوکی-بورس*بورس*'].ffill(), 'سود خالص-آخرین فصل-بورس*بورس*': boors['سود خالص-آخرین فصل-بورس*بورس*'].ffill(), 'قیمت به سود -بورس*بورس*': boors['قیمت به سود -بورس*بورس*'].ffill(), 'بازده دارایی ها-بورس*بورس*': boors['بازده دارایی ها-بورس*بورس*'].ffill(), 'حجم معاملات-بورس*بورس*': boors['حجم معاملات-بورس*بورس*'].ffill(), 'ارزش معاملات سهام بلوکی-بورس*بورس*': boors['ارزش معاملات سهام بلوکی-بورس*بورس*'].ffill(), 'ارزش معاملات اوراق با درآمد ثابت عادی-بورس*بورس*': boors['ارزش معاملات اوراق با درآمد ثابت عادی-بورس*بورس*'].ffill(), 'ارزش بازار-بورس*بورس*': boors['ارزش بازار-بورس*بورس*'].ffill(), 'درصد پرداخت سود-بورس*بورس*': boors['درصد پرداخت سود-بورس*بورس*'].ffill(), 'خرید حقیقی ارزش-بورس*بورس*': boors['خرید حقیقی ارزش-بورس*بورس*'].ffill(), 'فروش حقیقی ارزش-بورس*بورس*': boors['فروش حقیقی ارزش-بورس*بورس*'].ffill(), 'خالص خرید حقیقی ارزش-بورس*بورس*': boors['خالص خرید حقیقی ارزش-بورس*بورس*'].ffill(), 'ارزش معاملات-بورس*بورس*': boors['ارزش معاملات-بورس*بورس*'].ffill(), 'خرید حقوقی ارزش-بورس*بورس*': boors['خرید حقوقی ارزش-بورس*بورس*'].ffill(), 'فروش حقوقی ارزش-بورس*بورس*': boors['فروش حقوقی ارزش-بورس*بورس*'].ffill(), 'خالص خرید حقوقی ارزش-بورس*بورس*': boors['خالص خرید حقوقی ارزش-بورس*بورس*'].ffill(), 'ارزش بازار (دلار نیمایی)-بورس*بورس*': boors['ارزش بازار (دلار نیمایی)-بورس*بورس*'].ffill(), 'قیمت به ارزش دفتری-بورس*بورس*': boors['قیمت به ارزش دفتری-بورس*بورس*'].ffill(), 'شاخص بورس*بورس*': boors['شاخص بورس*بورس*'].ffill(), 'بازده حقوق صاحبان سهام-بورس*بورس*': boors['بازده حقوق صاحبان سهام-بورس*بورس*'].ffill(), 'خرید حقیقی حجم-بورس*بورس*': boors['خرید حقیقی حجم-بورس*بورس*'].ffill(), 'فروش حقیقی حجم-بورس*بورس*': boors['فروش حقیقی حجم-بورس*بورس*'].ffill(), 'خالص خرید حقیقی حجم-بورس*بورس*': boors['خالص خرید حقیقی حجم-بورس*بورس*'].ffill(), 'سود خالص-چهار فصل اخیر-بورس*بورس*': boors['سود خالص-چهار فصل اخیر-بورس*بورس*'].ffill(), 'حجم معاملات اوراق با درآمد ثابت عادی-بورس*بورس*': boors['حجم معاملات اوراق با درآمد ثابت عادی-بورس*بورس*'].ffill(), 'خرید حقوقی حجم-بورس*بورس*': boors['خرید حقوقی حجم-بورس*بورس*'].ffill(), 'فروش حقوقی حجم-بورس*بورس*': boors['فروش حقوقی حجم-بورس*بورس*'].ffill(), 'خالص خرید حقوقی حجم-بورس*بورس*': boors['خالص خرید حقوقی حجم-بورس*بورس*'].ffill()})
    # Drop columns: 'ارزش بنگاه به سود قبل از بهره و مالیات (EV/EBIT)-بورس*بورس*', 'قیمت به سود نقدی-بورس*بورس*'
    boors = boors.drop(columns=['ارزش بنگاه به سود قبل از بهره و مالیات (EV/EBIT)-بورس*بورس*', 'قیمت به سود نقدی-بورس*بورس*'])
    # Replace missing values with 0 in columns: 'حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*', 'ارزش معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*' and 2 other columns
    boors = boors.fillna({'حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*': 0, 'ارزش معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*': 0, 'حجم معاملات سهام بلوکی-بورس*بورس*': 0, 'ارزش معاملات سهام بلوکی-بورس*بورس*': 0})
    return boors

boors_clean_1 = clean_data(boors.copy())
boors_clean_1.head()

Unnamed: 0,Date,تاریخ شمسی,حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*,ارزش معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*,قیمت به درآمد-بورس*بورس*,ارزش بازار (دلار آزاد)-بورس*بورس*,درصد شناوری-بورس*بورس*,حجم معاملات سهام بلوکی-بورس*بورس*,سود خالص-آخرین فصل-بورس*بورس*,قیمت به سود -بورس*بورس*,...,شاخص بورس*بورس*,بازده حقوق صاحبان سهام-بورس*بورس*,خرید حقیقی حجم-بورس*بورس*,فروش حقیقی حجم-بورس*بورس*,خالص خرید حقیقی حجم-بورس*بورس*,سود خالص-چهار فصل اخیر-بورس*بورس*,حجم معاملات اوراق با درآمد ثابت عادی-بورس*بورس*,خرید حقوقی حجم-بورس*بورس*,فروش حقوقی حجم-بورس*بورس*,خالص خرید حقوقی حجم-بورس*بورس*
0,2013-09-01,1392-06-10,0.0,0.0,1.758179,89707530000.0,,0.0,140964400000000.0,6.740156,...,59057.0,0.433959,269620337.0,274431925.0,-4811588.0,431071400000000.0,63876.0,80808705.0,75997117.0,4811588.0
1,2013-09-02,1392-06-12,0.0,0.0,1.758179,89707530000.0,,0.0,140964400000000.0,6.740156,...,59057.0,0.433959,269620337.0,274431925.0,-4811588.0,431071400000000.0,63876.0,80808705.0,75997117.0,4811588.0
2,2013-09-03,1392-06-12,0.0,0.0,1.75582,88743630000.0,,0.0,140924100000000.0,6.729593,...,58963.0,0.433937,186055161.0,252135938.0,-66080777.0,431067000000000.0,11679.0,149925960.0,83845183.0,66080777.0
3,2013-09-04,1392-06-13,0.0,0.0,1.731691,86590310000.0,,0.0,140924100000000.0,6.636411,...,58146.0,0.433937,67792577.0,109571616.0,-41779039.0,431067000000000.0,18296.0,66714901.0,24935862.0,41779039.0
4,2013-09-05,1392-06-16,0.0,0.0,1.731691,86590310000.0,,0.0,140924100000000.0,6.636411,...,58146.0,0.433937,67792577.0,109571616.0,-41779039.0,431067000000000.0,18296.0,66714901.0,24935862.0,41779039.0


In [9]:
mean1 = boors_clean_1['درصد شناوری-بورس*بورس*'].mean()
std1 = boors_clean_1['درصد شناوری-بورس*بورس*'].std()
min_value = mean1 - (0.7 * std1)    # Minimum value for random float
max_value = mean1 + (0.7 * std1)    # Maximum value for random float

    # Replace missing values with random float numbers within the specified range
def fill_missing_with_random(column, min_val, max_val):
    missing_mask = column.isnull()  # Mask for missing values in the column
    num_missing = missing_mask.sum()  # Count of missing values in the column

    if num_missing > 0:
        # Generate random float numbers for missing values in the specified range
        random_values = np.random.uniform(min_val, max_val, size=num_missing)
        column.loc[missing_mask] = random_values

    return column
# check is df['آخرین معامله*صنعت*'] doesnt change , replace the missing value ffill esle use the function
missing_value_inx = boors_clean_1[boors_clean_1['درصد شناوری-بورس*بورس*'].isnull()].index
for idx in missing_value_inx:
    if idx - 1 >= 0 and boors_clean_1.loc[idx, 'قیمت به درآمد-بورس*بورس*'] == boors_clean_1.loc[idx - 1, 'قیمت به درآمد-بورس*بورس*']:
        boors_clean_1.loc[idx, 'درصد شناوری-بورس*بورس*'] = boors_clean_1.loc[idx - 1, 'درصد شناوری-بورس*بورس*']
    else:
        column_name = 'درصد شناوری-بورس*بورس*'
        boors_clean_1[column_name] = fill_missing_with_random(boors_clean_1[column_name], min_value, max_value)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  column.loc[missing_mask] = random_values


In [10]:
boors_clean_1.head()

Unnamed: 0,Date,تاریخ شمسی,حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*,ارزش معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*,قیمت به درآمد-بورس*بورس*,ارزش بازار (دلار آزاد)-بورس*بورس*,درصد شناوری-بورس*بورس*,حجم معاملات سهام بلوکی-بورس*بورس*,سود خالص-آخرین فصل-بورس*بورس*,قیمت به سود -بورس*بورس*,...,شاخص بورس*بورس*,بازده حقوق صاحبان سهام-بورس*بورس*,خرید حقیقی حجم-بورس*بورس*,فروش حقیقی حجم-بورس*بورس*,خالص خرید حقیقی حجم-بورس*بورس*,سود خالص-چهار فصل اخیر-بورس*بورس*,حجم معاملات اوراق با درآمد ثابت عادی-بورس*بورس*,خرید حقوقی حجم-بورس*بورس*,فروش حقوقی حجم-بورس*بورس*,خالص خرید حقوقی حجم-بورس*بورس*
0,2013-09-01,1392-06-10,0.0,0.0,1.758179,89707530000.0,0.200076,0.0,140964400000000.0,6.740156,...,59057.0,0.433959,269620337.0,274431925.0,-4811588.0,431071400000000.0,63876.0,80808705.0,75997117.0,4811588.0
1,2013-09-02,1392-06-12,0.0,0.0,1.758179,89707530000.0,0.200076,0.0,140964400000000.0,6.740156,...,59057.0,0.433959,269620337.0,274431925.0,-4811588.0,431071400000000.0,63876.0,80808705.0,75997117.0,4811588.0
2,2013-09-03,1392-06-12,0.0,0.0,1.75582,88743630000.0,0.186337,0.0,140924100000000.0,6.729593,...,58963.0,0.433937,186055161.0,252135938.0,-66080777.0,431067000000000.0,11679.0,149925960.0,83845183.0,66080777.0
3,2013-09-04,1392-06-13,0.0,0.0,1.731691,86590310000.0,0.18737,0.0,140924100000000.0,6.636411,...,58146.0,0.433937,67792577.0,109571616.0,-41779039.0,431067000000000.0,18296.0,66714901.0,24935862.0,41779039.0
4,2013-09-05,1392-06-16,0.0,0.0,1.731691,86590310000.0,0.18737,0.0,140924100000000.0,6.636411,...,58146.0,0.433937,67792577.0,109571616.0,-41779039.0,431067000000000.0,18296.0,66714901.0,24935862.0,41779039.0


In [11]:
boors_clean_1.isna().sum()

Date                                                 0
تاریخ شمسی                                           1
حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*     0
ارزش معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*    0
قیمت به درآمد-بورس*بورس*                             0
ارزش بازار (دلار آزاد)-بورس*بورس*                    0
درصد شناوری-بورس*بورس*                               0
حجم معاملات سهام بلوکی-بورس*بورس*                    0
سود خالص-آخرین فصل-بورس*بورس*                        0
قیمت به سود -بورس*بورس*                              0
بازده دارایی ها-بورس*بورس*                           0
حجم معاملات-بورس*بورس*                               0
ارزش معاملات سهام بلوکی-بورس*بورس*                   0
ارزش معاملات اوراق با درآمد ثابت عادی-بورس*بورس*     0
ارزش بازار-بورس*بورس*                                0
درصد پرداخت سود-بورس*بورس*                           0
خرید حقیقی ارزش-بورس*بورس*                           0
فروش حقیقی ارزش-بورس*بورس*                           0
خالص خرید 

In [12]:
boors_clean.isna().sum()

Date                                                              0
تاریخ شمسی                                                        1
حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*                  0
ارزش بنگاه به سود قبل از بهره و مالیات (EV/EBIT)-بورس*بورس*    1430
ارزش معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*                 0
قیمت به درآمد-بورس*بورس*                                          0
ارزش بازار (دلار آزاد)-بورس*بورس*                                 0
قیمت به سود نقدی-بورس*بورس*                                    1364
درصد شناوری-بورس*بورس*                                          244
حجم معاملات سهام بلوکی-بورس*بورس*                                 0
سود خالص-آخرین فصل-بورس*بورس*                                     0
قیمت به سود -بورس*بورس*                                           0
بازده دارایی ها-بورس*بورس*                                        0
حجم معاملات-بورس*بورس*                                            0
ارزش معاملات سهام بلوکی-بورس*بورس*              

In [12]:
boors_clean_1.to_excel('./boors_clean.xlsx', index=False)

In [13]:
boors_clean_1

Unnamed: 0,Date,تاریخ شمسی,حجم معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*,ارزش معاملات اوراق با درآمد ثابت بلوکی-بورس*بورس*,قیمت به درآمد-بورس*بورس*,ارزش بازار (دلار آزاد)-بورس*بورس*,درصد شناوری-بورس*بورس*,حجم معاملات سهام بلوکی-بورس*بورس*,سود خالص-آخرین فصل-بورس*بورس*,قیمت به سود -بورس*بورس*,...,شاخص بورس*بورس*,بازده حقوق صاحبان سهام-بورس*بورس*,خرید حقیقی حجم-بورس*بورس*,فروش حقیقی حجم-بورس*بورس*,خالص خرید حقیقی حجم-بورس*بورس*,سود خالص-چهار فصل اخیر-بورس*بورس*,حجم معاملات اوراق با درآمد ثابت عادی-بورس*بورس*,خرید حقوقی حجم-بورس*بورس*,فروش حقوقی حجم-بورس*بورس*,خالص خرید حقوقی حجم-بورس*بورس*
0,2013-09-01,1392-06-10,0.0,0.0,1.758179,8.970753e+10,0.200076,0.000000e+00,1.409644e+14,6.740156,...,59057.0,0.433959,2.696203e+08,2.744319e+08,-4.811588e+06,4.310714e+14,63876.0,8.080870e+07,7.599712e+07,4.811588e+06
1,2013-09-02,1392-06-12,0.0,0.0,1.758179,8.970753e+10,0.200076,0.000000e+00,1.409644e+14,6.740156,...,59057.0,0.433959,2.696203e+08,2.744319e+08,-4.811588e+06,4.310714e+14,63876.0,8.080870e+07,7.599712e+07,4.811588e+06
2,2013-09-03,1392-06-12,0.0,0.0,1.755820,8.874363e+10,0.186337,0.000000e+00,1.409241e+14,6.729593,...,58963.0,0.433937,1.860552e+08,2.521359e+08,-6.608078e+07,4.310670e+14,11679.0,1.499260e+08,8.384518e+07,6.608078e+07
3,2013-09-04,1392-06-13,0.0,0.0,1.731691,8.659031e+10,0.187370,0.000000e+00,1.409241e+14,6.636411,...,58146.0,0.433937,6.779258e+07,1.095716e+08,-4.177904e+07,4.310670e+14,18296.0,6.671490e+07,2.493586e+07,4.177904e+07
4,2013-09-05,1392-06-16,0.0,0.0,1.731691,8.659031e+10,0.187370,0.000000e+00,1.409241e+14,6.636411,...,58146.0,0.433937,6.779258e+07,1.095716e+08,-4.177904e+07,4.310670e+14,18296.0,6.671490e+07,2.493586e+07,4.177904e+07
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3647,2023-08-27,1402-06-05,0.0,0.0,1.978190,1.420922e+11,0.248400,1.463859e+10,2.942137e+15,7.556051,...,2051472.0,0.490550,8.248490e+09,6.458154e+09,1.790336e+09,8.969807e+15,0.0,1.306891e+09,3.097227e+09,-1.790336e+09
3648,2023-08-28,1402-06-06,0.0,0.0,1.978190,1.447326e+11,0.249100,2.955560e+09,2.942293e+15,7.556051,...,2084168.0,0.490550,6.323745e+09,6.310389e+09,1.335632e+07,8.969958e+15,3000.0,1.761464e+09,1.774821e+09,-1.335632e+07
3649,2023-08-29,1402-06-07,0.0,0.0,1.978190,1.446724e+11,0.245200,8.349439e+08,2.942313e+15,7.556051,...,2095049.0,0.490550,5.167866e+09,5.379255e+09,-2.113895e+08,8.969978e+15,0.0,1.527959e+09,1.316569e+09,2.113895e+08
3650,2023-08-30,1402-06-08,0.0,0.0,1.978190,1.451770e+11,0.245700,7.595264e+09,2.942313e+15,7.556051,...,2104684.0,0.490550,6.044051e+09,5.687086e+09,3.569654e+08,8.969978e+15,8000.0,1.900342e+09,2.257308e+09,-3.569654e+08
