# faraboors gathering features

In [1]:
import pandas as pd
import numpy as np
import os
import warnings

warnings.filterwarnings('ignore')

# Create an empty dataframe
date_range = pd.date_range(start='2013-09-01', end='2023-08-31', name='Date')
df = pd.DataFrame(date_range)

folder_path = './raw_data'
data_list = os.listdir(folder_path)

for data in data_list:
    df2 = pd.read_excel(f'{folder_path}/{data}')
    df2.rename(columns={'تاریخ میلادی': 'Date'}, inplace=True)
    df2['Date'] = pd.to_datetime(df2['Date'])
    start_date = pd.to_datetime('2013-09-01')
    end_date = pd.to_datetime('2023-08-31')
    df2 = df2[(df2['Date'] >= start_date) & (df2['Date'] <= end_date)]

    # Check if the 'تاریخ شمسی' column exists in the dataframe
    if 'تاریخ شمسی' not in df.columns :
        df = pd.merge(df, df2, on='Date', how='outer')
    else :
        df2 = df2.drop(columns=['تاریخ شمسی'])
        df = pd.merge(df, df2, on='Date', how='outer')


# Reset the index
df.reset_index(inplace=True)

#Labeling the features
for col in df.columns :
    df.rename(columns={col: col + '*فرابورس*'}, inplace=True)


# Write the merged dataframe to an Excel file
df.to_excel('./merged_faraboors.xlsx', index=False)


# cleaning the data

## missing values and Data types

In [2]:
import pandas as pd
import numpy as np
faraboors = pd.read_excel('./merged_faraboors.xlsx')
faraboors.head()

Unnamed: 0,Date,تاریخ شمسی,فرابورس-بازده دارایی ها *فرابورس*,فرابورس-ارزش بازار *فرابورس*,سود خالص-چهار فصل اخیر-فرابورس*فرابورس*,فرابورس-قیمت به سود (PtoE-TTM*فرابورس*,فرابورس-ارزش بنگاه به سود قبل بهره و مالیات*فرابورس*,فرابورس-ارزش بازار (دلار نیما*فرابورس*,فرابورس-ارزش معاملات سهام بلوکی*فرابورس*,فرابورس-قیمت به سود نقدی (Pto*فرابورس*,...,خریدحقیقی-حجم-فرابورس*فرابورس*,فروش حقیقی-حجم-فرابورس*فرابورس*,خالص خرید حقیقی-حجم-فرابورس*فرابورس*,فرابورس-ارزش بازار (دلار آزاد)*فرابورس*,حجم معاملات سهام بلوکی-فرابورس*فرابورس*,خرید حقوقی-حجم-فرابورس*فرابورس*,فروش حقوقی-حجم-فرابورس*فرابورس*,خالص خرید حقوقی-حجم-فرابورس*فرابورس*,حجم معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*,فرابورس-قیمت به درآمد *فرابورس*
0,2013-09-01,1392-06-10,0.226822,454057400000000.0,54210130000000.0,8.003202,,14048810000.0,,,...,33056217.0,28699529.0,4356688.0,14014120000.0,,8686343.0,13043031.0,-4356688.0,,1.125374
1,2013-09-02,1392-06-12,,,,,,,,,...,,,,,,,,,,
2,2013-09-03,1392-06-12,0.226822,457339100000000.0,54210130000000.0,8.060406,,13973090000.0,,,...,24204820.0,32217057.0,-8012237.0,13985900000.0,,27443152.0,19430915.0,8012237.0,,1.133201
3,2013-09-04,1392-06-13,0.226822,438687400000000.0,54210130000000.0,7.735672,,13289530000.0,,,...,9020517.0,15972235.0,-6951718.0,13273450000.0,,19166843.0,12215125.0,6951718.0,,1.086837
4,2013-09-05,1392-06-16,,,,,,,,,...,,,,,,,,,,


In [4]:
def clean_data(faraboors):
    # Replace gaps forward from the previous valid value in: '  فرابورس-بازده دارایی ها      *فرابورس*', '  فرابورس-ارزش بازار      *فرابورس*' and 32 other columns
    faraboors = faraboors.fillna({'  فرابورس-بازده دارایی ها      *فرابورس*': faraboors['  فرابورس-بازده دارایی ها      *فرابورس*'].ffill(), '  فرابورس-ارزش بازار      *فرابورس*': faraboors['  فرابورس-ارزش بازار      *فرابورس*'].ffill(), 'سود خالص-چهار فصل اخیر-فرابورس*فرابورس*': faraboors['سود خالص-چهار فصل اخیر-فرابورس*فرابورس*'].ffill(), '  فرابورس-قیمت به سود (PtoE-TTM*فرابورس*': faraboors['  فرابورس-قیمت به سود (PtoE-TTM*فرابورس*'].ffill(), '  فرابورس-ارزش بنگاه به سود قبل بهره و مالیات*فرابورس*': faraboors['  فرابورس-ارزش بنگاه به سود قبل بهره و مالیات*فرابورس*'].ffill(), '  فرابورس-ارزش بازار (دلار نیما*فرابورس*': faraboors['  فرابورس-ارزش بازار (دلار نیما*فرابورس*'].ffill(), '  فرابورس-ارزش معاملات سهام بلوکی*فرابورس*': faraboors['  فرابورس-ارزش معاملات سهام بلوکی*فرابورس*'].ffill(), '  فرابورس-قیمت به سود نقدی (Pto*فرابورس*': faraboors['  فرابورس-قیمت به سود نقدی (Pto*فرابورس*'].ffill(), 'شاخص فرابورس*فرابورس*': faraboors['شاخص فرابورس*فرابورس*'].ffill(), 'سود خالص-آخرین فصل-فرابورس*فرابورس*': faraboors['سود خالص-آخرین فصل-فرابورس*فرابورس*'].ffill(), 'خرید  حقوقی-ارزش-فرابورس*فرابورس*': faraboors['خرید  حقوقی-ارزش-فرابورس*فرابورس*'].ffill(), 'فروش  حقوقی-ارزش-فرابورس*فرابورس*': faraboors['فروش  حقوقی-ارزش-فرابورس*فرابورس*'].ffill(), 'خالص خرید  حقوقی-ارزش-فرابورس*فرابورس*': faraboors['خالص خرید  حقوقی-ارزش-فرابورس*فرابورس*'].ffill(), 'حجم معاملات - فرابورس*فرابورس*': faraboors['حجم معاملات - فرابورس*فرابورس*'].ffill(), '  فرابورس-ارزش معاملات      *فرابورس*': faraboors['  فرابورس-ارزش معاملات      *فرابورس*'].ffill(), '  فرابورس-قیمت به ارزش دفتری (P*فرابورس*': faraboors['  فرابورس-قیمت به ارزش دفتری (P*فرابورس*'].ffill(), 'حجم معاملات اوراق با درآمد ثابت عادی-فرابورس*فرابورس*': faraboors['حجم معاملات اوراق با درآمد ثابت عادی-فرابورس*فرابورس*'].ffill(), '  فرابورس-بازده حقوق صاحبان سها*فرابورس*': faraboors['  فرابورس-بازده حقوق صاحبان سها*فرابورس*'].ffill(), 'ارزش معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*': faraboors['ارزش معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*'].ffill(), '  فرابورس-درصد پرداخت سود      *فرابورس*': faraboors['  فرابورس-درصد پرداخت سود      *فرابورس*'].ffill(), 'خرید حقیقی-ارزش-فرابورس*فرابورس*': faraboors['خرید حقیقی-ارزش-فرابورس*فرابورس*'].ffill(), 'فروش حقیقی-ارزش-فرابورس*فرابورس*': faraboors['فروش حقیقی-ارزش-فرابورس*فرابورس*'].ffill(), 'خالص خرید حقیقی-ارزش-فرابورس*فرابورس*': faraboors['خالص خرید حقیقی-ارزش-فرابورس*فرابورس*'].ffill(), 'ارزش معاملات اوراق با درآمد ثابت عادی-فرابورس*فرابورس*': faraboors['ارزش معاملات اوراق با درآمد ثابت عادی-فرابورس*فرابورس*'].ffill(), 'خریدحقیقی-حجم-فرابورس*فرابورس*': faraboors['خریدحقیقی-حجم-فرابورس*فرابورس*'].ffill(), 'فروش حقیقی-حجم-فرابورس*فرابورس*': faraboors['فروش حقیقی-حجم-فرابورس*فرابورس*'].ffill(), 'خالص خرید حقیقی-حجم-فرابورس*فرابورس*': faraboors['خالص خرید حقیقی-حجم-فرابورس*فرابورس*'].ffill(), '  فرابورس-ارزش بازار (دلار آزاد)*فرابورس*': faraboors['  فرابورس-ارزش بازار (دلار آزاد)*فرابورس*'].ffill(), 'حجم معاملات سهام بلوکی-فرابورس*فرابورس*': faraboors['حجم معاملات سهام بلوکی-فرابورس*فرابورس*'].ffill(), 'خرید  حقوقی-حجم-فرابورس*فرابورس*': faraboors['خرید  حقوقی-حجم-فرابورس*فرابورس*'].ffill(), 'فروش  حقوقی-حجم-فرابورس*فرابورس*': faraboors['فروش  حقوقی-حجم-فرابورس*فرابورس*'].ffill(), 'خالص خرید  حقوقی-حجم-فرابورس*فرابورس*': faraboors['خالص خرید  حقوقی-حجم-فرابورس*فرابورس*'].ffill(), 'حجم معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*': faraboors['حجم معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*'].ffill(), '  فرابورس-قیمت به درآمد *فرابورس*': faraboors['  فرابورس-قیمت به درآمد *فرابورس*'].ffill()})
    # Drop columns: '  فرابورس-ارزش بنگاه به سود قبل بهره و مالیات*فرابورس*', '  فرابورس-قیمت به سود نقدی (Pto*فرابورس*'
    faraboors = faraboors.drop(columns=['  فرابورس-ارزش بنگاه به سود قبل بهره و مالیات*فرابورس*', '  فرابورس-قیمت به سود نقدی (Pto*فرابورس*'])
    # Replace missing values with 0 in columns: '  فرابورس-ارزش معاملات سهام بلوکی*فرابورس*', 'ارزش معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*' and 2 other columns
    faraboors = faraboors.fillna({'  فرابورس-ارزش معاملات سهام بلوکی*فرابورس*': 0, 'ارزش معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*': 0, 'حجم معاملات سهام بلوکی-فرابورس*فرابورس*': 0, 'حجم معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*': 0})
    # Change column type to datetime64[ns] for column: 'Date'
    faraboors = faraboors.astype({'Date': 'datetime64[ns]'})
    # Change column type to string for column: 'تاریخ شمسی'
    faraboors = faraboors.astype({'تاریخ شمسی': 'string'})
    # Change column type to int64 for columns: '  فرابورس-ارزش بازار      *فرابورس*', 'سود خالص-چهار فصل اخیر-فرابورس*فرابورس*' and 24 other columns
    faraboors = faraboors.astype({'  فرابورس-ارزش بازار      *فرابورس*': 'int64', 'سود خالص-چهار فصل اخیر-فرابورس*فرابورس*': 'int64', '  فرابورس-ارزش بازار (دلار نیما*فرابورس*': 'int64', '  فرابورس-ارزش معاملات سهام بلوکی*فرابورس*': 'int64', 'شاخص فرابورس*فرابورس*': 'int64', 'سود خالص-آخرین فصل-فرابورس*فرابورس*': 'int64', 'خرید  حقوقی-ارزش-فرابورس*فرابورس*': 'int64', 'فروش  حقوقی-ارزش-فرابورس*فرابورس*': 'int64', 'خالص خرید  حقوقی-ارزش-فرابورس*فرابورس*': 'int64', 'حجم معاملات - فرابورس*فرابورس*': 'int64', '  فرابورس-ارزش معاملات      *فرابورس*': 'int64', 'حجم معاملات اوراق با درآمد ثابت عادی-فرابورس*فرابورس*': 'int64', 'ارزش معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*': 'int64', 'خرید حقیقی-ارزش-فرابورس*فرابورس*': 'int64', 'فروش حقیقی-ارزش-فرابورس*فرابورس*': 'int64', 'خالص خرید حقیقی-ارزش-فرابورس*فرابورس*': 'int64', 'ارزش معاملات اوراق با درآمد ثابت عادی-فرابورس*فرابورس*': 'int64', 'خریدحقیقی-حجم-فرابورس*فرابورس*': 'int64', 'فروش حقیقی-حجم-فرابورس*فرابورس*': 'int64', 'خالص خرید حقیقی-حجم-فرابورس*فرابورس*': 'int64', 'حجم معاملات سهام بلوکی-فرابورس*فرابورس*': 'int64', 'خرید  حقوقی-حجم-فرابورس*فرابورس*': 'int64', 'فروش  حقوقی-حجم-فرابورس*فرابورس*': 'int64', '  فرابورس-ارزش بازار (دلار آزاد)*فرابورس*': 'int64', 'خالص خرید  حقوقی-حجم-فرابورس*فرابورس*': 'int64', 'حجم معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*': 'int64'})
    # Change column type to float64 for columns: '  فرابورس-بازده دارایی ها      *فرابورس*', '  فرابورس-قیمت به سود (PtoE-TTM*فرابورس*' and 4 other columns
    faraboors = faraboors.astype({'  فرابورس-بازده دارایی ها      *فرابورس*': 'float64', '  فرابورس-قیمت به سود (PtoE-TTM*فرابورس*': 'float64', '  فرابورس-قیمت به ارزش دفتری (P*فرابورس*': 'float64', '  فرابورس-بازده حقوق صاحبان سها*فرابورس*': 'float64', '  فرابورس-درصد پرداخت سود      *فرابورس*': 'float64', '  فرابورس-قیمت به درآمد *فرابورس*': 'float64'})
    return faraboors

faraboors_clean = clean_data(faraboors.copy())
faraboors_clean.head()

Unnamed: 0,Date,تاریخ شمسی,فرابورس-بازده دارایی ها *فرابورس*,فرابورس-ارزش بازار *فرابورس*,سود خالص-چهار فصل اخیر-فرابورس*فرابورس*,فرابورس-قیمت به سود (PtoE-TTM*فرابورس*,فرابورس-ارزش بازار (دلار نیما*فرابورس*,فرابورس-ارزش معاملات سهام بلوکی*فرابورس*,شاخص فرابورس*فرابورس*,سود خالص-آخرین فصل-فرابورس*فرابورس*,...,خریدحقیقی-حجم-فرابورس*فرابورس*,فروش حقیقی-حجم-فرابورس*فرابورس*,خالص خرید حقیقی-حجم-فرابورس*فرابورس*,فرابورس-ارزش بازار (دلار آزاد)*فرابورس*,حجم معاملات سهام بلوکی-فرابورس*فرابورس*,خرید حقوقی-حجم-فرابورس*فرابورس*,فروش حقوقی-حجم-فرابورس*فرابورس*,خالص خرید حقوقی-حجم-فرابورس*فرابورس*,حجم معاملات اوراق با درآمد ثابت بلوکی-فرابورس*فرابورس*,فرابورس-قیمت به درآمد *فرابورس*
0,2013-09-01,1392-06-10,0.226822,454057385210740,54210128000000,8.003202,14048805235,0,626,16676949000000,...,33056217,28699529,4356688,14014116827,0,8686343,13043031,-4356688,0,1.125374
1,2013-09-02,1392-06-12,0.226822,454057385210740,54210128000000,8.003202,14048805235,0,626,16676949000000,...,33056217,28699529,4356688,14014116827,0,8686343,13043031,-4356688,0,1.125374
2,2013-09-03,1392-06-12,0.226822,457339081208740,54210128000000,8.060406,13973085279,0,630,16676949000000,...,24204820,32217057,-8012237,13985904624,0,27443152,19430915,8012237,0,1.133201
3,2013-09-04,1392-06-13,0.226822,438687444417540,54210128000000,7.735672,13289531790,0,604,16676949000000,...,9020517,15972235,-6951718,13273447637,0,19166843,12215125,6951718,0,1.086837
4,2013-09-05,1392-06-16,0.226822,438687444417540,54210128000000,7.735672,13289531790,0,604,16676949000000,...,9020517,15972235,-6951718,13273447637,0,19166843,12215125,6951718,0,1.086837


In [5]:
faraboors_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3652 entries, 0 to 3651
Data columns (total 34 columns):
 #   Column                                                   Non-Null Count  Dtype         
---  ------                                                   --------------  -----         
 0   Date                                                     3652 non-null   datetime64[ns]
 1   تاریخ شمسی                                               3652 non-null   string        
 2     فرابورس-بازده دارایی ها      *فرابورس*                 3652 non-null   float64       
 3     فرابورس-ارزش بازار      *فرابورس*                      3652 non-null   int64         
 4   سود خالص-چهار فصل اخیر-فرابورس*فرابورس*                  3652 non-null   int64         
 5     فرابورس-قیمت به سود (PtoE-TTM*فرابورس*                 3652 non-null   float64       
 6     فرابورس-ارزش بازار (دلار نیما*فرابورس*                 3652 non-null   int64         
 7     فرابورس-ارزش معاملات سهام بلوکی*فرابورس*         

In [6]:
faraboors_clean.isna().sum()

Date                                                       0
تاریخ شمسی                                                 0
  فرابورس-بازده دارایی ها      *فرابورس*                   0
  فرابورس-ارزش بازار      *فرابورس*                        0
سود خالص-چهار فصل اخیر-فرابورس*فرابورس*                    0
  فرابورس-قیمت به سود (PtoE-TTM*فرابورس*                   0
  فرابورس-ارزش بازار (دلار نیما*فرابورس*                   0
  فرابورس-ارزش معاملات سهام بلوکی*فرابورس*                 0
شاخص فرابورس*فرابورس*                                      0
سود خالص-آخرین فصل-فرابورس*فرابورس*                        0
خرید  حقوقی-ارزش-فرابورس*فرابورس*                          0
فروش  حقوقی-ارزش-فرابورس*فرابورس*                          0
خالص خرید  حقوقی-ارزش-فرابورس*فرابورس*                     0
حجم معاملات - فرابورس*فرابورس*                             0
  فرابورس-ارزش معاملات      *فرابورس*                      0
  فرابورس-قیمت به ارزش دفتری (P*فرابورس*                   0
حجم معاملات اوراق با درآ

In [7]:
faraboors_clean.to_excel('./faraboors_clean.xlsx', index=False)