In [1]:
import pandas as pd
import numpy as np
import os
import warnings

In [2]:
warnings.filterwarnings('ignore')

In [9]:
# create an empty dataframe
date_range = pd.date_range(start='2013-09-01', end='2023-08-31', name='Date')
df = pd.DataFrame(date_range)

In [10]:
df2 = pd.read_excel('./raw_data/دلار ازاد.xlsx')

In [11]:
df2.head(1)

Unnamed: 0,تاریخ میلادی,تاریخ شمسی,دلار آزاد
0,2013-08-24,1392-06-02,31250.0


In [14]:
df2.rename(columns={'تاریخ میلادی' : 'Date'}, inplace=True)

In [15]:
df2.head(2)

Unnamed: 0,Date,تاریخ شمسی,دلار آزاد
0,2013-08-24,1392-06-02,31250.0
1,2013-08-25,1392-06-03,31200.0


In [17]:
df2['Date'] = pd.to_datetime(df2['Date'])

In [18]:
start_date = pd.to_datetime('2013-09-01')
end_date = pd.to_datetime('2023-08-31')
df2 = df2[(df2['Date'] >= start_date) & (df2['Date'] <= end_date)]

In [22]:
df

Unnamed: 0,Date
0,2013-09-01
1,2013-09-02
2,2013-09-03
3,2013-09-04
4,2013-09-05
...,...
3647,2023-08-27
3648,2023-08-28
3649,2023-08-29
3650,2023-08-30


In [23]:
df = pd.concat([df.set_index('Date'), df2.set_index('Date')], axis=1, join='outer')

In [24]:
df

Unnamed: 0_level_0,تاریخ شمسی,دلار آزاد
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-09-01,1392-06-10,32400.0
2013-09-02,,
2013-09-03,1392-06-12,32700.0
2013-09-04,1392-06-13,33050.0
2013-09-05,1392-06-14,33200.0
...,...,...
2023-08-27,1402-06-05,491500.0
2023-08-28,1402-06-06,490500.0
2023-08-29,1402-06-07,491200.0
2023-08-30,1402-06-08,491300.0


# hyper_eco_gathering features

In [29]:
import pandas as pd
import numpy as np
import os
import warnings

warnings.filterwarnings('ignore')

# Create an empty dataframe
date_range = pd.date_range(start='2013-09-01', end='2023-08-31', name='Date')
df = pd.DataFrame(date_range)

folder_path = './raw_data'
data_list = os.listdir(folder_path)

for data in data_list:
    df2 = pd.read_excel(f'{folder_path}/{data}')
    df2.rename(columns={'تاریخ میلادی': 'Date'}, inplace=True)
    df2['Date'] = pd.to_datetime(df2['Date'])
    start_date = pd.to_datetime('2013-09-01')
    end_date = pd.to_datetime('2023-08-31')
    df2 = df2[(df2['Date'] >= start_date) & (df2['Date'] <= end_date)]

    # Check if the 'تاریخ شمسی' column exists in the dataframe
    if 'تاریخ شمسی' not in df.columns :
        df = pd.merge(df, df2, on='Date', how='outer')
    else :
        df2 = df2.drop(columns=['تاریخ شمسی'])
        df = pd.merge(df, df2, on='Date', how='outer')


# Reset the index
df.reset_index(inplace=True)

#Labeling the features
for col in df.columns :
    df.rename(columns={col: col + '*کلان*'}, inplace=True)


# Write the merged dataframe to an Excel file
df.to_excel('./merged_hyper_eco.xlsx', index=False)


# fixing missing values & Data types

In [1]:
import pandas as pd
import numpy as np
boors = pd.read_excel('./merged_hyper_eco.xlsx')
boors.head()

Unnamed: 0,Date,تاریخ شمسی,میانگین نرخ بدون ریسک*کلان*,دلار نیمایی*کلان*,شاخص آزاد شناور*کلان*,شاخص قيمت (هم وزن)*کلان*,شاخص بازار اول*کلان*,دلار مبادله ای*کلان*,شاخص بازار دوم*کلان*,شاخص قيمت(وزني-ارزشي)*کلان*,دلار آزاد*کلان*,نرخ بدون ریسک*کلان*,شاخص كل (هم وزن)*کلان*
0,2013-09-01,1392-06-10,,32320.0,68650.0,,45544.0,32320.0,104650.0,,32400.0,,
1,2013-09-02,1392-06-12,,,,,,,,,,,
2,2013-09-03,1392-06-12,,32730.0,68462.0,,45339.0,32730.0,105183.0,,32700.0,,
3,2013-09-04,1392-06-13,,33010.0,67427.0,,44812.0,33010.0,103190.0,,33050.0,,
4,2013-09-05,1392-06-16,,33250.0,,,,33250.0,,,33200.0,,


In [3]:
def clean_data(boors):
    # Replace gaps forward from the previous valid value in: 'میانگین نرخ بدون ریسک*کلان*', 'دلار نیمایی*کلان*' and 9 other columns
    boors = boors.fillna({'میانگین نرخ بدون ریسک*کلان*': boors['میانگین نرخ بدون ریسک*کلان*'].ffill(), 'دلار نیمایی*کلان*': boors['دلار نیمایی*کلان*'].ffill(), 'شاخص آزاد شناور*کلان*': boors['شاخص آزاد شناور*کلان*'].ffill(), 'شاخص قيمت (هم وزن)*کلان*': boors['شاخص قيمت (هم وزن)*کلان*'].ffill(), 'شاخص بازار اول*کلان*': boors['شاخص بازار اول*کلان*'].ffill(), 'دلار مبادله ای*کلان*': boors['دلار مبادله ای*کلان*'].ffill(), 'شاخص بازار دوم*کلان*': boors['شاخص بازار دوم*کلان*'].ffill(), 'شاخص قيمت(وزني-ارزشي)*کلان*': boors['شاخص قيمت(وزني-ارزشي)*کلان*'].ffill(), 'دلار آزاد*کلان*': boors['دلار آزاد*کلان*'].ffill(), 'نرخ بدون ریسک*کلان*': boors['نرخ بدون ریسک*کلان*'].ffill(), 'شاخص كل (هم وزن)*کلان*': boors['شاخص كل (هم وزن)*کلان*'].ffill()})
    # Replace missing values with 0 in columns: 'میانگین نرخ بدون ریسک*کلان*', 'شاخص قيمت (هم وزن)*کلان*' and 3 other columns
    boors = boors.fillna({'میانگین نرخ بدون ریسک*کلان*': 0, 'شاخص قيمت (هم وزن)*کلان*': 0, 'شاخص قيمت(وزني-ارزشي)*کلان*': 0, 'نرخ بدون ریسک*کلان*': 0, 'شاخص كل (هم وزن)*کلان*': 0})
    # Change column type to datetime64[ns] for column: 'Date'
    boors = boors.astype({'Date': 'datetime64[ns]'})
    # Change column type to string for column: 'تاریخ شمسی'
    boors = boors.astype({'تاریخ شمسی': 'string'})
    # Change column type to int64 for columns: 'دلار نیمایی*کلان*', 'شاخص آزاد شناور*کلان*' and 7 other columns
    boors = boors.astype({'دلار نیمایی*کلان*': 'int64', 'شاخص آزاد شناور*کلان*': 'int64', 'شاخص قيمت (هم وزن)*کلان*': 'int64', 'شاخص بازار اول*کلان*': 'int64', 'دلار مبادله ای*کلان*': 'int64', 'شاخص بازار دوم*کلان*': 'int64', 'شاخص قيمت(وزني-ارزشي)*کلان*': 'int64', 'دلار آزاد*کلان*': 'int64', 'شاخص كل (هم وزن)*کلان*': 'int64'})
    # Change column type to float64 for columns: 'میانگین نرخ بدون ریسک*کلان*', 'نرخ بدون ریسک*کلان*'
    boors = boors.astype({'میانگین نرخ بدون ریسک*کلان*': 'float64', 'نرخ بدون ریسک*کلان*': 'float64'})
    return boors
hyper_eco_clean = clean_data(boors.copy())
hyper_eco_clean.head()

Unnamed: 0,Date,تاریخ شمسی,میانگین نرخ بدون ریسک*کلان*,دلار نیمایی*کلان*,شاخص آزاد شناور*کلان*,شاخص قيمت (هم وزن)*کلان*,شاخص بازار اول*کلان*,دلار مبادله ای*کلان*,شاخص بازار دوم*کلان*,شاخص قيمت(وزني-ارزشي)*کلان*,دلار آزاد*کلان*,نرخ بدون ریسک*کلان*,شاخص كل (هم وزن)*کلان*
0,2013-09-01,1392-06-10,0.0,32320,68650,0,45544,32320,104650,0,32400,0.0,0
1,2013-09-02,1392-06-12,0.0,32320,68650,0,45544,32320,104650,0,32400,0.0,0
2,2013-09-03,1392-06-12,0.0,32730,68462,0,45339,32730,105183,0,32700,0.0,0
3,2013-09-04,1392-06-13,0.0,33010,67427,0,44812,33010,103190,0,33050,0.0,0
4,2013-09-05,1392-06-16,0.0,33250,67427,0,44812,33250,103190,0,33200,0.0,0


In [4]:
hyper_eco_clean.to_excel('./hyper_eco_clean.xlsx')