<span dir="rtl" style="font-family:B Nazanin" align="right">
    <h1>فصل سوم: تجزیه و تحلیل داده‌ها</h1>
    <h2>تمرین عملی</h2>
</span>

<p style="font-family:B Nazanin;">
    دو فایل تحت نام‌های userdata.csv و userdata.json با فرمت‌های csv و json داریم که اطلاعات یک سری افراد در آن ذخیره شده‌اند و می‌خواهیم فرایند ETL را روی این داده‌ها اجرا کنیم. 
</p>

In [1]:
!pip install scikit-learn



### extractions.py

In [2]:
import pandas as pd

In [3]:
def extract_from_csv(file_path):
    return pd.read_csv(file_path)

def extract_from_json(file_path):
    return pd.read_json(file_path)

def extract_from_excel(file_path):
    return pd.read_excel(file_path)

def extract_from_xml(file_path):
    return pd.read_xml(file_path)

### transforms.py

In [26]:
# Transforms.py
# حذف رکوردهای کاملا خالی
def drop_record_all_nans(df):
    return df.dropna(how = "all", axis = 0)

# پر کردن فیلدهای خالی
def fillna(data):
    data.fillna(value = {
        'age': data.age.mean(),
        'height': data.height.mean(),
        'gender': data.gender.mode()[0],
        'weight': data.weight.mean(),
        'eye_color': data.eye_color.mode()[0],
        'salary': data.salary.mean()
    }, inplace = True)
    return data

# حذف نویز
def fill_noisy_data(data):
    data.loc[data.eye_color.astype('str').str.isnumeric(), 'eye_color'] = data.eye_color.mode()[0]
    return data

# تغییر فرمت داده‌ای
def change_data_types(data):
    data.height = round(data.height)
    data = data.astype({'age': 'int'})
    return data

# One-Hot Encoder
def one_hot_encoder(data, columns):
    return pd.get_dummies(data, columns=columns)

# Label Encoding
from sklearn.preprocessing import LabelEncoder
def label_encoding(data, columns):
    le = LabelEncoder()
    for col in columns:
        data[col] = le.fit_transform(data[col])
    return data

# گسسته‌سازی
from sklearn.preprocessing import KBinsDiscretizer
def k_bins_discretizer(data, columns):
    dis = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
    for col in columns:
        data[col] = dis.fit_transform(data[col])
    return data

# حذف ستون‌های مورد نظر
def drop_columns(data, columns):
    for col in columns:
        data.drop(col, axis = 1, inplace = True)
    return data

import plotly.express as px
def check_outlier_column_by_plotly(data, columns):
    fig = px.box(data, y = columns)
    fig.show()
    
# حذف داده‌های پرت
def remove_weight_outliers(data, min_w, max_w):
    df = pd.DataFrame(data)
    data = df[(df['weight'] >= min_w) & (df['weight'] <= max_w)]
    return data

# نرمال‌سازی
from sklearn.preprocessing import MinMaxScaler
def min_max_scaler(data, columns):
    scaler = MinMaxScaler()
    data = scaler.fit_transform(data)
    data = pd.DataFrame(data)
    data.columns = columns
    return data

# استانداردسازی
from sklearn.preprocessing import StandardScaler
def standard_scaler(data, columns):
    scaler = StandardScaler()
    data = scaler.fit_transform(data)
    data = pd.DataFrame(data)
    data.columns = columns
    return data

### loads.py

In [28]:
def load(data, file_path):
    data.to_csv(file_path, index = False)

### main.py

In [29]:
# from extractions import *
# from transforms import *
# from loads import *

def display_data(data):
    print(data)
    print(80*"*")

data = extract_from_csv("./data/userdata.csv")
# display_data(data)

# حذف رکوردهای کاملا خالی
data = drop_record_all_nans(data)
# display_data(data)

# پر کردن فیلدهای خالی
data = fillna(data)
# display_data(data)

# حذف نویز
data = fill_noisy_data(data)
# display_data(data)

# تغییر فرمت داده‌ای
data = change_data_types(data)
# display_data(data)

# One-Hot Encoder
data = one_hot_encoder(data, ['gender'])
# display_data(data)

# Label Encoding
data = label_encoding(data, ['eye_color'])
# display_data(data)

# گسسته‌سازی
data = k_bins_discretizer(data, [['age']])
# display_data(data)

# حذف ستون‌های مورد نظر
data = drop_columns(data, ['name'])
# display_data(data)

# check_outlier_column_by_plotly(data, ['height', 'weight', 'age'])

# حذف داده‌های پرت
data = remove_weight_outliers(data, 40, 120)
# display_data(data)

# نرمال‌سازی
data = min_max_scaler(data, ['age', 'height', 'weight', 'eye_color', 'salary', 'gender_female', 'gender_male'])
# display_data(data)

# استانداردسازی
data = standard_scaler(data, ['age', 'height', 'weight', 'eye_color', 'salary', 'gender_female', 'gender_male'])
# display_data(data)

load(data, './data/targetFile.csv')



