# Kỹ thuật xử lý thuộc tính

### 1. Import Libraries

In [None]:
import math
import os

import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

### 2. Load processed Data

In [None]:
# Đường dẫn dữ liệu
data_path = "../data/processed/processed_data.csv"
figure_dir = "../reports/figures"

# Đọc dữ liệu đã được tiền xử lý
print("Loading processed data...")
data_processed = pd.read_csv(data_path) 

### 3. Feature engineering on Time

#### Chuyển đổi thời gian từ giây sang giờ

In [None]:
# Converting time from second to hour
data_processed['Time'] = data_processed['Time'].apply(lambda sec : (sec/3600))

#### Tính giờ trong ngày

In [None]:
# Calculating hour of the day
data_processed['Hour'] = data_processed['Time'] % 24   # 2 days of data
data_processed['Hour'] = data_processed['Hour'].apply(lambda x : math.floor(x))

#### Tính các ngày

In [None]:
# Calculating First and Second day
data_processed['Day'] = data_processed['Time'] / 24   # 2 days of data
data_processed['Day'] = data_processed['Day'].apply(lambda x : 1 if(x==0) else math.ceil(x))

In [None]:
data_processed[['Time','Hour','Day','Amount','Class']]

#### Phân bổ class theo giờ

In [None]:
plt.figure(figsize=(8,6))
data_processed[['Time','Hour','Day','Amount','Class']].groupby('Hour').count()['Class'].plot()
plt.savefig(os.path.join(figure_dir, "10_hour_count.png"))
plt.show()

#### Class và day

In [None]:
dayFrdTran = data_processed[(data_processed['Class'] == 1)]['Day'].value_counts()
print("Số lượng giao dịch gian lận theo ngày:")
print(dayFrdTran)

dayGenuTran = data_processed[(data_processed['Class'] == 0)]['Day'].value_counts()
print("Số lượng giao dịch không gian lận theo ngày:")
print(dayGenuTran)

dayTran = data_processed['Day'].value_counts()
print("Số lượng nhãn theo ngày:")
print(dayTran)


#### So sánh giữa tần suất giao dịch với thời gian gian lận và không gian lận

In [None]:
# Time plots 
fig , axs = plt.subplots(nrows = 1 , ncols = 2 , figsize = (15,8))

sns.distplot(data_processed[data_processed['Class']==0]['Time'].values , color = 'green' , ax = axs[0])
axs[0].set_title('Genuine Transactions')

sns.distplot(data_processed[data_processed['Class']==1]['Time'].values , color = 'red' ,ax = axs[1])
axs[1].set_title('Fraud Transactions')

fig.suptitle('So sánh giữa tần suất giao dịch với thời gian gian lận')
plt.savefig(os.path.join(figure_dir, "11_genuine_fraud_tran.png"))
plt.show()

### 4. Lưu dữ liệu

In [None]:
# Lưu dữ liệu đã thêm các tính năng
data_processed.to_csv('../data/generated/feature_data.csv', index=False)
print("Dữ liệu đã được lưu.")