## Data Visualization Course | VNU-HCM University of Science.
### LAP02 - Working with time-series data
#### **STEP 02 - DATA Preprocessing**

In [1]:
import sys
import os

sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))

In [2]:
from Libraries import *
from Shared_Functions import *

In [3]:
dataset_source_path = getGranDir() / 'Dataset'
pre_process_dataset_path = dataset_source_path / 'google.csv'
df = pd.read_csv(pre_process_dataset_path)
df.head(10)

Unnamed: 0,Date,High,Low,Open,Close,Volume,Adj Close
0,2004-08-19,51.835709,47.800831,49.81329,49.982655,44871361.0,49.982655
1,2004-08-20,54.336334,50.062355,50.316402,53.95277,22942874.0,53.95277
2,2004-08-23,56.528118,54.321388,55.168217,54.495735,18342897.0,54.495735
3,2004-08-24,55.591629,51.591621,55.4123,52.239197,15319808.0,52.239197
4,2004-08-25,53.798351,51.746044,52.284027,52.802086,9232276.0,52.802086
5,2004-08-26,53.773445,52.134586,52.279045,53.753517,7128620.0,53.753517
6,2004-08-27,54.107193,52.647663,53.848164,52.876804,6241307.0,52.876804
7,2004-08-30,52.548038,50.814533,52.443428,50.814533,5221498.0,50.814533
8,2004-08-31,51.661362,50.889256,50.958992,50.993862,4941252.0,50.993862
9,2004-09-01,51.292744,49.648903,51.158245,49.93782,9181687.0,49.93782


**Bước 1: Kiểm tra kiểu dữ liệu của các cột.**

In [4]:
df.dtypes

Date          object
High         float64
Low          float64
Open         float64
Close        float64
Volume       float64
Adj Close    float64
dtype: object

**Xử lý:** Date đang là kiểu object nên ta sẽ chuyển về kiểu Datatime.

In [5]:
df['Date'] = pd.to_datetime(df['Date'])

In [6]:
#TEST
df.dtypes

Date         datetime64[ns]
High                float64
Low                 float64
Open                float64
Close               float64
Volume              float64
Adj Close           float64
dtype: object

**Kết luận:**
Như vậy các cột đều đã đúng với kiểu dữ liệu nên có.

**Bước 2: Kiểm tra các cột xem % missing value là bao nhiêu?**

In [7]:
def calcMissingRatio(df):
    missing_ratio = {}
    for key, values in df.items():
        missing_count = values.isna().sum()
        total_count = len(values)
        missing_ratio[key] = ( missing_count / total_count )* 100 if total_count != 0 else None
    return missing_ratio

In [8]:
#TEST
missing_ratio = calcMissingRatio(df)
for key, values in missing_ratio.items():
    print(f'Column: {key} - Missing Ratio: {values}')

Column: Date - Missing Ratio: 0.0
Column: High - Missing Ratio: 0.0
Column: Low - Missing Ratio: 0.0
Column: Open - Missing Ratio: 0.0
Column: Close - Missing Ratio: 0.0
Column: Volume - Missing Ratio: 0.0
Column: Adj Close - Missing Ratio: 0.0


**Kết luận:**
Tất cả các dòng đều không có giá trị khuyết.

**Bước 3: Kiểm tra và xóa bỏ dòng bị trùng lập**

In [9]:
def countDuplicateRow(df):
    return df.duplicated().sum()

In [10]:
#TEST
print(f'Duplicated rows: {countDuplicateRow(df)}')

Duplicated rows: 0


**Nhận xét:**
Như vậy không có dòng nào bị trùng lập trong tập dữ liệu.

In [11]:
def removeDuplicateRow(df):
    return df.drop_duplicates(keep='first')

In [12]:
#TEST
df = removeDuplicateRow(df)
print(f'Duplicated rows after drop duplication: {countDuplicateRow(df)}')

Duplicated rows after drop duplication: 0


**Bước 4: Kiểm tra các điều kiện tồn tại của dữ liệu trong tập dữ liệu kiểu số.**

**Một số điều kiện cần kiểm tra:**\
    1. Mọi số phải >= 0.\
    2. ['High'] phải lớn hơn ['Low]

In [13]:
def checkNumericCol(df):
    # Select numeric columns
    numeric_df = df.select_dtypes(include=['float', 'int'])
    
    # Check the first condition: Count values less than zero in every column
    lessthan_zero = {}
    rows_to_drop = set()  # To store indices of rows to drop

    for key in numeric_df.keys():
        less_zero_indices = numeric_df[numeric_df[key] < 0].index
        lessthan_zero[key] = len(less_zero_indices)
        rows_to_drop.update(less_zero_indices)

    # Check the second condition: 'High' < 'Low'
    if 'High' in numeric_df.columns and 'Low' in numeric_df.columns:
        high_lt_low_indices = numeric_df[numeric_df['High'] < numeric_df['Low']].index
        high_lt_low_count = len(high_lt_low_indices)
        rows_to_drop.update(high_lt_low_indices)
    else:
        high_lt_low_count = 0

    return lessthan_zero, high_lt_low_count, rows_to_drop

In [14]:
#TEST
lessthan_zero, high_lt_low_count, rows_to_drop = checkNumericCol(df)
print('Number of elements <0 in columns:')
print(lessthan_zero)
print('number of rows with high less than low:')
print(high_lt_low_count)
print('Rows need to drop:')
print(rows_to_drop) if rows_to_drop != set() else print("None")

Number of elements <0 in columns:
{'High': 0, 'Low': 0, 'Open': 0, 'Close': 0, 'Volume': 0, 'Adj Close': 0}
number of rows with high less than low:
0
Rows need to drop:
None


**Nhận xét:**
Như vậy các cột số đều thõa mãn điều kiện.

**Bước 5: Kiểm tra các điều kiện tồn tại của dữ liệu trong tập dữ liệu kiểu khác số.**

*Vì ở đây chỉ có dữ liệu kiểu ngày ở cột 'Date' cho nên là ta sẽ kiếm tra cột Date này.*

In [15]:
def getInvaliedDate(df):
    # Convert column to datetime, invalid dates will become NaT
    df['Valid_Date'] = pd.to_datetime(df['Date'], errors='coerce')
    
    # Identify rows where the date conversion failed (NaT)
    invalid_dates = df[df['Valid_Date'].isna()]
    
    # Drop the temporary 'Valid_Date' column
    df.drop(columns=['Valid_Date'], inplace=True)
    
    return invalid_dates

In [16]:
invalid_dates = getInvaliedDate(df)
invalid_dates

Unnamed: 0,Date,High,Low,Open,Close,Volume,Adj Close,Valid_Date


**Nhận xét:**
Như vậy không có hàng nào có ngày không hợp lệ.

#### Kết luận cuối cùng:
Như vậy tập dữ liệu đã được xử lý xong. Tiếp theo ta sẽ ghi lại tập dữ liệu mới này vào một file mới.

In [17]:
processed_dataset_path = dataset_source_path / 'google_processed.csv'
df.to_csv(processed_dataset_path, index=False)