# 2. Data cleaning

In [1]:
import numpy as np
import pandas as pd

## 2.1: cleaning file data " historical_quotes.json "

In [2]:
df_his=pd.read_json('dataset/historical_quotes.json',keep_default_dates=False)
df_his['date']=pd.to_datetime(df_his['date'],format='%d/%m/%Y')
df_his.head(30)

Unnamed: 0,date,fluctuation,open price,high price,low price,close price,AVG price,adjusted close price,volume
0,2022-11-29,+1.00/+9.52%,11.5,11.5,10.3,11.5,11.23,11.5,1589500
1,2022-11-28,+0.90/+9.38%,8.7,10.5,8.7,10.5,10.42,10.5,103700
2,2022-11-25,+0.80/+9.09%,9.4,9.6,9.4,9.6,9.6,9.6,289900
3,2022-11-24,+0.80/+10.00%,8.0,8.8,7.4,8.8,8.17,8.8,751400
4,2022-11-23,-0.40/-4.76%,8.4,8.8,8.0,8.0,8.3,8.0,642500
5,2022-11-22,+0.70/+9.09%,8.2,8.4,8.0,8.4,8.35,8.4,1137500
6,2022-11-21,+0.70/+10.00%,7.6,7.7,7.3,7.7,7.65,7.7,410900
7,2022-11-18,+0.60/+9.38%,6.7,7.0,6.0,7.0,6.61,7.0,1394200
8,2022-11-17,+0.50/+8.47%,6.2,6.4,6.2,6.4,6.36,6.4,880900
9,2022-11-16,+0.50/+9.26%,4.9,5.9,4.9,5.9,5.19,5.9,956200


### 2.1.1: Shape dữ liệu
+ dữ liệu có 3263 hàng
+ dữ liệu có 9 cột

In [4]:
df_his.shape

(3263, 9)

### 2.1.2: Ý nghĩa các hàng
+ dữ liệu có 3263 hàng và 9 cột 
+ mỗi hàng là thông tin của mã cổ phiếu trong một ngày từ lúc mở cửa đến lúc đóng cửa
+ dữ liệu không có bị lặp vì mỗi ngày là một số liệu khác nhau

In [7]:
len(df_his[df_his.duplicated()])

0

### 2.1.3: Ý nghĩa các cột là kiểu dữ liệu
+ Date (datatime64): ngày giao dịch 
+ fluctuation (object): giá trị chêch lệch và tỉ lệ chêch lệch của giá đóng cửa hôm nay so với hôm qua
+ open price (float64): giá mở cửa của ngày hôm đó
+ high price (float64): giá trần của ngày hôm đó
+ low price (float64): giá sàn của ngày hôm đó
+ close price (float64): giá đóng cửa
+ AVG price (float64): giá cổ phiếu trung bình của ngày đó
+ adjusted close price(float64): giá đóng cửa điều chỉnh
+ volume(int64): khối lượng giao dịch

### 2.1.4: Đổi kiểu dữ liệu


In [23]:
df_his.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3263 entries, 0 to 3262
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   date                  3263 non-null   datetime64[ns]
 1   fluctuation           3263 non-null   object        
 2   open price            3263 non-null   float64       
 3   high price            3263 non-null   float64       
 4   low price             3263 non-null   float64       
 5   close price           3263 non-null   float64       
 6   AVG price             3263 non-null   float64       
 7   adjusted close price  3263 non-null   float64       
 8   volume                3263 non-null   int64         
dtypes: datetime64[ns](1), float64(6), int64(1), object(1)
memory usage: 229.6+ KB


Ở cột fluctuation có kiểu dữ liệu object ta có thể tách giá trị và tỉ lệ thành hai cột khác nhau có kiểu float64 và xóa luôn cột fluctuation

In [24]:
split_fluctuation=df_his['fluctuation'].str.split('/',n=1,expand=True) # list
val_fluctuation=split_fluctuation[0]
rate_fluctuation=split_fluctuation[1]
val_fluctuation=val_fluctuation.astype('float64')
rate_fluctuation=rate_fluctuation.replace(to_replace='%',value='',regex=True).astype('float64')
df_his['value fluctuation']=val_fluctuation
df_his['rate fluctuation']=rate_fluctuation
df_his.drop('fluctuation',axis=1,inplace=True)
df_his.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3263 entries, 0 to 3262
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   date                  3263 non-null   datetime64[ns]
 1   open price            3263 non-null   float64       
 2   high price            3263 non-null   float64       
 3   low price             3263 non-null   float64       
 4   close price           3263 non-null   float64       
 5   AVG price             3263 non-null   float64       
 6   adjusted close price  3263 non-null   float64       
 7   volume                3263 non-null   int64         
 8   value fluctuation     3263 non-null   float64       
 9   rate fluctuation      3263 non-null   float64       
dtypes: datetime64[ns](1), float64(8), int64(1)
memory usage: 255.0 KB


### 2.1.5: Handle missing
+ dữ liệu không bị thiếu không có giá trị null

In [108]:
df_his.isnull().any()

date                    False
open price              False
high price              False
low price               False
close price             False
AVG price               False
adjusted close price    False
volume                  False
value fluctuation       False
rate fluctuation        False
dtype: bool

## 2.2: Cleaning file data " insider_actions.json "

In [5]:
df_insider=pd.read_json('dataset/insider_actions.json',keep_default_dates=False)
df_insider['date']=pd.to_datetime(df_insider['date'],format='%d/%m/%Y')
df_insider.head(20)

Unnamed: 0,date,shareholder,shareholder position,trading type,shares
0,2022-09-05,Nguyễn Thu Phương,,Bán,359500
1,2022-08-31,Nguyễn Thu Phương,,Bán,615800
2,2022-06-29,Nguyễn Thị Bổn,,Bán,966100
3,2022-06-20,Nguyễn Thị Bổn,,Đăng ký bán,966100
4,2022-05-30,Hồ Xuân Vinh,Thành viên HĐQT,Mua,100000
5,2022-05-25,Nguyễn Thị Thanh,Chủ tịch HĐQT,Mua,100000
6,2022-05-05,Hồ Xuân Vinh,Thành viên HĐQT,Đăng ký mua,100000
7,2022-04-27,Nguyễn Thị Thanh,Chủ tịch HĐQT,Đăng ký mua,100000
8,2021-11-19,CTCP Đầu tư Châu Á - Thái Bình Dương,,Bán,1000000
9,2021-11-02,CTCP Đầu tư Châu Á - Thái Bình Dương,,Đăng ký bán,1000000


### 2.2.1: Shape dữ liệu
+ 148 hàng
+ 5 cột

In [6]:
df_insider.shape

(148, 5)

### 2.2.2: Ý nghĩa các hàng
+ Mỗi hàng là một lần giao dịch của các cổ đông 

### 2.2.3: Ý nghĩa các cột
+ data: Ngày thực hiện giao dịch
+ shareholder: Tên cổ đông
+ shareholder position: chức vị trong công ty (None là người ngoài công ty)
+ trading type: Loại giao dịch
+ shares: số lượng cổ phiếu

### 2.2.4: Đổi kiểu dữ liệu
+ Không có cột nào cần chuyển đổi

In [25]:
df_insider.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 148 entries, 0 to 147
Data columns (total 5 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   date                  148 non-null    datetime64[ns]
 1   shareholder           148 non-null    object        
 2   shareholder position  148 non-null    object        
 3   trading type          148 non-null    object        
 4   shares                148 non-null    int64         
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 5.9+ KB


### 2.2.5: Handle missing
+ Cột shareholder position có giá trị None đây là cổ đông không thuộc hội đồng quản trị nên thay None thành giá trị là chuỗi "Khác"

In [9]:
df_insider.isna().any()

date                    False
shareholder             False
shareholder position     True
trading type            False
shares                  False
dtype: bool

In [15]:
df_insider['shareholder position']=df_insider['shareholder position'].fillna(value=np.nan)
df_insider['shareholder position'].replace(np.nan,'Khác',inplace=True)
df_insider.isna().any()

date                    False
shareholder             False
shareholder position    False
trading type            False
shares                  False
dtype: bool

## 2.3: Cleaning file data " trading_statistics.json "

In [18]:
df_trading=pd.read_json('dataset/trading_statistics.json',keep_default_dates=False)
df_trading['date']=pd.to_datetime(df_trading['date'],format='%d/%m/%Y')
df_trading

Unnamed: 0,date,close_price,trading_buy_count,trading_buy_volume,trading_sell_count,trading_sell_volume,buy_sell_difference,auction_volume,auction_value (1000VND)
0,2022-11-29,11.5,846,1887274,566,1591113,296161,1589500,17847256
1,2022-11-28,10.5,200,642101,93,104014,538087,103700,1080750
2,2022-11-25,9.6,280,1031136,175,290597,740539,289900,2781999
3,2022-11-24,8.8,434,1520313,361,751935,768378,751400,6141733
4,2022-11-23,8.0,314,891007,360,803363,87644,642500,5334003
...,...,...,...,...,...,...,...,...,...
3258,2009-11-02,9.5,6,10900,22,79020,-68120,10300,97560
3259,2009-10-30,9.7,23,29410,50,93880,-64470,29410,300879
3260,2009-10-29,10.5,14,30700,15,46360,-15660,6100,65250
3261,2009-10-27,9.4,35,78110,27,48000,30110,26700,242250


### 2.3.1: Shape dữ liệu
+ 3263 hàng
+ 9 cột

In [20]:
df_trading.shape
df_trading.columns

Index(['date', 'close_price', 'trading_buy_count', 'trading_buy_volume',
       'trading_sell_count', 'trading_sell_volume', 'buy_sell_difference',
       'auction_volume', 'auction_value (1000VND)'],
      dtype='object')

### 2.3.2: Ý nghĩa các hàng
+ Mỗi hàng là thông tin giao dịch trong một ngày của mã cỗ phiếu

### 2.3.3: Ý nghĩa các cột
+ data: Ngày giao dịch
+ close_price: Gía đóng cửa
+ trading_buy_count: số lượng lệch đặt mua
+ trading_buy_volume: tổng khối lượng cổ phiếu mua 
+ trading_sell_count: số lượng lệnh đặt bán
+ trading_sell_volume: tổng khối lượng cổ phiếu bán
+ buy_sell_difference: Chêch lệch giữa mua và bán (Bán - mua)
+ auction_volume: Khối lượng khớp lệnh
+ auction_value (1000VND): Tổng giá trị khớp lệnh

### 2.3.4: Đổi kiểu dữ liệu

In [26]:
df_trading.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3263 entries, 0 to 3262
Data columns (total 9 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   date                     3263 non-null   datetime64[ns]
 1   close_price              3263 non-null   float64       
 2   trading_buy_count        3263 non-null   int64         
 3   trading_buy_volume       3263 non-null   int64         
 4   trading_sell_count       3263 non-null   int64         
 5   trading_sell_volume      3263 non-null   int64         
 6   buy_sell_difference      3263 non-null   int64         
 7   auction_volume           3263 non-null   int64         
 8   auction_value (1000VND)  3263 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(7)
memory usage: 229.6 KB


Không có cột nào có dữ liệu không phù hợp

### 2.3.5: Handle missing

Không có giá trị bị thiếu