In [2]:
import requests
import json
from datetime import datetime,timedelta
import pandas as pd
import numpy as np
import datetime as dt

# B. Khám phá dữ liệu

## 1. Đọc dữ liệu, tính số dòng và số cột

Đọc dữ liệu từ file `data.csv` và in ra 5 dòng đầu tiên

In [3]:
df = pd.read_csv('data.csv')
df.head()

Unnamed: 0,Ngày,Giá điều chỉnh,Giá đóng cửa,Thay đổi,Khối lượng khớp lệnh,Giá trị khớp lệnh,KL thoả thuận,GT thoả thuận,Giá mở cửa,Giá cao nhất,Giá thấp nhất
0,14/12/2023,96.2,96.2,1(1.05 %),1712300,163967000000,4234467,430928431600,95.8,96.4,95.2
1,13/12/2023,95.2,95.2,-1.6(-1.65 %),2148100,206460000000,2545369,263445691500,97.4,97.4,95.2
2,12/12/2023,96.8,96.8,1.8(1.89 %),4084900,393398000000,1193088,120796900800,95.4,96.8,95.3
3,11/12/2023,95.0,95.0,0.8(0.85 %),1564500,148856000000,257300,25910110000,95.5,95.7,94.6
4,08/12/2023,94.2,94.2,-0.1(-0.11 %),1745800,164616000000,218370,21885443000,94.3,95.1,93.5


Tính số dòng, số cột và lưu vào 2 biến `num_rows` và `num_cols`

In [4]:
num_rows, num_cols = df.shape
print(f'Number of rows: {num_rows}\nNumber of columns: {num_cols}')

Number of rows: 1736
Number of columns: 11


## 2. Dữ liệu có các dòng bị lặp không?

Ta kiểm tra xem có dòng nào bị lặp không bằng cách sử dụng các phương thức `duplicated()` và `any()` và lưu kết quả vào biến `have_duplicated_rows`. Biến này sẽ có giá trị True nếu dữ liệu có các dòng bị lặp và có giá trị False nếu không có dòng bị lặp

In [5]:
have_duplicate_rows = df.duplicated().any()
have_duplicate_rows

False

Như vậy, dữ liệu không có dòng nào bị lặp lặp 

## 3. Tỉ lệ giá trị thiếu của từng cột

Ta tính tỉ lệ giá trị thiếu của từng cột. Đầu tiên ta dùng `isnull()` để biết được các giá trị thiếu, sau đó dùng `sum()` để tính tổng số giá trị thiếu theo từng cột. Cuối cùng ta chia cho tổng số dòng để tính tỉ lệ giá trị thiếu của mỗi cột và lưu kết quả vào biến `missing_ratio`

In [6]:
missing_ratio = df.isnull().sum()
missing_ratio = missing_ratio / num_rows
missing_ratio

Ngày                    0.0
Giá điều chỉnh          0.0
Giá đóng cửa            0.0
Thay đổi                0.0
Khối lượng khớp lệnh    0.0
Giá trị khớp lệnh       0.0
KL thoả thuận           0.0
GT thoả thuận           0.0
Giá mở cửa              0.0
Giá cao nhất            0.0
Giá thấp nhất           0.0
dtype: float64

Có thể thấy, tất cả những cột đều có tỉ lệ giá trị thiếu 0%

## 4. Mỗi cột có ý nghĩa gì?

- Ngày (Date): Đây là ngày giao dịch tương ứng với các thông tin khác trong hàng tương ứng.

- Giá điều chỉnh (Adjustment Price): Đây có thể là giá đóng cửa đã được điều chỉnh để tính đến các yếu tố như cổ tức, phát hành mới, chia cổ tức, vv.

- Giá đóng cửa (Closing Price): Là giá cuối cùng mà chứng khoán được giao dịch trong ngày.

- Thay đổi (Change): Là sự chênh lệch giữa giá đóng cửa ngày hiện tại và ngày trước đó.

- Khối lượng khớp lệnh (Volume): Là tổng số cổ phiếu hoặc hợp đồng tài chính đã được mua và bán trong ngày.

- Giá trị khớp lệnh (Value): Là tổng giá trị của các giao dịch trong ngày.

- KL thoả thuận (Negotiated Volume): Là khối lượng cổ phiếu hoặc hợp đồng tài chính đã được thoả thuận giữa các bên mua và bán ngoài thị trường chính.

- GT thoả thuận (Negotiated Value): Là giá trị của các thoả thuận ngoại trên thị trường chính.

- Giá mở cửa (Open Price): Là giá mà chứng khoán mở ra trong ngày giao dịch.

- Giá cao nhất (High Price): Là giá cao nhất mà chứng khoán đã đạt được trong ngày.

- Giá thấp nhất (Low Price): Là giá thấp nhất mà chứng khoán đã đạt được trong ngày.

### Thống kê mô tả của từng cột

Tính các giá trị thống kê mô tả của các cột numeric bằng phương thức `describe()`

In [7]:
df.describe()

Unnamed: 0,Giá điều chỉnh,Giá đóng cửa,Khối lượng khớp lệnh,Giá trị khớp lệnh,KL thoả thuận,GT thoả thuận,Giá mở cửa,Giá cao nhất,Giá thấp nhất
count,1736.0,1736.0,1736.0,1736.0,1736.0,1736.0,1736.0,1736.0,1736.0
mean,41.444176,65.554407,1616091.0,113364400000.0,397793.7,31401880000.0,65.527016,66.266647,64.847523
std,24.522106,19.88355,1085479.0,97869290000.0,884381.5,70931460000.0,19.876956,20.159137,19.596897
min,13.06,38.8,141480.0,6016000000.0,0.0,0.0,38.8,39.65,38.5
25%,19.98,47.5875,838860.0,46718750000.0,0.0,0.0,47.5,48.0,47.2
50%,28.43,57.6,1328310.0,84636000000.0,70450.0,4463660000.0,57.65,58.15,57.1
75%,65.88,83.825,2100985.0,149139800000.0,424745.0,32241180000.0,84.0,84.6,83.1
max,99.0,116.6,8399400.0,846918000000.0,9349360.0,1016416000000.0,116.5,118.9,115.2


## 5. Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp hay không?

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1736 entries, 0 to 1735
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Ngày                  1736 non-null   object 
 1   Giá điều chỉnh        1736 non-null   float64
 2   Giá đóng cửa          1736 non-null   float64
 3   Thay đổi              1736 non-null   object 
 4   Khối lượng khớp lệnh  1736 non-null   int64  
 5   Giá trị khớp lệnh     1736 non-null   int64  
 6   KL thoả thuận         1736 non-null   int64  
 7   GT thoả thuận         1736 non-null   int64  
 8   Giá mở cửa            1736 non-null   float64
 9   Giá cao nhất          1736 non-null   float64
 10  Giá thấp nhất         1736 non-null   float64
dtypes: float64(5), int64(4), object(2)
memory usage: 149.3+ KB


In [9]:
pd.set_option('display.max_columns', None)
df.head()

Unnamed: 0,Ngày,Giá điều chỉnh,Giá đóng cửa,Thay đổi,Khối lượng khớp lệnh,Giá trị khớp lệnh,KL thoả thuận,GT thoả thuận,Giá mở cửa,Giá cao nhất,Giá thấp nhất
0,14/12/2023,96.2,96.2,1(1.05 %),1712300,163967000000,4234467,430928431600,95.8,96.4,95.2
1,13/12/2023,95.2,95.2,-1.6(-1.65 %),2148100,206460000000,2545369,263445691500,97.4,97.4,95.2
2,12/12/2023,96.8,96.8,1.8(1.89 %),4084900,393398000000,1193088,120796900800,95.4,96.8,95.3
3,11/12/2023,95.0,95.0,0.8(0.85 %),1564500,148856000000,257300,25910110000,95.5,95.7,94.6
4,08/12/2023,94.2,94.2,-0.1(-0.11 %),1745800,164616000000,218370,21885443000,94.3,95.1,93.5


Nhận xét : Ta thấy các dữ liệu phù hợp để xử lí tiếp

## 6. Với mỗi cột có kiểu dữ liệu số, các giá trị phân bố như thế nào?

Với các cột có kiểu dữ liệu số, ta sẽ tính:
- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu 
- Giá trị min
- Giá trị lower quartile (phân vị 25)
- Giá trị median (phân vị 50)
- Giá trị upper quartile (phân vị 75)
- Giá trị max

Ta sẽ lưu kết quả vào DataFrame `num_col_info_df`, trong đó: 
- Tên của các cột là tên của các cột số trong `df`
- Tên của các dòng là: "missing_ratio", "min", "lower_quartile", "median", "upper_quartile", "max"  

In [10]:
data = {
    "row_name" : ["missing_ratio", "min", "lower_quartile", "median", "upper_quartile", "max"]
}
col_name = []
for i in df.columns:
    if (df[i].dtypes == 'float64') or (df[i].dtypes == 'int64'):
        col_name.append(i)

for i in col_name:
    _data = []
    missing_data = df[i].isna().sum()
    _data.append((missing_data / len(df[i]) * 100).round(1))
    _data.append(df[i].min())
    percentile = df[i].quantile([0.25,0.5,0.75])
    _data.append(percentile[0.25])
    _data.append(percentile[0.5])
    _data.append(percentile[0.75])
    _data.append(df[i].max())
    data[i] = _data
num_col_info_df = pd.DataFrame(data).set_index('row_name')

In [11]:
num_col_info_df

Unnamed: 0_level_0,Giá điều chỉnh,Giá đóng cửa,Khối lượng khớp lệnh,Giá trị khớp lệnh,KL thoả thuận,GT thoả thuận,Giá mở cửa,Giá cao nhất,Giá thấp nhất
row_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
min,13.06,38.8,141480.0,6016000000.0,0.0,0.0,38.8,39.65,38.5
lower_quartile,19.98,47.5875,838860.0,46718750000.0,0.0,0.0,47.5,48.0,47.2
median,28.43,57.6,1328310.0,84636000000.0,70450.0,4463660000.0,57.65,58.15,57.1
upper_quartile,65.88,83.825,2100985.0,149139800000.0,424745.0,32241180000.0,84.0,84.6,83.1
max,99.0,116.6,8399400.0,846918000000.0,9349360.0,1016416000000.0,116.5,118.9,115.2


## 7. Với mỗi cột có kiểu dữ liệu không phải dạng số, các giá trị được phân bố như thế nào?

Thực hiện thống kê và lưu vào một dataframe với các dòng là đại diện cho các giá trị như sau:
- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu (missing_ratio).
- Số lượng các giá trị khác nhau (không xét giá trị thiếu) (num_values).
- Tỉ lệ % (từ 0 đến 100) của mỗi giá trị được sort theo tỉ lệ % giảm dần (không xét giá trị thiếu, tỉ lệ là tỉ lệ so với số lượng các giá trị không thiếu): dùng dictionary để lưu, key là giá trị, value là tỉ lệ % (value_ratios).

In [15]:
categorical_df=df.select_dtypes(exclude=['int64','float64','datetime64'])
data = {
    "row_name" : ["missing_ratio", "num_values", "value_ratios"]
}
col_names = list(categorical_df.columns)
for i in col_names:
    _data = []

    #Tính missing ratio
    missing_ratio = (categorical_df[i].isna().sum())/len(df[i]) * 100
    _data.append(missing_ratio)

    #Tính số lượng giá trị khác nhau
    num_values = categorical_df[i].dropna().nunique()
    _data.append(num_values)

    #Tính tỉ lệ của các giá trị
    dict_value_ratios ={}
    values = categorical_df[i].value_counts(normalize=True,sort=True)
    name_values = list(values.index)
    for k in range(len(name_values)):
        dict_value_ratios[name_values[k]] = round(values[k]*100,1)
    _data.append(dict_value_ratios)
    
    data[i] = _data

cat_col_info_df = pd.DataFrame(data).set_index('row_name')


In [16]:
cat_col_info_df

Unnamed: 0_level_0,Ngày,Thay đổi
row_name,Unnamed: 1_level_1,Unnamed: 2_level_1
missing_ratio,0.0,0.0
num_values,1736,1044
value_ratios,"{'14/12/2023': 0.1, '13/05/2019': 0.1, '23/04/...","{'0(0.00 %)': 6.8, '0.1(0.21 %)': 0.7, '-0.05(..."


In [17]:
df.head()

Unnamed: 0,Ngày,Giá điều chỉnh,Giá đóng cửa,Thay đổi,Khối lượng khớp lệnh,Giá trị khớp lệnh,KL thoả thuận,GT thoả thuận,Giá mở cửa,Giá cao nhất,Giá thấp nhất
0,14/12/2023,96.2,96.2,1(1.05 %),1712300,163967000000,4234467,430928431600,95.8,96.4,95.2
1,13/12/2023,95.2,95.2,-1.6(-1.65 %),2148100,206460000000,2545369,263445691500,97.4,97.4,95.2
2,12/12/2023,96.8,96.8,1.8(1.89 %),4084900,393398000000,1193088,120796900800,95.4,96.8,95.3
3,11/12/2023,95.0,95.0,0.8(0.85 %),1564500,148856000000,257300,25910110000,95.5,95.7,94.6
4,08/12/2023,94.2,94.2,-0.1(-0.11 %),1745800,164616000000,218370,21885443000,94.3,95.1,93.5
