In [1]:
import pandas as pd

In [2]:
df=pd.read_csv('data.csv')
print(df.shape)
df.sample(5)

(7445, 9)


Unnamed: 0,Date,Price,Open,High,Low,Vol.,Change %,Ticker Symbol,Bank Name
4590,11/15/2023,31550.0,32000.0,32200.0,31500.0,3.67M,0.16%,TCB,Techcombank
3522,03/14/2022,31900.0,32300.0,32400.0,31800.0,4.98M,-1.09%,CTG,Vietinbank
2638,10/10/2019,31379.1,31570.4,31914.8,31379.1,1.33M,-0.61%,BID,BIDV
4263,03/27/2019,16775.8,16775.8,16999.5,16626.7,4.35M,0.67%,CTG,Vietinbank
6785,01/15/2021,12401.3,12302.9,12401.3,12007.6,2.90M,6.78%,AGR,Agribank


### Các loại cổ phiếu và ngân hàng:
- `VCB`: Vietcombank
- `BID`: BIDV
- `CTG`: Vietinbank
- `TCB`: Techcombank
- `AGR`: Agribank

### Ý nghĩa của các thuộc tính:
- `Date`: Ngày giao dịch, ngày mà giá cổ phiếu được ghi nhận.
- `Price`: Giá đóng cửa của cổ phiếu vào ngày giao dịch, tức là giá cuối cùng của cổ phiếu khi kết thúc phiên giao dịch.
- `Open`: Giá mở cửa của cổ phiếu vào ngày giao dịch, tức là giá đầu tiên của cổ phiếu khi bắt đầu phiên giao dịch.
- `High`: Giá cao nhất của cổ phiếu trong suốt phiên giao dịch của ngày đó.
- `Low`: Giá thấp nhất của cổ phiếu trong suốt phiên giao dịch của ngày đó.
- `Vol`.: Khối lượng giao dịch, tổng số lượng cổ phiếu được giao dịch trong ngày.
- `Change %`: Phần trăm thay đổi giá cổ phiếu so với ngày giao dịch trước đó, cho biết mức tăng hoặc giảm của giá cổ phiếu.
- `Ticker Symbol`: Mã cổ phiếu, một mã duy nhất đại diện cho cổ phiếu của công ty trên sàn giao dịch chứng khoán. Ví dụ: VCB cho Vietcombank.
- `Bank Name`: Tên của ngân hàng phát hành cổ phiếu. Ví dụ: Vietcombank, BIDV, Vietinbank, Techcombank, Agribank.

In [3]:
# Chuyển đổi cột 'Date' sang kiểu dữ liệu datetime
df['Date'] = pd.to_datetime(df['Date'])
# Chuyển đổi các cột số sang kiểu dữ liệu số
numeric_columns = ['Price', 'Open', 'High', 'Low', 'Change %']
for col in numeric_columns:
    df[col] = df[col].astype(str).str.replace(',', '').str.replace('%', '')
    df[col] = pd.to_numeric(df[col], errors='coerce')

def convert_volume(vol):
    if vol.endswith('M'):
        return float(vol[:-1]) * 1_000_000
    elif vol.endswith('K'):
        return float(vol[:-1]) * 1_000
    else:
        return float(vol)

df['Vol.'] = df['Vol.'].apply(convert_volume)

# Kiểm tra loại dữ liệu của các cột
print(df.dtypes)

df.sample(5)

Date             datetime64[ns]
Price                   float64
Open                    float64
High                    float64
Low                     float64
Vol.                    float64
Change %                float64
Ticker Symbol            object
Bank Name                object
dtype: object


Unnamed: 0,Date,Price,Open,High,Low,Vol.,Change %,Ticker Symbol,Bank Name
6453,2022-05-23,12007.6,12696.6,12745.8,11712.4,665700.0,-3.94,AGR,Agribank
7193,2019-06-07,3553.1,3533.4,3553.1,3533.4,24640.0,0.56,AGR,Agribank
4998,2022-03-31,49550.0,49500.0,49700.0,49300.0,5250000.0,0.81,TCB,Techcombank
7109,2019-10-04,4310.9,4330.6,4429.0,4310.9,100780.0,-0.23,AGR,Agribank
2009,2022-04-18,37950.0,39550.0,39700.0,37800.0,2820000.0,-3.44,BID,BIDV


In [4]:
# Thông tin dữ liệu
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7445 entries, 0 to 7444
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Date           7445 non-null   datetime64[ns]
 1   Price          7445 non-null   float64       
 2   Open           7445 non-null   float64       
 3   High           7445 non-null   float64       
 4   Low            7445 non-null   float64       
 5   Vol.           7445 non-null   float64       
 6   Change %       7445 non-null   float64       
 7   Ticker Symbol  7445 non-null   object        
 8   Bank Name      7445 non-null   object        
dtypes: datetime64[ns](1), float64(6), object(2)
memory usage: 523.6+ KB
None


In [5]:
# Tóm tắt dữ liệu
print(df.describe())

                                Date          Price           Open  \
count                           7445    7445.000000    7445.000000   
mean   2021-05-23 19:47:35.339153664   34663.272290   34664.218657   
min              2018-06-05 00:00:00    2165.300000    2214.500000   
25%              2019-11-26 00:00:00   18650.000000   18639.800000   
50%              2021-05-26 00:00:00   29768.200000   29807.100000   
75%              2022-11-16 00:00:00   44700.000000   44770.000000   
max              2024-05-20 00:00:00  106500.000000  105500.000000   
std                              NaN   22852.805427   22847.114665   

                High            Low          Vol.     Change %  
count    7445.000000    7445.000000  7.445000e+03  7445.000000  
mean    35140.317421   34197.191054  3.827975e+06     0.081694  
min      2303.100000    2145.600000  8.500000e+03   -15.650000  
25%     19012.600000   18229.700000  1.010000e+06    -1.000000  
50%     30162.100000   29400.000000  1.99000

In [6]:
df.to_csv('data_cleaned.csv', index=False)