In [None]:
# Import thư viện và trích xuất dữ liệu từ cơ sở dữ liệu PostgreSQL local
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine("postgresql://postgres:postgres@localhost:5432/stockdb")

query = """
SELECT *
FROM once_time_stock
ORDER BY time DESC
"""
df = pd.read_sql(query, engine)

df.head()

Unnamed: 0,time,open,high,low,close,volume,symbol
0,2025-11-18,26.5,26.9,26.3,26.65,2538000,DBC
1,2025-11-18,52.6,52.8,51.8,52.4,105300,KDC
2,2025-11-18,8.9,9.0,8.9,9.0,3000,BHI
3,2025-11-18,20.4,20.4,20.4,20.4,100,ADC
4,2025-11-18,5.08,5.13,4.91,4.94,6022200,LDG


#### 1. Chuyển cột time thành dạng datetime và sort bảng theo mã cổ phiếu và thời gian

In [3]:
df['time'] = pd.to_datetime(df['time'])
numeric_cols = ['open','high','low','close','volume']
df[numeric_cols] = df[numeric_cols].apply(pd.to_numeric, errors='coerce')

df = df.sort_values(['symbol', 'time']).reset_index(drop=True)
df.head()

Unnamed: 0,time,open,high,low,close,volume,symbol
0,2020-01-02,17.05,17.05,17.05,17.05,300,A32
1,2020-01-03,14.92,14.92,14.92,14.92,500,A32
2,2020-01-06,14.92,14.92,14.92,14.92,0,A32
3,2020-01-07,14.92,14.92,14.92,14.92,0,A32
4,2020-01-08,14.92,14.92,14.92,14.92,0,A32


#### 2. Kiểm tra duplicate cho từng mã

In [4]:
df[df.duplicated(subset=['symbol','time'], keep=False)]

Unnamed: 0,time,open,high,low,close,volume,symbol
1428,2025-11-04,32.90,32.90,32.90,32.90,300,A32
1429,2025-11-04,32.90,32.90,32.90,32.90,300,A32
1430,2025-11-17,32.90,32.90,32.90,32.90,200,A32
1431,2025-11-17,32.90,32.90,32.90,32.90,200,A32
2887,2025-10-31,8.23,8.31,8.15,8.15,1616900,AAA
...,...,...,...,...,...,...,...
282324,2025-11-05,24.20,24.20,24.20,24.20,100,CFV
284133,2025-11-03,3.30,3.30,3.10,3.10,9300,CGV
284134,2025-11-03,3.30,3.30,3.10,3.10,9300,CGV
286715,2025-11-04,10.10,10.10,10.10,10.10,200,CHC


#### 3. Lấy dòng mới nhất của từng bản dup

In [5]:
df = df.sort_values(['symbol','time'])

df = df.groupby(['symbol','time'], as_index=False).last()

#### 4. Tạo full timeline cho từng mã

In [6]:
full = []

for sym in df['symbol'].unique():
    dft = df[df['symbol'] == sym].set_index('time')

    full_index = pd.date_range(start=dft.index.min(), end=dft.index.max(), freq='D')

    dft = dft.reindex(full_index)
    dft['symbol'] = sym

    full.append(dft)

df_full = pd.concat(full).reset_index().rename(columns={'index':'time'})
df_full.head()


Unnamed: 0,time,symbol,open,high,low,close,volume
0,2020-01-02,A32,17.05,17.05,17.05,17.05,300.0
1,2020-01-03,A32,14.92,14.92,14.92,14.92,500.0
2,2020-01-04,A32,,,,,
3,2020-01-05,A32,,,,,
4,2020-01-06,A32,14.92,14.92,14.92,14.92,0.0


In [8]:
df_full.sample(10)

Unnamed: 0,time,symbol,open,high,low,close,volume
225889,2022-09-01,BLI,,,,,
453575,2021-07-10,CJC,,,,,
2417749,2025-04-17,SHI,13.81,13.95,13.81,13.95,517909.0
1356091,2020-03-17,IPA,7.92,7.92,7.92,7.92,0.0
3311154,2023-04-30,YBC,,,,,
2472408,2023-10-10,SMN,11.43,11.43,11.43,11.43,0.0
2993232,2024-06-29,VDP,,,,,
2395200,2025-06-16,SGN,64.0,64.5,64.0,64.2,14200.0
507143,2022-06-23,CNA,43.9,43.9,43.9,43.9,0.0
2852380,2022-09-12,TV1,11.65,11.74,11.65,11.74,8301.0


#### 5. Xử lý missing value:

##### 5.1. Forward fill cho giá và 0 cho volume của các mã cổ phiếu bị thiếu
*Forward fill: Nếu ngày không giao dịch → giá của ngày đó = giá của ngày gần nhất trước đó*

In [9]:
df_full[['open','high','low','close']] = df_full[['open','high','low','close']].fillna(method='ffill')
df_full['volume'] = df_full['volume'].fillna(0)

  df_full[['open','high','low','close']] = df_full[['open','high','low','close']].fillna(method='ffill')


##### 5.2. Xóa dữ liệu trước IPO (Initial Public Offering - phát hành lần đầu ra công chúng)
*Dữ liệu sau khi được tạo full timeline sẽ có nhiều ngày bị thiếu giá trị, ví dụ:*\
*- Trước ngày IPO → không có dữ liệu thật* \
*- Ngày nghỉ lễ, cuối tuần → không giao dịch*\
*- Ngày hệ thống lỗi → thiếu giá*\
*- Ngày volume = NaN → không giao dịch*

In [10]:
cleaned = []

for sym in df_full['symbol'].unique():
    dft = df_full[df_full['symbol'] == sym]
    start = dft['close'].first_valid_index()
    dft = dft.loc[start:]
    cleaned.append(dft)

df_clean = pd.concat(cleaned).reset_index(drop=True)
df_clean.head()

Unnamed: 0,time,symbol,open,high,low,close,volume
0,2020-01-02,A32,17.05,17.05,17.05,17.05,300.0
1,2020-01-03,A32,14.92,14.92,14.92,14.92,500.0
2,2020-01-04,A32,14.92,14.92,14.92,14.92,0.0
3,2020-01-05,A32,14.92,14.92,14.92,14.92,0.0
4,2020-01-06,A32,14.92,14.92,14.92,14.92,0.0


#### 6. Xuất file dữ liệu sạch

In [None]:
df_clean.to_csv(r"C:\Users\NGUYEN MINH TUYET\Stock pj\clean_stock_data.csv", index=False, encoding='utf-8')