In [1]:
# Import thư viện và trích xuất dữ liệu từ cơ sở dữ liệu PostgreSQL local
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine("postgresql://postgres:postgres@localhost:5432/stockdb")

query = """
SELECT *
FROM once_time_stock
ORDER BY time DESC
"""
df = pd.read_sql(query, engine)

df.head()

Unnamed: 0,time,open,high,low,close,volume,symbol
0,2026-01-13,27.8,27.8,27.8,27.8,100,ARM
1,2026-01-13,18.2,18.3,17.8,17.9,1710000,AGR
2,2026-01-13,11.8,11.9,11.6,11.7,176800,ABW
3,2026-01-13,44.6,44.6,44.5,44.6,17900,AIG
4,2026-01-13,12.8,13.1,12.8,12.9,7100,BAB


#### 1. Chuyển cột time thành dạng datetime và sort bảng theo mã cổ phiếu và thời gian

In [2]:
df['time'] = pd.to_datetime(df['time'])
numeric_cols = ['open','high','low','close','volume']
df[numeric_cols] = df[numeric_cols].apply(pd.to_numeric, errors='coerce')

df = df.sort_values(['symbol', 'time']).reset_index(drop=True)
df.head()

Unnamed: 0,time,open,high,low,close,volume,symbol
0,2020-01-02,17.05,17.05,17.05,17.05,300,A32
1,2020-01-03,14.92,14.92,14.92,14.92,500,A32
2,2020-01-06,14.92,14.92,14.92,14.92,0,A32
3,2020-01-07,14.92,14.92,14.92,14.92,0,A32
4,2020-01-08,14.92,14.92,14.92,14.92,0,A32


#### 2. Kiểm tra duplicate cho từng mã

In [3]:
df[df.duplicated(subset=['symbol','time'], keep=False)]

Unnamed: 0,time,open,high,low,close,volume,symbol
1428,2025-11-04,32.9,32.9,32.9,32.9,300,A32
1429,2025-11-04,32.9,32.9,32.9,32.9,300,A32
1430,2025-11-17,32.9,32.9,32.9,32.9,200,A32
1431,2025-11-17,32.9,32.9,32.9,32.9,200,A32
1432,2025-11-19,33.0,33.0,33.0,33.0,600,A32
...,...,...,...,...,...,...,...
288820,2025-11-05,24.2,24.2,24.2,24.2,100,CFV
290641,2025-11-03,3.3,3.3,3.1,3.1,9300,CGV
290642,2025-11-03,3.3,3.3,3.1,3.1,9300,CGV
293239,2025-11-04,10.1,10.1,10.1,10.1,200,CHC


#### 3. Lấy dòng mới nhất của từng bản dup

In [4]:
df = df.sort_values(['symbol','time'])

df = df.groupby(['symbol','time'], as_index=False).last()

#### 4. Tạo full timeline cho từng mã

In [5]:
full = []

for sym in df['symbol'].unique():
    dft = df[df['symbol'] == sym].set_index('time')

    full_index = pd.date_range(start=dft.index.min(), end=dft.index.max(), freq='D')

    dft = dft.reindex(full_index)
    dft['symbol'] = sym

    full.append(dft)

df_full = pd.concat(full).reset_index().rename(columns={'index':'time'})
df_full.head()


Unnamed: 0,time,symbol,open,high,low,close,volume
0,2020-01-02,A32,17.05,17.05,17.05,17.05,300.0
1,2020-01-03,A32,14.92,14.92,14.92,14.92,500.0
2,2020-01-04,A32,,,,,
3,2020-01-05,A32,,,,,
4,2020-01-06,A32,14.92,14.92,14.92,14.92,0.0


In [6]:
df_full.sample(10)

Unnamed: 0,time,symbol,open,high,low,close,volume
1355043,2022-10-01,IDC,,,,,
1238633,2024-05-12,HPD,,,,,
895813,2022-12-19,EMS,17.1,17.1,17.1,17.1,0.0
2066401,2021-04-04,PNC,,,,,
2205774,2022-04-08,PVT,16.7,16.77,16.03,16.03,2629100.0
148020,2020-01-31,BAX,27.91,29.07,26.4,29.07,1700.0
1301859,2022-08-07,HTT,,,,,
2939410,2025-10-02,TVC,11.2,11.3,11.0,11.0,239900.0
3265487,2020-11-13,VPI,22.56,22.6,22.39,22.56,1042670.0
1350226,2021-08-03,ICN,12.2,12.2,12.2,12.2,100.0


#### 5. Xử lý missing value:

##### 5.1. Forward fill cho giá và 0 cho volume của các mã cổ phiếu bị thiếu
*Forward fill: Nếu ngày không giao dịch → giá của ngày đó = giá của ngày gần nhất trước đó*

In [7]:
df_full[['open','high','low','close']] = df_full[['open','high','low','close']].fillna(method='ffill')
df_full['volume'] = df_full['volume'].fillna(0)

  df_full[['open','high','low','close']] = df_full[['open','high','low','close']].fillna(method='ffill')


##### 5.2. Xóa dữ liệu trước IPO (Initial Public Offering - phát hành lần đầu ra công chúng)
*Dữ liệu sau khi được tạo full timeline sẽ có nhiều ngày bị thiếu giá trị, ví dụ:*\
*- Trước ngày IPO → không có dữ liệu thật* \
*- Ngày nghỉ lễ, cuối tuần → không giao dịch*\
*- Ngày hệ thống lỗi → thiếu giá*\
*- Ngày volume = NaN → không giao dịch*

In [8]:
cleaned = []

for sym in df_full['symbol'].unique():
    dft = df_full[df_full['symbol'] == sym]
    start = dft['close'].first_valid_index()
    dft = dft.loc[start:]
    cleaned.append(dft)

df_clean = pd.concat(cleaned).reset_index(drop=True)
df_clean.head()

Unnamed: 0,time,symbol,open,high,low,close,volume
0,2020-01-02,A32,17.05,17.05,17.05,17.05,300.0
1,2020-01-03,A32,14.92,14.92,14.92,14.92,500.0
2,2020-01-04,A32,14.92,14.92,14.92,14.92,0.0
3,2020-01-05,A32,14.92,14.92,14.92,14.92,0.0
4,2020-01-06,A32,14.92,14.92,14.92,14.92,0.0


#### 6. Xuất file dữ liệu sạch

In [9]:
df_clean.to_csv(r"C:\Users\NGUYEN MINH TUYET\Stock pj\clean_stock_data.csv", index=False, encoding='utf-8')