# Data Processing

In this notebook, we will prepare the dataset for modeling.  

In [7]:
import pandas as pd
import numpy as np

# I. Data daily

In [8]:
# Load the dataset
df_daily = pd.read_excel(r"../data/raw/hanoi_daily.xlsx")

In [9]:
# Xác định loại dữ liệu
numerical_features = df_daily.select_dtypes(include=['float64', 'int64']).columns.tolist()
categorical_features = df_daily.select_dtypes(include=['object']).columns.tolist()

print("Numeric features:", numerical_features)
print("Categorical features:", categorical_features)

Numeric features: ['tempmax', 'tempmin', 'temp', 'feelslikemax', 'feelslikemin', 'feelslike', 'dew', 'humidity', 'precip', 'precipprob', 'precipcover', 'snow', 'snowdepth', 'windgust', 'windspeed', 'winddir', 'sealevelpressure', 'cloudcover', 'visibility', 'solarradiation', 'solarenergy', 'uvindex', 'severerisk', 'moonphase']
Categorical features: ['name', 'datetime', 'preciptype', 'sunrise', 'sunset', 'conditions', 'description', 'icon', 'stations']


In [10]:
# Chia train test

In [11]:
# Kiểm tra missing values và duplicates
print("Số lượng giá trị thiếu:\n", df_daily.isnull().sum())
print("\nTỷ lệ thiếu (%):\n", (df_daily.isnull().mean() * 100).round(2))

dupes_daily = df_daily.duplicated().sum()
print(f"\nSố dòng trùng lặp: {dupes_daily}")

Số lượng giá trị thiếu:
 name                   0
datetime               0
tempmax                0
tempmin                0
temp                   0
feelslikemax           0
feelslikemin           0
feelslike              0
dew                    0
humidity               0
precip                 0
precipprob             0
precipcover            0
preciptype          1042
snow                   0
snowdepth              0
windgust               0
windspeed              0
winddir                0
sealevelpressure       0
cloudcover             0
visibility             0
solarradiation         0
solarenergy            0
uvindex                0
severerisk          2566
sunrise                0
sunset                 0
moonphase              0
conditions             0
description            0
icon                   0
stations               0
dtype: int64

Tỷ lệ thiếu (%):
 name                 0.00
datetime             0.00
tempmax              0.00
tempmin              0.00
temp          

In [12]:
# Xử lý missing values cho từng tập

In [13]:
# Phát hiện outliers bằng phương pháp IQR
numeric_cols_d = df_daily.select_dtypes(include=[np.number]).columns

Q1_d = df_daily[numeric_cols_d].quantile(0.25)
Q3_d = df_daily[numeric_cols_d].quantile(0.75)
IQR_d = Q3_d - Q1_d

outliers_d = ((df_daily[numeric_cols_d] < (Q1_d - 1.5 * IQR_d)) | 
              (df_daily[numeric_cols_d] > (Q3_d + 1.5 * IQR_d))).sum()

print("Số lượng outliers (theo từng cột):\n", outliers_d)

Số lượng outliers (theo từng cột):
 tempmax               3
tempmin               1
temp                  2
feelslikemax          0
feelslikemin         20
feelslike             0
dew                  41
humidity             91
precip              639
precipprob            0
precipcover         169
snow                  0
snowdepth             0
windgust            117
windspeed            59
winddir             664
sealevelpressure      1
cloudcover            0
visibility          119
solarradiation        0
solarenergy           0
uvindex               0
severerisk            0
moonphase             0
dtype: int64


In [14]:
# Xử lý outliers  cho từng tập

In [15]:
# Ma trận tương quan
corr = df_daily.corr(numeric_only=True)
print(corr)

                   tempmax   tempmin      temp  feelslikemax  feelslikemin  \
tempmax           1.000000  0.909259  0.977722      0.964647      0.889029   
tempmin           0.909259  1.000000  0.969581      0.910259      0.963060   
temp              0.977722  0.969581  1.000000      0.957785      0.942461   
feelslikemax      0.964647  0.910259  0.957785      1.000000      0.899939   
feelslikemin      0.889029  0.963060  0.942461      0.899939      1.000000   
feelslike         0.954692  0.942145  0.974478      0.979062      0.951898   
dew               0.843814  0.932995  0.902911      0.866739      0.872035   
humidity          0.011194  0.226346  0.100473      0.097697      0.140572   
precip            0.056500  0.130930  0.090129      0.099973      0.079126   
precipprob        0.069758  0.251155  0.150019      0.141172      0.186441   
precipcover       0.061395  0.170696  0.106710      0.094612      0.124118   
snow                   NaN       NaN       NaN           NaN    

In [16]:
# Chuẩn hóa (fit cho train rồi transform cho train test)

In [17]:
# Xử lý text (fit cho train rồi transform cho train test)

In [18]:
# Lưu dữ liệu tập train test để training

# II. Data hourly

In [19]:
# Load the dataset
df_hourly = pd.read_excel(r"../data/raw/hanoi_hourly.xlsx")

In [20]:
# Xác định loại dữ liệu
numerical_features = df_hourly.select_dtypes(include=['float64', 'int64']).columns.tolist()
categorical_features = df_hourly.select_dtypes(include=['object']).columns.tolist()

print("Numeric features:", numerical_features)
print("Categorical features:", categorical_features)

Numeric features: ['temp', 'feelslike', 'dew', 'humidity', 'precip', 'precipprob', 'snow', 'snowdepth', 'windgust', 'windspeed', 'winddir', 'sealevelpressure', 'cloudcover', 'visibility', 'solarradiation', 'solarenergy', 'uvindex', 'severerisk']
Categorical features: ['name', 'datetime', 'preciptype', 'conditions', 'icon', 'stations']


In [21]:
# Chia train test

In [22]:
# Kiểm tra missing values và duplicates
print("Số lượng giá trị thiếu:\n", df_hourly.isnull().sum())
print("\nTỷ lệ thiếu (%):\n", (df_hourly.isnull().mean() * 100).round(2))

dupes_hourly = df_daily.duplicated().sum()
print(f"\nSố dòng trùng lặp: {dupes_hourly}")

Số lượng giá trị thiếu:
 name                    0
datetime                0
temp                    0
feelslike               0
dew                     0
humidity                0
precip                 39
precipprob              0
preciptype          82193
snow                   42
snowdepth              42
windgust               49
windspeed               1
winddir                 2
sealevelpressure        0
cloudcover              0
visibility            178
solarradiation         36
solarenergy            36
uvindex                36
severerisk          61603
conditions              0
icon                    0
stations                0
dtype: int64

Tỷ lệ thiếu (%):
 name                 0.00
datetime             0.00
temp                 0.00
feelslike            0.00
dew                  0.00
humidity             0.00
precip               0.04
precipprob           0.00
preciptype          87.21
snow                 0.04
snowdepth            0.04
windgust             0.05
windspe

In [23]:
# Xử lý missing values cho từng tập

In [24]:
# Phát hiện outliers bằng phương pháp IQR
numeric_cols_d = df_hourly.select_dtypes(include=[np.number]).columns

Q1_d = df_hourly[numeric_cols_d].quantile(0.25)
Q3_d = df_hourly[numeric_cols_d].quantile(0.75)
IQR_d = Q3_d - Q1_d

outliers_d = ((df_hourly[numeric_cols_d] < (Q1_d - 1.5 * IQR_d)) | 
              (df_hourly[numeric_cols_d] > (Q3_d + 1.5 * IQR_d))).sum()

print("Số lượng outliers (theo từng cột):\n", outliers_d)

Số lượng outliers (theo từng cột):
 temp                 102
feelslike              0
dew                 1312
humidity             414
precip              7771
precipprob          7771
snow                   0
snowdepth              0
windgust            1193
windspeed           1514
winddir                0
sealevelpressure      41
cloudcover             0
visibility          4689
solarradiation      7175
solarenergy         7072
uvindex             9387
severerisk          7963
dtype: int64


In [25]:
# Xử lý outliers  cho từng tập

In [26]:
# Ma trận tương quan
corr = df_hourly.corr(numeric_only=True)
print(corr)

                      temp  feelslike       dew  humidity    precip  \
temp              1.000000   0.963668  0.793498 -0.195288  0.008059   
feelslike         0.963668   1.000000  0.780998 -0.171755 -0.002804   
dew               0.793498   0.780998  1.000000  0.435492  0.043367   
humidity         -0.195288  -0.171755  0.435492  1.000000  0.061424   
precip            0.008059  -0.002804  0.043367  0.061424  1.000000   
precipprob        0.043853   0.035472  0.086414  0.072175  0.274176   
snow                   NaN        NaN       NaN       NaN       NaN   
snowdepth              NaN        NaN       NaN       NaN       NaN   
windgust          0.205252   0.176198  0.053895 -0.218298  0.033686   
windspeed         0.088959   0.088346  0.008403 -0.129585 -0.016352   
winddir           0.074593   0.055246  0.016532 -0.078726  0.022063   
sealevelpressure -0.816868  -0.813780 -0.837978 -0.151234 -0.050082   
cloudcover       -0.119108  -0.120157 -0.000681  0.169233  0.056437   
visibi

In [27]:
# Chuẩn hóa (fit cho train rồi transform cho train test)

In [28]:
# Xử lý text (fit cho train rồi transform cho train test)

In [29]:
# Lưu dữ liệu tập train test để training