#  FEATURE ENGINEERING - XỬ LÝ VÀ TẠO ĐẶC TRƯNG

**Mục tiêu:**
1. Chuyển đổi kiểu dữ liệu phù hợp
2. Tạo các đặc trưng mới từ cột thời gian
3. Loại bỏ các biến dư thừa (redundant)
4. Chuẩn bị dữ liệu sẵn sàng cho mô hình ML

**Input:** [hcm_weather_overview.csv](cci:7://file:///d:/nam3_ki_I/Nh%E1%BA%ADp%20m%C3%B4n%20Khoa%20h%E1%BB%8Dc%20d%E1%BB%AF%20li%E1%BB%87u/short-term-weather-trends-vietnam/data/hcm_weather_overview.csv:0:0-0:0)  
**Output:** [hcm_weather_processed.csv](cci:7://file:///d:/nam3_ki_I/Nh%E1%BA%ADp%20m%C3%B4n%20Khoa%20h%E1%BB%8Dc%20d%E1%BB%AF%20li%E1%BB%87u/short-term-weather-trends-vietnam/data/hcm_weather_processed.csv:0:0-0:0)

In [1]:
# Import thư viện
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)

print(" Libraries imported successfully!")

 Libraries imported successfully!


## 1. Load Data - Đọc dữ liệu

In [2]:
# Đọc dữ liệu
df = pd.read_csv('../data/hcm_weather_overview.csv')

print(f" Kích thước dữ liệu: {df.shape[0]:,} dòng x {df.shape[1]} cột")
print(f"\n Các cột hiện có:")
print(df.columns.tolist())
df.head()

 Kích thước dữ liệu: 87,720 dòng x 22 cột

 Các cột hiện có:
['time', 'temperature_2m', 'dew_point_2m', 'apparent_temperature', 'relative_humidity_2m', 'precipitation', 'rain', 'wind_speed_10m', 'wind_gusts_10m', 'wind_direction_10m', 'surface_pressure', 'pressure_msl', 'cloud_cover', 'cloud_cover_low', 'cloud_cover_mid', 'cloud_cover_high', 'shortwave_radiation', 'weather_code', 'vapour_pressure_deficit', 'zone', 'lat', 'lon']


Unnamed: 0,time,temperature_2m,dew_point_2m,apparent_temperature,relative_humidity_2m,precipitation,rain,wind_speed_10m,wind_gusts_10m,wind_direction_10m,surface_pressure,pressure_msl,cloud_cover,cloud_cover_low,cloud_cover_mid,cloud_cover_high,shortwave_radiation,weather_code,vapour_pressure_deficit,zone,lat,lon
0,2024-01-01T00:00,25.6,23.5,30.6,88,0.0,0.0,5.7,10.4,145,1010.1,1011.5,99,0,0,99,0.0,3,0.41,HCM_Center,10.7769,106.7009
1,2024-01-01T01:00,25.4,23.5,30.7,90,0.0,0.0,3.6,8.3,143,1009.8,1011.2,96,0,0,96,0.0,3,0.33,HCM_Center,10.7769,106.7009
2,2024-01-01T02:00,25.3,23.2,30.8,88,0.0,0.0,0.5,5.0,135,1009.3,1010.7,96,0,0,96,0.0,3,0.38,HCM_Center,10.7769,106.7009
3,2024-01-01T03:00,25.0,23.4,30.0,91,0.0,0.0,4.7,5.4,9,1009.1,1010.5,98,8,2,98,0.0,3,0.29,HCM_Center,10.7769,106.7009
4,2024-01-01T04:00,24.6,23.2,29.1,92,0.0,0.0,8.0,11.5,352,1009.0,1010.4,100,13,1,100,0.0,3,0.25,HCM_Center,10.7769,106.7009


## 2. Data Type Conversion - Chuyển đổi kiểu dữ liệu

- [time](cci:1://file:///d:/nam3_ki_I/Nh%E1%BA%ADp%20m%C3%B4n%20Khoa%20h%E1%BB%8Dc%20d%E1%BB%AF%20li%E1%BB%87u/short-term-weather-trends-vietnam/src/preprocessing_utils.py:52:0-63:13) → `datetime64` (để trích xuất các thành phần thời gian)
- [weather_code](cci:1://file:///d:/nam3_ki_I/Nh%E1%BA%ADp%20m%C3%B4n%20Khoa%20h%E1%BB%8Dc%20d%E1%BB%AF%20li%E1%BB%87u/short-term-weather-trends-vietnam/src/preprocessing_utils.py:65:0-83:13) → `category` (biến phân loại)
- `zone` → `category` (biến phân loại)

In [3]:
# 2.1 Chuyển đổi cột time sang datetime
df['time'] = pd.to_datetime(df['time'])

# 2.2 Chuyển đổi các cột phân loại
df['weather_code'] = df['weather_code'].astype('category')
df['zone'] = df['zone'].astype('category')

# Kiểm tra kết quả
print(" Đã chuyển đổi kiểu dữ liệu!\n")
print(df.dtypes)

 Đã chuyển đổi kiểu dữ liệu!

time                       datetime64[ns]
temperature_2m                    float64
dew_point_2m                      float64
apparent_temperature              float64
relative_humidity_2m                int64
precipitation                     float64
rain                              float64
wind_speed_10m                    float64
wind_gusts_10m                    float64
wind_direction_10m                  int64
surface_pressure                  float64
pressure_msl                      float64
cloud_cover                         int64
cloud_cover_low                     int64
cloud_cover_mid                     int64
cloud_cover_high                    int64
shortwave_radiation               float64
weather_code                     category
vapour_pressure_deficit           float64
zone                             category
lat                               float64
lon                               float64
dtype: object


## 3. Time-based Features - Tạo đặc trưng từ thời gian

Trích xuất các thành phần hữu ích từ cột [time](cci:1://file:///d:/nam3_ki_I/Nh%E1%BA%ADp%20m%C3%B4n%20Khoa%20h%E1%BB%8Dc%20d%E1%BB%AF%20li%E1%BB%87u/short-term-weather-trends-vietnam/src/preprocessing_utils.py:52:0-63:13):
- `hour`: Giờ trong ngày (0-23)
- `day_of_week`: Thứ trong tuần (0=Monday, 6=Sunday)
- `month`: Tháng (1-12)
- `day_of_year`: Ngày thứ mấy trong năm (1-365)
- `season`: Mùa (Dry/Wet - Khô/Mưa)
- `is_weekend`: Có phải cuối tuần không
- `time_of_day`: Buổi trong ngày (Morning/Afternoon/Evening/Night)

In [4]:
# 3.1 Trích xuất các thành phần thời gian cơ bản
df['hour'] = df['time'].dt.hour
df['month'] = df['time'].dt.month
df['year'] = df['time'].dt.year  # ← Đã có
df['day_of_year'] = df['time'].dt.dayofyear

# 3.2 Day of week - DẠNG TÊN
df['day_of_week'] = df['time'].dt.day_name()

# 3.3 Tạo feature: Mùa (Season)
def get_season(month):
    if month in [5, 6, 7, 8, 9, 10, 11]:
        return 'Wet'  # Mùa mưa
    else:
        return 'Dry'  # Mùa khô

df['season'] = df['month'].apply(get_season)

# 3.4 Tạo feature: Buổi trong ngày
def get_time_of_day(hour):
    if 5 <= hour < 12:
        return 'Morning'
    elif 12 <= hour < 17:
        return 'Afternoon'
    elif 17 <= hour < 21:
        return 'Evening'
    else:
        return 'Night'

df['time_of_day'] = df['hour'].apply(get_time_of_day)

# Kiểm tra kết quả - THÊM year vào display
print(" Đã tạo các feature thời gian!\n")
df[['time', 'year', 'month','day_of_year', 'day_of_week', 'hour', 'season', 'time_of_day']].head(10)

 Đã tạo các feature thời gian!



Unnamed: 0,time,year,month,day_of_year,day_of_week,hour,season,time_of_day
0,2024-01-01 00:00:00,2024,1,1,Monday,0,Dry,Night
1,2024-01-01 01:00:00,2024,1,1,Monday,1,Dry,Night
2,2024-01-01 02:00:00,2024,1,1,Monday,2,Dry,Night
3,2024-01-01 03:00:00,2024,1,1,Monday,3,Dry,Night
4,2024-01-01 04:00:00,2024,1,1,Monday,4,Dry,Night
5,2024-01-01 05:00:00,2024,1,1,Monday,5,Dry,Morning
6,2024-01-01 06:00:00,2024,1,1,Monday,6,Dry,Morning
7,2024-01-01 07:00:00,2024,1,1,Monday,7,Dry,Morning
8,2024-01-01 08:00:00,2024,1,1,Monday,8,Dry,Morning
9,2024-01-01 09:00:00,2024,1,1,Monday,9,Dry,Morning


## 4. Remove Redundant Columns - Loại bỏ cột dư thừa

Dựa trên phân tích tương quan ở notebook trước:
- `rain` ≈ `precipitation` (r=1.00) → Xóa `rain`
- `pressure_msl` ≈ `surface_pressure` (r=0.93) → Xóa `pressure_msl`
- `weather_desc` (nếu có) → Xóa (chỉ dùng để hiển thị, đã có [weather_code](cci:1://file:///d:/nam3_ki_I/Nh%E1%BA%ADp%20m%C3%B4n%20Khoa%20h%E1%BB%8Dc%20d%E1%BB%AF%20li%E1%BB%87u/short-term-weather-trends-vietnam/src/preprocessing_utils.py:65:0-83:13))

In [5]:
# Danh sách các cột cần xóa
columns_to_drop = ['rain', 'pressure_msl']

# Kiểm tra xem cột weather_desc có tồn tại không (từ notebook trước)
if 'weather_desc' in df.columns:
    columns_to_drop.append('weather_desc')

# Xóa các cột
print(f" Số cột trước khi xóa: {df.shape[1]}")
df = df.drop(columns=columns_to_drop, errors='ignore')
print(f" Số cột sau khi xóa: {df.shape[1]}")

print(f"\n Đã xóa các cột: {columns_to_drop}")
print(f"\n Các cột còn lại:")
print(df.columns.tolist())

 Số cột trước khi xóa: 29
 Số cột sau khi xóa: 27

 Đã xóa các cột: ['rain', 'pressure_msl']

 Các cột còn lại:
['time', 'temperature_2m', 'dew_point_2m', 'apparent_temperature', 'relative_humidity_2m', 'precipitation', 'wind_speed_10m', 'wind_gusts_10m', 'wind_direction_10m', 'surface_pressure', 'cloud_cover', 'cloud_cover_low', 'cloud_cover_mid', 'cloud_cover_high', 'shortwave_radiation', 'weather_code', 'vapour_pressure_deficit', 'zone', 'lat', 'lon', 'hour', 'month', 'year', 'day_of_year', 'day_of_week', 'season', 'time_of_day']


## 5. Create Derived Features - Tạo đặc trưng dẫn xuất

Tạo các biến mới có ý nghĩa từ các biến hiện có:
- `is_rainy`: Có mưa hay không (binary)
- `temp_range`: Chênh lệch giữa nhiệt độ thực và nhiệt độ cảm nhận
- `humidity_level`: Phân loại độ ẩm (Low/Medium/High)

In [6]:
# 5.1 Feature: Có mưa hay không
df['is_rainy'] = (df['precipitation'] > 0).astype(int)

# 5.2 Feature: Chênh lệch nhiệt độ thực và cảm nhận
df['temp_feel_diff'] = df['apparent_temperature'] - df['temperature_2m']

# 5.3 Feature: Phân loại độ ẩm
def categorize_humidity(humidity):
    if humidity < 60:
        return 'Low'
    elif humidity < 80:
        return 'Medium'
    else:
        return 'High'

df['humidity_level'] = df['relative_humidity_2m'].apply(categorize_humidity)

# 5.4 Feature: Phân loại cường độ gió
def categorize_wind(speed):
    if speed < 5:
        return 'Calm'       # Lặng gió
    elif speed < 15:
        return 'Light'      # Gió nhẹ
    elif speed < 25:
        return 'Moderate'   # Gió vừa
    else:
        return 'Strong'     # Gió mạnh

df['wind_level'] = df['wind_speed_10m'].apply(categorize_wind)

# Kiểm tra kết quả
print(" Đã tạo các feature mới!\n")
df[['precipitation', 'is_rainy', 'temperature_2m', 'apparent_temperature', 
          'temp_feel_diff', 'relative_humidity_2m', 'humidity_level', 
          'wind_speed_10m', 'wind_level']].head(10)

 Đã tạo các feature mới!



Unnamed: 0,precipitation,is_rainy,temperature_2m,apparent_temperature,temp_feel_diff,relative_humidity_2m,humidity_level,wind_speed_10m,wind_level
0,0.0,0,25.6,30.6,5.0,88,High,5.7,Light
1,0.0,0,25.4,30.7,5.3,90,High,3.6,Calm
2,0.0,0,25.3,30.8,5.5,88,High,0.5,Calm
3,0.0,0,25.0,30.0,5.0,91,High,4.7,Calm
4,0.0,0,24.6,29.1,4.5,92,High,8.0,Light
5,0.0,0,24.4,28.9,4.5,92,High,7.1,Light
6,0.0,0,24.2,28.7,4.5,92,High,6.3,Light
7,0.0,0,24.5,29.1,4.6,90,High,5.2,Light
8,0.0,0,26.2,30.2,4.0,78,Medium,7.1,Light
9,0.0,0,28.1,31.9,3.8,68,Medium,6.3,Light


## 6. Data Validation - Kiểm tra dữ liệu cuối cùng

In [7]:
print("=" * 60)
print("TỔNG KẾT DỮ LIỆU SAU FEATURE ENGINEERING")
print("=" * 60)

print(f"\n Kích thước: {df.shape[0]:,} dòng x {df.shape[1]} cột")
print(f"\n Tất cả các cột ({df.shape[1]} cột):")
print(df.columns.tolist())

print(f"\n Kiểu dữ liệu:")
print(df.dtypes)

print(f"\n 5 dòng đầu tiên:")
df.head()

TỔNG KẾT DỮ LIỆU SAU FEATURE ENGINEERING

 Kích thước: 87,720 dòng x 31 cột

 Tất cả các cột (31 cột):
['time', 'temperature_2m', 'dew_point_2m', 'apparent_temperature', 'relative_humidity_2m', 'precipitation', 'wind_speed_10m', 'wind_gusts_10m', 'wind_direction_10m', 'surface_pressure', 'cloud_cover', 'cloud_cover_low', 'cloud_cover_mid', 'cloud_cover_high', 'shortwave_radiation', 'weather_code', 'vapour_pressure_deficit', 'zone', 'lat', 'lon', 'hour', 'month', 'year', 'day_of_year', 'day_of_week', 'season', 'time_of_day', 'is_rainy', 'temp_feel_diff', 'humidity_level', 'wind_level']

 Kiểu dữ liệu:
time                       datetime64[ns]
temperature_2m                    float64
dew_point_2m                      float64
apparent_temperature              float64
relative_humidity_2m                int64
precipitation                     float64
wind_speed_10m                    float64
wind_gusts_10m                    float64
wind_direction_10m                  int64
surface_pressu

Unnamed: 0,time,temperature_2m,dew_point_2m,apparent_temperature,relative_humidity_2m,precipitation,wind_speed_10m,wind_gusts_10m,wind_direction_10m,surface_pressure,cloud_cover,cloud_cover_low,cloud_cover_mid,cloud_cover_high,shortwave_radiation,weather_code,vapour_pressure_deficit,zone,lat,lon,hour,month,year,day_of_year,day_of_week,season,time_of_day,is_rainy,temp_feel_diff,humidity_level,wind_level
0,2024-01-01 00:00:00,25.6,23.5,30.6,88,0.0,5.7,10.4,145,1010.1,99,0,0,99,0.0,3,0.41,HCM_Center,10.7769,106.7009,0,1,2024,1,Monday,Dry,Night,0,5.0,High,Light
1,2024-01-01 01:00:00,25.4,23.5,30.7,90,0.0,3.6,8.3,143,1009.8,96,0,0,96,0.0,3,0.33,HCM_Center,10.7769,106.7009,1,1,2024,1,Monday,Dry,Night,0,5.3,High,Calm
2,2024-01-01 02:00:00,25.3,23.2,30.8,88,0.0,0.5,5.0,135,1009.3,96,0,0,96,0.0,3,0.38,HCM_Center,10.7769,106.7009,2,1,2024,1,Monday,Dry,Night,0,5.5,High,Calm
3,2024-01-01 03:00:00,25.0,23.4,30.0,91,0.0,4.7,5.4,9,1009.1,98,8,2,98,0.0,3,0.29,HCM_Center,10.7769,106.7009,3,1,2024,1,Monday,Dry,Night,0,5.0,High,Calm
4,2024-01-01 04:00:00,24.6,23.2,29.1,92,0.0,8.0,11.5,352,1009.0,100,13,1,100,0.0,3,0.25,HCM_Center,10.7769,106.7009,4,1,2024,1,Monday,Dry,Night,0,4.5,High,Light


## 7. Save Data - Lưu dữ liệu đã xử lý

Xuất dữ liệu đã qua Feature Engineering ra file CSV mới để sử dụng cho các notebook tiếp theo.

In [8]:
# Đường dẫn file output
output_path = '../data/hcm_weather_processed.csv'

# Lưu file
df.to_csv(output_path, index=False)

# Xác nhận
print("=" * 60)
print(" ĐÃ LƯU DỮ LIỆU THÀNH CÔNG!")
print("=" * 60)
print(f"\n File: {output_path}")
print(f" Kích thước: {df.shape[0]:,} dòng x {df.shape[1]} cột")
print(f"\n Các cột trong file mới:")
for i, col in enumerate(df.columns, 1):
    print(f"   {i:2d}. {col}")

 ĐÃ LƯU DỮ LIỆU THÀNH CÔNG!

 File: ../data/hcm_weather_processed.csv
 Kích thước: 87,720 dòng x 31 cột

 Các cột trong file mới:
    1. time
    2. temperature_2m
    3. dew_point_2m
    4. apparent_temperature
    5. relative_humidity_2m
    6. precipitation
    7. wind_speed_10m
    8. wind_gusts_10m
    9. wind_direction_10m
   10. surface_pressure
   11. cloud_cover
   12. cloud_cover_low
   13. cloud_cover_mid
   14. cloud_cover_high
   15. shortwave_radiation
   16. weather_code
   17. vapour_pressure_deficit
   18. zone
   19. lat
   20. lon
   21. hour
   22. month
   23. year
   24. day_of_year
   25. day_of_week
   26. season
   27. time_of_day
   28. is_rainy
   29. temp_feel_diff
   30. humidity_level
   31. wind_level
