# Data processing


#### Import module and read data

In [1]:
import pandas as pd
import numpy as np

In [2]:
## Data processing
df = pd.read_csv('data/crawled_data_northern_vietnam.csv')

1. Thêm cột DATE, YEAR, MONTH cho data lọc ra các dữ liệu của 10 năm gần đây

In [3]:
df['DATE'] = pd.to_datetime(df['DATE'])

df['YEAR'] = df['DATE'].dt.year
df['MONTH'] = df['DATE'].dt.month

def get_season(month):
    if month in [11, 12, 1]:
        return 'Winter'  # Mùa đông
    elif month in [2, 3, 4]:
        return 'Spring'  # Mùa xuân
    elif month in [5, 6, 7]:
        return 'Summer'  # Mùa hè
    elif month in [8, 9, 10]:
        return 'Autumn'  # Mùa thu

df['SEASON'] = df['MONTH'].apply(get_season)

# Filter only past 10 years
df = df[df['YEAR'] >= 2013]


2. Điền giá trị còn trống của PRCP và đổi đơn vị (độ F sang độ C và inches sang mm)

In [4]:
# Assume the Nan value in PRCP column is 0

# df['PRCP'].fillna(0) 
df['PRCP'] = df['PRCP'].fillna(0)

df['PRCP'] = round(df['PRCP'] * 25.4, 2)
df['TMAX'] = round((df['TMAX']-32)/1.8, 1)
df['TMIN'] = round((df['TMIN']-32)/1.8, 1)
df['TAVG'] = round((df['TAVG']-32)/1.8, 1)


In [5]:
df = df.drop("Unnamed: 0", axis=1)
df

Unnamed: 0,DATE,STATION,TMAX,TMIN,TAVG,PRCP,YEAR,MONTH,SEASON
5674,2013-01-01,VMM00048806,13.3,8.3,10.6,0.0,2013,1,Winter
5675,2013-01-02,VMM00048806,22.8,10.0,16.1,0.0,2013,1,Winter
5676,2013-01-03,VMM00048806,15.6,,13.3,0.0,2013,1,Winter
5677,2013-01-04,VMM00048806,15.0,12.2,12.8,0.0,2013,1,Winter
5678,2013-01-05,VMM00048806,19.4,,13.9,0.0,2013,1,Winter
...,...,...,...,...,...,...,...,...,...
89904,2024-11-27,VMM00048830,18.9,,16.7,0.0,2024,11,Winter
89905,2024-11-28,VMM00048830,21.7,,16.1,0.0,2024,11,Winter
89906,2024-11-29,VMM00048830,24.4,,16.1,0.0,2024,11,Winter
89907,2024-11-30,VMM00048830,25.6,8.9,16.7,0.0,2024,11,Winter


In [6]:
df[np.logical_and(df['TMIN'].isnull(), df['TMAX'].isnull())]

Unnamed: 0,DATE,STATION,TMAX,TMIN,TAVG,PRCP,YEAR,MONTH,SEASON
5770,2013-04-07,VMM00048806,,,19.4,0.00,2013,4,Spring
5799,2013-05-06,VMM00048806,,,21.7,9.65,2013,5,Summer
5829,2013-06-05,VMM00048806,,,23.9,32.00,2013,6,Summer
6034,2013-12-29,VMM00048806,,,10.0,0.00,2013,12,Winter
6049,2014-01-13,VMM00048806,,,10.0,1.52,2014,1,Winter
...,...,...,...,...,...,...,...,...,...
89883,2024-11-02,VMM00048830,,,21.1,0.00,2024,11,Winter
89888,2024-11-07,VMM00048830,,,20.6,0.00,2024,11,Winter
89889,2024-11-08,VMM00048830,,,19.4,0.00,2024,11,Winter
89896,2024-11-15,VMM00048830,,,25.0,0.00,2024,11,Winter


In [7]:
df.to_csv('data/filtered_data_northern_vietnam.csv', encoding='utf-8')

### Dữ liệu sau khi lọc bao gồm các cột sau:

- **DATE**: Ngày tại thời điểm đo được (từ 2013 tới nay)
- **STATION**: Mã của trạm khí tượng
- **TMAX**: Nhiệt độ cao nhất trong ngày (độ C)
- **TMIN**: Nhiệt độ thấp nhất trong ngày (độ C)
- **TAVG**: Nhiệt độ trung bình trong ngày (độ C)
- **PRCP**: Lượng mưa của ngày (mm)
- **YEAR**: Năm tại thời điểm đo được (từ 2013 tới nay)
- **MONTH**: Tháng tại thời điểm đo được (từ 1 → 12)
- **SEASON**: Mùa tại thời điểm đo được (Spring, Summer, Autumn, Winter)
