# Thông tin bài toán

##  Mục tiêu
Dự đoán **các chỉ số chất lượng không khí trong tương lai** cho mỗi bản ghi.

---

##  Dạng bài toán
**Hồi quy đa biến (Multi-output Regression)**

---

##  Dữ liệu đầu vào / đầu ra

### **Input** (các cột sử dụng)
- `country`
- `location_name`
- `last_updated`

### **Output** (các target cần dự đoán)
- `air_quality_PM2.5`
- `air_quality_PM10`
- `air_quality_Nitrogen_dioxide`
- `air_quality_Ozone`

---

##  Thông tin file và nguồn dữ liệu

### **File dữ liệu**
`GlobalWeatherRepository.csv`

### **Nguồn dữ liệu (live update)**
[https://www.kaggle.com/datasets/nelgiriyewithana/global-weather-repository/data](https://www.kaggle.com/datasets/nelgiriyewithana/global-weather-repository/data)


### Step 1: Đọc dữ liệu

In [None]:
import pandas as pd

df = pd.read_csv('GlobalWeatherRepository.csv')
df.head()

In [None]:
df.describe()

### Step 2: Chuyển đổi, lọc dữ liệu

In [None]:
df['last_updated'] = pd.to_datetime(df['last_updated'])

# Lấy dữ liệu cần thiết
features = ['country', 'location_name', 'last_updated']
targets = [
    'air_quality_PM2.5',
    'air_quality_PM10',
    'air_quality_Nitrogen_dioxide',
    'air_quality_Ozone'
]

data = df[features + targets].copy()
data.head()

### Step 3: Xử lý dữ liệu

In [None]:
# Handle datetime values
data['year'] = data['last_updated'].dt.year
data['month'] = data['last_updated'].dt.month
data['day'] = data['last_updated'].dt.day
data.drop(columns=['last_updated'], inplace=True)

In [None]:
# Encode categorical features
from sklearn.preprocessing import LabelEncoder

le_country = LabelEncoder()
le_location_name = LabelEncoder()

data['country'] = le_country.fit_transform(data['country'])
data['location_name'] = le_location_name.fit_transform(data['location_name'])

### Step 4: Chia dữ liệu thành tập huấn luyện và tập kiểm tra

In [None]:
X = data['country', 'location_name', 'year', 'month', 'day']
y = data[targets]

