# Thu thập dữ liệu thời tiết từ WeatherAPI.com của 10 thành phố ở Châu Á

Notebook này cào dữ liệu thời tiết hàng giờ từ API WeatherAPI.com cho nhiều thành phố, trong khoảng thời gian 1 năm (19/5/2024 - 18/5/2025). Dữ liệu bao gồm các đặc trưng số (nhiệt độ, độ ẩm, lượng mưa, v.v.) và nhãn điều kiện thời tiết (Sunny, Cloudy, Rainy, v.v.)



In [None]:
!pip install dotenv



In [None]:
import requests
import pandas as pd
from dotenv import load_dotenv
from datetime import datetime, timedelta
import time
import os

In [None]:
load_dotenv()
api_key = os.getenv("WEATHER_API_KEY")

In [None]:
cities = ["Hanoi", "Tokyo", "Beijing", "Seoul", "Bangkok", "Singapore", "Mumbai", "Delhi", "Dubai", "Istanbul"]

In [None]:
start_date = datetime(2024, 5, 23)
end_date = datetime(2025, 5, 23)

days = [start_date + timedelta(days=x) for x in range((end_date - start_date).days + 1)]

all_data = []

In [None]:
def fetch_weather_data(city, date_str):
    url = f"https://api.weatherapi.com/v1/history.json?key={api_key}&q={city}&dt={date_str}"
    try:
        response = requests.get(url)
        response.raise_for_status()
        data = response.json()
        if 'forecast' in data:
            hourly_data = data['forecast']['forecastday'][0]['hour']

            for hour in hourly_data:
                hour['condition'] = hour['condition']['text']
            return hourly_data
        else:
            print(f"No data for {city} on {date_str}")
            return []
    except Exception as e:
        print(f"Failed to crawl data for {city} on {date_str}: {e}")
        return []

In [None]:
for city in cities:
    print(f"Data scraping for {city}...")
    for day in days:
        print(f"Day: {day.strftime('%Y-%m-%d')}...")
        date_str = day.strftime('%Y-%m-%d')
        hourly_data = fetch_weather_data(city, date_str)
        for hour_data in hourly_data:
            hour_data['city'] = city
            all_data.append(hour_data)
        time.sleep(1)


df = pd.DataFrame(all_data)
df.to_csv("weather_data.csv", index=False)
print("Data saved!")

Data scraping for Hanoi...
Day: 2024-05-23...
Day: 2024-05-24...
Day: 2024-05-25...
Day: 2024-05-26...
Day: 2024-05-27...
Day: 2024-05-28...
Day: 2024-05-29...
Day: 2024-05-30...
Day: 2024-05-31...
Day: 2024-06-01...
Day: 2024-06-02...
Day: 2024-06-03...
Day: 2024-06-04...
Day: 2024-06-05...
Day: 2024-06-06...
Day: 2024-06-07...
Day: 2024-06-08...
Day: 2024-06-09...
Day: 2024-06-10...
Day: 2024-06-11...
Day: 2024-06-12...
Day: 2024-06-13...
Day: 2024-06-14...
Day: 2024-06-15...
Day: 2024-06-16...
Day: 2024-06-17...
Day: 2024-06-18...
Day: 2024-06-19...
Day: 2024-06-20...
Day: 2024-06-21...
Day: 2024-06-22...
Day: 2024-06-23...
Day: 2024-06-24...
Day: 2024-06-25...
Day: 2024-06-26...
Day: 2024-06-27...
Day: 2024-06-28...
Day: 2024-06-29...
Day: 2024-06-30...
Day: 2024-07-01...
Day: 2024-07-02...
Day: 2024-07-03...
Day: 2024-07-04...
Day: 2024-07-05...
Day: 2024-07-06...
Day: 2024-07-07...
Day: 2024-07-08...
Day: 2024-07-09...
Day: 2024-07-10...
Day: 2024-07-11...
Day: 2024-07-12...
Day:

## Kiểm tra dữ liệu

Xem trước dữ liệu để đảm bảo các đặc trưng và nhãn điều kiện thời tiết được cào đúng.

In [None]:
print(df.head())
print(df.columns)

   time_epoch              time  temp_c  temp_f  is_day             condition  \
0  1747501200  2025-05-18 00:00    25.3    77.5       0         Partly cloudy   
1  1747504800  2025-05-18 01:00    25.1    77.2       0  Patchy rain possible   
2  1747508400  2025-05-18 02:00    24.9    76.9       0  Patchy rain possible   
3  1747512000  2025-05-18 03:00    24.8    76.6       0         Partly cloudy   
4  1747515600  2025-05-18 04:00    24.6    76.4       0         Partly cloudy   

   wind_mph  wind_kph  wind_degree wind_dir  ...  will_it_rain  \
0       5.4       8.6          122      ESE  ...             0   
1       5.8       9.4          114      ESE  ...             1   
2       5.4       8.6          118      ESE  ...             1   
3       4.9       7.9          123      ESE  ...             0   
4       3.8       6.1          123      ESE  ...             0   

   chance_of_rain  will_it_snow  chance_of_snow  vis_km  vis_miles  gust_mph  \
0               0             0     