In [1]:
%matplotlib inline
import requests
import json
import time
import datetime as dt
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.compose import ColumnTransformer, make_column_transformer
from sklearn.preprocessing import FunctionTransformer
from sklearn.neural_network import MLPClassifier
from sklearn.neural_network import MLPRegressor
from sklearn import set_config
set_config(display='diagram') # Để trực quan hóa pipeline

In [2]:
# Hàm thu thập dữ liệu từ một khoảng thời gian cụ thể
def collect_data(api_url):
    weather_data = []
    success = False
    while not success:
        print(f"GET: {api_url}")
        r = requests.get(api_url)
        if r.ok:
            # lấy kết quả json
            pydata = json.loads(r.text)
            weather_data.extend(pydata["days"])  # Lưu dữ liệu từ 'days'
            print("Successful! Remaining cost:", pydata.get('remainingCost', 'Unknown'))
            print()
            success = True
        else:
            print("Fail! Try again. Status code:", r.status_code)
            time.sleep(5)
        
    return weather_data


In [3]:
# Hàm tạo URL API từ các tham số đầu vào
def create_api_url(location, start_date, end_date, api_key, unit_group='metric', include='days'):
    return f'https://weather.visualcrossing.com/VisualCrossingWebServices/rest/services/timeline/{location}/{start_date}/{end_date}?unitGroup={unit_group}&include={include}&key={api_key}&contentType=json'

# Hàm thu thập dữ liệu trong khoảng thời gian từ nhiều năm
def collect_all_data(start_date, end_date, location, api_key):
    # Tạo URL API
    api_url = create_api_url(location, start_date, end_date, api_key)
    # Thu thập dữ liệu thời tiết
    weather_data = collect_data(api_url)
    
    return weather_data

In [4]:
# API key (có thể thay đổi)
api_key1 = 'TE7HPVTQ4Q4B7LWSLDSU38BRF'
api_key2 = "VNTCFNZ5VLGZC3FW4F85U8425"
api_key3 = "VWAK37JBEPXKWXTP7U8MQG9FR"

# Thông số đầu vào (có thể thay đổi)
location = 'hanoi'
start_date = '2022-09-01'
end_date = '2024-09-01'

In [5]:
# # Thu thập dữ liệu
# all_weather_data = collect_all_data(start_date, end_date, location, api_key3)

# # In số lượng dữ liệu thu thập được
# print('Number of data:', len(all_weather_data))

# # Lưu dữ liệu vào DataFrame và xuất ra CSV
# data_df = pd.DataFrame(all_weather_data)
# data_df.rename(lambda name: name[0].upper() + name[1:], axis='columns', inplace=True)
# data_df.to_csv('historical_weather_data.csv', index=False)

# # Hiển thị 5 dòng đầu tiên của dữ liệu
# data_df.head()

In [6]:
# Đọc dữ liệu từ file CSV
csv_file_path = 'historical_weather_data.csv'  # Đường dẫn đến file CSV
all_weather_data = pd.read_csv(csv_file_path)

# In số lượng dữ liệu đã tải về
print('Number of data loaded from CSV:', len(all_weather_data))


Number of data loaded from CSV: 732


In [7]:
# Kiểm tra số lượng giá trị không bị thiếu trong mỗi cột
non_null_counts = all_weather_data.count()
print("Non-null counts per column:")
print(non_null_counts)

# Tính tỷ lệ phần trăm giá trị thiếu trong mỗi cột
missing_percentage = all_weather_data.isnull().mean() * 100
print("\nMissing percentage per column:")
print(missing_percentage)

# Lọc ra các cột có tỷ lệ dữ liệu thiếu lớn hơn 20%
missing_columns = missing_percentage[missing_percentage > 20]
print("\nColumns with more than 20% missing data:")
print(missing_columns)

# Tìm các cột có ít hơn 50 giá trị không bị thiếu
low_data_columns = non_null_counts[non_null_counts < 50]
print("\nColumns with less than 50 non-null values:")
print(low_data_columns)


Non-null counts per column:
Datetime          732
DatetimeEpoch     732
Tempmax           732
Tempmin           732
Temp              732
Feelslikemax      732
Feelslikemin      732
Feelslike         732
Dew               732
Humidity          732
Precip            732
Precipprob        732
Precipcover       732
Preciptype        544
Snow              732
Snowdepth         732
Windgust          732
Windspeed         732
Winddir           732
Pressure          732
Cloudcover        732
Visibility        732
Solarradiation    732
Solarenergy       732
Uvindex           732
Severerisk        732
Sunrise           732
SunriseEpoch      732
Sunset            732
SunsetEpoch       732
Moonphase         732
Conditions        732
Description       732
Icon              732
Stations          732
Source            732
dtype: int64

Missing percentage per column:
Datetime           0.00000
DatetimeEpoch      0.00000
Tempmax            0.00000
Tempmin            0.00000
Temp               0.00000


In [8]:
# In ra thông tin dữ liệu số cột trước khi loại bỏ
print("Columns before dropping 'Preciptype':")
print(all_weather_data.columns)

# In số lượng cột trước khi loại bỏ
print("Number of columns before dropping 'Preciptype':", len(all_weather_data.columns))

# Loại bỏ cột 'Preciptype' khỏi DataFrame
all_weather_data = all_weather_data.drop(columns=['Preciptype'])

# In ra thông tin dữ liệu sau khi loại bỏ cột
print("Columns after dropping 'Preciptype':")
print(all_weather_data.columns)

# In số lượng cột sau khi loại bỏ
print("Number of columns after dropping 'Preciptype':", len(all_weather_data.columns))

Columns before dropping 'Preciptype':
Index(['Datetime', 'DatetimeEpoch', 'Tempmax', 'Tempmin', 'Temp',
       'Feelslikemax', 'Feelslikemin', 'Feelslike', 'Dew', 'Humidity',
       'Precip', 'Precipprob', 'Precipcover', 'Preciptype', 'Snow',
       'Snowdepth', 'Windgust', 'Windspeed', 'Winddir', 'Pressure',
       'Cloudcover', 'Visibility', 'Solarradiation', 'Solarenergy', 'Uvindex',
       'Severerisk', 'Sunrise', 'SunriseEpoch', 'Sunset', 'SunsetEpoch',
       'Moonphase', 'Conditions', 'Description', 'Icon', 'Stations', 'Source'],
      dtype='object')
Number of columns before dropping 'Preciptype': 36
Columns after dropping 'Preciptype':
Index(['Datetime', 'DatetimeEpoch', 'Tempmax', 'Tempmin', 'Temp',
       'Feelslikemax', 'Feelslikemin', 'Feelslike', 'Dew', 'Humidity',
       'Precip', 'Precipprob', 'Precipcover', 'Snow', 'Snowdepth', 'Windgust',
       'Windspeed', 'Winddir', 'Pressure', 'Cloudcover', 'Visibility',
       'Solarradiation', 'Solarenergy', 'Uvindex', 'Severeri

In [9]:
# Đường dẫn đến file CSV mới
new_csv_file_path = 'cleaned_historical_weather_data.csv'  

# Lưu DataFrame vào file CSV
all_weather_data.to_csv(new_csv_file_path, index=False)

# Xác nhận rằng dữ liệu đã được lưu
print(f"Data has been saved to {new_csv_file_path}.")


Data has been saved to cleaned_historical_weather_data.csv.
