In [147]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import os
from datetime import datetime

In [148]:
%run Data_Cleaning_Utils.ipynb

In [149]:
data_path = './PM2.5/'
year_scope = [2017, 2018, 2019, 2020, 2021, 2022]
os.listdir(data_path)
data_name_lst = [name for name in os.listdir(data_path) if name.startswith('PM2.5')]

In [5]:
selected_data_name = []
for i in year_scope:
    for j in data_name_lst:
        if str(i) in j:
            selected_data_name.append(j)

In [6]:
selected_data_name

['PM2.5_2017_.xlsx',
 'PM2.5_2018_.xlsx',
 'PM2.5_2019_.xlsx',
 'PM2.5_2020_.xlsx',
 'PM2.5_2021_.xlsx',
 'PM2.5_2022_.xlsx']

## Working Space

<img src="Thailand_section_meteorology.png" alt="Alternative text" />

In [134]:
NE = ' อำนาจเจริญ, บึงกาฬ, บุรีรัมย์, ชัยภูมิ, กาฬสินธุ์, ขอนแก่น, เลย, มหาสารคาม, มุกดาหาร, นครพนม, นครราชสีมา, หนองบัวลำภู, หนองคาย, ร้อยเอ็ด, สกลนคร, ศรีสะเกษ, สุรินทร์, อุบลราชธานี, อุดรธานี, ยโสธร'
N = ' เชียงใหม่, เชียงราย, ลำปาง, ลำพูน, แม่ฮ่องสอน, น่าน, พะเยา, แพร่, อุตรดิตถ์, ตาก, สุโขทัย, พิษณุโลก, พิจิตร, กำแพงเพชร, เพชรบูรณ์'
C = ' นครสวรรค์, อุทัยธานี, อ่างทอง, ชัยนาท, พระนครศรีอยุธยา, กทม., ลพบุรี, นครปฐม, นนทบุรี, ปทุมธานี, สมุทรปราการ, สมุทรสาคร, สมุทรสงคราม, สระบุรี, สิงห์บุรี, สุพรรณบุรี, กาญจนบุรี, ราชบุรี'
E = ' ฉะเชิงเทรา, จันทบุรี, ชลบุรี, ปราจีนบุรี, ระยอง, สระแก้ว, ตราด, นครนายก'
SW = ' กระบี่, พังงา, ภูเก็ต, ระนอง, สตูล, ตรัง'
SE = ' เพชรบุรี, ประจวบคีรีขันธ์, ประจวบคิรีขันธ์, ชุมพร, นครศรีธรรมราช, นราธิวาส, ปัตตานี, พัทลุง, สงขลา, สุราษฏร์ธานี, ยะลา'
Thai_sector = [NE, N, C, E, SE, SW]

In [135]:
Thai_dict = {f'{j}': ['จ.' + i.split(' ')[-1] if i.split(' ')[-1] != 'กทม.' else i.split(' ')[-1] for i in Thai_sector[j].split(',')] for j in range(len(Thai_sector))}

In [136]:
Thai_dict['4']

['จ.เพชรบุรี',
 'จ.ประจวบคีรีขันธ์',
 'จ.ประจวบคิรีขันธ์',
 'จ.ชุมพร',
 'จ.นครศรีธรรมราช',
 'จ.นราธิวาส',
 'จ.ปัตตานี',
 'จ.พัทลุง',
 'จ.สงขลา',
 'จ.สุราษฏร์ธานี',
 'จ.ยะลา']

In [137]:
swap_Thai_dict = {provide:sector for sector in Thai_dict.keys() for provide in Thai_dict[sector]}

In [138]:
swap_Thai_dict

{'จ.อำนาจเจริญ': '0',
 'จ.บึงกาฬ': '0',
 'จ.บุรีรัมย์': '0',
 'จ.ชัยภูมิ': '0',
 'จ.กาฬสินธุ์': '0',
 'จ.ขอนแก่น': '0',
 'จ.เลย': '0',
 'จ.มหาสารคาม': '0',
 'จ.มุกดาหาร': '0',
 'จ.นครพนม': '0',
 'จ.นครราชสีมา': '0',
 'จ.หนองบัวลำภู': '0',
 'จ.หนองคาย': '0',
 'จ.ร้อยเอ็ด': '0',
 'จ.สกลนคร': '0',
 'จ.ศรีสะเกษ': '0',
 'จ.สุรินทร์': '0',
 'จ.อุบลราชธานี': '0',
 'จ.อุดรธานี': '0',
 'จ.ยโสธร': '0',
 'จ.เชียงใหม่': '1',
 'จ.เชียงราย': '1',
 'จ.ลำปาง': '1',
 'จ.ลำพูน': '1',
 'จ.แม่ฮ่องสอน': '1',
 'จ.น่าน': '1',
 'จ.พะเยา': '1',
 'จ.แพร่': '1',
 'จ.อุตรดิตถ์': '1',
 'จ.ตาก': '1',
 'จ.สุโขทัย': '1',
 'จ.พิษณุโลก': '1',
 'จ.พิจิตร': '1',
 'จ.กำแพงเพชร': '1',
 'จ.เพชรบูรณ์': '1',
 'จ.นครสวรรค์': '2',
 'จ.อุทัยธานี': '2',
 'จ.อ่างทอง': '2',
 'จ.ชัยนาท': '2',
 'จ.พระนครศรีอยุธยา': '2',
 'กทม.': '2',
 'จ.ลพบุรี': '2',
 'จ.นครปฐม': '2',
 'จ.นนทบุรี': '2',
 'จ.ปทุมธานี': '2',
 'จ.สมุทรปราการ': '2',
 'จ.สมุทรสาคร': '2',
 'จ.สมุทรสงคราม': '2',
 'จ.สระบุรี': '2',
 'จ.สิงห์บุรี': '2',
 'จ.สุพรรณบุรี': '2',

In [144]:
def made_sector_station(selected_data_name, data_path, label_dict):
    df = pd.DataFrame(columns=['station_id', 'station_name'])
    for file_name in selected_data_name:
        station_detail = pd.read_excel(os.path.join(data_path, file_name), sheet_name='station_detail')
        select_detail = station_detail.copy()[['รหัสสถานี', 'ชื่อสถานี']].rename(columns={'รหัสสถานี':'station_id', 'ชื่อสถานี':'station_name'})
        df = pd.concat([df, select_detail], axis=0)
        df['station_name'] = df['station_name'].apply(lambda x: x.split(' ')[-1])
    df = df.drop_duplicates(subset=['station_id']).reset_index().drop(columns=['index'])
    df['label'] = df['station_name'].apply(lambda x: label_dict[x])
    return df

In [152]:
label_df = made_sector_station(selected_data_name, data_path, swap_Thai_dict)
label_df

Unnamed: 0,station_id,station_name,label
0,05T,กทม.,2
1,59T,กทม.,2
2,61T,กทม.,2
3,50T,กทม.,2
4,53T,กทม.,2
...,...,...,...
82,95T,จ.พิจิตร,1
83,96T,จ.สุโขทัย,1
84,97T,จ.เพชรบูรณ์,1
85,98T,จ.อุทัยธานี,2


In [153]:
data_path = './PM2.5/'
selected_years = [2017, 2018, 2019, 2020, 2021, 2022]
save_path='./Clean_Data/'

In [155]:
PM_data = load_selected_PM_data(data_path, selected_data_name)

In [179]:
fill_nan_provide = Fill_NaN_Label(data_path, selected_years, label_df)
fill_nan_provide.save_name = 'FillBySectorMeteor'
new_PM_data = fill_nan_provide.main(save_path=save_path)

In [172]:
year = '2018'

In [173]:
PM_data[year]

Unnamed: 0,Date,05T,10T,11T,59T,61T,03T,50T,52T,53T,...,69T,70T,71T,72T,73T,75T,76T,77T,79T,80T
0,2018-01-01,17.0,,,21.0,30.0,,27.0,31.0,15,...,,,,,,10.0,25.0,24.0,26.0,10.0
1,2018-01-02,25.0,,,26.0,33.0,,30.0,37.0,17,...,,,,,,15.0,28.0,29.0,31.0,13.0
2,2018-01-03,34.0,,,38.0,42.0,,40.0,50.0,22,...,,,,,,18.0,29.0,32.0,36.0,11.0
3,2018-01-04,41.0,,,39.0,45.0,,45.0,53.0,24,...,,,,,,20.0,32.0,44.0,44.0,12.0
4,2018-01-05,42.0,,,51.0,53.0,,51.0,58.0,27,...,,,,,,20.0,37.0,49.0,47.0,12.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
360,2018-12-27,60.0,61.0,55.0,49.0,,71.0,44.0,68.0,66,...,41.0,29.0,46.0,23.0,,15.0,36.0,64.0,39.0,11.0
361,2018-12-28,65.0,62.0,62.0,60.0,,71.0,46.0,75.0,68,...,35.0,29.0,38.0,22.0,21.0,18.0,41.0,54.0,56.0,10.0
362,2018-12-29,25.0,22.0,26.0,18.0,,29.0,25.0,33.0,30,...,28.0,20.0,12.0,15.0,23.0,14.0,34.0,17.0,43.0,12.0
363,2018-12-30,14.0,19.0,20.0,19.0,,21.0,24.0,25.0,26,...,15.0,12.0,11.0,12.0,17.0,9.0,19.0,11.0,14.0,10.0


In [174]:
new_PM_data[year]

Unnamed: 0,Date,05T,10T,11T,59T,61T,03T,50T,52T,53T,...,73T,75T,76T,42T,44T,62T,63T,46T,72T,80T
0,2018-01-01,17.0,24.833333,24.833333,21.0,30.000000,24.833333,27.0,31.0,15,...,19.600000,10.0,25.0,13.000000,10.000000,11.0,18,16.0,16.0,10.0
1,2018-01-02,25.0,30.500000,30.500000,26.0,33.000000,30.500000,30.0,37.0,17,...,22.000000,15.0,28.0,15.666667,15.000000,13.0,19,20.0,20.0,13.0
2,2018-01-03,34.0,39.750000,39.750000,38.0,42.000000,39.750000,40.0,50.0,22,...,22.000000,18.0,29.0,14.666667,10.000000,16.0,18,23.0,23.0,11.0
3,2018-01-04,41.0,46.750000,46.750000,39.0,45.000000,46.750000,45.0,53.0,24,...,24.600000,20.0,32.0,14.000000,11.000000,11.0,20,20.0,20.0,12.0
4,2018-01-05,42.0,50.916667,50.916667,51.0,53.000000,50.916667,51.0,58.0,27,...,24.400000,20.0,37.0,17.666667,14.000000,17.0,22,36.0,36.0,12.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
360,2018-12-27,60.0,61.000000,55.000000,49.0,60.809524,71.000000,44.0,68.0,66,...,26.785714,15.0,36.0,19.000000,20.333333,20.0,22,45.0,23.0,11.0
361,2018-12-28,65.0,62.000000,62.000000,60.0,65.190476,71.000000,46.0,75.0,68,...,21.000000,18.0,41.0,22.000000,17.000000,13.0,16,31.0,22.0,10.0
362,2018-12-29,25.0,22.000000,26.000000,18.0,28.285714,29.000000,25.0,33.0,30,...,23.000000,14.0,34.0,19.000000,16.333333,12.0,18,21.0,15.0,12.0
363,2018-12-30,14.0,19.000000,20.000000,19.0,19.190476,21.000000,24.0,25.0,26,...,17.000000,9.0,19.0,16.000000,14.666667,12.0,16,18.0,12.0,10.0
