In [13]:
import numpy as np
import pandas as pd
import pymysql
from sqlalchemy import create_engine
import requests
from datetime import datetime, timedelta
import calendar
from IPython.display import clear_output
import os

In [2]:
# 발전량 데이터 로드 (출처: Data.go.kr)
power_2020 = pd.read_csv("./한국전력거래소_지역별 5분단위 태양광 계량데이터/지역별_5분_단위_태양광_계량데이터_(2020_01_01 ~ 2020_12_31).csv", encoding="cp949")
power_2021 = pd.read_csv("./한국전력거래소_지역별 5분단위 태양광 계량데이터/지역별_5분_단위_태양광_계량데이터_(2021_01_01 ~ 2021_12_31).csv", encoding="cp949")
power_2022 = pd.read_csv("./한국전력거래소_지역별 5분단위 태양광 계량데이터/지역별_5분_단위_태양광_계량데이터_(2022_01_01 ~ 2022_12_31).csv", encoding="cp949")
power_2023 = pd.read_csv("./한국전력거래소_지역별 5분단위 태양광 계량데이터/지역별_5분_단위_태양광_계량데이터_(2023_01_01 ~ 2023_05_31).csv", encoding="cp949")

In [3]:
# 발전량 데이터 통합
power_data=[]
# 데이터에 올려둔 각 파일을 파일별로 부른다
# 현재까지 저장한 데이터의 갯수를 읽어 seq저장하고 row번호를 계산하는데 이용한다
# 사용할 컬럼만 가져와 저장하고
# 5분단위로 저장되어 있는 값을 합산하여 1시간당 합계 값으로 변환한다.
for data in [power_2020,power_2021,power_2022,power_2023]:
    seq = len(power_data)
    for i in range(data.shape[0]):
        power_data.append(data.iloc[i,1:4])
        power_data[seq+i]["합계"] = data.iloc[i,4:].sum()

In [4]:
# 발전량 데이터 전처리
power_data_df = pd.DataFrame(power_data).reset_index(drop=True)
# 두글자로 지역명 매핑
local_tag_dic = {'강원도': '강원', '경기도': '경기', '경상남도': '경남', '경상북도': '경북', '광주시': '광주', '대구시': '대구', '대전시': '대전', '부산시': '부산', '서울시': '서울', '세종시': '세종', '울산시': '울산', '인천시': '인천', '전라남도': '전남', '전라북도': '전북', '제주도': '제주', '충청남도': '충남', '충청북도': '충북'}
power_data_df['지역'] = power_data_df['지역'].replace(local_tag_dic)
# 날짜와 시간데이터가 들어있는 행을 합쳐서 datetime타입으로 통합 후 int64타입으로 정수화
power_data_df['일시'] = pd.to_datetime(power_data_df['거래일']) + pd.to_timedelta(power_data_df['시간'], unit='h')
power_data_df['일시'] = power_data_df['일시'].dt.strftime('%Y%m%d%H%M').astype('int64')
# 열 다듬기
power_data_df = power_data_df.drop(columns=['거래일','시간'])
power_data_df = power_data_df[['지역','일시','합계']]
power_data_df.columns = ['LOC', 'TM', 'value']

In [5]:
power_data_df.to_csv('csv_files/generate_data.csv')

In [6]:
# DB에 발전량 데이터 저장
# engine = create_engine("mysql+pymysql://yoon:1234@10.10.21.81/solar_power_forecast?charset=utf8")
# power_data_df.index = power_data_df.index + 1

# try:
#     conn = engine.connect()
#     print('connected')
#     power_data_df.to_sql(name='generate_data', con=engine, if_exists='append') 
# except Exception as e:
#     print('Exception:', e)
#     print('fail')
# finally:
#     power_data_df.index = power_data_df.index - 1
#     conn.close()
#     print('DB close')

In [168]:
# 기상 데이터 로드 (기상청 API)
start_date = datetime(2020, 1, 1)
start_date_backup = start_date
end_date = datetime(2024, 1, 24)
key_code = 'user_key_code'
weather_data_list = []
columns_num = 46

while start_date<=end_date:
    # 1회 최대 호출 일수가 30일이기 때문에 datetime을 사용하여 기간 설정 
    s_date = start_date
    start_date += timedelta(days=29)
    if start_date>end_date:
        start_date = end_date
    e_date = start_date
    # 데이터를 호출해 리스트로 저장
    url1 = 'https://apihub.kma.go.kr/api/typ01/url/kma_sfctm3.php?'
    url2 = f'tm1={s_date.year}{s_date.month:02d}{s_date.day:02d}0000&tm2={e_date.year}{e_date.month:02d}{e_date.day:02d}2300&stn=0&help=0&authKey={key_code}'
    momth_data = requests.get(url1+url2).text.split()
    # start_dir을 설정해 사용할 데이터가 아닌 열 이름과 단위는 건너뛰고 시작, 종료문자가 나오면 데이터 저장 종료, columns_num은 데이터 호출 시 얻는 데이터의 개수
    start_dir = 93
    while(momth_data[start_dir]!='#7777END'):
        line_data = []
        for _ in range(columns_num):
            line_data.append(momth_data[start_dir])
            start_dir += 1
        weather_data_list.append(line_data)
    # 진행도 출력
    clear_output(wait=True)
    print(s_date.strftime('%Y-%m-%d'), '~', e_date.strftime('%Y-%m-%d'), 'Completed')
    # 다음 기간을 위해 하루 이동
    start_date += timedelta(days=1)

2024-01-10 ~ 2024-01-24 Completed


In [169]:
# 기상 데이터 전처리
weather_data_df = pd.DataFrame(weather_data_list, columns=['TM','STN','WD','WS','GST_WD','GST_WS','GST_TM','PA','PS','PT','PR','TA','TD','HM','PV','RN','RN_DAY','RN_JUN','RN_INT','SD_HR3','SD_DAY','SD_TOT','WC','WP','WW','CA_TOT','CA_MID','CH_MIN','CT','CT_TOP','CT_MID','CT_LOW','VS','SS','SI','ST_GD','TS','TE_005','TE_01','TE_02','TE_03','ST_SEA','WH','BF','IR','IX'])
# 활용하기 어려운 데이터 제외
delete_columns = [4, 5, 6, 9, 10, 15, 17, 18, 19, 20, 22, 23, 24, 27, 28, 29, 30, 31, 35, 37, 38, 39, 40, 41, 42, 43, 44, 45]
weather_data_df = weather_data_df.drop(weather_data_df.columns[delete_columns], axis=1)

In [None]:
# 결측 데이터 처리 (미측정 데이터는 0으로, 결측 데이터는 결측제외 평균)
weather_data_df = weather_data_df.apply(pd.to_numeric)
weather_data_df['WD'] = np.where(weather_data_df['WD']==-9, 0, weather_data_df['WD'])
weather_data_df['WS'] = np.where(weather_data_df['WS']==-9.0, 0.0, weather_data_df['WS'])
weather_data_df['PA'] = np.where(weather_data_df['PA']==-9.0, 1004.6, weather_data_df['PA'])
weather_data_df['PS'] = np.where(weather_data_df['PS']==-9.0, 1016.9, weather_data_df['PS'])
weather_data_df['TA'] = np.where(weather_data_df['TA']==-99.0, 12.8, weather_data_df['TA'])
weather_data_df['TD'] = np.where(weather_data_df['TD']==-99.0, 6.4, weather_data_df['TD'])
weather_data_df['HM'] = np.where(weather_data_df['HM']==-9.0, 69.0, weather_data_df['HM'])
weather_data_df['PV'] = np.where(weather_data_df['PV']==-9.0, 12.3, weather_data_df['PV'])
weather_data_df['RN_DAY'] = np.where(weather_data_df['RN_DAY']==-9.0, 0, weather_data_df['RN_DAY'])
weather_data_df['SD_TOT'] = np.where(weather_data_df['SD_TOT']==-9.0, 0, weather_data_df['SD_TOT'])
weather_data_df['CA_TOT'] = np.where(weather_data_df['CA_TOT']==-9, 0, weather_data_df['CA_TOT'])
weather_data_df['CA_MID'] = np.where(weather_data_df['CA_MID']==-9, 0, weather_data_df['CA_MID'])
weather_data_df['VS'] = np.where(weather_data_df['VS']==-9, 2065, weather_data_df['VS'])
weather_data_df['SS'] = np.where(weather_data_df['SS']==-9.0, 0.0, weather_data_df['SS'])
weather_data_df['SI'] = np.where(weather_data_df['SI']==-9.00, 0.00, weather_data_df['SI'])

In [None]:
# 관측소 매핑
local_data_dic = {'강원': [90, 93, 95, 100, 101, 104, 105, 106, 114, 121, 211, 212, 216, 217], '경기': [98, 99, 119, 202, 203], '경남': [155, 162, 192, 253, 255, 257, 263, 264, 284, 285, 288, 289, 294, 295], '경북': [115, 130, 136, 137, 138, 271, 272, 273, 276, 277, 278, 279, 281, 283], '광주': [156], '대구': [143], '대전': [133], '부산': [159, 296], '서울': [108], '세종': [239], '울산': [152], '인천': [102, 112, 201], '전남': [165, 168, 169, 170, 174, 252, 258, 259, 260, 261, 262, 266, 268], '전북': [140, 146, 172, 243, 244, 245, 247, 248, 251, 254], '제주': [184, 185, 188, 189], '충남': [129, 177, 232, 235, 236, 238], '충북': [127, 131, 135, 181, 221, 226]}
# nan으로 채운 새로운 행을 맨 앞에 삽입후 str타입으로 변경
weather_data_df.insert(0, 'LOC', np.nan)
weather_data_df['LOC'] = weather_data_df['LOC'].astype(str)
# weather_data_df의 STN(관측소번호)을 순회하면서 해당 번호가 local_data_dic의 value안에 있으면 value의 key를 LOC에 입력
for idx, stn_value in enumerate(weather_data_df['STN']):
    for loc, stn_list in local_data_dic.items():
        if stn_value in stn_list:
            weather_data_df.at[idx, 'LOC'] = loc
            break

In [170]:
weather_data_df.to_csv('csv_files/weather_data_ori_20200101_20240124.csv')

In [None]:
# 지역별 관측소 통합
mrg_weather_data_df = pd.DataFrame()

for loc in local_data_dic.keys():
    tmp_weather_data_df = pd.DataFrame()
    # 날씨 데이터프레임의 세 번째 열(LOC, TM제외)부터 반복하면서 각 기상 요소의 평균을 계산
    for col in weather_data_df.columns[3:]:
        mean_data = weather_data_df[weather_data_df['LOC']==loc].groupby('TM')[col].mean()
        tmp_weather_data_df = pd.concat([tmp_weather_data_df, mean_data], axis=1)
    # 임시 데이터프레임에 'LOC' 열을 추가하고 현재 지역(loc)을 채운 뒤 mrg_weather_data_df에 통합
    tmp_weather_data_df.insert(0, 'LOC', loc)
    mrg_weather_data_df = pd.concat([mrg_weather_data_df, tmp_weather_data_df], axis=0)
# 결과 데이터프레임의 인덱스를 재설정한 뒤, 열 이름을 변경하고, 순서를 변경
mrg_weather_data_df.reset_index(inplace=True)
mrg_weather_data_df.rename(columns={'index': 'TM'}, inplace=True)
new_order = ['LOC', 'TM', 'WD', 'WS', 'PA', 'PS', 'TA', 'TD', 'HM', 'PV', 'RN_DAY', 'SD_TOT', 'CA_TOT', 'CA_MID', 'VS', 'SS', 'SI', 'TS']
mrg_weather_data_df = mrg_weather_data_df[new_order]

In [None]:
# 결측일 데이터 입력
# mrg_weather_data_df를 지역별로 local_dic에 나누어 저장하고 결측일을 검사할 기간을 설정
local_data_list = ['강원', '경기', '경남', '경북', '광주', '대구', '대전', '부산', '서울', '세종', '울산', '인천', '전남', '전북', '제주', '충남', '충북']
local_dic = {region: mrg_weather_data_df[mrg_weather_data_df['LOC'].isin([region])] for region in local_data_list}
date_range = pd.date_range(start=start_date_backup, end=end_date+timedelta(days=1), freq='H')
# 지역별로 TM의 int64타입을 datetime으로 바꾸고, 지정한 기간만큼 빈 구간의 TM을 채움 (그 외 열은 null로 채워짐)
# ffill을 사용하여 이전행의 데이터를 현재행에 복사
# 설정한 기간의 시작:00시부터 끝:00시까지 데이터가 만들어지므로 마지막 데이터는 삭제 (마지막일에+1일을 한 이유, end_date+timedelta(days=1))
for loc in local_data_list:
    tmp_df = local_dic[loc].copy()
    tmp_df['TM'] = pd.to_datetime(tmp_df['TM'], format='%Y%m%d%H%M')
    tmp_df = tmp_df.set_index('TM').reindex(date_range).reset_index()
    tmp_df = tmp_df.rename(columns={'index': 'TM'})
    tmp_df.iloc[:, 1:] = tmp_df.iloc[:, 1:].ffill()
    tmp_df = tmp_df.drop(tmp_df.index[-1])
    local_dic[loc] = tmp_df.copy()
# 지역별 데이터프레임을 통합
cmb_weather_data_df = pd.concat(local_dic.values(), ignore_index=True)
cmb_weather_data_df = cmb_weather_data_df[['LOC', 'TM'] + cmb_weather_data_df.columns.tolist()[2:]]
cmb_weather_data_df['TM'] = cmb_weather_data_df['TM'].dt.strftime('%Y%m%d%H%M').astype('int64')

In [171]:
# 기상청 API와 데이터형 통일
cmb_weather_data_df['WD'] = cmb_weather_data_df['WD'].round().astype(int)
cmb_weather_data_df['WS'] = cmb_weather_data_df['WS'].round(1).astype(float)
cmb_weather_data_df['PA'] = cmb_weather_data_df['PA'].round(1).astype(float)
cmb_weather_data_df['PS'] = cmb_weather_data_df['PS'].round(1).astype(float)
cmb_weather_data_df['TA'] = cmb_weather_data_df['TA'].round(1).astype(float)
cmb_weather_data_df['TD'] = cmb_weather_data_df['TD'].round(1).astype(float)
cmb_weather_data_df['HM'] = cmb_weather_data_df['HM'].round(1).astype(float)
cmb_weather_data_df['PV'] = cmb_weather_data_df['PV'].round(1).astype(float)
cmb_weather_data_df['RN_DAY'] = cmb_weather_data_df['RN_DAY'].round(1).astype(float)
cmb_weather_data_df['SD_TOT'] = cmb_weather_data_df['SD_TOT'].round(1).astype(float)
cmb_weather_data_df['CA_TOT'] = cmb_weather_data_df['CA_TOT'].round(1).astype(float)
cmb_weather_data_df['CA_MID'] = cmb_weather_data_df['CA_MID'].round(1).astype(float)
cmb_weather_data_df['VS'] = cmb_weather_data_df['VS'].round().astype(int)
cmb_weather_data_df['SS'] = cmb_weather_data_df['SS'].round(1).astype(float)
cmb_weather_data_df['SI'] = cmb_weather_data_df['SI'].round(2).astype(float)
cmb_weather_data_df['TS'] = cmb_weather_data_df['TS'].round(1).astype(float)

In [173]:
cmb_weather_data_df.to_csv('csv_files/weather_data_mrg_20200101_20240124.csv')

In [12]:
# DB에 기상 데이터 저장
# engine = create_engine("mysql+pymysql://yoon:1234@10.10.21.81/solar_power_forecast?charset=utf8")
# weather_data_df.index = weather_data_df.index + 1
# mrg_weather_data_df.index = mrg_weather_data_df.index + 1

# try:
#     conn = engine.connect()
#     print('connected')
#     weather_data_df.to_sql(name='weather_data', con=engine, if_exists='append') 
#     mrg_weather_data_df.to_sql(name='mean_weather', con=engine, if_exists='append') 
# except Exception as e:
#     print('Exception:', e)
#     print('fail')
# finally:
#     weather_data_df.index = weather_data_df.index - 1
#     mrg_weather_data_df.index = mrg_weather_data_df.index - 1
#     conn.close()
#     print('DB close')