# [가뭄지수 + 생산량 + 재배면적 + 종합유가 + 도매가] 데이터셋 작성

### import

In [1]:
import os
import numpy as np
import pandas as pd
import statistics
import datetime
from datetime import date, timedelta
from dateutil.relativedelta import relativedelta
import datetime as dt 
import warnings
warnings.filterwarnings(action='ignore')

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 500)

### 데이터셋 input

In [2]:
## 예측가격 결정요인
가뭄지수 = pd.read_csv("../data/가뭄/2013_2020_가뭄지수데이터.csv", index_col = 0)
면세유가 = pd.read_csv("../data/유가/13_21_면세유가.csv", index_col = 0)
일반유가 = pd.read_csv("../data/유가/원본/13_21_주유소_지역별_평균판매가격.csv", encoding = "CP949")
면적생산 = pd.read_csv("../data/재배면적_생산량/2013_2020_주요지역_재배면적_생산량.csv", index_col = 0)
수입량 = pd.read_csv("../data/수입량/2013_2021월간배추수입량.csv", encoding = "CP949", names=["연도", "월", "수출(중량)", "수출(금액)", "수입(중량)", "수입(금액)"], thousands = ',')

## 관측지점 관련 데이터
addr = pd.read_excel('../data/지역/한국행정구역분류_2022.7.1.기준_20220630022706.xlsx', sheet_name = 1, header = [2, 2])
addr.drop('Unnamed: 0_level_0', axis = 1, inplace = True)
addr.columns = addr.columns.droplevel(1)
ori_coords = pd.read_excel('../data/지역/행정구역별_위경도_좌표.xlsx', sheet_name = None)
obPoints = pd.read_csv('../data/지역/관측지점_원본_기상청.csv')

### 태백시의 가뭄지수 결측치에 대한 대체값(최인접 지점-봉화군(결측)-울진군) 적용

In [3]:
태백측정일자 = list()
for item in 가뭄지수[가뭄지수['시군명'] == '태백시']['발표일자'].unique() :
    태백측정일자.append(item)

가뭄지수_울진 = 가뭄지수[가뭄지수['시군명'] == '울진군']
가뭄지수_울진_추출 = 가뭄지수_울진[가뭄지수['발표일자'].apply(lambda x : x in 태백측정일자) == False]

## 추출된 울진지점 정보에 태백시 대입
가뭄지수_울진_추출['지점명'] = '태백'
가뭄지수_울진_추출['시군명'] = '태백시'
#가뭄지수_울진_추출['시도명'] = '강원'
가뭄지수_울진_추출

가뭄지수 = pd.concat([가뭄지수, 가뭄지수_울진_추출], ignore_index = True)
가뭄지수

Unnamed: 0,발표일자,지점명,시군명,SPI1,SPI1_가뭄단계,SPI3,SPI3_가뭄단계,EDI,EDI_가뭄단계
0,2013-01-01,속초,고성군,0.47,정상,-0.46,정상,-0.71,약한 가뭄
1,2013-01-01,철원,철원군,,미판단,,미판단,,미판단
2,2013-01-01,대관령,평창군,1.00,습함,-0.73,정상,-1.08,보통 가뭄
3,2013-01-01,춘천,춘천시,1.42,습함,1.46,습함,0.51,정상
4,2013-01-01,강릉,강릉시,0.41,정상,-1.45,약한 가뭄,-0.62,정상
...,...,...,...,...,...,...,...,...,...
184796,2017-12-28,태백,태백시,-0.74,정상,-0.13,정상,-0.75,약한 가뭄
184797,2017-12-29,태백,태백시,-0.63,정상,-0.11,정상,-0.78,약한 가뭄
184798,2017-12-30,태백,태백시,-0.55,정상,-0.07,정상,-0.78,약한 가뭄
184799,2017-12-31,태백,태백시,-0.57,정상,-0.12,정상,-0.81,약한 가뭄


## 1. 가뭄지수 + 종합유가(일반유가 + 면세유가)

In [4]:
# ## For Debug.
# ## 일자 연속성 확인
# df = 가뭄지수.sort_values('발표일자')

# df['발표일자'] = df['발표일자'].apply(lambda x : str(x))
# df['발표일자']

# prev_date = df['발표일자'].unique()[0]
# td = timedelta(days = 1)

# for dt in df['발표일자'].unique():
#     if dt != date.isoformat(date.fromisoformat(prev_date) + td) :
#         print(prev_date, dt)
#     prev_date = dt

In [5]:
## 특이하게 저장된 부분들 편집
가뭄지수.replace('포항시남구',"포항시", inplace=True)
가뭄지수.replace('전주시덕진구',"전주시", inplace=True)
가뭄지수.replace('청주시흥덕구',"청주시", inplace=True)
가뭄지수.replace('\xa0서울특별시', '서울특별시', inplace = True)
가뭄지수.replace('\xa0인천광역시', '인천광역시', inplace = True)
가뭄지수.replace('\xa0대전광역시', '대전광역시', inplace = True)
가뭄지수.replace('\xa0대구광역시', '대구광역시', inplace = True)
가뭄지수.replace('\xa0울산광역시', '울산광역시', inplace = True)
가뭄지수.replace('\xa0광주광역시', '광주광역시', inplace = True)
가뭄지수.replace('\xa0부산광역시', '부산광역시', inplace = True)

### 1-1. 가뭄지수 관측지점의 시도명 추출

In [6]:
## 시도명 컬럼 추가
## (time...)
가뭄지수['시도명'] = ''

## 시도명 탐색 후 대입
def helper(target) :
    try :
        ans = addr[addr['시군구'] == target].iloc[0]['시도']
    except :
        ans = addr[addr['시도'] == target].iloc[0]['시도']
        
    if ans[:2] in 면세유가.columns :
        return ans[:2]
    else :
        return (ans[0] + ans[2])

가뭄지수['시도명'] = 가뭄지수['시군명'].apply(lambda x : helper(x))
가뭄지수

Unnamed: 0,발표일자,지점명,시군명,SPI1,SPI1_가뭄단계,SPI3,SPI3_가뭄단계,EDI,EDI_가뭄단계,시도명
0,2013-01-01,속초,고성군,0.47,정상,-0.46,정상,-0.71,약한 가뭄,강원
1,2013-01-01,철원,철원군,,미판단,,미판단,,미판단,강원
2,2013-01-01,대관령,평창군,1.00,습함,-0.73,정상,-1.08,보통 가뭄,강원
3,2013-01-01,춘천,춘천시,1.42,습함,1.46,습함,0.51,정상,강원
4,2013-01-01,강릉,강릉시,0.41,정상,-1.45,약한 가뭄,-0.62,정상,강원
...,...,...,...,...,...,...,...,...,...,...
184796,2017-12-28,태백,태백시,-0.74,정상,-0.13,정상,-0.75,약한 가뭄,강원
184797,2017-12-29,태백,태백시,-0.63,정상,-0.11,정상,-0.78,약한 가뭄,강원
184798,2017-12-30,태백,태백시,-0.55,정상,-0.07,정상,-0.78,약한 가뭄,강원
184799,2017-12-31,태백,태백시,-0.57,정상,-0.12,정상,-0.81,약한 가뭄,강원


### 1-2. 일반유가 merge

In [7]:
## 일반유가 Merge
## (time...)

일반유가['구분'] = 일반유가['구분'].str.replace('년', '-')
일반유가['구분'] = 일반유가['구분'].str.replace('월', '-')
일반유가['구분'] = 일반유가['구분'].str.replace('일', '')
일반유가

## 컬럼으로 나누어진 지명을 로우로 변환
일반유가_월별정리 = pd.DataFrame()
for idx in 일반유가.index :
    for col in 일반유가.columns[1:] :
        temp = {'날짜' : 일반유가['구분'][idx], '지역' : col, '일반유가' : 일반유가[col][idx]}
        일반유가_월별정리 = pd.concat([일반유가_월별정리, pd.DataFrame([temp])])

## 가뭄지수-일반유가 Merge
가뭄지수_일반 = pd.merge(가뭄지수, 일반유가_월별정리, left_on = ['발표일자', '시도명'], right_on = ['날짜', '지역'], how = 'left')
가뭄지수_일반

Unnamed: 0,발표일자,지점명,시군명,SPI1,SPI1_가뭄단계,SPI3,SPI3_가뭄단계,EDI,EDI_가뭄단계,시도명,날짜,지역,일반유가
0,2013-01-01,속초,고성군,0.47,정상,-0.46,정상,-0.71,약한 가뭄,강원,2013-01-01,강원,1762.79
1,2013-01-01,철원,철원군,,미판단,,미판단,,미판단,강원,2013-01-01,강원,1762.79
2,2013-01-01,대관령,평창군,1.00,습함,-0.73,정상,-1.08,보통 가뭄,강원,2013-01-01,강원,1762.79
3,2013-01-01,춘천,춘천시,1.42,습함,1.46,습함,0.51,정상,강원,2013-01-01,강원,1762.79
4,2013-01-01,강릉,강릉시,0.41,정상,-1.45,약한 가뭄,-0.62,정상,강원,2013-01-01,강원,1762.79
...,...,...,...,...,...,...,...,...,...,...,...,...,...
184796,2017-12-28,태백,태백시,-0.74,정상,-0.13,정상,-0.75,약한 가뭄,강원,2017-12-28,강원,1339.69
184797,2017-12-29,태백,태백시,-0.63,정상,-0.11,정상,-0.78,약한 가뭄,강원,2017-12-29,강원,1340.21
184798,2017-12-30,태백,태백시,-0.55,정상,-0.07,정상,-0.78,약한 가뭄,강원,2017-12-30,강원,1340.70
184799,2017-12-31,태백,태백시,-0.57,정상,-0.12,정상,-0.81,약한 가뭄,강원,2017-12-31,강원,1340.84


### 1-3. 면세유가 merge

In [8]:
## 면세유가 Merge
## (time...)

## 컬럼으로 나누어진 지명을 로우로 변환
면세유가_월별정리 = pd.DataFrame()
for idx in 면세유가.index :
    for col in 면세유가.columns[1:] :
        temp = {'날짜' : 면세유가['날짜'][idx], 
                '지역' : col, 
                '면세유가' : 면세유가[col][idx]}
        면세유가_월별정리 = pd.concat([면세유가_월별정리, pd.DataFrame([temp])])
면세유가_월별정리

## 가뭄지수-면세유가 Merge
가뭄지수_종합유가 = pd.merge(가뭄지수_일반, 면세유가_월별정리, left_on = ['날짜', '지역'], right_on = ['날짜', '지역'], how = 'left')
가뭄지수_종합유가

Unnamed: 0,발표일자,지점명,시군명,SPI1,SPI1_가뭄단계,SPI3,SPI3_가뭄단계,EDI,EDI_가뭄단계,시도명,날짜,지역,일반유가,면세유가
0,2013-01-01,속초,고성군,0.47,정상,-0.46,정상,-0.71,약한 가뭄,강원,2013-01-01,강원,1762.79,1157.305617
1,2013-01-01,철원,철원군,,미판단,,미판단,,미판단,강원,2013-01-01,강원,1762.79,1157.305617
2,2013-01-01,대관령,평창군,1.00,습함,-0.73,정상,-1.08,보통 가뭄,강원,2013-01-01,강원,1762.79,1157.305617
3,2013-01-01,춘천,춘천시,1.42,습함,1.46,습함,0.51,정상,강원,2013-01-01,강원,1762.79,1157.305617
4,2013-01-01,강릉,강릉시,0.41,정상,-1.45,약한 가뭄,-0.62,정상,강원,2013-01-01,강원,1762.79,1157.305617
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
184796,2017-12-28,태백,태백시,-0.74,정상,-0.13,정상,-0.75,약한 가뭄,강원,2017-12-28,강원,1339.69,751.140000
184797,2017-12-29,태백,태백시,-0.63,정상,-0.11,정상,-0.78,약한 가뭄,강원,2017-12-29,강원,1340.21,752.160000
184798,2017-12-30,태백,태백시,-0.55,정상,-0.07,정상,-0.78,약한 가뭄,강원,2017-12-30,강원,1340.70,751.600000
184799,2017-12-31,태백,태백시,-0.57,정상,-0.12,정상,-0.81,약한 가뭄,강원,2017-12-31,강원,1340.84,751.140000


## 2. (가뭄지수+종합유가) + 면적생산

In [9]:
## 연도 컬럼 추가
가뭄지수_종합유가['연도'] = ''
가뭄지수_종합유가['연도'] = 가뭄지수_종합유가['발표일자'].apply(lambda x : x[:4])
가뭄지수_종합유가

Unnamed: 0,발표일자,지점명,시군명,SPI1,SPI1_가뭄단계,SPI3,SPI3_가뭄단계,EDI,EDI_가뭄단계,시도명,날짜,지역,일반유가,면세유가,연도
0,2013-01-01,속초,고성군,0.47,정상,-0.46,정상,-0.71,약한 가뭄,강원,2013-01-01,강원,1762.79,1157.305617,2013
1,2013-01-01,철원,철원군,,미판단,,미판단,,미판단,강원,2013-01-01,강원,1762.79,1157.305617,2013
2,2013-01-01,대관령,평창군,1.00,습함,-0.73,정상,-1.08,보통 가뭄,강원,2013-01-01,강원,1762.79,1157.305617,2013
3,2013-01-01,춘천,춘천시,1.42,습함,1.46,습함,0.51,정상,강원,2013-01-01,강원,1762.79,1157.305617,2013
4,2013-01-01,강릉,강릉시,0.41,정상,-1.45,약한 가뭄,-0.62,정상,강원,2013-01-01,강원,1762.79,1157.305617,2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
184796,2017-12-28,태백,태백시,-0.74,정상,-0.13,정상,-0.75,약한 가뭄,강원,2017-12-28,강원,1339.69,751.140000,2017
184797,2017-12-29,태백,태백시,-0.63,정상,-0.11,정상,-0.78,약한 가뭄,강원,2017-12-29,강원,1340.21,752.160000,2017
184798,2017-12-30,태백,태백시,-0.55,정상,-0.07,정상,-0.78,약한 가뭄,강원,2017-12-30,강원,1340.70,751.600000,2017
184799,2017-12-31,태백,태백시,-0.57,정상,-0.12,정상,-0.81,약한 가뭄,강원,2017-12-31,강원,1340.84,751.140000,2017


### 2-1. 각 배추 품종별 최대면적 row 추출

In [10]:
# 계절별 구분 필요
최대값 = pd.DataFrame()
for season in 면적생산['품명'].unique() :
    temp = pd.DataFrame(면적생산[면적생산['품명'] == season].groupby(['연도', '품명'])['면적'].max()).reset_index()
    최대값 = pd.concat([최대값, temp] , ignore_index = True)
최대값

Unnamed: 0,연도,품명,면적
0,2013,봄,120
1,2014,봄,90
2,2015,봄,60
3,2016,봄,160
4,2017,봄,280
5,2018,봄,175
6,2019,봄,318
7,2020,봄,363
8,2013,겨울,2842
9,2014,겨울,2718


### 2-2. 최대면적 해당 지역 및 생산량 탐색

In [11]:
면적생산_최대면적 = pd.DataFrame()
for idx in 최대값.index :
    
    merged = 면적생산[(면적생산['연도'] == 최대값['연도'][idx]) & 
                   (면적생산['품명'] == 최대값['품명'][idx]) &
                   (면적생산['면적'] == 최대값['면적'][idx])]
    
    면적생산_최대면적 = pd.concat([면적생산_최대면적, merged] , ignore_index = True)
면적생산_최대면적['지역'] = 면적생산_최대면적['지역'].replace('예산시', '예산군')

### 2-3. 관측지점 대체 지역 리스트 작성

In [12]:
## 최대면적 해당 지역과 관측지점 불일치로 인한 대체 지역 리스트
noItemLi = list()
for item in 면적생산_최대면적['지역'].unique()  :
    if not item in 가뭄지수_종합유가['시군명'].unique() :
        noItemLi.append(item)

## 관측지점 불일치 지점 목록 DF화
noItemDF = pd.DataFrame(noItemLi, columns = ['시군구'])

## 개정 지명 예외처리
noItemDF.replace('마산시', '창원시', inplace = True)
noItemDF.replace('진해시', '창원시', inplace = True)
noItemDF.replace('예산시', '예산군', inplace = True)
noItemDF.replace('세종특별시', '세종특별자치시', inplace = True)

noItemDF

Unnamed: 0,시군구
0,예산군
1,정선군


### 2-4. 관측지점 대체를 위한 지점별 좌표 정보 탐색

In [13]:
pd.concat(ori_coords, ignore_index = True)

Unnamed: 0,시도,시군구,읍면동/구,읍/면/리/동,리,위도,경도
0,서울특별시,,,,,37.566610,126.978388
1,서울특별시,강동구,,,,37.530126,127.123771
2,서울특별시,강동구,천호동,,,37.545016,127.136807
3,서울특별시,강동구,성내동,,,37.530442,127.122425
4,서울특별시,강동구,암사동,,,37.551508,127.132663
...,...,...,...,...,...,...,...
21811,인천광역시,중구,율목동,,,37.469337,126.635757
21812,인천광역시,중구,도원동,,,37.468094,126.637901
21813,인천광역시,중구,신흥동,,,37.467596,126.634139
21814,인천광역시,중구,신포동,,,37.470363,126.625071


In [14]:
## 행정구역별 좌표 자료
ori_coords = pd.concat(ori_coords, ignore_index = True)

## 개정지명 예외처리
# ori_coords.replace('예산군', '예산시', inplace = True)
# ori_coords.replace('양양군', '양양시', inplace = True)

## 시군구 단위 추출
coords = ori_coords

dropidx = coords[coords['읍면동/구'].isna() == False].index
coords.drop(dropidx, inplace = True)
coords.drop(['읍면동/구', '읍/면/리/동', '리'], axis = 1, inplace = True)
coords.reset_index(drop = True, inplace =True)

#coords.to_csv("./data/지역/전국행정구역좌표정리.csv", encoding = 'utf-8-sig')

coords['시군구'].fillna(coords['시도'], inplace = True)
coords['시군구'].str.strip()

coords

Unnamed: 0,시도,시군구,위도,경도
0,서울특별시,서울특별시,37.56661,126.978388
1,서울특별시,강동구,37.530126,127.123771
2,서울특별시,송파구,37.514564,127.105919
3,서울특별시,강남구,37.517305,127.047502
4,서울특별시,서초구,37.483569,127.032598
5,서울특별시,관악구,37.478155,126.951485
6,서울특별시,동작구,37.51245,126.9395
7,서울특별시,영등포구,37.526436,126.896004
8,서울특별시,금천구,37.456864,126.895511
9,서울특별시,구로구,37.495472,126.887536


### 2-5. 관측지점 불일치 지점의 좌표 정보 mapping

In [15]:
noItemCoordsDF = pd.merge(noItemDF, coords, on = '시군구', how = 'left').drop('시도', axis = 1)
noItemCoordsDF['대체지점명'] = ''
noItemCoordsDF

Unnamed: 0,시군구,위도,경도,대체지점명
0,예산군,36.6809,126.844738,
1,정선군,37.380609,128.660871,


### 2-6. 기상청 관측지점 좌표 정보 탐색

In [16]:
## 기상청 관측지점 정보
obPoints.dropna(inplace = True)
obPoints.drop(columns = ['종료시각', '시작시각', '노장 해발고도(m)','기압계', '기온계', '풍속계', '강우계'], inplace = True)
obPoints.columns = ['지점코드', '지점명', '주소', '위도', '경도']
obPoints.reset_index(drop = True)

obPoints.주소 = obPoints.주소.str.split(" ")
region = []
for item in obPoints["주소"]:
    first = item[0]
    second = item[1]
    
    if "시" in second:
        region.append(second)
    elif "군" in second:
        region.append(second)
    elif "시" in first:
        region.append(first)
        
obPoints["주소"] = region

## 원본 데이터 내 이상 데이터 편집
obPoints.replace('포항시남구',"포항시", inplace=True)
obPoints.replace('전주시덕진구',"전주시", inplace=True)
obPoints.replace('청주시흥덕구',"청주시", inplace=True)
obPoints.replace('\xa0서울특별시', '서울특별시', inplace = True)
obPoints.replace('\xa0인천광역시', '인천광역시', inplace = True)
obPoints.replace('\xa0대전광역시', '대전광역시', inplace = True)
obPoints.replace('\xa0대구광역시', '대구광역시', inplace = True)
obPoints.replace('\xa0울산광역시', '울산광역시', inplace = True)
obPoints.replace('\xa0광주광역시', '광주광역시', inplace = True)
obPoints.replace('\xa0부산광역시', '부산광역시', inplace = True)

## 전체 기상청 관측지점 중 가뭄지수 관측 지점에 해당하는 68개 지점 추출
def helper(x) :
    if x in list(가뭄지수['시군명'].unique()) :
        return x
    else :
        np.nan

obPoints['주소'] = obPoints['주소'].apply(lambda x : helper(x))
obPoints.dropna(inplace = True)
obPoints.reset_index(drop = True, inplace = True)

obPoints

Unnamed: 0,지점코드,지점명,주소,위도,경도
0,90,속초,고성군,38.25085,128.56473
1,95,철원,철원군,38.14787,127.3042
2,100,대관령,평창군,37.67713,128.71834
3,101,춘천,춘천시,37.90262,127.7357
4,104,북강릉,강릉시,37.80456,128.85535
5,105,강릉,강릉시,37.75147,128.89099
6,108,서울,서울특별시,37.57142,126.9658
7,112,인천,인천광역시,37.47772,126.6249
8,114,원주,원주시,37.33749,127.94659
9,119,수원,수원시,37.25746,126.983


### 2-7. 최단거리내의 대체 관측지점 탐색 및 대입

In [17]:
def dist(x_long, x_lati) :
    minLi = list()
    
    for idx in obPoints.index :
        long = pow(float(x_long) - float(obPoints.loc[idx]['경도']), 2)
        lati = pow(float(x_lati) - float(obPoints.loc[idx]['위도']), 2)
        minLi.append([np.sqrt(long + lati), obPoints.loc[idx]['주소']])
        
    return minLi[minLi.index(min(minLi))][1]

noItemCoordsDF['대체지점명'] = noItemCoordsDF.apply(lambda x : dist(x['경도'], x['위도']), axis = 1)
noItemCoordsDF.drop_duplicates(keep = 'first', inplace = True)
noItemCoordsDF

Unnamed: 0,시군구,위도,경도,대체지점명
0,예산군,36.6809,126.844738,서산시
1,정선군,37.380609,128.660871,평창군


### 2-8. 대체관측지점 추가

In [18]:
면적생산_대체지점 = pd.merge(면적생산_최대면적, noItemCoordsDF, left_on = '지역', right_on = '시군구', how = 'left')
면적생산_대체지점 = 면적생산_대체지점[['연도', '품명', '지역', '면적', '생산량', '대체지점명']]

## 대체지점있을 경우 적용, 없으면 기존 관측지점을 그대로 적용
def helper(x_ori, x_rep) :
    if pd.isna(x_rep) :
        return x_ori
    else :
        return x_rep

면적생산_대체지점['관측지점명'] = 면적생산_대체지점.apply(lambda x : helper(x['지역'], x['대체지점명']), axis = 1)
면적생산_대체지점.drop(['대체지점명'], axis = 1, inplace = True)
면적생산_대체지점.columns = ['연도', '품명', '지명' ,'면적', '생산량', '관측지점명']
면적생산_대체지점['연도'] = 면적생산_대체지점['연도'].apply(lambda x : str(x))
면적생산_대체지점

Unnamed: 0,연도,품명,지명,면적,생산량,관측지점명
0,2013,봄,예산군,120,383696,서산시
1,2014,봄,예산군,90,364326,서산시
2,2015,봄,예산군,60,287371,서산시
3,2016,봄,예산군,160,265919,서산시
4,2017,봄,예산군,280,519000,서산시
5,2018,봄,예산군,175,370000,서산시
6,2019,봄,문경시,318,270000,문경시
7,2020,봄,문경시,363,271700,문경시
8,2013,겨울,해남군,2842,348375,해남군
9,2014,겨울,해남군,2718,358017,해남군


### 2-9. 면적생산 merge

In [19]:
## 가뭄지수_종합유가 DF - 면적생산 DF Merge
가뭄지수_종합유가_면적생산 = pd.merge(가뭄지수_종합유가, 면적생산_대체지점, left_on = ['연도', '시군명'], right_on = ['연도', '관측지점명'], how = 'right')

가뭄지수_종합유가_면적생산.drop(['연도'], axis = 1, inplace = True)
가뭄지수_종합유가_면적생산 = 가뭄지수_종합유가_면적생산[['발표일자', '품명', '지점명', '시군명', '시도명', '지역', '관측지점명', '일반유가', '면세유가', '지명', '면적', '생산량',
#                                  'SPI1_가뭄단계_미판단', 'SPI1_가뭄단계_보통 가뭄', 'SPI1_가뭄단계_습함', 'SPI1_가뭄단계_심한 가뭄', 'SPI1_가뭄단계_약한 가뭄', 'SPI1_가뭄단계_정상', 
#                                  'SPI3_가뭄단계_미판단', 'SPI3_가뭄단계_보통 가뭄', 'SPI3_가뭄단계_습함', 'SPI3_가뭄단계_심한 가뭄', 'SPI3_가뭄단계_약한 가뭄', 'SPI3_가뭄단계_정상', 
#                                  'EDI_가뭄단계_극심한 가뭄', 'EDI_가뭄단계_미판단','EDI_가뭄단계_보통 가뭄', 'EDI_가뭄단계_습함', 'EDI_가뭄단계_심한 가뭄', 'EDI_가뭄단계_약한 가뭄', 'EDI_가뭄단계_정상']]
                                 'SPI1', 'SPI1_가뭄단계', 'SPI3', 'SPI3_가뭄단계', 'EDI','EDI_가뭄단계']]
가뭄지수_종합유가_면적생산

Unnamed: 0,발표일자,품명,지점명,시군명,시도명,지역,관측지점명,일반유가,면세유가,지명,면적,생산량,SPI1,SPI1_가뭄단계,SPI3,SPI3_가뭄단계,EDI,EDI_가뭄단계
0,2013-01-01,봄,서산,서산시,충남,충남,서산시,1763.88,1162.397362,예산군,120,383696,1.52,습함,1.38,습함,1.90,습함
1,2013-01-02,봄,서산,서산시,충남,충남,서산시,1763.05,1161.642817,예산군,120,383696,1.72,습함,1.41,습함,2.28,습함
2,2013-01-03,봄,서산,서산시,충남,충남,서산시,1762.56,1161.197362,예산군,120,383696,1.52,습함,1.40,습함,2.22,습함
3,2013-01-04,봄,서산,서산시,충남,충남,서산시,1762.05,1160.733726,예산군,120,383696,1.59,습함,1.44,습함,2.17,습함
4,2013-01-05,봄,서산,서산시,충남,충남,서산시,1761.49,1160.224635,예산군,120,383696,1.12,습함,1.45,습함,2.14,습함
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11671,2020-12-27,여름,대관령,평창군,강원,강원,평창군,1206.70,644.650000,평창군,1407,354656,-1.76,보통 가뭄,-2.12,심한 가뭄,-0.34,정상
11672,2020-12-28,여름,대관령,평창군,강원,강원,평창군,1208.46,645.440000,평창군,1407,354656,-1.65,보통 가뭄,-2.07,심한 가뭄,-0.34,정상
11673,2020-12-29,여름,대관령,평창군,강원,강원,평창군,1212.49,648.790000,평창군,1407,354656,-1.48,약한 가뭄,-2.03,심한 가뭄,-0.35,정상
11674,2020-12-30,여름,대관령,평창군,강원,강원,평창군,1215.67,651.480000,평창군,1407,354656,-1.45,약한 가뭄,-2.02,심한 가뭄,-0.35,정상


# 3. (가뭄지수+종합유가 + 면적생산) + 수입량액

### 3-1. 수입량액 자료열 정리

In [20]:
수입량.drop(['수출(중량)', '수출(금액)', '수입(금액)'], axis = 1, inplace = True)
수입량.drop(수입량[수입량['월'] == '합'].index, inplace = True)
수입량.columns = ['연도', '월', '수입중량']

수입량['연도'] = 수입량['연도'].apply(lambda x : str(x))
수입량['월'] = 수입량['월'].apply(lambda x : str(x))

수입량['연월'] = 수입량['연도'] + '-' + 수입량['월']
수입량.drop(['연도', '월'], axis = 1, inplace = True)
수입량 = 수입량[['연월', '수입중량']]
수입량

Unnamed: 0,연월,수입중량
1,2013-01,616840.0
2,2013-02,278460.0
3,2013-03,234520.0
4,2013-04,31150.0
5,2013-05,24000.0
6,2013-06,0.0
7,2013-07,0.0
8,2013-08,0.0
9,2013-09,171305.0
10,2013-10,24000.0


### 3-2. 수입량액 연월 정보 추가 및 발표일자 str화

In [21]:
가뭄지수_종합유가_면적생산['발표일자'] = 가뭄지수_종합유가_면적생산['발표일자'].apply(lambda x : str(x))
가뭄지수_종합유가_면적생산['연월'] = 가뭄지수_종합유가_면적생산['발표일자'].apply(lambda x : x[:7])

### 3-3. 수입량액 merge

In [22]:
가뭄지수_종합유가_면적생산_수입량액 = pd.merge(가뭄지수_종합유가_면적생산, 수입량, on = '연월', how = 'left')

가뭄지수_종합유가_면적생산_수입량액.drop(['연월'], axis = 1, inplace = True)
가뭄지수_종합유가_면적생산_수입량액 = 가뭄지수_종합유가_면적생산_수입량액[['발표일자', '품명', '지점명', '시군명', '시도명', '지역', '지명', '관측지점명', '일반유가', '면세유가',  '면적','생산량', '수입중량',
#                                            'SPI1_가뭄단계_미판단', 'SPI1_가뭄단계_보통 가뭄', 'SPI1_가뭄단계_습함', 'SPI1_가뭄단계_심한 가뭄', 'SPI1_가뭄단계_약한 가뭄', 'SPI1_가뭄단계_정상', 
#                                            'SPI3_가뭄단계_미판단', 'SPI3_가뭄단계_보통 가뭄', 'SPI3_가뭄단계_습함', 'SPI3_가뭄단계_심한 가뭄', 'SPI3_가뭄단계_약한 가뭄', 'SPI3_가뭄단계_정상', 
#                                            'EDI_가뭄단계_극심한 가뭄', 'EDI_가뭄단계_미판단','EDI_가뭄단계_보통 가뭄', 'EDI_가뭄단계_습함', 'EDI_가뭄단계_심한 가뭄', 'EDI_가뭄단계_약한 가뭄', 'EDI_가뭄단계_정상']]
                                           'SPI1', 'SPI1_가뭄단계', 'SPI3', 'SPI3_가뭄단계', 'EDI','EDI_가뭄단계']]

가뭄지수_종합유가_면적생산_수입량액

Unnamed: 0,발표일자,품명,지점명,시군명,시도명,지역,지명,관측지점명,일반유가,면세유가,면적,생산량,수입중량,SPI1,SPI1_가뭄단계,SPI3,SPI3_가뭄단계,EDI,EDI_가뭄단계
0,2013-01-01,봄,서산,서산시,충남,충남,예산군,서산시,1763.88,1162.397362,120,383696,616840.0,1.52,습함,1.38,습함,1.90,습함
1,2013-01-02,봄,서산,서산시,충남,충남,예산군,서산시,1763.05,1161.642817,120,383696,616840.0,1.72,습함,1.41,습함,2.28,습함
2,2013-01-03,봄,서산,서산시,충남,충남,예산군,서산시,1762.56,1161.197362,120,383696,616840.0,1.52,습함,1.40,습함,2.22,습함
3,2013-01-04,봄,서산,서산시,충남,충남,예산군,서산시,1762.05,1160.733726,120,383696,616840.0,1.59,습함,1.44,습함,2.17,습함
4,2013-01-05,봄,서산,서산시,충남,충남,예산군,서산시,1761.49,1160.224635,120,383696,616840.0,1.12,습함,1.45,습함,2.14,습함
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11671,2020-12-27,여름,대관령,평창군,강원,강원,평창군,평창군,1206.70,644.650000,1407,354656,105600.0,-1.76,보통 가뭄,-2.12,심한 가뭄,-0.34,정상
11672,2020-12-28,여름,대관령,평창군,강원,강원,평창군,평창군,1208.46,645.440000,1407,354656,105600.0,-1.65,보통 가뭄,-2.07,심한 가뭄,-0.34,정상
11673,2020-12-29,여름,대관령,평창군,강원,강원,평창군,평창군,1212.49,648.790000,1407,354656,105600.0,-1.48,약한 가뭄,-2.03,심한 가뭄,-0.35,정상
11674,2020-12-30,여름,대관령,평창군,강원,강원,평창군,평창군,1215.67,651.480000,1407,354656,105600.0,-1.45,약한 가뭄,-2.02,심한 가뭄,-0.35,정상


In [23]:
# ## For Debug.
# ## 일자 연속성 확인
# df = 가뭄지수_면세유가_면적생산_수입량액.sort_values('발표일자')

# df['발표일자'] = df['발표일자'].apply(lambda x : str(x))
# df['발표일자']

# prev_date = df['발표일자'].unique()[0]
# td = timedelta(days = 1)

# for dt in df['발표일자'].unique():
#     if dt != date.isoformat(date.fromisoformat(prev_date) + td) :
#         print(prev_date, dt)
#     prev_date = dt

In [24]:
# ## For Debug.
# ## 모든 일자 별로 사계절 가격 추출되었는지 확인

# df = 가뭄지수_면세유가_면적생산_수입량액

# for idx in df.index :
#     cnt = len(df[df['발표일자'] == df['발표일자'][idx]]['품명'].unique())
#     print (str(idx) + '/' + str(len(df.index)) + ' : ' + str(cnt))
#     if cnt != 4 :
#         print(idx)
#         break

# 4. (가뭄지수+면세유가 + 면적생산 + 수입량액) + 도매가(지역별)

### 4-1. 지역별 최종학습데이터셋 파일 저장

In [25]:
최종 = list()
for loc in ['서울', '부산', '대구', '광주', '대전'] :
    df = pd.read_csv(f'../data/도매가/보간/13_21_{loc}_도매가보간.csv', encoding = 'utf-8-sig', index_col = 0)
    df.drop('지역', axis = 1, inplace = True)
    
    최종학습데이터 = pd.merge(가뭄지수_종합유가_면적생산_수입량액, df, left_on = ['발표일자', '품명'], right_on = ['날짜', '품명'], how = 'right')
    최종학습데이터.dropna(inplace = True)
    최종학습데이터.drop(['날짜', 'SPI1_가뭄단계', 'SPI3_가뭄단계', 'EDI_가뭄단계'], axis = 1, inplace = True)
    
    최종학습데이터.rename(columns = {'발표일자' : '날짜'}, inplace = True)
    최종학습데이터 = 최종학습데이터[['날짜', '품명', '지역', '지명', '관측지점명', '일반유가', '면세유가', '면적', '생산량', '수입중량',
#                                 'SPI1_가뭄단계_미판단', 'SPI1_가뭄단계_보통 가뭄', 'SPI1_가뭄단계_습함', 'SPI1_가뭄단계_심한 가뭄', 'SPI1_가뭄단계_약한 가뭄', 'SPI1_가뭄단계_정상', 
#                                  'SPI3_가뭄단계_미판단', 'SPI3_가뭄단계_보통 가뭄', 'SPI3_가뭄단계_습함', 'SPI3_가뭄단계_심한 가뭄', 'SPI3_가뭄단계_약한 가뭄', 'SPI3_가뭄단계_정상', 
#                                  'EDI_가뭄단계_극심한 가뭄', 'EDI_가뭄단계_미판단','EDI_가뭄단계_보통 가뭄', 'EDI_가뭄단계_습함', 'EDI_가뭄단계_심한 가뭄', 'EDI_가뭄단계_약한 가뭄', 'EDI_가뭄단계_정상']]
                       'SPI1', 'SPI3', 'EDI', '도매가격']].reset_index(drop = True)
    
    최종학습데이터.to_csv(f'../data/result/입력/학습데이터1차_{loc}.csv', encoding = 'utf-8-sig')
    최종.append(최종학습데이터)

In [26]:
최종[0]

Unnamed: 0,날짜,품명,지역,지명,관측지점명,일반유가,면세유가,면적,생산량,수입중량,SPI1,SPI3,EDI,도매가격
0,2013-01-01,가을,전남,해남군,해남군,1742.89,1131.756969,1547.0,1593000.0,616840.0,1.96,0.97,2.11,13000.0
1,2013-01-02,가을,전남,해남군,해남군,1742.85,1131.720605,1547.0,1593000.0,616840.0,1.97,0.97,2.02,13000.0
2,2013-01-03,겨울,전남,해남군,해남군,1741.97,1130.920605,2842.0,348375.0,616840.0,1.85,0.97,1.93,12000.0
3,2013-01-04,겨울,전남,해남군,해남군,1741.97,1130.920605,2842.0,348375.0,616840.0,1.83,1.04,1.90,12000.0
4,2013-01-05,겨울,전남,해남군,해남군,1741.93,1130.884242,2842.0,348375.0,616840.0,1.73,1.07,1.85,12000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2909,2020-12-27,가을,전남,해남군,해남군,1196.84,615.350000,2488.0,1339700.0,105600.0,-3.81,-2.24,-0.01,3500.0
2910,2020-12-28,가을,전남,해남군,해남군,1201.25,615.730000,2488.0,1339700.0,105600.0,-1.46,-1.94,0.14,4000.0
2911,2020-12-29,가을,전남,해남군,해남군,1206.17,618.840000,2488.0,1339700.0,105600.0,-1.39,-1.92,0.11,4000.0
2912,2020-12-30,가을,전남,해남군,해남군,1209.83,623.170000,2488.0,1339700.0,105600.0,-0.96,-1.82,0.20,4000.0


In [27]:
최종[4].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2914 entries, 0 to 2913
Data columns (total 14 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   날짜      2914 non-null   object 
 1   품명      2914 non-null   object 
 2   지역      2914 non-null   object 
 3   지명      2914 non-null   object 
 4   관측지점명   2914 non-null   object 
 5   일반유가    2914 non-null   float64
 6   면세유가    2914 non-null   float64
 7   면적      2914 non-null   float64
 8   생산량     2914 non-null   float64
 9   수입중량    2914 non-null   float64
 10  SPI1    2914 non-null   float64
 11  SPI3    2914 non-null   float64
 12  EDI     2914 non-null   float64
 13  도매가격    2914 non-null   float64
dtypes: float64(9), object(5)
memory usage: 318.8+ KB


### 최종학습데이터셋 조정 시 필요 데이터셋 저장

In [28]:
가뭄지수.to_csv("../data/result/입력/가뭄지수_최종정리.csv", encoding = "utf-8-sig")
일반유가_월별정리.to_csv("../data/result/입력/일반유가_최종정리.csv", encoding = "utf-8-sig")
면세유가_월별정리.to_csv("../data/result/입력/면세유가_최종정리.csv", encoding = "utf-8-sig")
면적생산_대체지점.to_csv("../data/result/입력/면적생산_최종정리.csv", encoding = "utf-8-sig")
수입량.to_csv("../data/result/입력/수입량_최종정리.csv", encoding = "utf-8-sig")