# 일조량에 따른 토마토 생산량과 가격 예측

- 토마토마(김준회, 연제호, 정다영, 추영은)
- 발표일 : 2020년 3월 19일

# 1. 서론

### 1) 분석 배경

최근 최악의 미세먼지 발생이 이어지면서 농작물의 피해가 속출하고 있다. 미세먼지가 햇빛을 막아 일조량이 크게 부족해져 작물의 상품성과 생산성이 뚝 떨어졌다는 뉴스가 나오고 있다. 농가에서 비닐하우스 위에 내려앉은 미세먼지를 자주 걷어내기 어렵고 유리온실도 미세먼지 등의 이유로 투광량이 떨어진다고 한다.

### 2) 분석 목적

미세먼지와 강수량에 따른 일조량의 변화와 토마토 생산량, 가격을 예측하고자 한다.

## 2. 데이터 준비

### 1) 활용 데이터

 데이터 | 사용 변수 | 시점 | 출처 | 파일 형식
:---:|:-------:|:---:|:---:|:--------:
토마토 일별 품목별 도.소매가격정보 | 품목명, 품종명,	시군구,	마켓명,	연도,	날짜,	가격 | 일 | [농산물유통정보](https://kdx.kr/kamis/periodProductList) | csv
농작물생산조사:채소생산량(과채류) | | 일 | [통계청](http://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1ET0027&vw_cd=MT_ZTITLE&list_id=F1H&seqNo=&lang_mode=ko&language=kor&obj_var_id=&itm_id=&conn_path=MT_ZTITLE) | csv
종관기상관측(ASOS) | 지점명,	일시,	평균기온,	일강수량,	합계 일조시간,	평균 전운량 | 일 | [기상청 기상자료개방포털](https://data.kma.go.kr/data/grnd/selectAsosRltmList.do?pgmNo=36) | csv
대기오염 최종확정자료  | 미세먼지 | 시간 | [AirKorea](https://www.airkorea.or.kr/web/last_amb_hour_data?pMENU_NO=123) | xlsx

## 3. 데이터 가공

### 1) 토마토 도매 가격 정보 전처리

In [None]:
import pandas as pd
import numpy as np

In [None]:
tomato = pd.read_csv('/20132016토마토_일별 품목별 도.소매가격정보.csv')



In [None]:
tomato.head()

### 2) 농작물생산조사:채소생산량(과채류)	

In [6]:
# 토마토 생산량 파일 불러오기
to = pd.read_csv('/Users/jungdayoung/Documents/GitHub/Learning_Spoons_Second_Project/채소생산량_과채류__20200304201937.csv', encoding='euc-kr', header=0)



In [7]:
# 토마토 생산량 파일 확인
to.head(1)

Unnamed: 0,시도별,2013,2013.1,2013.2,2013.3,2013.4,2013.5,2013.6,2013.7,2014,...,2017.6,2017.7,2018,2018.1,2018.2,2018.3,2018.4,2018.5,2018.6,2018.7
0,시도별,토마토:면적 (ha),생산량 (톤),노지토마토:면적 (ha),10a당 생산량 (kg),생산량 (톤),시설토마토:면적 (ha),10a당 생산량 (kg),생산량 (톤),토마토:면적 (ha),...,10a당 생산량 (kg),생산량 (톤),토마토:면적 (ha),생산량 (톤),노지토마토:면적 (ha),10a당 생산량 (kg),생산량 (톤),시설토마토:면적 (ha),10a당 생산량 (kg),생산량 (톤)


In [8]:
to.columns

Index(['시도별', '2013', '2013.1', '2013.2', '2013.3', '2013.4', '2013.5',
       '2013.6', '2013.7', '2014', '2014.1', '2014.2', '2014.3', '2014.4',
       '2014.5', '2014.6', '2014.7', '2015', '2015.1', '2015.2', '2015.3',
       '2015.4', '2015.5', '2015.6', '2015.7', '2016', '2016.1', '2016.2',
       '2016.3', '2016.4', '2016.5', '2016.6', '2016.7', '2017', '2017.1',
       '2017.2', '2017.3', '2017.4', '2017.5', '2017.6', '2017.7', '2018',
       '2018.1', '2018.2', '2018.3', '2018.4', '2018.5', '2018.6', '2018.7'],
      dtype='object')

In [9]:
to.columns = ['연도', '2013ㅊ', '2013', '2013', '2013', '2013', '2013',
       '2013', '2013', '2014', '2014', '2014', '2014', '2014',
       '2014', '2014', '2014', '2015', '2015', '2015', '2015',
       '2015', '2015', '2015', '2015', '2016', '2016', '2016',
       '2016', '2016', '2016', '2016', '2016', '2017', '2017',
       '2017', '2017', '2017', '2017', '2017', '2017', '2018',
       '2018', '2018', '2018', '2018', '2018', '2018', '2018']

In [18]:
to_cols = to.columns.to_list()
to_row = to.iloc[0]

to_cols = [f'{i} ' for i in to_cols]
tom = to_cols+to_row

In [20]:
tom[0] = "연도"

In [22]:
to.columns = tom

In [25]:
to = to.drop(labels=[0,1],axis=0)

In [28]:
to.reset_index(drop=True)

Unnamed: 0,연도,2013 토마토:면적 (ha),2013 생산량 (톤),2013 노지토마토:면적 (ha),2013 10a당 생산량 (kg),2013 생산량 (톤).1,2013 시설토마토:면적 (ha),2013 10a당 생산량 (kg).1,2013 생산량 (톤).2,2014 토마토:면적 (ha),...,2017 10a당 생산량 (kg),2017 생산량 (톤),2018 토마토:면적 (ha),2018 생산량 (톤),2018 노지토마토:면적 (ha),2018 10a당 생산량 (kg),2018 생산량 (톤).1,2018 시설토마토:면적 (ha),2018 10a당 생산량 (kg).1,2018 생산량 (톤).2
0,서울특별시,2,137,0,0,0,2,6850,137,1,...,1433,34,4,18,0,0,0,4,450,18
1,부산광역시,355,22056,0,0,0,355,6213,22056,423,...,6081,19196,363,25248,0,0,0,363,6952,25248
2,대구광역시,98,7933,0,0,0,98,8095,7933,71,...,5174,10201,167,11372,0,0,0,167,6800,11372
3,인천광역시,111,5130,0,0,0,111,4622,5130,120,...,7023,3887,54,3491,0,0,0,54,6515,3491
4,광주광역시,260,5613,0,0,0,260,2159,5613,216,...,7679,9751,123,11753,0,0,0,123,9538,11753
5,대전광역시,65,3260,0,0,0,65,5016,3260,34,...,4770,1304,21,880,0,0,0,21,4207,880
6,울산광역시,29,1601,0,0,0,29,5520,1601,39,...,5623,622,2,117,0,0,0,2,5150,117
7,세종특별자치시,-,-,-,-,-,-,-,-,-,...,4474,942,12,636,0,0,0,12,5221,636
8,경기도,548,36201,0,0,0,548,6606,36201,759,...,4303,16657,362,12348,0,0,0,362,3409,12348
9,강원도,669,41779,0,0,0,669,6245,41779,860,...,5259,44808,1061,62535,0,0,0,1061,5895,62535


In [45]:
tos = pd.melt(to, id_vars='연도')
tos.head()

Unnamed: 0,연도,0,value
0,서울특별시,2013 토마토:면적 (ha),2
1,부산광역시,2013 토마토:면적 (ha),355
2,대구광역시,2013 토마토:면적 (ha),98
3,인천광역시,2013 토마토:면적 (ha),111
4,광주광역시,2013 토마토:면적 (ha),260


In [37]:
tos.columns

Index(['연도', 0, 'value'], dtype='object')

In [95]:
toss = tos.groupby([0,'연도'])['value'].sum()

In [96]:
toss = pd.DataFrame(toss)

In [97]:
toss = toss.reset_index()
toss.rename(columns={0:'항목','연도':'시군구'},inplace=True)

In [98]:
toss['연도']=toss['항목'].str[:4]

In [99]:

toss['항목']=toss['항목'].str[4:]

0       10a당 생산량 (kg)
1       10a당 생산량 (kg)
2       10a당 생산량 (kg)
3       10a당 생산량 (kg)
4       10a당 생산량 (kg)
            ...      
505       토마토:면적 (ha)
506       토마토:면적 (ha)
507       토마토:면적 (ha)
508       토마토:면적 (ha)
509       토마토:면적 (ha)
Name: 항목, Length: 510, dtype: object

### 3) 종관기상관측 전처리

In [62]:
# 
df = pd.read_csv('/Users/jungdayoung/Documents/GitHub/Learning_Spoons_Second_Project/OBS_ASOS_DD_20200304204217.csv', encoding='euc-kr')


  interactivity=interactivity, compiler=compiler, result=result)


In [None]:
df.head(2)

In [None]:
df.columns

In [None]:
df_s = df[['지점명', '일시', '평균기온(°C)', '일강수량(mm)', '합계 일조시간(hr)', '평균 전운량(1/10)']]
df_s.head()

In [None]:
df_s.info()

## 4. 머신러닝 모델 적용

### 1) 시계열?

### 2) 랜덤포레스트