### 년도 별 파일 불러와 월별 합계 구하기
* 파일을 순차적으로 불러오기
* 월별 교통량 합계 구하기
* 월별로 데이터 셋으로 만들기 
* 월별 데이터셋 하나로 합치기
* csv 파일로 만들기

### 파일 불러오기
* 경로 : ./년도/01월 서울시 교통량 조사자료.xlsx

# 정리
* 2016년
    * G열 부터 시작(6열)
    * 파일명 : 2016년 01월 서울시 교통량 조사자료.xlsx
* 2017년(해결)
    * G열 부터 시작(6열)
    * 4월 오류 해결
* 2018년(정상)
    * 시트 2개. 필요 시트 2번째
    * G열 부터 시작(6열)
* 2019년(해결)
    * 시트 2개. 필요 시트 2번째
    * G열 부터 시작(6열)
        * 1월 H열 부터 시작(7열)
* 2020년(해결)
    * 시트 2개. 필요 시트 2번째
    * G열 부터 시작(6열)
        * 2, 12월 H열 부터 시작(7열)
* 2021년(정상)
    * 시트 2개. 필요 시트 2번째
    * G열 부터 시작(6열)

# 연도 별 값을 컬럼 기준으로 데이터 프레임 만들기

In [3]:
import pandas as pd

In [4]:
# 컬럼 명 리스트 만들기
cols = []
for i in range(24):
    tmp = f'{i}시'
    cols.append(tmp)
cols

['0시',
 '1시',
 '2시',
 '3시',
 '4시',
 '5시',
 '6시',
 '7시',
 '8시',
 '9시',
 '10시',
 '11시',
 '12시',
 '13시',
 '14시',
 '15시',
 '16시',
 '17시',
 '18시',
 '19시',
 '20시',
 '21시',
 '22시',
 '23시']

# 2016년

In [5]:
# 2017년 월별 통행량
# 파일명 : 2016년 01월 서울시 교통량 조사자료.xlsx
# 2017-2021년 처리 후 추가

year_2016 = []
for m in range(1, 13):
    month_dat = pd.read_excel(f'./2016/2016년 {m:0>2}월 서울시 교통량 조사자료.xlsx')
    # 에러 값을 nan값으로 바꾼 뒤
    # nan값 0으로 채우기
    for one in cols:
        month_dat[one] = month_dat[one].apply(pd.to_numeric, errors='coerce').fillna(0)

    month_sum = 0
    # 한달 총합 구하기
    for one in cols:
        tmp = month_dat[one].sum()
        month_sum += tmp
    year_2016.append(month_sum)
print(len(year_2016), year_2016)

12 [250005440.0, 246001116.0, 276016440.0, 277268102.0, 275774656.0, 267293206.0, 276590174.0, 266461912.0, 253064445.0, 263118836.0, 254555577.0, 264036326.0]


# 2017년

In [6]:
# 2017년 월별 통행량
# G열 부터 시작(6열)
# 4월 오류 해결(df = df.apply(pd.to_numeric, errors='coerce').fillna(0))

year_2017 = []
for m in range(1, 13):
    month_dat = pd.read_excel(f'./2017/{m:0>2}월 서울시 교통량 조사자료.xlsx')
    # 에러 값을 nan값으로 바꾼 뒤
    # nan값 0으로 채우기
    for one in cols:
        month_dat[one] = month_dat[one].apply(pd.to_numeric, errors='coerce').fillna(0)

    month_sum = 0
    # 한달 총합 구하기
    for one in cols:
        tmp = month_dat[one].sum()
        month_sum += tmp
    year_2017.append(month_sum)
print(len(year_2017), year_2017)

12 [227653568.0, 214298439.0, 242598574.0, 263975550.0, 295918625.0, 288598798.0, 292584832.0, 302005433.0, 293008364.0, 295585441.0, 282938331.0, 274825244.0]


# 2018년

In [7]:
# 2018년 월별 통행량
# 자료 변화가 있는 경우, 범주 탭이 들어가 있음. 두번째 탭에 자료 들어가 있어 오류 발생.
# 시트 2개. 필요 시트 2번째
year_2018 = []

for m in range(1, 13):
    month_dat = pd.read_excel(f'./2018/{m:0>2}월 서울시 교통량 조사자료.xlsx', sheet_name = 1)
    # nan값 0으로 채우기
    for one in cols:
        month_dat[one] = month_dat[one].apply(pd.to_numeric, errors='coerce').fillna(0)

    month_sum = 0
    # 한달 총합 구하기
    for one in cols:
        tmp = month_dat[one].sum()
        month_sum += tmp
    year_2018.append(month_sum)
print(len(year_2018), year_2018)

12 [231175275.50000003, 218083825.0, 262874087.0, 269400175.0, 273808519.0, 269474628.0, 280537278.0, 274327730.0, 265315676.0, 281863521.0, 272774028.0, 275658032.0]


# 2019년

In [8]:
# 2019년 월별 통행량
# 자료 변화가 있는 경우, 범주 탭이 들어가 있음. 두번째 탭에 자료 들어가 있어 오류 발생.
# 시트 2개. 필요 시트 2번째
year_2019 = []

for m in range(1, 13):
    month_dat = pd.read_excel(f'./2019/{m:0>2}월 서울시 교통량 조사자료.xlsx', sheet_name = 1)
    # nan값 0으로 채우기
    for one in cols:
        month_dat[one] = month_dat[one].apply(pd.to_numeric, errors='coerce').fillna(0)

    month_sum = 0
    # 한달 총합 구하기
    for one in cols:
        tmp = month_dat[one].sum()
        month_sum += tmp
    year_2019.append(month_sum)
print(len(year_2019), year_2019)

12 [293047880.0, 255946482.0, 291462852.0, 294804467.0, 301733907.0, 285145303.0, 292395939.0, 294338097.0, 274872597.0, 294622641.0, 293036874.0, 300392571.0]


# 2020년

In [9]:
# 2018년 월별 통행량
# 자료 변화가 있는 경우, 범주 탭이 들어가 있음. 두번째 탭에 자료 들어가 있어 오류 발생.
# 시트 2개. 필요 시트 2번째
year_2020 = []

for m in range(1, 13):
    month_dat = pd.read_excel(f'./2020/{m:0>2}월 서울시 교통량 조사자료.xlsx', sheet_name = 1)
    # nan값 0으로 채우기
    for one in cols:
        month_dat[one] = month_dat[one].apply(pd.to_numeric, errors='coerce').fillna(0)

    month_sum = 0
    # 한달 총합 구하기
    for one in cols:
        tmp = month_dat[one].sum()
        month_sum += tmp
    year_2020.append(month_sum)
print(len(year_2020), year_2020)

12 [287338914.0, 264851117.0, 276988930.0, 275890542.0, 291438374.0, 284005714.0, 292195000.0, 264936819.0, 257213165.0, 269114877.0, 265591295.0, 250758537.0]


# 2021년

In [82]:
# 2021년 월별 통행량
# 2021년 시트 3개. 필요 시트 2번째
# G열 부터 시작(6열)
year_2021 = []
for m in range(1, 9):
    month_dat = pd.read_excel(f'./2021/{m:0>2}월 서울시 교통량 조사자료.xlsx', sheet_name = 1)
    # 에러 값을 nan값으로 바꾼 뒤
    # nan값 0으로 채우기
    for one in cols:
        month_dat[one] = month_dat[one].apply(pd.to_numeric, errors='coerce').fillna(0)

    month_sum = 0
    # 한달 총합 구하기
    for one in cols:
        tmp = month_dat[one].sum()
        month_sum += tmp
    year_2021.append(month_sum)
print(len(year_2021), year_2021)

8 [224991142.0, 226646249.0, 259563380.0, 268025747.0, 266207783.0, 270112083.0, 274654659.0, 269150588.0]


In [44]:
# 2021년 8월까지만 자료 있어 나머지를 nan으로 채우기
year_2021.extend([0, 0, 0, 0])
print(len(year_2021), year_2021)

12 [224991142.0, 226646249.0, 259563380.0, 268025747.0, 266207783.0, 270112083.0, 274654659.0, 269150588.0, 0, 0, 0, 0]


### 비어있는 값 nan값으로 채우기
* 스파게티 팀원(정진우님)의 도움으로 해결.

In [80]:
from numpy import nan

In [85]:
year_2021.extend([nan, nan, nan, nan])
year_2021

[224991142.0,
 226646249.0,
 259563380.0,
 268025747.0,
 266207783.0,
 270112083.0,
 274654659.0,
 269150588.0,
 nan,
 nan,
 nan,
 nan]

# 데이터 프레임 만들기

In [97]:
traffic_data = {'2016년':year_2016, '2017년':year_2017, '2018년':year_2018,
               '2019년':year_2019, '2020년':year_2020, '2021년':year_2021}
dat = pd.DataFrame(traffic_data, index = ['1월', '2월', '3월', '4월', '5월', '6월', '7월', '8월', '9월', '10월', '11월', '12월'])
dat

Unnamed: 0,2016년,2017년,2018년,2019년,2020년,2021년
1월,250005440.0,227653568.0,231175275.5,293047880.0,287338914.0,224991142.0
2월,246001116.0,214298439.0,218083825.0,255946482.0,264851117.0,226646249.0
3월,276016440.0,242598574.0,262874087.0,291462852.0,276988930.0,259563380.0
4월,277268102.0,263975550.0,269400175.0,294804467.0,275890542.0,268025747.0
5월,275774656.0,295918625.0,273808519.0,301733907.0,291438374.0,266207783.0
6월,267293206.0,288598798.0,269474628.0,285145303.0,284005714.0,270112083.0
7월,276590174.0,292584832.0,280537278.0,292395939.0,292195000.0,274654659.0
8월,266461912.0,302005433.0,274327730.0,294338097.0,264936819.0,269150588.0
9월,253064445.0,293008364.0,265315676.0,274872597.0,257213165.0,
10월,263118836.0,295585441.0,281863521.0,294622641.0,269114877.0,


In [98]:
dat.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12 entries, 1월 to 12월
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   2016년   12 non-null     float64
 1   2017년   12 non-null     float64
 2   2018년   12 non-null     float64
 3   2019년   12 non-null     float64
 4   2020년   12 non-null     float64
 5   2021년   8 non-null      float64
dtypes: float64(6)
memory usage: 672.0+ bytes


# 그래프 그리기

In [99]:
import plotly
import cufflinks as cf

In [100]:
# 오프라인 모드에서도 인터렉티브한 그래픽을 가능하도록 하기
# Enabling the offline mode for interactive plotting locally
from plotly.offline import download_plotlyjs,init_notebook_mode,plot,iplot
init_notebook_mode(connected=True)
cf.go_offline()

# 다른 연도 같은 달 비교(%)

### 2016-2021년

In [101]:
dat['16-17년(%)'] = ( dat['2017년'] - dat['2016년'] ) / dat['2016년'] * 100
dat['17-18년(%)'] = ( dat['2018년'] - dat['2017년'] ) / dat['2017년'] * 100
dat['18-19년(%)'] = ( dat['2019년'] - dat['2018년'] ) / dat['2018년'] * 100
dat['19-20년(%)'] = ( dat['2020년'] - dat['2019년'] ) / dat['2019년'] * 100
dat['20-21년(%)'] = ( dat['2021년'] - dat['2020년'] ) / dat['2020년'] * 100

In [102]:
dat

Unnamed: 0,2016년,2017년,2018년,2019년,2020년,2021년,16-17년(%),17-18년(%),18-19년(%),19-20년(%),20-21년(%)
1월,250005440.0,227653568.0,231175275.5,293047880.0,287338914.0,224991142.0,-8.940554,1.546959,26.764369,-1.948134,-21.698339
2월,246001116.0,214298439.0,218083825.0,255946482.0,264851117.0,226646249.0,-12.887209,1.766409,17.361515,3.4791,-14.425036
3월,276016440.0,242598574.0,262874087.0,291462852.0,276988930.0,259563380.0,-12.107201,8.357639,10.87546,-4.965958,-6.291064
4월,277268102.0,263975550.0,269400175.0,294804467.0,275890542.0,268025747.0,-4.794115,2.054973,9.429946,-6.415753,-2.850694
5월,275774656.0,295918625.0,273808519.0,301733907.0,291438374.0,266207783.0,7.304503,-7.471684,10.198875,-3.412123,-8.657265
6월,267293206.0,288598798.0,269474628.0,285145303.0,284005714.0,270112083.0,7.970869,-6.626559,5.815269,-0.399652,-4.892025
7월,276590174.0,292584832.0,280537278.0,292395939.0,292195000.0,274654659.0,5.782801,-4.117628,4.227125,-0.068722,-6.002957
8월,266461912.0,302005433.0,274327730.0,294338097.0,264936819.0,269150588.0,13.339063,-9.164637,7.294329,-9.988948,1.590481
9월,253064445.0,293008364.0,265315676.0,274872597.0,257213165.0,,15.78409,-9.45116,3.602094,-6.424588,
10월,263118836.0,295585441.0,281863521.0,294622641.0,269114877.0,,12.339141,-4.642285,4.526701,-8.657775,


In [103]:
dat.iloc[:, 6:]

Unnamed: 0,16-17년(%),17-18년(%),18-19년(%),19-20년(%),20-21년(%)
1월,-8.940554,1.546959,26.764369,-1.948134,-21.698339
2월,-12.887209,1.766409,17.361515,3.4791,-14.425036
3월,-12.107201,8.357639,10.87546,-4.965958,-6.291064
4월,-4.794115,2.054973,9.429946,-6.415753,-2.850694
5월,7.304503,-7.471684,10.198875,-3.412123,-8.657265
6월,7.970869,-6.626559,5.815269,-0.399652,-4.892025
7월,5.782801,-4.117628,4.227125,-0.068722,-6.002957
8월,13.339063,-9.164637,7.294329,-9.988948,1.590481
9월,15.78409,-9.45116,3.602094,-6.424588,
10월,12.339141,-4.642285,4.526701,-8.657775,


# 그래프

In [104]:
# 2015-2021 연도별 통행량 변화 비율(%)
dat.iloc[:, 6:].iplot(kind='line', title='다른 연도, 같은 달 차량 통행량 변화', theme='space')

In [105]:
# 2020-2021 연도별 통행량 변화 비율(%)
dat.iloc[:, 9:].iplot(kind='line', title='다른 연도, 같은 달 차량 통행량 변화', theme='space')