### 년도 별 파일 불러와 월별 합계 구하기
* 파일을 순차적으로 불러오기
* 월별 교통량 합계 구하기
* 월별로 데이터 셋으로 만들기 
* 월별 데이터셋 하나로 합치기
* csv 파일로 만들기

### 파일 불러오기
* 경로 : ./년도/01월 서울시 교통량 조사자료.xlsx

# 정리
* 2017년(해결)
    * G열 부터 시작(6열)
    * 4월 오류 해결
* 2018년(정상)
    * 시트 2개. 필요 시트 2번째
    * G열 부터 시작(6열)
* 2019년(해결)
    * 시트 2개. 필요 시트 2번째
    * G열 부터 시작(6열)
        * 1월 H열 부터 시작(7열)
* 2020년(해결)
    * 시트 2개. 필요 시트 2번째
    * G열 부터 시작(6열)
        * 2, 12월 H열 부터 시작(7열)
* 2021년(정상)
    * 시트 2개. 필요 시트 2번째
    * G열 부터 시작(6열)

In [2]:
import pandas as pd

In [3]:
# 컬럼 명 리스트 만들기
cols = []
for i in range(24):
    tmp = f'{i}시'
    cols.append(tmp)
cols

['0시',
 '1시',
 '2시',
 '3시',
 '4시',
 '5시',
 '6시',
 '7시',
 '8시',
 '9시',
 '10시',
 '11시',
 '12시',
 '13시',
 '14시',
 '15시',
 '16시',
 '17시',
 '18시',
 '19시',
 '20시',
 '21시',
 '22시',
 '23시']

# 2017년

In [17]:
# 2017년 월별 통행량
# G열 부터 시작(6열)
# 4월 오류 해결(df = df.apply(pd.to_numeric, errors='coerce').fillna(0))

year_2017 = []
for m in range(1, 13):
    month_dat = pd.read_excel(f'./2017/{m:0>2}월 서울시 교통량 조사자료.xlsx')
    # 에러 값을 nan값으로 바꾼 뒤
    # nan값 0으로 채우기
    for one in cols:
        month_dat[one] = month_dat[one].apply(pd.to_numeric, errors='coerce').fillna(0)

    month_sum = 0
    # 한달 총합 구하기
    for one in cols:
        tmp = month_dat[one].sum()
        month_sum += tmp
    year_2017.append(month_sum)
year_2017

[227653568.0,
 214298439.0,
 242598574.0,
 263975550.0,
 295918625.0,
 288598798.0,
 292584832.0,
 302005433.0,
 293008364.0,
 295585441.0,
 282938331.0,
 274825244.0]

In [18]:
len(year_2017)

12

# 2018-2020년

In [19]:
# 2018-2020년 월별 통행량
# 자료 변화가 있는 경우, 범주 탭이 들어가 있음. 두번째 탭에 자료 들어가 있어 오류 발생.
# 시트 2개. 필요 시트 2번째
year_18_20 = []
for y in range(18, 21):
    for m in range(1, 13):
        month_dat = pd.read_excel(f'./20{y}/{m:0>2}월 서울시 교통량 조사자료.xlsx', sheet_name = 1)
        # nan값 0으로 채우기
        for one in cols:
            month_dat[one] = month_dat[one].apply(pd.to_numeric, errors='coerce').fillna(0)

        month_sum = 0
        # 한달 총합 구하기
        for one in cols:
            tmp = month_dat[one].sum()
            month_sum += tmp
        year_18_20.append(month_sum)
year_18_20

[231175275.50000003,
 218083825.0,
 262874087.0,
 269400175.0,
 273808519.0,
 269474628.0,
 280537278.0,
 274327730.0,
 265315676.0,
 281863521.0,
 272774028.0,
 275658032.0,
 293047880.0,
 255946482.0,
 291462852.0,
 294804467.0,
 301733907.0,
 285145303.0,
 292395939.0,
 294338097.0,
 274872597.0,
 294622641.0,
 293036874.0,
 300392571.0,
 287338914.0,
 264851117.0,
 276988930.0,
 275890542.0,
 291438374.0,
 284005714.0,
 292195000.0,
 264936819.0,
 257213165.0,
 269114877.0,
 265591295.0,
 250758537.0]

In [20]:
len(year_18_20)

36

# 2021년

In [21]:
# 2021년 월별 통행량
# 2021년 시트 3개. 필요 시트 2번째
# G열 부터 시작(6열)
year_2021 = []
for m in range(1, 9):
    month_dat = pd.read_excel(f'./2021/{m:0>2}월 서울시 교통량 조사자료.xlsx', sheet_name = 1)
    # 에러 값을 nan값으로 바꾼 뒤
    # nan값 0으로 채우기
    for one in cols:
        month_dat[one] = month_dat[one].apply(pd.to_numeric, errors='coerce').fillna(0)

    month_sum = 0
    # 한달 총합 구하기
    for one in cols:
        tmp = month_dat[one].sum()
        month_sum += tmp
    year_2021.append(month_sum)
year_2021

[224991142.0,
 226646249.0,
 259563380.0,
 268025747.0,
 266207783.0,
 270112083.0,
 274654659.0,
 269150588.0]

In [22]:
len(year_2021)

8

In [23]:
# 2017-2021년까지 리스트 합치기
year_17_21 = []
year_17_21.extend(year_2017)
year_17_21.extend(year_18_20)
year_17_21.extend(year_2021)
year_17_21

[227653568.0,
 214298439.0,
 242598574.0,
 263975550.0,
 295918625.0,
 288598798.0,
 292584832.0,
 302005433.0,
 293008364.0,
 295585441.0,
 282938331.0,
 274825244.0,
 231175275.50000003,
 218083825.0,
 262874087.0,
 269400175.0,
 273808519.0,
 269474628.0,
 280537278.0,
 274327730.0,
 265315676.0,
 281863521.0,
 272774028.0,
 275658032.0,
 293047880.0,
 255946482.0,
 291462852.0,
 294804467.0,
 301733907.0,
 285145303.0,
 292395939.0,
 294338097.0,
 274872597.0,
 294622641.0,
 293036874.0,
 300392571.0,
 287338914.0,
 264851117.0,
 276988930.0,
 275890542.0,
 291438374.0,
 284005714.0,
 292195000.0,
 264936819.0,
 257213165.0,
 269114877.0,
 265591295.0,
 250758537.0,
 224991142.0,
 226646249.0,
 259563380.0,
 268025747.0,
 266207783.0,
 270112083.0,
 274654659.0,
 269150588.0]

In [25]:
# 날짜 리스트 만들기
date = []
for y in range(17, 21):
    for m in range(1, 13):
        tmp = f'20{y}-{m:0>2}'
        date.append(tmp)
for m in range(1, 9):
    tmp = f'2021-{m:0>2}'
    date.append(tmp)
print(len(date), date)

56 ['2017-01', '2017-02', '2017-03', '2017-04', '2017-05', '2017-06', '2017-07', '2017-08', '2017-09', '2017-10', '2017-11', '2017-12', '2018-01', '2018-02', '2018-03', '2018-04', '2018-05', '2018-06', '2018-07', '2018-08', '2018-09', '2018-10', '2018-11', '2018-12', '2019-01', '2019-02', '2019-03', '2019-04', '2019-05', '2019-06', '2019-07', '2019-08', '2019-09', '2019-10', '2019-11', '2019-12', '2020-01', '2020-02', '2020-03', '2020-04', '2020-05', '2020-06', '2020-07', '2020-08', '2020-09', '2020-10', '2020-11', '2020-12', '2021-01', '2021-02', '2021-03', '2021-04', '2021-05', '2021-06', '2021-07', '2021-08']


# 데이터 프레임 만들기

In [26]:
traffic_data = {'date':date, '통행량':year_17_21}
dat = pd.DataFrame(traffic_data)
dat

Unnamed: 0,date,통행량
0,2017-01,227653568.0
1,2017-02,214298439.0
2,2017-03,242598574.0
3,2017-04,263975550.0
4,2017-05,295918625.0
5,2017-06,288598798.0
6,2017-07,292584832.0
7,2017-08,302005433.0
8,2017-09,293008364.0
9,2017-10,295585441.0


In [30]:
dat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56 entries, 0 to 55
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   date    56 non-null     object 
 1   통행량     56 non-null     float64
dtypes: float64(1), object(1)
memory usage: 1.0+ KB


# 그래프 그리기

In [27]:
import plotly
import cufflinks as cf

In [28]:
# 오프라인 모드에서도 인터렉티브한 그래픽을 가능하도록 하기
# Enabling the offline mode for interactive plotting locally
from plotly.offline import download_plotlyjs,init_notebook_mode,plot,iplot
init_notebook_mode(connected=True)
cf.go_offline()

In [32]:
dat.iplot(kind='bar', x='date', title='월별 통행량 그래프', theme='space')

# 다른 연도 같은 달 비교(%)

### 2017-2018년

In [36]:
y1718_change_rate = []
for i in range(0, 8):
    j = i + 12
    num2017 = dat.iloc[i, 1]
    num2018 = dat.iloc[j, 1]
    minus = num2018 - num2017
    percent = (minus / num2017) * 100
    y1718_change_rate.append(percent)

y1718_change_rate

[1.5469590619374918,
 1.7664085737927377,
 8.357638985957108,
 2.05497251544698,
 -7.471684487585057,
 -6.626559130714051,
 -4.1176276697761285,
 -9.164637445446221]

### 2018-2019년

In [37]:
y1819_change_rate = []
for i in range(12, 20):
    j = i + 12
    num2018 = dat.iloc[i, 1]
    num2019 = dat.iloc[j, 1]
    minus = num2019 - num2018
    percent = (minus / num2018) * 100
    y1819_change_rate.append(percent)

y1819_change_rate

[26.76436931509138,
 17.361515463148173,
 10.875459550335975,
 9.429946361393418,
 10.19887478373162,
 5.81526918370957,
 4.227124852904575,
 7.294328940060124]

### 2019-2020년

In [38]:
y1920_change_rate = []
for i in range(24, 32):
    j = i + 12
    num2019 = dat.iloc[i, 1]
    num2020 = dat.iloc[j, 1]
    minus = num2020 - num2019
    percent = (minus / num2019) * 100
    y1920_change_rate.append(percent)

y1920_change_rate

[-1.9481342093312533,
 3.479100369115447,
 -4.965957720059639,
 -6.415752513003814,
 -3.4121233183117203,
 -0.39965203284446177,
 -0.06872154267505062,
 -9.988947506173487]

### 2020-2021년

In [39]:
y2021_change_rate = []
for i in range(24, 32):
    j = i + 12
    num2020 = dat.iloc[i, 1]
    num2021 = dat.iloc[j, 1]
    minus = num2021 - num2020
    percent = (minus / num2020) * 100
    y2021_change_rate.append(percent)

y2021_change_rate

[-1.9481342093312533,
 3.479100369115447,
 -4.965957720059639,
 -6.415752513003814,
 -3.4121233183117203,
 -0.39965203284446177,
 -0.06872154267505062,
 -9.988947506173487]

# 연도별 비교 값 모으기

In [40]:
rate_dat = pd.DataFrame({'17-18년(%)' : y1718_change_rate,
                         '18-19년(%)' : y1819_change_rate,
                         '19-20년(%)' : y1920_change_rate,
                         '20-21년(%)' : y2021_change_rate,
                        },
                        index = ['1월', '2월', '3월', '4월', '5월', '6월', '7월', '8월'])
rate_dat

Unnamed: 0,17-18년(%),18-19년(%),19-20년(%),20-21년(%)
1월,1.546959,26.764369,-1.948134,-1.948134
2월,1.766409,17.361515,3.4791,3.4791
3월,8.357639,10.87546,-4.965958,-4.965958
4월,2.054973,9.429946,-6.415753,-6.415753
5월,-7.471684,10.198875,-3.412123,-3.412123
6월,-6.626559,5.815269,-0.399652,-0.399652
7월,-4.117628,4.227125,-0.068722,-0.068722
8월,-9.164637,7.294329,-9.988948,-9.988948


# 그래프

In [42]:
# 2015-2021 연도별 통행량 변화 비율(%)
rate_dat.iplot(kind='bar', title='다른 연도, 같은 달 차량 통행량 변화', theme='space')