In [1]:
import pandas as pd
import numpy as np

In [2]:
def traffic_groupby(df):
    return df.groupby('구분').agg({'교통량' : 'sum'})

In [3]:
def merge_months(df1, df2):
    # 두 그룹된 데이터프레임을 병합하여 반환
    df2.fillna(0.0, inplace=True)
    merged = pd.merge(df1, df2, how='outer', on='구분')
    merged.fillna(0.0, inplace=True)
    merged.iloc[:, 0] = merged.iloc[:, 0] + merged.iloc[:, 1]
    merged.drop(merged.columns[1], axis=1, inplace=True)
    return merged

In [4]:
# 월별 교통량을 합산한 Dataframe 반환
def merge_trafficInfo(url, month):
    df = pd.read_excel(url, sheet_name = month)
    df.fillna(0.0, inplace=True)
    # 월별 교통량을 합쳐 '교통량' 속성 추가
    df['교통량'] = 0
    for i in range(24):
        if (df[str(i) + '시'].dtypes != float and df[str(i) + '시'].dtypes != int):
            df[str(i) + '시'] = df[str(i) + '시'].str.extract(r'(\d+)')
            df[str(i) + '시'].astype('float')
        df['교통량'] += df[str(i) + '시']
    # 교통량 산출 후, 시간별 교통량은 삭제
    for i in range(24):
        df.drop([str(i) + '시'], axis=1, inplace = True)
    return df

In [5]:
url = 'data/traffic/'
years = ['2017', '2018', '2019']
traffic = []

for year in years:
    for i in range(1, 13):
        # 2017~2019년 서울시 교통량 파일의 경로 생성
        openUrl = url + year + '/' + str(i) + '월 서울시 교통량 조사자료.xlsx'
        print(year, i, openUrl)
        df = merge_trafficInfo(openUrl, year + '년 ' + str(i) + '월')
        
        # merge_month를 이용해 월별 교통량을 반복해서 병합
        if (i == 1) : 
            df_prev = traffic_groupby(df)
            continue
        df = traffic_groupby(df)
        df_prev = merge_months(df_prev, df)
    traffic.append(df_prev)

2017 1 data/traffic/2017/1월 서울시 교통량 조사자료.xlsx
2017 2 data/traffic/2017/2월 서울시 교통량 조사자료.xlsx
2017 3 data/traffic/2017/3월 서울시 교통량 조사자료.xlsx
2017 4 data/traffic/2017/4월 서울시 교통량 조사자료.xlsx
2017 5 data/traffic/2017/5월 서울시 교통량 조사자료.xlsx
2017 6 data/traffic/2017/6월 서울시 교통량 조사자료.xlsx
2017 7 data/traffic/2017/7월 서울시 교통량 조사자료.xlsx
2017 8 data/traffic/2017/8월 서울시 교통량 조사자료.xlsx
2017 9 data/traffic/2017/9월 서울시 교통량 조사자료.xlsx
2017 10 data/traffic/2017/10월 서울시 교통량 조사자료.xlsx
2017 11 data/traffic/2017/11월 서울시 교통량 조사자료.xlsx
2017 12 data/traffic/2017/12월 서울시 교통량 조사자료.xlsx
2018 1 data/traffic/2018/1월 서울시 교통량 조사자료.xlsx
2018 2 data/traffic/2018/2월 서울시 교통량 조사자료.xlsx
2018 3 data/traffic/2018/3월 서울시 교통량 조사자료.xlsx
2018 4 data/traffic/2018/4월 서울시 교통량 조사자료.xlsx
2018 5 data/traffic/2018/5월 서울시 교통량 조사자료.xlsx
2018 6 data/traffic/2018/6월 서울시 교통량 조사자료.xlsx
2018 7 data/traffic/2018/7월 서울시 교통량 조사자료.xlsx
2018 8 data/traffic/2018/8월 서울시 교통량 조사자료.xlsx
2018 9 data/traffic/2018/9월 서울시 교통량 조사자료.xlsx
2018 10 data/traffic/2018/10

In [6]:
merged = merge_months(traffic[0], traffic[1])
merged = merge_months(merged, traffic[2])

In [7]:
merged.rename(columns={'교통량_x_x' : '총 교통량'})

Unnamed: 0_level_0,총 교통량
구분,Unnamed: 1_level_1
6번국도 서울강서-경기부천 경계->오쇠삼거리,3705119.0
가양대교남단->가양대교북단,59536409.0
가양대교북단->가양대교남단,59418765.0
가양대교북단->난지IC(강변북로),31766754.0
갈매교차로->화랑대사거리,25353494.0
...,...
월릉교동측->월계6교동측,113009.0
월릉교동측->월계7교동측,118015.0
월릉교동측->월계8교동측,120650.0
월릉교동측->월계9교동측,123579.0


In [8]:
merged.to_csv("data/총 교통량.csv", mode='w', encoding='euc-kr')

In [9]:
df

Unnamed: 0_level_0,교통량
구분,Unnamed: 1_level_1
가양대교남단->가양대교북단,1885637.0
가양대교북단->가양대교남단,1666677.0
가양대교북단->난지IC,3677046.0
갈매교차로->화랑대사거리,727991.0
강남역->뱅뱅사거리,835043.0
...,...
화곡터널->까치산역,548769.0
화랑대사거리->갈매교차로,733934.0
화랑대역->태릉입구역,1022380.0
화양사거리->군자교동단,1070594.0
