In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv('data/CARD_SUBWAY_MONTH_2021.csv',encoding='euc-kr',sep=',')
df.iloc[500:505]

Unnamed: 0,사용일자,노선명,역명,승차총승객수,하차총승객수,등록일자
500,20210101,경춘선,김유정,120,130,20210104
501,20210101,경춘선,남춘천,952,907,20210104
502,20210101,경춘선,춘천,533,502,20210104
503,20210101,공항철도 1호선,서울역,2366,2474,20210104
504,20210101,공항철도 1호선,공덕,543,759,20210104


In [3]:
# 컬럼 수정/삭제
df.rename(columns={'역명': '지하철역','노선명': '호선명'}, inplace=True)
df.drop(columns=['등록일자'], inplace=True)
df.iloc[500:505]

Unnamed: 0,사용일자,호선명,지하철역,승차총승객수,하차총승객수
500,20210101,경춘선,김유정,120,130
501,20210101,경춘선,남춘천,952,907
502,20210101,경춘선,춘천,533,502
503,20210101,공항철도 1호선,서울역,2366,2474
504,20210101,공항철도 1호선,공덕,543,759


In [4]:
# 호선 데이터 정리: 공항철도 1호선
# df.지하철역 = df['지하철역'].str.replace(' ',' ',regex=True).str.split().str[0]

# 지하철역 데이터 정리: 경복궁(정부서울청사) -> 경복궁
df.지하철역 = df['지하철역'].str.replace('(',' ',regex=False).str.split().str[0]
df.iloc[500:505]

Unnamed: 0,사용일자,호선명,지하철역,승차총승객수,하차총승객수
500,20210101,경춘선,김유정,120,130
501,20210101,경춘선,남춘천,952,907
502,20210101,경춘선,춘천,533,502
503,20210101,공항철도 1호선,서울역,2366,2474
504,20210101,공항철도 1호선,공덕,543,759


In [6]:
# 승차 + 하차 총 승객수
df['승하차총승객수'] = df['승차총승객수'] + df['하차총승객수']
df.iloc[500:505]

Unnamed: 0,사용일자,호선명,지하철역,승차총승객수,하차총승객수,승하차총승객수
500,20210101,경춘선,김유정,120,130,250
501,20210101,경춘선,남춘천,952,907,1859
502,20210101,경춘선,춘천,533,502,1035
503,20210101,공항철도 1호선,서울역,2366,2474,4840
504,20210101,공항철도 1호선,공덕,543,759,1302


In [8]:
import datetime
# 요일, 평일주말 출력하는 반복문
week_end = []
for i in range(len(df.index)):
    year = int(str(df.사용일자.values[i])[:4])
    mm = int(str(df.사용일자.values[i])[4:6])
    dd = int(str(df.사용일자.values[i])[0:][6:])
    week_end_dict = {0:'평일', 1:'평일', 2:'평일', 3:'평일', 4:'평일', 5:'주말', 6:'주말'}
    week_end.append(week_end_dict[datetime.date(year,mm,dd).weekday()])

# 평일/주말 column 생성
df['평일주말'] = week_end
df.head(600).tail()

Unnamed: 0,사용일자,호선명,지하철역,승차총승객수,하차총승객수,승하차총승객수,평일주말
595,20210101,일산선,원당,2909,2943,5852,평일
596,20210101,일산선,화정,4664,4946,9610,평일
597,20210101,일산선,대곡,456,412,868,평일
598,20210102,9호선,노들,1719,1527,3246,주말
599,20210102,우이신설선,삼양사거리,1112,1102,2214,주말


In [31]:
# 평일
df_week_day = df[df['평일주말'].values == '평일']
df_week_day.to_csv('월별_평일/data/2021_평일.csv', index=False)

In [34]:
df_week_day = pd.read_csv('월별_평일/data/2021_평일.csv',encoding='utf-8',sep=',')
df_week_day

Unnamed: 0,사용일자,호선명,지하철역,승차총승객수,하차총승객수,승하차총승객수,평일주말
0,20210101,일산선,백석,2724,2825,5549,평일
1,20210101,일산선,마두,1638,1652,3290,평일
2,20210101,3호선,을지로3가,1024,1009,2033,평일
3,20210101,3호선,종로3가,1255,1632,2887,평일
4,20210101,3호선,안국,2934,3029,5963,평일
...,...,...,...,...,...,...,...
156828,20211231,6호선,월곡,10214,9924,20138,평일
156829,20211231,6호선,상월곡,5619,4842,10461,평일
156830,20211231,6호선,돌곶이,8265,7811,16076,평일
156831,20211231,6호선,석계,11189,11335,22524,평일


In [36]:
# 주말
df_week_end = df[df['평일주말'].values == '주말']
df_week_end.to_csv('월별_주말/data/2021_주말.csv', index=False)

In [37]:
df_week_end = pd.read_csv('월별_주말/data/2021_주말.csv', encoding='utf-8', sep=',')
df_week_end

Unnamed: 0,사용일자,호선명,지하철역,승차총승객수,하차총승객수,승하차총승객수,평일주말
0,20210102,9호선,노들,1719,1527,3246,주말
1,20210102,우이신설선,삼양사거리,1112,1102,2214,주말
2,20210102,우이신설선,삼양,917,1019,1936,주말
3,20210102,우이신설선,화계,1470,1315,2785,주말
4,20210102,우이신설선,가오리,1653,1625,3278,주말
...,...,...,...,...,...,...,...
62441,20211226,8호선,암사,7207,7005,14212,주말
62442,20211226,7호선,부평구청,2769,2615,5384,주말
62443,20211226,7호선,굴포천,3769,3821,7590,주말
62444,20211226,7호선,삼산체육관,2072,2018,4090,주말


In [26]:
df['호선명'].value_counts().sort_index()

1호선          3650
2호선         18250
3호선         12271
4호선          9490
5호선         20185
6호선         13731
7호선         18615
8호선          6219
9호선          9125
9호선2~3단계     4745
경강선          4015
경부선         14235
경원선         10671
경의선          9588
경인선          7300
경춘선          6935
공항철도 1호선     5110
과천선          2920
분당선         12545
수인선          6570
안산선          4745
우이신설선        4745
일산선          3701
장항선          2253
중앙선          7665
Name: 호선명, dtype: int64

In [None]:
# 호선별 저장