# 지하철 이용현황 공공데이터 분석

## 엑셀 파일 통합 정리

In [38]:
import pandas as pd

### 1. raw 파일 불러오기
- 일자/노선/자하철역별 승하차 고객수

In [2]:
# 19년도 상반기
file = './data/sec5_raw/CARD_SUBWAY_MONTH_201901.csv'
raw = pd.read_csv(file)

raw.head()

Unnamed: 0,사용일자,노선명,역ID,역명,승차총승객수,하차총승객수,등록일자
0,20190101,경춘선,1323,가평,1520,1436,20190104
1,20190101,경춘선,1322,상천,275,114,20190104
2,20190101,경춘선,1321,청평,1509,1083,20190104
3,20190101,경춘선,1320,대성리,357,271,20190104
4,20190101,경춘선,1319,마석,1772,1963,20190104


In [3]:
raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18334 entries, 0 to 18333
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   사용일자    18334 non-null  int64 
 1   노선명     18334 non-null  object
 2   역ID     18334 non-null  int64 
 3   역명      18334 non-null  object
 4   승차총승객수  18334 non-null  int64 
 5   하차총승객수  18334 non-null  int64 
 6   등록일자    18334 non-null  int64 
dtypes: int64(5), object(2)
memory usage: 1002.8+ KB


#### 참고) 판다스로 파일 읽어오기
**데이터 파일 읽기: read_excel/read_csv**
**옵션**
- index_col = 컬럼 인덱스 번호     # 몇번째 컬럼을 인덱스로 지정할 것인지 선택
- header = raw 인덱스 번호       # 몇번째 raw부터 포 데이터로 볼 것인지 선택
- thousands = ','       # 천 단위 기호, 사용 시 숫자로 인식

In [4]:
# 2개 파일 합치기

raw = pd.DataFrame()

file1 = './data/sec5_raw/CARD_SUBWAY_MONTH_201901.csv'
file2 = './data/sec5_raw/CARD_SUBWAY_MONTH_201902.csv'

temp = pd.read_csv(file1)
raw = pd.concat([raw,temp])

temp = pd.read_csv(file2)
raw = pd.concat([raw,temp])

In [5]:
raw

Unnamed: 0,사용일자,노선명,역ID,역명,승차총승객수,하차총승객수,등록일자
0,20190101,경춘선,1323,가평,1520,1436,20190104
1,20190101,경춘선,1322,상천,275,114,20190104
2,20190101,경춘선,1321,청평,1509,1083,20190104
3,20190101,경춘선,1320,대성리,357,271,20190104
4,20190101,경춘선,1319,마석,1772,1963,20190104
...,...,...,...,...,...,...,...
16538,20190228,우이신설선,4709,북한산보국문,6564,6029,20190303
16539,20190228,우이신설선,4710,정릉,4821,4348,20190303
16540,20190228,경춘선,1314,퇴계원,4212,3899,20190303
16541,20190228,우이신설선,4711,성신여대입구(돈암),4058,4452,20190303


#### 폴더에 있는 모든 파일 불러와서 병합하기

In [6]:
import os   # os 라이브러리 : 폴더/파일 관리

In [7]:
dirpath = './data/sec5_raw/'
files = os.listdir(dirpath)       # 폴더에 있는 파일 리스트 확인
files

['CARD_SUBWAY_MONTH_201901.csv',
 'CARD_SUBWAY_MONTH_201902.csv',
 'CARD_SUBWAY_MONTH_201903.csv',
 'CARD_SUBWAY_MONTH_201904.csv',
 'CARD_SUBWAY_MONTH_201905.csv',
 'CARD_SUBWAY_MONTH_201906.csv']

In [14]:
# 여러 개의 파일 병합하기
raw = pd.DataFrame()

for file in files:
    # print(dirpath+file)
    temp = pd.read_csv(dirpath+file)
    raw = pd.concat([raw, temp], ignore_index=True)     # ignore_index == reset_index(drop=True)

raw.head()

Unnamed: 0,사용일자,노선명,역ID,역명,승차총승객수,하차총승객수,등록일자
0,20190101,경춘선,1323,가평,1520,1436,20190104
1,20190101,경춘선,1322,상천,275,114,20190104
2,20190101,경춘선,1321,청평,1509,1083,20190104
3,20190101,경춘선,1320,대성리,357,271,20190104
4,20190101,경춘선,1319,마석,1772,1963,20190104


In [15]:
raw.tail()

Unnamed: 0,사용일자,노선명,역ID,역명,승차총승객수,하차총승객수,등록일자
99337,20190630,2호선,204,을지로4가,4940,4668,20190703
99338,20190630,2호선,203,을지로3가,12043,11854,20190703
99339,20190630,2호선,202,을지로입구,31622,29723,20190703
99340,20190630,2호선,201,시청,10178,8214,20190703
99341,20190630,1호선,159,동묘앞,13859,14352,20190703


In [16]:
raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99342 entries, 0 to 99341
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   사용일자    99342 non-null  int64 
 1   노선명     99342 non-null  object
 2   역ID     99342 non-null  int64 
 3   역명      99342 non-null  object
 4   승차총승객수  99342 non-null  int64 
 5   하차총승객수  99342 non-null  int64 
 6   등록일자    99342 non-null  int64 
dtypes: int64(5), object(2)
memory usage: 5.3+ MB


#### 요일 추가하기

In [19]:
from datetime import datetime

**datetime.strptime('날짜str', str 형태): 문자-->날짜타입**
- str 형태: %Y-%m-%d %H:%M:%S

**weekday(): 날짜 타입을 요일로 변경**
- 월요일:0 ~ 일요일:6

In [23]:
# 날짜 컬럼을 요일로 변경해 리스트로 저장
weekday_dict = ['월', '화', '수', '목', '금', '토', '일']

weekday_list = []

for date_str in raw['사용일자']:
    date = datetime.strptime(str(date_str), "%Y%m%d")
    weekday_index = date.weekday()
    weekday = weekday_dict[weekday_index]

    weekday_list.append(weekday)

In [25]:
# 요일 컬럼 추가
raw['요일'] = weekday_list
raw.head()

Unnamed: 0,사용일자,노선명,역ID,역명,승차총승객수,하차총승객수,등록일자,요일
0,20190101,경춘선,1323,가평,1520,1436,20190104,화
1,20190101,경춘선,1322,상천,275,114,20190104,화
2,20190101,경춘선,1321,청평,1509,1083,20190104,화
3,20190101,경춘선,1320,대성리,357,271,20190104,화
4,20190101,경춘선,1319,마석,1772,1963,20190104,화


In [27]:
raw.tail()

Unnamed: 0,사용일자,노선명,역ID,역명,승차총승객수,하차총승객수,등록일자,요일
99337,20190630,2호선,204,을지로4가,4940,4668,20190703,일
99338,20190630,2호선,203,을지로3가,12043,11854,20190703,일
99339,20190630,2호선,202,을지로입구,31622,29723,20190703,일
99340,20190630,2호선,201,시청,10178,8214,20190703,일
99341,20190630,1호선,159,동묘앞,13859,14352,20190703,일


In [28]:
raw.sample(10)     # 중간의 임의의 데이터 확인

Unnamed: 0,사용일자,노선명,역ID,역명,승차총승객수,하차총승객수,등록일자,요일
35664,20190302,경의선,1261,효창공원앞,1694,1886,20190305,토
34917,20190301,우이신설선,4710,정릉,3620,2869,20190304,금
89168,20190613,2호선,208,왕십리(성동구청),22008,17282,20190616,목
1577,20190103,6호선,2636,신당,10512,10947,20190106,목
19277,20190202,7호선,2740,숭실대입구(살피재),8339,7245,20190205,토
59997,20190423,경강선,1507,신둔도예촌,1616,1398,20190426,화
79835,20190528,2호선,202,을지로입구,57411,58372,20190531,화
73489,20190517,5호선,2512,개화산,7329,6740,20190520,금
27662,20190216,4호선,430,이촌(국립중앙박물관),10422,11163,20190219,토
97015,20190627,2호선,232,구로디지털단지,74330,74589,20190630,목


In [31]:
# 현재 컬럼명 확인
raw.columns

Index(['사용일자', '노선명', '역ID', '역명', '승차총승객수', '하차총승객수', '등록일자', '요일'], dtype='object')

In [33]:
# 컬럼 순서 변경
raw = raw[['사용일자', '요일', '노선명', '역ID', '역명', '승차총승객수', '하차총승객수', '등록일자']]
raw.head()

Unnamed: 0,사용일자,요일,노선명,역ID,역명,승차총승객수,하차총승객수,등록일자
0,20190101,화,경춘선,1323,가평,1520,1436,20190104
1,20190101,화,경춘선,1322,상천,275,114,20190104
2,20190101,화,경춘선,1321,청평,1509,1083,20190104
3,20190101,화,경춘선,1320,대성리,357,271,20190104
4,20190101,화,경춘선,1319,마석,1772,1963,20190104


### 2. 정리한 데이터 저장하기

In [37]:
fpath = './data/subway_raw.xlsx'

raw.to_excel(fpath, index=False)

## 일자별 승객 수 살펴보기

### Q)언제 지하철을 가장 많이 이용할까?

### 1. 준비한 자료 읽어오기

In [40]:
fpath = './data/subway_raw.xlsx'

raw = pd.read_excel(fpath)
raw.head()

Unnamed: 0,사용일자,요일,노선명,역ID,역명,승차총승객수,하차총승객수,등록일자
0,20190101,화,경춘선,1323,가평,1520,1436,20190104
1,20190101,화,경춘선,1322,상천,275,114,20190104
2,20190101,화,경춘선,1321,청평,1509,1083,20190104
3,20190101,화,경춘선,1320,대성리,357,271,20190104
4,20190101,화,경춘선,1319,마석,1772,1963,20190104


In [41]:
raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99342 entries, 0 to 99341
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   사용일자    99342 non-null  int64 
 1   요일      99342 non-null  object
 2   노선명     99342 non-null  object
 3   역ID     99342 non-null  int64 
 4   역명      99342 non-null  object
 5   승차총승객수  99342 non-null  int64 
 6   하차총승객수  99342 non-null  int64 
 7   등록일자    99342 non-null  int64 
dtypes: int64(5), object(3)
memory usage: 6.1+ MB


### Q) 가장 승객이 많은 날짜

In [43]:
# 사용일자/요일별 승차승객수 합계
data_date = raw.pivot_table(index=['사용일자', '요일'], values='승차총승객수', aggfunc='sum')
data_date.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,승차총승객수
사용일자,요일,Unnamed: 2_level_1
20190101,화,3419948
20190102,수,7621668
20190103,목,7873692
20190104,금,8270345
20190105,토,6062294


In [45]:
data_date.sort_values(by='승차총승객수', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,승차총승객수
사용일자,요일,Unnamed: 2_level_1
20190503,금,9229899
20190510,금,9164243
20190524,금,9068976
20190517,금,9058227
20190412,금,9012472
...,...,...
20190206,수,3741895
20190101,화,3419948
20190203,일,3412440
20190204,월,2941955


**-> 5월/금요일에 지하철 승객 수가 많다?**

### Q) 5월에 지하철 승객 수가 많다?

월별 승객 수 비교 -> 월 컬럼 추가

In [52]:
# 연월/월일 컬러 추가하기
yearmonth_list = []
monthday_list = []
for date in raw['사용일자']:
    yearmonth = str(date)[:6]
    yearmonth_list.append(yearmonth)
    monthday = str(date)[4:]
    monthday_list.append(monthday)

raw['연월'] = yearmonth_list
raw['월일'] = monthday_list

In [53]:
raw.head()

Unnamed: 0,사용일자,요일,노선명,역ID,역명,승차총승객수,하차총승객수,등록일자,연월,월일
0,20190101,화,경춘선,1323,가평,1520,1436,20190104,201901,101
1,20190101,화,경춘선,1322,상천,275,114,20190104,201901,101
2,20190101,화,경춘선,1321,청평,1509,1083,20190104,201901,101
3,20190101,화,경춘선,1320,대성리,357,271,20190104,201901,101
4,20190101,화,경춘선,1319,마석,1772,1963,20190104,201901,101


In [57]:
# 월별 승객수
# raw.pivot_table(index='연월', values='승차총승객수', aggfunc='sum')
data_month = pd.pivot_table(raw, index='연월', values='승차총승객수', aggfunc='sum').sort_values(by='승차총승객수', ascending=False)    # 판다스의 pivot_table
data_month

Unnamed: 0_level_0,승차총승객수
연월,Unnamed: 1_level_1
201905,236267004
201901,221848014
201906,221547039
201904,218832085
201902,190335812
201903,157782643


**5월에 승객 수가 많은가 => True**

### Q) 금요일에 승객 수가 많다?
- 요일별 승객 수 확인
- 월별 편차 확인 -> 월별/일자별 승객 수 확인