### 데이터 불러오기

In [18]:
import warnings
warnings.filterwarnings("ignore")

In [19]:
import pandas as pd

data = pd.read_csv("data/서울교통공사 2022년 일별 역별 시간대별 승하차인원(1~8호선).csv", encoding="euc-kr")
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 199080 entries, 0 to 199079
Data columns (total 26 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   연번            199080 non-null  int64  
 1   수송일자          199080 non-null  object 
 2   호선            199080 non-null  int64  
 3   고유역번호(외부역코드)  199080 non-null  object 
 4   역명            199080 non-null  object 
 5   승하차구분         199080 non-null  object 
 6   06시이전         199080 non-null  int64  
 7   06-07시간대      199080 non-null  int64  
 8   07-08시간대      199080 non-null  int64  
 9   08-09시간대      199080 non-null  int64  
 10  09-10시간대      199080 non-null  int64  
 11  10-11시간대      199080 non-null  int64  
 12  11-12시간대      199080 non-null  int64  
 13  12-13시간대      199080 non-null  int64  
 14  13-14시간대      199080 non-null  int64  
 15  14-15시간대      199080 non-null  int64  
 16  15-16시간대      199080 non-null  int64  
 17  16-17시간대      199080 non-null  int64  
 18  17-1

### 요일 컬럼 추가하기

- 요일을 숫자로 표현하기

In [20]:
data['수송일자'] = pd.to_datetime(data['수송일자'])
data['요일'] = data['수송일자'].dt.weekday

data.head()

Unnamed: 0,연번,수송일자,호선,고유역번호(외부역코드),역명,승하차구분,06시이전,06-07시간대,07-08시간대,08-09시간대,...,16-17시간대,17-18시간대,18-19시간대,19-20시간대,20-21시간대,21-22시간대,22-23시간대,23-24시간대,24시이후,요일
0,1,2022-01-01,1,150,서울역,승차,120,137,211,439,...,1686,1591,1358,1062,899,1327,814,234,,5
1,2,2022-01-01,1,150,서울역,하차,113,560,617,910,...,1251,1126,884,764,654,728,416,131,,5
2,3,2022-01-01,1,151,시청,승차,38,66,101,139,...,550,672,528,420,434,491,232,38,,5
3,4,2022-01-01,1,151,시청,하차,31,195,224,380,...,377,354,213,131,98,137,61,24,,5
4,5,2022-01-01,1,152,종각,승차,44,71,86,158,...,964,1024,803,855,1099,1209,255,62,,5


- 요일을 한글로 표현하기

In [21]:
weekday_list = ['월', '화', '수', '목', '금', '토', '일']
data['요일'] = data.apply(lambda x: weekday_list[x['요일']], axis=1)
data.head(2)

Unnamed: 0,연번,수송일자,호선,고유역번호(외부역코드),역명,승하차구분,06시이전,06-07시간대,07-08시간대,08-09시간대,...,16-17시간대,17-18시간대,18-19시간대,19-20시간대,20-21시간대,21-22시간대,22-23시간대,23-24시간대,24시이후,요일
0,1,2022-01-01,1,150,서울역,승차,120,137,211,439,...,1686,1591,1358,1062,899,1327,814,234,,토
1,2,2022-01-01,1,150,서울역,하차,113,560,617,910,...,1251,1126,884,764,654,728,416,131,,토


- NaN 은 승객이 없을 때이므로 0으로 처리

In [22]:
data = data.fillna(0)

### 승하차구분 컬럼에서 '승차'만 추출하기

In [23]:
data_on = data[data['승하차구분'] == '승차']
data_on.head()

Unnamed: 0,연번,수송일자,호선,고유역번호(외부역코드),역명,승하차구분,06시이전,06-07시간대,07-08시간대,08-09시간대,...,16-17시간대,17-18시간대,18-19시간대,19-20시간대,20-21시간대,21-22시간대,22-23시간대,23-24시간대,24시이후,요일
0,1,2022-01-01,1,150,서울역,승차,120,137,211,439,...,1686,1591,1358,1062,899,1327,814,234,0.0,토
2,3,2022-01-01,1,151,시청,승차,38,66,101,139,...,550,672,528,420,434,491,232,38,0.0,토
4,5,2022-01-01,1,152,종각,승차,44,71,86,158,...,964,1024,803,855,1099,1209,255,62,0.0,토
6,7,2022-01-01,1,153,종로3가,승차,74,73,67,164,...,1178,1028,861,705,871,1160,324,69,0.0,토
8,9,2022-01-01,1,154,종로5가,승차,37,55,74,95,...,938,818,620,510,479,477,107,22,0.0,토


- 공휴일을 일요일로 바꾸기 

In [24]:
data_on.loc[data_on['수송일자'] == '2022-01-01', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-01-31', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-02-01', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-02-02', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-03-01', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-03-09', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-05-05', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-05-08', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-06-01', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-06-06', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-08-15', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-09-09', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-09-10', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-09-11', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-09-12', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-10-03', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-10-09', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-10-10', '요일'] = '일'
data_on.loc[data_on['수송일자'] == '2022-12-25', '요일'] = '일'
data_on.head(1)

Unnamed: 0,연번,수송일자,호선,고유역번호(외부역코드),역명,승하차구분,06시이전,06-07시간대,07-08시간대,08-09시간대,...,16-17시간대,17-18시간대,18-19시간대,19-20시간대,20-21시간대,21-22시간대,22-23시간대,23-24시간대,24시이후,요일
0,1,2022-01-01,1,150,서울역,승차,120,137,211,439,...,1686,1591,1358,1062,899,1327,814,234,0.0,일


In [25]:
data_on.요일.value_counts()

요일
일    18258
금    13921
토    13911
목    13908
화    13634
수    13360
월    12548
Name: count, dtype: int64

## 이것저것 합 구하기
### 월요일 비율 = (월요일 이용객수) / {(일주일 전체 합)/7}

- 합계 컬럼 만들기

In [26]:
data_on['합'] = data_on.iloc[:, 6:-2].sum(axis=1)
data_on.head(2)

Unnamed: 0,연번,수송일자,호선,고유역번호(외부역코드),역명,승하차구분,06시이전,06-07시간대,07-08시간대,08-09시간대,...,17-18시간대,18-19시간대,19-20시간대,20-21시간대,21-22시간대,22-23시간대,23-24시간대,24시이후,요일,합
0,1,2022-01-01,1,150,서울역,승차,120,137,211,439,...,1591,1358,1062,899,1327,814,234,0.0,일,18525
2,3,2022-01-01,1,151,시청,승차,38,66,101,139,...,672,528,420,434,491,232,38,0.0,일,5660


- 역별 요일 별 합계 데이터프레임 만들기 

In [31]:
df = data_on.groupby(['호선', '역명', '요일'])['합'].mean().reset_index()

# 과학적 표기법 사용 해제
pd.options.display.float_format = '{:.2f}'.format
df.head(10)
### 여기서 합 컬럼은 각각의 요일 합의 평균값이다.

Unnamed: 0,호선,역명,요일,합
0,1,동대문,금,11373.27
1,1,동대문,목,10937.39
2,1,동대문,수,10999.43
3,1,동대문,월,10770.26
4,1,동대문,일,9354.94
5,1,동대문,토,10599.41
6,1,동대문,화,10963.3
7,1,동묘앞,금,8424.24
8,1,동묘앞,목,7902.73
9,1,동묘앞,수,7887.27


In [38]:
# 전체요일평균 / 7 
result = (df.groupby(['호선', '역명'])['합'].sum() / 7 ).reset_index()
# result
df['비율'] = df['합'] / df.apply(
    lambda x: result[(result['호선'] == x['호선']) & (result['역명'] == x['역명'])]['합'].values[0], axis=1)
# df_2 = df_1[(df_1['호선명'] =='1호선') | (df_1['호선명'] =='2호선') |  (df_1['호선명'] =='3호선') | (df_1['호선명'] =='4호선') | (df_1['호선명'] =='5호선') | (df_1['호선명'] =='6호선') | (df_1['호선명'] =='7호선') | (df_1['호선명'] =='8호선')]
df

Unnamed: 0,호선,역명,요일,합,비율
0,1,동대문,금,11373.27,1.06
1,1,동대문,목,10937.39,1.02
2,1,동대문,수,10999.43,1.03
3,1,동대문,월,10770.26,1.01
4,1,동대문,일,9354.94,0.87
...,...,...,...,...,...
1927,8,천호(풍납토성),수,15093.73,1.10
1928,8,천호(풍납토성),월,14449.41,1.06
1929,8,천호(풍납토성),일,8518.45,0.62
1930,8,천호(풍납토성),토,12126.47,0.89


In [41]:
df.drop('합', axis=1, inplace = True)
df

Unnamed: 0,호선,역명,요일,비율
0,1,동대문,금,1.06
1,1,동대문,목,1.02
2,1,동대문,수,1.03
3,1,동대문,월,1.01
4,1,동대문,일,0.87
...,...,...,...,...
1927,8,천호(풍납토성),수,1.10
1928,8,천호(풍납토성),월,1.06
1929,8,천호(풍납토성),일,0.62
1930,8,천호(풍납토성),토,0.89


In [42]:
df.to_csv("역별요일별비율.csv", index=False)