In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
#load number of embarking/disembarking people of each station of year 2022
station = pd.read_csv("서울교통공사_역별 일별 시간대별 승하차인원 정보_20221231.csv", encoding='cp949')
station.head

<bound method NDFrame.head of             연번        수송일자  호선   역번호   역명 승하차구분  06시이전  06-07시간대  07-08시간대  \
0            1  2022-01-01   1   150  서울역    승차    120       137       211   
1            2  2022-01-01   1   150  서울역    하차    113       560       617   
2            3  2022-01-01   1   151   시청    승차     38        66       101   
3            4  2022-01-01   1   151   시청    하차     31       195       224   
4            5  2022-01-01   1   152   종각    승차     44        71        86   
...        ...         ...  ..   ...  ...   ...    ...       ...       ...   
199075  199076  2022-12-31   8  2826   수진    하차     16        81        64   
199076  199077  2022-12-31   8  2827   모란    승차     66        68        93   
199077  199078  2022-12-31   8  2827   모란    하차     13       104        62   
199078  199079  2022-12-31   8  2828  남위례    승차     23        60        86   
199079  199080  2022-12-31   8  2828  남위례    하차     22        68        77   

        08-09시간대  ...  15-16시간대  

In [3]:
print(station.dtypes)

연번            int64
수송일자         object
호선            int64
역번호           int64
역명           object
승하차구분        object
06시이전         int64
06-07시간대      int64
07-08시간대      int64
08-09시간대      int64
09-10시간대      int64
10-11시간대      int64
11-12시간대      int64
12-13시간대      int64
13-14시간대      int64
14-15시간대      int64
15-16시간대      int64
16-17시간대      int64
17-18시간대      int64
18-19시간대      int64
19-20시간대      int64
20-21시간대      int64
21-22시간대      int64
22-23시간대      int64
23-24시간대      int64
24시이후       float64
dtype: object


In [4]:
#병기역명/부역명 제거
import re
station['역명'] = station['역명'].apply(lambda x: re.sub(r'\(.*\)', '', x).strip())
#4,7호선 이수역은 역명이 다른 환승역이므로 총신대입구로 통일
station['역명'] = station['역명'].replace('이수', '총신대입구')
#데이터 없는 7호선 인천교통공사 관할구간 제거 (신내역은 경춘선 승하차량 데이터가 없어서 제거)
stations_to_remove = ['까치울', '부천시청', '부평구청', '상동', '신내']
incheon = station[station['역명'].isin(stations_to_remove)].index
station.drop(incheon, inplace=True)

In [5]:
#load number of transfering people of year 2022
transfer = pd.read_csv("서울교통공사_역별요일별환승인원_20221231.csv", encoding='cp949')
transfer.head

<bound method NDFrame.head of     연번       역명  평일(일평균)    토요일    일요일
0    1     가락시장    34322  23568  17202
1    2  가산디지털단지    84736  50658  39813
2    3       강남    66395  44985  29048
3    4     강남구청    58829  37701  23936
4    5       강동     4432   3002   2566
..  ..      ...      ...    ...    ...
68  69      충정로    18694  10667   6945
69  70     태릉입구    47743  32676  23308
70  71       합정    92750  71774  50080
71  72     홍대입구    72096  67304  49510
72  73    효창공원앞     7646   5978   4407

[73 rows x 5 columns]>

In [6]:
# Convert date column to datetime format
station['수송일자'] = pd.to_datetime(station['수송일자'])

# Extract the day of the week (0=Monday, 1=Tuesday, ..., 6=Sunday)
station['day_of_week'] = station['수송일자'].dt.dayofweek

# Classify days as 'Weekday', 'Saturday', or 'Sunday'
station['day_type'] = station['day_of_week'].apply(lambda x: 'Weekday' if x < 5 else ('Saturday' if x == 5 else 'Sunday'))

hours = ['06시이전', '06-07시간대', '07-08시간대', '08-09시간대', '09-10시간대', '10-11시간대','11-12시간대', '12-13시간대', '13-14시간대', '14-15시간대', '15-16시간대', '16-17시간대', '17-18시간대', '18-19시간대', '19-20시간대', '20-21시간대', '21-22시간대', '22-23시간대', '23-24시간대', '24시이후']

# Melt the dataframe to have one row per station, hour, and day type
melted_df = pd.melt(station, id_vars=['호선', '역번호', '역명', '승하차구분', 'day_type'], 
                    value_vars = hours,
                    var_name='hour', value_name='passenger_count')

In [7]:
def remove_outliers(df):
    Q1 = df['passenger_count'].quantile(0.25)
    Q3 = df['passenger_count'].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return df[(df['passenger_count'] >= lower_bound) & (df['passenger_count'] <= upper_bound)]

# Group by station, embark/disembark, hour, and day type to calculate the mean
grouped = melted_df.groupby(['호선', '역번호', '역명', '승하차구분', 'hour', 'day_type'], group_keys=False).apply(remove_outliers)
grouped_df = grouped.groupby(['호선', '역번호', '역명', '승하차구분', 'hour', 'day_type'])['passenger_count'].mean().reset_index()

# Pivot the dataframe to get the desired format
pivot_df = grouped_df.pivot_table(index=['호선', '역번호', '역명', 'hour'], 
                                  columns=['승하차구분', 'day_type'], values='passenger_count').reset_index()

# Convert 'hour' to a categorical type with the specified order
pivot_df['hour'] = pd.Categorical(pivot_df['hour'], categories=hours, ordered=True)

# Sort by '역번호' and the categorical 'hour' column
pivot_df = pivot_df.sort_values(by=['역번호', 'hour']).reset_index(drop=True)

#pivot_df.to_csv('cleaned_station_data.csv', index=False, encoding='cp949')

  grouped = melted_df.groupby(['호선', '역번호', '역명', '승하차구분', 'hour', 'day_type'], group_keys=False).apply(remove_outliers)


In [8]:
pivot_df.columns = pivot_df.columns.map('_'.join)
pivot_df.columns = [col.rstrip('_') for col in pivot_df.columns]

In [9]:
#충무로역, 3호선 승하차량이 모두 4호선으로 집계
#3호선, 4호선 승하차량 비율
rate_3 = 1304648 / 2420033
rate_4 = 1115385 / 2420033
Chungmuro = pivot_df.loc[(pivot_df['역명'] == '충무로') & (pivot_df['호선'] == 4)]
columns = ['승차_Saturday', '승차_Sunday', '승차_Weekday', '하차_Saturday', '하차_Sunday', '하차_Weekday']

# Iterate over the filtered rows
for idx, row in Chungmuro.iterrows():
    for col in columns:
        pivot_df.at[idx - 720, col] = row[col] * rate_3
    for col in columns:
        pivot_df.at[idx, col] = row[col] * rate_4
        
#연신내역, 6호선 승하차량이 모두 3호선으로 집계
rate_3 = 1115385 / 1708420
rate_6 = 593035 / 1708420
Yeonsinnae = pivot_df.loc[(pivot_df['역명'] == '연신내') & (pivot_df['호선'] == 3)]

for idx, row in Yeonsinnae.iterrows():
    for col in columns:
        pivot_df.at[idx + 2360, col] = row[col] * rate_6
    for col in columns:
        pivot_df.at[idx, col] = row[col] * rate_3
        
#창동역, 1호선(경원선) 승하차량이 모두 4호선으로 집계
rate_4 = 1304648 / 3395546
Chang_dong = pivot_df.loc[(pivot_df['역명'] == '창동') & (pivot_df['호선'] == 4)]

for idx, row in Chang_dong.iterrows():
    for col in columns:
        pivot_df.at[idx, col] = row[col] * rate_4
#pivot_df.to_csv('processed_passenger_data.csv', index=False, encoding='cp949')

In [9]:
#일부 환승역 승하차량 보정

In [10]:
station_number = pd.read_csv("station_number.csv", encoding='cp949')

In [11]:
#역번호 맞추기
pivot_df.drop(columns='역번호', inplace=True)
pivot_df = pd.merge(pivot_df, station_number, how='inner', on=['호선','역명'])

In [12]:
#station1 = pd.read_csv("processed_passenger_data.csv", encoding='cp949')
station1 = pivot_df.copy()
station1.head

<bound method NDFrame.head of       호선   역명      hour  승차_Saturday    승차_Sunday   승차_Weekday  하차_Saturday  \
0      1  서울역     06시이전   303.760000   176.576923   325.951417   257.377358   
1      1  서울역  06-07시간대   282.528302   190.529412   463.805668  1393.962264   
2      1  서울역  07-08시간대   548.615385   315.826923  1624.436735  1565.754717   
3      1  서울역  08-09시간대  1244.037736   717.192308  2573.532520  1870.264151   
4      1  서울역  09-10시간대  1647.132075  1074.288462  1829.762846  2680.301887   
...   ..  ...       ...          ...          ...          ...          ...   
5455   8  남위례  20-21시간대   134.283019   108.211538   156.787645   193.226415   
5456   8  남위례  21-22시간대   144.000000   114.442308   168.738462   208.603774   
5457   8  남위례  22-23시간대   109.754717    76.846154   126.303846   193.615385   
5458   8  남위례  23-24시간대    47.547170    30.134615    51.216216   159.720000   
5459   8  남위례     24시이후     0.000000     0.000000    22.132450     0.000000   

        하차_Sunday   하

In [13]:
transfer['역명'] = transfer['역명'].replace('총신대입구(이수)', '총신대입구')
transfer.drop(columns='연번', inplace=True)
transfer = transfer.rename(columns={'평일(일평균)': '환승_Weekday', '토요일': '환승_Saturday', '일요일': '환승_Sunday'})
transfer.drop(transfer[transfer['역명'] == '신내'].index, inplace=True)

In [14]:
transfer.head

<bound method NDFrame.head of          역명  환승_Weekday  환승_Saturday  환승_Sunday
0      가락시장       34322        23568      17202
1   가산디지털단지       84736        50658      39813
2        강남       66395        44985      29048
3      강남구청       58829        37701      23936
4        강동        4432         3002       2566
..      ...         ...          ...        ...
68      충정로       18694        10667       6945
69     태릉입구       47743        32676      23308
70       합정       92750        71774      50080
71     홍대입구       72096        67304      49510
72    효창공원앞        7646         5978       4407

[72 rows x 4 columns]>

In [15]:
interval = pd.read_csv("interval.csv", encoding='cp949')

In [16]:
station_transfer = pd.merge(station1, transfer, how='outer', on='역명')
station_transfer = pd.merge(station_transfer, interval, how='outer', on=['호선', 'hour'])

station_transfer['hour'] = pd.Categorical(station_transfer['hour'], categories=hours, ordered=True)
station_transfer = station_transfer.sort_values(by=['역번호', 'hour']).reset_index(drop=True)

station_transfer['hour'] = station_transfer['hour'].astype(str)

station_transfer = station_transfer.fillna(0)

#station_transfer.to_csv('join.csv', index=False, encoding='cp949')

In [17]:
station_transfer.head

<bound method NDFrame.head of       호선   역명      hour  승차_Saturday   승차_Sunday   승차_Weekday  하차_Saturday  \
0      1  청량리     06시이전   344.784314  156.634615   430.492000   134.058824   
1      1  청량리  06-07시간대   311.320755  180.653846   580.060729   762.000000   
2      1  청량리  07-08시간대   439.980769  267.173077  1500.773279   450.169811   
3      1  청량리  08-09시간대   686.769231  473.769231  1888.692308   764.980769   
4      1  청량리  09-10시간대   896.686275  682.846154  1045.704000  1005.960000   
...   ..  ...       ...          ...         ...          ...          ...   
5455   2  신설동  20-21시간대    89.660377   72.000000   102.255144    90.433962   
5456   2  신설동  21-22시간대    75.232558   58.038462    92.786885    96.196078   
5457   2  신설동  22-23시간대    55.339623   41.666667    61.906615    83.716981   
5458   2  신설동  23-24시간대    23.096154   17.423077    25.105469    76.100000   
5459   2  신설동     24시이후     3.366667    2.071429     8.540541    17.172414   

       하차_Sunday   하차_Weekday   역

In [18]:
station_transfer.columns

Index(['호선', '역명', 'hour', '승차_Saturday', '승차_Sunday', '승차_Weekday',
       '하차_Saturday', '하차_Sunday', '하차_Weekday', '역번호', '환승_Weekday',
       '환승_Saturday', '환승_Sunday', 'interval_Weekday', 'interval_Saturday',
       'interval_Sunday', 'capacity'],
      dtype='object')

In [19]:
station_transfer.dtypes

호선                     int64
역명                    object
hour                  object
승차_Saturday          float64
승차_Sunday            float64
승차_Weekday           float64
하차_Saturday          float64
하차_Sunday            float64
하차_Weekday           float64
역번호                    int64
환승_Weekday           float64
환승_Saturday          float64
환승_Sunday            float64
interval_Weekday     float64
interval_Saturday    float64
interval_Sunday      float64
capacity               int64
dtype: object

In [20]:
new = station_transfer.copy()

for station_name in transfer['역명']:
    selected = station_transfer.loc[station_transfer['역명'] == station_name]
    lines = pd.unique(selected['호선'])
    
    for line in lines:
        selected_line = selected.loc[selected['호선'] == line]

        total_Saturday = selected_line[['승차_Saturday', '하차_Saturday']].to_numpy().sum()
        total_Sunday = selected_line[['승차_Sunday', '하차_Sunday']].to_numpy().sum()
        total_Weekday = selected_line[['승차_Weekday', '하차_Weekday']].to_numpy().sum()

        for idx, row in selected_line.iterrows():
            scaling_Saturday = (row['승차_Saturday'] + row['하차_Saturday']) / total_Saturday
            scaling_Sunday = (row['승차_Sunday'] + row['하차_Sunday']) / total_Sunday
            scaling_Weekday = (row['승차_Weekday'] + row['하차_Weekday']) / total_Weekday
    
            new.at[idx, '환승_Saturday'] = row['환승_Saturday'] * scaling_Saturday
            new.at[idx, '환승_Sunday'] = row['환승_Sunday'] * scaling_Sunday
            new.at[idx, '환승_Weekday'] = row['환승_Weekday'] * scaling_Weekday

new.to_csv('join2.csv', index=False, encoding='cp949')

In [21]:
#load congestion rate of year 2022
congestion = pd.read_csv("서울교통공사_지하철혼잡도정보_20221231.csv", encoding='cp949')
congestion.head

<bound method NDFrame.head of         연번 요일구분  호선   역번호  출발역 상하구분  5시30분  6시00분  6시30분  7시00분  ...  20시00분  \
0        1   평일   1   150  서울역   상선    7.3   18.1   18.1   30.9  ...    15.6   
1        2   평일   1   150  서울역   하선   11.5   11.0   13.2   21.4  ...    35.3   
2        3   평일   1   151   시청   상선    6.6   15.4   14.7   25.0  ...    19.1   
3        4   평일   1   151   시청   하선    9.0    9.1   14.6   20.0  ...    30.5   
4        5   평일   1   152   종각   상선    6.3   14.4   10.7   17.6  ...    26.8   
...    ...  ...  ..   ...  ...  ...    ...    ...    ...    ...  ...     ...   
1653  1654  공휴일   8  2827   모란   하선    0.0    0.0    0.0    0.0  ...     0.0   
1654  1655  공휴일   8  2828  남위례   상선    9.9    5.8    6.6    8.1  ...     7.3   
1655  1656  공휴일   8  2828  남위례   하선    2.1    3.0    3.7    3.0  ...    17.1   
1656  1657  공휴일   8  2828  남위례   상선    9.9    5.8    6.6    8.1  ...     7.3   
1657  1658  공휴일   8  2828  남위례   하선    2.1    3.0    3.7    3.0  ...    17.1   

      20시

In [22]:
stations_to_remove = ['진접', '오남', '별내별가람', '신내']
remove_index = congestion[congestion['출발역'].isin(stations_to_remove)].index
congestion.drop(remove_index, inplace=True)
congestion["상하구분"] = congestion["상하구분"].replace("내선", "하선")
congestion["상하구분"] = congestion["상하구분"].replace("외선", "상선")
congestion["출발역"] = congestion["출발역"].replace("신촌(지하)", "신촌")
congestion["출발역"] = congestion["출발역"].replace("신천", "잠실새내")
congestion["출발역"] = congestion["출발역"].replace("올림픽공원(한국체대)", "올림픽공원")

In [23]:
congestion1 = congestion.copy()
time = ['5시30분', '6시00분', '6시30분', '7시00분', '7시30분', '8시00분', '8시30분', '9시00분', '9시30분', '10시00분', '10시30분', '11시00분', '11시30분', '12시00분', '12시30분', '13시00분', '13시30분', '14시00분', '14시30분', '15시00분', '15시30분', '16시00분', '16시30분', '17시00분', '17시30분', '18시00분', '18시30분', '19시00분', '19시30분', '20시00분', '20시30분', '21시00분', '21시30분', '22시00분', '22시30분', '23시00분', '23시30분', '00시00분', '00시30분']
hours = ['06시이전', '06-07시간대', '07-08시간대', '08-09시간대', '09-10시간대', '10-11시간대','11-12시간대', '12-13시간대', '13-14시간대', '14-15시간대', '15-16시간대', '16-17시간대', '17-18시간대', '18-19시간대', '19-20시간대', '20-21시간대', '21-22시간대', '22-23시간대', '23-24시간대', '24시이후']
congestion1.drop(columns=time, inplace=True)
congestion1.drop(columns='연번', inplace=True)
for hour in hours:
    congestion1[hour] = pd.Series(dtype='float64')
for idx, row in congestion.iterrows():
    congestion1.at[idx, hours[0]] = row[time[0]]
    for i in range(1, 20):
        congestion1.at[idx, hours[i]] = (row[time[2*i-1]] + row[time[2*i]]) / 2
congestion1.to_csv('congestion1.csv', index=False, encoding='cp949')

In [24]:
congestion2 = congestion1.melt(id_vars=['요일구분', '호선', '역번호', '출발역', '상하구분'], 
                    var_name='시간대', value_name='이용객수')

# Pivot the DataFrame to create new columns based on direction and day type
congestion3 = congestion2.pivot_table(
    index=['호선', '역번호', '출발역', '시간대'],
    columns=['상하구분', '요일구분'],
    values='이용객수'
)

# Rename columns to match the specified format
congestion3.columns = ['_'.join(col).strip() for col in congestion3.columns.values]
congestion3 = congestion3.reset_index()

In [25]:
congestion3 = congestion3.fillna(0)
congestion3.rename(columns = {'출발역' : '역명', '시간대' : 'hour', '상선_공휴일' : '상선_Sunday', '상선_토요일': '상선_Saturday', '상선_평일' : '상선_Weekday', '하선_공휴일' : '하선_Sunday', '하선_토요일': '하선_Saturday', '하선_평일' : '하선_Weekday'}, inplace = True)
congestion3.drop(columns='역번호', inplace=True)
congestion3 = pd.merge(congestion3, station_number, how='inner', on=['호선','역명'])

congestion3.to_csv('congestion3.csv', index=False, encoding='cp949')

In [26]:
final = pd.merge(new, congestion3, how='inner', on=['호선', '역명', 'hour', '역번호'])
col = ['호선', '역번호', '역명', 'hour', '승차_Weekday', '승차_Saturday', '승차_Sunday', '하차_Weekday', '하차_Saturday', '하차_Sunday', '환승_Weekday', '환승_Saturday', '환승_Sunday', 'interval_Weekday', 'interval_Saturday', 'interval_Sunday', 'capacity', '상선_Weekday', '상선_Saturday', '상선_Sunday', '하선_Weekday', '하선_Saturday', '하선_Sunday']
final = final[col]
final.to_csv('2022_final.csv', index=False, encoding='cp949')