# [project] 지하철 2호선, 언제 어디서 타야 앉아서 갈 수 있을까?

## 프로젝트 개요
-  서울 시민들에게 출퇴근 시간 지하철이란 '지옥철'과 다름이 없다. <br> 본인도 서울 시민으로서, 자주 이용하는 2호선의 혼잡한 시간대와 혼잡한 지하철 역을 분석 및 인사이트를 도출하기 위해 프로젝트를 시작하게 되었다.

## 프로젝트 목표

- 공공데이터를 활용하여 전처리 연습
- 인사이트를 도출하기 위한 데이터 시각화 (folium 라이브러리 적용) 


## 데이터 출처

- 지하철 승하차 데이터 : 서울시 지하철 호선별 역별 시간대별 승하차 인원 정보(서울 열린데이터 광장)<br>
https://data.seoul.go.kr/dataList/OA-12252/S/1/datasetView.do

- 수도권 지하철 좌표 정보 데이터 : 서울특별시 -> 교통정보 -> 세부 정보 <br>
https://t-data.seoul.go.kr/category/dataviewfile.do?data_id=36

# 목차

1. 데이터 불러오기
2. 데이터 검토

# 데이터 불러오기

In [1]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt

In [2]:
sub = pd.read_csv("서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.csv", encoding = 'cp949')

In [3]:
sub.head()

Unnamed: 0,사용월,호선명,지하철역,04시-05시 승차인원,04시-05시 하차인원,05시-06시 승차인원,05시-06시 하차인원,06시-07시 승차인원,06시-07시 하차인원,07시-08시 승차인원,...,23시-24시 하차인원,00시-01시 승차인원,00시-01시 하차인원,01시-02시 승차인원,01시-02시 하차인원,02시-03시 승차인원,02시-03시 하차인원,03시-04시 승차인원,03시-04시 하차인원,작업일자
0,202312,1호선,동대문,876,24,11117,2085,8840,5685,14001,...,9947,993,3017,157,464,0,80,0,0,20240103
1,202312,1호선,동묘앞,186,2,2785,956,3330,4326,7069,...,4639,142,2285,19,574,0,292,0,0,20240103
2,202312,1호선,서울역,700,35,7812,8436,12190,50415,37075,...,15733,3170,4088,140,1884,0,283,0,0,20240103
3,202312,1호선,시청,73,1,2208,4356,3731,21903,7341,...,5965,4290,1523,1053,383,0,10,0,0,20240103
4,202312,1호선,신설동,416,30,8628,1943,9192,8105,19443,...,9919,382,2775,20,362,0,0,0,0,20240103


# 데이터 검토

In [4]:
sub.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63725 entries, 0 to 63724
Data columns (total 52 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   사용월           63725 non-null  int64 
 1   호선명           63725 non-null  object
 2   지하철역          63725 non-null  object
 3   04시-05시 승차인원  63725 non-null  int64 
 4   04시-05시 하차인원  63725 non-null  int64 
 5   05시-06시 승차인원  63725 non-null  int64 
 6   05시-06시 하차인원  63725 non-null  int64 
 7   06시-07시 승차인원  63725 non-null  int64 
 8   06시-07시 하차인원  63725 non-null  int64 
 9   07시-08시 승차인원  63725 non-null  int64 
 10  07시-08시 하차인원  63725 non-null  int64 
 11  08시-09시 승차인원  63725 non-null  int64 
 12  08시-09시 하차인원  63725 non-null  int64 
 13  09시-10시 승차인원  63725 non-null  int64 
 14  09시-10시 하차인원  63725 non-null  int64 
 15  10시-11시 승차인원  63725 non-null  int64 
 16  10시-11시 하차인원  63725 non-null  int64 
 17  11시-12시 승차인원  63725 non-null  int64 
 18  11시-12시 하차인원  63725 non-null  int64 
 19  12시-

피쳐 요약 : 사용월, 호선명, 지하철역, 시간대별 승차인원, 시간대별 하차인원, 작업일자 <br>

**전처리 계획**
- 사용월 범위 설정
- 연구할 지하철 호선 설정
- '작업일자' 피처는 제거


In [5]:
sub['사용월'] #201501~202312 데이터 

0        202312
1        202312
2        202312
3        202312
4        202312
          ...  
63720    201501
63721    201501
63722    201501
63723    201501
63724    201501
Name: 사용월, Length: 63725, dtype: int64

In [6]:
sorted(list(sub['사용월'])) 

[201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 201501,
 

In [7]:
sorted(list(set(sub['사용월']))) #중복되지 않은 사용월 값 확인

[201501,
 201502,
 201503,
 201504,
 201505,
 201506,
 201507,
 201508,
 201509,
 201510,
 201511,
 201512,
 201601,
 201602,
 201603,
 201604,
 201605,
 201606,
 201607,
 201608,
 201609,
 201610,
 201611,
 201612,
 201701,
 201702,
 201703,
 201704,
 201705,
 201706,
 201707,
 201708,
 201709,
 201710,
 201711,
 201712,
 201801,
 201802,
 201803,
 201804,
 201805,
 201806,
 201807,
 201808,
 201809,
 201810,
 201811,
 201812,
 201901,
 201902,
 201903,
 201904,
 201905,
 201906,
 201907,
 201908,
 201909,
 201910,
 201911,
 201912,
 202001,
 202002,
 202003,
 202004,
 202005,
 202006,
 202007,
 202008,
 202009,
 202010,
 202011,
 202012,
 202101,
 202102,
 202103,
 202104,
 202105,
 202106,
 202107,
 202108,
 202109,
 202110,
 202111,
 202112,
 202201,
 202202,
 202203,
 202204,
 202205,
 202206,
 202207,
 202208,
 202209,
 202210,
 202211,
 202212,
 202301,
 202302,
 202303,
 202304,
 202305,
 202306,
 202307,
 202308,
 202309,
 202310,
 202311,
 202312]

In [8]:
sub_202312=sub[sub['사용월']==202312] #분석할 사용월 = 2023년 12월 데이터
sub_202312

Unnamed: 0,사용월,호선명,지하철역,04시-05시 승차인원,04시-05시 하차인원,05시-06시 승차인원,05시-06시 하차인원,06시-07시 승차인원,06시-07시 하차인원,07시-08시 승차인원,...,23시-24시 하차인원,00시-01시 승차인원,00시-01시 하차인원,01시-02시 승차인원,01시-02시 하차인원,02시-03시 승차인원,02시-03시 하차인원,03시-04시 승차인원,03시-04시 하차인원,작업일자
0,202312,1호선,동대문,876,24,11117,2085,8840,5685,14001,...,9947,993,3017,157,464,0,80,0,0,20240103
1,202312,1호선,동묘앞,186,2,2785,956,3330,4326,7069,...,4639,142,2285,19,574,0,292,0,0,20240103
2,202312,1호선,서울역,700,35,7812,8436,12190,50415,37075,...,15733,3170,4088,140,1884,0,283,0,0,20240103
3,202312,1호선,시청,73,1,2208,4356,3731,21903,7341,...,5965,4290,1523,1053,383,0,10,0,0,20240103
4,202312,1호선,신설동,416,30,8628,1943,9192,8105,19443,...,9919,382,2775,20,362,0,0,0,0,20240103
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
616,202312,중앙선,원덕,36,2,271,3,574,38,861,...,318,0,96,0,0,0,0,0,0,20240103
617,202312,중앙선,중랑,125,0,5511,501,9291,1855,21197,...,5349,31,526,0,0,0,0,0,0,20240103
618,202312,중앙선,지평,0,0,0,0,1,1,242,...,0,0,0,0,0,0,0,0,0,20240103
619,202312,중앙선,팔당,29,0,245,87,481,498,1233,...,270,0,0,0,0,0,0,0,0,20240103


In [9]:
line='2호선' #연구할 지하철 호선은 2호선
sub_st2=sub_202312[sub_202312['호선명']==line]
sub_st2 #2023년 12월 2호선 데이터 불러오기

Unnamed: 0,사용월,호선명,지하철역,04시-05시 승차인원,04시-05시 하차인원,05시-06시 승차인원,05시-06시 하차인원,06시-07시 승차인원,06시-07시 하차인원,07시-08시 승차인원,...,23시-24시 하차인원,00시-01시 승차인원,00시-01시 하차인원,01시-02시 승차인원,01시-02시 하차인원,02시-03시 승차인원,02시-03시 하차인원,03시-04시 승차인원,03시-04시 하차인원,작업일자
10,202312,2호선,강남,162,12,10077,10718,18160,53856,36702,...,26896,16352,8128,124,745,1,26,0,0,20240103
11,202312,2호선,강변(동서울터미널),33,1,8316,1994,25176,19082,70058,...,24402,1104,6709,41,424,1,24,0,0,20240103
12,202312,2호선,건대입구,324,6,15464,1959,20985,14610,49461,...,36393,8262,13144,198,1698,3,129,0,0,20240103
13,202312,2호선,교대(법원.검찰청),12,0,2343,6558,10316,22656,22110,...,13671,3970,4154,29,230,0,6,0,0,20240103
14,202312,2호선,구로디지털단지,226,9,36799,5040,48809,19298,131619,...,54301,3786,15633,89,1225,0,5,0,0,20240103
15,202312,2호선,구의(광진구청),46,3,13033,1495,24625,23443,62655,...,26733,1370,8461,34,626,0,42,0,0,20240103
16,202312,2호선,낙성대(강감찬),31,0,11171,2208,24885,10354,75862,...,35295,1550,10671,32,758,0,64,0,0,20240103
17,202312,2호선,당산,37,0,6373,2967,15687,11967,40594,...,21273,1348,5779,21,578,0,123,0,0,20240103
18,202312,2호선,대림(구로구청),529,28,32398,3056,27546,9570,61788,...,24836,821,6668,32,627,0,12,0,0,20240103
19,202312,2호선,도림천,2,0,420,323,1111,864,2891,...,1170,42,336,1,24,0,0,0,0,20240103


In [10]:
df=sub_st2.drop(['작업일자'],axis=1) #데이터프레임 변수명 df로 변환 / 작업일자 피처 제거
df.head()

Unnamed: 0,사용월,호선명,지하철역,04시-05시 승차인원,04시-05시 하차인원,05시-06시 승차인원,05시-06시 하차인원,06시-07시 승차인원,06시-07시 하차인원,07시-08시 승차인원,...,23시-24시 승차인원,23시-24시 하차인원,00시-01시 승차인원,00시-01시 하차인원,01시-02시 승차인원,01시-02시 하차인원,02시-03시 승차인원,02시-03시 하차인원,03시-04시 승차인원,03시-04시 하차인원
10,202312,2호선,강남,162,12,10077,10718,18160,53856,36702,...,89560,26896,16352,8128,124,745,1,26,0,0
11,202312,2호선,강변(동서울터미널),33,1,8316,1994,25176,19082,70058,...,7164,24402,1104,6709,41,424,1,24,0,0
12,202312,2호선,건대입구,324,6,15464,1959,20985,14610,49461,...,50098,36393,8262,13144,198,1698,3,129,0,0
13,202312,2호선,교대(법원.검찰청),12,0,2343,6558,10316,22656,22110,...,18822,13671,3970,4154,29,230,0,6,0,0
14,202312,2호선,구로디지털단지,226,9,36799,5040,48809,19298,131619,...,21225,54301,3786,15633,89,1225,0,5,0,0


In [11]:
len(df.columns)

51

**[승차 인원 데이터]**

In [12]:
get_on=pd.DataFrame()
get_on['지하철역']=df['지하철역']
for i in range(int((len(df.columns)-3)/2)):
    get_on[df.columns[3+2*i]]=df[df.columns[3+2*i]] #승차인원은 3인덱스, 5인덱스 순서로 정렬됨
    
get_on= get_on.set_index('지하철역')
get_on

Unnamed: 0_level_0,04시-05시 승차인원,05시-06시 승차인원,06시-07시 승차인원,07시-08시 승차인원,08시-09시 승차인원,09시-10시 승차인원,10시-11시 승차인원,11시-12시 승차인원,12시-13시 승차인원,13시-14시 승차인원,...,18시-19시 승차인원,19시-20시 승차인원,20시-21시 승차인원,21시-22시 승차인원,22시-23시 승차인원,23시-24시 승차인원,00시-01시 승차인원,01시-02시 승차인원,02시-03시 승차인원,03시-04시 승차인원
지하철역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
강남,162,10077,18160,36702,58885,51403,53860,72534,90211,106120,...,295278,200483,161575,189168,170213,89560,16352,124,1,0
강변(동서울터미널),33,8316,25176,70058,107811,85444,70090,63640,58723,57154,...,60571,42454,32658,26477,17539,7164,1104,41,1,0
건대입구,324,15464,20985,49461,89622,61591,41739,40832,46736,52277,...,90919,69703,71960,78492,81124,50098,8262,198,3,0
교대(법원.검찰청),12,2343,10316,22110,34354,27706,27035,32839,35351,42757,...,121011,59183,53974,55463,41846,18822,3970,29,0,0
구로디지털단지,226,36799,48809,131619,176836,112455,72194,65833,72601,72906,...,188913,94371,63679,54718,44059,21225,3786,89,0,0
구의(광진구청),46,13033,24625,62655,109941,71449,40401,33918,35755,35011,...,45612,25028,19892,18985,17463,9195,1370,34,0,0
낙성대(강감찬),31,11171,24885,75862,117304,79318,47043,40902,44114,44425,...,49105,28207,22657,22043,17007,9047,1550,32,0,0
당산,37,6373,15687,40594,51179,32978,24792,23798,25734,24474,...,53057,24337,19840,20299,18199,8863,1348,21,0,0
대림(구로구청),529,32398,27546,61788,91367,61697,41336,37010,37088,36988,...,48902,26449,19623,15037,11720,5714,821,32,0,0
도림천,2,420,1111,2891,3444,2293,2014,1674,2434,1629,...,3177,1533,737,700,373,197,42,1,0,0


**[하차 인원 데이터]**

In [13]:
get_off=pd.DataFrame()
get_off['지하철역']=df['지하철역']
for i in range(int((len(df.columns)-3)/2)):
    get_off[df.columns[4+2*i]]=df[df.columns[4+2*i]]
    
get_off= get_off.set_index('지하철역')
get_off

Unnamed: 0_level_0,04시-05시 하차인원,05시-06시 하차인원,06시-07시 하차인원,07시-08시 하차인원,08시-09시 하차인원,09시-10시 하차인원,10시-11시 하차인원,11시-12시 하차인원,12시-13시 하차인원,13시-14시 하차인원,...,18시-19시 하차인원,19시-20시 하차인원,20시-21시 하차인원,21시-22시 하차인원,22시-23시 하차인원,23시-24시 하차인원,00시-01시 하차인원,01시-02시 하차인원,02시-03시 하차인원,03시-04시 하차인원
지하철역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
강남,12,10718,53856,133015,277562,291458,150311,111816,107703,121674,...,189811,110805,61660,53031,45612,26896,8128,745,26,0
강변(동서울터미널),1,1994,19082,21276,40051,35948,38511,38456,42714,47383,...,105525,75080,55641,47574,44406,24402,6709,424,24,0
건대입구,6,1959,14610,22460,56529,52137,45276,52288,59833,66496,...,156090,106891,68295,64490,58783,36393,13144,1698,129,0
교대(법원.검찰청),0,6558,22656,47066,141277,131135,67913,63461,56832,57345,...,77891,41640,26400,25863,23879,13671,4154,230,6,0
구로디지털단지,9,5040,19298,74242,204033,131291,61272,47691,52334,62697,...,156345,126348,85939,87657,86906,54301,15633,1225,5,0
구의(광진구청),3,1495,23443,15923,39034,22325,19966,22479,24548,28161,...,92509,65227,45664,44771,43943,26733,8461,626,42,0
낙성대(강감찬),0,2208,10354,18274,36495,31825,27984,26423,28603,31112,...,92987,80314,54267,53390,53569,35295,10671,758,64,0
당산,0,2967,11967,25303,68909,33375,18386,17746,20317,22198,...,67630,46487,32447,33102,31430,21273,5779,578,123,0
대림(구로구청),28,3056,9570,20531,51025,35370,34380,38985,35806,35640,...,63985,49182,38925,48392,47913,24836,6668,627,12,0
도림천,0,323,864,3386,5357,1771,1365,1372,1852,1678,...,2917,2273,1777,1612,1316,1170,336,24,0,0


# 데이터 분석

## 출근시간(08~09시)

In [14]:
df=pd.DataFrame(index=sub_st2['지하철역'])
df['평균 승차 인원 수']=get_on['08시-09시 승차인원'].astype(int)
df['평균 하차 인원 수']=get_off['08시-09시 하차인원'].astype(int)
df

Unnamed: 0_level_0,평균 승차 인원 수,평균 하차 인원 수
지하철역,Unnamed: 1_level_1,Unnamed: 2_level_1
강남,58885,277562
강변(동서울터미널),107811,40051
건대입구,89622,56529
교대(법원.검찰청),34354,141277
구로디지털단지,176836,204033
구의(광진구청),109941,39034
낙성대(강감찬),117304,36495
당산,51179,68909
대림(구로구청),91367,51025
도림천,3444,5357


# 지하철역 위치 좌표 불러오기

출처 : 서울특별시 -> 교통정보 -> 세부 정보 <br>
https://t-data.seoul.go.kr/category/dataviewfile.do?data_id=36

In [15]:
subway_location=pd.read_csv('지하철역_GEOM (역사마스터).csv')
subway_location

Unnamed: 0,외구간_역_수,역한글명칭,호선명칭,환승역X좌표,환승역Y좌표
0,4128,삼성중앙,9호선(연장),127.053282,37.513011
1,4124,사평,9호선,127.015259,37.504206
2,4121,구반포,9호선,126.987332,37.501364
3,4119,흑석(중앙대입구),9호선,126.963708,37.508770
4,4116,샛강,9호선,126.928422,37.517274
...,...,...,...,...,...
766,4411,관악산(서울대),신림선,126.945064,37.469102
767,4306,신논현,신분당선(연장2),127.025060,37.504598
768,1404,탕정,장항선,127.084850,36.788660
769,4304,신사,신분당선(연장2),127.020114,37.516334


## 지하철역 좌표 데이터 전처리

In [16]:
#컬럼명을 직관적으로 변경
subway_location=subway_location.rename(columns={'역한글명칭':'지하철역','환승역X좌표':'x좌표','환승역Y좌표':'y좌표'})
subway_location.head()

Unnamed: 0,외구간_역_수,지하철역,호선명칭,x좌표,y좌표
0,4128,삼성중앙,9호선(연장),127.053282,37.513011
1,4124,사평,9호선,127.015259,37.504206
2,4121,구반포,9호선,126.987332,37.501364
3,4119,흑석(중앙대입구),9호선,126.963708,37.50877
4,4116,샛강,9호선,126.928422,37.517274


In [17]:
#분석에 필요없는 피처 제외
subway_location=subway_location.drop(['외구간_역_수','호선명칭'],axis=1)

In [18]:
subway_location

Unnamed: 0,지하철역,x좌표,y좌표
0,삼성중앙,127.053282,37.513011
1,사평,127.015259,37.504206
2,구반포,126.987332,37.501364
3,흑석(중앙대입구),126.963708,37.508770
4,샛강,126.928422,37.517274
...,...,...,...
766,관악산(서울대),126.945064,37.469102
767,신논현,127.025060,37.504598
768,탕정,127.084850,36.788660
769,신사,127.020114,37.516334


In [19]:
#지하철역 이름 변경
#split을 통해 '(' 기준으로 나눈 후 [0]번째 인덱스에 있는 값을 추출 -> + 데이터 값에 '역' 추가 
# ex) 흑석(중앙대입구) -> ['흑석', '중앙대입구)'] -> '흑석' -> '흑석역'
sub=[]
for name in subway_location['지하철역']:
    sub.append(name.split('(')[0]+'역')
subway_location['지하철역']=sub

In [20]:
subway_location

Unnamed: 0,지하철역,x좌표,y좌표
0,삼성중앙역,127.053282,37.513011
1,사평역,127.015259,37.504206
2,구반포역,126.987332,37.501364
3,흑석역,126.963708,37.508770
4,샛강역,126.928422,37.517274
...,...,...,...
766,관악산역,126.945064,37.469102
767,신논현역,127.025060,37.504598
768,탕정역,127.084850,36.788660
769,신사역,127.020114,37.516334


# 출근 시간 승하차 함수

In [21]:
def get_nums_and_location(line, sub_st2):
    sub_st2=sub_202312[sub_202312['호선명']==line] #특정 지하철 라인 추출
    
    df=sub_st2.drop(['작업일자'],axis=1) #데이터프레임 변수명 df로 변환 / 작업일자 피처 제거

    get_on=pd.DataFrame() #get_on = 승차인원 데이터
    get_on['지하철역']=df['지하철역']
    
    
    for i in range(int((len(sub_st2.columns)-3)/2)): 
        get_on[df.columns[3+2*i]]=df[df.columns[3+2*i]] 
    #승차인원은 3열, 5열.... 순서 / 하차인원은 4,6,8열...순서이므로 승차인원을 구하기 위해 3+2*i 사용
    #ex) 첫번째 반복문 : 3번째 인덱스 승차인원 = 3+2*0 -> 3 

    get_on= get_on.set_index('지하철역')
    

    #하차인원
    get_off=pd.DataFrame()
    get_off['지하철역']=df['지하철역']
    for i in range(int((len(sub_st2.columns)-3)/2)):
        get_off[df.columns[4+2*i]]=df[df.columns[4+2*i]]

    get_off= get_off.set_index('지하철역')

    df=pd.DataFrame(index=sub_st2['지하철역'])
    df['출근시간 승차 인원 수']=get_on['08시-09시 승차인원'].astype(int)
    df['출근시간 하차 인원 수']=get_off['08시-09시 하차인원'].astype(int)
    
    temp = []
    df = df.reset_index()
    for name in df['지하철역']:
        temp.append(name.split('(')[0]+'역')
    df['지하철역'] = temp
    
    #데이터 병합
    df = df.merge(subway_location, left_on='지하철역', right_on='지하철역')
    return df

In [22]:
#명동역 좌표를 기준으로 지도 생성
import folium
map_osm = folium.Map(location = [subway_location[subway_location['지하철역']=='명동역']['y좌표'],
                                 subway_location[subway_location['지하철역']=='명동역']['x좌표']],
                                 zoom_start=12)
map_osm

  float(coord)
  if math.isnan(float(coord)):
  return [float(x) for x in coords]


## 출근 시간 승차 데이터 시각화

In [23]:
rail='2호선' #2호선
df=get_nums_and_location(rail, sub_st2)

latitude=subway_location[subway_location['지하철역']=='명동역']['y좌표']
longitude=subway_location[subway_location['지하철역']=='명동역']['x좌표']
m=folium.Map(location=[latitude, longitude],zoom_start=12)

#마커 지정 
for i in df.index:
    marker=folium.CircleMarker([df['y좌표'][i], df['x좌표'][i]],
                              radius=(df['출근시간 승차 인원 수'][i]+1)/3000, #반지름 크기
                                     popup=[df['지하철역'][i], df['출근시간 승차 인원 수'][i]],
                                     color='red',
                                     fill_color='red') #출근시간 색깔은 red로 지정
    marker.add_to(m)
m

  float(coord)
  if math.isnan(float(coord)):
  return [float(x) for x in coords]


## 출근 시간 하차 데이터 시각화

In [24]:
rail='2호선'
df=get_nums_and_location(rail, sub_st2)

latitude=subway_location[subway_location['지하철역']=='명동역']['y좌표']
longitude=subway_location[subway_location['지하철역']=='명동역']['x좌표']
m=folium.Map(location=[latitude, longitude],zoom_start=12)

for i in df.index:
    marker=folium.CircleMarker([df['y좌표'][i], df['x좌표'][i]],
                              radius=(df['출근시간 하차 인원 수'][i]+1)/3000,
                                     popup=[df['지하철역'][i], df['출근시간 하차 인원 수'][i]],
                                     color='blue',
                                     fill_color='blue') #퇴근 시간 데이터는 blue로 지정
    marker.add_to(m)
m

  float(coord)
  if math.isnan(float(coord)):
  return [float(x) for x in coords]


# 퇴근 시간 승하차 함수

In [25]:
#출근 시간 승하차
def get_nums_and_location(line, sub_st2):
    
    # 특정 호선의 데이터만 추출합니다.
    sub_st2=sub_202312[sub_202312['호선명']==line]
    
    df=sub_st2.drop(['작업일자'],axis=1) #데이터프레임 변수명 df로 변환 / 작업일자 피처 제거

    get_on=pd.DataFrame()
    get_on['지하철역']=df['지하철역']
    for i in range(int((len(df.columns)-3)/2)):
        get_on[df.columns[3+2*i]]=df[df.columns[3+2*i]]

    get_on= get_on.set_index('지하철역')
    

    get_off=pd.DataFrame()
    get_off['지하철역']=df['지하철역']
    for i in range(int((len(df.columns)-3)/2)):
        get_off[df.columns[4+2*i]]=df[df.columns[4+2*i]]

    get_off= get_off.set_index('지하철역')

    df=pd.DataFrame(index=sub_st2['지하철역'])
    df['퇴근시간 승차 인원 수']=get_on['18시-19시 승차인원'].astype(int)
    df['퇴근시간 하차 인원 수']=get_off['18시-19시 하차인원'].astype(int)

    temp = []
    df = df.reset_index()
    for name in df['지하철역']:
        temp.append(name.split('(')[0]+'역')
    df['지하철역'] = temp
    

    df = df.merge(subway_location, left_on='지하철역', right_on='지하철역')
    return df

## 퇴근 시간 승차 데이터 시각화

In [26]:
rail='2호선'
df=get_nums_and_location(rail, sub_st2)

latitude=subway_location[subway_location['지하철역']=='명동역']['y좌표']
longitude=subway_location[subway_location['지하철역']=='명동역']['x좌표']
m=folium.Map(location=[latitude, longitude],zoom_start=12)

for i in df.index:
    marker=folium.CircleMarker([df['y좌표'][i], df['x좌표'][i]],
                              radius=(df['퇴근시간 승차 인원 수'][i]+1)/3000,
                                     popup=[df['지하철역'][i], df['퇴근시간 승차 인원 수'][i]],
                                     color='red',
                                     fill_color='red')
    marker.add_to(m)
m

  float(coord)
  if math.isnan(float(coord)):
  return [float(x) for x in coords]


## 퇴근 시간 하차 데이터 시각화

In [27]:
rail='2호선'
df=get_nums_and_location(rail, sub_st2)

latitude=subway_location[subway_location['지하철역']=='명동역']['y좌표']
longitude=subway_location[subway_location['지하철역']=='명동역']['x좌표']
m=folium.Map(location=[latitude, longitude],zoom_start=12)

for i in df.index:
    marker=folium.CircleMarker([df['y좌표'][i], df['x좌표'][i]],
                              radius=(df['퇴근시간 하차 인원 수'][i]+1)/3000,
                                     popup=[df['지하철역'][i], df['퇴근시간 하차 인원 수'][i]],
                                     color='blue',
                                     fill_color='blue')
    marker.add_to(m)
m

  float(coord)
  if math.isnan(float(coord)):
  return [float(x) for x in coords]
