## 가설

### <span style="color:#F05650">유동인구가 많은 지하철 역 근처 건물이 대피소로 지정될 것이다.</span>

설명<br>
유동인구가 많은 지하철 역 근처에 대피소를 지정함으로써,<br>재난 상황 발생 시 대피소에 대한 접근성 향상

계획<br>
지하철 역 주소 → 경도, 위도 → 경위도 계산식으로 거리(km)계산<br>
각 대피소 별 가장 가까운 지하철 역과의 거리 계산<br>
거리 변수와 종속 변수의 상관관계 도출<br>

### <span style="color:#F05650">6. 건물의 건축적 안전성(목재, 시멘트)이 높은 건물이 대피소로 선정될 가능성이 높다.</span>

설명<br>
재난 상황 발생 시, 건물의 안전성에 따라 대피소 선정률에 차이가 날 것이다.<br>

계획<br>
대피소 건물의 건축 대장부 or 크롤링을 통해 어떤 재료가 사용되었는지 알게 된다면,<br>
상관관계 분석

### <span style="color:#F05650"></span>

## 라이브러리

In [91]:
import pandas as pd
import re
import googlemaps

### 지하철 유동인구 분석

In [92]:
Station_pop_data = pd.read_csv('../Data/Subway/부산_지하철_승객수.csv', header=2).drop(0)

In [93]:
Station_pop_data.dropna(subset=['역명'], inplace=True)

In [94]:
Station_pop_data.drop(columns=Station_pop_data.columns[6:], inplace=True)

In [95]:
Station_pop_data['승하차인원_합계'] = Station_pop_data['합계_승차인원'] + Station_pop_data['합계_하차인원']

In [96]:
Station_pop_data.drop(columns=['합계_승차인원','합계_하차인원'], inplace=True)

In [97]:
Station_pop_data['역명'] = Station_pop_data['역명'].str.replace('역','')

In [98]:
Station_pop_data

Unnamed: 0,연도,기관,역명,호선,승하차인원_합계
1,2024.0,부산교통공사,괴정,1호선,545404.0
2,2024.0,부산교통공사,교대앞,1호선,800986.0
3,2024.0,부산교통공사,구서,1호선,546261.0
4,2024.0,부산교통공사,남산,1호선,298138.0
5,2024.0,부산교통공사,남포,1호선,1081561.0
...,...,...,...,...,...
146,2058.0,동해선,일광,동해선,147437.0
147,2059.0,동해선,부산원동,동해선,104550.0
148,2060.0,동해선,좌천,동해선,65997.0
149,2061.0,동해선,월내,동해선,33373.0


### 지하철, 대피소 간 거리 계산

In [99]:
Station_data = pd.read_csv('../Data/Subway/국가철도공단_부산_지하철_주소데이터_20231109.csv', encoding='cp949')

In [100]:
Station_data

Unnamed: 0,철도운영기관명,선명,역명,지번주소,도로명주소
0,부산교통공사,1호선,괴정,부산광역시 사하구 괴정동 934-3,부산광역시 사하구 낙동대로 지하 221(괴정동)
1,부산교통공사,1호선,교대,부산광역시 연제구 거제동 72-25,부산광역시 연제구 중앙대로 지하 1217
2,부산교통공사,1호선,구서,부산광역시 금정구 구서동 475,부산광역시 금정구 금정로 233번길 46(구서동)
3,부산교통공사,1호선,남산(부산외국대학교),부산광역시 금정구 남산동 136-1,부산광역시 금정구 중앙대로 2019-1
4,부산교통공사,1호선,남포,부산광역시 중구 남포동1가 11,부산광역시 중구 구덕로 지하 12
...,...,...,...,...,...
153,코레일,동해,월내,,부산광역시 기장군 장안읍 해맞이로 351-31
154,코레일,동해,일광,부산광역시 기장군 삼성리 21-1,부산광역시 기장군 일광읍 일광로 111-10
155,코레일,동해,재송,부산광역시 해운대구 재송동 909-2,부산광역시 해운대구 해운대로 100
156,코레일,동해,좌천,,부산광역시 기장군 장안읍 좌천리 239-4


In [101]:
Station_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 158 entries, 0 to 157
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   철도운영기관명  158 non-null    object
 1   선명       158 non-null    object
 2   역명       158 non-null    object
 3   지번주소     151 non-null    object
 4   도로명주소    158 non-null    object
dtypes: object(5)
memory usage: 6.3+ KB


#### 결측치 처리

지번주소의 null 값을 도로명주소의 값으로 대체

In [102]:
Station_data[Station_data['지번주소'].isnull()]

Unnamed: 0,철도운영기관명,선명,역명,지번주소,도로명주소
135,코레일,동해,개운포,,울산광역시 남구 산업로 133
140,코레일,동해,남창,,울산광역시 울주군 온양읍 남창리 42-36
141,코레일,동해,덕하,,울산광역시 울주군 청량읍 덕하로 229
143,코레일,동해,망양,,울산광역시 울주군 온양읍 망양리 484-1
153,코레일,동해,월내,,부산광역시 기장군 장안읍 해맞이로 351-31
156,코레일,동해,좌천,,부산광역시 기장군 장안읍 좌천리 239-4
157,코레일,동해,태화강,,울산광역시 남구 산업로 654


In [103]:
Station_data['지번주소'].fillna(Station_data['도로명주소'], inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  Station_data['지번주소'].fillna(Station_data['도로명주소'], inplace=True)


### google api와 geopy를 사용하여 지하철 주소 -> 위,경도 변환

In [104]:
Station_data

Unnamed: 0,철도운영기관명,선명,역명,지번주소,도로명주소
0,부산교통공사,1호선,괴정,부산광역시 사하구 괴정동 934-3,부산광역시 사하구 낙동대로 지하 221(괴정동)
1,부산교통공사,1호선,교대,부산광역시 연제구 거제동 72-25,부산광역시 연제구 중앙대로 지하 1217
2,부산교통공사,1호선,구서,부산광역시 금정구 구서동 475,부산광역시 금정구 금정로 233번길 46(구서동)
3,부산교통공사,1호선,남산(부산외국대학교),부산광역시 금정구 남산동 136-1,부산광역시 금정구 중앙대로 2019-1
4,부산교통공사,1호선,남포,부산광역시 중구 남포동1가 11,부산광역시 중구 구덕로 지하 12
...,...,...,...,...,...
153,코레일,동해,월내,부산광역시 기장군 장안읍 해맞이로 351-31,부산광역시 기장군 장안읍 해맞이로 351-31
154,코레일,동해,일광,부산광역시 기장군 삼성리 21-1,부산광역시 기장군 일광읍 일광로 111-10
155,코레일,동해,재송,부산광역시 해운대구 재송동 909-2,부산광역시 해운대구 해운대로 100
156,코레일,동해,좌천,부산광역시 기장군 장안읍 좌천리 239-4,부산광역시 기장군 장안읍 좌천리 239-4


In [105]:
mykey = "AIzaSyC7sHcMEk5THKHBW61rJav7MK-2tkaO5sU"
maps = googlemaps.Client(key=mykey)

def trans_geo(addr):
        geo_location = maps.geocode(addr)[0].get('geometry')
        lat = geo_location['location']['lat']
        lng =  geo_location['location']['lng']
        return [lat,lng]


# 실행
for idx, addr in enumerate(Station_data['지번주소']):
    Station_data.loc[idx,'latitude'] = trans_geo(addr)[0]
    Station_data.loc[idx,'longitude'] = trans_geo(addr)[1]


In [106]:
Station_data

Unnamed: 0,철도운영기관명,선명,역명,지번주소,도로명주소,latitude,longitude
0,부산교통공사,1호선,괴정,부산광역시 사하구 괴정동 934-3,부산광역시 사하구 낙동대로 지하 221(괴정동),35.099734,128.991905
1,부산교통공사,1호선,교대,부산광역시 연제구 거제동 72-25,부산광역시 연제구 중앙대로 지하 1217,35.195820,129.079995
2,부산교통공사,1호선,구서,부산광역시 금정구 구서동 475,부산광역시 금정구 금정로 233번길 46(구서동),35.245085,129.090869
3,부산교통공사,1호선,남산(부산외국대학교),부산광역시 금정구 남산동 136-1,부산광역시 금정구 중앙대로 2019-1,35.265644,129.090881
4,부산교통공사,1호선,남포,부산광역시 중구 남포동1가 11,부산광역시 중구 구덕로 지하 12,35.097884,129.034585
...,...,...,...,...,...,...,...
153,코레일,동해,월내,부산광역시 기장군 장안읍 해맞이로 351-31,부산광역시 기장군 장안읍 해맞이로 351-31,35.324736,129.274954
154,코레일,동해,일광,부산광역시 기장군 삼성리 21-1,부산광역시 기장군 일광읍 일광로 111-10,35.266607,129.233221
155,코레일,동해,재송,부산광역시 해운대구 재송동 909-2,부산광역시 해운대구 해운대로 100,35.188434,129.120444
156,코레일,동해,좌천,부산광역시 기장군 장안읍 좌천리 239-4,부산광역시 기장군 장안읍 좌천리 239-4,35.311787,129.245154


-----------------------


### 승객 수

부산이 아닌 지역 삭제

In [107]:
Station_data = Station_data[Station_data['지번주소'].str.contains('부산광역시')]

merge를 위해 '역명'컬럼 값 동일하게 설정

In [108]:
def remove_parentheses(station):
    return re.sub(r'\([^)]*\)', '', station)

Station_data['역명'] = [remove_parentheses(station) for station in Station_data['역명']]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  Station_data['역명'] = [remove_parentheses(station) for station in Station_data['역명']]


In [109]:
Station_data = Station_data.merge(Station_pop_data, on='역명', how='inner')

필요없는 컬럼 삭제

In [110]:
Station_data.drop(columns=['철도운영기관명', '선명', '도로명주소', '연도', '기관', '호선'], inplace=True)

## 최종 완성본

In [111]:
# Station_data.to_csv('../Data/Subway/Subway_preprocessing.csv', index=False)