In [None]:
import pandas as pd
from geopy.geocoders import Nominatim

# CSV 파일을 pandas DataFrame으로 읽어오기 (인코딩 방식 지정)
df = pd.read_csv("서울시버스정류소위치정보(20230613).csv", encoding='utf-8')

# 지오코더 객체 생성
geolocator = Nominatim(user_agent="myGeocoder")

# 시리얼 번호에 해당하는 위치를 행정구역 명칭으로 저장하기
locations = []
for index, row in df.iterrows():
    latitude = row['Y좌표']
    longitude = row['X좌표']
    location = geolocator.reverse((latitude, longitude), language="ko")
    address = location.address if location else None
    locations.append(address)

# 데이터프레임에 행정구역 명칭 추가하기
df['행정구역'] = locations

# '행정구역' 열의 값을 "OO구, OO동" 형식으로 요약하여 '행정구역_요약' 열에 추가하기
df['행정구역_요약'] = df['행정구역'].str.split(',').str[-5:-3].apply(', '.join)

# 인덱스, '위도', '경도', '행정구역' 열을 제거하여 새로운 데이터프레임 생성
df_new = df.drop(columns=['Y좌표', 'X좌표', '행정구역'])

# 새로운 CSV 파일로 저장
df_new.to_csv("bus_station_2022.csv", index=False, encoding='cp949')

# 결과 출력 (확인용)
df_new

In [None]:
from google.colab import drive
drive.mount('/content/drive')
import pandas as pd

Mounted at /content/drive


In [None]:
https://drive.google.com/file/d/1MAvatq4EQ6QFhseuQorTLcXPr5PEH665/view?usp=drive_link # 오류 데이터 예시



In [None]:
df = pd.read_csv(f'/content/drive/MyDrive/Datacampus_python/프로젝트/데이터/final_서울시 버스정류소 좌표데이터(2022.11.30)(최종).csv', encoding='utf-8') #버스정류소 위도 경도 주소변환 데이터 불러오기
df.head()

Unnamed: 0,NODE_ID,ARS-ID,정류소명,X좌표,Y좌표,행정구역,구,동
0,100000001,1001,종로2가사거리,126.98775,37.569765,"종로구, 종로1·2·3·4가동",종로구,종로1·2·3·4가동
1,100000002,1002,창경궁.서울대학교병원,126.996566,37.579183,"종로구, 이화동",종로구,이화동
2,100000003,1003,명륜3가.성대입구,126.99834,37.582671,"종로구, 종로1·2·3·4가동",종로구,종로1·2·3·4가동
3,100000004,1004,종로2가.삼일교,126.987613,37.568579,"성북구, 동선동",성북구,동선동
4,100000005,1005,혜화동로터리.여운형활동터,127.001744,37.586243,"종로구, 혜화동",종로구,삼선동


In [None]:
error_list = [1001,1016,1129,1130,1131,1172,1187,1194,1199,1200,1201,1203,1294,1296,1558,1576,1766,1768,1779,1780,1781,1789,1805,1812,1889,1890,1893,2225] #특정 동일 지역 오류 데이터
for data in error_list:
  df.loc[df['ARS-ID'] == int(data) ,'행정구역_요약'] = '종로1·2·3·4가동, 종로구'
df

KeyError: ignored

In [None]:
error_list = [1882,13034,13035] #특정 동일 지역 오류 데이터
for data in error_list:
  df.loc[df['ARS-ID'] == int(data) ,'행정구역_요약'] = '무악동, 종로구'
df

In [None]:
error_list = [17359,17360,17366,17368,17369,17682] #특정 동일 지역 오류 데이터
for data in error_list:
  df.loc[df['ARS-ID'] == int(data) ,'행정구역_요약'] = '항동, 구로구'
df

In [None]:
pd.set_option('display.max_rows', None)
arsid = {25002 : '상일1동,  강동구', 17588 : '수궁동,  구로구', 2150:'명동,  중구', 2242:'필동,  중구', 2148:'회현동,  중구', 9286:'우이동, 강북구', 8781 : '석관동, 성북구', 5230 : '화양동, 광진구'} #특수 지역 오류 데이터(ex) 건대 맛의거리, 특정 아파트 버스 정류소)
for id, loc in arsid.items():
  df.loc[df['ARS-ID'] == int(id) ,'행정구역_요약'] = loc
df


In [None]:
pd.set_option('display.max_rows', None) #자치구 위치 오류 데이터 전처리
df[df['행정구역_요약'].str.contains('남가좌동')]
df.loc[df['행정구역_요약'] == '남가좌동,  남가좌1동' ,'행정구역_요약'] = '남가좌1동,  서대문구'
df[df['행정구역_요약'].str.contains('남가좌동')]

error_loc = {'서초구,  서울' : '양재1동, 서초구',
             '마포구,  서울' : '상암동, 마포구',
             '사직동,  중구' : '소공동, 중구',
             '교남동,  서대문구' : '천연동, 서대문구',
             '약수동,  성동구' : '옥수동, 성동구',
             '용신동,  성동구' : '용답동, 성동구',
             '송정동,  광진구' : '군자동, 광진구',
             '장안1동,  성동구' : '용답동, 성동구',
             '이문1동,  성북구' : '석관동, 성북구',
             '안암동,  동대문구' : '제기동, 동대문구',
             '삼선동,  종로구' : '혜화동, 종로구',
             '쌍문1동,  강북구' : '쌍문1동, 도봉구',
             '월계2동,  도봉구' : '창4동, 도봉구',
             '연남동,  서대문구' : '연희동, 서대문구',
             '공덕동,  용산구' : '공덕동, 마포구',
             '화곡1동,  양천구' : '화곡1동, 강서구',
             '양재1동,  강남구' : '도곡2동, 강남구',
             '세곡동,  서초구' : '내곡동, 서초구',
             '안골' : '내곡동, 서초구',
             '원효로1가,  용산구' : '원효로1동, 용산구',
             '원효로2가,  용산구' : '원효로2동, 용산구'}

for search_loc, replace_loc in error_loc.items():
  error_list = df[df['행정구역_요약'].str.contains(search_loc)]['ARSID'].unique()
  for data in error_list:
    df.loc[df['ARS-ID'] == int(data) ,'행정구역_요약'] = replace_loc


In [None]:
idx = df[df['행정구역_요약'].str.contains('마을')|df['행정구역_요약'].str.contains('아파트')|df['행정구역_요약'].str.contains('남부순환로')].index #행정동으로 구분 되지 않는 지역 제거
idx

for i in idx:
  df.drop(i,inplace = True)
df[df['행정구역_요약'].str.contains('마을')|df['행정구역_요약'].str.contains('아파트')|df['행정구역_요약'].str.contains('남부순환로')]



In [None]:
df.to_csv('./2022년버스정류소위치_수정.csv', index=False, encoding='utf-8-sig')