In [1]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

url = 'http://openapi.seoul.go.kr:8088/725069536873756e313030706965574d/xml/citydata/1/5/POI'
area = ["{:03}".format(n) for n in range(1, 5)]#POI1 이 아닌 POI001로 만들기위한 처리 113번까지 있음

list_of_dfs = []#초기화

for k in area:
    resp = requests.get(url + str(k))
    content = resp.text

    xml_obj = BeautifulSoup(content,'lxml-xml')

    rows = xml_obj.findAll('SeoulRtd.citydata')

    all_columns = set()  
    for row in rows:
        columns = row.find_all()
        for column in columns:
            all_columns.add(column.name)

    data_dict_row_list=[]

    for row in rows:
        data_dict_row={col:"" for col in all_columns}
        
        if 'SUB_STN_NM' in all_columns or 'SUB_STN_LINE' in all_columns:
            sub_stn_nms=[sub_stn_nm.text for sub_stn_nm in row.find_all('SUB_STN_NM')]
            sub_stn_lines=[sub_stn_line.text for sub_stn_line in row.find_all('SUB_STN_LINE')]
            
            sub_stn_nms=list(set(sub_stn_nms))
            sub_stn_lines=list(set(sub_stn_lines))
            
            data_dict_row['SUB_STN_NM']=", ".join(sub_stn_nms)
            data_dict_row['SUB_STN_LINE']=", ".join(sub_stn_lines)

        if 'RTE_NM' in all_columns: 
            rte_names=[rte_name.text for rte_name  in row.find_all('RTE_NM')]
            unique_rte_names= list(set(rte_names)) 
            data_dict_row['RTE_NM']= len(unique_rte_names) 
            
        for column  in columns:   
                    if column.name not  in ['SUB_STN_NM', 'SUB_STN_LINE', 'RTE_NM']:
                        data_dict_row[column.name]=column.text
            
        data_dict_row_list.append(data_dict_row)

    tmp_df=pd.DataFrame(data_dict_row_list)

    selected_columns=['AREA_CD','AREA_NM', 'AREA_CONGEST_LVL', 'AREA_CONGEST_MSG', 
                        'AREA_PPLTN_MAX', 'PPLTN_TIME', 'ROAD_TRAFFIC_IDX',
                        'ROAD_MSG','SUB_STN_NM','BUS_STN_ID',
                        'RTE_NM','RTE_ID','TEMP','PRECPT_TYPE',
                        'PCP_MSG','PM25','PM10']

    # DataFrame에 존재하는 컬럼만 선택
    selected_columns = [col for col in selected_columns if col in tmp_df.columns]

    tmp_df=tmp_df[selected_columns]

    congestion_mapping_dict={'여유': 1, 
                            "보통": 2,
                            "약간 붐빔":3,
                            "붐빔":4}

    traffic_mapping_dict={"원활": 1,
                        "서행":2,
                        "정체":3}

    tmp_df['AREA_CONGEST_INT']=[congestion_mapping_dict[congest] if congest else None 
                                for congest in tmp_df['AREA_CONGEST_LVL']]

    tmp_df['ROAD_TRAFFIC_INT']=[traffic_mapping_dict[traff] if traff else None 
                                for traff in tmp_df['ROAD_TRAFFIC_IDX']]

    tmp_df["SUB_STN_INT"]=tmp_df["SUB_STN_NM"].apply(lambda x: len(x.split(',')) if x else None)

    list_of_dfs.append(tmp_df)
        
seoul_df=pd.concat(list_of_dfs,axis=0, ignore_index=True)
print(seoul_df)


KeyError: 'SUB_STN_NM'

In [None]:
# 구글 지도 api 활용해서 위도경도 얻기

import requests
from functools import partial
import re

def get_lat_lng(apiKey, address):
    """
    Returns the latitude and longitude of a location using the Google Maps Geocoding API. 
    """
    url = ('https://maps.googleapis.com/maps/api/geocode/json?address={}&key={}'
            .format(address.replace(' ','+'), apiKey))
    
    try:
        response = requests.get(url)
        resp_json_payload = response.json()
        lat = resp_json_payload['results'][0]['geometry']['location']['lat']
        lng = resp_json_payload['results'][0]['geometry']['location']['lng']
    except:
        print('ERROR: {}, {}'.format(address, response.content))
        return (None, None)
    
    return (lat, lng)

# AREA_NM 전처리 후 -> SEARCH_FOR_NM 에넣기위한 처리과정
def clean_area_nm(area):
    area = area.replace('관광특구', '')  # Remove '관광특구'
    area = re.sub(r'[a-zA-Z]', '', area)  # Remove English characters
    return area.strip()  # Remove leading and trailing spaces

# Google Cloud Platform API key 입력하는부분
apiKey = 'AIzaSyCIMKh4bchhEumjQRRWEURQ6zsQN7xFUQk'

# 구글맵에서 AREA_NM 이름은 에러가 종종 나와서 변환하는부분
seoul_df['SEARCH_FOR_NM'] = seoul_df['AREA_NM'].apply(clean_area_nm)

# 구글맵으로 lat lng 얻기.
partial_get_lat_lng = partial(get_lat_lng, apiKey)

seoul_df['LAT'], seoul_df['LNG'] = zip(*seoul_df['SEARCH_FOR_NM'].apply(partial_get_lat_lng))


In [None]:
from geopy.geocoders import GoogleV3
from geopy.distance import geodesic

# 구글 지오코딩 API 키 설정
geolocator = GoogleV3(api_key='AIzaSyCIMKh4bchhEumjQRRWEURQ6zsQN7xFUQk')

# 한글 주소 -> 좌표 변환 (예: "서울특별시 종로구 청계천로 41")
userlocation ="서울특별시 종로구 청계천로 41"
#나중에 추가작업필요: 사용자가 직접 넣든 gps로 넣든해야하는부분




location = geolocator.geocode(userlocation)

# 좌표2 - 변환된 결과에서 위도, 경도 가져오기
coord2 = (location.latitude, location.longitude)

# 데이터프레임의 각 행에 대해 거리 계산 후 'DISTANCE_TO_USER' 컬럼에 저장
seoul_df['DISTANCE_TO_USER'] = seoul_df.apply(lambda row: int(geodesic((row['LAT'], row['LNG']), coord2).meters), axis=1)


In [None]:
from datetime import datetime

# 현재 시간 정보를 가져옵니다.
now = datetime.now()

# 원하는 포맷으로 시간 정보를 문자열로 변환합니다.
time_str = now.strftime("%y_%m_%d_%H%M")

# 파일명에 시간 정보를 포함하여 저장합니다.
seoul_df.to_csv(f'seoul_data_{time_str}.csv', index=False, encoding='utf-8-sig') #현재 시간담긴 백업용 / 없어지는 버스노선 컬럼등의 대비하기위함

seoul_df.to_csv('seoul_data.csv', index=False, encoding='utf-8-sig') # 갱신되면 기존건 사라지는 파일