In [1]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

url = 'http://openapi.seoul.go.kr:8088/725069536873756e313030706965574d/xml/citydata/1/5/POI'
area = ["{:03}".format(n) for n in range(1, 114)]#POI1 이 아닌 POI001로 만들기위한 처리 113번까지 있음

list_of_dfs = []#초기화

for k in area:
    resp = requests.get(url + str(k))
    content = resp.text

    xml_obj = BeautifulSoup(content,'lxml-xml')

    rows = xml_obj.findAll('SeoulRtd.citydata')

    all_columns = set()  
    for row in rows:
        columns = row.find_all()
        for column in columns:
            all_columns.add(column.name)

    data_dict_row_list=[]

    for row in rows:
        data_dict_row={col:"" for col in all_columns}
        
        if 'SUB_STN_NM' in all_columns or 'SUB_STN_LINE' in all_columns:
            sub_stn_nms=[sub_stn_nm.text for sub_stn_nm in row.find_all('SUB_STN_NM')]
            sub_stn_lines=[sub_stn_line.text for sub_stn_line in row.find_all('SUB_STN_LINE')]
            
            sub_stn_nms=list(set(sub_stn_nms))
            sub_stn_lines=list(set(sub_stn_lines))
            
            data_dict_row['SUB_STN_NM']=", ".join(sub_stn_nms)
            data_dict_row['SUB_STN_LINE']=", ".join(sub_stn_lines)

        if 'RTE_NM' in all_columns: 
            rte_names=[rte_name.text for rte_name  in row.find_all('RTE_NM')]
            unique_rte_names= list(set(rte_names)) 
            data_dict_row['RTE_NM']= len(unique_rte_names) 
            
        for column  in columns:   
                    if column.name not  in ['SUB_STN_NM', 'SUB_STN_LINE', 'RTE_NM']:
                        data_dict_row[column.name]=column.text
            
        data_dict_row_list.append(data_dict_row)

    tmp_df=pd.DataFrame(data_dict_row_list)

    selected_columns=['AREA_CD','AREA_NM', 'AREA_CONGEST_LVL', 'AREA_CONGEST_MSG', 
                        'AREA_PPLTN_MAX', 'PPLTN_TIME', 'ROAD_TRAFFIC_IDX',
                        'ROAD_MSG','SUB_STN_NM','BUS_STN_ID',
                        'RTE_NM','RTE_ID','TEMP','PRECPT_TYPE',
                        'PCP_MSG','PM25','PM10']

    # DataFrame에 존재하는 컬럼만 선택
    selected_columns = [col for col in selected_columns if col in tmp_df.columns]

    tmp_df=tmp_df[selected_columns]

    congestion_mapping_dict={'여유': 1, 
                            "보통": 2,
                            "약간 붐빔":3,
                            "붐빔":4}

    traffic_mapping_dict={"원활": 1,
                        "서행":2,
                        "정체":3}

    tmp_df['AREA_CONGEST_INT']=[congestion_mapping_dict[congest] if congest else None 
                                for congest in tmp_df['AREA_CONGEST_LVL']]

    tmp_df['ROAD_TRAFFIC_INT']=[traffic_mapping_dict[traff] if traff else None 
                                for traff in tmp_df['ROAD_TRAFFIC_IDX']]

    # SUB_STN_NM 컬럼이 있는 경우에만 해당 연산을 진행합니다.
    if 'SUB_STN_NM' in tmp_df.columns:
        tmp_df["SUB_STN_INT"]=tmp_df["SUB_STN_NM"].apply(lambda x: len(x.split(',')) if x else None)

    list_of_dfs.append(tmp_df)
        
seoul_df=pd.concat(list_of_dfs,axis=0, ignore_index=True)
print(seoul_df)


    AREA_CD       AREA_NM AREA_CONGEST_LVL  \
0    POI001  강남 MICE 관광특구               보통   
1    POI002      동대문 관광특구               보통   
2    POI003       명동 관광특구               보통   
3    POI004      이태원 관광특구               여유   
4    POI005       잠실 관광특구               보통   
..      ...           ...              ...   
108  POI109       잠실종합운동장               여유   
109  POI110        잠실한강공원               여유   
110  POI111        잠원한강공원               여유   
111  POI112           청계산               여유   
112  POI113           청와대               여유   

                                    AREA_CONGEST_MSG AREA_PPLTN_MAX  \
0      사람이 몰려있을 수 있지만 크게 붐비지는 않아요. 도보 이동에 큰 제약이 없어요.          22000   
1      사람이 몰려있을 수 있지만 크게 붐비지는 않아요. 도보 이동에 큰 제약이 없어요.          22000   
2      사람이 몰려있을 수 있지만 크게 붐비지는 않아요. 도보 이동에 큰 제약이 없어요.          62000   
3    사람이 몰려있을 가능성이 낮고 붐빔은 거의 느껴지지 않아요. 도보 이동이 자유로워요.           9000   
4      사람이 몰려있을 수 있지만 크게 붐비지는 않아요. 도보 이동에 큰 제약이 없어요.          54000   
..                   

In [2]:
# 구글 지도 api 활용해서 위도경도 얻기

import requests
from functools import partial
import re

def get_lat_lng(apiKey, address):
    """
    Returns the latitude and longitude of a location using the Google Maps Geocoding API. 
    """
    url = ('https://maps.googleapis.com/maps/api/geocode/json?address={}&key={}'
            .format(address.replace(' ','+'), apiKey))
    
    try:
        response = requests.get(url)
        resp_json_payload = response.json()
        lat = resp_json_payload['results'][0]['geometry']['location']['lat']
        lng = resp_json_payload['results'][0]['geometry']['location']['lng']
    except:
        print('ERROR: {}, {}'.format(address, response.content))
        return (None, None)
    
    return (lat, lng)

# AREA_NM 전처리 후 -> SEARCH_FOR_NM 에넣기위한 처리과정
def clean_area_nm(area):
    area = area.replace('관광특구', '')  # Remove '관광특구'
    area = re.sub(r'[a-zA-Z]', '', area)  # Remove English characters
    
    # Additional rules
    replace_dict = {
        '홍대': '홍익대학교',
        '고속터미널역': '고속터미널역앞',
        '4·19 카페거리': '서울 강북구 4.19로 97',
        '광장(전통)시장': '광장시장',
        '서촌': '서촌한옥마을',
        '창동 신경제 중심지': '창동역',
        '해방촌·경리단길': "해방촌오거리",
        "불광천" : "대한민국 서울특별시 은평구 은평로"
    }
    
    for old, new in replace_dict.items():
        if old in area:
            return new
    
    return area.strip()  # Remove leading and trailing spaces

# Google Cloud Platform API key 입력하는부분
apiKey = 'AIzaSyCIMKh4bchhEumjQRRWEURQ6zsQN7xFUQk'

# 구글맵에서 AREA_NM 이름은 에러가 종종 나와서 변환하는부분
seoul_df['SEARCH_FOR_NM'] = seoul_df['AREA_NM'].apply(clean_area_nm)

# 구글맵으로 lat lng 얻기.
partial_get_lat_lng = partial(get_lat_lng, apiKey)

seoul_df['LAT'], seoul_df['LNG'] = zip(*seoul_df['SEARCH_FOR_NM'].apply(partial_get_lat_lng))


In [None]:
seoul_df.to_csv('seoul_data_temp.csv', index=False, encoding='utf-8-sig')