In [10]:
import requests
import xml.etree.ElementTree as ET
import pandas as pd

# XML 데이터를 가져옵니다.
url = "https://www.grtc.co.kr/subway/openapi/StationInformation.do?rbsIdx=316&doctype=xml"
response = requests.get(url)

# XML 데이터를 파싱합니다.
xml_data = response.content
root = ET.fromstring(xml_data)

# 추출할 정보를 담을 리스트를 생성합니다.
stations = []

# XML에서 필요한 정보를 추출합니다.
for row in root.findall(".//row"):  # row 요소를 모두 찾습니다.
    station_name = row.find("station_name").text
    equipment_room_area = row.find("equipment_room_area").text
    electrical_room_area = row.find("electrical_room_area").text
    waiting_room_area = row.find("waiting_room_area").text
    station_id = row.find("station_id").text
    station_place = row.find("station_place").text
    signal_room_area = row.find("signal_room_area").text
    station_area = row.find("station_area").text
    machine_room_area = row.find("machine_room_area").text
    # 필요한 정보를 리스트로 추가합니다.
    stations.append([station_name, equipment_room_area, electrical_room_area, waiting_room_area,
                     station_id, station_place, signal_room_area, station_area, machine_room_area])

# 추출한 정보를 데이터프레임으로 변환합니다.
columns = ["station_name", "equipment_room_area", "electrical_room_area", "waiting_room_area",
           "station_id", "station_place", "signal_room_area", "station_area", "machine_room_area"]
df = pd.DataFrame(stations, columns=columns)



In [13]:
import re
def extract_inside_parentheses(s):
    result = re.search(r'\((.*?)\)', s)
    return result.group(1) if result else ""

# 괄호 안의 내용만 추출
df['동명'] = df['station_place'].apply(extract_inside_parentheses)

In [18]:
subway_count_df = df.groupby('동명').size().reset_index(name='지하철역수')

In [19]:
subway_count_df

Unnamed: 0,동명,지하철역수
0,광산동,1
1,금남로4가,1
2,금남로5가,1
3,농성동,2
4,도산동,1
5,마륵동,2
6,소태동,1
7,송정동,2
8,신촌동,1
9,쌍촌동,2


In [21]:
# CSV 파일로 저장합니다. 인코딩을 utf-8로 지정합니다.
df.to_csv("station_info.csv", index=False, encoding='EUC-KR')
subway_count_df.to_csv("subway_count_df.csv", index=False, encoding='EUC-KR')