In [237]:
import csv
import requests
from bs4 import BeautifulSoup
import re

In [238]:
base_url = 'https://transportation.asamaru.net/'

## 지역 이름(개수) 가져오기 테스트

In [239]:
regions = [
    "seoulteugbyeolsi",
    "kyeongkido",
    "incheonkwangyeogsi",
    "daejeonkwangyeogsi",
    "daekukwangyeogsi",
    "ulsankwangyeogsi",
    "busankwangyeogsi",
    "kwangjukwangyeogsi",
    "sejongteugbyeoljachisi",
    "kangwonteugbyeoljachido",
    "chungcheongbugdo",
    "chungcheongnamdo",
    "kyeongsangbugdo",
    "kyeongsangnamdo",
    "jeonbugteugbyeoljachido",
    "jeonlanamdo",
    "jejuteugbyeoljachido",
]

## Step1. 전체 html 가져오기


In [240]:
response = requests.get(base_url+'시외버스/터미널')

if response.status_code == 200:
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')

## Step2. Extract Province 

In [241]:
provinces = []
for region in regions:
    province, province_num = (soup.find('h2', id = f"toc-{region}").text).split(" ")
    province_data = (province, int(province_num.strip('(').strip(')')))
    provinces.append(province_data)
    
provinces


[('서울특별시', 9),
 ('경기도', 101),
 ('인천광역시', 3),
 ('대전광역시', 12),
 ('대구광역시', 8),
 ('울산광역시', 10),
 ('부산광역시', 26),
 ('광주광역시', 8),
 ('세종특별자치시', 4),
 ('강원특별자치도', 97),
 ('충청북도', 43),
 ('충청남도', 59),
 ('경상북도', 58),
 ('경상남도', 77),
 ('전북특별자치도', 47),
 ('전라남도', 92),
 ('제주특별자치도', 0)]

## Step3. Extract city

In [242]:
cities = []

for tag in soup.find_all('h3'):
    city_temp = tag.get_text(strip = True)
    city_name, city_num = city_temp.split("(")

    city = (city_name, int(city_num.strip(')')))
    cities.append(city)

cities


[('강서구', 1),
 ('광진구', 1),
 ('서초구', 3),
 ('송파구', 3),
 ('중랑구', 1),
 ('가평군', 3),
 ('고양시 일산동구', 1),
 ('광명시', 2),
 ('광주시', 1),
 ('구리시', 1),
 ('군포시', 2),
 ('부천시 원미구', 1),
 ('성남시 분당구', 1),
 ('수원시 권선구', 2),
 ('수원시 영통구', 2),
 ('수원시 팔달구', 3),
 ('시흥시', 1),
 ('안산시 상록구', 1),
 ('안성시', 10),
 ('안양시 동안구', 4),
 ('안양시 만안구', 3),
 ('양평군', 2),
 ('여주시', 3),
 ('오산시', 12),
 ('용인시 기흥구', 6),
 ('용인시 수지구', 1),
 ('용인시 처인구', 5),
 ('의왕시', 3),
 ('의정부시', 6),
 ('이천시', 6),
 ('평택시', 8),
 ('포천시', 8),
 ('하남시', 1),
 ('화성시', 2),
 ('미추홀구', 1),
 ('중구', 2),
 ('대덕구', 1),
 ('동구', 2),
 ('서구', 3),
 ('유성구', 4),
 ('중구', 2),
 ('군위군', 1),
 ('남구', 1),
 ('달성군', 1),
 ('동구', 3),
 ('서구', 2),
 ('남구', 6),
 ('북구', 3),
 ('울주군', 1),
 ('강서구', 1),
 ('금정구', 1),
 ('기장군', 4),
 ('동구', 1),
 ('동래구', 1),
 ('부산진구', 2),
 ('사상구', 2),
 ('사하구', 1),
 ('수영구', 1),
 ('연제구', 1),
 ('해운대구', 11),
 ('광산구', 2),
 ('남구', 1),
 ('동구', 2),
 ('북구', 2),
 ('서구', 1),
 ('세종특별자치시', 4),
 ('강릉시', 6),
 ('고성군', 3),
 ('동해시', 1),
 ('삼척시', 6),
 ('속초시', 3),
 ('양구군', 3),
 ('양양군', 8),
 ('영월

## Step4. Extract Terminals

In [243]:
terminals = []

terminals = []

terminals = []

for region in regions:
    div_tag = soup.find('div', attrs={'data-scrollspy-content': region})
    if not div_tag:
        continue

    spans = div_tag.select('.ft-area-terminal span.pe-2')
    terminals.extend([span.get_text(strip=True) for span in spans])

terminals



['김포공항정류소',
 '동서울종합터미널',
 '서울고속버스터미널(경부 영동선)',
 '서울남부터미널',
 '센트럴시티터미널(호남선)',
 '잠실역정류소',
 '잠실역중앙정류소',
 '장지역시외버스정류소',
 '상봉시외버스터미널',
 '가평터미널',
 '대성리정류소',
 '청평터미널',
 '고양종합터미널',
 '광명종합터미널',
 '광명철산역정류소',
 '경기도광주종합터미널',
 '구리시외버스정류장',
 '군포산본터미널',
 '군포시외버스정류소',
 '부천터미널소풍',
 '성남종합버스터미널',
 '서수원버스터미널',
 '수원버스터미널',
 '경제과학진흥원',
 '아주대병원',
 '아주대정류소',
 '우만동터미널',
 '창현고.유신고',
 '시흥종합버스터미널',
 '안산버스터미널',
 '공도시외버스정류장',
 '동아방송대정류소',
 '두원대정류소',
 '안성대림동산정류소',
 '안성종합버스터미널',
 '안성회관정류소',
 '일죽버스터미널',
 '죽산시외버스터미널',
 '중앙대',
 '풍림아파트(안성)',
 '범계역정류소',
 '의왕내손동',
 '인덕원역',
 '호계시외버스정류소',
 '관악역정류소',
 '안양시외버스정류장 하행',
 '안양역시외버스정류장',
 '양평버스터미널',
 '용문버스터미널',
 '가남태평버스정류소',
 '여주대정류소',
 '여주종합터미널',
 '교육지원청사거리(오산)',
 '세교2지구7단지',
 '세교고인돌공원',
 '세교한신더휴',
 '세마역정류장',
 '오산대역후문',
 '오산시청',
 '오산역환승센터',
 '오산초등학교',
 '운암주공1단지',
 '운암주공5단지',
 '호반써밋라포레(오산)',
 '강남대역',
 '신갈영덕시외버스정류장',
 '신갈용인정류소',
 '영통입구(인천방면)',
 '영통입구정류소',
 '용인기흥역시외버스정류소',
 '죽전(경전)',
 '명지대',
 '에버랜드',
 '용인공용버스터미널',
 '용인대',
 '용인정류소',
 '고천시외버스정류장',
 '의왕TG',
 '의왕고천',
 '만가대사거리',
 '의정부시외버스

## Step5. Match Terminal to cities

In [244]:
from collections import deque

terminal_queue = list(terminals)
city_queue = deque(cities)

final_terminal_data = {}

for province_name, province_count in provinces:
    province_dict = {}
    count_so_far = 0

    while count_so_far < province_count and city_queue:
        city_name, city_count = city_queue.popleft()
        province_dict[city_name] = [terminal_queue.pop(0) for _ in range(city_count) if terminal_queue]
        count_so_far += city_count

    final_terminal_data[province_name] = province_dict

final_terminal_data

{'서울특별시': {'강서구': ['김포공항정류소'],
  '광진구': ['동서울종합터미널'],
  '서초구': ['서울고속버스터미널(경부 영동선)', '서울남부터미널', '센트럴시티터미널(호남선)'],
  '송파구': ['잠실역정류소', '잠실역중앙정류소', '장지역시외버스정류소'],
  '중랑구': ['상봉시외버스터미널']},
 '경기도': {'가평군': ['가평터미널', '대성리정류소', '청평터미널'],
  '고양시 일산동구': ['고양종합터미널'],
  '광명시': ['광명종합터미널', '광명철산역정류소'],
  '광주시': ['경기도광주종합터미널'],
  '구리시': ['구리시외버스정류장'],
  '군포시': ['군포산본터미널', '군포시외버스정류소'],
  '부천시 원미구': ['부천터미널소풍'],
  '성남시 분당구': ['성남종합버스터미널'],
  '수원시 권선구': ['서수원버스터미널', '수원버스터미널'],
  '수원시 영통구': ['경제과학진흥원', '아주대병원'],
  '수원시 팔달구': ['아주대정류소', '우만동터미널', '창현고.유신고'],
  '시흥시': ['시흥종합버스터미널'],
  '안산시 상록구': ['안산버스터미널'],
  '안성시': ['공도시외버스정류장',
   '동아방송대정류소',
   '두원대정류소',
   '안성대림동산정류소',
   '안성종합버스터미널',
   '안성회관정류소',
   '일죽버스터미널',
   '죽산시외버스터미널',
   '중앙대',
   '풍림아파트(안성)'],
  '안양시 동안구': ['범계역정류소', '의왕내손동', '인덕원역', '호계시외버스정류소'],
  '안양시 만안구': ['관악역정류소', '안양시외버스정류장 하행', '안양역시외버스정류장'],
  '양평군': ['양평버스터미널', '용문버스터미널'],
  '여주시': ['가남태평버스정류소', '여주대정류소', '여주종합터미널'],
  '오산시': ['교육지원청사거리(오산)',
   '세교2지구7단지',
   '세교고인돌공원',
   

## Step6 Extract to CSV

In [245]:
import csv

rows = []
for province, cities_dict in final_terminal_data.items():
    for city, terminals_list in cities_dict.items():
        for terminal in terminals_list:
            rows.append((province, city, terminal))

with open('bus_terminals.csv', 'w', newline='', encoding='utf-8-sig') as f:
    writer = csv.writer(f)
    writer.writerow(['province', 'city', 'terminal_name'])
    writer.writerows(rows)

print(f"총 {len(rows)}개 터미널 저장 완료 → bus_terminals.csv")

총 654개 터미널 저장 완료 → bus_terminals.csv
