## 김해시 시내버스 시간표 및 노선 정보 페이지에서 버스 번호 별 노선도를 크롤링
- https://bus.koreacharts.com/city-bus/38070.html

### 버스 노선 번호 및 URL 크롤링

In [3]:
import requests
from bs4 import BeautifulSoup

url = 'https://bus.koreacharts.com/city-bus/38070.html'  # 실제 웹 페이지 URL로 변경해야 합니다.
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
else:
    print("웹 페이지에 접속할 수 없습니다.")


# ul 태그 내의 li 태그들을 찾음
bus_list_items = soup.select('ul.list-unstyled li')

# 결과를 저장할 딕셔너리 생성
bus_num = {}

# 각 li 태그에서 버스 번호와 URL을 추출하여 딕셔너리에 저장
for li in bus_list_items:
    bus_number = li.a.text.strip(' 번 버스')  # 버스 번호
    bus_url = li.a['href']  # 버스 URL
    bus_num[bus_number] = bus_url

del bus_num['시내버스 시간표']
del bus_num['시외버스터미널 시간표']
del bus_num['고속버스터미널 시간표']

# 결과 출력
for bus_number, bus_url in bus_num.items():
    print(f"버스 번호: {bus_number}, URL: {bus_url}")

버스 번호: 1, URL: /city-bus/38070/GHB5.html
버스 번호: 1-1, URL: /city-bus/38070/GHB6.html
버스 번호: 10, URL: /city-bus/38070/GHB63.html
버스 번호: 100, URL: /city-bus/38070/GHB60.html
버스 번호: 11, URL: /city-bus/38070/GHB35.html
버스 번호: 11A, URL: /city-bus/38070/GHB75.html
버스 번호: 12, URL: /city-bus/38070/GHB48.html
버스 번호: 13, URL: /city-bus/38070/GHB39.html
버스 번호: 14-1, URL: /city-bus/38070/GHB54.html
버스 번호: 14-1A, URL: /city-bus/38070/GHB55.html
버스 번호: 140, URL: /city-bus/38070/GHB38.html
버스 번호: 15, URL: /city-bus/38070/GHB40.html
버스 번호: 15A, URL: /city-bus/38070/GHB70.html
버스 번호: 15B, URL: /city-bus/38070/GHB67.html
버스 번호: 16, URL: /city-bus/38070/GHB3.html
버스 번호: 16A, URL: /city-bus/38070/GHB84.html
버스 번호: 2, URL: /city-bus/38070/GHB9.html
버스 번호: 2-1, URL: /city-bus/38070/GHB71.html
버스 번호: 21, URL: /city-bus/38070/GHB12.html
버스 번호: 21-1, URL: /city-bus/38070/GHB47.html
버스 번호: 21-1A, URL: /city-bus/38070/GHB49.html
버스 번호: 21-1B, URL: /city-bus/38070/GHB33.html
버스 번호: 21-1C(막차), URL: /city-bus/38070/

### 버스 번호별 노선도 크롤링

In [5]:
bus_routes={}

for bus_number, bus_url in bus_num.items():
    url='https://bus.koreacharts.com/'+bus_url
    response = requests.get(url)
    bus_route=[]
    
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
    else:
        print("웹 페이지에 접속할 수 없습니다.")
    
    rows=soup.find_all("tr")

    for row in rows[1:]:
    # 각 <tr> 태그에서 <td> 태그를 찾아서 정보 추출
        columns = row.find_all('td')
        if len(columns) == 2:
            stop_name = columns[1].text.strip()
            bus_route.append(stop_name)
    bus_routes[bus_number]=bus_route

### 만든 딕셔너리로 데이터프레임 만들기

In [6]:
bus_routes

{'1': ['삼계기점',
  '공원묘지입구',
  '삼계서희',
  '삼계동원로얄듀크',
  '가야대학교',
  '현대가야아이파크',
  '삼계축협',
  '매정공원',
  '구지마을',
  '매정마을',
  '구산신주공아파트',
  '광남백조아파트',
  '청소년문화의집',
  '김해여고',
  '농협김해시지부',
  '국민은행',
  '신한은행',
  '중앙지구대',
  '금강병원',
  '부원역',
  '김해시청',
  '복음병원입구',
  '복음병원',
  '활천동',
  '삼성초등학교',
  '송림공원',
  '어방2주공아파트',
  '어방마을',
  '인제대학교',
  '인제공원',
  '삼방동장애인복지관',
  '영운초등학교',
  '화인아파트',
  '삼방시장',
  '동성아파트',
  '신어중학교',
  '계내',
  '한일여고',
  '안동문화의집',
  '경남은행',
  '지내동입구',
  '활천초등학교',
  '못안마을',
  '안동육거리',
  '한일여고',
  '계내',
  '한샘베스트빌라',
  '신어중학교',
  '동성아파트',
  '삼방시장',
  '화인아파트',
  '영운초등학교',
  '삼방동장애인복지관',
  '인제공원',
  '인제대학교',
  '대우유토피아',
  '어방마을',
  '어방2주공아파트',
  '송림공원',
  '삼성초등학교',
  '활천동',
  '복음병원',
  '복음병원입구',
  '김해시청',
  '한솔병원',
  '부원역',
  '금강병원',
  '중앙지구대',
  '신한은행',
  '농협김해시지부',
  '김해여고',
  '청소년문화의집',
  '광남백조아파트',
  '구산신주공아파트',
  '매정마을',
  '구지마을',
  '매정공원',
  '삼계축협',
  '현대가야아이파크',
  '가야대학교',
  '두곡마을',
  '삼계서희',
  '공원묘지입구',
  '삼계차고지'],
 '1-1': ['삼계기점',
  '공원묘지입구',
  '신명마을',
  '감분마을',
  '삼계푸르지오1차',
  '

In [7]:
import pandas as pd

bus_routes_data = bus_routes

# 정류장 개수를 맞추기 위한 빈 값 추가
max_stops = max(len(stops) for stops in bus_routes_data.values())
for stops in bus_routes_data.values():
    while len(stops) < max_stops:
        stops.append(None)

# 데이터프레임 생성
bus_routes_df = pd.DataFrame(bus_routes_data)

# 결과 출력
print(bus_routes_df)

            1       1-1      10      100      11   11A       12          13  \
0        삼계기점      삼계기점     진영역   풍유동차고지      상룡    상룡  진영공설운동장       임시계류장   
1      공원묘지입구    공원묘지입구      설창  풍유동차고지앞    용담마을  효동마을  진영공설운동장      무계e-편한   
2        삼계서희      신명마을   신용삼거리      풍유동   신용삼거리  아랫양지     진영병원        장유농협   
3    삼계동원로얄듀크      감분마을    신용마을    청호아트빌    신용마을   윗양지    삼성아파트       장유우체국   
4       가야대학교  삼계푸르지오1차  제암요양병원     흥동3통  제암요양병원    용전       부곡  장유1동행정복지센터   
..        ...       ...     ...      ...     ...   ...      ...         ...   
180      None      None    None     None    None  None     None        None   
181      None      None    None     None    None  None     None        None   
182      None      None    None     None    None  None     None        None   
183      None      None    None     None    None  None     None        None   
184      None      None    None     None    None  None     None        None   

           14-1       14-1A  ...        9    97    

In [9]:
bus_routes_df.to_csv('버스 번호별 노선2.csv')