In [1]:
from bs4 import BeautifulSoup as bs
import urllib.request
import pandas as pd
import re

import os
from dotenv import load_dotenv
load_dotenv()

# API 키와 검색어 설정
api_key = os.getenv("GOOGLE_API_KEY")

## Google maps 주소 가져오기

In [2]:
import requests

def get_address_from_google_maps(query):
    url = f"https://maps.googleapis.com/maps/api/geocode/json"

    params = {
        "address": query,
        "key": api_key,
        "language": "ko"
    }

    response = requests.get(url, params=params)
    data = response.json()

    if response.status_code == 200 and data["status"] == "OK":
        results = data["results"]
        if results:
            address = results[0]["formatted_address"]
            return address

    return None

## Google 검색결과 개수 가져오기

In [3]:
def get_google_search_results_count(query):
    url = f"https://www.google.com/search?q={query}"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }

    response = requests.get(url, headers=headers)
    soup = bs(response.text, 'html.parser')

    result_stats = soup.find(id='result-stats')
    if result_stats:
        string = ''.join(result_stats.find(text=True, recursive=False)).strip()
        numbers = re.findall(r'\d+', string)
        count = ''.join(numbers)
        return count
    else:
        return None

## 데이터 가져오기

In [15]:
def cherryblossom_info(result):
    cherryblossom_url = 'https://www.seoul.go.kr/storyw/springflowerway/list.do?search_gu=&search_road='
    html = urllib.request.urlopen(cherryblossom_url)
    soup = bs(html, 'html.parser')
    
    tag_article = soup.find('section', {'id' : 'content'})
        
    for loc in tag_article.find_all('article'):
        h3_tag = loc.find('h3')
        loc_name = ''.join(h3_tag.find(text=True, recursive=False)).strip()
        loc_name = re.sub("[\r\t\n]", '', loc_name)
        
        loc_dd = loc.find_all('dd')
        loc_main_flower = loc_dd[0].string
        
        # 데이터 전처리
        # 벚꽃이 없으면
        if '벚꽃' not in loc_main_flower:
            continue
            
        # address가 None이면
        loc_address = loc.find('strong').string if loc.find('strong').string != None else get_address_from_google_maps(re.sub(r'\([^()]*\)', '', loc_name))
        
        #예외
        if loc_name == '불광천변 (응암역~DMC역)':
            loc_address = '서울특별시 은평구 불광천길'
        elif loc_name == '불광천변(증산교~응암로5길)':
            loc_address = '서울특별시 서대문구 불광천길'
        elif loc_name == '중랑천변':
            loc_address = '서울특별시 중랑구 면목동 중랑천둔치'
        elif loc_name == '중랑천제방(공원녹지순환길)':
            loc_address = '서울특별시 중랑구 중화동 410-11 중랑천제방'
        elif loc_name == '여의 동·서로(윤중로)':
            loc_address = '서울특별시 영등포구 여의도동 여의서로'
        elif loc_name == '보라매공원 관리사무소 앞 벚나무길':
            loc_address = '서울특별시 동작구 여의대방로20길 33 보라매공원'
        elif loc_name == '도영로(신도림역~도림고가)':
            loc_address = '서울특별시 영등포구 도영로'
        elif loc_name == '양재천 제방':
            loc_address = '서울특별시 강남구 양재천로'
        elif loc_name == '양재천변':
            loc_address = '서울특별시 서초구 양재동 양재천'
        elif loc_name == '묵동교~장평교(하천제방길)':
            loc_address = '서울특별시 중랑구 묵동 묵동교'
        elif loc_name == '워커힐길':
            loc_address = '서울특별시 광진구 광장동 워커힐길'
        elif loc_name == '서울숲 생태숲, 군마상':
            loc_address = '서울특별시 성동구 뚝섬로 273 서울숲공원'
        elif loc_name == '북서울 꿈의 숲 월영지 주변':
            loc_address = '서울특별시 강북구 월계로 173 북서울 꿈의 숲'
        elif loc_name == '우면산 둘레길':
            loc_address = '서울특별시 서초구 우면산'
        elif loc_name == '안양천 제방(양화교~오금교)':
            loc_address = '서울특별시 양천구 목동 양화교'
        elif loc_name == '안양천 제방(신정교~양평교)':
            loc_address = '서울특별시 영등포구 양평동 487 안양천 제방길'
        elif loc_name == '안양천 제방(시흥대교~ 철산교)':
            loc_address = '서울특별시 금천구 가산동 562-3 안양천 벚꽃길'
        elif loc_name == '안양천 제방(신정교~고척교)':
            loc_address = '서울특별시 구로구 안양천로'
        elif loc_name == '꿩고개근린공원':
            loc_address = '서울특별시 강서구 방화동 꿩고개근린공원'
        elif loc_name == '통인시장~ 필운대로':
            loc_address = '서울특별시 종로구 사직로 95'
        
        loc_season = loc_dd[1].string 
        loc_length = loc_dd[2].string
        tag_p = loc.find_all('p')
        loc_gu = tag_p[0].string
        if loc_gu == '경기과천':
            continue
        loc_feature = ''.join(tag_p[1].find(text=True, recursive=False)).strip()
        loc_result_stats = get_google_search_results_count(re.sub(r'\([^()]*\)', '', loc_name) + '벚꽃')
        if loc_name == '여의 동·서로(윤중로)':
            loc_result_stats = get_google_search_results_count('여의도 벚꽃')
        elif loc_name == '송파나루공원(석촌호수)':
            loc_result_stats = get_google_search_results_count('석촌호수 벚꽃')
        elif loc_name == '벚꽃로(독산역~가산디지털단지역)':
            loc_result_stats = get_google_search_results_count('금천구 벚꽃로 벚꽃')
        elif loc_name == '거리공원':
            loc_result_stats = get_google_search_results_count('금천구 거리공원 벚꽃')
        elif loc_name == '오리로':
            loc_result_stats = get_google_search_results_count('구로구 오리로 벚꽃')
        elif loc_name == '도구로(도구머리꽃길)':
            loc_result_stats = get_google_search_results_count('서초구 도구로 벚꽃')
        
        result.append([loc_name] + [loc_address] + [loc_gu] + [loc_main_flower] + 
                      [loc_season] + [loc_length] +  [loc_feature] + [loc_result_stats])

    return

In [16]:
def main():
    result = []
    cherryblossom_info(result)
    cherryblossom_tbl = pd.DataFrame(result, columns=(
        'loc_name', 'address', 'gu', 'main_flower', 'season', 'length', 'feature', 'result_stats'))
    cherryblossom_tbl.to_csv('source/cherryblossom_loc.csv',
                      encoding='cp949', mode='w', index=False)
    print(cherryblossom_tbl.head())
    result.clear()

In [17]:
main()

           loc_name              address   gu main_flower   season length  \
0  곰달래로(목동사거리~동호빌딩)   서울특별시 강서구 곰달래로 246  강서구          벚꽃  4월중~4월말   0.4㎞   
1              방화공원   서울특별시 강서구 금낭화로 167  강서구          벚꽃  4월중~4월말   2.0㎞   
2            화곡로 4길     서울특별시 양천구 화곡로 50  양천구          벚꽃  4월중~6월초   0.4㎞   
3    신정중앙로(성은@~목동역)  서울특별시 양천구 신정중앙로 107  양천구          벚꽃  4월중~6월초   1.0㎞   
4   안양천 제방(양화교~오금교)     서울특별시 양천구 목동 양화교  양천구     벚꽃, 살구꽃  4월중~4월말   2.0㎞   

                                     feature result_stats  
0         곰달래길 가로변에 왕벚나무가 아름다운 자태를 자랑함(드라이브)        37000  
1                    개화산과 연계되어 봄꽃이 아름다움(나들이)       245000  
2          걷고싶은거리로 조성되어 벚꽃 가로수를 감상할 수 있음(산책)       302000  
3  도로 양방향에 왕벚나무 가로수가 식재되어 있고 차량통행이 적은 곳임(산책)        68500  
4      제방위 산책로에 벚꽃과 살구꽃이 아름다운 경관을 연출(산책, 운동)        11200  
