# 0. 패키지 인스톨

In [1]:
import os

# 처음 실행시 아래 주석 제거 후 설치

"""
!pip install beautifulsoup4
"""

'\n!pip install beautifulsoup4\n'

## 1. Beautifulshop을 활용한 크롤링 샘플 코드

#### 함수 정의
다음 내용을 참고했습니다: https://dev.to/webscraping/extract-google-search-results-using-python-and-beautifulsoup-16ig

In [2]:
import requests
from bs4 import BeautifulSoup
from rich import print
from urllib.parse import urlparse
from urllib.parse import parse_qs

# 크롤링
def crawling(query):
    # 구글 검색 URL 생성
    url = f"https://www.google.com/search?q={query}"

    # 요청 보내기
    response = requests.get(url)

    # HTML 파싱
    soup = BeautifulSoup(response.text, "html.parser")
    res = extract_results(soup)

    return res
    
    
# 파싱 함수 정의
def extract_results(soup):
    main = soup.select_one("#main")

    res = []
    for gdiv in main.select('.g, .fP1Qef'):
        res.append(extract_section(gdiv))
    return res


def extract_section(gdiv):
    # Getting our elements
    title = gdiv.select_one('h3')
    link = gdiv.select_one('a')
    description = gdiv.find_all(class_='BNeawe')[-1]
    return {
        # Extract title's text only if text is found 
        'title': title.text if title else None,
#         'link': link['href'] if link else None,
        'link': extract_href(link['href']) if link else None,
        'description': description.find(string=True, recursive=False) if description else None
    }

def extract_href(href):
    url = urlparse(href)
    query = parse_qs(url.query)
    if not ('q' in query and query['q'] and len(query['q']) > 0):
        return None
    return query['q'][0]


#### 크롤링 테스트

In [3]:
res = crawling(query="신 재생 에너지")
print(res)

---
---


## 2. Selenium을 활용한 크롤링 샘플 코드
> Chrome 및 Chrom driver의 stable 버전은 [이 URL](https://googlechromelabs.github.io/chrome-for-testing/#stable) 에서 다운로드 받았습니다.

#### 2-1. 리눅스용 Chrome Driver (123.0.6312.105 버전) 다운로드

In [4]:
## Chrome 드라이버 다운로드 및 설치는 필수 입니다.

!wget https://storage.googleapis.com/chrome-for-testing-public/123.0.6312.105/linux64/chromedriver-linux64.zip

!unzip chromedriver-linux64.zip


'\n!wget https://storage.googleapis.com/chrome-for-testing-public/123.0.6312.105/linux64/chromedriver-linux64.zip\n!unzip chrome-linux64.zip\n'

In [5]:
# Chrome 드라이버 버전 확인

!./chromedriver-linux64/chromedriver --version

ChromeDriver 123.0.6312.105 (399174dbe6eff0f59de9a6096129c0c827002b3a-refs/branch-heads/6312@{#761})


#### 2-2. Google-chome (123.0.6312.105 버전) 설치

In [6]:
## Chrome 다운로드 및 설치는 필수 입니다.

!wget https://storage.googleapis.com/chrome-for-testing-public/123.0.6312.105/linux64/chrome-linux64.zip

!unzip chrome-linux64.zip


'\n!wget https://storage.googleapis.com/chrome-for-testing-public/123.0.6312.105/linux64/chrome-linux64.zip\n!unzip chrome-linux64.zip\n'

In [7]:
# Chrome 버전 확인

!./chrome-linux64/chrome --version

Google Chrome for Testing 123.0.6312.105 


#### 2-3. Chrome Driver 설정

In [8]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

# Selenium 드라이버 옵션 설정
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.binary_location = './chrome-linux64/chrome'  # 크롬 브라우저 경로 지정

# 크롬 드라이버 경로 설정
driver_path = "./chromedriver-linux64/chromedriver"

In [9]:
# 크롬 드라이버 서비스 객체 생성
service = Service(driver_path)

# 크롬 드라이버 실행
driver = webdriver.Chrome(service=service, options=chrome_options)

#### 2-3. 크롤링 테스트

In [10]:
from bs4 import BeautifulSoup
from rich import print

# 크롤링 함수 정의
def crawling(query):
    # 구글 검색 URL 생성
    url = f"https://www.google.com/search?q={query}"

    # 웹페이지 열기
    driver.get(url)

    # HTML 소스 가져오기
    html = driver.page_source

    # HTML 파싱
    soup = BeautifulSoup(html, "html.parser")
    res = extract_results(soup)

    return res


# 파싱 함수 정의
def extract_results(soup):
    res = []
    for gdiv in soup.select('.g'):
        res.append(extract_section(gdiv))
    return res


def extract_section(gdiv):
    title_div = gdiv.select_one('.yuRUbf a')
    title = title_div.select_one('h3') if title_div else None

    description_div = gdiv.select_one('.VlSpcd')
    description_span = description_div.select_one('.aCOpRe span') if description_div else None
    description = description_span.text if description_span else None

    return {
        'title': title.text if title else None,
        'link': title_div['href'] if title_div else None,
        'description': description
    }


def extract_href(href):
    url = urlparse(href)
    query = parse_qs(url.query)
    if not ('q' in query and query['q'] and len(query['q']) > 0):
        return None
    return query['q'][0]

In [11]:
# 크롤링 실행
res = crawling(query="신 재생 에너지")
print(res)

In [12]:
# 드라이버 종료
driver.quit()