## Chapter 02. Web Scrapping

In [None]:
# !pip install cssselect
# !pip install lxml

### requests

In [9]:
import requests
res = requests.get("http://google.com") # 원하는 URL 정보를 넘겨줌
# res 라는 변수에 가져온 URL 정보를 지정
print("응답코드:", res.status_code) # 페이지에 대한 접속권한 등 문제가 없는지 확인하기 위한 응답코드, 200이면 정상

응답코드: 200


In [10]:
if res.status_code == requests.codes.ok:
    print("정상입니다")
else:
    print("문제가 생겼습니다. [에러코드", res.status_code,"]")

정상입니다


In [11]:
res.raise_for_status()
print("웹 스크래핑을 진행합니다") # 위의 if문과 동일한 결과를 추출, 문제가 생겼을 경우 오류를 내뱉고 프로그램을 끝내줌
# URL의 HTML 문서에 대한 검사

웹 스크래핑을 진행합니다


In [12]:
res.text #HTML 문서를 가져옴
print(len(res.text)) # HTML 문서의 글자 갯수
print(res.text) # HTML 문서의 내용 그대로 출력

with open("mygoogle.html", "w", encoding="utf8") as f:
    f.write(res.text)
# 알아보기 힘드므로, 파일로 만들어줌

19539
<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="5INhBd9J_qPZD4opK3W6wg">(function(){var _g={kEI:'UoNPZeHDJLbS1e8Ppbai-AM',kEXPI:'0,1365467,207,4804,2316,383,246,5,1129120,1197696,705,380089,16115,28684,22430,1362,12312,4753,12834,4998,17075,35735,5581,2891,4139,4209,4012,29842,33462,13721,20578,4,59622,4437,22616,6621,7596,1,42154,2,20270,19491,5679,1021,31121,4569,6258,23418,1252,30152,2912,2,2,1,24626,2006,8155,23351,872,7829,11804,8,1922,9779,42459,20198,20137,14,82,20206,8377,8048,10940,5375,782,2248,15816,1804,13806,33276,1632,13495,21121,5231885,2,297,211,2,202,355,5993898,2803214,3311,141,801,29777,171,2,20,2,78,15,27,5,5,2,23940458,2772894,1271212,16673,40903,2983,3,2105,3,569,3,1310,1392060,338513,388820,1,23031936,3326,9473,8409,2879,334,

### requests & lxml

In [2]:
import lxml.html
import requests

In [3]:
# 위키백과에 요청을 보내고 res 변수에 웹사이트 응답을 저장
url = 'https://ko.wikipedia.org/wiki/HTML'
res = requests.get(url)

In [4]:
# 응답코드 200은 해당 웹사이트에 대해 정상적으로 값을 받았다는 것을 의미
# 301, 302, 30X... : 주소 이전
# 40X : 에러(사용자의 잘못), 주소를 잘못 친 경우 등
# 50X : 에러(서버의 잘못), 내부 에러 발생 등
res.status_code

200

In [5]:
# html의 내용
# 서버에서 받아온 응답의 내용 중의 텍스트 = HTML 전체
res.text

'<!DOCTYPE html>\n<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-typography-survey-disabled vector-toc-available" lang="ko" dir="ltr">\n<head>\n<meta charset="UTF-8">\n<title>HTML - 위키백과, 우리 모두의 백과사전</title>\n<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-cl

In [7]:
# 응답의 텍스트를 처리하여 필요한 요소를 추출할 수 있도록 함
root = lxml.html.fromstring(res.text)
root

<Element html at 0x239bc2287c0>

In [9]:
# CSS 선택자를 이용하여 원하는 요소 선택; title tag 선택
ts = root.cssselect('title')
ts

[<Element title at 0x239bc2288b0>]

In [10]:
# title tag로 감싸여진 부분의 text 추출
# <title> 태그로 감싸인 부분의 텍스트
ts[0].text 

'HTML - 위키백과, 우리 모두의 백과사전'

### 정규식 (Regular Expression)

In [13]:
#정규식 기본_1 : 정해진 형태를 의미하는 식
import re # 정규식 라이브러리 사용
# 예제, abcd, book, desk 등 4자리로 구성된 식이 있을 때
# ca?e 로 하나의 글자를 미지수가 됌
# care, cafe, case, cave 등 모든 경우에 대한 검색

p = re.compile("ca.e") # 어떤 정규식을 compile 할 것인지 정해줌 
# . (ca.e): 하나의 문자를 의미 > care, cafe, case (O)| caffe (X)
# ^ (^de): 문자열의 시작을 의미 > desk, destination (O)| fade (X)
# $ (se$): 문자열의 끝을 의미 > case, base (O) | face (X)

m = p.match("case") #패턴과 매치하는 값이 있는지 확인 # 주어진 문자열의 처음부터 일치하는지 확인하므로, 처음부터 일치하면 뒷부분은 상관 X
print(m.group()) #매치되지 않으면 에러가 발생, 예를 들어 p.match("caffe")
# = 순환문
if m:
    print(m.group())
else:
    print("매칭되지 않음")
# = 함수
def print_match(m):
    if m:
        print("m.group():", m.group()) # 일치하는 문자열 반환
        print("m.string:", m.string) # 입력받은 문자열 , string은 함수가 아니라 변수이므로 ()가 없음
        print("m.start():",m.start()) # 일치하는 문자열의 시작 index
        print("m.end():", m.end()) # 일치하는 문자열의 끝 index
        print("m.span():", m.span()) # 일치하는 문자열의 시작/끝 index
    else:
        print("매칭되지 않음")

case
case


In [14]:
m = p.match("careless") # match : 주어진 문자열의 처음부터 일치하는지 확인
print_match(m)
# good care 일 시, 매칭되지 않음 출력

m.group(): care
m.string: careless
m.start(): 0
m.end(): 4
m.span(): (0, 4)


In [15]:
m = p.search("good care") # search : 주어진 문자열 중에 일치하는게 있는지 확인
print_match(m)

m.group(): care
m.string: good care
m.start(): 5
m.end(): 9
m.span(): (5, 9)


In [16]:
lst = p.findall("good care cafe") # findall : 일치하는 모든 것을 리스트 형태로 반환
print(lst)

['care', 'cafe']


#### 예시 - 다음 뉴스

In [11]:
import pandas as pd
# 검색 후 주소를 url 변수에 저장
url = 'https://search.daum.net/search?w=news&nil_search=btn&DA=NTB&enc=utf8&cluster=y&cluster_page=1&q=%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5&p=1'

In [12]:
# 저장된 주소에 요청을 보내고 응답을 받아서 저장
res = requests.get(url)

In [13]:
# HTML 처리
root = lxml.html.fromstring(res.text)

In [20]:
# span.f_nb a 에 해당하는 태그를 찾아 데이터를 가져옴, 공백은 포함관계를 나타내므로 span.f_nb에 포함된 a tag 탐색
# HTML에선 class가 두 개면 ".f_nb date"로 띄어쓰기를 하지만
# CSS 선택자에선, ".f_nb.date"로 .을 붙혀준다. 띄어쓰기 시 포함관계를 나타냄
links = root.cssselect('a.tit_main.fn_tit_u')
links

[<Element a at 0x239dc494f40>,
 <Element a at 0x239dc4960e0>,
 <Element a at 0x239dc496360>,
 <Element a at 0x239dc496400>,
 <Element a at 0x239dc496540>,
 <Element a at 0x239dc4969a0>,
 <Element a at 0x239dc496a90>,
 <Element a at 0x239dc4a1040>,
 <Element a at 0x239dc4a1180>,
 <Element a at 0x239dc4a1270>]

In [21]:
link = links[0]
link.text_content()

' 한국 출시 구글 생성형 인공지능 기반 검색 서비스가 미칠 영향은? '

In [22]:
# a tag 는 링크를 나타내며, a tag href 속성 값은 링크된 주소를 가리킴
link.attrib['href']

'https://v.daum.net/v/20231110113903231?f=o'

#### 예시 - 여러 페이지 정보 수집

In [23]:
# 페이지 번호 조건을 {} 처리한 뒤 url로 저장
url = 'https://search.daum.net/search?w=news&nil_search=btn&DA=NTB&enc=utf8&cluster=y&cluster_page=1&q=%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5&p=1'

In [24]:
# 개별 신문기사 주소 추출
href = []
for page in range(1, 3):
    res = requests.get(url.format(page))
    root = lxml.html.fromstring(res.text)
    for link in root.cssselect('a.tit_main.fn_tit_u'):
        href.append(link.attrib['href'])

In [41]:
# 주소에 해당하는 신문기사 본문 스크래핑
# article 변수에 기사 본문 저장
# 기사 본문은 class tag의 .article_view
articles = []
for h in href:
    res = requests.get(h)
    try:
        root = lxml.html.fromstring(res.text)
    except:
        pass
    for article in root.cssselect('div.article-body'):
        articles.append(article.text_content())

#### 인코딩

In [45]:
# 웹사이트 크롤링 시, 인코딩 오류 발생 시, 웹사이트의 인코딩 형식 강제 지정으로 해결
import requests
import lxml.html
res = requests.get('https://www.scourt.go.kr/scourt/index.html')
res.encoding
# 인코딩 형식 확인
# 인식이 잘못됨

'ISO-8859-1'

In [46]:
root = lxml.html.fromstring(res.text)
for e in root.cssselect('title'):
    print(e.text_content())

´ëÇÑ¹Î±¹ ¹ý¿ø


In [47]:
res.encoding = 'cp949'

In [48]:
root = lxml.html.fromstring(res.text)
for e in root.cssselect('title'):
    print(e.text_content())

대한민국 법원


#### User Agent

In [49]:
import requests
import lxml.html
requests.get('https://onoffmix.com')

<Response [500]>

In [50]:
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
requests.get('https://onoffmix.com', headers={'User-Agent': ua})

<Response [200]>

#### 상대주소와 절대주소

In [51]:
url = 'https://www.bobaedream.co.kr/mycar/mycar_list.php?gubun=K'
res = requests.get(url)
root = lxml.html.fromstring(res.text)

for link in root.cssselect('p.tit a'): # tag p class tit에 포함된 a tag를 찾아라
    print(link.attrib['href']) # href 속성값 출력

/mycar/mycar_view.php?no=2215497&gubun=K
/mycar/mycar_view.php?no=2214976&gubun=K
/mycar/mycar_view.php?no=2215094&gubun=K
/mycar/mycar_view.php?no=2213794&gubun=K
/mycar/mycar_view.php?no=2213067&gubun=K
/mycar/mycar_view.php?no=2211433&gubun=K
/mycar/mycar_view.php?no=2210907&gubun=K
/mycar/mycar_view.php?no=2210712&gubun=K
/mycar/mycar_view.php?no=2210086&gubun=K
/mycar/mycar_view.php?no=2208072&gubun=K
/mycar/mycar_view.php?no=2207693&gubun=K
/mycar/mycar_view.php?no=2194970&gubun=K
/mycar/mycar_view.php?no=2209115&gubun=K
/mycar/mycar_view.php?no=2215249&gubun=K
/mycar/mycar_view.php?no=2209290&gubun=K
/mycar/mycar_view.php?no=2209046&gubun=K
/mycar/mycar_view.php?no=2215622&gubun=K
/mycar/mycar_view.php?no=2211134&gubun=K
/mycar/mycar_view.php?no=2215050&gubun=K
/mycar/mycar_view.php?no=2215010&gubun=K


In [52]:
from urllib.parse import urljoin
for link in root.cssselect('.tit a'):
    print(urljoin(url, link.attrib['href'])) # urljoin을 통해 상대주소를 절대주소로 바꿔줌

https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2215497&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2214976&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2215094&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2213794&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2213067&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2211433&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2210907&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2210712&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2210086&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2208072&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2207693&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2194970&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2209115&gubun=K
https://www.bobaedream.co.kr/mycar/mycar_view.php?no=2215249&gubun=K
https://www.bobaedream.co.kr/mycar

### Beautiful Soup

In [None]:
#!pip install beautifulsoup4
#!pip install lxml

In [None]:
import requests
from bs4 import BeautifulSoup

url =  "https://comic.naver.com/webtoon/weekday.nhn"
res =  requests.get(url)
res.raise_for_status() #문제 발생 시, 프로그램 종료

soup = BeautifulSoup(res.text, "lxml") # HTML문서를 "lxml" 파써를 통해서 BeautifulSoup 객체로 만든 것, soup이 모든 정보를 갖고 있음
                                       # 위에서 받아온 HTML 문서 값을 첫 인자로 지정
print(soup.title) # title 정보를 출력
print(soup.title.get_text()) # 글자만 추출
print(soup.a) #HTML 문서 안의 첫 번째로 발견되는 a element 정보 출력
print(soup.a.attrs) # a tag(=element)가 갖고 있는 속성들을 출력, dictionary 형태로 출력
print(soup.a["href"]) # a element의 href 속성값을 추출

In [None]:
# 위의 경우는 웹 스크래핑의 대상이 되는 페이지에 대한 이해도가 높을 때 활용 가능
# 잘 모를 때 사용하는 코드 (find)
print(soup.find("a", attrs={"class":"Nbtn_upload"})) # soup 객체 내의 모든 내용 중 a tag에 해당하며, class가 Nbtn 인 경우만 찾아줌
print(soup.find(attrs={"class":"Nbtn_upload"})) # tag 를 지정하지 않고도 가능

In [None]:
print(soup.find("li", attrs={"class":"rank01"})) #'li'라는 tag에 해당하며, attribute: class가 rank01 이라는 코드를 가져옴
rank1 = soup.find("li", attrs={"class":"rank01"})
print(rank1.a) # 위의 값 중에 a element만 출력

In [None]:
# Xpath의 부모 자식, 형제 관계를 soup 객체에서 활용 가능
print(rank1.a.get_text()) # 인기 급상승 1위에 해당하는 a 태그의 글자만 출력
# 형제 노드 이동
print(rank1.next_sibling) # 해당 element의 다음 element로 넘어감 → 출력 X
rank2 = rank1.next_sibling.next_sibling # element 사이의 계행 정보가 있을 경우 출력 안 될 수도 있어서 한 번 더 함수 적용 시 출력
rank3 = rank2.next_sibling.next_sibling
print(rank3.a.get_text())
rank2 = rank3.previous_sibling.previous_sibling
print(rank2.a.get_text())
# 부모 노드 이동
print(rank1.parent) # 부모 노드로 이동

In [None]:
# 계행 유무를 무시할 수 있는 코드
rank2 = rank1.find_next_sibling('li') # li라는 정보만 찾음 → 계행 무시 가능
print(rank2.a.get_text())
rank3 = rank2.find_next_sibling('li')
print(rank3.a.get_text())
rank2 = rank3.find_previous_sibling('li')
print(rank2.a.get_text())

In [None]:
# rank1.find_next_siblings('li') #rank1을 기준으로 다음 형제들을 모두 출력
print(rank1.find_next_siblings('li'))

In [None]:
webtoon = soup.find("a", text="사신소년-85화 다크나이트")
print(webtoon)
# soup 의 모든 정보 중 a 태그이며, text의 정보가 위의 지정 정보인 것을 출력
# HTML 문서 상, 여는 태그와 닫는 태그 사이의 글을 text라고 함

#### BeautifulSoup 활용 예시 - Naver Webtoon

In [None]:
# 요일별 웹툰의 모든 내용을 끌어옴
import requests
from bs4 import BeautifulSoup

url =  "https://comic.naver.com/webtoon/weekday.nhn"
res =  requests.get(url)
res.raise_for_status() #문제 발생 시, 프로그램 종료

soup = BeautifulSoup(res.text, "lxml")

In [None]:
# 네이버 웹툰 전체 목록 가져오기
cartoons = soup.find_all("a", attrs={"class":"title"}) # 조건에 해당하는 첫 번째 element가 아닌 모든 element를 찾음
# class 속성이 title 인 모든 "a" element 를 반환
for cartoon in cartoons :
    print(cartoon.get_text())

In [34]:
# 가우스 전자 웹툰 회차 제목,링크 추출
url = "https://comic.naver.com/webtoon/list.nhn?titleId=799793"
res =  requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml")

In [None]:
cartoons = soup.find_all("td", attrs={"class":"title"})
title = cartoons[0].a.get_text()
link = cartoons[0].a["href"]
print(title)
print(link) # 이 상태로 출력 시, url이 부족하므로 완성된 링크에 부족한 부분을 붙혀줘야함
print("https://comic.naver.com" + link)

In [None]:
for cartoon in cartoons:
    title = cartoon.a.get_text()
    link = "https://comic.naver.com" + cartoon.a["href"]
    print(title, link)

In [None]:
# 가우스 전자 웹툰 평점 정보 추출
total_rates = 0
cartoons = soup.find_all("div", attrs={"class":"rating_type"})
for cartoon in cartoons:
    rate = cartoon.find("strong").get_text() # cartoon 객체에서 처음으로 만나는 strong을 가져옴
    print(rate)
    total_rates += float(rate)
# 위 정보를 갖고, 최근 만화 10개에 대한 평균 점수 도출
print("전체 점수 :", total_rates)
print("평균 점수 :", total_rates/len(cartoons))

#### BeautifulSoup 활용 예시 - Cupang

In [46]:
# 쿠팡의 경우 GET 방식으로 페이지 값을 직접 전달할 수 있으므로 쉽게 웹 스크래핑이 가능하다
import requests
import re
from bs4 import BeautifulSoup

url =  "https://www.coupang.com/np/search?q=%EB%85%B8%ED%8A%B8%EB%B6%81&channel=user&component=&eventCategory=SRP&trcid=&traid=&sorter=scoreDesc&minPrice=&maxPrice=&priceRange=&filterType=&listSize=36&filter=&isPriceRange=false&brand=&offerCondition=&rating=0&page=1&rocketAll=false&searchIndexingToken=1=4&backgroundColor="
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36"}
res =  requests.get(url, headers=headers)
res.raise_for_status() # 문제 발생 시, 프로그램 종료

soup = BeautifulSoup(res.text, "lxml")

In [None]:
#제품 명과 가격, 평점 추출

items = soup.find_all("li", attrs={"class":re.compile("^search-product")}) # class 정보가 search-product로 시작하는 모든 li tag를 출력
#print(items[0].find('div', attrs={"class":"name"}).get_text())

for item in items:
    
    # 광고 제품 제외
    ad_badge = item.find("span", attrs={"class":"ad_badge-text"})
    if ad_badge:
        print(" <광고 상품 제외합니다>")
        continue
    
    name = item.find('div', attrs={"class":"name"}).get_text() # 제품명
    
    # 애플 제품 제외
    if "Apple" in name:
        print(" <Apple 상품 제외합니다>")
        continue
        
    price = item.find("strong", attrs={"class":"price-value"}).get_text() # 가격
    
    # 리뷰 100개 이상, 평점 4.5 이상 되는 것만 조회
    rate = item.find("em", attrs={"class":"rating"})# 평점
    if rate:
        rate = rate.get_text()
    else:
        print(" <평점 없는 상품 제외합니다>")
        continue
        
    rate_cnt = item.find("span", attrs={"class":"rating-total-count"})# 평점 수
    if rate_cnt:
        rate_cnt = rate_cnt.get_text()[1:-1]
    else:
        print(" <평점 수 없는 상품 제외합니다")
        continue
        
    if float(rate) >= 4.5 and int(rate_cnt) >= 100:
        print(name, price, rate, rate_cnt)

In [None]:
# 페이지 변환 (URL)
import requests
import re
from bs4 import BeautifulSoup

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
    
for i in range(1,6):
           print("페이지:",i)
           url = "https://www.coupang.com/np/search?q=%EB%85%B8%ED%8A%B8%EB%B6%81&channel=user&component=&eventCategory=SRP&trcid=&traid=&sorter=scoreDesc&minPrice=&maxPrice=&priceRange=&filterType=&listSize=36&filter=&isPriceRange=false&brand=&offerCondition=&rating=0&page={}&rocketAll=false&searchIndexingToken=1=4&backgroundColor=".format(i)
           # 하단 코드는 위와 동일
           link = item.find("a", attrs={"class":"search-product-link"})["href"]
        
           print(f'제품명 : {name}")
           print(f'가격:{price}')
           print(f'평점:{rate}점 ({rate_cnt}개)')
           print("바로가기: {}".format("https://www.coupang.com"+link))
           print("-"*100) # 줄긋기

#### BeautifulSoup 활용 예시 - Daum

In [None]:
# 웹 페이지 상 이미지 자동 다운로드
import requests
from bs4 import BeautifulSoup

res = requests.get("https://search.daum.net/search?w=tot&q=2019%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR")
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

images = soup.find_all("img", attrs={"class":"thumb_img"})

In [None]:
for year in range(2015, 2020):
    url = "https://search.daum.net/search?w=tot&q={}%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR".format(year)
    res = requests.get(url)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")

    images = soup.find_all("img", attrs={"class":"thumb_img"})

    for idx, image in enumerate(images):
        #print(image["src"]) → 원하는 이미지가 https 의 부재로 정상적으로 추출되지 않았음
        image_url = image["src"]
        if image_url.startswith("//"): # // 로 시작하면 http 를 붙혀줌
            image_url = "https:" + image_url

        print(image_url)

        image_res = requests.get(image_url)
        image_res.raise_for_status()

        with open("movie_{}_{}.jpg".format(year,idx+1),"wb") as f:
            f.write(image_res.content) #해당 리소스가 갖고 있는 content 정보를 바로 파일로 작성 (여기선 content가 이미지)

        if idx >= 4: # 상위 5개 이미지까지만 다운로드 후 순환문 탈출
            break

#### BeautifulSoup 활용 예시 - CSV 저장

In [None]:
# 웹 스크래핑을 통해 얻은 데이터를 CSV 파일로 저장
import csv
import requests
from bs4 import BeautifulSoup

url = "https://finance.naver.com/sise/sise_market_sum.nhn?&page="

filename = "시가총액1-200.csv"
f = open(filename, "w", encoding="utf-8-sig", newline="") # newline 부분을 통해 한 줄 쓰고 줄을 바꾸는 방식을 제거하고 이어서 쓰게 만듦
writer = csv.writer(f)

title = "N	종목명	현재가	전일비	등락률	액면가	시가총액	상장주식수	외국인비율	거래량	PER	ROE".split("＼t") #tab으로 구분된 내용을 나눔
# ["N", "종목명", "현재가", ...]
writer.writerow(title)

for page in range(1,5):
    res = requests.get(url + str(page))
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "lxml")
    
    data_rows = soup.find("table", attrs={"class":"type_2"}).find("tbody").find_all("tr")
    for row in data_rows:
        columns = row.find_all("td")
        if len(columns) <= 1: # 의미없는 줄넘김 등의 데이터는 skip
            continue
        data = [column.get_text().strip() for column in columns] # 각 td 들이 갖고 있는 텍스트 정보 저장, 한줄for문
        # print(data)
        writer.writerow(data) # 입력데이터는 리스트 형태

### Selenium

In [None]:
# !pip install selenium

In [None]:
# Selenium Tutorial
from selenium import webdriver
from selenium.webdriver.common.by import By

browser = webdriver.Chrome("./chromedriver.exe") # 현재 경로와 동일할 시 (), 다른 경로에 있을 시 경로 지정 필요
browser.get("http://naver.com") # 크롬 웹드라이버 객체 생성 후 url로 이동

# 로그인을 위한 버튼 클릭(class name으로 정보 가져오기)
elem = browser.find_element(By.CLASS_NAME,"link_login") # class name 이 link_login 인 것을 탐색
elem.click() # 버튼 클릭
browser.back # 이전 페이지로 이동
browser.forward() # 다음 페이지로 이동
browser.refresh() # 새로 고침
# 검색창 찾기(id로 정보 가져오기)
elem = browser.find_element(By.ID,"query") # id 가 query인 element 탐색

from selenium.webdriver.common.keys import keys # 입력을 위한 라이브러리

elem.send_keys("나도코딩")
elem.send_keys(keys.ENTER) # 엔터 누르기

# tag로 정보 가져오기
elem = browser.find_elements(By.TAG_NAME,"a") # a 태그를 갖는 element는 많기 때문에 elements를 통해 다수의 a tag 를 찾을 수 있음
for e in elem:
    e.get_attribute("href") # attribute 추출

browser.get("http://daum.net")
elem = browser.find_element(By.NAME,"q")
elem.send_keys("나도코딩")
elem.send_keys(keys.ENTER)
browser.back
# 페이지 전환이 되면 element 세팅을 다시 해줘야함
elem = browser.find_element(By.NAME,"q")
elem.send_keys("나도코딩")
# X path를 통한 클릭
elem = browser.find_element(By.XPATH,"//*[@id='daumSearch']/fieldset/div/div/button[2]") # X Path 내부의 따옴표와 함수의 따옴표가 달라야함
elem.click()
browser.close() # 현재 탭 닫기
browser.quit() # 브라우저 전체 닫기

#### Selenium Tutorial - Naver Login

In [None]:
from selenium import webdriver
import time

browser = webdriver.Chrome() 

#1. 네이버 이동
browser.get("http://naver.com")

#2. 로그인 버튼 클릭
elem = browser.find_element_by_class_name("link_login")
elem.click()

#3. id, pw 입력
browser.find_element_by_id("id").send_keys("naver_id")
browser.find_element_by_id("pw").send_keys("password")

#4. 로그인 버튼 클릭
browser.find_element_by_id("log.login").click()

#5. id를 새로 입력
#browser.find_element_by_id("id").send_keys("my_id") → 시간 전환 때문에 gap 이 생겨서 정확히 작동 X
time.sleep(3)
browser.find_element_by_id("id").clear() # element 값에 있는 문자를 지워줌
browser.find_element_by_id("id").send_keys("my_id") 

#6. HTML 정보 출력
print(browser.page_source) #현 페이지의 모든 HTML 문서 출력

#7. 브라우저 종료
browser.close() #현재 탭만 종료
browser.quit() #전체 브라우저 종료

#### Selenium Tutorial - Naver Flight

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()
browser.maximize_window() #창 최대화

url = "https://flight.naver.com/flights/"
browser.get(url)

browser.find_element_by_link_text("가는날 선택").click() #텍스트를 통해 element 탐색

# 이번 달 27일, 280일 선택
browser.find_elements_by_link_text("27")[0].click # [0] -> 이번 달 (첫 번째 element)
browser.find_elements_by_link_text("28")[0].click

# 다음 달 27일, 28일 선택
browser.find_elements_by_link_text("27")[1].click # [1] -> 다음 달 (두 번째 element)
browser.find_elements_by_link_text("28")[1].click

# 이번 달 27일, 다음 달 28일 선택
browser.find_elements_by_link_text("27")[0].click
browser.find_elements_by_link_text("28")[1].click

# 제주도 선택
browser.find_element_by_xpath("//*[@id='recommendationList']/ul/li[1]").click()

# 항공권 검색 클릭
browser.find_element_by_link_text("항공권 검색").click()

# 첫 번째 결과 출력
try:
    elem = WebDriverWait(browser, 10).until(EC.presence_of_element_located((By.XPATH, "//*[@id='content']/div[2]/div/div[4]/ul/li[1]"))) 
    # 성공했을 때 동작 수행
    print(elem.text) # element가 갖는 text 출력
finally:
    browser.quit()
    # 실패했을 때 브라우저 종료
# 어떠한 element가 나올 때까지 대기(10초)
# located 함수 안엔 tuple 형태로 조건과 조건에 해당하는 값 입력
# XPATH 외에도 ID, CLASS_NAME, LINK_TEXT 등 사용 가능

#### Selenium Tutorial - Google Movie

In [None]:
# 동적 페이지에 대한 웹 스크래핑
import requests
from bs4 import BeautifulSoup

url = "https://play.google.com/store/movies/top" # url 입력
res = requests.get(url)
res.raise_for_status() # error 확인
soup = BeautifulSoup(res.text, "lxml") # Soup 객체 만들기, pasor 는 lxml 로 사용

movies = soup.find_all("div", attrs={"class":"ImZGtf mpg5gc"}) # div tag 의 attributes 의 class 는 이하와 같음
print(len(movies)) # 왜 0? → HTML를 열어보면, 접속하는 사용자의 Header 정보를 통해서 서로 다른 page를 return 하기 때문

with open("movie.html", "w", encoding="utf8") as f: # 파일명, 쓰기모드, 인코딩
    #f.write(res.text)
    f.write(soup.prettify()) # HTML 문서를 예쁘게 출력

In [None]:
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
          ,"Accept-Language":"ko-KR,ko"} #한글 페이지가 있으면 한글 페이지를 반환하도록 요청
res = requests.get(url, headers=headers)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")

movies = soup.find_all("div", attrs={"class":"ImZGtf mpg5gc"})
print(len(movies))
# 왜 10? → 스크롤을 내리면서 업데이트 되는 동적인 페이지기 때문에 현재는 초기값만 검색됨

for movie in movies:
    title = movie.find("div", attrs={"class":"WsMG1c nnK0zc"}).get_text()
    print(title)

In [None]:
import requests
from bs4 import BeautifulSoup
import selenium
from selenium import webdriver

browser = webdriver.Chrome()
browser.maximize_window() # 최대화

# 페이지 이동
url = "https://play.google.com/store/movies/top" # url 입력
browser.get(url)

# 스크롤 내리기 = 동적 크롤링을 위해 셀레니움에서 자바 스크립트 코드 사용
# browser.execute_script("window.scrollTo(0, 2160)") # 2160 은 해상도 높이 세로 정보 (윈도우에서 스크롤을 세로 방향으로만 2160 내림)
# 숫자를 키우면 스크롤을 더 많이 내려줌 → 0으로 설정하면 가장 위로 이동

# 화면 가장 아래로 스크롤 내리기
# browser.execute_script("window.scrollTo(0, document.body.scrollHeight)") # 현재 문서의 총 높이만큼 스크롤을 내림

import time
interval = 2 # 2초에 한 번씩 스크롤 내림

# 현재 문서 높이를 가져와서 저장
prev_height = browser.execute_script("return document.body.scrollHeight")

# 반복 수행
while True:
    # 스크롤을 가장 아래로 내림
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight)")
    # interval 만큼 페이지 로딩 대기
    time.sleep(interval)
    # 현재 문서 높이를 가져와서 저장
    curr_height = browser.execute_script("return document.body.scrollHeight")    
    if curr_height == prev_height: # 높이의 변화가 없으면 반복문 탈출
        break
    # 과거 높이를 현재 높이로 업데이트
    prev_height = curr_height
print("스크롤 완료")

In [None]:
# Selenium 에서 받아온 구글 뮤비 페이지에서 원하는 데이터 추출하기
import requests
from bs4 import BeautifulSoup
import selenium
from selenium import webdriver

browser = webdriver.Chrome()
browser.maximize_window() # 최대화

# 페이지 이동
url = "https://play.google.com/store/movies/top" # url 입력
browser.get(url)

import time
interval = 2 # 2초에 한 번씩 스크롤 내림

# 현재 문서 높이를 가져와서 저장
prev_height = browser.execute_script("return document.body.scrollHeight")

# 반복 수행
while True:
    # 스크롤을 가장 아래로 내림
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight)")
    # interval 만큼 페이지 로딩 대기
    time.sleep(interval)
    # 현재 문서 높이를 가져와서 저장
    curr_height = browser.execute_script("return document.body.scrollHeight")    
    if curr_height == prev_height: # 높이의 변화가 없으면 반복문 탈출
        break
    # 과거 높이를 현재 높이로 업데이트
    prev_height = curr_height
print("스크롤 완료")

soup = BeautifulSoup(browser.page_source, "lxml") 
# Selenium 으로 페이지 소스를 가져올 수 있으므로, url 이나 header, res.taxt 필요 X

# movies = soup.find_all("div", attrs={"class":["ImZGtf mpg5gc","Vpfmgd"]})
# 10번째 영화 이후로 클래스가 변경되므로, 리스트 안에 있는 클래스와 일치하면 내용을 추출할 수 있도록 변경
# 같은 영화 제목이 두 개가 가져오는 것은 두 클래스 명에서 찾아지기 때문에 2번씩 나옴
# 그렇기 때문에 후자의 class만 갖고 크롤링하면 하나만 추출 가능할 수도 있음
movies = soup.find_all("div", attrs={"class":"Vpfmgd"})
print(len(movies))

for movie in movies:
    title = movie.find("div", attrs={"class":"WsMG1c nnK0zc"}).get_text()
    
    # 할인 전 가격
    original_price = movie.find("span", attrs={"class":"SUZt4c djCuy"})
    if original_price: # 할인 전 가격이 있다면
        original_price = original_price.get_text()
    else:
        # print(title, "<할인되지 않은 영화 제외>")
        continue
    
    # 할인 된 가격
    price = movie.find("span", attrs={"class":"VfPpfd ZdBevf i5DZme"}).get_text()
    
    # 링크
    link = movie.find("a", attrs={"class":"JC71ub"})["href"] # 해당 태그와 클래스 아래의 href 정보 추출
    # 올바른 링크 = https://play.google.com + link
    
    print(f"제목:{title}")
    print(f"할인 전 금액 : {original_price}")
    print(f"할인 후 금액 : {price}")
    print("링크 :", "https://play.google.com" + link)
    print("-" * 100)
    
browser.quit()
    
    
# 가져온 영화 중에서 할인된 영화만 확인하기 위해서 기존 금액에 줄이 그어져있는 태그의 클래스 정보를 통해
# 할인 전 가격 정보가 있는 코드만 추릴 수 있음

#### Selenium Tutorial - Trip Advisor

In [1]:
from selenium.webdriver import Chrome
import os

browser = Chrome()
browser.get('https://naver.com')

In [2]:
# url 지정
url = 'https://www.tripadvisor.co.kr/Restaurant_Review-g294197-d1371740-Reviews-Mugyodong_Bugeokukjib-Seoul.html'

import requests
import lxml.html

res = requests.get(url)
root = lxml.html.fromstring(res.text)

# 더보기 이후 내용은 확인 불가능
for review in root.cssselect('.partial_entry'):
    print(review.text_content())

In [2]:
# 웹 브라우저 생성 및 이동
from selenium.webdriver import Chrome
url = 'https://www.tripadvisor.co.kr/Restaurant_Review-g294197-d1371740-Reviews-Mugyodong_Bugeokukjib-Seoul.html'

browser = Chrome()
browser.get(url)

#### Locating Elements 
'https://selenium-python.readthedocs.io/locating-elements.html'
- find_element(By.ID, "id")
- find_element(By.NAME, "name")
- find_element(By.XPATH, "xpath")
- find_element(By.LINK_TEXT, "link text")
- find_element(By.PARTIAL_LINK_TEXT, "partial link text")
- find_element(By.TAG_NAME, "tag name")
- find_element(By.CLASS_NAME, "class name")
- find_element(By.CSS_SELECTOR, "css selector")

In [5]:
# 더보기 링크 찾기
# find_element: 선택자와 일치하는 첫 번째 요소 발견, find_elements: 모든 요소 발견
from selenium.webdriver.common.by import By
more_links = browser.find_elements(By.CSS_SELECTOR, '.taLnk.ulBlueLinks')

In [6]:
# 요소 클릭
more_links[0].click()

In [7]:
# 리뷰 텍스트 요소 선택
reviews = browser.find_elements(By.CSS_SELECTOR,'.partial_entry')

In [8]:
#.text로 리뷰 텍스트 확인 = lxml.html의 .text_content()
for review in reviews:
    print(review.text)

한 가지 메뉴만 있습니다.
어묵이 풍미가 풍부한 대뼈국에 말린 어폐의 맛이 어우러져 있습니다.
이와 함께 제공되는 반찬, 오이 맛이 정말 좋아요.
아침식사로 적합합니다.
추운 날씨에 한 그릇을 마시면 매우 편안합니다.
사골곰탕 같은 하얀 국물에 북어가 푸짐하게 들어 있네요.

맛집으로 식사시간 때 항상 사람이 줄 서 있습니다. 서비스도 괜찮은데 식사시간 때는 피해야 할 것 같습니다.
사람이 너무 많기 때문에 편하게 먹기는 불편하다 간단하게 식사하고 싶을때 찾으면 될듯 너무 큰 기대는 하지 않음이 좋겠다
서울의 중심가에 위치한 오래되고 전통적인 식당으로서 숙취 해소 및 겨울철에 얼은 몸을 녹여주는 진한 북어의 사골국과 같은 탕으로 최고지요^^
뽀얀 북어국에 부추 듬북 넣고 밥 말아서 오이장아찌 무친것과 먹으면 해장 끝^^ 더 이상 말이 필요 없다. 리뷰 볼것 없이 그냥 방문해도 엄지 척~
언제나 왁자지껄 손님이 많지만 손님응대에 소홀함이 없는 단련된 홀서빙 아주머니와 아저씨들. 세월에 따른 맛의 변화가 없이 늘 같은 퀄리티를 보여주는 음식도 놀라움.
담백하고 깔끔한 북어국의 맛을 느낄수 있는 곳입니다. 단일 메뉴라 자리에 앉으면 바로 음식을 내어주셔서 빠르게 식사를 할 수 있어 좋습니다. 점심시간엔 거의 자리가 없어서 살짝 피크시간을 피해서 가시면 더 좋지만 회전율이 빨라서 금방 자리가 나기는 합니다.
원래도 인기가 많은 곳이었지만, 지금은 관광객도 많습니다. 다만 관광객분들이 북엇국의 맛을 정말로 알고 오시는지는 잘 모르겠습니다. 전날 마신 술의 해장을 확실하게 할 수 있는 좋은 식당입니다.
술 마신 다음날 숙취에는 최고입니다.

부드러운 북어살과 푸짐한 계란에 고소한 북어향, 참기름 향이 입맛을 돋구고 불편해진 속을 편항하게 다스려 줍니다.

유명 음식점인데도 불구하고 매우 친절하면 고기나 국물도 무한 리필되어 인심도 후한 집입니다.
50년 된 북어국집 기본적으로 긴줄은 거쳐야 먹을 수 있다 단 회전율이 좋아 오래 기다리지는 않는다 맛있는 북어국을 먹을 수 

#### Headless Chrome

In [None]:
# Selenium 을 이용해 매번 웹 스크래핑을 하다보면, 매번 브라우저가 띄워지며 화면이 이동하지만, 메모리를 잡아먹음
# 화면을 볼 필요 없고, 서버에서 웹 스크래핑을 하게 되면 브라우저를 띄울 필요가 없음
# Chrome without Chrome = 백그라운드에서 동작하는 크롬 = 빠른 성능으로 똑같은 작업 수행 가능

import requests
from bs4 import BeautifulSoup
import selenium
from selenium import webdriver

options = webdriver.ChromeOptions()
options.headless = True
options.add_argument("window-size=3840*2160") # 설정한 크기에 맞춰 브라우저를 띄워 내부적으로 동작

browser = webdriver.Chrome(options=options) # 위에서 설정한 옵션을 옵션으로 지정
browser.maximize_window()


url = "https://play.google.com/store/movies/top"
browser.get(url)

import time
interval = 2

prev_height = browser.execute_script("return document.body.scrollHeight")

while True:
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight)")
    time.sleep(interval)
    curr_height = browser.execute_script("return document.body.scrollHeight")    
    if curr_height == prev_height:
        break
    prev_height = curr_height
    
print("스크롤 완료")
browser.get_screenshot_as_file("google_movie.png") # 스크롤 완료 시 화면을 스크린 샷 파일로 저장 = 정상 동작 확인

soup = BeautifulSoup(browser.page_source, "lxml") 

movies = soup.find_all("div", attrs={"class":"Vpfmgd"})
print(len(movies))

for movie in movies:
    title = movie.find("div", attrs={"class":"WsMG1c nnK0zc"}).get_text()
    
    original_price = movie.find("span", attrs={"class":"SUZt4c djCuy"})
    if original_price:
        original_price = original_price.get_text()
    else:
        continue
    
    price = movie.find("span", attrs={"class":"VfPpfd ZdBevf i5DZme"}).get_text()
    
    link = movie.find("a", attrs={"class":"JC71ub"})["href"] 
    print(f"제목:{title}")
    print(f"할인 전 금액 : {original_price}")
    print(f"할인 후 금액 : {price}")
    print("링크 :", "https://play.google.com" + link)
    print("-" * 100)
    
browser.quit()

In [None]:
# Headless Chrome 을 사용할 때 주의할 사항: Headless chrome 의 접근을 서버가 막을 수 있음

import selenium
from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument("window-size=3840*2160")
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36")
# User agent를 옵션으로 지정해 서버 접근 방어를 회피

browser = webdriver.Chrome(options=options)
browser.maximize_window()

url = "https://www.whatismybrowser.com/detect/what-is-my-user-agent"
browser.get(url)

detected_value = browser.find_element_by_id("detected_value")
print(detected_value.text)
browser.quit()