In [3]:
### BeautifulSoup ###
# HTML과 XML문서를 파싱하기 위한 Python package
# 크롤링을 도와줌(데이터내 원하는 부분 추출)
# 웹 크롤링(Web Crawling), 웹 크롤러(Web Crawler) - BeautifulSoup 라이브러리 사용

### Parser
# 원시 코드인 순수 문자열 객체를 해석 할 수 있도록 분석하는 것
# 종류: lxml, html5lib, html.parser(기본적으로 이걸 많이 사용)

### BeautifulSoup 관련 함수들 ###
# soup.prettify() - html구조를 출력
# soup.태그이름 - 태그(title, body, p, ol, li 등) 안에 있는 데이터
# soup.태그.name - 특정 태그의 이름
# soup.태그.string - 특정 태그의 문자열
# soup.태그.find() - 태그 이름에 해당하는 첫번째 태그
# soup.태그.select_one() - 입력 값: 찾으려는 태그이름
# soup.태그.find_all() - 태그 이름에 해당하는 전체 태그를 리스트로 반환
# soup.태그.select() - 입력 값: 찾으려는 태그 이름
# soup.태그['class'] - 특정 태그의 class 설정 값 출력
# soup.get_text() 혹은 soup.태그.get_text() - html에서 전체 또는 지정 태그의 텍스트

### 웹페이지 읽고 BeautifulSoup으로 파싱 ### 아래코드 사용
# from bs4 import BeautifulSoup
# page = open("ex1.html", "r").read()
# soup = BeautifulSoup(page, "html.parser")
# print(soup.prettify())

from bs4 import BeautifulSoup
page = open("ex1.html", "r").read() # "r" 은 읽기모드
soup = BeautifulSoup(page, "html.parser") # 읽어온 정보를 파싱(정보가져오기)
print(soup.prettify())
# soup에 html정보를 다 가지고 있음

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [7]:
soup.title  # <title>The Dormouse's story</title>
soup.title.string # The Dormouse's story

"The Dormouse's story"

In [8]:
soup.title.get_text()

"The Dormouse's story"

In [9]:
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [10]:
soup.find_all('a')[0].get_text()  # 바로 위 코드의 결과값 중 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>은 0번 index

'Elsie'

In [11]:
for i in soup.find_all('a'):
  print(i.get('href'))  # 'href'에 있는 정보 가져오기 (href에 있는 링크만 가져오기)

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [13]:
### 영화 사이트에서 영화 제목 추출하기 - 현재 영화 사이트에서 1,2,3위 영화 제목만 추출 ###

import requests
from bs4 import BeautifulSoup
r = requests.get("http://www.cgv.co.kr/movies/?lt=3&ft=1")
c = r.content
html = BeautifulSoup(c, "html.parser")
ol = html.find("ol")  # ordered list tag
li = ol.find_all("li")  # list
for l in li:
  div = l.find("div", {"class":"box-contents"})
  strong = div.find("strong").text
  print(strong)


헤어질 결심
베르히만 아일랜드
보일링 포인트


In [14]:
### 네이버 영화 랭킹 페이지에서 영화 목록 가져오기(제목) ###
# 사이트에서 크롬브라우저 > F12 클릭 > Ctrl + F 누른 후 리스트에 올라온 영화 중 '한산' 입력 > 그 위에 <div class="tit3"> 태그에 묶여있는 걸 확인 가능

from bs4 import BeautifulSoup
import urllib # url library, url 파싱
soup = BeautifulSoup(urllib.request.urlopen("https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cnt&date=20220804").read(), 'html.parser')
res = soup.find_all('div', 'tit3')  # resource
for n in res:
  print(n.get_text())


한산: 용의 출현


비상선언


외계+인 1부


탑건: 매버릭


헤어질 결심


미니언즈2


헌트


토르: 러브 앤 썬더


더 킬러: 죽어도 되는 아이


범죄도시2


그레이 맨


임파서블 러브


뽀로로 극장판 드래곤캐슬 대모험


명탐정 코난: 할로윈의 신부


놉


명량


마녀(魔女) Part2. The Other One


브로커


초록밤


아이를 위한 아이


엘비스


뒤틀린 집


썸머 필름을 타고!


극장판 도라에몽: 진구의 우주소전쟁 리틀스타워즈 2021


멘


락다운 213주


보일링 포인트


베르히만 아일랜드


버즈 라이트이어


불릿 트레인


귀멸의 칼날: 아사쿠사 편


리미트


불도저에 탄 소녀


배드 럭 뱅잉


닥터 스트레인지: 대혼돈의 멀티버스


DC 리그 오브 슈퍼-펫


블랙 팬서: 와칸다 포에버


극장판 주술회전 0


메모리


노량: 죽음의 바다


특송


오펜하이머


탑건


스파이형 모델


쥬라기 월드: 도미니언


공조2: 인터내셔날


굿 럭 투 유, 리오 그랜드


연애 빠진 로맨스


큐어


위대한 침묵



In [18]:
### 기상청 날씨 페이지 시각화 (지역별 오늘의 날씨정보 출력하기) ###

from urllib import request
from bs4 import BeautifulSoup
target = request.urlopen("https://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp")
soup = BeautifulSoup(target, 'html.parser')
for location in soup.select("location"):
  print("도시:",location.select_one("city").string)
  print("날씨:",location.select_one("wf").string)
  print("최저기온:",location.select_one("tmn").string)
  print("최고기온:",location.select_one("tmx").string)
  print() # 한 줄띄고 한 줄씩

도시: 서울
날씨: 흐리고 비
최저기온: 26
최고기온: 29

도시: 인천
날씨: 흐리고 비
최저기온: 26
최고기온: 29

도시: 수원
날씨: 흐리고 비
최저기온: 26
최고기온: 30

도시: 파주
날씨: 흐리고 비
최저기온: 25
최고기온: 29

도시: 이천
날씨: 흐리고 비
최저기온: 25
최고기온: 29

도시: 평택
날씨: 흐리고 비
최저기온: 26
최고기온: 30

도시: 춘천
날씨: 흐리고 비
최저기온: 25
최고기온: 28

도시: 원주
날씨: 흐리고 비
최저기온: 25
최고기온: 29

도시: 강릉
날씨: 흐림
최저기온: 28
최고기온: 32

도시: 대전
날씨: 흐림
최저기온: 26
최고기온: 32

도시: 세종
날씨: 흐림
최저기온: 26
최고기온: 31

도시: 홍성
날씨: 흐림
최저기온: 27
최고기온: 31

도시: 청주
날씨: 흐림
최저기온: 27
최고기온: 33

도시: 충주
날씨: 흐림
최저기온: 25
최고기온: 31

도시: 영동
날씨: 흐림
최저기온: 24
최고기온: 32

도시: 광주
날씨: 흐림
최저기온: 26
최고기온: 32

도시: 목포
날씨: 흐림
최저기온: 27
최고기온: 31

도시: 여수
날씨: 흐림
최저기온: 26
최고기온: 30

도시: 순천
날씨: 흐림
최저기온: 26
최고기온: 32

도시: 광양
날씨: 흐림
최저기온: 26
최고기온: 32

도시: 나주
날씨: 흐림
최저기온: 26
최고기온: 31

도시: 전주
날씨: 흐림
최저기온: 27
최고기온: 32

도시: 군산
날씨: 흐림
최저기온: 27
최고기온: 31

도시: 정읍
날씨: 흐림
최저기온: 26
최고기온: 32

도시: 남원
날씨: 흐림
최저기온: 25
최고기온: 31

도시: 고창
날씨: 흐림
최저기온: 27
최고기온: 31

도시: 무주
날씨: 흐림
최저기온: 24
최고기온: 30

도시: 부산
날씨: 구름많음
최저기온: 26
최고기온: 32

도시: 울산
날씨: 구름많음
최저기온: 27
최고기온: 33

도시: 창원
날씨: 구름많음