# 1. Beautiful Soup의 개념과 사용법

## 1-1. Beautiful Soup 라이브러리 설치하기

Beautiful Soup는 HTML과 XML 파일로부터 데이터를 가져오기 위한 라이브러리 입니다.

Beautiful Soup를 설치하기 위해 아래 명령어를 입력합니다.
- pip install beautifulsoup4
- pip install bs4

## 1-2. Beautiful Soup 이해하기

In [3]:
# bs4 라이브러리에서 Beautiful Soup를 import 시킴
from bs4 import BeautifulSoup
# Beautiful Soup가 잘 작동하는지 확인하기 위해 Example Code를 생성
# 입력하고자 한 그대로 입력하거나 줄을 바꿔서 문자열을 입력하고 싶은 경우에는삼중 작은따옴표나 삼중 큰따옴표를 이용하면 된다.
html_doc = """
<html><head><title>The Dormouse's stroy</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class = "story">...</p>
"""
# html_doc를 html로 끌어옴
soup = BeautifulSoup(html_doc, 'html.parser')
# 끌어온 데이터를 깔끔하게 정리하여 출력
print(soup.prettify())
# prettify() : BeautifulSoup에서 파싱 처리한 파서 트리를 유니코드 형태로 리턴하는 함수이다.
# 파싱(parsing)은 일련의 문자열을 의미있는 토큰(token)으로 분해하고 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 말한다.

<html>
 <head>
  <title>
   The Dormouse's stroy
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [7]:
print(soup.title)

<title>The Dormouse's stroy</title>


In [8]:
print(soup.title.string)

The Dormouse's stroy


In [9]:
print(soup.title.parent.name)

head


In [10]:
print(soup.p)

<p class="title"><b>The Dormouse's story</b></p>


In [11]:
print(soup.find_all('a'))

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


In [12]:
print(soup.get_text())


The Dormouse's stroy

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



# 2. Beautiful Soup로 네이버 실시간 검색어 크롤링

## 2-1. Requests 설치하기

우리가 만들고자 하는 것은 웹 상에있는 HTML 혹은 여러 소스파일들을 분석하고 가공하여 쓸모있는 데이터로 만드는 것입니다. 그러기 위해서 우선 인터넷 상에 있는 HTML 파일을 읽어와야 하는데 requests 라이브러리가 도와줄 겁니다.
- pip install requests

requests 라이브러리를 설치했으면, requests가 어떤 녀석인지부터 차근차근 이해해보도록 합시다.

In [13]:
import requests
URL = "http://naver.com/"
response = requests.get(URL)
print(response.text)

<!doctype html>
















<html lang="ko">
<head>
<meta charset="utf-8">
<meta name="Referrer" content="origin">
<meta http-equiv="Content-Script-Type" content="text/javascript">
<meta http-equiv="Content-Style-Type" content="text/css">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="viewport" content="width=1100">
<meta name="apple-mobile-web-app-title" content="NAVER" />
<meta name="robots" content="index,nofollow"/>
<meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/>
<meta property="og:title" content="네이버">
<meta property="og:url" content="https://www.naver.com/">
<meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png">
<meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/>
<meta name="twitter:card" content="summary">
<meta name="twitter:title" content="">
<meta name="twitter:url" content="https://www.naver.com/">
<meta name="twitter:image" content="https://s.ps

## 2-2 Naver 웹사이트 분석하기

네이버 실시간 검색어 크롤링을 하기 위해선 해당 부분의 HTML을 이해해야 합니다. 개발자 모드에 진입해서 크롤링 해야할 부분을 잡아줘야합니다. 개발자모드 왼쪽 상단에 위치하는 Select 도구를 클릭하여, 크롤링하길 원하는 부분을 페이지상에서 잡아줘야합니다.

그 코드를 우클릭하여 Copy -> Copy Selector를 눌러 선택자를 복사해줍니다. 선택자란 말 그대로 선택해주는 요소입니다. CSS 코드에서 특정 요소를 선택하여 스타일을 적용할 때 사용합니다. 우리는 이 선택자를 이용해 필요한 부분을 선택하여 크롤링해야 합니다.

#PM_ID_ct > div.header > div.section_navbar > div.area_hotkeyword.PM_CL_realtimeKeyword_base > div.ah_roll.PM_CL_realtimeKeyword_rolling_base > div > ul > li:nth-child(5) > a > span.ah_k

위의 선택자를 우리는 볼 수 있는데 li:nth-child(5)에서 숫자 5가 순위를 의미한다는 것을 눈치챌 수 있다. 우리는 모든 실시간 검색어 순위를 얻어야 하기 때문에 ':nth-child()'를 없애준다.

#PM_ID_ct > div.header > div.section_navbar > div.area_hotkeyword.PM_CL_realtimeKeyword_base > div.ah_roll.PM_CL_realtimeKeyword_rolling_base > div > ul > li > a > span.ah_k

## 2-3 네이버 실시간 검색어 순위 크롤링

In [14]:
import requests
from bs4 import BeautifulSoup

# req변수에 https://www.naver.com/ 에 접속하면 받게되는 소스 즉, HTML 소스를 저장한다.
req = requests.get("http://www.naver.com/")
# req 변수에 저장된 HTML 값을 source로 가져온다. text는 소스를 가져오는 것이며, req.status_code를 입력하면 '응답 상태'를 가져오게 된다.
source = req.text
# BeautifulSoup에 source 변수가 가지고 있는 값은 HTML이라서, HTML.parser을 사용해야 한다고 알려준다.
soup = BeautifulSoup(source, 'html.parser')

In [18]:
print(soup.select("#PM_ID_ct > div.header > div.section_navbar > div.area_hotkeyword.PM_CL_realtimeKeyword_base > div.ah_roll.PM_CL_realtimeKeyword_rolling_base > div > ul > li > a > span.ah_k"))

[<span class="ah_k">대서</span>, <span class="ah_k">열여덟의 순간</span>, <span class="ah_k">기아차</span>, <span class="ah_k">김가영</span>, <span class="ah_k">텔콘rf제약</span>, <span class="ah_k">쯔양</span>, <span class="ah_k">조현재</span>, <span class="ah_k">브리짓 존스의 베이비</span>, <span class="ah_k">마라탕</span>, <span class="ah_k">국일제지</span>, <span class="ah_k">복합버섯균사체</span>, <span class="ah_k">이태임</span>, <span class="ah_k">이언주</span>, <span class="ah_k">허재</span>, <span class="ah_k">박민정</span>, <span class="ah_k">차유람</span>, <span class="ah_k">옹성우</span>, <span class="ah_k">이낙연</span>, <span class="ah_k">메리골드</span>, <span class="ah_k">바이애콤</span>]


In [19]:
# 사용하기에 좀 지저분해서 가공을 해보자

top_list = soup.select("#PM_ID_ct > div.header > div.section_navbar > div.area_hotkeyword.PM_CL_realtimeKeyword_base > div.ah_roll.PM_CL_realtimeKeyword_rolling_base > div > ul > li > a > span.ah_k")
print(top_list[0].text)

대서


여기에서 For 문을 사용하여 전체를 출력하면 될 것이다.

In [27]:
for top in top_list:
    print(top.text)

대서
열여덟의 순간
기아차
김가영
텔콘rf제약
쯔양
조현재
브리짓 존스의 베이비
마라탕
국일제지
복합버섯균사체
이태임
이언주
허재
박민정
차유람
옹성우
이낙연
메리골드
바이애콤


# 3. Selenium 사용법과 이해

## 3-1. Selenium에 대해서

Selenium은 웹 애플리케이션을 위한 테스팅 프레임워크이다. 자동화 테스트를 위해 여러 가지 기능을 지원합니다. 다양한 언어에서도 사용이 가능하다. Beautiful Soup는 웹사이트에서 버튼을 클릭해야 얻을 수 있는 데이터라던가, JavaScripit에 조건이 충족되어야만 얻을 수 있는 데이터에 접근하는 것에 한계가 있습니다. 그래서, 직접적으로 웹 사이트에 접근할 수 있게 해주는 Selenium을 사용해야 한다. 새로운 환경에서 웹 브라우저를 대신해 줄 'Web Driver'가 필요하다. Web Driver를 눌러 설치를 해주고, Web Driver는 Selenium이 사용할 웹 브라우저이고, Selenium으로 자동화하여 웹 사이트를 탐험하면 된다.

## 3-2. Selenium 이해하기

pip 명령어를 사용해 Selenium을 설치해준다.
- pip install selenium

In [37]:
import sys
import os
if not sys.modules.get('selenium'):
    os.system('pip3 install selenium')
if not sys.modules.get('pandas'):
    os.system('pip3 install pandas')
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
# expected_conditions는 Selenium 2.26.0 이후 부터 사용 가능합니다.
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import time
import pandas as pd
from selenium.webdriver.common.keys import Keys

In [31]:
chop = webdriver.ChromeOptions()
chop.add_extension('uBlock-Origin-development-build_v1.20.3.102.crx')
driver = webdriver.Chrome(chrome_options = chop)

  This is separate from the ipykernel package so we can avoid doing imports until


In [35]:
driver.get('https://www.google.com')

# 3-3. Selenium으로 검색하기

In [39]:
search_box = driver.find_element_by_name("q")
search_box.send_keys("개발새발 블로그")
search_box.submit()

# 4. Selenium을 이용해 페이스북에 로그인

## 4-1. Facebook의 HTML 분석하기

input에 값을 입력하려면 name이나 id같은 '선택자'가 필요하다

In [41]:
chop = webdriver.ChromeOptions()
chop.add_extension('uBlock-Origin-development-build_v1.20.3.102.crx')
driver = webdriver.Chrome(chrome_options = chop)
driver.get('http://www.facebook.com')

  This is separate from the ipykernel package so we can avoid doing imports until


In [42]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

In [44]:
usr = "아이디"
pwd = "패스워드"

# driver.title이 Facebook이 아니면 예외처리를 하여 Error를 내줘!라는 의미이다.
# Facebook에 접근한건지 아닌지를 판단하기 위해 입력한 코드이다.
assert "Facebook" in driver.title
elem = driver.find_element_by_id("email")
elem.send_keys(usr)
elem = driver.find_element_by_id("pass")
elem.send_keys(pwd)
elem.send_keys(Keys.RETURN)

## 5. Beautiful Soup와 Selenium을 함께 사용하는 방법

### 5-1. Facebook Profile로 접속할 준비하기

4장에서 배웠던 코드를 응용해서, 내 타임라인에 있는 글을 몇개 긁어올것이다. 우리가 사용하는 drvier가 profile에 접속할 수 있도록 profile 링크(href)를 찾아줘야하는데, 이전에 사용했던 선택자말고 XPath를 사용해보자

즉, Copy -> Copy XPath 를 사용한다.

In [48]:
a = driver.find_elements_by_xpath('//*[@id="u_0_a"]/div[1]/div[1]/div/a')
driver.get(a[0].get_attribute('href'))

# driver.find_elements_by_xpath XPath로 해당 elements를 가져오는 겁니다.
# 기본적으로 a=find_elements_by_xpath를 하게되면 a는 list 상태가 되므로,
# a[0]을 한 뒤, get_attribute('href')를 하는 겁니다. 그러면 elements안에
# 있는 href(프로필 주소)속성값으로 Web Driver가 접속하게 되는것이다.

만약 XPath를 찾을 수 없다는 에러가 나오면, time을 import하여 Facebook 페이지가 원활히 로딩이 끝날때 까지 time.sleep(5)로 5초 정도 기다려주면 해결된다. [import time]을 하고, elem.send_keys(Keys.RETURN)아래에 time.sleep(5)를 쓴다.

## 5-2. Facebook Profile에 있는 데이터 크롤링하기

페이스북 타임라인 포스트 크롤링같은 경우에는 Facebook Graph API를 사용하는게 훨씬 간결하고 편하다. 하지만, 우리가 크롤링 할 부분은 좌측의 소개란 부분이다.

In [54]:
# Web Driver 가 현재 실행중인 웹 사이트의 소스를 가져오기
req = driver.page_source

In [55]:
# 이렇게 req에 소스를 저장했으면 이 req가 HTML parser를 사용해야 한다고 알려줘야한다.

soup = BeautifulSoup(req, 'html.parser')

In [56]:
# 선택자 찾기 (Copy -> Copy Selector)
information_list = soup.select("#intro_container_id")
for information in information_list:
    print(information.text)


간단한 소개를 추가하여 회원님에 대해 자세히 알려주세요.소개 추가부산대학교 (Pusan National University) Student부산대학교 (Pusan National University)에서 통계학과 전공부산 거주경상남도 김해 출신Instagram, 웹사이트 및 기타 링크 추가


# 6. Pagination 된 게시판 크롤링

## 6-1. Naver 뉴스 페이지 URL 분석하기

네이버 부동산 뉴스-분야별 뉴스에 들어가보자

거기에 1페이지~ 존재한다.

첫번째 페이지는 NP=r:1, 두번째 페이지는 NP=r:2로 규칙적인 Class를 가지고 있다.

## 6-2. Python 코드 작성하기

In [62]:
from bs4 import BeautifulSoup
import requests

# 우리가 크롤링하려는 페이지가 여러개이므로 동적인 URL을 입력해줘야 합니다.
# 그렇기 때문에 변수를 두 개 만들어 줬습니다.
# maximum은 pagination의 최대값이다. 총 세개가 있다는 것을 우리는 코드를 통해 알려줄 예정이다.
maximum = 0
# page는 현재 지목하고 있는 page의 pagination값이다.
page = 1
# Naver 뉴스 페이지로 설명하자면 page=1, page=3 등과 같이 유동적인 값이다.
URL = 'https://land.naver.com/news/field.nhn?page=1'
response = requests.get(URL)
source = response.text
soup = BeautifulSoup(source, 'html.parser')

In [63]:
chop = webdriver.ChromeOptions()
chop.add_extension('uBlock-Origin-development-build_v1.20.3.102.crx')
driver = webdriver.Chrome(chrome_options = chop)
driver.get('https://land.naver.com/news/field.nhn?page=1')

  This is separate from the ipykernel package so we can avoid doing imports until


In [65]:
# 페이지네이션이 몇번째 까지 있는지를 확인하기 위한 소스

while 1:
    page_list = soup.findAll("a", {"class" : "NP=r:" + str(page)})
    if not page_list:
        maximum = page - 1
        break
    page = page + 1
print("총" + str(maximum) + " 개의 페이지가 확인 됬습니다.")

# 3 : while에 진입하기 위해서 TRUE인 1을 입력해줬습니다.
# 4 : page_list에 'NP = r: + str(page)' 클래스를 가진 a를 찾아눴습니다. str(page)는 page가 정수형이기 때문에 String으로 사용하기 위함이다.
# 5 : page_list에 값이 없을 때, 'NP = r:숫자'가 없는 클래스일 때 실행하는 코드. 여기서 'NP=r:숫자'가 없다는 것은 숫자가 3을 초과했다는 의미.
# 6 : maximum은 페이지네이션의 최대 값 즉 3이 되야 한다. page가 한 번 더해진 상태로 들어왔기 때문에 1을 빼준거다.
# 7 : maximum 값을 찾았으므로, while문에서 탈출한다.
# 8 : 'NP=r:1' 클래스가 Naver 뉴스 안에 있음을 확인했으므로 다음 클래스인 'NP=r:2'를 확인하기 위해 작성. 이 코드가 while문의 마지막이므로 다시 while의 첫번째 코드로 진행
# 9 : maximum 이 원하는 값으로 됬는지 확인한다.

총1 개의 페이지가 확인 됬습니다.


In [67]:
whole_source = ""
for page_number in range(1, maximum + 1):
    URL = 'http://land.naver.com/news/field.nhn?page=' + str(page_number)
    response = requests.get(URL)
    whole_source = whole_source + response.text
soup = BeautifulSoup(whole_source, 'html.parser')
find_title = soup.select("#content > div.section_headline > ul > li > dl > dt > a")

for title in find_title:
    print(title.text)
    
# 1 : whole_source는 크롤링할 모든 페이지의 HTML 소스를 전부 저장할 변수이다.
# 2 : range함수는 숫자리스트를 만들어줍니다. range(1, maximum+1)을 함으로써 1부터 maximum 까지의 숫자 리스트가 생성된다.
#     그리고 page_number은 1부터 더해지면서 maximum이 될때까지 for문을 실행하게 된다. maximum+1로 해준 이유는 
#     range는 첫번째 인자 값 1부터, 두번째 인자 값 미만까지 실행되기 때문이다.
# 5 : HTML 소스를 whole_source에 전부 넣습니다. 그러면 whole_source는 최종적으로 3개의 HTML 소스를 더한게 된다.
# 7 : 뉴스의 제목 선택자를 찾아서 soup.select 했다. find_title은 모든 뉴스의 제목ㅇ을 가진 list가 됬다.
# 9 : for 문으로 뉴스 제목들을 출력한다.


‘도루묵 된 9·13’…강북 아파트 낙폭 만회

“매매가 능사 아냐” 증여 비중 사상 최대…강남·서초·용산 20% 돌파

상가임대차분쟁 원인 `계약해지·권리금` 많아…자치구는 영등포구 최다

“매매가 능사 아냐” 증여 비중 사상최대…강남·서초·용산 20% 돌파

3년만의 기준금리 인하, 부동산 시장에 영향 ··· 고덕신도시 주목

강북, 9·13 효과 다 까먹었다… 찔끔 떨어진 집값 도루묵
"올해 상반기 상업용 부동산 투자규모 7조5000억원…전년比 11%↑"

투기과열지구 31곳 청약 열기, 규제 이후 18% 낮아졌다

규제 앞에 고민 깊은 주택시장

입주 감소에 재건축 이주 늘자 강남 전셋값 꿈틀

상반기 서울 아파트 거래량 반토막


# 7. Scrapy란? Scrapy VS Beautiful Soup

## Beautiful Soup란?
Beautiful Soup는 웹 상의 가치있는 정보를 빠르게 크롤링 하기 위한 도구이다. 진입 장벽이 매우 낮고 간결해서, 입문 개발자에게 안성맞춤이다. 그리고 이 라이브러리는, 스스로 웹 사이트를 크롤링 할 수 없다. 'urlib2'와 'requests'로 HTML 소스를 가져와야만 한다.

## Scrapy 란?

Scrapy는 파이썬으로 작성되었으며, 'spider'를 작성해서 크롤링을 한다. Scrapy에서는 직접 'Beautiful Soup'나 'lxml'을 사용할 수 있다. Beautiful Soup에서는 지원하지 않는 'XPath'를 Scrapy에서는 사용할 수 있다. XPath를 사용함으로써 복잡한 HTML 소스를 쉽게 크롤링 할 수 있다.

'Beautiful Soup'는 오로지 HTML을 파싱하고 데이터를 크롤링하는데에만 쓰인다. 반면에 'Scrapy'는 HTML을 다운로드하고 데이터에 접근하여 저장한다.

In [68]:
# Framework   |   Beautiful Soup                        |  Scrapy
# 진입장볍    |   매우 쉽다.                            |  난해하다. 하지만 Scrapy문서를 참고해서 따라해보면 생각보다 괜찮다.
# 자료량      |   많이 부족한 편                        |  매우 많은 프로젝트와 플러그인이 존재한다. Stack OverFlow에도 많은 케이스가 존재
# 확장성      |   확장하기가 쉽지않다.                  |  쉽게 middleware를 커스팅마이징 할 수 있다. 유지가 쉬운 편이다. 
# 퍼포먼스    |   multiprocessing을 하면 매우 빠르다    |  괜찮은 편. 웹 페이지를 짧은 시간내에 크롤링 가능, 잦은 경우로 download_delay를 설정해줘야 spider가 정지당하는 경우를 피할 수 있다.


# 가볍고 빠른 Beautiful Soup와 자료가 방대하고 유연한 Scrapy를 상황에 맞게 잘 골라 쓰면 된다.

## 네이버 영화 랭킹 페이지에서 영화 목록 가져오기

In [69]:
from bs4 import BeautifulSoup

In [71]:
# 예제에 사용될 HTML문서

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [72]:
# 문서를 Parsing 하기 위해서 BeautifulSoup 생성자에 해당 문서를 인자로 전달 해줘야 한다.
# 아래와 같이 문자열을 전달할 수도 있고, file handle을 전달 할 수도 있다.

with open("index.html") as fp:
    soup = BeautifulSoup(fp)
    
soup = BeautifulSoup("<html>data</html>")

FileNotFoundError: [Errno 2] No such file or directory: 'index.html'

if __name__ == "__main__":

이 코드를 사용하면 C:\python>python mod1.py처럼 직접 이 파일을 실행시켰을 때는 __name__="__main__"이 참이 되어 if문 다음 문장들이 수행된다.

반대로 대화형 인터프리터나 다른 파일에서 이 모듈을 불러서 사용할 때는 __name__=="__main__"이 거짓이 되어 if문 다음 문장들이 수행되지 않는다.

In [74]:
if __name__  == "__main__":
    soup = BeautifulSoup(html_doc, 'html.parser')
    print('1. ', soup.title)
    print('2. ', soup.title.name)
    print('3. ', soup.title.string)
    print('4. ', soup.title.parent.name)
    print('5. ', soup.p)
    print('6. ', soup.p['class'])
    print('7. ', soup.a)
    print('8. ', soup.find_all('a'))
    print('9. ', soup.find(id="link3"))
 

1.  <title>The Dormouse's story</title>
2.  title
3.  The Dormouse's story
4.  head
5.  <p class="title"><b>The Dormouse's story</b></p>
6.  ['title']
7.  <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
8.  [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
9.  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


원하는 tag 를 가지고 오고 싶을 때 1번과 5번 경우처럼 간단하게 soup.(원하는tag 명) 을 사용할 수 있습니다.

특정 tag 로 감싸진 내용만 가져오고 싶다면 3번과 같이 soup.title.string 을 사용하면 됩니다.

.(tag 명)의 경우 해당 태그를 포함하여 그 태그가 끝날 까지의 문장을 가지고 오고, .name, .string, .parent.name 등을 통해 더 자세한 정보들을 얻어 올 수 있습니다.

6번의 경우 soup.p['class'] 라고 하면 tag 가 p 인 것들 중 속성이 class 인 부분을 파싱 합니다.

7번과 8번의 다른점은 soup.a 의 경우 html 중 tag 가 a 인 첫번째 항목을 뽑아내지만,  find_all 을 이용하면 tag 가 a 인 것들을 모두 리스트의 형태로 뽑아 낼 수 있습니다.

In [79]:
import urllib

soup = BeautifulSoup(urllib.request.urlopen('http://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20161120').read(), 'html.parser')

print(soup.prettify())

# html 코드로 보면 아래와 같이 영화 제목은 'div' tag 의 'tit5'를 속성으로 가진 항목들에 포함되어 있습니다.
# <div class="tit5"> <a href="/movie/bi/mi/basic.nhn?code=17421" title="쇼생크 탈출"> 쇼생크 탈출 </a> </div>

<!DOCTYPE html>
<html lang="ko">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="me2:image">
   <meta content="네이버영화 " property="me2:post_tag">
    <meta content="네이버영화" property="me2:category1"/>
    <meta content="" property="me2:category2"/>
    <meta content="랭킹 : 네이버 영화" property="og:title"/>
    <meta content="영화, 영화인, 예매, 박스오피스 랭킹 정보 제공" property="og:description"/>
    <meta content="article" property="og:type"/>
    <meta content="https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&amp;date=20161120" property="og:url"/>
    <meta content="http://static.naver.net/m/movie/icons/OG_270_270.png" property="og:image"/>
    <!-- http://static.naver.net/m/movie/im/navermovie.jpg -->
    <meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="og:article:thumbnailUrl"/>
    <meta

In [81]:
# 생성한 BeautifulSoup 객체의 find_all 함수를 이용해서 영화 제목이 담긴 div tag 를 가진 항목을 list 로 뽑아 내었습니다.

if __name__  == "__main__":
    soup = BeautifulSoup(urllib.request.urlopen('http://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20161120').read(), 'html.parser')
    res = soup.find_all('div', 'tit5')
    print(res)

[<div class="tit5">
<a href="/movie/bi/mi/basic.nhn?code=17421" title="쇼생크 탈출">쇼생크 탈출</a>
</div>, <div class="tit5">
<a href="/movie/bi/mi/basic.nhn?code=10200" title="터미네이터 2">터미네이터 2</a>
</div>, <div class="tit5">
<a href="/movie/bi/mi/basic.nhn?code=146534" title="자백">자백</a>
</div>, <div class="tit5">
<a href="/movie/bi/mi/basic.nhn?code=10048" title="죽은 시인의 사회">죽은 시인의 사회</a>
</div>, <div class="tit5">
<a href="/movie/bi/mi/basic.nhn?code=22126" title="인생은 아름다워">인생은 아름다워</a>
</div>, <div class="tit5">
<a href="/movie/bi/mi/basic.nhn?code=17170" title="레옹">레옹</a>
</div>, <div class="tit5">
<a href="/movie/bi/mi/basic.nhn?code=24452" title="매트릭스">매트릭스</a>
</div>, <div class="tit5">
<a href="/movie/bi/mi/basic.nhn?code=10002" title="빽 투 더 퓨쳐">빽 투 더 퓨쳐</a>
</div>, <div class="tit5">
<a href="/movie/bi/mi/basic.nhn?code=32686" title="센과 치히로의 행방불명">센과 치히로의 행방불명</a>
</div>, <div class="tit5">
<a href="/movie/bi/mi/basic.nhn?code=69105" title="월-E">월-E</a>
</div>, <div class="tit5">
<a href

In [82]:
if __name__  == "__main__":
    soup = BeautifulSoup(urllib.request.urlopen('http://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20161120').read(), 'html.parser')
    res = soup.find_all('div', 'tit5')
 
    for n in res:
        print(n.get_text())


쇼생크 탈출


터미네이터 2


자백


죽은 시인의 사회


인생은 아름다워


레옹


매트릭스


빽 투 더 퓨쳐


센과 치히로의 행방불명


월-E


살인의 추억


포레스트 검프


반지의 제왕: 왕의 귀환


토이 스토리 3


나 홀로 집에


사운드 오브 뮤직


라이언 일병 구하기


굿바이 마이 프랜드


에이리언 2


주토피아


여인의 향기


헬프


동주


글래디에이터


패왕별희


미세스 다웃파이어


울지마 톤즈


반지의 제왕: 두 개의 탑


아마데우스


세 얼간이


클래식


그대를 사랑합니다


언터처블: 1%의 우정


드래곤 길들이기


인어 공주


오페라의 유령 : 25주년 특별 공연


서유기 2 - 선리기연


모노노케 히메


빌리 엘리어트 뮤지컬 라이브


라푼젤


바이센테니얼 맨


집으로...


아이언 자이언트


캐스트 어웨이


굿 윌 헌팅


쉰들러 리스트


프리퀀시


소원


지금, 만나러 갑니다


다크 나이트

