# 웹 스크레이핑을 위한 기본 지식
### 웹 페이지의 HTML 소스 갖고 오기

In [1]:
import requests

In [2]:
url  = "https://www.naver.com"
html = requests.get(url)
html
# 200 : 정상
# 400번대 error : 해당 page 찾을 수 없음 (기존 페이지 없어짐 or 오타)
# 500번대 error : System Error

<Response [200]>

In [3]:
html.text[0:1000]

'\n<!doctype html>                          <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버

In [4]:
type(html)

requests.models.Response

In [5]:
type(html.text)

str

## HTML 소스코드를 분석하고 처리하기
### 데이터 찾고 추출하기

In [6]:
from bs4 import BeautifulSoup

html = """
<html>
<body>
<div>
<span>
    <a href=http://www.naver.com>네이버</a>
    <a href=http://www.google.com>구글</a>
    <a href=http://www.daum.net>다음</a>
</span>
</div></body></html>
""" 

In [7]:
# BeautifulSoup를 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html, 'lxml') 
soup

<html>
<body>
<div>
<span>
<a href="http://www.naver.com">네이버</a>
<a href="http://www.google.com">구글</a>
<a href="http://www.daum.net">다음</a>
</span>
</div></body></html>

In [8]:
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     네이버
    </a>
    <a href="http://www.google.com">
     구글
    </a>
    <a href="http://www.daum.net">
     다음
    </a>
   </span>
  </div>
 </body>
</html>



In [9]:
soup.find('a')

<a href="http://www.naver.com">네이버</a>

In [10]:
soup.find('a').get_text()

'네이버'

In [11]:
soup.find_all('a')

[<a href="http://www.naver.com">네이버</a>,
 <a href="http://www.google.com">구글</a>,
 <a href="http://www.daum.net">다음</a>]

In [12]:
site_names = soup.find_all('a')
site_names

[<a href="http://www.naver.com">네이버</a>,
 <a href="http://www.google.com">구글</a>,
 <a href="http://www.daum.net">다음</a>]

In [13]:
for site_name in site_names:
    print(site_name.get_text())

네이버
구글
다음


In [14]:
from bs4 import BeautifulSoup

# 테스트용 HTML 코드
html2 = """
<html>
 <head>
  <title>작품과 작가 모음</title>
 </head>
 <body>
  <h1>책 정보</h1>
  <p class="booknm">역사의역사</p>
  <p class="author">유시민</p>
  
  <p class="booknm">에디톨로지</p>
  <p class="author">김정운</p>

  <p class="booknm">데이터의 보이지 않는손</p>
  <p class="author">야노가즈오</p>
 </body>
</html>
""" 

In [15]:
soup2 = BeautifulSoup(html2, "lxml")
soup2.title

<title>작품과 작가 모음</title>

In [16]:
soup2.body

<body>
<h1>책 정보</h1>
<p class="booknm">역사의역사</p>
<p class="author">유시민</p>
<p class="booknm">에디톨로지</p>
<p class="author">김정운</p>
<p class="booknm">데이터의 보이지 않는손</p>
<p class="author">야노가즈오</p>
</body>

In [17]:
soup2.body.h1

<h1>책 정보</h1>

In [18]:
soup2.body.p

<p class="booknm">역사의역사</p>

In [26]:
soup2.body

<body>
<h1>책 정보</h1>
<p class="booknm">역사의역사</p>
<p class="author">유시민</p>
<p class="booknm">에디톨로지</p>
<p class="author">김정운</p>
<p class="booknm">데이터의 보이지 않는손</p>
<p class="author">야노가즈오</p>
</body>

In [19]:
soup2.find('p')

<p class="booknm">역사의역사</p>

In [20]:
soup2.find_all('p')

[<p class="booknm">역사의역사</p>,
 <p class="author">유시민</p>,
 <p class="booknm">에디톨로지</p>,
 <p class="author">김정운</p>,
 <p class="booknm">데이터의 보이지 않는손</p>,
 <p class="author">야노가즈오</p>]

In [21]:
soup2.find('p', 'booknm')

<p class="booknm">역사의역사</p>

In [22]:
soup2.find('p', 'author')

<p class="author">유시민</p>

In [23]:
soup2.find_all('p', 'booknm')

[<p class="booknm">역사의역사</p>,
 <p class="booknm">에디톨로지</p>,
 <p class="booknm">데이터의 보이지 않는손</p>]

In [24]:
soup2.find_all('p', 'author')

[<p class="author">유시민</p>,
 <p class="author">김정운</p>,
 <p class="author">야노가즈오</p>]

In [25]:
from bs4 import BeautifulSoup

soup2 = BeautifulSoup(html2, "lxml")

book_names   = soup2.find_all('p', 'booknm')
book_authors = soup2.find_all('p', 'author')

for b_names, b_authors in zip(book_names, book_authors):
    print(' ♣ {b_n} / {b_a} '.format(
        b_n = b_names.get_text(), 
        b_a = b_authors.get_text()
    ))

 ♣ 역사의역사 / 유시민 
 ♣ 에디톨로지 / 김정운 
 ♣ 데이터의 보이지 않는손 / 야노가즈오 
