## 웹 스크레이핑을 위한 기본 지식 
### 웹 페이지의 HTML 소스 갖고 오기

In [2]:
import requests

In [3]:
url = "http://www.naver.com"
html = requests.get(url)
html

<Response [200]>

In [4]:
html.text[0:500]

'<!doctype html>\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n<html lang="ko">\n<head>\n<meta charset="utf-8">\n<meta name="Referrer" content="origin">\n<meta http-equiv="Content-Script-Type" content="text/javascript">\n<meta http-equiv="Content-Style-Type" content="text/css">\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n<meta name="viewport" content="width=1100">\n<meta name="apple-mobile-web-app-title" content="NAVER" />\n<meta name="robots" content="index,nofollow"/>\n<meta name="description" content="네이버 메인에서 다양한 정보와 유용'

In [5]:
type(html)

requests.models.Response

In [6]:
type(html.text)

str

### HTML 소스코드를 분석하고 처리하기
#### 데이터 찾고 추출하기

In [8]:
from bs4 import BeautifulSoup

html= """
<html>
<body>
<div>
<span>
    <a href=http://www.naver.com>네이버</a>
    <a href=http://www.google.com>구글</a>
    <a href=http://www.daum.net>다음</a>
</span>
</div></body></html>
"""

In [9]:
#BeautifulSoup를 이용해 HTML소스를 파싱하는 방법
soup = BeautifulSoup(html, 'lxml')
soup

<html>
<body>
<div>
<span>
<a href="http://www.naver.com">네이버</a>
<a href="http://www.google.com">구글</a>
<a href="http://www.daum.net">다음</a>
</span>
</div></body></html>

In [10]:
print(soup.prettify()) #이름 참.....

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     네이버
    </a>
    <a href="http://www.google.com">
     구글
    </a>
    <a href="http://www.daum.net">
     다음
    </a>
   </span>
  </div>
 </body>
</html>



In [11]:
soup.find('a') #처음 것이 나온다!

<a href="http://www.naver.com">네이버</a>

In [12]:
soup.find('a').get_text() #text만 추출 

'네이버'

In [13]:
soup.find_all('a') #이제 다 나온다 

[<a href="http://www.naver.com">네이버</a>,
 <a href="http://www.google.com">구글</a>,
 <a href="http://www.daum.net">다음</a>]

In [14]:
site_names = soup.find_all('a')
site_names

[<a href="http://www.naver.com">네이버</a>,
 <a href="http://www.google.com">구글</a>,
 <a href="http://www.daum.net">다음</a>]

In [15]:
for site_name in site_names:
    print(site_name.get_text())

네이버
구글
다음


In [16]:
from bs4 import BeautifulSoup

#테스트옹 html코드 
html2 = """
<html>
 <head>
  <title>작품과 작가 모음</title>
 </head>
 <body>
  <h1>책 정보</h1>
  <p class="booknm">역사의역사</p>
  <p class="author">유시민</p>
  
  <p class="booknm">에디톨로지</p>
  <p class="author">김정운</p>

  <p class="booknm">데이터의 보이지 않는손</p>
  <p class="author">야노가즈오</p>
 </body>
</html>
"""

In [17]:
soup2 = BeautifulSoup(html2, 'lxml')
soup2.title

<title>작품과 작가 모음</title>

In [18]:
soup2.body

<body>
<h1>책 정보</h1>
<p class="booknm">역사의역사</p>
<p class="author">유시민</p>
<p class="booknm">에디톨로지</p>
<p class="author">김정운</p>
<p class="booknm">데이터의 보이지 않는손</p>
<p class="author">야노가즈오</p>
</body>

In [19]:
soup2.body.h1

<h1>책 정보</h1>

In [20]:
soup2.body.p #처음 것이 나온다 

<p class="booknm">역사의역사</p>

In [21]:
soup2.find('p') #위의 것과 같다-

<p class="booknm">역사의역사</p>

In [22]:
soup2.find_all('p') #전체 다 가져오기 

[<p class="booknm">역사의역사</p>,
 <p class="author">유시민</p>,
 <p class="booknm">에디톨로지</p>,
 <p class="author">김정운</p>,
 <p class="booknm">데이터의 보이지 않는손</p>,
 <p class="author">야노가즈오</p>]

In [23]:
soup2.find('p', 'booknm') #역시나 첫번째 것 

<p class="booknm">역사의역사</p>

In [24]:
soup2.find('p', 'author') #역시나 첫번째 것만 나온다 

<p class="author">유시민</p>

In [26]:
#find_all을 써야 다 나온다
soup2.find_all('p', 'booknm')

[<p class="booknm">역사의역사</p>,
 <p class="booknm">에디톨로지</p>,
 <p class="booknm">데이터의 보이지 않는손</p>]

In [27]:
soup2.find_all('p', 'author')

[<p class="author">유시민</p>,
 <p class="author">김정운</p>,
 <p class="author">야노가즈오</p>]

In [28]:
from bs4 import BeautifulSoup

soup2 = BeautifulSoup(html2, 'lxml')

book_names = soup2.find_all('p', 'booknm')
book_authors = soup2.find_all('p', 'author')

for b_names, b_authors in zip(book_names, book_authors):
    print(' ♣ {b_n} / {b_a} '.format(
    b_n = b_names.get_text(),
    b_a = b_authors.get_text(),
    ))

 ♣ 역사의역사 / 유시민 
 ♣ 에디톨로지 / 김정운 
 ♣ 데이터의 보이지 않는손 / 야노가즈오 
