# 웹 스크레이핑

## 웹 브라우저로 웹 사이트 접속하기
### 하나의 웹 사이트에 접속하기
- 사이트를 하나 지정한 후에 웹 브라우저를 열어서 접속하는 방법

In [2]:
import webbrowser

url = 'www.naver.com'
webbrowser.open(url, new=0)

True

- 네이버에서 특정 검색어를 입력해 결과 얻기

In [3]:
naver_search_url = "http://search.naver.com/search.naver?query="
search_word = '파이썬'
url = naver_search_url+search_word

webbrowser.open_new(url)

True

- 구글에서도 검색을 위한 웹 사이트 주소와 검색어를 연결할 수 있음

In [4]:
google_url = "www.google.com/search?q="
search_word = 'python'
url = google_url + search_word
webbrowser.open_new(url)

True

### 여러 개의 웹 사이트에 접속하기

- url 주소 리스트와 for 문을 이용

In [5]:
urls = ['www.naver.com', 'www.daum.net', 'www.google.com']
for url in urls:
    webbrowser.open_new(url)

- 여러 단어 리스트와 for 문 이용

In [6]:
google_url = "www.google.com/search?q="
search_words = ['python web scraping', 'python webbrowser']
for search_word in search_words:
    webbrowser.open_new(google_url+search_word)

# 웹 스크레이핑을 위한 기본 지식
## 데이터의 요청과 응답 과정
### HTML의 기본 구조

- HTML생성

In [7]:
%%writefile C:\Myexam\HTML_example.html
<!doctype html>
<html>
 <head>
  <meta charset='utf-8'>
  <title> 이것은 HTML예제</title>
</head>
<body>
 <h1>출간된 책 정보</h1>
 <p id="book_title">이해가 쏙쏙 되는 파이썬</p>
 <p id="author">홍길동</p>
 <p id="publisher">위키북스 출판사</p>
 <p id="year">2018</p>
</body>
</html>

Writing C:\Myexam\HTML_example.html


In [8]:
%%writefile C:/Myexam/HTML_example2.html
<!doctype html>
<html>
 <head>
  <meta charset="utf-8">
  <title>이것은 HTML 예제</title>
 </head>
 <body>
  <h1>출간된 책 정보</h1>
  <p>이해가 쏙쏙 되는 파이썬</p>
  <p>홍길동</p>
  <p>위키북스 출판사</p>
  <p>2018</p>
 </body>
</html>

Writing C:/Myexam/HTML_example2.html


### 웹 페이지의 HTML소스 갖고 오기
- 구글 웹 페이지 소스코드

In [9]:
import requests

r = requests.get('https://www.google.co.kr')
r

<Response [200]>

- 응답 객체를 잘 가져왔는지 확인, HTML파일 일부분 출력

In [11]:
r.text[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

- 한번에 수행 가능

In [12]:
html = requests.get("https://www.google.co.kr").text
html[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

## HTML 소스코드를 분석하고 처리하기
### 데이터 찾고 추출하기

- HTML 코드를 분석해 원하 는 데이터를 추출하는 방법
- HTML 코드를 분석하기 위해서는 HTML 코드 구문을 이해하고 요소별로 HTML 코드를 분류
- Beautiful Soup 라이브 러리를 이용해 HTML 소스를 파싱하고
- 태그나 속성을 통해 원하는 데이터를 추출

In [13]:
from bs4 import BeautifulSoup

# 테스트용 html 코드
html = """<html><body><div><span>\
    <a href=http://www.naver.com>naver</a>\
    <a href=https://www.google.com>google</a>\
    <a href=http://www.daum.net/>daum</a>\
    </span></div></body></html>"""

# BeautifulSoup를 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html, 'lxml')
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="https://www.google.com">google</a> <a href="http://www.daum.net/">daum</a> </span></div></body></html>

파싱 결과를 좀 더 보기 편하게 HTML 구조의 형태로 확인

In [14]:
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>



- 파싱한 결과에서 BeautifulSoup.find('태그')를 수행하면
- HTML 소스코드에서 해당 '태그'가 있는 첫 번째 요소를 찾아서 반환

In [15]:
soup.find('a')

<a href="http://www.naver.com">naver</a>

- get_text()는 HTML 소스코드의 요소에서 태그와 속성을 제거하고 텍스트 문자열만 반환
- get_text()는 원하는 HTML 요소를 가져온 후에 마지막 단계에서 요소 의 텍스트 부분만 추출할 때 이용

In [16]:
soup.find('a').get_text()

'naver'

- HTML 코드안의 모든 a 태그를 찾아서 a 태그로 시작하는 모든 요소를 다 반환하려면
- BeautifulSoup.find_all('태그')를 이용

In [17]:
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="https://www.google.com">google</a>,
 <a href="http://www.daum.net/">daum</a>]

- 태그 이름의 모든 요소를 반환하는 find_all()의 결과는 리스트 형태로 반환
- get_text()는 리스트에 적용할 수 없으므로 for문을 이용해 항목별로 get_text()를 적용

In [18]:
site_names = soup.find_all('a')

for site_name in site_names:
    print(site_name.get_text())

naver
google
daum


- HTML 파일을 작성한 후에 html2 변수에 할당

In [19]:
# 테스트용 HTML 코드
html2 = """
<html>
 <head>
  <title>작품과 작가 모음</title>
 </head>
 <body>
  <h1>책 정보</h1>
  <p id="book_title">토지</p>
  <p id="author">박경리</p>
  <p id="book_title">태백산맥</p>
  <p id="author">조정래</p>
  <p id="book_title">감옥으로부터의 사색</p>
  <p id="author">신영복</p>
 </body>
</html>
"""

soup2 = BeautifulSoup(html2, 'lxml')

In [20]:
soup2.title

<title>작품과 작가 모음</title>

- HTML 소스의 body 태그의 요소는 'BeautiMSoup.body'를 이용해 가져올 수 있음

In [21]:
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>

- body 태그 요소 내에 h1태그의 요소는 'BeautifulSoup.body.h1'로 가져올 수 있음

In [22]:
soup2.body.h1

<h1>책 정보</h1>

변수 html2에 있는 HTML 소스코드에서 p 태그가 들어 간 요소를 모두 가져올 수 있음

In [23]:
soup2.find_all('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]