# Crawling & Scraping

## 1. 웹사이트 접속

### 1) 웹 사이트(Naver)에 접속하기

In [1]:
import webbrowser

url = "www.naver.com"
webbrowser.open(url)

True

### 2) 네이버에서 특정 검색어('파이썬)를 입력해서 결과 얻기

In [3]:
naver_search_url = 'https://search.naver.com/search.naver?query='
search_word = '파이썬'
url = naver_search_url + search_word

webbrowser.open_new(url)

True

### 2-1) 구글(google)에서도 검색을 위한 웹사이트 주소와 검색어를 
###        연결해서 입력하면 검색 결과 출력

In [2]:
import webbrowser

google_url = 'www.google.com/search?q='
search_word = 'python'
url = google_url + search_word

webbrowser.open_new(url)

True

### 3) 여러 개의 웹 사이트 접속하기

In [3]:
import webbrowser

urls = ['www.naver.com', 'www.daum.net', 'www.google.com']

for url in urls :
    webbrowser.open_new(url)

### 4) 여러 개의 단어 검색 결과 출력

In [4]:
import webbrowser

google_url = 'www.google.com/search?q='
search_words = ['python web scraping', 'python webbrowser']

for search_word in search_words:
    webbrowser.open_new(google_url + search_word)

## 2. Web Scraping[기본]

### 1) 데이터의 요청과 응답 과정

####  -  HTML 생성

In [6]:
%%writefile C:\Web_Crawling\HTML_example.html
<!doctype html>
<html>
<head>
<meta charset = 'utf-8'>
<title> HTML Example </title>
</head>
<body>
<h1> book information</h1>
<p id = 'book_title'>이해가 쏙쏙 되는 파이썬</p>
<p id = 'author'>홍길동</p>
<p id = 'publisher'>위키북스 출판사</p>
<p id = 'year'>2021</p>
</body>
</html>

Writing C:\Web_Crawling\HTML_example.html


#### - HTML 생성2

In [11]:
%%writefile C:\Web_Crawling\HTML-example2.html
<!doctype html>
<html>
<head>
<meta charset = 'utf-8'>
<title> HTML Example2 </title>
</head>
<body>
<h1> Boook Information </h1>
<p>이해가 쏙쏙 되는 파이썬 </p>
<p>홍길동</p>
<p>위키북스 출반사</p>
<p>2021</p>
</body>
</html>

Writing C:\Web_Crawling\HTML-example2.html


### 2) 웹 페이지의 HTML Source 가져오기

#### - 구글 웹페이지(www.google.co.kr)의 소스코드

In [7]:
import requests 

r = requests.get('https://www.google.co.kr')
r

<Response [200]>

#### - request 객체 잘 가져왔는지 확인(HTML 파일 내용 일부 출력해보기)

In [8]:
r.text[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

#### - 한번에 수행(소스코드 가져와서 일부 출력해보기)

In [10]:
import requests

html = requests.get('https://www.google.co.kr').text
html[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

## 3. HTML 소스코드 분석 및 처리

### 1) 데이터 찾고 추출하기

#### - HTML 코드를 분석해 원하는 데이터를 추출하는 방법
#### - HTML 코드를 분석하기 위해서는 코드 구문을 이해하고 요소별로 분류
#### - Beautiful Soup 라이브러리를 이용해 HTML 소스를 파싱하고 원하는 데이터 추출

In [13]:
from bs4 import BeautifulSoup

# test용 htmlzhem
html = """<html><body><div><span>\
        <a href = http://www.naver.com>naver</a>\
        <a href = https://www.google.com>google</a>
        <a href = http://www.daum.net>daum</a>\
        </span></div></body></html>"""

# Beautiful Soup을 이용해 HTML 소스 파싱
soup = BeautifulSoup(html, 'lxml')
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="https://www.google.com">google</a>
<a href="http://www.daum.net">daum</a> </span></div></body></html>

In [15]:
# 파싱 결과를 가독성을 높여서 HTML 구조 형태로 확인

print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


#### - 파싱한 결과에서 BeautifulSoup.fin('태그') 수행
#### - HTML 소스코드에서 해당 '태그'가 있는 첫 번째 요소를 찾아서 return

In [16]:
soup.find('a')

<a href="http://www.naver.com">naver</a>

#### - `get_text()` :HTML 소스코드의 요소에서 태그와 속성을 제거, text 문자열 return
#### - 원하는 HTML 요소를 가져온 후 마지막 단계에서 요소의 텍스트 부분만 추출할 때 이용

In [17]:
soup.find('a').get_text()

'naver'

#### - `BeautifulSoup.find_all()`: HTML 코드 안에서 모든 해당 태그를 찾고 해당 태그로 시작하는 모든 요소를 모두 return

In [18]:
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="https://www.google.com">google</a>,
 <a href="http://www.daum.net">daum</a>]

#### - 태그 이름의 모든 요소를 return하는 `find_all()`의 결과는 **list**형식
#### - for문을 이용해 항목별로 `get_text()`를 적용

In [19]:
site_names = soup.find_all('a')
for site_name in site_names :
    print(site_name.get_text())

naver
google
daum


#### - HTML 파일을 작성한 후 html2 변수에 할당

In [20]:
from bs4 import BeautifulSoup

html2 = """
<html>
<head>
<title>작품과 작가 모음</title>
</head>
<body>
<h1>책 정보</h1>
<p id = 'book_title'>토지</p>
<p id = 'author'>박경리</p>

<p id = 'book_title'>태백산맥</p>
<p id = 'author'>조정래</p>

<p id = 'book_title'>감옥으로부터의 사색</p>
<p id = 'author'>신영복</p>
</body>
</html>
"""

soup2 = BeautifulSoup(html2, 'lxml')

#### - Beautiful Soup의 다양한 기능을 활용하여 HTML 소스로부터 필요한 데이터 추출
#### - HTML 소스에서 title 태그의 요소는 `BeautifulSoup.title`을 이용해서 가져옴

In [21]:
soup2.title

<title>작품과 작가 모음</title>

#### - HTML 소스의 body 태그의 요소는 `BeautifulSoup.body`를 이용해서 가져옴

In [22]:
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>

#### - body 태그 요소 내에 h1 태그의 요소는 `BeautifulSoup.body.h1`으로 가져옴

In [23]:
soup2.body.h1

<h1>책 정보</h1>

#### - `find_all()`을 이용
#### - 변수 html2에 있는 HTML 소스코드에서 p태그가 들어 간 요소 모두 가져오기

In [25]:
soup2.find_all('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

#### - p 태그 중 책 제목과 작가를 분리해서 가져오기 위해 `find()`나 `find_all()` 이용
#### - '태그'뿐 아니라 태그 내의 '속성'도 함께 지정
#### - `BeautifulSoup.find_all('태그', '속성')`
#### - `BeautifulSoup.find('태그', '속성')`

#### - html2에서 p 태그 요소 중 id가 book_title인 속성을 갖는 첫 번째 요소 return

In [26]:
soup2.find('p',{'id':'book_title'})

<p id="book_title">토지</p>

#### - p태그 요소 중 id가 author인 속성을 갖는 첫 번째 요소 return

In [27]:
soup2.find('p',{'id':'author'})

<p id="author">박경리</p>

#### - 조건을 만족하는 요소 전체 return

In [28]:
soup2.find_all('p', {'id':'book_title'})

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [29]:
soup2.find_all('p',{'id':'author'})

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

#### - 책 제목과 작가를 포함한 요소를 추출한 후 텍스트만 가져오기

In [30]:
from bs4 import BeautifulSoup

soup2 = BeautifulSoup(html2, 'lxml')

book_titles = soup2.find_all('p',{'id':'book_title'})
authors = soup2.find_all('p', {'id':'author'})

for book_title, author in zip(book_titles, authors):
    print(book_title.get_text()+ '/' + author.get_text())

토지/박경리
태백산맥/조정래
감옥으로부터의 사색/신영복


#### - CSS 선택자(selector)를 이용
#### - CSS 선택자는 CSS에서 원하는 요소를 선택. 다른 프로그래밍 언어에서도 HTML 소스를 처리할 때 많이 이용

#### - `BeautifulSoup.select('태그 및 속성')` : CSS 선택자를 지원
#### - `BeautifulSoup.select()`인자로 '태그 및 속성'을 단계적으로 입력해서 원하는 요소 찾기

#### - html2 변수에 할당된 HTML 소스에서 body 태그 내 h1 태그 요소 추출

In [31]:
soup2.select('body h1')

[<h1>책 정보</h1>]

#### - body 요소 중 p 태그를 포함한 요소 모두 추출

In [32]:
soup2.select('body p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

#### - p 태그는 body 태그 요소 내에만 있으므로 인자에 'p'만 입력해도 같은 결과 출력

In [33]:
soup2.select('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

#### - 태그 안의 속성과 속성값을 이용해 요소를 세밀하게 구분해서 추출 가능
#### - 태그 안의 속성이 class인 경우 `태그.class_속성값`으로 입력
#### - 속성이 id인 경우 `태그#id_속성값`으로 입력


#### - p태그 안 속성이 id이므로 id가 book_title인 요소 추출하기

In [34]:
soup2.select('p#book_title')

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [35]:
soup2.select('p#author')

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

#### - class 속성이 있는 HTML 소스 생성

In [36]:
%%writefile c:/Web_Crawling/HTML_example_my_site.html
<!doctype html>
<html>
<head>
<meta charset = 'utf-8'>
<title>사이트 모음</title>
</head>
<body>
<p id = 'title'><b>자주 가는 사이트 모음</b></p>
<p id = 'contents'>이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
<a href = 'http://www.naver.com' class = 'portal' id = 'naver'>네이버</a><br>
<a href = 'https://www.google.com' class = 'search' id = 'google'>구글</a><br>
<a href = 'http://www.daum.net' class = 'portal' id = 'daum'>다음</a><br>
<a href = 'http://www.nl.go.kr' class = 'government' id='nl'>국립중앙도서관</a>
</body>
</html>

Writing c:/Web_Crawling/HTML_example_my_site.html


#### - 태그 안의 속성이 class인 경우
#### - `태그.class_속성값`으로 원하는 요소를 추출
#### - 파일 읽어와서 변수 html3에 할당

In [37]:
f = open('C:/Web_Crawling/HTML_example_my_site.html', encoding = 'utf-8')

html3 = f.read()
f.close()

soup3 = BeautifulSoup(html3, 'lxml')

#### - 읽어온 HTML 소스에서 태그가 a인 요소 모두 가져오기

In [38]:
soup3.select('a')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>,
 <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

#### - HTML 소스에서 태그가 a이면서 class 속성값이 'portal'인 요소만 가져오기

In [39]:
soup3.select('a.portal')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>]

### 2) 웹 브라우저의 요소 검사

#### - `soup3.select('html body a')`
#### - `soup3.select('body a')`
#### - `soup3.select('html a')`
#### - `soup3.select('a')`

#### - HTML 소스에서 id 속성이 naver인 요소 선택

In [40]:
soup3.select('a#naver')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>]