# web_scrapping

### 웹 브라우저로 웹 사이트 접속하기

최근에는 정보통신과 인터넷 기술의 발달로 예전처럼 종이 신문이나 잡지 스크랩 대신 웹 사이트에 접속해 필요한 자료를 수집하고 정리한다. 웹 사이트의 자료를 모아서 정리하기 위해 보통은 웹 브라우저(인터넷 익스플로러, 크롬, 파이어폭스 등)를 실행해 검색 엔진으로 원하는 웹페이지르 ㄹ찾고 원하는 자료가 나오면 그것을 선택해 복사한 후, 각자 원하는 형태로 정리해 파일로 저장한다. 

수집하려는 자료의 양이 적을 때는 이렇게 수작업으로 자료를 정리해도 별 어려움이 없지만 자료의 양이 많아질수록 수작업으로 웹 사이트에서 자료를 모아서 정리하기가 매우 어렵다. 이런 일을 전문적으로 해주는 업체나 컴퓨터 프로그램도 있다.

웹 스크레이핑(Web scraping)은 컴퓨터 소프트웨어 기술을 활용해 웹사이트 내에 있는 정보를 추출하는 것이다. 파이썬에는 웹사이트에 접속해 자료를 가져오거나 처리하기 위한 다양한 패키지들이 있어서 비교적 쉽게 웹 스크레이핑을 위한 코드를 작성할 수 있다. 파이썬으로 웹 스크레이핑하는 방법을 익히고 나면 많은 양의 웹 자료를 정리하기 위해 반복적으로 수행하던 작업(웹 사이트에 접속, 자료 선택, 복사 및 붙여넣기)을 줄일 수 있다. 

### 01. 웹 브라우저로 웹 사이트 접속하기

파이썬을 이용한 웹 스크레이핑에 대해 알아보기에 앞서 먼저 파이썬으로 웹 브라우저를 열고 원하는 웹 사이트에 접속하는 방법을 살펴보자.

원하는 웹 사이트에 접속하고자 할 때 일반적으로 웹 브라우저를 실행한 후에 웹 사이트 주소를 입력하거나 북마크에 저장해놓은 링크를 클릭한다. 보통 이 방법으로 원하는 웹 사이트에 접속하지만, 지정된 웹 사이트에 반복적으로 접속하거나 여러 웹 사이트를 한 번에 접속해야할 경우 파이썬을 이용하면 빠르고 편라히가 웹사이트에 접속할 수 있다.

파이썬에서는 내장 모듈인 webbrowser를 활용하여 웹 브라우저를 열고 지정된 웹 사이트에 접속할 수 있다. 

## 하나의 웹 사이트에 접속하기

우선 웹 사이트를 하나 지정한 후에 웹 브라우저를 열어서 접속하는 방법을 살펴보자. 먼저 'import webbrowser'로 webbrowser 모듈을 불러온다. 그런 후 'webbrowser.open(url)'을 실행한다. url은 웹사이트 주소이다. 

In [2]:
# webbrowser 모듈을 이용해 국내 포털 사이트 naver에 접속하는 사례이다.
import webbrowser

url = 'www.naver.com'
webbrowser.open(url)

True

우선 웹 사이트를 하나 지정한 후에 웹 브라우저를 열어서 접속하는 방법을 살펴보자. 먼저 'import webbrowser'로 webbrowser 모듈을 불러온다. 그런 후 'webbrowser.open(url)'을 실행한다. url은 웹사이트 주소이다. 

In [None]:
# 네이버 검색사이트
import webbrowser

naver_search_url = 'https://search.naver.com/search.naver?query='
search_word = input()

url = naver_search_url + search_word

webbrowser.open_new_tab(url)

방탄소년단


True

위 코드를 실행하면 기본 웹 브라우저가 실행되면서 변수 url에 웹 사이트(www.naver.com)에 접속한다. 만약 네이버에서 특정 검색어를 입력해 결과를 얻으려면 아래와 같이 웹사이트 주소('https://www.google.com/search?q=')에 검색어를 연결해서 입력한다.

In [3]:
# 네이버 검색어 연결
import webbrowser

naver_search_url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query='
search_word = '파이썬'

url = naver_search_url + search_word
webbrowser.open_new(url)

True

In [None]:
# 구글 검색사이트
import webbrowser

google_search_url = 'https://www.google.com/search?q='
search_word = input()

url_g = google_search_url + search_word

webbrowser.open_new_tab(url_g)

방탄소년단


True

### 여러 개의 웹사이트에 접속하기 

앞에서는 하나의 웹 사이트 주소(url)을 입력해 웹 브라우저를 여는 방법을 알아보았다. 한 번에 여러 개의 웹 사이트에 접속하려면 어떻게 하면 될까? 다음과 같이 url 주소 리스트와 for문을 활용하면 가능하다.

In [None]:
import webbrowser

urls = ['www.naver.com','www.google.com','www.daum.net']

for url in urls:
    webbrowser.open_new(url)

웹 사이트에 접속하는 것 뿐만 아니라 여러 검색어의 결과를 한 번에 얻으려면 앞에서 살펴본 검색어 하나를 입력해 검색 결과를 얻은 방법을 확장해 여러 개의 검색어를 가진 리스트와 for 문을 이용한다.

In [6]:
import webbrowser

google_url = 'https://www.google.com/search?q='
search_words = ['python web scraping', 'python webbrowser']

for search_word in search_words:
    webbrowser.open_new(google_url+search_word)

웹 브라우저를 열고 원하는 웹 사이트를 접속하기 위해 webbrowser 모듈을 활용했다. 다음으로 웹 브라우저를 열지 않고 웹사이트에 접속해 원하는 정보를 가져오는 웹 스크레이핑 방법을 알아보자.

# 02 웹 스크래핑을 위한 기본지식

웹 스크레이핑을 수행하기 전에 웹 브라우저가 웹 사이트에 접속해 데이터를 가져오는 과정과 웹 페이지를 구성하는 언어인 HTML의 구조에 대해 살펴보자. 그리고 파이썬을 이용해 웹 사이트에서 HTML 파일의 소스코드를 가져오는 방법과 HTML 소스코드를 분석하는 방법도 알아보자.

## 데이터의 요청 및 응답과정 

웹 브라우저에서 포털 사이트나 검색 사이트 및 기타 웹 사이트에 접속해 검색하고 뉴스 기사를 보고 만화도 보며 동영상도 감상하고 SNS도 합니다. 이렇게 매일 사용하는 인터넷과 웹 브라우저는 어떤 과정을 거쳐 웹 사이트에 접속해 컴퓨터나 스마트폰으로 정보를 가져올까?

아래 그림은 컴퓨터에서 웹 브라우저를 통해 웹 사이트의 데이터를 가져오는 과정을 보여준다. 웹 사이트에 접속하는 컴퓨터나 스마트폰 등을 클라이언트(Client)라고 하고 웹 사이트를 운영하는 시스템을 서버(Server) 혹은 웹 서버(Web Server)라고 한다.

컴퓨터에서 웹 브라우저로 인터넷을 통해 웹 사이트(웹 서버)에 HTTP 형식으로 원하는 정보를 요청(Request)한다. 그러면 이 요청에 웹 사이트(웹 서버)가 HTTP 형식으로 응답(Response)해 HTML 파일을 보내준다. 이 HTML 파일을 컴퓨터의 웹 브라우저가 해석해 사람이 알아보기 쉬운 형태로 변환해 준다. 

즉, 웹 브라우저에 인터넷 주소를 입력하면 웹 사이트로 요청하고 그 요청을 받은 웹 사이트는 응답해 HTML 파일을 보낸다. 그것을 웹 브라우저가 사람이 보기 쉽게 해석해 보여줘서 웹 브라우저를 통해 다양한 일을 할 수 있다.

![image.png](attachment:image.png)

### HTML의 구조 

웹 스크레이핑하기 전에 먼저 웹 페이지를 구성하는 언어인 HTML에 대한 이해가 필요하다. 이 강의에서 HTML 문법에 대해 자세히 다루지는 않는다. 웹 스크레이핑에 필요한 주요 내용만 살펴보자. 

HTML 문법에 대한 설명은 관련 서적이나 인터넷에 많이 나와 있으니 참조하길 바란다. 앞에서 설명했지만, HTML은 웹 페이지의 문서를 구조적으로 표현할 수 있는 언어이다. 즉, 인터넷 상에서 웹 페이지의 문서를 만들기 위한 표준화된 언어이다.

> HTML은 구조화된 언어로 크게 Head와 몸통으로 이뤄져 있다. 내부적으로는 각 항목을 이루는 요소와 그 속성으로 구성돼 있다.
>

![image.png](attachment:image.png)

위의 HTML 소스코드에서 태그 p의 요소('<p id="id_속성값">텍스트</p>')중 시작 태그 안에 있는 속성 (id="id_속성값")은 웹 브라우저로 보는 결과에는 영향을 주지 않는다. 즉,있어도 없어도 웹 브라우저로 보는 결과는 똑같다. 

앞에서 살펴본 매직명령어 %writefile을 활용해 위의 HTML 코드를 통해 파일로 저장한다.

In [9]:
%%writefile ./\HTML_example.html 
<!doctype html>
<html>
 <head>
  <meta charset="utf-8">
  <title>이것은 HTML 예제</title>
 </head>
 <body>
  <h1>출간된 책 정보</h1>
  <p id="book_title">이해가 쏙쏙 되는 파이썬</p>
  <p id="author">홍길동</p>
  <p id="publisher">영식북스 출판사</p>
  <p id="year">2022</p>
 </body>
</html>

Overwriting ./\HTML_example.html


위 코드에서 <head> 태그 안에 <meta charset="utf-8">가 추가됐는데, 이것은 작성된 HTML 파일이 utf-8로 인코딩돼 있음을 웹 브라우저에게 알려주는 것이다.

![image-2.png](attachment:image-2.png)

HTML 코드의 id와 같은 태그의 속성은 웹 페이지에서 특정 데이터를 추출할 때 아주 중요한 정보이다. 이 속성을 이용하면 HTML 파일에서 손쉽게 원하는 데이터를 획득할 수 있다. 하지만 이렇게 유용한 속성이 모든 웹 페이지의 HTML 파일에 있는 것은 아니다. 따라서 웹 페이지에서 정보를 추출하려면 웹 페이지마다 가진 특징을 잘 분석해야 한다.

### 웹 페이지의 HTML 소스코드 갖고 오기 

웹 페이지의 HTML 소스코드를 가져오기 위한 파이썬의 내장 패키지로는 urllib가 있다. 하지만 urllib은 사용하기 불편하므로 사용하기 편한 requests 라이브러리를 이용해 HTML 소스 코드를 분석해보자.

아나콘다 설치시 이미 requests 라이브러리가 설치됐으므로 따로 설치할 필요는 없다.

In [1]:
import requests

r = requests.get('https://www.google.co.kr')
r

<Response [200]>

위의 출력 결과가 '<Response [200]>'이므로 잘 접속돼 응답 객체(r)이 반환된 것을 알 수 있다.

In [2]:
# text를 뽑아보자.
r.text[:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="zh-TW"><head><meta cont'

### HTML 소스코드를 분석하고 처리하기

HTML 소스코드를 가져온 후 HTML 코드를 분석해 원하는 데이터를 추출하는 방법을 알아보자. HTML 코드를 분석하기 위해서는 HTML 코드 구문을 이해하고 요소별로 HTML 코드를 분류해야 한다. 

위와 같은 작업을 Parsing 이라 한다. 

Parsing을 위해서는 Beautiful Soup 라이브러리를 사용하면 파싱을 좀 더 손쉽게 할 수 있다. 

In [12]:
# parsing :: HTML코드를 우리가 알아볼 수 있도록 해석해주는 것

### Beautiful Soup 라이브러리에 대한 자세한 방법은 웹 사이트(https://www.crummy.com/software/BeautifulSoup/bs4/doc)

from bs4 import BeautifulSoup

# 테스트용 html 코드
html = """<html><body><div><span>\
        <a href=http://www.naver.com>naver</a>\
        <a href=https://www.google.com>google</a>\
        <a href=http://www.daum.net/>daum</a>\
        </span></div></body></html>""" 

# BeautifulSoup를 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html, 'lxml')  # HTML 소스를 처리하기 위한 Parser이다.
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="https://www.google.com">google</a> <a href="http://www.daum.net/">daum</a> </span></div></body></html>

In [14]:
# 좀 더 보기 편하게 HTML 구조의 형태로 확인하려면 
# 아래처럼 prettify()메서드를 이용해 출력하면 된다.
print(soup.prettify())
soup.prettify()

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


'<html>\n <body>\n  <div>\n   <span>\n    <a href="http://www.naver.com">\n     naver\n    </a>\n    <a href="https://www.google.com">\n     google\n    </a>\n    <a href="http://www.daum.net/">\n     daum\n    </a>\n   </span>\n  </div>\n </body>\n</html>'

In [16]:
# a 태그의 요소들만 찾아봅시다.
soup.find('a') # 1개만 가져올때

<a href="http://www.naver.com">naver</a>

In [18]:
# 위의 코드에서 ('naver')만 얻기 위해서는 
# '요소반환결과'.get_text()를 활용한다.
soup.find('a').get_text()

'naver'

In [19]:
soup.find_all('a') # 여러 개 가져올때

[<a href="http://www.naver.com">naver</a>,
 <a href="https://www.google.com">google</a>,
 <a href="http://www.daum.net/">daum</a>]

In [20]:
# naver, google, daum의 text 추출
site_names = soup.find_all('a')

for st_name in site_names:
    print(st_name.get_text())

naver
google
daum


In [21]:
# 다른 사례를 살펴보자.
# 아래의 html2는 다른 사례이다.

html2 = """
<html>
 <head>
  <title>작품과 작가 모음</title>
 </head>
 <body>
  <h1>책 정보</h1>
  <p id="book_title">토지</p>
  <p id="author">박경리</p>
  
  <p id="book_title">태백산맥</p>
  <p id="author">조정래</p>

  <p id="book_title">감옥으로부터의 사색</p>
  <p id="author">신영복</p>
 </body>
</html>
""" 

In [23]:
# 아래의 코드도 Beatiful Soup을 활용해 HTML 코드를 파싱했다. 
# 이제 Beautiful Soup의 다양한 기능을 활용해 
# HTML 소스로부터 필요한 데이터를 추출하였다.

from bs4 import BeautifulSoup

# 원칙은 'lxml'이 존재해야 한다.
soup2 = BeautifulSoup(html2,'lxml')
print(soup2)

<html>
<head>
<title>작품과 작가 모음</title>
</head>
<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>
</html>



In [24]:
soup2.head

<head>
<title>작품과 작가 모음</title>
</head>

In [27]:
soup2.title

<title>작품과 작가 모음</title>

In [25]:
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>

In [26]:
soup2.body.h1

<h1>책 정보</h1>

In [28]:
# p코드 1개만 가져오고 싶다.
# soup2 = BeautifulSoup(html2,'lxml')
# print(soup2)

soup2.find('p') # BeautifulSoup 함수를 통해 html코드를 parsing한 결과 

<p id="book_title">토지</p>

In [None]:
# p 태그에 해당하는 내용물을 전체 추출
soup2.find_all('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

위의 결과를 보면 책 제목과 작가를 구분하지 않고 p 태그가 있는 요소를 모두 가지고 온 것을 볼 수 있다. p 태그 중 책 제목과 작가를 분리해서 가져오려면 다음처럼 find()나 find_all()을 이용할 때 '태그'뿐만 아니라 태그 내의 '속성'도 함께 지정하면 된다.

html2의 HTML 코드의 p 태그 요소 중 id가 book_title 인 속성을 갖는 첫 번째 요소만 반환하고자 한다면 아래와 같이 활용하면 된다.

In [None]:
# p 태그에 해당하는 내용물을 전체 추출
# book_title만 가져오기

soup2.find_all('p',{'id':'book_title'})

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [None]:
# p 태그에 해당하는 내용물을 전체 추출
# author만 가져오기

soup2.find_all('p',{'id':'author'})

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [None]:
from bs4 import BeautifulSoup

# 원칙은 'lxml'이 존재해야 한다.
soup2 = BeautifulSoup(html2,'lxml')

book_titles = soup2.find_all('p',{'id':'book_title'})
authors = soup2.find_all('p',{'id':'author'})

for book, author in zip(book_titles, authors):
    print(book.get_text()+'::'+ author.get_text())

토지::박경리
태백산맥::조정래
감옥으로부터의 사색::신영복


HTML 소스에서 원하는 요소를 찾기 위해 find() 혹은 find_all()을 이용했다. 또 다른 방법으로는 CSS 선택자(selector)를 이용하는 것이다. CSS 선택자는 CSS에서 원하는 요소를 선택하는 것으로써 파이썬 뿐 아니라 다른 프로그래밍 언어에서도 HTML 소스를 처리할 때 많이 이용한다. Beautiful Soup도 'BeautifulSoup.select('태그 및 속성')'을 통해서 CSS 선택자를 지원한다. 

##### 앞의 html2 변수에 할당된 HTML 소스에서 body 태그 요소 내에 h1 태그 요소를 갖고 오려면 아래와 같이 하면 된다.

In [35]:
soup2.select('body h1')

[<h1>책 정보</h1>]

In [36]:
soup2.select('body p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [37]:
soup2.select('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

만약 태그 안의 속성이 class인 경우'태그.class_속성값'으로 입력하고 속성이 id인 경우에는 '태그#id_속성값'으로 입력해 추출할 수 있다. 앞의 예에서 p 태그 안에 있는 속성이 id이므로 p#id_속성값'으로 원하는 요소를 추출해보자.

만약 책 제목만 뽑고 싶다면 'id_속성값'을 book_title로 지정하고 저자 정보만 뽑고 싶다면 'id_속성값'을 author로 지정하면 된다.

In [38]:
soup2.select('p#book_title')

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [39]:
soup2.select('p#author')

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [None]:
# %%writefile C:\Users\ASIA-26\HTML_example_my_site.html 

In [32]:
%%writefile ./HTML_example_my_site.html 

<!doctype html>
<html>
  <head>
    <meta charset="utf-8">
    <title>사이트 모음</title>
  </head>
  <body>
    <p id="title"><b>자주 가는 사이트 모음</b></p>
    <p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
    <a href="http://www.naver.com" class="portal" id="naver">네이버</a> <br>
    <a href="https://www.google.com" class="search" id="google">구글</a> <br>
    <a href="http://www.daum.net" class="portal" id="daum">다음</a> <br>
    <a href="http://www.nl.go.kr" class="government" id="nl">국립중앙도서관</a>
  </body>
</html>

Overwriting ./HTML_example_my_site.html


In [33]:
f = open('.//HTML_example_my_site.html', encoding = 'utf-8')

html3 = f.read()
f.close()

from bs4 import BeautifulSoup

soup3 = BeautifulSoup(html3, 'lxml')
soup3

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<title>사이트 모음</title>
</head>
<body>
<p id="title"><b>자주 가는 사이트 모음</b></p>
<p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
<a class="portal" href="http://www.naver.com" id="naver">네이버</a> <br/>
<a class="search" href="https://www.google.com" id="google">구글</a> <br/>
<a class="portal" href="http://www.daum.net" id="daum">다음</a> <br/>
<a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>
</body>
</html>

In [41]:
soup3.select('a')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>,
 <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [42]:
soup3.select('a.portal')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>]

In [43]:
soup3.select('a#nl')

[<a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [None]:
# end of file 