## 하나의 웹 사이트에 접속하기

In [1]:
# 사이트를 하나 지정한 후에 웹브라우저 열어서 접속하는 방법

import webbrowser

url = "www.naver.com"
webbrowser.open(url)

True

In [2]:
# 네이버에서 특정 검색어를 입력해 결과 얻기

import webbrowser
naver_search_url = "http://search.naver.com/search.naver?query="
search_word = '파이썬'
url = naver_search_url + search_word
webbrowser.open_new(url)

True

In [3]:
# 구글(Google)에서도 특정 검색어 입력해 결과 얻기

import webbrowser

google_url = "www.google.com/search?q="
search_word = 'python'
url = google_url + search_word

webbrowser.open_new(url)

True

## 여러 개의 웹 사이트에 접속하기

In [4]:
# url 주소 리스트와 for문을 이용

import webbrowser

urls = ["www.naver.com", "www.daum.net", "www.google.com"]

for url in urls:
    webbrowser.open_new(url)

In [5]:
# 여러 단어 리스트와 for문 이용

import webbrowser

google_url = "www.google.com/search?q="
search_words = ['python web scraping', 'python webbrowser']

for search_word in search_words:
    webbrowser.open_new(google_url + search_word)

## 웹 스크레이핑을 위한 기본 지식
### 데이터의 요청과 응답 과정
### HTML의 기본 구조
- HTML 생성

In [6]:
%%writefile C:\Myexam\HTML_example.html
<!doctype html>
<html>
    <head>
        <meta charset="utf-8">
        <title>이것은 HTML 예제</title>
    </head>
    <body>
        <h1>출간된 책 정보</h1>
        <p id="book_title">이해가 쏙쏙 되는 파이썬</p>
        <p id="author">홍길동</p>
        <p id="publisher">위키북스 출판사</p>
        <p id="year">2018<p>
    </body>
</html>

Writing C:\Myexam\HTML_example.html


In [7]:
%%writefile C:\Myexam\HTML_example2.html
<!doctype html>
<html>
    <head>
        <meta charset="utf-8">
        <title>이것은 HTML 예제</title>
    </head>
    <body>
        <h1>출간된 책 정보</h1>
        <p>이해가 쏙쏙 되는 파이썬</p>
        <p>홍길동</p>
        <p>위키북스 출판사</p>
        <p>2018<p>
    </body>
</html>

Writing C:\Myexam\HTML_example2.html


## 웹 페이지의 HTML 소스 갖고 오기

In [8]:
import requests

r = requests.get("https://www.google.co.kr")
r

<Response [200]>

In [9]:
r.text[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

In [10]:
# 한 번에 수행 가능

import requests

html = requests.get("https://www.google.co.kr").text
html[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

## HTML 소스코드를 분석하고 처리하기
### 데이터 찾고 추출하기
- HTML 코드를 분석해 원하는 데이터를 추출하는 방법
- HTML 코드를 분석하기 위해서는 HTML 코드 구문을 이해하고 요소별로 HTML 코드를 분류
- BeautifulSoup 라이브러리를 이용해 HTML 소스를 파싱하고 태그나 속성을 통해 원하는 데이터를 추출

In [11]:
from bs4 import BeautifulSoup

# 테스트용 html 코드
html = """<html><body><div><span>\
        <a href=http://www.naver.com>naver</a>\
        <a href=https://www.google.com>google</a>\
        <a href=http://www.daum.net/>daum</a>\
        </span></div></body></html>"""

# BeautifulSoup를 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html, 'lxml')
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="https://www.google.com">google</a> <a href="http://www.daum.net/">daum</a> </span></div></body></html>

- 파싱 결과를 좀 더 보기 편하게 HTML 구조의 형태로 확인

In [12]:
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


- 파싱한 결과에서 BeautifulSoup.find('태그')를 수행하면 HTML 소스코드에서 해당 '태그'가 있는 첫 번째 요소를 찾아서 반환

In [13]:
soup.find('a')

<a href="http://www.naver.com">naver</a>

- get_text()는 HTML 소스코드의 요소에서 태그와 속성을 제거하고 텍스트 문자열만 반환
- get_text()는 원하는 HTML 요소를 가져온 후에 마지막 단계에서 요소의 텍스트 부분만 추출할 때 이용

In [14]:
soup.find('a').get_text()

'naver'

- HTML 코드 안의 모든 a 태그를 찾아서 a 태그로 시작하는 모든 요소를 다 반환하려면 BeautifulSoup.find_all('태그')를 이용

In [15]:
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="https://www.google.com">google</a>,
 <a href="http://www.daum.net/">daum</a>]

- 태그 이름의 모든 요소를 반환하는 find_all()의 결과는 리스트 형태로 반환
- get_text()는 리스트에 적용할 수 없으므로 for문을 이용해 항목별로 get_text()를 적용


In [16]:
site_names = soup.find_all('a')
for site_name in site_names:
    print(site_name.get_text())

naver
google
daum


In [17]:
# HTML 파일을 작성한 후에 html2 변수에 할당

from bs4 import BeautifulSoup

html2 = """
<html>
    <head>
        <title>작품과 작가 모음</title>
    </head>
    <body>
        <h1>책 정보</h1>
        <p id="book_title">토지</p>
        <p id="author">박경리</p>
        
        <p id="book_title">태백산맥</p>
        <p id="author">조정래</p>
        
        <p id="book_title">감옥으로부터의 사색</p>
        <p id="author">신영복</p>
    </body>
</html>
"""

soup2 = BeautifulSoup(html2, "lxml")

- BeautilfupSoup의 다양한 기능을 활용해 HTML 소스로부터 필요한 데이터를 추출
- HTML 소스에서 title 태그의 요소는 'BeautifulSoup.title'을 이용해 가져올 수 있음


In [18]:
soup2.title

<title>작품과 작가 모음</title>

In [19]:
# HTML 소스의 body 태그의 요소는 'BeautiMSoup.body'를 이용해 가져올 수 있음

soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>

In [20]:
# body 태그 요소 내에 h1 태그의 요소는 'BeautifulSoup.body.h1'로 가져올 수 있음

soup2.body.h1

<h1>책 정보</h1>

In [21]:
soup2.find_all('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

- p 태그 중 책 제목과 작가를 분리해서 가져오려면 find()나 find_all()을 이용할 때 '태그' 뿐만 아니라 태그 내의 '속성'도 함께 지정

- BeautifulSoup.find_all('태그', '속성')
- BeautifulSoup.find('태그', '속성')

In [22]:
# html2의 HTML 코드의 p 태그 요소 중 id가 book_title인 속성을 갖는 첫 번째 요소만 반환

soup2.find('p', {"id":"book_title"})

<p id="book_title">토지</p>

In [23]:
# p 태그 요소 중 id가 author인 속성을 갖는 첫 번째 요소만 반환

soup2.find('p', {"id":"author"})

<p id="author">박경리</p>

In [24]:
# 조건을 만족하는 요소 전체를 가지고 오려면 find_all()을 이용

soup2.find_all('p', {"id":"book_title"})

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [25]:
soup2.find_all('p', {"id":"author"})

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

- 책 제목과 작가를 포함한 요소를 각각 추출한 후에 텍스트만 뽑는 코드

In [26]:
from bs4 import BeautifulSoup

soup2 = BeautifulSoup(html2, "lxml")

book_titles = soup2.find_all('p', {"id":"book_title"})
authors = soup2.find_all('p', {"id":"author"})

for book_title, author in zip(book_titles, authors):
    print(book_title.get_text() + '/' + author.get_text())

토지/박경리
태백산맥/조정래
감옥으로부터의 사색/신영복


- CSS 선택자(selector)를 이용
- CSS 선택자는 CSS에서 원하는 요소를 선택하는 것으로써 파이썬뿐만 아니라 다른 프로그래밍 언어에서도 HTML 소스를 처리할 때 많이 이용
- BeautifulSoup도 'BeautifulSoup.select('태그 및 속성')를 통해 CSS 선택자를 지원
- 'BeautifulSoup.select()'의 인자로 '태그 및 속성'을 단계적으로 입력하면 원하는 요소를 찾을 수 있음
- html2 변수에 할당된 HTML 소스에서 body 태그 요소 내에 M 태그 요소를 가지고 오기

In [27]:
soup2.select('body h1')

[<h1>책 정보</h1>]

In [28]:
# body 태그 요소 중에 p 태그를 포함한 요소를 모두 갖고 오기

soup2.select('body p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [29]:
# 변수 html2의 HTML 소스에서 p 태그는 body 태그 요소 내에서만 있음

soup2.select('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [30]:
# 태그안의 속성과 속성값을 이용해 요소를 세밀하게 구분해 추출
# 태그 안의 속성이 class인 경우 '태그.class_속성값'으로 입력하고
# 속성이 id인 경우에는 '태그#id_속성값'으로 입력해 추출

# 태그 안에 있는 속성이 id이므로 'p#id_속성값'으로 원하는 요소를 추출

soup2.select('p#book_title')

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [31]:
soup2.select('p#author')

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

- class 속성이 있는 HTML 소스

In [32]:
%%writefile C:/Myexam/HTML_example_my_site.html
<!doctype html>
<html>
    <head>
        <meta charset="utf-8">
        <title>사이트 모음</title>
    </head>
    <body>
        <p id="title"><b>자주 가는 사이트 모음</b></p>
        <p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
        <a href="http://www.naver.com" class="portal" id="naver">네이버</a><br>
        <a href="https://www.google.com" class="search" id="google">구글</a><br>
        <a href="http://www.daum.net" class="portal" id="daum">다음</a<br>
        <a href="http://www.nl.go.kr" class="goverment" id="nl">국립중앙도서관</a></br>
    </body>
</html>

Writing C:/Myexam/HTML_example_my_site.html


- 'BeautifulSoup.select('태그 및 속성')'에서 태그 안의 속성이 class인 경우
- '태그.class_속성값'으로 원하는 요소를 추출
- HTML 소스 파일은 이미 저장돼 있으므로 텍스트 파일을 읽어와서 변수 html3에 할당


In [33]:
f = open('C:/Myexam/HTML_example_my_site.html', encoding='utf-8')

html3 = f.read()
f.close()

soup3 = BeautifulSoup(html3, 'lxml')

In [34]:
# 읽어온 HTML 소스에서 태그가 a인 요소를 모두 가져오기

soup3.select('a')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>,
 <a class="goverment" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

- HTML 소스에서 태그가 a이면서 class 속성값이 "portal"인 요소만 가져오기

In [36]:
soup3.select('a.portal')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>]

### 웹 브라우저의 요소 검사

- soup3.select('html body a')
- soup3.select('body a')
- soup3.select('html a')
- soup3.select('a')

In [37]:
# 'BeautifulSoup.select('태그 및 속성')'의 인자로 a만 입력해 태그 a를 포함하는 모든 요소를 추출

soup3.select('a')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>,
 <a class="goverment" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [38]:
# HTML 소스에서 태그 a를 포함하는 요소 중 class 속성이 "portal"인 요소만 선택

soup3.select('a.portal')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>]

In [39]:
# 태그를 포함하는 요소 중 id 속성이 "naver"인 요소를 선택

soup3.select("a#naver")

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>]

### 줄 바꿈으로 가독성 높이기
- HTML 소스 코드를 파일 ('br_example_constitution.html')로 저장

In [40]:
%%writefile C:/Myexam/br_example_constitution.html
<!doctype html>
<html>
    <head>
        <meta charset="utf-8">
        <title>줄 바꿈 테스트 예제</title>
    </head>
    <body>
    <p id="title"><b>대한민국헌법</b></p>
    <p id="content">제1조 <br/>①대한민국은 민주공화국이다. <br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다. </p>
    <p id="content">제2조 <br/>①대한민국의 국민이 되는 요건은 법률로 정한다. <br/>②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.</p>
    </body>
</html>

Writing C:/Myexam/br_example_constitution.html


In [41]:
# HTML 파일(''br_example_constitution.html')을 읽어서 변수 html_source에 할당한 후 요소에서 텍스를 추출하고 출력

from bs4 import BeautifulSoup

f = open('C:/Myexam/br_example_constitution.html', encoding='utf-8')

html_source = f.read()
f.close()

soup = BeautifulSoup(html_source, "lxml")

title = soup.find('p', {"id":"title"})
contents = soup.find_all('p', {"id":"content"})

print(title.get_text())
for content in contents:
    print(content.get_text())

대한민국헌법
제1조 ①대한민국은 민주공화국이다. ②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다. 
제2조 ①대한민국의 국민이 되는 요건은 법률로 정한다. ②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.


- 추출된 HTML 코드에서 줄 바꿈 태그를 파이썬의 개행 문자(\n)로 바꿈
- BeautifulSoup의 'replace_with(새로운 문자열)'를 이용해 기존의 태그나 문자열을 새로운 태그나 문자열로 바꿈

- find_result = BeautifulSoup.find('태그')
- find_result.replace_with('새 태그나 문자열')

In [47]:
# HTML 코드에서 br 태그를 파이썬의 개행문자로 바꾸고 싶으면

html1 = '<p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.'

soup1 = BeautifulSoup(html1, "lxml")

print("==> 태그 p로 찾은 요소")
content1 = soup1.find('p', {"id":"content"})
print(content1)


br_content = content1.find("br")
print("==> 결과에서 태그 br로 찾은 요소:", br_content)

br_content.replace_with("\n")
print("==> 태그 br을 개행 문자로 바꾼 결과")
print(content1)

==> 태그 p로 찾은 요소
<p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>
==> 결과에서 태그 br로 찾은 요소: <br/>
==> 태그 br을 개행 문자로 바꾼 결과
<p id="content">제1조 
①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>


In [48]:
# 추출된 요소 전체에 적용

soup2 = BeautifulSoup(html1, "lxml")
content2 = soup2.find('p', {"id":"content"})

br_contents = content2.find_all("br")
for br_content in br_contents:
    br_content.replace_with("\n")
print(content2)

<p id="content">제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>


- 함수 사용

In [50]:
def replace_newline(soup_html):
    br_to_newlines = soup_html.find_all("br")
    for br_to_newline in br_to_newlines:
        br_to_newline.replace_with("\n")
    return soup_html

- BeautifulSoup으로 파싱된 HTML 소스에서 br 태그를 개행 문자(\n)로 변경
- 함수를 이용한 결과에서 요소의 내용만 추출하기 위해 get_text()를 적용

In [51]:
soup2 = BeautifulSoup(html1, "lxml")
content2 = soup2.find('p', {"id":"content"})
content3 = replace_newline(content2)
print(content3.get_text())

제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.


- HTML 소스코드를 할당한 변수 tml_source에 위의 파이썬 코드를 적용

In [52]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_source, "lxml")

title = soup.find('p', {"id":"title"})
contents = soup.find_all('p', {"id":"content"})

print(title.get_text(), '\n')

for content in contents:
    content1 = replace_newline(content)
    print(content1.get_text(), '\n')

대한민국헌법 

제1조 
①대한민국은 민주공화국이다. 
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.  

제2조 
①대한민국의 국민이 되는 요건은 법률로 정한다. 
②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다. 



- 줄을 바꾸어 문단을 구분하는 p 태그를 표기하기 위해 'content1.get_text()'를 print()로 출력할 때 개행 문자(\n)를 추가