## 웹 크롤링

## requests 라이브러리 사용

In [1]:
import requests
r = requests.get('http://www.google.com')
r

<Response [200]>

In [2]:
import requests
r = requests.get('http://www.google.com')
r.text[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

## HTML 소스코드를 분석하고 처리하기

In [3]:
from bs4 import BeautifulSoup
# 테스트용 html코드
html = """
   <!DOCTYPE html>
   <html lang="en">
   <head>
     <title>Document</title>
   </head>
   <body>
      <a href = "http://kosis.kr" >국가통계포털</a><br>
      <a href = "http://www.data.go.kr">공개 데이터 포털</a><br>
      <a href = "http://data.seoul.go.kr"> 서울 열린데이터 광장</a>
  </body>
  </html>
    """
#  BeautifulSoup를 이용해 html 소스 파싱
soup = BeautifulSoup(html,'lxml')
soup


<!DOCTYPE html>
<html lang="en">
<head>
<title>Document</title>
</head>
<body>
<a href="http://kosis.kr">국가통계포털</a><br/>
<a href="http://www.data.go.kr">공개 데이터 포털</a><br/>
<a href="http://data.seoul.go.kr"> 서울 열린데이터 광장</a>
</body>
</html>

In [4]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <title>
   Document
  </title>
 </head>
 <body>
  <a href="http://kosis.kr">
   국가통계포털
  </a>
  <br/>
  <a href="http://www.data.go.kr">
   공개 데이터 포털
  </a>
  <br/>
  <a href="http://data.seoul.go.kr">
   서울 열린데이터 광장
  </a>
 </body>
</html>



In [5]:
soup.find('a')

<a href="http://kosis.kr">국가통계포털</a>

In [6]:
soup.find('a').get_text()

'국가통계포털'

In [7]:
soup.find_all('a')

[<a href="http://kosis.kr">국가통계포털</a>,
 <a href="http://www.data.go.kr">공개 데이터 포털</a>,
 <a href="http://data.seoul.go.kr"> 서울 열린데이터 광장</a>]

In [8]:
site_names = soup.find_all('a')
for site_name in site_names:
    print(site_name.get_text())

국가통계포털
공개 데이터 포털
 서울 열린데이터 광장


In [9]:
from bs4 import BeautifulSoup
# 테스트용 Html 코드
html2 = """
<html>
  <head>
   <title> 작품과 작가</title>
  <head>
  <body>
   <h1>책 정보</h1>
   <p id = "book_title"> 이것이 데이터 분석이다 with 파이썬</p>
   <p id = "author">윤기태
   
   <p id = "book_title"> 데이터 분석을 위한 파이썬 철저 입문</p>
   <p id = "author">최은석
   
   <p id = "book_title"> 모두의 데이터 분석 with 파이썬</p>
   <p id = "author">송선리, 이현아</p>
  </body>
  </html>
  """
soup2 = BeautifulSoup(html2,'lxml')
soup2.title

<title> 작품과 작가</title>

In [10]:
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title"> 이것이 데이터 분석이다 with 파이썬</p>
<p id="author">윤기태
   
   </p><p id="book_title"> 데이터 분석을 위한 파이썬 철저 입문</p>
<p id="author">최은석
   
   </p><p id="book_title"> 모두의 데이터 분석 with 파이썬</p>
<p id="author">송선리, 이현아</p>
</body>

In [11]:
soup2.body.h1

<h1>책 정보</h1>

In [12]:
soup2.find_all('p')

[<p id="book_title"> 이것이 데이터 분석이다 with 파이썬</p>,
 <p id="author">윤기태
    
    </p>,
 <p id="book_title"> 데이터 분석을 위한 파이썬 철저 입문</p>,
 <p id="author">최은석
    
    </p>,
 <p id="book_title"> 모두의 데이터 분석 with 파이썬</p>,
 <p id="author">송선리, 이현아</p>]

In [13]:
soup2.find_all('p',{"id":"book_title"})

[<p id="book_title"> 이것이 데이터 분석이다 with 파이썬</p>,
 <p id="book_title"> 데이터 분석을 위한 파이썬 철저 입문</p>,
 <p id="book_title"> 모두의 데이터 분석 with 파이썬</p>]

In [14]:
soup2.find_all('p',{"id":"author"})

[<p id="author">윤기태
    
    </p>,
 <p id="author">최은석
    
    </p>,
 <p id="author">송선리, 이현아</p>]

In [15]:
from bs4 import BeautifulSoup
soup2 = BeautifulSoup(html2,'lxml')

book_tiles = soup2.find_all('p',{"id":"book_title"})
authors = soup2.find_all('p',{"id":"author"})

for book_title, author in zip(book_tiles,authors):
    print(book_title.get_text() + '/' + author.get_text())

 이것이 데이터 분석이다 with 파이썬/윤기태
   
   
 데이터 분석을 위한 파이썬 철저 입문/최은석
   
   
 모두의 데이터 분석 with 파이썬/송선리, 이현아


In [16]:
from bs4 import BeautifulSoup
html3 = """
<html>
  <head>
   <title> 작품과 작가</title>
  <head>
  <body>
   <h1>책 정보</h1>
   <p id = "book_title" class = "book"> 이것이 데이터 분석이다 with 파이썬</p>
   <p id = "author">윤기태
   
   <p id = "book_title" class = "book"> 데이터 분석을 위한 파이썬 철저 입문</p>
   <p id = "author">최은석
   
   <p id = "book_title" class = "book"> 모두의 데이터 분석 with 파이썬</p>
   <p id = "author">송선리, 이현아</p>
   
   <a  href = "http://www.yes24.com" class = "bookstore" > yes24 </a>
  </body>
  </html>
"""
soup3 =  BeautifulSoup(html3, 'lxml')
soup3.select('a.bookstore')

[<a class="bookstore" href="http://www.yes24.com"> yes24 </a>]

In [17]:
soup3.select('p#book_title')

[<p class="book" id="book_title"> 이것이 데이터 분석이다 with 파이썬</p>,
 <p class="book" id="book_title"> 데이터 분석을 위한 파이썬 철저 입문</p>,
 <p class="book" id="book_title"> 모두의 데이터 분석 with 파이썬</p>]

In [18]:
soup3.select('html body a')

[<a class="bookstore" href="http://www.yes24.com"> yes24 </a>]

In [19]:
soup3.select('body a')

[<a class="bookstore" href="http://www.yes24.com"> yes24 </a>]

In [20]:
soup3.select('a')

[<a class="bookstore" href="http://www.yes24.com"> yes24 </a>]

In [21]:
soup3.select('html a')

[<a class="bookstore" href="http://www.yes24.com"> yes24 </a>]