## 웹 데이터 가져오기

### 필요한 라이브러리

- urllib
- BeautifulSoup

### 1. urllib

* 인터넷에서 데이터를 받아 오는 기능들이 들어 있는 파이썬 패키지


* urllib에 인터넷 주소(URL)을 넣고 실행하면, 데이터를 텍스트 형태로 받아옴
    - 크롤링? 데이터를 받아오는 것
    - 즉, urllib는 크롤링을 하는 라이브러리
    
    
* urllib은 기본적으로 내장되어 있으므로, 파이썬이 설치되어 있다면 바로 import 할 수 있음

In [4]:
from urllib.request import urlopen
html = urlopen(url)

### 2. BeautifulSoup


* 데이터를 추출하는 데 필요한 기능이 들어 있는 라이브러리
    - 파싱(parsing) 라이브러리라고도 함
    
    
* 데이터를 받아오는 건 '크롤링'이고, 받아온 데이터에서 필요한 내용만 추출하는 것을 '파싱'이라고 함


* 외부 라이브러리이기 때문에 따로 설치해주어야 함
    - 우리는 따로 설치할 필요 없음. Anaconda 설치할 때 설치했기 때문

In [5]:
from bs4 import BeautifulSoup

### BeautifulSoup 사용 예


* BeautifulSoup() 사용하기

    - BeautifulSoup(<받은 텍스트>, <텍스트를 파싱할 파서>)와 같은 형태로 사용
    
    - 웹 문서 대부분은 HTML로 되어 있음. html.parser (가장 많이 사용)
    - 이 외에 lxml, xml 등 다른 파서도 존재
    
    
* soup = BeautifulSoup(html_str, "html.parser")를 이용하여 html 데이터(변수명; html_str) 파싱

In [6]:
from bs4 import BeautifulSoup

html_str = "<html><div>hello</div></html>"
soup = BeautifulSoup(html_str, "html.parser")

print(type(soup))
print(soup)

<class 'bs4.BeautifulSoup'>
<html><div>hello</div></html>


### 3. find()

* find()를 이용하여 파싱된 데이터 중 필요한 부분만 뽑아내기

In [7]:
from bs4 import BeautifulSoup

html_str = "<html><div>hello</div></html>"
soup = BeautifulSoup(html_str, "html.parser")

print(type(soup))
print(soup)
print(soup.find("div"))

<class 'bs4.BeautifulSoup'>
<html><div>hello</div></html>
<div>hello</div>


#### (1) `<div>` 태그


* Division의 약자


* 웹 페이지의 영역을 구분하기 위해 사용되며, 전체적인 틀(레이아웃)을 잡을 때 사용
    - Table 태그 이용 -> div 태그와 span 태그 이용


* 마크업 언어는 HTML의 각 줄마다 의미를 부여하기 위해 존재하지만, `<div>` 태그는 의미가 없음

#### (2) `<ul>` 태그


* 순서 없는 목록(Unordered List) 만들기


* 일반적으로, `<li>` 태그와 같이 사용됨
    - `<ul>` 태그 안에 `<li>` 태그를 이용
    - 각 항목에 작은 원이나 사각형 같은 불렛이 생김 (Default 값이 작은 원)


* 'div' 대신 'ul'을 사용하여 작성하는 예제

In [11]:
from bs4 import BeautifulSoup

# 여러 줄의 문자열을 사용하기 위해 문자열의 시작 줄과 끝 줄에 각각 """, """ 사용

html_str = """
<html>
    <body>
        <ul>
            <li>line1</li>
            <li>line2</li>
            <li>line3</li>
        </ul>
    </body>
</html>
"""
soup = BeautifulSoup(html_str, "html.parser")

ul = soup.find("ul")
li = ul.find("li")
print(ul)

<ul>
<li>line1</li>
<li>line2</li>
<li>line3</li>
</ul>


#### (3) `<ol>` 태그


* 순서 있는 목록 (Ordered List) 만들기

#### (4) 텍스트만 추출하기

* `<li>`, `</li>` 태그 안에 있는 'line1'만 뽑으려면? .text 속성을 출력

In [12]:
print(li.text)

line1


### 4. find_all()

* 조건에 해당하는 모든 요소를 **리스트 [] 형태**로 추출해주는 기능
    - find(): 조건을 만족하는 첫 번째 태그를 리턴


* 만약 line1이 아니라, line3을 가져오고 싶다면?
    - 인덱스로 리스트 데이터에 접근
    - 태그 안에 있는 텍스트만 출력

In [13]:
from bs4 import BeautifulSoup

# 여러 줄의 문자열을 사용하기 위해 문자열의 시작 줄과 끝 줄에 각각 """, """ 사용

html_str = """
<html>
    <body>
        <ul>
            <li>line1</li>
            <li>line2</li>
            <li>line3</li>
        </ul>
    </body>
</html>
"""
soup = BeautifulSoup(html_str, "html.parser")

ul = soup.find("ul")
li = ul.find("li")
print(ul)

lis = ul.find_all("li")
print(lis)
print(lis[2])
print(lis[2].text)

<ul>
<li>line1</li>
<li>line2</li>
<li>line3</li>
</ul>
[<li>line1</li>, <li>line2</li>, <li>line3</li>]
<li>line3</li>
line3


* 버전에 따른 차이

    - BeautifulSoup3 버전 : findAll() 사용
    - BeautifulSoup4 버전 : find_all() 사용

### 5. class 속성

#### (1) 태그와 속성 그리고 속성값


* HTML
    - `<html>`로 시작해서 `</html>`로 끝나는 문서
    - 태그(tag)와 속성(property)로 이루어져 있음
    
    
* **태그(tag)**
    - `<ul> </ul>`, `<li> </li>`, `<div> </div>`, `<a> </a>` 처럼 <>로 감싸져 있는 것이며, `<ul>`로 시작했으면 `</ul>`로 끝나야 함
    
    
* 속성(Property)과 속성값?
    - `<ul class="class1">`: ul 태그, class 속성, "class1" 속성값
    - `<a href = "https://www.google.com/">구글</a>`: a 태그, href 속성, "https://www.google.com" 속성값

#### (2) class 속성 이용하기


* 데이터를 뽑을 때, class 속성 이용하기
    - ul = soup.find("ul")
    
    
* 조건을 추가하여 우리가 뽑고 싶은 요소에 조금 더 정확하게 접근하기
    - ul = soup.find("ul", {"class":"class2"})


* class와 id의 차이?
    - id는 웹 페이지에서 유일해야 함
    - class는 여러 번 사용 가능
    - 그래서, 보통 class는 일반적인 이름으로 짓고, 아이디는 특수하게 지음

In [19]:
from bs4 import BeautifulSoup

# 여러 줄의 문자열을 사용하기 위해 문자열의 시작 줄과 끝 줄에 각각 """, """ 사용

html_str = """
<html>
    <body>
        <ul class="class1">
            <li>line1</li>
            <li>line2</li>
            <li>line3</li>
        </ul>
        <ul class="class2">
            <li>line4</li>
            <li>line5</li>
            <li>line6</li>
        </ul>
    </body>
</html>
"""
soup = BeautifulSoup(html_str, "html.parser")

ul = soup.find("ul", {"class":"class2"})
print(ul)

<ul class="class2">
<li>line4</li>
<li>line5</li>
<li>line6</li>
</ul>


#### (3) 속성값 추출하기

* `<a>` 태그 값 뽑아내기
    - ul = soup.find("a")
    

* 링크 추출
    - `<a>` 태그의 href 속성의 속성값을 뽑아내어 링크를 추출

In [20]:
from bs4 import BeautifulSoup

# 여러 줄의 문자열을 사용하기 위해 문자열의 시작 줄과 끝 줄에 각각 """, """ 사용

html_str = """
<html>
    <body>
        <ul class="search">
            <li>
                <a href="https://www.naver.com">네이버</a>
            </li>
            <li>
                <a href="https://www.google.com">구글</a>
            </li>
        </ul>
        <ul class="sns">
            <li>
                <a href="https://www.facebook.com">페이스북</a>
            </li>
            <li>
                <a href="https://www.instagram.com">인스타그램</a>
            </li>
        </ul>
    </body>
</html>
"""

soup = BeautifulSoup(html_str, "html.parser")

ul = soup.find("a")
print(ul)
print(ul['href'])

<a href="https://www.naver.com">네이버</a>
https://www.naver.com


### 6. find()와 select()


* find()와 find_all()
    - find() : 조건을 만족하는 첫 번째 태그를 리턴
    - find_all() : 조건에 해당하는 모든 요소를 리스트로 리턴
    

* select() 함수를 사용하여 원하는 데이터 추출하기
    - css_selector를 활용하여 원하는 태그를 찾는 방법
    

* BeautifulSoup으로 html 문서를 파싱하는 방법
    - find(): html tag를 통한 크롤링
    - find_all(): css를 통한 크롤링
    - find_all()과 select()는 기능적으로 동일
        - 둘 중 선택하여 사용
        - But, 두 가지 방법을 함께 사용하는 경우가 더 많음