# 정적 크롤링 모듈

In [1]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

- 요청 모듈로 가져온 HTML 코드를 파이썬이 쓸 수 있는 형태로 변환해주는 역할

In [2]:
# url 정보를 url 변수에 담음
url = "http://www.naver.com"

# urlopen() 함수에서 url 정보를 담은 변수로
# 해당 url에 보내서 page 정보를 가져온 후 page 변수에 담는다
page = urlopen(url)

# html 코드 정보가 BeautifulSoup이 해석해서
# 파이썬이 사용할 수 있는 html로 변경한 후 soup 변수에 담는다.
# lxml : parser 의 한 종류이다.
# parser
# 데이터를 원하는 형태로 정보를 가공해주는 프로그램
# 특정 패턴 규칙 순서로 가공한다.
soup = BeautifulSoup(page, "lxml")

KeyboardInterrupt: 

In [None]:
print(soup)

## 파서
- 내가 원하는 데이터를 특정 패턴이나 순서로 추출하여 정보를 가공해주는 프로그램
    - lxml
        - c언어로 구현되어 속도가 가장 빠르다
    - html5lib
        - 웹브라우저 형태로 HTML을 분석
        - 속도가 가장 느림
        - 가장 안정적임
    - html.parser
        - lxml 과 html5lib 의 중간 속도

## 속성 데이터

<html>
    <head>
        <title class="t" id="ti">
            test site
        </title>
    </head>
    <body>
        <p>
            test
        </p>
        <p>
            test1
        </p>
    </body>
</html>
- html
    - head
        - title
    - body
        - p
        - p

In [None]:
html = """<html> <head><title class="t" id="ti">test site</title></head> <body> <p>test</p> <p>test1</p> <p>test2</p> </body></html>"""

In [None]:
soup = BeautifulSoup(html, "lxml")

In [None]:
soup

In [None]:
tag_title = soup.title
print(tag_title)
print(tag_title.attrs) # 태그의 속성 가져오기
print(tag_title["class"]) # 키가 없다면 에러 발생
print(tag_title["id"])

In [None]:
print(tag_title["class1"])

In [None]:
print(tag_title.get("class1", "default_value"))

In [None]:
print(tag_title.get("class", "default_value"))

### 태그 접근
- soup.태그이름 의 형태로 첫 번째로 등장하는 태그의 정보를 가져올 수 있음

In [None]:
tag_title = soup.title # title 태그

print(tag_title)
print(tag_title.text)
print(tag_title.string)
print(tag_title.name)

In [None]:
# text 와 string 의 차이
tag_body = soup.body

data_text = tag_body.text
data_string = tag_body.stirng

print(tag_body)
print("text :", data_text, type(data_text))
print("string :", data_string, type(data_string))

- text
    - 하위 태그들의 값도 모두 출력
- string
    - 정확히 해당 태그에 대한 값만 출력

In [None]:
print(tag_body.p.string)

## 원하는 요소에 접근하기

### find_all()
- 원하는 태그들을 리스트 형태로 가져오기

- html
    - head
        - title
    - body
        - p
        - p
        - p
        - a
        - b

In [2]:
html = html = """<html> <head><title>test site</title></head> <body> <p id="i" class="a">test1</p><p id="d" class="d">test2</p><p class="c">test3</p><a>a tag</a> <b>b tag</b></body></html>"""

In [3]:
soup = BeautifulSoup(html, "lxml")

In [4]:
print(soup.find_all("title"))

[<title>test site</title>]


In [5]:
print(soup.find_all("p"))

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]


- id 값으로 태그 가져오기

In [6]:
soup.find_all(id ="d")

[<p class="d" id="d">test2</p>]

In [7]:
# id의 존재 여부로 데이터 가져오기
soup.find_all(id = True)

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>]

- 원하는 태그, 원하는 id 값으로 태그 가져오기

In [8]:
print(soup.find_all("p", id = "d"))

[<p class="d" id="d">test2</p>]


In [9]:
print(soup.find_all("p", id = "c"))

[]


In [10]:
print(soup.find_all("p", class_ = "d"))
print(soup.find_all("p", class_ = "c"))

[<p class="d" id="d">test2</p>]
[<p class="c">test3</p>]


In [11]:
soup.find_all("p", class_ = "c")[0].text

'test3'

## find()
- 하나의 요소만 가져옴
- 찾고자 하는 요소가 하나만 있을 때 사용
    - 예)id값으로 접근

In [12]:
print(soup.find("p", class_ = "d"))

<p class="d" id="d">test2</p>


In [13]:
print(soup.find("p", id = "i"))

<p class="a" id="i">test1</p>


In [14]:
print(soup.find(id = "i"))

<p class="a" id="i">test1</p>


In [15]:
# 연속으로 find 사용이 가능하다
soup.find("body").find("p", class_ = "d")

<p class="d" id="d">test2</p>

### select()
- find_all()과 마찬가지로 매칭되는 모든 결과를 리스트로 반환
- select_one()으로 하나의 결과만 반환하는 것도 가능
- 클래스는 마침표(.), 아이디는 샵(#)으로, 자손태그는 띄어쓰기로 표현

In [18]:
print(soup.select("p")) # p태그
print(soup.select(".d")) # class가 d인 태그
print(soup.select("p.d")) # class가 d인 p태그
print(soup.select("#i")) # id가 i인 태그
print(soup.select("p#i")) # id가 i인 p 태그

[<p class="a" id="i">test1</p>, <p class="d" id="d">test2</p>, <p class="c">test3</p>]
[<p class="d" id="d">test2</p>]
[<p class="d" id="d">test2</p>]
[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>]


- html
    - head
        -title
    -body
        - div
            - p
            - p
        - p
        - a
        - b

In [19]:
html = html = """<html> <head><title>test site</title></head> <body> <div><p id="i" class="a">test1</p><p class="d">test2</p></div><p class="d">test3</p></p> <a>a tag</a> <b>b tag</b></body></html>"""

In [20]:
soup = BeautifulSoup(html, "lxml")

In [24]:
print(soup.select("body p")) # body 의 자손은 p 태그
print(soup.select("body .d")) # body의 자손중에서 클래스가 d인 태그
print(soup.select("body p.d")) # body의 자손 중에서 클래스가 d인 p태그
print(soup.select("body #i")) # body의 자손중에서 id가 i인 태그
print(soup.select("body p#i")) # body의 자손중에서 id가 i인 p태그
print(soup.select("div p")) # div 자손인 p 태그

[<p class="a" id="i">test1</p>, <p class="d">test2</p>, <p class="d">test3</p>]
[<p class="d">test2</p>, <p class="d">test3</p>]
[<p class="d">test2</p>, <p class="d">test3</p>]
[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>]
[<p class="a" id="i">test1</p>, <p class="d">test2</p>]


# 예제 1-1 티스토리 크롤링
- url : https://ai-dev.tistory.com/1

In [35]:
# 제목 수집
# "크롤링의 세계에 오신 것을 환영합니다."
url = "https://ai-dev.tistory.com/1"
page = urlopen(url)
soup = BeautifulSoup(page, "lxml")
print(soup.select_one("div.hgroup h1").text)

크롤링의 세계에 오신 것을 환영합니다. 


In [45]:
# 게시물 내용 수집
# hello world
print(soup.select_one("div.contents_style p").text)

Hello, world!
