# HTML Parser, BeautifulSoup

In [2]:
# 모듈 설치 및 불러오기
# !pip install BeautifulSoup4
import requests
from bs4 import BeautifulSoup

In [3]:
# wwww.example.com 사이트를 요청한 후 응답 받기
res = requests.get("https://www.example.com")

In [4]:
# HTML정보를 분석
soup = BeautifulSoup(res.text,"html.parser")

In [None]:
# 보기 편하게 출력
print(soup.prettify())

In [None]:
# title 가져오기
soup.title

In [None]:
# head 가져오기
soup.head

In [None]:
# body 가져오기
soup.body

In [None]:
# <h1> 태그로 감싸진 요소 하나 찾기
h1 = soup.find("h1")
h1

In [None]:
# <p> 태그로 감싸진 요소들 찾기
soup.fidn_all("p")

In [None]:
# 태그 이름 가져오기
h1.name

In [None]:
# 태그 내용 가져오기
h1.text

### 원하는 요소 가져오기1
#### 책 이름 모으기
다음 사이트에 있는 책들의 이름 정보를 스크래핑 해봅시다 
- http://books.toscrape.com/catalogue/category/books/travel_2/index.html  

In [None]:
# 스크래핑에 필요한 라이브러리를 불러옵니다.
import requests
from bs4 import BeautifulSoup

In [None]:
# 예시 사이트에 요청을 진행하고, 응답을 바탕으로 BeautifulSoup 객체를 만들어봅시다.
res = requests.get("http://books.toscrape.com/catalogue/category/books/travel_2/index.html")
soup = BeautifulSoup(res.text, "html.parser")

In [None]:
# <h3> 태그에 해당하는 요소를 하나 찾아봅시다
book = soup.find("h3")

In [None]:
# <h3> 태그에 해당하는 요소를 모두 찾아봅시다
h3_result = soup.find_all("h3")
len(h3_result)
h3_result[0]

In [None]:
# book_list에서 우리가 원하는 제목(title)만 추출해봅시다.
## <h3>태그 안의 <a>태그를 속성으로 사용할 수 있음
book.a.text

In [None]:
## 반복문을 통해 여러 h3의 타이틀을 추출
for book in h3_result:
    book.a.text

In [None]:
## text가 긴 책은 잘려 있거나 이상한 기호가 들어가 있음
## 개발자 도구를 통해 title에는 제대로 기입되어 있는 것을 확인
## a태그 안에 있는 title속성을 사용 - dict처럼 사용 
for book in h3_result:
    print(book.a["title"])

### 'id'를 이용해서 요소 가져오기
- `id`는 요소 하나를 지칭하는 특별한 별명, 겹칠 수 없음
- `id`를 이용하면 해당하는 태그 단 하나를 쉽게 가져올 수 있음

In [None]:
# 스크래핑에 필요한 라이브러리를 불러와봅시다.
import requests
from bs4 import BeautifulSoup

In [None]:
## http://example.python-scraping.com/
## 국가명을 "검사"해본 결과 굉장히 깊은 뎁스에 위치해 있음
res = requests.get("http://example.python-scraping.com/")
soup = BeautifulSoup(res.text, "html.parser")

In [None]:
## id 없이 div 태그를 찾아봅시다.
soup.find_all("div")

In [None]:
## id가 results인 div 태그를 찾아봅시다.
soup.find("div", id="results")

In [None]:
# class가 "page-header"인 div 태그를 찾아봅시다.
find_result = soup.find("div", "page-hearder")

In [None]:
# 위 결과에서 text 값을 깔끔하게 가져와봅시다.
find_result
find_result.h1

In [None]:
## 공백 제거
find_result.h1.text.strip()

### 원하는 요소 가져오기2
#### Hashcode 질문 가져오기


In [None]:
# 다음 User-Agent를 추가해봅시다.
user_agent = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36"}

In [None]:
# 필요한 라이브러리를 불러온 후, 요청을 진행해봅시다.
import requests
from bs4 import BeautifulSoup

res = requests.get("https://hashcode.co.kr/", user_agent)

In [None]:

# 응답을 바탕으로 BeautifulSoup 객체를 생성해봅시다.
soup = BeautifulSoup(res.text, "html.parser")

In [None]:
# 질문의 빈도를 체크하는 dict를 만든 후, 빈도를 체크해봅시다.
## 연쇄적으로 메서드를 활용해 찾고자 하는 정보를 위해 안으로 들어감
questions = soup.find_all("li","question-list-item")
for question in questions:
    print(question.find("div","question").find("div","top").h4.text)

## Bonus: 페이지네이션(Pagination)
페이지네이션은 많은 정보를 인덱스로 구분하는 기법
- hashcode사이트는 Query String을 통해서 이를 구분
- https://hashcode.co.kr/?page={i}

In [None]:
# Pagination이 되어있는 질문 리스트의 제목을 모두 가져옴
# 과도한 요청을 방지하기 위해 0.5초마다 요청을 보내봅시다.
import time

for i in range(1,6):
    res = requests.get(f"https://hashcode.co.kr/?page={i}", user_agent)
    soup = BeautifulSoup(res.text, "html.parser")
    
    questions = soup.find_all("li","question-list-item")
    for question in questions:
        print(question.find("div","question").find("div","top").h4.text)
    time.sleep(0.5)