In [None]:
# HTML 문서 요청

import requests

# beautiful soup 모듈 불러오기
from bs4 import BeautifulSoup


# 요청 주소
url = "https://example.com"

# 요청 - get(url) 메서드
response = requests.get(url)

# 상태 코드 속성 추출
status_code = response.status_code

if status_code == 200:
    # html 문서 속성, .text
    # print((response.text))
    # beautifulsoup 객체 생성
    soup = BeautifulSoup(response.text, "html.parser")
    print(type(soup))  # str가 아님

    # BeautifulSoup.find(태그이름) : 단일 탐색 메서드 -> 가장 처음 나온 요소만 반환
    p_tag = soup.find("p")
    print(p_tag.text)

    # soup 인스턴스 내부에서 h1 태그를 찾아서 텍스트를 출력

    h1_tag = soup.find("h1")
    print(h1_tag.text)

In [None]:
# 복수(여러 개) 탐색

import requests

# beautiful soup 모듈 불러오기
from bs4 import BeautifulSoup


# 요청 주소
url = "https://example.com"

# 요청 - get(url) 메서드
response = requests.get(url)

# 상태 코드 속성 추출
status_code = response.status_code

if status_code == 200:
    # html 문서 속성, .text
    # print((response.text))
    # beautifulsoup 객체 생성
    soup = BeautifulSoup(response.text, "html.parser")

    # Beautiflsoup.find_all() : 복수 요소(태그) 탐색
    p_tag_list = soup.find_all("p")

    print(p_tag_list)  # .text는 안됨(리스트 형태이기 때문)
    print(type(p_tag_list))  # 리스트를 반환

    # 반복문을 활용해서 개별 요소 텍스트 출력
    for i in p_tag_list:
        print(i.text)

    # 태그가 1개라도 반환값은 리스트
    h1_tag_list = soup.find_all("h1")
    print(h1_tag_list[0].text)

In [None]:
# a 태그를 찾아서 텍스트를 출력
a_tag_list = soup.find("a")
print(a_tag_list.text)

# a 태그의 속성(href) 추출
a_tag_href = a_tag_list["href"]  # 딕셔너리와 비슷
print(a_tag_href)

# 태그의 속성 목록 추출
a_tag_attr_list = a_tag_list.attrs
print(a_tag_attr_list)

In [None]:
import requests

# beautiful soup 모듈 불러오기
from bs4 import BeautifulSoup


# 요청 주소
url = "https://quotes.toscrape.com/"

# 요청 - get(url) 메서드
response = requests.get(url)

# 상태 코드 속성 추출
status_code = response.status_code

if status_code == 200:
    # html 문서 속성, .text
    # print((response.text))
    # beautifulsoup 객체 생성
    soup = BeautifulSoup(response.text, "html.parser")

    # span 태그, class == text (span은 p와 비슷한 역할)
    quote_text = soup.find(
        "span", attrs={"class": "text"}
    )  # 태그가 span이고 속성 목록이 클래스: 텍스트인 것을 탐색
    print(quote_text.text)

    # 복수 요소 탐색
    # span 태그, class가 text인 모든 요소의 텍스트 출력
    quote_texts = soup.find_all("span", attrs={"class": "text"})
    for text in quote_texts:  # 텍스트 리스트의 원소를 순회하며 출력
        print(text.text)

In [None]:
import requests
from pprint import pprint

# beautiful soup 모듈 불러오기
from bs4 import BeautifulSoup


# 요청 주소
url = "https://quotes.toscrape.com/"

# 요청 - get(url) 메서드
response = requests.get(url)

# 상태 코드 속성 추출
status_code = response.status_code

if status_code == 200:
    # html 문서 속성, .text
    # print((response.text))
    # beautifulsoup 객체 생성
    soup = BeautifulSoup(response.text, "html.parser")

    quote_author_list = []

    # div 태그, class가 quote인 요소 복수 탐색
    quote_list = soup.find_all("div", attrs={"class": "quote"})
    for quote in quote_list:
        # quote 요소 내부에서 태그는 span, 클래스는 text 요소 탐색
        quote_text = quote.find("span", attrs={"class": "text"})
        # print(quote_text.text)

        # 인물 정보도 탐색
        quote_author_text = quote.find("small", attrs={"class": "author"})
        # print(quote_author_text.text)

        # {"quote": 인용문 데이터, "author": 인물 데이터} 딕셔너리
        quote_author_dic = {
            "quote": quote_text.text,
            "author": quote_author_text.text,
        }
        # quote_author_list에 저장(추가 append)
        quote_author_list.append(quote_author_dic)

pprint(quote_author_list)  # pprint = 예쁘게 출력

In [None]:
import requests
from pprint import pprint
from bs4 import BeautifulSoup

quote_author_list = []

# "https://quotes.toscrape.com/page/숫자/" <-같이 숫자가 바뀌면 페이지가 바뀜
# 1 -> 10
# f-string 활용 -> f"https://quotes.toscrape.com/page/{숫자}/"
for page in range(1, 6):
    url = f"https://quotes.toscrape.com/page/{page}/"
    response = requests.get(url)

    status_code = response.status_code

    if status_code == 200:
        soup = BeautifulSoup(response.text, "html.parser")

        quote_list = soup.find_all("div", attrs={"class": "quote"})

        for quote in quote_list:

            quote_text = quote.find("span", attrs={"class": "text"})

            quote_author = quote.find("small", attrs={"class": "author"})

            quote_author_dict = {"quote": quote_text.text, "author": quote_author.text}

            quote_author_list.append(quote_author_dict)

pprint(quote_author_list)