### BeautifulSoup
- 파서(html, xml 의 형태로 내려온 데이터를 원하는 요소만 찾기 위해 필요)
- requests + bs4 : 이 조합으로 주로 크롤링
- 파서 종류
    - html.parser (두번째 속도)
    - lxml (속도가 가장 빠름) : 설치 필요 pip install lxml
    - html5lib (가장 느림)

In [1]:
import requests
from bs4 import BeautifulSoup

In [11]:
url = "https://v.daum.net/v/20240524043012545"
with requests.Session() as s:
    r = s.get(url)
    soup = BeautifulSoup(r.text, "lxml")
    # print(soup)

    # 요소 접근
    # 태그명 사용
    print(soup.title)
    print(soup.h3)
    # get_text() 태그 텍스트 추출
    print(soup.title.get_text())
    # attrs: 태그 속성 추출
    print(soup.h3.attrs) 

<title>“안 오고, 안 쓰고, 안 믿고”… 삼중고에 경고등 켜진 제주 관광산업</title>
<h3 class="tit_view" data-translation="true">“안 오고, 안 쓰고, 안 믿고”… 삼중고에 경고등 켜진 제주 관광산업</h3>
“안 오고, 안 쓰고, 안 믿고”… 삼중고에 경고등 켜진 제주 관광산업
{'class': ['tit_view'], 'data-translation': 'true'}


In [28]:
url = "./story.html"
with open(url, "r") as f:
    r = f.read()
    # print(r)
    soup = BeautifulSoup(r, "lxml")
    # print(soup)
    # title 태그 가져오기
    title = soup.title
    # 둘 중 하나가 작동 안 할 때 번갈아 쓰는 식으로 보완
    print(f"title {title}")
    print(f"title content1 {title.get_text()}")
    print(f"title content2 {title.string}")
    print(f"title parent {title.parent}")
    print()

    # p 태그 가져오기
    p1 = soup.p
    print(f"p {p1}")
    # print(f"p {p1.get_text()}")
    # b 태그 제외하고 공백까지 출력
    #  
    #  The Dormouse's story 
    # 
    print(f"p {p1.get_text().strip()}")
    print(f"p {p1.attrs}") # 딕셔너리 형식
    print(f"p {p1['class']}") # p 속성 중 class 속성 값 출력
    print()

    # b 태그 가져오기
    b1 = soup.b
    print(f"{b1.get_text()}")

title <title>The Dormouse's story</title>
title content1 The Dormouse's story
title content2 The Dormouse's story
title parent <head>
<title>The Dormouse's story</title>
</head>

p <p class="title">
<b> The Dormouse's story </b>
</p>
p The Dormouse's story
p {'class': ['title']}
p ['title']

 The Dormouse's story 


In [34]:
# 문서의 구조 이용한 요소 찾기 - find_ ~ () 형식의 메소드 이용
# parent, children, rext_sibling ...

url = "./story.html"
with open(url, "r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    # body = soup.body
    # print(f"body children {body.children}")
    # # 결과 : body children <list_iterator object at 0x000001F252023640>
    # # iterator : 하나씩 꺼낼 수 있는 요소

    # for child in body.children:
    #     print(child)

    # 첫번째 p 요소 찾기
    p1 = soup.p
    p2 = p1.find_next_sibling("p")
    print(f"p {p2.get_text().strip()}")
    print(f"p {p2.string}") # None
    # print(f"p {p2.string.strip()}")
    # p1.메소드()를 통해 찾은 요소를 strip으로 쓸 수 없음
    # 요소를 못 찾아와서 에러 뜸
    print(f"p {p2.attrs}") # 딕셔너리 형식
    print(f"p {p2['class']}") # p 속성 중 class 속성 값 출력
    print()

p Once upon a time there were three little sisters; and their names were
       Elsie 
      ,
       Lacie 
      and
       Tillie 
      ; and they lived at the bottom of a well.
p None
p {'class': ['story']}
p ['story']



In [54]:
# find() : 조건을 만족하는 요소 한 개 찾기
# find_all() : 조건을 만족하는 요소 모두 찾기

url = "./story.html"
with open(url, "r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    # 태그 이름으로 조회
    head = soup.find(name="head")
    print(head)

    # 태그 속성으로 조회
    p1 = soup.find("p",attrs={"class":"title"})
    # print(p1)
    # 태그 클래스명으로 조회 (class_="") <= class 뒤에 언더바(_) 필수
    p2 = soup.find("p", class_="story")
    # print(p2)

    # 조건에 만족하는 요소 모두 찾기(리스트 형식으로 반환)
    p_all = soup.find_all("p",class_="story")
    print(p_all[1])

    print("="*20)
    # a1 = soup.find("a", attrs={"id":"link1"})
    a1 = soup.find("a", id="link1")
    print(a1)

    a3 = soup.find("a", id="link3")
    print(a3["href"])

    # limit = 가져올 개수에 제한을 둠
    a_tags = soup.find_all("a", limit=2)
    for ele in a_tags:
        print(ele)


<head>
<title>The Dormouse's story</title>
</head>
<p class="story">...</p>
<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
http://example.com/tillie
<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
<a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>


In [59]:
url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    soup = BeautifulSoup(r,"lxml")
    # link1 = soup.find_all(string="Elsie") # 원본에 공백 있을수도 있음
    link1 = soup.find_all(string=["Elsie", "Lacie", "Tillie"]) # 한 조건의 값으로 리스트로 여러 개 추가할 수 있음
    link2 = soup.find_all("a",string=["Elsie", "Lacie", "Tillie"]) 
    print(link1) # 텍스트 요소만 리스트로 묶여서 출력
    print(link2) # 태그 전체가 리스트로 묶여서 출력

['Elsie', 'Lacie', 'Tillie']
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


In [70]:

url = "https://pythonscraping.com/pages/warandpeace.html"

with requests.Session() as s:
    r = s.get(url)
    soup = BeautifulSoup(r.text,"lxml")

    # 등장인물 출력
    spanList=soup.find_all("span",class_="green")
    for span in spanList:
        print(span.string, end="")

# 대사 출력
    spanList = soup.find_all("span", class_="red")
    for d in spanList:
        print(d.string)



Anna
Pavlovna SchererEmpress Marya
FedorovnaPrince Vasili KuraginAnna PavlovnaSt. Petersburgthe princeAnna PavlovnaAnna Pavlovnathe princethe princethe princePrince VasiliAnna PavlovnaAnna Pavlovnathe princeWintzingerodeKing of Prussiale Vicomte de MortemartMontmorencysRohansAbbe Moriothe Emperorthe princePrince VasiliDowager Empress Marya Fedorovnathe baronAnna Pavlovnathe Empressthe EmpressAnna Pavlovna'sHer MajestyBaron
FunkeThe princeAnna
Pavlovnathe EmpressThe princeAnatolethe princeThe princeAnna
PavlovnaAnna PavlovnaWell, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.
If y

In [89]:
url = "https://v.daum.net/v/20240524043012545"
with requests.Session() as s:
    r = s.get(url)
    soup = BeautifulSoup(r.text, "lxml")

    # 뉴스 제목 출력
    title = soup.h3.get_text()
    print(title)

    # 작성자 출력
    writer = soup.find("div", class_="info_view").find("span")
    print(writer.text)


    # 작성시간 출력
    createdAt = soup.find(attrs={"class" : "num_date"})
    print(createdAt.text)

    # 첫번째 문단
    firstText = soup.find("p", attrs={"dmcf-ptype":"general"})
    print(firstText.text)

    # 전체 본문 내용
    news = soup.find_all("p", attrs={"dmcf-ptype":"general"})
    for p in news:
        print(p.text)

“안 오고, 안 쓰고, 안 믿고”… 삼중고에 경고등 켜진 제주 관광산업
김영헌
2024. 5. 24. 04:30
 지난 22일 오후 7시쯤 제주 제주시 건입동 흑돼지거리. 흑돼지 전문 고깃집이 모여 있어 관광객들에게 잘 알려진 음식점 거리다. 하지만 손님이 몰리는 저녁시간대임에도 불구하고 식당들 안쪽에는 빈자리가 곳곳에 눈에 띄었다. 일부 식당 앞에서는 직원들이 호객행위를 하고 있었다. ‘코로나19 특수’ 때 관광객들로 이 거리가 발 디딜 틈 없었던 것과는 딴판이었다. 
 지난 22일 오후 7시쯤 제주 제주시 건입동 흑돼지거리. 흑돼지 전문 고깃집이 모여 있어 관광객들에게 잘 알려진 음식점 거리다. 하지만 손님이 몰리는 저녁시간대임에도 불구하고 식당들 안쪽에는 빈자리가 곳곳에 눈에 띄었다. 일부 식당 앞에서는 직원들이 호객행위를 하고 있었다. ‘코로나19 특수’ 때 관광객들로 이 거리가 발 디딜 틈 없었던 것과는 딴판이었다. 
 이곳에서 흑돼지 전문 고깃집을 운영하는 업주들은 “코로나가 끝난 다음에는 해외여행이 늘고 내국인 관광객이 줄어 가뜩이나 힘든데 ‘비계삼겹살’ 논란 때문에 장사하기 더 힘들어졌다”며 “식당 한 곳의 잘못 때문에 다른 식당들까지 피해를 보고 있다”고 울상을 지었다. 제주 돼지고기에 대한 높아진 불신은 그렇지 않아도 감소세인 매출에 직격탄이 되고 있다. 흑돼지 맛집으로 알려진 제주 시내 다른 고깃집 업주 A(62)씨도 “일부 손님들은 고기를 받자마자 뒤집어 확인을 먼저 하고 마음에 들지 않으면 바로 바꿔달라고 하는 경우가 늘었다"고 털어놓았다. 
 제주 관광산업에 경고등이 들어왔다. 무엇보다 코로나19 엔데믹으로 해외여행 수요가 급증하면서 제주를 찾는 내국인 관광객이 급감했다. 제주도관광협회에 따르면 올 들어 지난 22일까지 제주를 방문한 내국인 관광객은 458만4,200명으로 지난해 동기 대비 8.4% 줄었다. 2022년 1,380만 명으로 사상치를 찍었던 내국인 관광객은 지난해 1,266만 명으로 줄었고 감소세가 계속된다면 올해는 1,1