### BeautifulSoup
- 파서(html, xml 의 형태로 내려온 데이터를 원하는 요소만 찾기 위해 필요)
- requests + bs4 : 이 조합으로 주로 크롤링
- 파서 종류
    - html.parser (두번째 속도)
    - lxml (속도가 가장 빠름) : 설치가 필요 pip install lxml
    - html5lib (가장 느림)

In [1]:
import requests
from bs4 import BeautifulSoup

In [7]:
url = "https://v.daum.net/v/20240524110601445"

with requests.Session() as s:
    r = s.get(url)
    # print(r.text)
    soup = BeautifulSoup(r.text, "lxml") # 파서 종류 선택해서 사용
    # print(soup)

    # 요소 접근
    # 태그명 사용
    print(soup.title)
    print(soup.h3)
    # 태그의 text 추출
    print(soup.title.get_text())
    # attrs : 태그 속성 추출
    print(soup.h3.attrs)


<title>[속보] '음주 뺑소니' 김호중, 구속영장 심사 위해 법원 출석</title>
<h3 class="tit_view" data-translation="true">[속보] '음주 뺑소니' 김호중, 구속영장 심사 위해 법원 출석</h3>
[속보] '음주 뺑소니' 김호중, 구속영장 심사 위해 법원 출석
{'class': ['tit_view'], 'data-translation': 'true'}


In [27]:
url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    # print(r.text)
    soup = BeautifulSoup(r, "lxml")
    # print(soup)

    # title 태그 가져오기
    title = soup.title
    print(f"title : {title}")
    print(f"title content : {title.get_text()}")
    print(f"title content : {title.string}")
    print(f"title parent : {title.parent}")
    print("==" * 30)
    # p 태그 가져오기
    p1 = soup.p
    print(f"p : {p1}")
    print(f"p : {p1.get_text().strip()}") # text 부를때는 공백제거
    print(f"p : {p1.attrs}")
    print(f"p : {p1["class"]}")
    print("==" * 30)
    # b 태그 가져오기
    b1 = soup.b
    print(f"b : {b1}")
    print(f"b : {b1.string.strip()}")
    

title : <title>The Dormouse's story</title>
title content : The Dormouse's story
title content : The Dormouse's story
title parent : <head>
<title>The Dormouse's story</title>
</head>
p : <p class="title">
<b> The Dormouse's story </b>
</p>
p : The Dormouse's story
p : {'class': ['title']}
p : ['title']
b : <b> The Dormouse's story </b>
b : The Dormouse's story


In [33]:
# 문서의 구조를 이용한 요소 찾기
# parent, children, next_sibling....

url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    # body = soup.body
    # print(f"body children : {body.children}")
    # for child in body.children:
    #     print(child)

    # 첫번째 p 요소 찾기
    p1 = soup.p
    p2 = p1.find_next_sibling("p")
    print(f"p2 : {p2}")
    print(f"p2 : {p2.get_text().strip()}")
    # print(f"p2 : {p2.string.strip()}") # AttributeError: 'NoneType' object has no attribute 'strip'
    print(f"p2 : {p2.attrs}")
    print(f"p2 : {p2["class"]}")
  


p2 : <p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>
      and
      <a class="sister" href="http://example.com/tillie" id="link3"> Tillie </a>
      ; and they lived at the bottom of a well.
    </p>
p2 : Once upon a time there were three little sisters; and their names were
       Elsie 
      ,
       Lacie 
      and
       Tillie 
      ; and they lived at the bottom of a well.
p2 : {'class': ['story']}
p2 : ['story']


In [58]:
# find() : 조건을 만족하는 요소 하나 찾기
# find_all() : 조건을 만족하는 요소 모두 찾기

url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    head = soup.find("head")
    print(head)
    print("=" * 80)

    # p1 = soup.find("p")
    # print(p1)
    p1 = soup.find("p", attrs={"class":"title"})
    print(p1)
    print("=" * 80)

    # p2 = soup.find("p", attrs={"class":"story"})
    p2 = soup.find("p", class_="story")
    print(p2)
    print("=" * 80)

    p_all = soup.find_all("p", class_="story")
    # print(p_all)
    print(p_all[1])
    print("=" * 80)

    # a1 = soup.find("a", attrs={"id":"link1"})
    a1 = soup.find("a", id="link1")
    print(a1)
    print("=" * 80)

    a3 = soup.find("a", id="link3")
    print(a3["href"])
    print("=" * 80)

    a_tags = soup.find_all("a", limit=2)
    for ele in a_tags:
        print(ele)



<head>
<title>The Dormouse's story</title>
</head>
<p class="title">
<b> The Dormouse's story </b>
</p>
<p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>
      and
      <a class="sister" href="http://example.com/tillie" id="link3"> Tillie </a>
      ; and they lived at the bottom of a well.
    </p>
<p class="story">...</p>
<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
http://example.com/tillie
<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
<a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>


In [60]:
url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    # link1 = soup.find_all(string="Elsie")
    link1 = soup.find_all(string=["Elsie","Lacie","Tillie"])
    link2 = soup.find_all("a", string=["Elsie","Lacie","Tillie"])
    print(link1)
    print(link2)

['Elsie', 'Lacie', 'Tillie']
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


In [82]:
url = "https://pythonscraping.com/pages/warandpeace.html"

with requests.Session() as s:
    r = s.get(url)
    soup = BeautifulSoup(r.text, "lxml")

# 등장인물 출력
actors = soup.find_all("span", class_="green")
for actor in actors:
    print(actor.string, end="")
# 대사 출력
dialoues = soup.find_all("span", class_="red")
for d in dialoues:
    print(d.string)

Anna
Pavlovna SchererEmpress Marya
FedorovnaPrince Vasili KuraginAnna PavlovnaSt. Petersburgthe princeAnna PavlovnaAnna Pavlovnathe princethe princethe princePrince VasiliAnna PavlovnaAnna Pavlovnathe princeWintzingerodeKing of Prussiale Vicomte de MortemartMontmorencysRohansAbbe Moriothe Emperorthe princePrince VasiliDowager Empress Marya Fedorovnathe baronAnna Pavlovnathe Empressthe EmpressAnna Pavlovna'sHer MajestyBaron
FunkeThe princeAnna
Pavlovnathe EmpressThe princeAnatolethe princeThe princeAnna
PavlovnaAnna PavlovnaWell, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.
If y

In [103]:
url = "https://v.daum.net/v/20240524110601445"

with requests.Session() as s:
    r = s.get(url)
    soup = BeautifulSoup(r.text, "lxml")

    # 뉴스 제목
    title = soup.find("h3", class_="tit_view")
    print(f"제목 : {title.string}")
    # 작성자
    writer = soup.find("span", class_="txt_info")
    print(f"작성자 : {writer.string}")
    # 작성시간
    time = soup.find("span", class_="num_date")
    print(f"작성 날짜, 시간 : {time.string}")
    # 첫번째 문단 가져오기
    para = soup.find("p", attrs={"dmcf-ptype":"general"})
    print(f"첫번째 문단 : {para.text}")
    # 전체 본문 내용 가져오기
    paras = soup.find_all("p", attrs={"dmcf-ptype":"general"})
    for p in paras:
        print(p.text)

제목 : [속보] '음주 뺑소니' 김호중, 구속영장 심사 위해 법원 출석
작성자 : 이종원
작성 날짜, 시간 : 2024. 5. 24. 11:06
첫번째 문단 : '음주 뺑소니' 김호중, 구속영장 심사 위해 법원 출석 
'음주 뺑소니' 김호중, 구속영장 심사 위해 법원 출석 
김호중 "진심으로 죄송…법원 심문 잘 받겠다" 
소속사 대표·본부장 등 구속영장 심사도 함께 진행 
김호중 등 구속 여부 오늘 안에 결론 전망 
검찰 "사안 중대하고 증거인멸 우려 커 검사 직접 출석" 
김호중, 위험운전치상·범인도피방조 등 4개 혐의 적용 
경찰, 김호중 만취 정황 포착…직접 증거인멸도 의심 
사고 낸 뒤 매니저와 옷 갈아입고 '바꿔치기' 
사고 차량 등에선 블랙박스 메모리 카드 훼손 
◇ 자세한 뉴스가 이어집니다. 
YTN 이종원 (jongwon@ytn.co.kr)
※ '당신의 제보가 뉴스가 됩니다' 
[카카오톡] YTN 검색해 채널 추가 
[전화] 02-398-8585 
[메일] social@ytn.co.kr
[저작권자(c) YTN 무단전재, 재배포 및 AI 데이터 활용 금지]


In [5]:
# css select 사용
# select() : 전체요소 / select_one()

url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    title = soup.select_one("p.title > b")
    print(title)

    link1 = soup.select_one("#link1")
    print(link1)

<b> The Dormouse's story </b>
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


In [10]:
url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    stories = soup.select("p.story > a") # 리스트로 반환
    # print(stories)

    for story in stories:
        print(story)
        print(story.text)
        print(story.string)
        print(story.get_text())

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
Elsie
Elsie
Elsie
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
Lacie
Lacie
Lacie
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
Tillie
Tillie
Tillie


In [14]:
url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    stories = soup.select("p.story")
    # print(stories)

    for story in stories:
        temp = story.find_all("a")
        
        if temp:
            for v in temp:
                print("====", v)
                print("====", v.string)
        else:
                print("===> ", story)
                print("===> ", story.string)

==== <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
==== Elsie
==== <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
==== Lacie
==== <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
==== Tillie
===>  <p class="story">...</p>
===>  ...


In [25]:
# select(), select_one() 으로 변경
url = "https://v.daum.net/v/20240524110601445"

with requests.Session() as s:
    r = s.get(url)
    soup = BeautifulSoup(r.text, "lxml")

    # 뉴스 제목
    title = soup.select_one("h3")
    print(f"제목 : {title.string}")

    # # 작성자
    writer = soup.select_one("span")
    print(f"작성자 : {writer.string}")

    # # 작성시간
    time = soup.select_one("span > span.num_date")
    print(f"작성 날짜, 시간 : {time.string}")

    # # 첫번째 문단 가져오기
    para = soup.select_one("p[dmcf-ptype='general']")
    print(f"첫번째 문단 : {para.text}")

    # # 전체 본문 내용 가져오기
    paras = soup.select("p[dmcf-ptype='general']")
    for p in paras:
        print(p.text)

제목 : [속보] '음주 뺑소니' 김호중, 구속영장 심사 위해 법원 출석
작성자 : 이종원
작성 날짜, 시간 : 2024. 5. 24. 11:06
첫번째 문단 : '음주 뺑소니' 김호중, 구속영장 심사 위해 법원 출석 
'음주 뺑소니' 김호중, 구속영장 심사 위해 법원 출석 
김호중 "진심으로 죄송…법원 심문 잘 받겠다" 
소속사 대표·본부장 등 구속영장 심사도 함께 진행 
김호중 등 구속 여부 오늘 안에 결론 전망 
검찰 "사안 중대하고 증거인멸 우려 커 검사 직접 출석" 
김호중, 위험운전치상·범인도피방조 등 4개 혐의 적용 
경찰, 김호중 만취 정황 포착…직접 증거인멸도 의심 
사고 낸 뒤 매니저와 옷 갈아입고 '바꿔치기' 
사고 차량 등에선 블랙박스 메모리 카드 훼손 
◇ 자세한 뉴스가 이어집니다. 
YTN 이종원 (jongwon@ytn.co.kr)
※ '당신의 제보가 뉴스가 됩니다' 
[카카오톡] YTN 검색해 채널 추가 
[전화] 02-398-8585 
[메일] social@ytn.co.kr
[저작권자(c) YTN 무단전재, 재배포 및 AI 데이터 활용 금지]


In [29]:
from fake_useragent import UserAgent

url = "https://finance.naver.com/"

userAgent = UserAgent()

headers = {"user-agent": userAgent.chrome}

with requests.Session() as s:
    r = s.get(url, headers=headers)
    print(r.text)
    # soup = BeautifulSoup(r.text, "lxml")
    
    
    

<!DOCTYPE HTML>
<html lang="ko">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
    <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=1.0,minimum-scale=1.0,user-scalable=no">
    <meta name="description" lang="ko" content="잠시 후 다시 확인해주세요! : 네이버쇼핑">
    <title>에러 페이지 : 네이버쇼핑</title>
    <link rel="stylesheet" type="text/css" href="//img.pay.naver.net/static/css/customer/naver_error.css">

    <script src="https://ssl.pstatic.net/static/fe/grafolio.js"></script>
</head>


<body>
<div id="u_skip" class="u_skip">
    <a href="#content">본문 바로가기</a>
</div>
<div class="wrap">
    <div class="header" role="banner">
        <h1 class="logo"><a href="//naver.com" class="logo_link"><img src="//img.pay.naver.net/static/images/customer/naver_logo.png" width="90" height="16"
                                                                             alt="네이버"></a></h1>
        <div class="nav" role="navigation">
            <a href="/