### BeautifulSoup
- 파서 (html, xml 의 형태로 내려온 데이터를 원하는 요소만 찾기 위해 필요)
- requests + bs4 : 이 조합으로 주로 크롤링
- 파서 종류
    - html.parser (두번째 속도)
    - lxml (속도가 가장 빠름) : 설치가 필요 pip install lxml
    - html5lib (가장 느림)

In [2]:
import requests
from bs4 import BeautifulSoup

In [6]:
url = "https://v.daum.net/v/20240524110648466"

with requests.Session() as s:
    r = s.get(url)
    # soup = BeautifulSoup(r.text, "html.parser")
    soup = BeautifulSoup(r.text, "lxml")
    # print(soup)

    # 요소 접근
    # 1. 태그명 사용
    print(soup.title)
    print(soup.h3)
    # get_text() : 태그의 텍스트 추출
    print(soup.title.get_text())
    # attrs : 태그 속성 추출
    print(soup.h3.attrs)

<title>[속보]김호중, 구속심사 법원 도착…취재진 질문에 "죄송하다"</title>
<h3 class="tit_view" data-translation="true">[속보]김호중, 구속심사 법원 도착…취재진 질문에 "죄송하다"</h3>
[속보]김호중, 구속심사 법원 도착…취재진 질문에 "죄송하다"
{'class': ['tit_view'], 'data-translation': 'true'}


In [16]:
url = "./story.html"

with open(url,"r") as f:
    r = f.read()
    
    soup = BeautifulSoup(r, "lxml")
    # print(soup)

    # title 태그 가져오기
    title = soup.title
    print(f"title {title}")
    print(f"title content {title.get_text()}")
    print(f"title content {title.string}")
    print(f"title content {title.parent}")
    print("="*10)

    # p 태그 가져오기
    p1 = soup.p
    print(f"p {p1}")
    print(f"p {p1.get_text().strip()}") # strip() : 공백 제거
    print(f"p {p1.attrs}")
    print(f"p {p1["class"]}")

    # b 태그 가져오기
    b1 = soup.b
    print(f"p {b1}")
    print(f"p {b1.get_text().strip()}")
    print(f"p {b1.string.strip()}")


title <title>The Dormouse's story</title>
title content The Dormouse's story
title content The Dormouse's story
title content <head>
<title>The Dormouse's story</title>
</head>
p <p class="title">
<b> The Dormouse's story </b>
</p>
p The Dormouse's story
p {'class': ['title']}
p ['title']
p <b> The Dormouse's story </b>
p The Dormouse's story
p The Dormouse's story


In [20]:
# 문서의 구조를 이용한 요소 찾기
# parent, children, next_sibling ...

url = "./story.html"

with open(url,"r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    # body 의 자식들로 구조 찾기
    # body = soup.body
    # print(f"body children {body.children}")
    # for child in body.children:
    #     print(child)

    # 첫 번째 p 요소 찾기
    p1 = soup.p
    p2 = p1.find_next_sibling("p")
    print(f"p {p2}")
    print(f"p {p2.get_text().strip()}")
    # print(f"p {p2.string.strip()}") # 섞여있으면 string으로 못 갖고 옴
    print(f"p {p2.attrs}")
    print(f"p {p2["class"]}")

p <p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>
      and
      <a class="sister" href="http://example.com/tillie" id="link3"> Tillie </a>
      ; and they lived at the bottom of a well.
    </p>
p Once upon a time there were three little sisters; and their names were
       Elsie 
      ,
       Lacie 
      and
       Tillie 
      ; and they lived at the bottom of a well.
p {'class': ['story']}
p ['story']


In [26]:
# find() : 조건을 만족하는 요소 한 개 찾기
# find_all() : 조건을 만족하는 요소 모두 찾기

url = "./story.html"

with open(url,"r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    head = soup.find("head")
    print(head)
    
    # p1 = soup.find("p")
    # print(p1)
    
    p1 = soup.find("p", attrs={"class":"title"})
    print(p1)

    # p2 = soup.find("p", attrs={"class":"title"})
    p2 = soup.find("p", class_="story")
    print(p2)

    p_all = soup.find_all("p", class_="story")
    # print(p_all)
    print([p_all[1]])

    print("="*20)
    # a1 = soup.find("a", attrs = {"id":"link1"})
    a1 = soup.find("a", id = "link1")
    print(a1)

    a3 = soup.find("a", id = "link3")
    print(a3["href"])

    print("="*20)
    a_tags = soup.find_all("a", limit=2)
    for ele in a_tags:
        print(ele)

<head>
<title>The Dormouse's story</title>
</head>
<p class="title">
<b> The Dormouse's story </b>
</p>
<p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>
      and
      <a class="sister" href="http://example.com/tillie" id="link3"> Tillie </a>
      ; and they lived at the bottom of a well.
    </p>
[<p class="story">...</p>]
<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
http://example.com/tillie
<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
<a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>


In [29]:
url = "./story.html"

with open(url,"r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    # link1 = soup.find_all(string="Elsie")
    link1 = soup.find_all(string=["Elsie","Lacie","Tillie"])
    link2 = soup.find_all("a", string=["Elsie","Lacie","Tillie"])

    print(link1)
    print(link2)

['Elsie', 'Lacie', 'Tillie']
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


In [30]:
url = "https://pythonscraping.com/pages/warandpeace.html"

with requests.Session() as s:
    r = s.get(url)
    soup = BeautifulSoup(r.text, "lxml")

    # 등장인물 출력
    # names = soup.find_all("span", attrs={"class":"green"})
    names = soup.find_all("span", class_="green")
    for name in names:
        print(name.string, end="")

    # 대사 출력
    dialogues = soup.find_all("span", class_="red")
    for d in dialogues:
        print(d.string)

Anna
Pavlovna SchererEmpress Marya
FedorovnaPrince Vasili KuraginAnna PavlovnaSt. Petersburgthe princeAnna PavlovnaAnna Pavlovnathe princethe princethe princePrince VasiliAnna PavlovnaAnna Pavlovnathe princeWintzingerodeKing of Prussiale Vicomte de MortemartMontmorencysRohansAbbe Moriothe Emperorthe princePrince VasiliDowager Empress Marya Fedorovnathe baronAnna Pavlovnathe Empressthe EmpressAnna Pavlovna'sHer MajestyBaron
FunkeThe princeAnna
Pavlovnathe EmpressThe princeAnatolethe princeThe princeAnna
PavlovnaAnna PavlovnaWell, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.
If y

In [3]:
url = "https://v.daum.net/v/20240524111151666"

with requests.Session() as s:
    r = s.get(url)
    soup = BeautifulSoup(r.text, "lxml")

    # 뉴스 제목
    title = soup.h3
    print(f"제목 : {title.text}")

    # 작성자
    writer = soup.find("span", class_="txt_info")
    print(f"작성자 : {writer.string}")
    
    # 작성날짜와 시간
    num_date = soup.find("span", class_="num_date")
    print(f"작성날짜와 시간 : {num_date.string}")
    
    # 첫번째 문단 가져오기
    para = soup.find("p", attrs = {"dmcf-ptype":"general"})
    print(f"첫번째 문단 {para.text}")
    
    # 전체 본문 내용 가져오기
    paras = soup.find_all("p", attrs={"dmcf-ptype":"general"})
    for p in paras:
        print(p.text)

제목 : "엔비디아 'HBM 테스트' 통과 못해"…삼성 "순조롭게 진행 중"(종합)
작성자 : 조소영 기자 김성식 기자 김재현 기자
작성날짜와 시간 : 2024. 5. 24. 11:11
첫번째 문단 (서울=뉴스1) 조소영 김성식 김재현 기자 = 삼성전자의 최신 고대역폭메모리(HBM) 반도체가 발열과 전력소비 문제로 미국 엔비디아의 그래픽처리장치(GPU) 납품 테스트를 아직 통과하지 못했다는 보도가 나왔다. 삼성전자는 이에 "테스트를 순조롭게 진행 중"이라고 반박했다.
(서울=뉴스1) 조소영 김성식 김재현 기자 = 삼성전자의 최신 고대역폭메모리(HBM) 반도체가 발열과 전력소비 문제로 미국 엔비디아의 그래픽처리장치(GPU) 납품 테스트를 아직 통과하지 못했다는 보도가 나왔다. 삼성전자는 이에 "테스트를 순조롭게 진행 중"이라고 반박했다.
로이터 통신은 24일 해당 사안에 정통한 익명의 소식통 3명을 인용해 "삼성전자가 미국 반도체 업체 엔비디아에 HBM을 납품하기 위한 테스트를 통과하지 못했다"고 보도했다.
소식통들은 삼성전자가 지난해부터 4세대 HBM인 'HBM3'와 5세대 HBM인 'HBM3E'를 엔비디아에 납품하는 테스트를 통과하기 위해 노력해왔다고 전했다. 그러나 지난 4월 삼성전자의 8층·12층짜리 HBM3E가 발열 및 전력소비와 관련한 엔비디아의 기준을 충족하지 못했다는 테스트 결과를 받았다고 언급했다.
삼성전자 경쟁사인 SK하이닉스는 2022년 6월부터 엔비디아에 HBM3를 납품하고 있고, 미국 마이크론도 엔비디아와 HBM3E 납품 계약을 체결한 상태다. 따라서 이번 테스트 탈락으로 HBM 후발주자인 삼성전자가 관련 시장에서 뒤처질 수 있다는 우려가 커졌다는 게 소식통들의 진단이다.
본래 게임과 영상에 활용되던 GPU는 방대한 양의 데이터를 한꺼번에 처리할 수 있어 인공지능(AI) 연산에 필수적인 고성능 반도체로 급부상했다. 지난해 생성형 AI 열풍으로 GPU 수요도 급증했는데, 엔비디아는 현재 전세계 GPU 시장의 80%를 독점하고 있다.
HBM은

In [4]:
# css select 사용
# select() : 전체 요소 (하나만 찾아도 리스트로 반환)
# select_one() : 한 개의 요소

url = "./story.html"

with open(url,"r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    title = soup.select_one("p.title > b")
    print(title)

    link1 = soup.select_one("#link1")
    print(link1)

<b> The Dormouse's story </b>
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


In [7]:
url = "./story.html"

with open(url,"r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    stories = soup.select("p.story > a")
    print(stories)

    for story in stories:
        print(story)
        print(story.text)
        print(story.string)
        print(story.get_text())

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
Elsie
Elsie
Elsie
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
Lacie
Lacie
Lacie
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
Tillie
Tillie
Tillie


In [8]:
url = "./story.html"

with open(url,"r") as f:
    r = f.read()
    soup = BeautifulSoup(r, "lxml")

    stories = soup.select("p.story")
    # print(stories)

    for story in stories:
        temp = story.find_all("a")

        if temp:
            for v in temp:
                print("****", v)
                print("====", v.string)
        else:
            print("===> ", story)
            print("===> ", story.string)

[<p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
      and
      <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
      ; and they lived at the bottom of a well.
    </p>, <p class="story">...</p>]


In [17]:
# select(), select_one() 으로 변경

url = "https://v.daum.net/v/20240524111151666"

with requests.Session() as s:
    r = s.get(url)
    soup = BeautifulSoup(r.text, "lxml")

    # 뉴스 제목
    title = soup.select_one("h3.tit_view")
    print(f"제목 : {title.text}")

    # 작성자
    writer = soup.select_one("span.txt_info")
    print(f"작성자 : {writer.string}")
    
    # 작성날짜와 시간
    num_date = soup.select_one("span.num_date")
    print(f"작성날짜와 시간 : {num_date.string}")
    
    # 첫번째 문단 가져오기
    para = soup.select_one("p[dmcf-ptype='general']")
    print(f"첫번째 문단 {para.text}")
    
    # 전체 본문 내용 가져오기
    paras = soup.select("p[dmcf-ptype='general']")
    for p in paras:
        print(p.text)

제목 : "엔비디아 'HBM 테스트' 통과 못해"…삼성 "순조롭게 진행 중"(종합)
작성자 : 조소영 기자 김성식 기자 김재현 기자
작성날짜와 시간 : 2024. 5. 24. 11:11
첫번째 문단 (서울=뉴스1) 조소영 김성식 김재현 기자 = 삼성전자의 최신 고대역폭메모리(HBM) 반도체가 발열과 전력소비 문제로 미국 엔비디아의 그래픽처리장치(GPU) 납품 테스트를 아직 통과하지 못했다는 보도가 나왔다. 삼성전자는 이에 "테스트를 순조롭게 진행 중"이라고 반박했다.
(서울=뉴스1) 조소영 김성식 김재현 기자 = 삼성전자의 최신 고대역폭메모리(HBM) 반도체가 발열과 전력소비 문제로 미국 엔비디아의 그래픽처리장치(GPU) 납품 테스트를 아직 통과하지 못했다는 보도가 나왔다. 삼성전자는 이에 "테스트를 순조롭게 진행 중"이라고 반박했다.
로이터 통신은 24일 해당 사안에 정통한 익명의 소식통 3명을 인용해 "삼성전자가 미국 반도체 업체 엔비디아에 HBM을 납품하기 위한 테스트를 통과하지 못했다"고 보도했다.
소식통들은 삼성전자가 지난해부터 4세대 HBM인 'HBM3'와 5세대 HBM인 'HBM3E'를 엔비디아에 납품하는 테스트를 통과하기 위해 노력해왔다고 전했다. 그러나 지난 4월 삼성전자의 8층·12층짜리 HBM3E가 발열 및 전력소비와 관련한 엔비디아의 기준을 충족하지 못했다는 테스트 결과를 받았다고 언급했다.
삼성전자 경쟁사인 SK하이닉스는 2022년 6월부터 엔비디아에 HBM3를 납품하고 있고, 미국 마이크론도 엔비디아와 HBM3E 납품 계약을 체결한 상태다. 따라서 이번 테스트 탈락으로 HBM 후발주자인 삼성전자가 관련 시장에서 뒤처질 수 있다는 우려가 커졌다는 게 소식통들의 진단이다.
본래 게임과 영상에 활용되던 GPU는 방대한 양의 데이터를 한꺼번에 처리할 수 있어 인공지능(AI) 연산에 필수적인 고성능 반도체로 급부상했다. 지난해 생성형 AI 열풍으로 GPU 수요도 급증했는데, 엔비디아는 현재 전세계 GPU 시장의 80%를 독점하고 있다.
HBM은

In [27]:
from fake_useragent import UserAgent

# url = "https://shopping.naver.com/home"
# category id
url = "https://shopping.naver.com/api/modules/gnb/category?id=root&_vc_=1717171191197"

userAgent = UserAgent()

headers = {"user-agent":userAgent.chrome}

with requests.Session() as s:
    r= s.get(url, headers=headers)
    print(r.text)
    # soup = BeautifulSoup(r.text,"lxml")
    
    # 1차 카테고리 가져오기
    # cate1 = soup.select_one("._categoryLayer_icon_Y5zup")
    # print(cate1)

<!DOCTYPE HTML>
<html lang="ko">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
    <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=1.0,minimum-scale=1.0,user-scalable=no">
    <meta name="description" lang="ko" content="잠시 후 다시 확인해주세요! : 네이버쇼핑">
    <title>에러 페이지 : 네이버쇼핑</title>
    <link rel="stylesheet" type="text/css" href="//img.pay.naver.net/static/css/customer/naver_error.css">

    <script src="https://ssl.pstatic.net/static/fe/grafolio.js"></script>
</head>


<body>
<div id="u_skip" class="u_skip">
    <a href="#content">본문 바로가기</a>
</div>
<div class="wrap">
    <div class="header" role="banner">
        <h1 class="logo"><a href="//naver.com" class="logo_link"><img src="//img.pay.naver.net/static/images/customer/naver_logo.png" width="90" height="16"
                                                                             alt="네이버"></a></h1>
        <div class="nav" role="navigation">
            <a href="/