### BeautifulSoup 
- 파서(html, xml 의 형태로 내려온 데이터를 원하는 요소만 찾기 위해 필요)
- requests + bs4 : 이 조합으로 주로 크롤링
- 파서 종류
    - html.parser (두번째 속도)
    - lxml (속도가 가장 빠름) : 설치 필요 pip install lxml
    - html5lib (가장 느림)

In [1]:
import requests
from bs4 import BeautifulSoup

In [7]:
url = "https://v.daum.net/v/20240524104849821"

with requests.Session() as s:
    r = s.get(url)
    # print(r.text)
    soup = BeautifulSoup(r.text, "lxml")
    # print(soup)

    # 요소 접근
    # 태그명 사용
    print(soup.title)
    print(soup.h3)
    # get_text() : 태그의 텍스트 추출
    print(soup.title.get_text())
    # attrs : 태그 속성 추출
    print(soup.h3.attrs)

<title>의대증원 오늘 확정…전공의·의대생 복귀 가능성 더 멀어졌다</title>
<h3 class="tit_view" data-translation="true">의대증원 오늘 확정…전공의·의대생 복귀 가능성 더 멀어졌다</h3>
의대증원 오늘 확정…전공의·의대생 복귀 가능성 더 멀어졌다
{'class': ['tit_view'], 'data-translation': 'true'}


In [18]:
url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    # print(r.text)
    soup = BeautifulSoup(r, "lxml")
    # print(soup)
    # title 태그 가져오기
    title = soup.title
    print(f"title {title}")
    print(f"title content {title.get_text()}")
    print(f"title content {title.string}")
    print(f"title parent {title.parent}")
    print("="*10)
    # p 태그 가져오기
    p1 = soup.p
    print(f"p {p1}")
    print(f"p {p1.get_text().strip()}")
    print(f"p {p1.attrs}")
    print(f"p {p1["class"]}")
    # b 태그 가져오기
    b1 = soup.b
    print(f"p {b1}")
    print(f"p {b1.get_text().strip()}")
    print(f"p {b1.string.strip()}")

title <title>
   The Dormouse's story
  </title>
title content 
   The Dormouse's story
  
title content 
   The Dormouse's story
  
title parent <head>
<title>
   The Dormouse's story
  </title>
</head>
p <p class="title">
<b>
    The Dormouse's story
   </b>
</p>
p The Dormouse's story
p {'class': ['title']}
p ['title']
p <b>
    The Dormouse's story
   </b>
p The Dormouse's story
p The Dormouse's story


In [22]:
# 문서의 구조를 이용한 요소 찾기
# parent, children, next_sibling.....

url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    # print(r.text)
    soup = BeautifulSoup(r, "lxml")

    # body = soup.body
    # print(f"body children {body.children}")
    # for child in body.children:
    #     print(child)

    # 첫번째 p 요소 찾기
    p1 = soup.p
    p2 = p1.find_next_sibling("p")
    print(f"p2 {p2}")
    print(f"p2 {p2.get_text().strip()}")
    # print(f"p2 {p2.string.strip()}")
    print(f"p2 {p2.attrs}")
    print(f"p2 {p2["class"]}")

p2 <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ; and they lived at the bottom of a well.
  </p>
p2 Once upon a time there were three little sisters; and their names were
   
    Elsie
   
   ,
   
    Lacie
   
   and
   
    Tillie
   
   ; and they lived at the bottom of a well.
p2 {'class': ['story']}
p2 ['story']


In [35]:
# find() : 조건을 만족하는 요소 한개 찾기
# find_all(): 조건을 만족하는 요소 모두 찾기

url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    # print(r.text)
    soup = BeautifulSoup(r, "lxml")

    head = soup.find("head")
    print(head)

    # p1 = soup.find("p")
    # print(p1)

    p1 = soup.find("p", attrs={"class":"title"})
    print(p1)

    # p2 = soup.find("p", attrs={"class":"story"})
    p2 = soup.find("p", class_="story")
    print(p2)

    p_all = soup.find_all("p", class_="story")
    # print(p_all)
    print(p_all[1])

    print("="*20)
    # a1 = soup.find("a", attrs={"id":"link1"})
    a1 = soup.find("a", id ="link1")
    print(a1)

    a3 = soup.find("a", id="link3")
    print(a3["href"])

    print("="*20)
    a_tags = soup.find_all("a", limit=2)
    for ele in a_tags:
        print(ele)


<head>
<title>
   The Dormouse's story
  </title>
</head>
<p class="title">
<b>
    The Dormouse's story
   </b>
</p>
<p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ; and they lived at the bottom of a well.
  </p>
<p class="story">
   ...
  </p>
<a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
http://example.com/tillie
<a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
<a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>


In [38]:
url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    # print(r.text)
    soup = BeautifulSoup(r, "lxml")

    # link1 = soup.find_all(string="Elsie")
    link1 = soup.find_all(string=["Elsie","Lacie","Tillie"])
    link2 = soup.find_all("a",string=["Elsie","Lacie","Tillie"])
    print(link1)
    print(link2)

['Elsie', 'Lacie', 'Tillie']
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]


In [41]:
url = "https://pythonscraping.com/pages/warandpeace.html"

with requests.Session() as s:
    r = s.get(url)    
    soup = BeautifulSoup(r.text, "lxml")

    # 등장인물 출력
    # names = soup.find_all("span",attrs={"class":"green"})
    names = soup.find_all("span", class_="green")
    for name in names:
        print(name.string, end="")

    # 대사 출력 
    dialoues = soup.find_all("span",class_="red")
    for d in dialoues:
        print(d.string)


Anna
Pavlovna SchererEmpress Marya
FedorovnaPrince Vasili KuraginAnna PavlovnaSt. Petersburgthe princeAnna PavlovnaAnna Pavlovnathe princethe princethe princePrince VasiliAnna PavlovnaAnna Pavlovnathe princeWintzingerodeKing of Prussiale Vicomte de MortemartMontmorencysRohansAbbe Moriothe Emperorthe princePrince VasiliDowager Empress Marya Fedorovnathe baronAnna Pavlovnathe Empressthe EmpressAnna Pavlovna'sHer MajestyBaron
FunkeThe princeAnna
Pavlovnathe EmpressThe princeAnatolethe princeThe princeAnna
PavlovnaAnna PavlovnaWell, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.
If y

In [45]:
url = "https://v.daum.net/v/20240524104849821"

with requests.Session() as s:
    r = s.get(url)
    # print(r.text)
    soup = BeautifulSoup(r.text, "lxml")

    # 뉴스 제목 
    title = soup.h3
    print(f"제목 : {title.text}")

    # 작성자 
    writer = soup.find("span", class_="txt_info")
    print(f"작성자 : {writer.string}")

    # 작성날짜와 시간
    num_date = soup.find("span", class_="num_date")
    print(f"작성날짜와 시간 : {num_date.string}")

    # 첫번째 문단 가져오기
    para = soup.find("p", attrs={"dmcf-ptype":"general"})
    print(f"첫번째 문단 {para.text}")

    # 전체 본문 내용 가져오기
    paras = soup.find_all("p", attrs={"dmcf-ptype":"general"})
    # print(paras)
    for p in paras:
        print(p.text)


제목 : 의대증원 오늘 확정…전공의·의대생 복귀 가능성 더 멀어졌다
작성자 : 천선휴 기자
작성날짜와 시간 : 2024. 5. 24. 10:48
첫번째 문단 (서울=뉴스1) 천선휴 기자 = 2025학년도 의과대학 정원이 24일 확정된다. 1999년 이후 27년 만의 의대정원 증원이다. 
[<p dmcf-pid="06iSrs1mpj" dmcf-ptype="general">(서울=뉴스1) 천선휴 기자 = 2025학년도 의과대학 정원이 24일 확정된다. 1999년 이후 27년 만의 의대정원 증원이다. </p>, <p dmcf-pid="pPnvmOts0N" dmcf-ptype="general">하지만 이로써 학교를 떠나 있는 의대생들과 병원을 이탈한 전공의들이 돌아올 가능성도 더 멀어졌다. </p>, <p dmcf-pid="UOW2uze7ua" dmcf-ptype="general">한국대학교육협의회는 24일 오후 제2차 대학입학전형위원회를 열고 의대 증원안이 포함된 대입전형 시행계획 변경안을 심의·확정한다. 이에 대한 심의 결과는 30일에, 대학별 모집요강은 31일에 발표된다. 이달 말이면 의대 증원 절차가 모두 마무리되는 것이다.</p>, <p dmcf-pid="uIYV7qdz7g" dmcf-ptype="general">일부 국립대에서는 의대 정원 증원을 확정하기 위해 필요한 학칙 개정이 부결되는 등 학내 갈등이 이어지고 있지만, 그럼에도 2025학년도 대입 전형과 모집정원은 그대로 확정된다는 게 교육부의 설명이다.</p>, <p dmcf-pid="7CGfzBJquo" dmcf-ptype="general">이로써 내년 전국 40개 의과대학은 전년보다 1509명이 늘어난 4567명의 신입생을 뽑게 된다. 동시에 '원점 재검토'를 복귀의 전제로 주장해오던 전공의와 의대생들이 돌아올 명분도 사라졌다. </p>, <p dmcf-pid="zwSB3pQ03L" dmcf-ptype="general">전공의들이 끝내 돌아오지 않으면 당장 내년에 전문의 2910명이 배출되지 못한다

In [4]:
# css select 사용
# select() : 전체 요소 / select_one()

url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    # print(r.text)
    soup = BeautifulSoup(r, "lxml")

    title = soup.select_one("p.title > b")
    print(title)

    link1 = soup.select_one("#link1")
    print(link1)

<b> The Dormouse's story </b>
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


In [7]:
url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    # print(r.text)
    soup = BeautifulSoup(r, "lxml")

    stories = soup.select("p.story > a")
    # print(stories)

    for story in stories:
        print(story)
        print(story.text)
        print(story.string)
        print(story.get_text())


<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
Elsie
Elsie
Elsie
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
Lacie
Lacie
Lacie
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
Tillie
Tillie
Tillie


In [9]:
url = "./story.html"

with open(url, "r") as f:
    r = f.read()
    # print(r.text)
    soup = BeautifulSoup(r, "lxml")

    stories = soup.select("p.story")
    # print(stories)

    for story in stories:
        temp = story.find_all("a")

        if temp:
            for v in temp:
                print("====", v)
                print("====", v.string)
        else:
            print("===> ",story)
            print("===> ",story.string)



==== <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
==== Elsie
==== <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
==== Lacie
==== <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>
==== Tillie
===>  <p class="story">...</p>
===>  ...


In [10]:
# select(), select_one() 으로 변경

url = "https://v.daum.net/v/20240524104849821"

with requests.Session() as s:
    r = s.get(url)
    # print(r.text)
    soup = BeautifulSoup(r.text, "lxml")

    # 뉴스 제목 
    title = soup.select_one("h3.tit_view")
    print(f"제목 : {title.text}")

    # 작성자 
    writer = soup.select_one("span.txt_info")
    print(f"작성자 : {writer.string}")

    # 작성날짜와 시간
    num_date = soup.select_one("span.num_date")
    print(f"작성날짜와 시간 : {num_date.string}")

    # 첫번째 문단 가져오기
    para = soup.select_one("p[dmcf-ptype='general']")
    print(f"첫번째 문단 {para.text}")

    # 전체 본문 내용 가져오기
    paras = soup.select("p[dmcf-ptype='general']")
    # print(paras)
    for p in paras:
        print(p.text)

제목 : 의대증원 오늘 확정…전공의·의대생 복귀 가능성 더 멀어졌다
작성자 : 천선휴 기자
작성날짜와 시간 : 2024. 5. 24. 10:48
첫번째 문단 (서울=뉴스1) 천선휴 기자 = 2025학년도 의과대학 정원이 24일 확정된다. 1999년 이후 27년 만의 의대정원 증원이다. 
(서울=뉴스1) 천선휴 기자 = 2025학년도 의과대학 정원이 24일 확정된다. 1999년 이후 27년 만의 의대정원 증원이다. 
하지만 이로써 학교를 떠나 있는 의대생들과 병원을 이탈한 전공의들이 돌아올 가능성도 더 멀어졌다. 
한국대학교육협의회는 24일 오후 제2차 대학입학전형위원회를 열고 의대 증원안이 포함된 대입전형 시행계획 변경안을 심의·확정한다. 이에 대한 심의 결과는 30일에, 대학별 모집요강은 31일에 발표된다. 이달 말이면 의대 증원 절차가 모두 마무리되는 것이다.
일부 국립대에서는 의대 정원 증원을 확정하기 위해 필요한 학칙 개정이 부결되는 등 학내 갈등이 이어지고 있지만, 그럼에도 2025학년도 대입 전형과 모집정원은 그대로 확정된다는 게 교육부의 설명이다.
이로써 내년 전국 40개 의과대학은 전년보다 1509명이 늘어난 4567명의 신입생을 뽑게 된다. 동시에 '원점 재검토'를 복귀의 전제로 주장해오던 전공의와 의대생들이 돌아올 명분도 사라졌다. 
전공의들이 끝내 돌아오지 않으면 당장 내년에 전문의 2910명이 배출되지 못한다. 이들 중엔 필수의료과에서 수련하던 전공의 1385명도 포함돼 있다. 가뜩이나 부족한 필수과 전문의들마저 1400여 명이 배출되지 않는다는 것이다. 
전문의 배출이 되지 않을 경우 군의관, 공중보건의 모집에도 영향을 미칠 수밖에 없다.
다만 의료계에선 전문의 시험만 남겨둔 레지던트 4년 차(3년제 진료과목은 3년 차) 전공의들은 복귀해 시험을 치를 것이라는 전망도 내놓고 있다. 하지만 대세를 뒤흔들 만큼의 수가 아닌 극소수에 불과할 것으로 보고 있다. 
의대생들이 돌아올 확률은 더욱 적어 보인다. 전공의들은 가정을 꾸리거나 외벌이인 

In [15]:
from fake_useragent import UserAgent

# url = "https://shopping.naver.com/home"
url = "https://shopping.naver.com/api/modules/gnb/category?id=root&_vc_=1717171131197"

userAgent = UserAgent()

headers = {"user-agent":userAgent.chrome}

with requests.Session() as s:
    r = s.get(url, headers=headers)
    print(r.text)
    #soup = BeautifulSoup(r.text, "lxml")



<!DOCTYPE HTML>
<html lang="ko">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
    <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=1.0,minimum-scale=1.0,user-scalable=no">
    <meta name="description" lang="ko" content="잠시 후 다시 확인해주세요! : 네이버쇼핑">
    <title>에러 페이지 : 네이버쇼핑</title>
    <link rel="stylesheet" type="text/css" href="//img.pay.naver.net/static/css/customer/naver_error.css">

    <script src="https://ssl.pstatic.net/static/fe/grafolio.js"></script>
</head>


<body>
<div id="u_skip" class="u_skip">
    <a href="#content">본문 바로가기</a>
</div>
<div class="wrap">
    <div class="header" role="banner">
        <h1 class="logo"><a href="//naver.com" class="logo_link"><img src="//img.pay.naver.net/static/images/customer/naver_logo.png" width="90" height="16"
                                                                             alt="네이버"></a></h1>
        <div class="nav" role="navigation">
            <a href="/