In [None]:
# 요청(requests) => 결과가 html로 넘어오는 경우
# html에서 원하는 정보 찾기 => 파싱

# BeautifylSoup 라이브러리 사용: pip install beautifulsoup4
# 파서
# 기본 파서 html.parser 설치 필요 없음, lxml는 설치 필요

In [None]:
import requests
from bs4 import BeautifulSoup

r = requests.get("https://v.daum.net/v/20230707084356035")
# 두번째 인자로 '파서' 지정
# html.parser, lxml, lxml-xml, html5lib 중 하나 사용
soup = BeautifulSoup(r.text, "lxml")

# 원하는 태그 뽑아내기
# print(soup)
# print(soup.head)
# print(soup.title)
# print(soup.body)
print(soup.h3) # 처음 만나는 h3 태그 가져오기
print(soup.h3.string) # h3 태그 안에 있는 순수 내용만 가져온다.
print(soup.h3.get_text())
print(soup.h3.attrs)


<h3 class="tit_view" data-translation="true">원희룡 "양평군민들 죄송, 기다려달라…도박? 이재명 가족 ·측근이 좋아해"</h3>
원희룡 "양평군민들 죄송, 기다려달라…도박? 이재명 가족 ·측근이 좋아해"
원희룡 "양평군민들 죄송, 기다려달라…도박? 이재명 가족 ·측근이 좋아해"
{'class': ['tit_view'], 'data-translation': 'true'}


In [None]:
# story.html 가져오기
with open("./story.html","r") as f:
    html = f.read()

soup = BeautifulSoup(html, "html.parser")
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <h1>
   H1 Area
  </h1>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" data-io="test" href="http://example.com/tillie" id="link2">
    Tillie
   </a>
   ; and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>



In [None]:
# 태그를 이용한 정보 찾기

# title 태그 찾기
print(soup.title)
# title 태그가 가지고 있는 내용 찾기
print(soup.title.string)
# title 태그의 부모 찾기: 타이틀 태그를 감싸고 있는 헤드 태그가 출력된다.
print(soup.title.parent)


<title>The Dormouse's story</title>
The Dormouse's story
<head>
<title>The Dormouse's story</title>
</head>


In [None]:
# h1 태그 찾기
print(soup.h1)
print(soup.h1.string)

<h1>H1 Area</h1>
H1 Area


In [None]:
# p 태그 찾기: 가장 처음 만나는 p 태그 찾기
print(soup.p)
print(soup.string)
print(soup.p.get_text().strip())
print(soup.p["class"]) # 하나만 있어도 결과가 리스트로 돌아온다.

<p class="title">
<b> The Dormouse's story </b>
</p>
None
The Dormouse's story
['title']


In [None]:
# b 태그 찾기
print(soup.b)
print(soup.b.string)

<b> The Dormouse's story </b>
 The Dormouse's story 


In [None]:
# find(): 가장 처음 만나는 태그
# find_all(): 모든 태그
print(soup.find("h1"))
print(soup.find("h1").string)

<h1>H1 Area</h1>
H1 Area


In [None]:
# 찾은 태그가 하나여도 결과는 무조건 리스트로 출력
# print(soup.find_all("p"))
for tag in soup.find_all("p"):
    print(tag)

<p class="title">
<b> The Dormouse's story </b>
</p>
<p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>
      and
      <a class="sister" href="http://example.com/tillie" id="link2"> Tillie </a>
      ; and they lived at the bottom of a well.
    </p>
<p class="story">...</p>


In [None]:
print(soup.find_all("p", class_="story"))

[<p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>
      and
      <a class="sister" href="http://example.com/tillie" id="link2"> Tillie </a>
      ; and they lived at the bottom of a well.
    </p>, <p class="story">...</p>]


In [None]:
print(soup.find_all("a"))
print(soup.find_all("a", class_="sister"))

for link in soup.find_all("a"):
    print(link.get("href")) # 링크 안의 href만 가져오고 싶어요.

print(soup.find_all("a", limit=2)) # 그 중에서 앞의 두 개만 가져와라
print(soup.find_all("a", string=["Elsie"]))

[<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>, <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>, <a class="sister" href="http://example.com/tillie" id="link2"> Tillie </a>]
[<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>, <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>, <a class="sister" href="http://example.com/tillie" id="link2"> Tillie </a>]
http://example.com/elsie
http://example.com/lacie
http://example.com/tillie
[<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>, <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>]


In [None]:
# find("a", class_="", limit=2, string=["Elsie"], id=""), find_all():
# class_: 클래스명 추가 지정
# limit: 가져오는 개수 제한
# string: 문자
# id: id 속성

a_tag = soup.find("a", id="link1", class_="sister")
print(a_tag)

<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>


In [None]:
a_tag = soup.find("a", attrs={"data-io":"test", "class":"sister"})
print(a_tag)

<a class="sister" data-io="test" href="http://example.com/tillie" id="link2"> Tillie </a>


In [None]:
# https://pythonscraping.com/pages/warandpeace.html 문서 읽어서 가져오기
import requests
from bs4 import BeautifulSoup

res = requests.get("https://pythonscraping.com/pages/warandpeace.html")
# print(res.text)
soup = BeautifulSoup(res.text, "html.parser") # lxml

# print(soup.get_text()) # get_text(): html 파일에서 문자만 싹 갖고온다.

# 등장인물 가져오기
persons = soup.find_all("span", class_="green")
for person in persons:
    print(person.string)

# 대사 가져오기
scripts = soup.find_all("span", class_="red")
for script in scripts:
    print(script.string)

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna
Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get("https://v.daum.net/v/20230710070126691")
soup = BeautifulSoup(res.text, "lxml")

# 뉴스 제목 가져오기
title = soup.find("h3")
print(title.string)

# 기자 이름 가져오기
name = soup.find("span", class_="txt_info")
print(name.string)

# 작성 날짜 가져오기
time = soup.find("span", class_="num_date")
print(time.string)

# 첫번째 문단
para = soup.find("p", attrs={"dmcf-pid":"QcZwLtKw3N"})
print(para.string)

para1 = soup.find_all("p", attrs={"dmcf-ptype":"general"})
print(para1[2].string)

황선우, 박태환 이후 12년만의 세계수영선수권 '금빛 역영' 도전
이대호
2023. 7. 10. 07:01
(서울=연합뉴스) 이대호 기자 = 전 세계 최대 규모의 수영 축제인 국제수영연맹 세계선수권대회에서 메달을 목에 걸어본 한국인은 단 3명뿐이다.
이후 명맥이 끊겼던 한국인 수영세계선수권대회 메달은 2019년 광주 대회의 김수지(울산시청)가 여자 다이빙 1ｍ 스프링보드 동메달로 되살렸다.


In [None]:
# 네이버 쇼핑 카테고리
import requests
from bs4 import BeautifulSoup

res = requests.get("https://shopping.naver.com/home")
soup = BeautifulSoup(res.text, "lxml")

category = soup.find_all("li", class_="category_list__y8A1h")
for c in category:
    print(c.get_text()) # string으로 못 갖고온다.

장마준비
여름휴가
여성패션
남성패션
화장품/미용
가구/인테리어
식품
출산/유아동
반려동물용품
생활/주방용품
가전


In [None]:
# find(), find_all()
# select_one(), select(): css 선택자 사용이 가능하다.
from bs4 import BeautifulSoup

with open("./story.html", "r") as f:
    html = f.read()

soup = BeautifulSoup(html, "html.parser")
# print(soup.prettify())

# b 태그 찾기
b_tag = soup.select_one("p.title > b")
print(b_tag)

<b> The Dormouse's story </b>


In [None]:
p_tag = soup.select_one("p.story")
print(p_tag)

<p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>
      and
      <a class="sister" data-io="test" href="http://example.com/tillie" id="link2"> Tillie </a>
      ; and they lived at the bottom of a well.
    </p>


In [None]:
a_tag = soup.select_one("a[data-io='test']")
print(a_tag)

<a class="sister" data-io="test" href="http://example.com/tillie" id="link2"> Tillie </a>


In [None]:
a_tags = soup.select("p.story > a")
print(a_tags)

for a in a_tags:
    print(a.string)

  

[<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>, <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>, <a class="sister" data-io="test" href="http://example.com/tillie" id="link2"> Tillie </a>]
 Elsie 
 Lacie 
 Tillie 


In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get("https://v.daum.net/v/20230710070126691")
soup = BeautifulSoup(res.text, "lxml")

# 뉴스 제목 가져오기
title = soup.select_one("h3")
print(title.string)

# 기자 이름 가져오기
name = soup.select_one("span.txt_info")
print(name.string)

# 작성 날짜 가져오기
time = soup.select_one("span.num_date")
print(time.string)

# 첫번째 문단
para = soup.select_one("p[dmcf-pid='QcZwLtKw3N']")
print(para.string)

para1 = soup.select("p[dmcf-ptype='general']")
print(para1[2].string)

황선우, 박태환 이후 12년만의 세계수영선수권 '금빛 역영' 도전
이대호
2023. 7. 10. 07:01
(서울=연합뉴스) 이대호 기자 = 전 세계 최대 규모의 수영 축제인 국제수영연맹 세계선수권대회에서 메달을 목에 걸어본 한국인은 단 3명뿐이다.
이후 명맥이 끊겼던 한국인 수영세계선수권대회 메달은 2019년 광주 대회의 김수지(울산시청)가 여자 다이빙 1ｍ 스프링보드 동메달로 되살렸다.


In [None]:
# https://pythonscraping.com/pages/page3.html
import requests
from bs4 import BeautifulSoup

res = requests.get("https://pythonscraping.com/pages/page3.html")
soup = BeautifulSoup(res.text, "lxml")

# Totally Normal Gifts 추출
title = soup.select_one("h1")
print(title.string)

# 모든 img 태그 추출(제목 행 옆 이미지 제외)
img_tags = soup.select("#giftList img")
for img in img_tags:
    print(img)
    print(img["src"])
    print(img.get("src"))

# 테이블 내용 추출
content = soup.select("#giftList")
for item in content:
    print(item.get_text().strip())


Totally Normal Gifts
<img src="../img/gifts/img1.jpg"/>
../img/gifts/img1.jpg
../img/gifts/img1.jpg
<img src="../img/gifts/img2.jpg"/>
../img/gifts/img2.jpg
../img/gifts/img2.jpg
<img src="../img/gifts/img3.jpg"/>
../img/gifts/img3.jpg
../img/gifts/img3.jpg
<img src="../img/gifts/img4.jpg"/>
../img/gifts/img4.jpg
../img/gifts/img4.jpg
<img src="../img/gifts/img6.jpg"/>
../img/gifts/img6.jpg
../img/gifts/img6.jpg
Item Title

Description

Cost

Image


Vegetable Basket

This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
Now with super-colorful bell peppers!

$15.00




Russian Nesting Dolls

Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! 8 entire dolls per set! Octuple the presents!

$10,000.52




Fish Painting

If something seems fishy about this painting, it's because it's a fish! Also hand-painted by trained monkeys!

$10,005.00




Dead Parrot

This is an ex-parrot! Or

In [None]:
for page_num in range(5):
    if page_num == 0:
        res = requests.get("https://www.clien.net/service/board/lecture")
    else:
        res =requests.get("https://www.clien.net/service/board/lecture?&od=T31&category=0&po="+str(page_num))
    soup = BeautifulSoup(res.text, "lxml")

# title 추출
titles= soup.select("span.subject_fixed")
for title in titles:
    print(title.string.strip())

우울감 (우울증, 스트레스) 대처 순서
턱관절 장애. 스트레칭 요고 강추합니다!!
[주간 코로나] 05월 3주 - 분석편 -
커넥션 (6) 카타고의 참패와 인공지능의 허점
[주간 코로나] 05월 3주 - 통계편 - <통권 145호>
유튜브 채널 관리(App + Chrome확장팩) 써보니 편하고 좋습니다.
윈도우 터미널,CMD 관리자 권한으로 실행하기...
로지텍 MX Keys 키보드 백라이트가 자동으로 안꺼질 때
소형 잡동사니 정리방법
1등급 tv는 어떻게 만들어지나
공부 단상 연재 12편
시니어를 위한 'EBS 평생학교'를 소개합니다.
이미지->PDF 변환 텔레그램 봇 만들기
애플워치 손목에 차지 않고 맥북 열기(잠금해제)
[주간 코로나] 05월 2주 - 분석편 -
정수기 자작 이동식 파우셋
SSD 핫딜에 SSD 사려는 SSD 알못이라면 꼭 읽었으면 좋겠읍미다.
PDF 파일 크롭하기
2023 Ver. 파세코 에어컨 (창문형 에어컨) 설치 후 외부소음차단하기
안보시는 TV 수신료 해지 및 환불 방법
구글 검색결과 클릭 빗나갈 때 이미지 검색 납치 방지하기
서피스 듀오 PTA-VOLTE에서 KT Volte 안되는 현상 해결 건
5분이면 충분해! 영어를 몰라도 쉽게 따라할 수 있는 고퀄리티 Ai편집
모니터 화면 쉽게 회전. 인텔 그래픽카드 아니어도 피봇,화면 회전 가능
인텔 글픽 전용! 모니터 화면회전 : 고개 돌리지 않고 사진보기
블렌더 강좌 - 블렌더로 바탕화면 만들기
저시력자 가독성 높인 온고딕 서체 (한국장애인개발원 개발)
레인지후드 자동화 - 열화상센서 온도 활용, 홈어시스턴트(HA)[내용 추가]
[주간 코로나] 05월 2주 - 통계편 - <통권 144호>


In [1]:
# 검색결과 list
# [{}, {}, {}.....]

# 딕셔너리 선언: news_item = {}
# 딕셔너리 내용 추가: news_item["title"]="파이썬 미래"

# 리스트 선언: news = []
# 리스트 추가: append()

news_item = {}
news = []

keyword = input("검색어 입력")

url = "https://news.google.com/search?q="+keyword+"&hl=ko&gl=KR&ceid=KR%3Ako"

res = requests.get(url)
soup = BeautifulSoup(res.text, "lxml") 

articles = soup.select("div.xrnccd article")

for article in articles:
  # 제목
  # print(article.select_one("h3").string)
    news_item["title"] = article.h3.string
  # 링크
    news_item["link"] = article.a["href"]
  # 작성자
    news_item["writer"] = article.img.get("alt")
  # 작성날짜
    news_item["date"] = article.time.string

    news.append(news_item)

    # print(title, link, writer, date)

print((news))

In [None]:
# 다나와 - 로그인 후 접근할 수 있는 페이지 크롤링
from fake_useragent import UserAgent

form_data = {
    "redirectUrl": "https://www.danawa.com/",
    "loginMemberType": "general",
    "id": "pjky5",
    "isSaveId": "true",
    "password": "12344321@a"
}

headers = {
    "user-agent": UserAgent().chrome,
    "Referer": "https://auth.danawa.com/login?url=https%3A%2F%2Fwww.danawa.com%2F"
}

with requests.Session() as s:
    # 로그인
    res = s.post("https://auth.danawa.com/login", form_data, headers=headers)

    # print(res.text)

    res = s.get("https://buyer.danawa.com/order/Order/orderList", headers=headers)

    soup = BeautifulSoup(res.text, "lxml")

    # id를 가지고 있는 p 태그 찾기
    check_id = soup.find("p", class_="user")
    print(check_id)

In [9]:
from openpyxl import Workbook
import requests
import re

wb = Workbook()

# 활성화 시트 가져오기
ws = wb.active
ws.title = "book"

ws.column_dimensions["B"].width = 30
ws.column_dimensions["C"].width = 100
ws.column_dimensions["D"].width = 30
ws.column_dimensions["E"].width = 30

ws.append(["번호","isbn","도서명","가격","출판사"])

# 네이버 오픈 api + 엑셀 저장
headers = {
    "X-Naver-Client-Id": "7qWsXKgFmxXhDxIX56ca",
    "X-Naver-Client-Secret": "jsqnAfuYOW"
}

url = "https://openapi.naver.com/v1/search/book.json"

start, num = 1, 0

for idx in range(2):
    start_num = start + (idx * 100)

params = {
    "query": "베르나르 베르베르",
    "display": "100",
    "start": str(start_num),
}    

res = requests.get(url, params=params, headers=headers)

data = res.json()

for item in data['items']:
    num += 1

    # 타이틀에서 <b> 태그 제거
    title = re.sub("(<.*?>)","",item['title'])

    ws.append([num, item['isbn'], item['title'], item['discount'], item['publisher']])
    ws.cell(row=num, column=5).hyperlink = item['link']

wb.save("book.xlsx")
wb.close()

In [20]:
from bs4 import BeautifulSoup

url = "https://www.gmarket.co.kr/n/best?viewType=G&groupCode=G06"

wb = Workbook()
ws = wb.active
ws.title = "20230710컴퓨터전자베스트"

# 특정 열 너비 조절
ws.column_dimensions["B"].width = 30 # 회사명
ws.column_dimensions["C"].width = 100 # 상품명
ws.column_dimensions["D"].width = 30 # 가격
ws.column_dimensions["E"].width = 100 # 상세정보url

ws.append(["순위", "회사명", "상품명", "가격", "상세정보url"])

res = requests.get(url)
soup = BeautifulSoup(res.text, "lxml")

best_list = soup.select("div.best-list li")

for idx, item in enumerate(best_list, start=1):
    product_info = item.select_one("a.itemname")
    # 상품명
    product_name = product_info.string
    # 링크 추출
    href = product_info["href"]
    # 가격
    product_price = item.select_one("div.s-price > strong span").get_text()

    product_detail = requests.get(href)
    soup2 = BeautifulSoup(product_detail.text, "lxml")
    
    # soup2 안에 담겨있는 회사명 추출
    seller = soup2.select_one("span.text__brand > .text")
    if not seller:
        # 셀러 추출
        seller = soup2.select_one("span.text__seller")
    
    seller_name = seller.get_text().strip()

    # print(idx, seller_name, product_name, product_price, href)
    ws.append([idx, seller_name, product_name, product_price, href])

    ws.cell(row=idx+1, column=5).hyperlink = href

wb.save("gmarket100.xlsx")
wb.close()