In [1]:
# 요청(requests) => 결과가 html로 넘어오는 경우
# html에서 원하는 정보 찾기 => 파싱

# BeautifulSoup 라이브러리 사용
# pip install beautifulsoup4
# 파서
# 기본 파서 html.parser 설치 필요 없음
#           lxml 설치 필요
# pip install lxml

In [2]:
import requests
from bs4 import BeautifulSoup

r = requests.get("https://v.daum.net/v/20230707085248275")
# 두번째 인자로 파서 지정
# html.parser, lxml, lxml-xml, html5lib
soup = BeautifulSoup(r.text,"lxml")

# print(soup)
# print(soup.title)
print(soup.h3) # 처음 만나는 h3 태그 가져오기
print(soup.h3.string) # h3 안의 내용 가져오기
print(soup.h3.get_text())

<h3 class="tit_view" data-translation="true">서울 아파트 매수심리 18주 연속 올랐다…지방은 하락세 지속</h3>
서울 아파트 매수심리 18주 연속 올랐다…지방은 하락세 지속
서울 아파트 매수심리 18주 연속 올랐다…지방은 하락세 지속


In [5]:
# story.html
from bs4 import BeautifulSoup
with open("./story.html","r") as f:
    html = f.read()

soup = BeautifulSoup(html, "html.parser")
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <h1>
   H1 Area
  </h1>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" data-io="test" href="http://example.com/tillie" id="link2">
    Tillie
   </a>
   ; and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>



In [26]:
# 태그를 이용한 정보 찾기

# title 태그 찾기
print(soup.title)
# title 태그가 가지고 있는 내용 찾기
print(soup.title.string)
# title 태그의 부모 찾기
print(soup.title.parent)

<title>The Dormouse's story</title>
The Dormouse's story
<head>
<title>The Dormouse's story</title>
</head>


In [45]:
# h1 태그 찾기
print(soup.h1)
print(soup.h1.string)

<h1>H1 Area</h1>
H1 Area


In [41]:
# p 태그 찾기 - 가장 처음 만나는 p 태그 찾기
print(soup.p)
print(soup.string)
print(soup.p.get_text())
print(soup.p.get_text().strip())
print(soup.p["class"]) # 속성 찾기 - 결과가 리스트로 돌아옴

<p class="title">
<b> The Dormouse's story </b>
</p>
None

 The Dormouse's story 

The Dormouse's story
['title']


In [49]:
# b 태그 찾기
print(soup.b)
print(soup.b.get_text())
print(soup.b.get_text().strip())

<b> The Dormouse's story </b>
 The Dormouse's story 
The Dormouse's story


In [55]:
# find() : 가장 처음 만나는 태그
# find_all() : 모든 태그
print(soup.find("h1"))
print(soup.find("h1").string)

<h1>H1 Area</h1>
H1 Area


In [56]:
print(soup.find_all("p"))

[<p class="title">
<b> The Dormouse's story </b>
</p>, <p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>
      and
      <a class="sister" href="http://example.com/tillie" id="link2"> Tillie </a>
      ; and they lived at the bottom of a well.
    </p>, <p class="story">...</p>]


In [61]:
# 찾은 태그가 하나여도 결과는 무조건 리스트임
# print(soup.find_all("p"))
for tag in soup.find_all("p"):
    print(tag)

<p class="title">
<b> The Dormouse's story </b>
</p>
<p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>
      and
      <a class="sister" href="http://example.com/tillie" id="link2"> Tillie </a>
      ; and they lived at the bottom of a well.
    </p>
<p class="story">...</p>


In [62]:
print(soup.find_all("p",class_="story"))

[<p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>
      and
      <a class="sister" href="http://example.com/tillie" id="link2"> Tillie </a>
      ; and they lived at the bottom of a well.
    </p>, <p class="story">...</p>]


In [67]:
print(soup.find_all("a"))
print(soup.find_all("a", class_="sister"))

for link in soup.find_all("a"):
    print(link.get("href"))

print(soup.find_all("a",limit=2))
print(soup.find_all("a",string=["Elsie"]))



[<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>, <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>, <a class="sister" href="http://example.com/tillie" id="link2"> Tillie </a>]
[<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>, <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>, <a class="sister" href="http://example.com/tillie" id="link2"> Tillie </a>]
http://example.com/elsie
http://example.com/lacie
http://example.com/tillie
[<a class="sister" href="http://example.com/elsie" id="link1"> Elsie </a>, <a class="sister" href="http://example.com/lacie" id="link2"> Lacie </a>]
[]


In [4]:
# find("a", class="", limit=2, string=["Elsie"], id=""), find_all() :
# class_ : 클래스명 추가 지정 
# limit : 가져오는 개수 제한
# string : 문자
# id : id 속성

a_tag = soup.find("a", id="link1", class_="sister")
print(a_tag)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


In [6]:
a_tag = soup.find("a", attrs={"data-io":"test","class":"sister"})
print(a_tag)

<a class="sister" data-io="test" href="http://example.com/tillie" id="link2">Tillie</a>


In [21]:
# 웹 요청 + 파싱

import requests
from bs4 import BeautifulSoup

res = requests.get("https://pythonscraping.com/pages/warandpeace.html")
# print(res.text)
soup = BeautifulSoup(res.text, "html.parser") # lxml

# html 모든 문자 가져오기
# print(soup.get_text())

# 등장인물 가져오기
# persons = soup.findAll("span", class_="green")
# for person in persons:
#     print(person.string)

# 대사 가져오기
contents = soup.findAll("span", attrs={"class":"red"})
for content in contents:
    print(content.string)



Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.
If you have nothing better to do, Count [or Prince], and if the
prospect of spending an evening with a poor invalid is not too
terrible, I shall be very charmed to see you tonight between 7 and 10-
Annette Scherer.
Heavens! what a virulent attack!
First of all, dear friend, tell me how you are. Set your friend's
mind at rest,
Can one be well while suffering morally? Can one be calm in times
like these if one has any feeling?
You are
staying the whole evening, I hope?
And the fete at the English ambassador's? Today is Wednesday.

In [39]:
import requests
from bs4 import BeautifulSoup

res = requests.get("https://v.daum.net/v/20230710100514542")

soup = BeautifulSoup(res.text,"lxml")

# 뉴스 제목
title = soup.find("h3", class_="tit_view")
print(title)
print(title.string)

# 작성자
writer = soup.find("span", class_="txt_info")
print(writer)
print(writer.string)

# 작성날짜와 시간
date_time = soup.find("span", class_="num_date")
print(date_time)
print(date_time.string)

# 첫번째 문단
para = soup.find("p", attrs={"dmcf-pid":"zlxhrfiH8w","dmcf-ptype":"general"})
print(para)
print(para.string)

para1 = soup.find_all("p", attrs={"dmcf-ptype":"general"})
print(para1[0].string)

<h3 class="tit_view" data-translation="true">尹 지지율 3주간 오름세 멈춰… 2.9%p 하락한 39.1%</h3>
尹 지지율 3주간 오름세 멈춰… 2.9%p 하락한 39.1%
<span class="txt_info">오장연 기자</span>
오장연 기자
<span class="num_date">2023. 7. 10. 10:05</span>
2023. 7. 10. 10:05
<p dmcf-pid="zlxhrfiH8w" dmcf-ptype="general"> 윤석열 대통령의 국정수행 긍정 평가가 3주 동안의 오름세를 멈추고 하락했다는 여론조사 결과가 10일 나왔다.</p>
 윤석열 대통령의 국정수행 긍정 평가가 3주 동안의 오름세를 멈추고 하락했다는 여론조사 결과가 10일 나왔다.
 윤석열 대통령의 국정수행 긍정 평가가 3주 동안의 오름세를 멈추고 하락했다는 여론조사 결과가 10일 나왔다.


In [49]:
# 네이버 쇼핑 카테고리
import requests
from bs4 import BeautifulSoup

res = requests.get("https://shopping.naver.com/home")

soup = BeautifulSoup(res.text,"html.parser")

categories = soup.find_all("li", class_="category_list__y8A1h")

for category in categories:
    print(category.get_text())

장마준비
여름휴가
여성패션
남성패션
화장품/미용
가구/인테리어
식품
출산/유아동
반려동물용품
생활/주방용품
가전


In [51]:
# find(), find_all()
# select_one(), select() : css 선택자 사용 가능

from bs4 import BeautifulSoup
with open("./story.html","r") as f:
    html = f.read()

soup = BeautifulSoup(html, "html.parser")
# print(soup.prettify())

# b 태그 찾기
b_tag = soup.select_one("p.title > b")
print(b_tag)


<b> The Dormouse's story </b>


In [55]:
p_tag = soup.select_one("p.story")
print(p_tag)

<p class="story">
      Once upon a time there were three little sisters; and their names were
      <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
      ,
      <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
      and
      <a class="sister" data-io="test" href="http://example.com/tillie" id="link2">Tillie</a>
      ; and they lived at the bottom of a well.
    </p>


In [56]:
a_tag = soup.select_one("#link1")
print(a_tag)


<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


In [57]:
a_tag = soup.select_one("a[data-io='test']")
print(a_tag)

<a class="sister" data-io="test" href="http://example.com/tillie" id="link2">Tillie</a>


In [60]:
a_tags = soup.select("p.story > a")
print(a_tags)
for a in a_tags:
    print(a.string)

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" data-io="test" href="http://example.com/tillie" id="link2">Tillie</a>]
Elsie
Lacie
Tillie


In [63]:
import requests
from bs4 import BeautifulSoup

res = requests.get("https://v.daum.net/v/20230710100514542")

soup = BeautifulSoup(res.text,"lxml")

# 뉴스 제목
title = soup.select_one("h3")
print(title)
print(title.string)

# 작성자
writer = soup.select_one("span.txt_info")
print(writer)
print(writer.string)

# 작성날짜와 시간
date_time = soup.select_one("span.num_date")
print(date_time)
print(date_time.string)

# 첫번째 문단
para = soup.select_one("p[dmcf-pid='zlxhrfiH8w']")
print(para)
print(para.string)

para1 = soup.select("p[dmcf-ptype='general']")
print(para1[0].string)

<h3 class="tit_view" data-translation="true">尹 지지율 3주간 오름세 멈춰… 2.9%p 하락한 39.1%</h3>
尹 지지율 3주간 오름세 멈춰… 2.9%p 하락한 39.1%
<span class="txt_info">오장연 기자</span>
오장연 기자
<span class="num_date">2023. 7. 10. 10:05</span>
2023. 7. 10. 10:05
<p dmcf-pid="zlxhrfiH8w" dmcf-ptype="general"> 윤석열 대통령의 국정수행 긍정 평가가 3주 동안의 오름세를 멈추고 하락했다는 여론조사 결과가 10일 나왔다.</p>
 윤석열 대통령의 국정수행 긍정 평가가 3주 동안의 오름세를 멈추고 하락했다는 여론조사 결과가 10일 나왔다.
 윤석열 대통령의 국정수행 긍정 평가가 3주 동안의 오름세를 멈추고 하락했다는 여론조사 결과가 10일 나왔다.


In [2]:
# https://pythonscraping.com/pages/warandpeace.html



import requests
from bs4 import BeautifulSoup

res = requests.get("https://pythonscraping.com/pages/page3.html")
soup = BeautifulSoup(res.text,"html.parser")

# Totally Normal Gifts 추출
title = soup.select_one("h1") # title = soup.select_one("h1")
print(title.string)

# 모든 img 태그 추출(제목 행 옆 이미지 제외)
imgs = soup.select("#giftList img")
for img in imgs:
    print(img)
    print(img["src"])
    print(img.get("src"))

# 테이블 내용추출
tables = soup.select("#giftList")
for item in tables:
    print(item.get_text().strip())




Totally Normal Gifts
<img src="../img/gifts/img1.jpg"/>
../img/gifts/img1.jpg
../img/gifts/img1.jpg
<img src="../img/gifts/img2.jpg"/>
../img/gifts/img2.jpg
../img/gifts/img2.jpg
<img src="../img/gifts/img3.jpg"/>
../img/gifts/img3.jpg
../img/gifts/img3.jpg
<img src="../img/gifts/img4.jpg"/>
../img/gifts/img4.jpg
../img/gifts/img4.jpg
<img src="../img/gifts/img6.jpg"/>
../img/gifts/img6.jpg
../img/gifts/img6.jpg
Item Title

Description

Cost

Image


Vegetable Basket

This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
Now with super-colorful bell peppers!

$15.00




Russian Nesting Dolls

Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! 8 entire dolls per set! Octuple the presents!

$10,000.52




Fish Painting

If something seems fishy about this painting, it's because it's a fish! Also hand-painted by trained monkeys!

$10,005.00




Dead Parrot

This is an ex-parrot! Or

In [94]:
# clien 팁과 강좌 게시판(1~5 page) 타이틀 추출

# https://www.clien.net/service/board/lecture

# https://www.clien.net/service/board/lecture?&od=T31&category=0&po=1
# https://www.clien.net/service/board/lecture?&od=T31&category=0&po=2
# https://www.clien.net/service/board/lecture?&od=T31&category=0&po=3
# https://www.clien.net/service/board/lecture?&od=T31&category=0&po=4

for page_num in range(5):
    if page_num == 0:
        res = requests.get("https://www.clien.net/service/board/lecture")
    else:
        res = requests.get("https://www.clien.net/service/board/lecture?&od=T31&category=0&po="+str(page_num))
    
    soup = BeautifulSoup(res.text,"lxml")

    # title 추출
    titles = soup.select("span.subject_fixed")
    for title in titles:
        print(title.string.strip())




세탁시 살균을 위한 구연산 농도
애플 비전 프로 개발을 위한 Xcode Beta Preview 사용해보기
아이폰 14 프로 RFID 스티커 위치 입니다.
(헛소리로 판명) 애플 비전 프로 국내 정발이 불가능한 이유
구글드라이브에 있는 사진을 링크로 공유하는 법
MS 게임패스 얼티밋 변환 비율 수정
서울대공원에 주차 할인 해주네요
유튜브 뮤직 모바일에 댓글 기능 및 추가 바로가기 액션이 생겼습니다
아이 자전거 개조기(핸들바 높이 높이기)
WEBP 저장되는 이미지를 PNG 로 저장 (PC, 엣지)
첫 단독 캠핑으로 현대 포터 캠핑카, 포레스트 사용기 (Feat. 가평 밤벌오토캠핑장)
노래 흥얼거리기(허밍)로 제목 찾기
아이폰에서 LDAC 사용 (기존 클리앙글 인용과 업데이트, 소노플로우, 샨링, M0, Q45)
[주간 코로나] 06월 4주 (06. 25. - 07. 01.) - 분석편 - <3주년 기념호>
[자동차] 재규어 / 랜드로버 부품 가격 조회
영어 연재글 Q:열심히 하면 갑자기 귀가 뚫리죠?
마팁)짜증나는 엑셀 앞뒤 빈 값 처리
플래시카드 서비스 사용기(quizlet)
의외로(?)순수 라틴어와 그리스어(출신 라틴어)의 구별이 유용한 이유 (의료영어위주)
[주간 코로나] 06월 4주 (06. 25. - 07. 01.) - 통계편 -
[코로나 정보] 만성 코로나19 증후군과 코로나19 예방접종
공부 13편 ㅡ 공부에서 중요한 분별 대상
전기밥솥 쿠쿠의 내구성은 사용자 문제
VoLTE 미사용시 미세팁
다크모드 강제 해제로 인한 힘든분들 보세요~
거의 모든 자기계발서 요약 10계명
벽돌 된 레노버 스마트 디스플레이 10' 살리기
맥북 활용 꿀팁 (윈도우에서 맥북으로 갈아타고 적용 팁)
다크모드 버그 있으신 분들 한 번 시도해 보세요.
다크모드 설정 방법
우울감이 자주 찾아오는 사람을 위한 습관 하나.
소소한 여행객이 덧붙여보는 여행 꿀팁
[주간 코로나] 06월 3주 (06. 18. - 06. 24.) - 분석편 -
독특한 색감을 만들어내는 방법 : 그랜드부다페스

In [114]:
# 구글 뉴스 - 파이썬
keyword = input("검색어 입력")

url = "https://news.google.com/search?q="+keyword+"&hl=ko&gl=KR&ceid=KR%3Ako"

res = requests.get(url)
soup = BeautifulSoup(res.text,"lxml")

# 화면에 보이는 모든 article 가져오기
articles = soup.select("div.xrnccd article")
for article in articles:
    # print(article)    
    # 제목
    # print(article.select_one("h3").string)
    # print(article.h3.string)
    title = article.h3.string
    # 링크
    link = article.a["href"]
    # 작성자 
    writer = article.img.get("alt")
    # 작성날짜 
    date = article.time.string

    print(title, link, writer, date)



[영상:THISCovery] 스타벅스 경동1960점 가면 매운맛 냉면은 필수! ./articles/CBMiQGh0dHBzOi8vd3d3LmhhbmkuY28ua3IvYXJ0aS9zb2NpZXR5L3NvY2lldHlfZ2VuZXJhbC8xMDk4NTc5Lmh0bWzSAQA?hl=ko&gl=KR&ceid=KR%3Ako 한겨레 6일 전
너무 비싼 평양냉면, 그런데 그만 빠져버렸습니다 ./articles/CBMiRGh0dHBzOi8vd3d3Lm9obXluZXdzLmNvbS9OV1NfV2ViL1ZpZXcvYXRfcGcuYXNweD9DTlROX0NEPUEwMDAyOTQxODk20gFCaHR0cHM6Ly9tLm9obXluZXdzLmNvbS9OV1NfV2ViL01vYmlsZS9hbXAuYXNweD9DTlROX0NEPUEwMDAyOTQxODk2?hl=ko&gl=KR&ceid=KR%3Ako 오마이뉴스 2일 전
올여름 냉면 가격이 '오싹'…유명 맛집은 1만5천원도 우습지 ./articles/CBMiOWh0dHBzOi8vd3d3LmhhbmkuY28ua3IvYXJ0aS9lY29ub215L2NvbnN1bWVyLzEwOTY1MTAuaHRtbNIBAA?hl=ko&gl=KR&ceid=KR%3Ako 한겨레 6월 19일
연수구, 지역 어르신 위한 후원물품 '사랑의 냉면' 전달 받아 ./articles/CBMiOGh0dHA6Ly93d3cueWVvbnN1LmluZm8vbmV3cy9hcnRpY2xlVmlldy5odG1sP2lkeG5vPTQ1MzI20gEA?hl=ko&gl=KR&ceid=KR%3Ako 연수신문 4일 전
"평양냉면의 시대가 오기를 기다렸다." 육수로 승부수 던진 김태현 벽제 ... ./articles/CBMiOWh0dHBzOi8vd3d3LmJsb3Rlci5uZXQvbmV3cy9hcnRpY2xlVmlldy5odG1sP2lkeG5vPTYwMzY5N9IBPGh0dHBzOi8vd3d3LmJsb3Rlci5uZXQvbmV3cy9hcnRpY2xlVmlld0FtcC5odG1sP2lkeG5vPTYwMzY

In [3]:
# 검색결과를 list 형태로 받고 기사 하나당 딕셔너리 구조로 받고싶음
# [ {"title":"파이선 미래", "link":"~~~", "writer":"한국경제신물", "date":"어제"},{},{}... ]

# 딕셔너리 선언 : news_item = {}
# 딕셔너리 내용 추가 : key, value 추가, news_item["title"] = "파이썬 미래"

# 리스트 선언 : news = []
# 리스트 추가 : append()
news_item={}
news = []

keyword = input("검색어 입력")

url = "https://news.google.com/search?q="+keyword+"&hl=ko&gl=KR&ceid=KR%3Ako"

res = requests.get(url)
soup = BeautifulSoup(res.text,"lxml")

# 화면에 보이는 모든 article 가져오기
articles = soup.select("div.xrnccd article")
for article in articles:    
    # 제목    
    news_item["title"] = article.h3.string
    # 링크
    news_item["link"] = article.a["href"]
    # 작성자 
    news_item["writer"] = article.img.get("alt")
    # 작성날짜 
    news_item["date"] = article.time.string
    
    news.append(news_item)
    print(news)
    # print(title, link, writer, date)

[{'title': '[영상:THISCovery] 스타벅스 경동1960점 가면 매운맛 냉면은 필수!', 'link': './articles/CBMiQGh0dHBzOi8vd3d3LmhhbmkuY28ua3IvYXJ0aS9zb2NpZXR5L3NvY2lldHlfZ2VuZXJhbC8xMDk4NTc5Lmh0bWzSAQA?hl=ko&gl=KR&ceid=KR%3Ako', 'writer': '한겨레', 'date': '6일 전'}]
[{'title': '너무 비싼 평양냉면, 그런데 그만 빠져버렸습니다', 'link': './articles/CBMiRGh0dHBzOi8vd3d3Lm9obXluZXdzLmNvbS9OV1NfV2ViL1ZpZXcvYXRfcGcuYXNweD9DTlROX0NEPUEwMDAyOTQxODk20gFCaHR0cHM6Ly9tLm9obXluZXdzLmNvbS9OV1NfV2ViL01vYmlsZS9hbXAuYXNweD9DTlROX0NEPUEwMDAyOTQxODk2?hl=ko&gl=KR&ceid=KR%3Ako', 'writer': '오마이뉴스', 'date': '2일 전'}, {'title': '너무 비싼 평양냉면, 그런데 그만 빠져버렸습니다', 'link': './articles/CBMiRGh0dHBzOi8vd3d3Lm9obXluZXdzLmNvbS9OV1NfV2ViL1ZpZXcvYXRfcGcuYXNweD9DTlROX0NEPUEwMDAyOTQxODk20gFCaHR0cHM6Ly9tLm9obXluZXdzLmNvbS9OV1NfV2ViL01vYmlsZS9hbXAuYXNweD9DTlROX0NEPUEwMDAyOTQxODk2?hl=ko&gl=KR&ceid=KR%3Ako', 'writer': '오마이뉴스', 'date': '2일 전'}]
[{'title': "올여름 냉면 가격이 '오싹'…유명 맛집은 1만5천원도 우습지", 'link': './articles/CBMiOWh0dHBzOi8vd3d3LmhhbmkuY28ua3IvYXJ0aS9lY29ub215L2NvbnN1bWVyLzEwOTY1

In [7]:
# 다나와

# https://www.danawa.com/
# 로그인 : https://auth.danawa.com/login?url=https%3A%2F%2Fwww.danawa.com%2F
from fake_useragent import UserAgent

form_data = {
    "redirectUrl": "https://www.danawa.com/", 
    "loginMemberType": "general",
    "id": "rkdtjdduq88",
    "isSaveId": "true",
    "password": "dutajrdj123@@@"
}

headers = {
    "user-agent":UserAgent().chrome,
    "Referer" : "https://auth.danawa.com/login?url=https%3A%2F%2Fwww.danawa.com%2F"
}

with requests.Session() as s:
    # 로그인한것처럼 시도
    res = s.post("https://auth.danawa.com/login",form_data,headers=headers)

    # print(res.text)
    res = s.get("https://buyer.danawa.com/order/Order/orderList", headers=headers)

    soup = BeautifulSoup(res.text, "lxml")

    # id 를 가지고 있는 p 태그 찾기
    check_id = soup.find("p", class_="user")
    print(check_id)


SSLError: HTTPSConnectionPool(host='buyer.danawa.com', port=443): Max retries exceeded with url: /order/Order/orderList (Caused by SSLError(SSLError(1, '[SSL: SSLV3_ALERT_HANDSHAKE_FAILURE] sslv3 alert handshake failure (_ssl.c:1002)')))

In [24]:
# 네이버 오픈 api + 엑셀 저장
from openpyxl import Workbook

wb = Workbook() 
# 활성화 시트 가져오기
ws = wb.active
ws.title = "iphone"

# 특정 열 너비 조절
ws.column_dimensions["B"].width = 100
ws.column_dimensions["C"].width = 70

# 타이틀 행 삽입
ws.append(["순위","상품명","상세주소"])

headers = {
    "X-Naver-Client-Id": "9tvbl4_5W_kZ82llVJMn",
    "X-Naver-Client-Secret": "gY_G1ehcqt",
}


url = "https://openapi.naver.com/v1/search/shop.json"

# https://openapi.naver.com/v1/search/shop.json?query=아이폰&display=100&start=1

start, num = 1, 0

for idx in range(10):
    # 1, 101, 201, 301....
    start_num = start + (idx * 100)

    params = {
        "query" : "아이폰",
        "display":"100",
        "start": str(start_num),

    }
    
    res = requests.get(url, params=params, headers=headers)

    # print(res.url)

    data = res.json()

    for item in data['items']:
        num +=1
        # print(num, item['title'], item['link'])
        ws.append([num, item['title'], item['link']])
        ws.cell(row=num, column=3).hyperlink = item['link']

wb.save("naver.xlsx")
wb.close()



In [13]:
from openpyxl import Workbook

wb = Workbook()  # 워크북 객체 생성

wb.save("naver.xlsx")
wb.close()

In [25]:
# isbn, title, discount, publisher
# naver open api - book(book.xlsx)

import requests
from openpyxl import Workbook

wb = Workbook()
ws = wb.active
ws.title = "book"

ws.append(["번호","isbn","도서명","가격","출판사"])

# 특정 열 너비 조절
ws.column_dimensions["B"].width = 30 # isbn
ws.column_dimensions["C"].width = 70 # title
ws.column_dimensions["D"].width = 20 # discount
ws.column_dimensions["E"].width = 20 # publisher

headers = {
    "X-Naver-Client-Id": "9tvbl4_5W_kZ82llVJMn",
    "X-Naver-Client-Secret": "gY_G1ehcqt",
}

url = "https://openapi.naver.com/v1/search/book.json"

start, num = 1, 0

for idx in range(2):
    # 1, 101, 201, 301....
    start_num = start + (idx * 100)

    params = {
        "query" : "베르나르 베르베르",
        "display":"100",
        "start": str(start_num),

    }
    
    res = requests.get(url, params=params, headers=headers)

    # print(res.url)

    data = res.json()

    for item in data['items']:
        num +=1        
        ws.append([num, item['isbn'],item['title'],item['discount'],item['publisher']])

wb.save("book.xlsx")
wb.close()



In [54]:
import requests
from bs4 import BeautifulSoup

# gmarket best - 컴퓨터/전자 카테고리
# https://www.gmarket.co.kr/n/best?viewType=G&groupCode=G06

# 상품명, 가격
url = "https://www.gmarket.co.kr/n/best?viewType=G&groupCode=G06"

res = requests.get(url)

soup = BeautifulSoup(res.text,"html.parser")

best_list = soup.select("div.best-list li")

# enumerate(리스트)

for idx,item in enumerate(best_list,start=1):
    # 상품명
    product_name = item.select_one("a.itemname").string
    # 가격
    product_price = item.select_one("div.s-price > strong span").get_text()
    
    print(idx,product_name,product_price)


1 [Lenovo]태블릿 p12 샤오신패드 2022 pad 2022 6+128G 10.6인치 WIFI 중국내수용 172,800원
2 [Lenovo]레노버 P12 XiaoxinPad 2022 태블릿 PC 테블릿 4+128G 중국내수용 154,000원
3 [르젠]르젠 앱연동 스마트 BLDC 리모컨 선풍기 LZEF-DC02 71,160원
4 [대우](혜택가 3.5만원) 2023년형 대우 3단 높이조절 리모컨 34cm형 써큘레이터 선풍기 / DEF-KC3040 서큘레이터 39,900원
5 [숲속바람]Forest Wind 저소음 5엽 스탠드 선풍기 33,510원
6 [삼성전자]삼성 비스포크 제트 무선청소기 풀패키지 VS20B957F5E 220W 산토리니베이지 798,000원
7 [신일전자]2023 NEW 신일 BLDC 에어서큘레이터 S9 베이지(SIF-CS30BG) 132,000원
8 [윈드피아]가정용 업소용 스탠드 리모컨 선풍기 인기상품 1700R 39,900원
9 [로지텍](빠른직구) 로지텍 MX Master 3S 블루투스 무선 마우스 미개봉 정품 재고보유 105,900원
10 [코드나인]탁상용 휴대용 선풍기_FAN190 /화이트+화이트 36,600원
11 [쿠쿠](혜택가 5.9만원) 쿠쿠 본사직영 20L 전자레인지 CMW-A201DW 67,510원
12 [DELL]E2722HS 27인치 FHD IPS 16:9 VESA HDMI DP VGA 내장스피커 델 모니터 3년 무상 (주문 폭주 출고 지연) 179,000원
13 [케어프린]자동 무선 멀티 야채 이유식 다지기 믹서기 600ml 46,800원
14 [대웅]대웅 가정용 스탠드선풍기  키높이선풍기 29,800원
15 맥심 화이트골드 170티 x6개입 총1020티 134,100원
16 [SK매직]SK매직 써큘레이터 FAN-CS1000MGR 무소음 써큘레이터 빈티지 그레이 71,890원
17 [에버홈]에버홈 글라스텐 파워 멀티 믹서기 EV-MC7000 59,800원
18 [Callia]갤럭시 C타입 휴대용 미니 18W 

In [75]:
import requests
from bs4 import BeautifulSoup

# gmarket best - 컴퓨터/전자 카테고리
# https://www.gmarket.co.kr/n/best?viewType=G&groupCode=G06

# 상품명, 가격
url = "https://www.gmarket.co.kr/n/best?viewType=G&groupCode=G06"

wb = Workbook()
ws = wb.active
ws.title = "20230710컴퓨터전자베스트"

ws.append(["순위","회사명","상품명","가격","상세정보url"])

ws.column_dimensions["B"].width = 30 # 회사명
ws.column_dimensions["C"].width = 30 # 상품명
ws.column_dimensions["D"].width = 30 # 가격
ws.column_dimensions["E"].width = 70 # 상세정보url

res = requests.get(url)

soup = BeautifulSoup(res.text,"html.parser")

best_list = soup.select("div.best-list li")

# enumerate(리스트)

for idx,item in enumerate(best_list,start=1):
    product_info = item.select_one("a.itemname")
    # 상품명
    product_name = product_info.string
    # 링크 추출
    href = product_info["href"]
    # 가격
    product_price = item.select_one("div.s-price > strong span").get_text()
    # 회사명 추출
    product_detail = requests.get(href)
    soup2 = BeautifulSoup(product_detail.text, "html.parser")
    brand = soup2.select_one("span.text__brand > .text")
    if not brand:
        # 셀러 추출
        brand = soup2.select_one("span.text__seller")
    brand_name = brand.get_text().strip()

    # print(idx,brand_name,product_name,product_price,href)
    ws.append([idx,brand_name,product_name,product_price,href])

    ws.cell(row=idx+1,column=5).hyperlink = href

wb.save("gmarket100.xlsx")
wb.close()
        