# BeautifulSoup parser 비교

In [2]:
# 라이브러리 설치 여부 확인
# !pip list : beautifulsoup4와 lxml가 있음을 확인할 수 있다.

# 라이브러리 설치
# !pip install 패키지명
# !pip install html5lib

## html.parser

In [3]:
from bs4 import BeautifulSoup
# import bs4 로 하게 되면
# 아래에 bs4.BeautifulSoup 로 명시해줘야 한다.

soup = BeautifulSoup('<a></p>', 'html.parser')
print('html.parser') # html.parser
print(soup) # <a></a>
print('-'*40)

html.parser
<a></a>
----------------------------------------


## lxml

In [4]:
soup = BeautifulSoup('<a></p>', 'lxml')
print('lxml') # lxml
print(soup) # <html><body><a></a></body></html>
print('-'*40)

# 대충 집어넣어도, DOM 트리를 완성해준다.

lxml
<html><body><a></a></body></html>
----------------------------------------


## xml

In [5]:
soup = BeautifulSoup('<a></p>', 'xml')
print('xml') # xml
print(soup) # <?xml version="1.0" encoding="utf-8"?> // <a/>
print('-'*40)

# 싱글태그인 <a/>로 재해석 (싱글태그란? 열고 닫고를 한 번으로 처리하는 태그)

xml
<?xml version="1.0" encoding="utf-8"?>
<a/>
----------------------------------------


## html5lib

In [6]:
soup = BeautifulSoup('<a></p>', 'html5lib')
print('html5lib') # html5lib
print(soup) # <html><head></head><body><a><p></p></a></body></html>
print('-'*40)

# <a><p></p></a> 부가적인 태그까지 만들어냄
# 가장 느린 처리 속도

html5lib
<html><head></head><body><a><p></p></a></body></html>
----------------------------------------


# 기본 사용법

In [26]:
# 위키피디아 접속하여 웹 크롤러 검색하여 주소창 복사
# https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC
# 주소창에서 복사할 때는 한글로 보였지만, 실제로는 유니코드로 구성되어있다.

import requests
from bs4 import BeautifulSoup

url = 'https://ko.wikipedia.org/wiki/%EC%9B%B9_%ED%81%AC%EB%A1%A4%EB%9F%AC'
response = requests.get(url)
# 해당 페이지에 대한 html을 받아온 것이 response

# soup 객체 생성
soup = BeautifulSoup(response.text, 'html.parser')

# 태그를 이용한 접근
print(soup.title)
# <title>웹 크롤러 - 위키백과, 우리 모두의 백과사전</title>
print(soup.footer.ul.li)
# <li id="footer-info-lastmod"> 이 문서는 2022년 11월 2일 (수) 02:57에 마지막으로 편집되었습니다.</li>
print(soup.footer.ul.li.text)
# 이 문서는 2022년 11월 2일 (수) 02:57에 마지막으로 편집되었습니다.
print(soup.a)
# soup 객체의 수많은 a태그 중에서 첫 번째 element(태그)를 제공한 것
# <a class="mw-jump-link" href="#bodyContent">본문으로 이동</a>


# 태그와 속성을 이용한 접근 : 태그이름[속성이름]
# 속성이 발견되지 않을 경우 에러 발생
# print(soup.a['id']) # err


# find() 함수를 이용한 정보 추출
soup.find('a')
# <a class="mw-jump-link" href="#bodyContent">본문으로 이동</a>
# 제일 먼저 발견된 a태그 반환
# 더 디테일하게 찾으려면 속성도 추가하기

soup.find('a', attrs={'title':'구글봇'})
# <a href="/wiki/%EA%B5%AC%EA%B8%80%EB%B4%87" title="구글봇">구글봇</a>
# a element의 속성 중 title 속성의 값이 '구글봇'인 데이터 검색

soup.find(attrs={'title':'구글봇'})
# <a href="/wiki/%EA%B5%AC%EA%B8%80%EB%B4%87" title="구글봇">구글봇</a>
# title 속성의 값이 '구글봇'인 어떤 element를 찾아 출력

<title>웹 크롤러 - 위키백과, 우리 모두의 백과사전</title>
<li id="footer-info-lastmod"> 이 문서는 2022년 11월 2일 (수) 02:57에 마지막으로 편집되었습니다.</li>
 이 문서는 2022년 11월 2일 (수) 02:57에 마지막으로 편집되었습니다.
<a class="mw-jump-link" href="#bodyContent">본문으로 이동</a>


<a href="/wiki/%EA%B5%AC%EA%B8%80%EB%B4%87" title="구글봇">구글봇</a>

## 검색: 태그

In [37]:
import requests
from bs4 import BeautifulSoup

response = requests.get('https://www.naver.com')
soup = BeautifulSoup(response.text, 'html.parser')

print(soup.title)
# <title>NAVER</title>
print(soup.title.name) # title # 태그의 이름만 가져온다
print(soup.title.text) # NAVER # 태그 내의 문자열만 가져온다

print(soup.img)
# <img alt="KBS World" class="news_logo" height="20" src="https://s.pstatic.net/static/newsstand/2020/logo/light/0604/326.png"/>
# src는 이미지의 경로
print(soup.img['src'])
# https://s.pstatic.net/static/newsstand/2020/logo/light/0604/020.png

<title>NAVER</title>
title
NAVER
<img alt="동아일보" class="news_logo" height="20" src="https://s.pstatic.net/static/newsstand/2020/logo/light/0604/020.png"/>
https://s.pstatic.net/static/newsstand/2020/logo/light/0604/020.png


## 검색: find()

In [40]:
print(soup.find('a'))
# <a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>
# 제일 먼저 있는 a 태그

print(soup.find(id='search'))
# id 속성 중에서 값이 search인 정보를 갖고오는 것
# 해당 태그를 필두로 하여, sub 태그를 전부 갖고 온다.

<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>
<div class="search_area" data-clk-prefix="sch" id="search">
<form action="https://search.naver.com/search.naver" id="sform" method="get" name="sform" role="search">
<fieldset>
<legend class="blind">검색</legend>
<select class="blind" id="where" name="where" title="검색 범위 선택">
<option selected="selected" value="nexearch">통합검색</option><option value="post">블로그</option><option value="cafeblog">카페</option><option value="cafe">- 카페명</option><option value="article">- 카페글</option><option value="kin">지식iN</option><option value="news">뉴스</option><option value="web">사이트</option><option value="category">- 카테고리</option><option value="site">- 사이트</option><option value="movie">영화</option><option value="webkr">웹문서</option><option value="dic">사전</option><option value="100">- 백과사전</option><option value="endic">- 영어사전</option><option value="eedic">- 영영사전</option><option value="krdic">- 국어사전</option><option value="jpdic">- 일본어사전</option><option value="hanja">-

## 검색: find_all()

In [42]:
# print(soup.find_all('a'))
# 네이버 홈페이지 내 모든 a 태그 element를 가져옴

print(soup.find_all('a', limit=2))
# 네이버 홈페이지 내 2개의 a 태그 element를 가져옴

[<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>, <a href="#themecast"><span>주제별캐스트 바로가기</span></a>]


In [45]:
result = soup.find_all('span', attrs={'class':'blind'})
# 태그의 이름은 span 이면서, class가 blind인 것

# result = soup.find_all('span', class_='blind')와 동일한 것
# class가 class 선언시 사용되는 키워드이다보니까 변수나 함수 등의 식별자 이름으로 사용할 수 없다. 따라서, 직접 class라고 쓰지 못하고 언더스코어_를 붙인 것

print(len(result)) # 45

45


## [실습] 네이버 메인 언론사 목록 가져오기
- 네이버 홈페이지 첫 화면에서 언론사 이름만 추출하기

In [57]:
import requests
from bs4 import BeautifulSoup

response = requests.get('https://www.naver.com')
soup = BeautifulSoup(response.text, 'html.parser')

# <a href="#" class="thumb">                                                         <img height="20" alt="한국경제TV" class="news_logo" loading="lazy" src="https://s.pstatic.net/static/newsstand/2020/logo/light/0604/215.png">       </a>


result = soup.find_all('a', attrs={'class':'thumb'})
print(len(result)) # 24
print(result[0])
# <a class="thumb" href="#">
# <img alt="OSEN" class="news_logo" height="20" src="https://s.pstatic.net/static/newsstand/up/2020/0610/nsd151458769.png"/>
# <span class="thumb_dim"></span></a>

# r = soup.find_all('img')로 바로 하지 않은 것은 더욱 구체적으로 찾기 위함이다. img alt인 것이 엄청 많을 수도 있으니까!
# print(len(r)) #132

print(result[0].find('img'))
# <img alt="중앙일보" class="news_logo" height="20" src="https://s.pstatic.net/static/newsstand/up/2021/0824/nsd115034872.png"/>

print(result[0].find('img')['alt'])
# 서울경제


news_list = []
for n in result:
    news_list.append(n.find('img')['alt'])    
print(news_list)
# ['경향신문', '이데일리', '코리아헤럴드', '미디어오늘', '아이뉴스24', '스포탈코리아', '디지털타임스', '헤럴드경제', '스포츠동아', '지디넷코리아', '세계일보', 'YTN', '중앙데일리', '머니투데이', 'MBC', '뉴스펭귄', '인벤', '중앙SUNDAY', '텐아시아', '전기신문', '스포츠한국', 'BBS NEWS', '뉴스핌', '보안뉴스']

24
<a class="thumb" href="#">
<img alt="KBS World" class="news_logo" height="20" src="https://s.pstatic.net/static/newsstand/2020/logo/light/0604/326.png"/>
<span class="thumb_dim"></span></a>
<img alt="KBS World" class="news_logo" height="20" src="https://s.pstatic.net/static/newsstand/2020/logo/light/0604/326.png"/>
KBS World
['KBS World', '스포츠동아', '중앙일보', '지지통신', '아이뉴스24', '조선비즈', '한국일보', '뉴스타파', '한겨레', '아시아경제', '헤럴드경제', '오마이뉴스', '프레시안', '지디넷코리아', '시사인', '중앙SUNDAY', '사이언스타임즈', '법률방송뉴스', '뉴스토마토', '산업일보', '포브스코리아', '바이라인네트워크', '매일노동뉴스', 'SBS연예뉴스']


## 검색: select_one(), select()

In [3]:
# select_one()

import requests
from bs4 import BeautifulSoup

response = requests.get('https://www.naver.com')
soup = BeautifulSoup(response.text, 'html.parser')

print(soup.select_one('div > a'))
# 첫 번째 div 태그의 밑에 있는 (서브 태그) a태그

<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>


In [2]:
# select()

import requests
from bs4 import BeautifulSoup

response = requests.get('https://www.naver.com')
soup = BeautifulSoup(response.text, 'html.parser')

result = soup.select('div > a')
print(len(result)) # 217개 / 동적인 컨텐츠이므로 매번 갯수는 달라질 수 있다.
# 모든 div 태그의 밑에 있는 (서브 태그) a태그

236


##  텍스트 가져오기: get_text(), get(' ')
- 검색 결과에서 태그를 제외한 텍스트만 출력

In [3]:
t = soup.find('span', attrs={'class':'blind'})
print(t) # <span class="blind">네이버</span>
print(t.get_text()) # 네이버
print(t.text) # 네이버
# 위의 두 기능은 동일하다 : sub 태그의 텍스트까지 전부 다 가져옴

<span class="blind">네이버</span>
네이버
네이버


In [4]:
# 네이버 미세먼지

t = soup.find('a', attrs={'data-clk':'squ.dust'})
print(t)
print(t.get_text())
print(t.text)

<a class="air_area" data-clk="squ.dust" href="https://weather.naver.com/today/09680105?cpName=KMA">
<ul class="list_air">
<li class="air_item">미세<strong class="state state_normal">보통</strong></li>
<li class="air_item">초미세<strong class="state state_good">좋음</strong></li>
</ul>
<span class="location">삼성동</span>
</a>


미세보통
초미세좋음

삼성동



미세보통
초미세좋음

삼성동



In [7]:
# 네이버 미세먼지

t = soup.find('a', attrs={'data-clk':'squ.dust'})
print(t)
print(t.get('href'))

<a class="air_area" data-clk="squ.dust" href="https://weather.naver.com/today/09680105?cpName=KMA">
<ul class="list_air">
<li class="air_item">미세<strong class="state state_normal">보통</strong></li>
<li class="air_item">초미세<strong class="state state_good">좋음</strong></li>
</ul>
<span class="location">삼성동</span>
</a>
https://weather.naver.com/today/09680105?cpName=KMA


## 텍스트 가져오기: string
- 검색 결과에서 **태그 안에 또 다른 태그가 없는 경우** 해당 내용을 출력
- 검색 결과에서 태그 안에 또 다른 태그가 **있는** 경우 None 출력

In [18]:
t = soup.find('a', attrs={'data-clk':'squ.dust'})
print(t)
print(t.string) # None
# sub element가 존재하므로 None을 출력

<a class="air_area" data-clk="squ.dust" href="https://weather.naver.com/today/09680105?cpName=KMA">
<ul class="list_air">
<li class="air_item">미세<strong class="state state_normal">보통</strong></li>
<li class="air_item">초미세<strong class="state state_normal">보통</strong></li>
</ul>
<span class="location">삼성동</span>
</a>
None


In [20]:
t = soup.find('a', attrs={'data-clk':'squ.dust'})
t = t.find('span', {'class':'location'})
print(t)
print(t.string) # 삼성동
# sub element가 없으므로 해당 내용을 출력

<span class="location">삼성동</span>
삼성동


## 텍스트 가져오기: text
- get_text()와 동일
- 검색 결과에서 하위 자식 태그의 텍스트까지 문자열로 반환

# [실습] 네이버 웹툰 제목 가져오기

In [18]:
import requests
from bs4 import BeautifulSoup

url = 'https://comic.naver.com/webtoon/weekday'
response = requests.get(url)
response.raise_for_status()

soup = BeautifulSoup(response.text, 'html.parser')

result = soup.find_all('a', attrs={'class':'title'})
# print(len(result))
# print(result[0])
# print(result[574])

# <a href="/webtoon/list?titleId=648419&amp;weekday=mon" onclick="nclk_v2(event,'thm*m.tit','','1')" class="title" title="뷰티풀 군바리">뷰티풀 군바리</a>

for i, toon in enumerate(result, start=1):
    print(f'[{i:d}]: {toon.get_text()}')


[1]: 뷰티풀 군바리
[2]: 퀘스트지상주의
[3]: 참교육
[4]: 장씨세가 호위무사
[5]: 윈드브레이커
[6]: 팔이피플
[7]: 앵무살수
[8]: 소녀의 세계
[9]: 똑 닮은 딸
[10]: 버림받은 왕녀의 은밀한 침실
[11]: 신화급 귀속 아이템을 손에 넣었다
[12]: 퍼니게임
[13]: 잔불의 기사
[14]: 호랑신랑뎐
[15]: 신군
[16]: 북부 공작님을 유혹하겠습니다
[17]: 히어로메이커
[18]: 원하나
[19]: 물어보는 사이
[20]: 꼬리잡기
[21]: 강남의 기사
[22]: 루루라라 우리네 인생
[23]: 순정말고 순종
[24]: 결혼생활 그림일기
[25]: 리턴 투 플레이어
[26]: 이별 후 사내 결혼
[27]: 서브 남주가 파업하면 생기는 일
[28]: 더블클릭
[29]: 또다시, 계약 부부
[30]: 악당과 악당이 만나면
[31]: 수영만화일기
[32]: 황제와의 하룻밤
[33]: 제왕: 빛과 그림자
[34]: 사이다걸
[35]: 파운더
[36]: 꿈의 기업
[37]: 인섹터
[38]: 오빠집이 비어서
[39]: 미니어처 생활백서
[40]: 피폐물의 해피엔딩을 위하여
[41]: 랭커
[42]: 주작연애
[43]: 이제야 연애
[44]: 다시쓰는 연애사
[45]: 라서드
[46]: 헬크래프트
[47]: 불청객
[48]: 중독연구소
[49]: 하루의 하루
[50]: 입술이 예쁜 남자
[51]: 오늘의 비너스
[52]: 영앤리치가 아니야!
[53]: 우산 없는 애
[54]: 아슈타르테
[55]: 경비실에서 안내방송 드립니다
[56]: 너를 돌려차는 방법
[57]: 매지컬 급식:암살법사
[58]: 도깨비 부른다
[59]: 사랑의 헌옷수거함
[60]: 집사, 주세요!
[61]: 퇴근 후에 만나요
[62]: 파견체
[63]: 모스크바의 여명
[64]: 백호랑
[65]: 굿바이 유교보이
[66]: 최후의 금빛아이
[67]: 버그이터
[68]: 메리의 불타는 행복회로
[69]: 연애 연기대상
[70]: 루크 비셸 따라잡기
[71]: 

# [실습] 네이버 영화 순위 가져오기

In [38]:
import requests
from bs4 import BeautifulSoup

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver'
response = requests.get(url)
response.raise_for_status()

soup = BeautifulSoup(response.text, 'html.parser')

result = soup.find_all('div', attrs={'class':'tit3'})
# result = soup.find_all('td', attrs={'class':'title'})
# print(len(result))
# print(result[0])
# print(result[0].get_text())

# <td class="title">
#    <div class="tit3">
#       <a href="/movie/bi/mi/basic.naver?code=184513" title="교섭">교섭</a></div></td>

for i, movie in enumerate(result, start=1):
    print(f'{i:2d}위: {movie.get_text().strip()}')
# strip() : 좌우 공백 없애기

 1위: 교섭
 2위: 더 퍼스트 슬램덩크
 3위: 유령
 4위: 메간
 5위: 아바타: 물의 길
 6위: 영웅
 7위: 정이
 8위: 상견니
 9위: 바빌론
10위: 올빼미
11위: 천룡팔부: 교봉전
12위: 장화신은 고양이: 끝내주는 모험
13위: 오늘 밤, 세계에서 이 사랑이 사라진다 해도
14위: 스위치
15위: 라일 라일 크로커다일
16위: 새비지 맨
17위: 관계의 일변
18위: 앤트맨과 와스프: 퀀텀매니아
19위: 400번의 구타
20위: 별 볼일 없는 인생
21위: 젠틀맨
22위: 다음 소희
23위: 에브리씽 에브리웨어 올 앳 원스
24위: 데시벨
25위: 타이타닉: 25주년
26위: 더 메뉴
27위: 캐리와 슈퍼콜라
28위: 3000년의 기다림
29위: 생각 그런거 없는데요
30위: 범죄도시2
31위: 육사오(6/45)
32위: 세이레
33위: 문맨
34위: 엄마의 땅: 그리샤와 숲의 주인
35위: 카운트
36위: 열여덟, 어른이 되는 나이
37위: 탑건: 매버릭
38위: 인생은 아름다워
39위: 소울메이트
40위: 10일간의 애인
41위: 라인
42위: 애프터썬
43위: 서치 2
44위: 스즈메의 문단속
45위: 강남좀비
46위: 유랑의 달
47위: 헌트
48위: 이마 베프
49위: 1947 보스톤
50위: 외계+인 1부


# [실습] 다음 영화 포스터 가져오기

In [55]:
import requests
from bs4 import BeautifulSoup

url = 'https://movie.daum.net/ranking/reservation'
response = requests.get(url)
response.raise_for_status()

soup = BeautifulSoup(response.text, 'lxml')

result = soup.find_all('img', attrs={'class':'img_thumb'})
print(result[0])

# src 속성의 주소 : 이미지 경로
response = requests.get(result[0]['src'])
# response = requests.get(result[0].get('src'))

with open('poster.jpg', 'wb') as f:
    f.write(response.content) #바이너리 데이터는 text가 아닌 content로 가져오기
print('저장 완료!')

# <div class="poster_movie">
#     <img src="https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F0cdb0abb3d8da8c6332bf6a945a86f9a32f67abd" class="img_thumb" alt="아바타: 물의 길">

<img alt="방탄소년단: 옛 투 컴 인 시네마" class="img_thumb" src="https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fd2fef75e56d3ae4e7f360216073cc28373616fb1"/>
저장 완료!


In [57]:
import requests
from bs4 import BeautifulSoup

url = 'https://movie.daum.net/ranking/reservation'
response = requests.get(url)
response.raise_for_status()

soup = BeautifulSoup(response.text, 'lxml')

poster_img = soup.find_all('img', attrs={'class':'img_thumb'})


# 이미지를 저장할 폴더 생성
import os
img_dir = './poster.img/'
# 절대 경로: 'c:/Temp/poster.img/''
# 상대 경로: 현재 위치를 기준으로 경로 지정 (.은 현재폴더 /..은 상위폴더)
# 디렉토리 = 폴더


# 괄호 안의 파일 또는 디렉토리의 존재 여부 확인
if not os.path.exists(img_dir):
    # 현재 경로에 'poster_img' 폴더가 존재하지 않으면
    os.makedirs(img_dir)
    # 괄호 안의 이름으로 디렉토리 생성
    print('폴더 생성 완료')
else:
    print('이미 존재하는 폴더')
    
    
for i, poster in enumerate(poster_img, start=1):
    title = poster.get('alt')
    img_url = poster.get('src')
    
    print(i, ':', img_url)
    img_res = requests.get(img_url)
    
    if ':' in title: # 제목 내의 콜론은 에러를 발생시키므로 공백으로 대체
        title=title.replace(':',' ')
    
    with open(img_dir+'m{0:02d}_{1}'.format(i, title)+'.jpg', 'wb') as f:
        f.write(img_res.content)
        # open(파일 경로, 파일열기 모드)
        # 0번째 매개변수는 i이며 두 자리수로 맞추고, 1번째 매개변수는 title

print('그림 저장 완료!')


# <div class="poster_movie">
#     <img src="https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F0cdb0abb3d8da8c6332bf6a945a86f9a32f67abd" class="img_thumb" alt="아바타: 물의 길">

이미 존재하는 폴더
1 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fd2fef75e56d3ae4e7f360216073cc28373616fb1
2 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F0cdb0abb3d8da8c6332bf6a945a86f9a32f67abd
3 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fa0aaca4b87c541b11085139bd941da0996a78ec1
4 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F3a5d88d59461ecd997754fe9ea863f76326d4f4c
5 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F8cf05875cd680827ffdceca14ef26345a6b4497c
6 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2Fd331d74e425a3c71989ab14d9cbe83241377daa5
7 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daumcdn.net%2Fmovie%2F62c5652a3c98ab52e3f3acf6e6b028c89d476f27
8 : https://img1.daumcdn.net/thumb/C408x596/?fname=https%3A%2F%2Ft1.daum

# [실습] 네이버 뉴스 가져오기
- 경제 관련 언론사별 랭킹 뉴스 추출하기

In [24]:
import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com/main/ranking/popularDay.naver'
h = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Whale/3.18.154.13 Safari/537.36'} # 봇의 접근이 아닌 것처럼 보이기 위한 것
# 브라우저 별 user-agent 값 얻는 방법 : F12를 눌러 개발자 모드로 진입 -> console -> navigator.userAgent 입력 -> user-agent 값 확인

response = requests.get(url, headers=h)
response.raise_for_status()

soup = BeautifulSoup(response.text, 'lxml')
result = soup.find_all('div', attrs={'class':'rankingnews_box'})

news_list = []
for r in result:
    news = r.find('strong', attrs={'class':'rankingnews_name'}).get_text()
    if '경제' not in news:
        continue
    else:
        print('-'*15)
        print(news)

        news_list = r.find_all('a', attrs={'class':'list_title'})
        for i, n in enumerate(news_list, start=1):
            print(f'{i} : {n.get_text()}')


# <strong class="rankingnews_name">JTBC</strong>
# <a href="https://n.news.naver.com/article/437/0000330623?ntype=RANKING" class="list_title nclicks('RBP.rnknws')">[단독] 쌍방울 술자리서 '김성태-이재명' 통화…"변호사비 의혹 당사자가 연결"</a>

---------------
매일경제
1 : “이정도면 한국산도 굉장한데”…독일에 실망 유럽, 한국 탱크 ‘주목’
2 : 오십 넘으면 절반이 앓는다는 '그 병'…화장실 5분 넘기면 악성 치질 됩니다
3 : “슈퍼카 뽐내더니…법인차였어?” 연두색 번호판 이르면 7월 적용
4 : 부산 20대女 ‘돌려차기’ 사건 영상 공개…네티즌 ‘격분’ [영상]
5 : “분명 내 건데”…옆 펜션 앞 신발 그냥 가져와 신었다간 [여행 팩트체크]
---------------
아시아경제
1 : 실수령 47억…광주 '로또1등' 수동3장 동일인이었다
2 : '성관계는 부부만…' 조례안 검토한 서울시의회 '논란'
3 : "고래 떼죽음, 친환경 풍력발전이 범인"…환경단체 패닉
4 : 전차서 놓친 동생들, 58년만 재회…"교실서 3일을 기다렸어"
5 : 가스공사, 10조 미수금에 인력 감축한다
---------------
서울경제
1 : 로또 1등 수동 3장, 동일인 맞았다…'70억' 잭팟 인증샷
2 : 다문화가정 '아빠'되는 송중기, 정부서 받는 혜택 보니
3 : '영업익 2700억' 삼성 반도체 쇼크…TSMC '50분의 1' 추락
4 : 안철수 60.5% vs 김기현 37.1%…양자대결서 오차범위 밖 우세
5 : 기적의 생존이라더니…'테슬라 추락' 美 40대 감옥행 왜?
---------------
한국경제TV
1 : 삼성전자 쇼크에 2,400선 위태…내일은 SK하이닉스 [증시프리즘]
2 : "대졸 초봉 6500만원"…2년 연속 임금 두 자릿수 올린 회사
3 : 모간스탠리 "최고의 선택은 테슬라...목표가 220달러"
4 : '미분양' 7만가구 육박…건설사들 "사달라"
5 : `어닝쇼크`에도 감산 없다…1등 삼성 "미래 준비할 기회"
---------------
헤럴드경제
1 : “연예인 총동원에 1000억원 쏟아붓더니” 넷플릭스 천하에 터졌다
2 : “연봉 고작 1억원, 사표 냅니다” 국립의료원 의사 줄줄이 떠난다
3 : “성관계는 부부끼리만?”…시대착오적 ‘혼전순결 조례안’에 서울시교육

In [17]:
# A.

import requests
from bs4 import BeautifulSoup

url = 'https://news.naver.com/main/ranking/popularDay.naver'
h = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Whale/3.18.154.13 Safari/537.36'} # 봇의 접근이 아닌 것처럼 보이기 위한 것
# 브라우저 별 user-agent 값 얻는 방법 : F12를 눌러 개발자 모드로 진입 -> console -> navigator.userAgent 입력 -> user-agent 값 확인

response = requests.get(url, headers=h)
response.raise_for_status()

soup = BeautifulSoup(response.text, 'lxml')
temp = soup.find_all('div', attrs={'class':'rankingnews_box'})
# print(len(temp)) # 12 # 언론사의 목록은 총 12개
# print(temp[0])
# print(temp[0].strong.get_text())

for i in range(len(temp)):
    title = temp[i].strong.get_text() # 언론사 이름 추출
    # title = temp[i].strong.get_text()
    # 경제 관련 언론사 출력하기
    if '경제' not in title :
        continue
    
    print('-'*15)
    print(f'[{title}]')
    
    for j in range(len(temp[i])):
        subject = temp[i].find_all('a', attrs={'class':'list_title'})[j].get_text()
        print(f'{j+1} : {subject}')
        
        
        

# <div class="_officeCard _officeCard0" style="display: block">
#         <div class="rankingnews_box">
#             <a href="https://media.naver.com/press/015/ranking?type=popular" class="rankingnews_box_head nclicks('RBP.rnkpname')">
#                 <span class="rankingnews_thumb"><img src="https://mimgnews.pstatic.net/image/upload/office_logo/015/2020/08/11/logo_015_56_20200811194037.png" width="26" height="26" alt="한국경제"></span>
#                 <strong class="rankingnews_name">한국경제</strong>


# <div class="list_content">
#           <a href="https://n.news.naver.com/article/052/0001843267?ntype=RANKING" class="list_title nclicks('RBP.rnknws')">여성 2명 성폭행한 뒤 성전환해 여자구치소행...스코틀랜드 "제도 개편"</a>
#                         <span class="list_time ">1시간전</span>
#                     </div>

---------------
[아시아경제]
1 : 실수령 47억…광주 '로또1등' 수동3장 동일인이었다
2 : '성관계는 부부만…' 조례안 검토한 서울시의회 '논란'
3 : "고래 떼죽음, 친환경 풍력발전이 범인"…환경단체 패닉
4 : 전차서 놓친 동생들, 58년만 재회…"교실서 3일을 기다렸어"
5 : 가스공사, 10조 미수금에 인력 감축한다
---------------
[한국경제]
1 : 25년 만에 처음으로 日에 역전 당했다…한국, 암울한 전망
2 : 38만원에 산 샹들리에 알고 보니…"100억 넘을 거장 작품"
3 : "그냥 두면 세금 폭탄 맞는다"…국민연금 가입자 급감한 이유
4 : 58년 전 헤어진 4남매, 경찰 DNA 확인으로 '극적 상봉'
5 : "지금 급매물 잡아 강남 진입"…열흘새 3억 뛰었다
---------------
[매일경제]
1 : “이정도면 한국산도 굉장한데”…독일에 실망 유럽, 한국 탱크 ‘주목’
2 : 오십 넘으면 절반이 앓는다는 '그 병'…화장실 5분 넘기면 악성 치질 됩니다
3 : “슈퍼카 뽐내더니…법인차였어?” 연두색 번호판 이르면 7월 적용
4 : 부산 20대女 ‘돌려차기’ 사건 영상 공개…네티즌 ‘격분’ [영상]
5 : “분명 내 건데”…옆 펜션 앞 신발 그냥 가져와 신었다간 [여행 팩트체크]
---------------
[서울경제]
1 : 로또 1등 수동 3장, 동일인 맞았다…'70억' 잭팟 인증샷
2 : 다문화가정 '아빠'되는 송중기, 정부서 받는 혜택 보니
3 : '영업익 2700억' 삼성 반도체 쇼크…TSMC '50분의 1' 추락
4 : 안철수 60.5% vs 김기현 37.1%…양자대결서 오차범위 밖 우세
5 : 기적의 생존이라더니…'테슬라 추락' 美 40대 감옥행 왜?
---------------
[헤럴드경제]
1 : “연예인 총동원에 1000억원 쏟아붓더니” 넷플릭스 천하에 터졌다
2 : “연봉 고작 1억원, 사표 냅니다” 국립의료원 의사 줄줄이 떠난다
3 : “성관계는 부부끼리만?”…시대착오적 ‘혼전순결 조