BeautifulSoup 모듈
- 홈페이지 내 데이터를 쉽게 추출할 수 있게 해주는 파이썬 외부 라이브러리
- 웹 문서 내 수많은 HTML 태그들을 parser를 활용해 사용하기 편한 파이썬 객체로 만들어 제공
- 웹 문서 구조를 알고 있다면 편하게 데이터를 뽑아 활용할 수 있음

기존방식과의 차이점
- 정규 표현식, 문자열 함수 등을 활용하여 홈페이지 텍스트 내 패턴을 분석하여 하나씩 원하는 데이터를 찾아가는 형식
- BS는 HTML 문서를 태그를 기반으로 구조화하여 태그로 원하는 데이터를 찾아가는 형식


In [2]:
html_doc = """
<html lang="en">
<head><title>crawl</title></head>
<body>
<p class="a" align="center"> text1</p>
<p class="b" align="center"> text2</p>
<p class="c" align="center"> text3</p>
<div><img src="/source" width="300" height="200"></div>
</body>
</html>
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

<html lang="en">
 <head>
  <title>
   crawl
  </title>
 </head>
 <body>
  <p align="center" class="a">
   text1
  </p>
  <p align="center" class="b">
   text2
  </p>
  <p align="center" class="c">
   text3
  </p>
  <div>
   <img height="200" src="/source" width="300"/>
  </div>
 </body>
</html>



In [161]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <P>웹 페이지를 분석하는 것</P>
  <P>원하는 부분을 추출하는 것</P>
</body></html>
"""
soup = BeautifulSoup(html, 'html.parser')
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling
# P2 = p1.next_sibling.next_sibling

print(h1.string)
print(p1.string)
print(p2.string)

스크레이핑이란?
웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


find() : HTML의 해당 태그에 대한 첫 번째 정보를 가져옴
- find(속성='값') : HTML 해당 속성과 일치하는 값에 대한 첫 번째 정보를 가져옴
find_all() : 
- HTML의 해당 태그에 대한 모든 정보를 리스트 형식으로 가져옴. limit 옵션으로 개수 지정 가능
- CSS 속성으로 필터링(class_로 클래스를 직접 사용 혹은 attrs에서 속성 = 값으로 필터링)

In [4]:
html = """
<html><body>
  <h1 id="title">스크레이핑이란?</h1>
  <P id="body">웹 페이지를 분석하는 것</P>
  <P>원하는 부분을 추출하는 것</P>
</body></html>
"""

soup = BeautifulSoup(html,'html.parser')
title = soup.find(id='title')
body = soup.find(id='body')

print(title.string)
print(body.string)
print(title.text)
print(body.text)
print(body.get_text())
print(type(body.text))
print(type(body.string))
print(type(body.get_text()))

스크레이핑이란?
웹 페이지를 분석하는 것
스크레이핑이란?
웹 페이지를 분석하는 것
웹 페이지를 분석하는 것
<class 'str'>
<class 'bs4.element.NavigableString'>
<class 'str'>


In [5]:
# texts = soup.findAll('p')
texts = soup.find_all('p')
for t in texts:
    print(t.text)

웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


In [6]:
# urlopen()과 BeautifulSoup의 조합
from bs4 import BeautifulSoup
import urllib.request as req
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
title = soup.find('title').string
wf = soup.find('wf').string
print(title,'\n')
print(wf)

기상청 육상 중기예보 

○ (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠고, 8월 1일(월)부터 2일(화) 오전 사이 제주도에 비가 오겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 23~26도, 낮 기온은 30~34도로 어제(25일, 아침최저기온 22~26도, 낮최고기온 29~36도)와 비슷하겠습니다.<br />○ (주말전망) 30일(토)은 가끔 구름많고 전라권에는 오후에 소나기가 오는 곳이 있겠고, 31일(일)은 가끔 구름많겠습니다. <br />              아침 기온은 24~26도, 낮 기온은 31~34도가 되겠습니다.<br /><br />* 이번 예보기간 우리나라 주변 기압계에 따라 비 또는 소나기가 내리는 구역이 변동될 수 있으며, 강한 소나기가 내리는 지역에서는 돌풍과 함께 천둥.번개가 치는 곳이 있겠으니 안전에 유의하기 바라며, 앞으로 발표되는 기상정보를 참고하기 바랍니다.




In [7]:
import requests
import re

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
data = requests.get(url).text
soup = BeautifulSoup(data,'html.parser')
wf = soup.find('wf').string
wf = re.sub('[a-zA-Z<//>]','', wf)
wf = re.sub('  ','', wf)
wf



'○ (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠고, 8월 1일(월)부터 2일(화) 오전 사이 제주도에 비가 오겠습니다.○ (기온) 이번 예보기간 아침 기온은 23~26도, 낮 기온은 30~34도로 어제(25일, 아침최저기온 22~26도, 낮최고기온 29~36도)와 비슷하겠습니다. ○ (주말전망) 30일(토)은 가끔 구름많고 전라권에는 오후에 소나기가 오는 곳이 있겠고, 31일(일)은 가끔 구름많겠습니다.아침 기온은 24~26도, 낮 기온은 31~34도가 되겠습니다.* 이번 예보기간 우리나라 주변 기압계에 따라 비 또는 소나기가 내리는 구역이 변동될 수 있으며, 강한 소나기가 내리는 지역에서는 돌풍과 함께 천둥.번개가 치는 곳이 있겠으니 안전에 유의하기 바라며, 앞으로 발표되는 기상정보를 참고하기 바랍니다.'

#### 과제0722_2
wf를 다시 정렬하여 아래와 같이 출력하세요

```
'(강수) 23일(토) 오후부터 24일(일) 오전 사이 전국에 비가 오겠고, 강원영동은 24일(일) 오후까지 이어지는 곳이 있겠습니다. 27일(수)은 수도권과 강원영서에 비가 오겠습니다.(기온) 이번 예보기간 아침 기온은 22~26도로 어제(19일, 아침최저기온 20~24도)보다 조금 높겠고, 낮 기온은 28~34도로 어제(낮최고기온 27~34도)와 비슷하겠습니다.(주말전망) 23일(토) 오후부터 24일(일) 오전 사이 전국에 비가 오겠고, 강원영동은 24일(일) 오후까지 이어지는 곳이 있겠습니다.
```

In [8]:
import requests
import re

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
data = requests.get(url).text
soup = BeautifulSoup(data,'html.parser')
wf = soup.find('wf').string
wf = re.sub('[a-zA-Z<//>]','', wf)
wf = re.sub('  ','', wf) #(/s{2,},' ',wf)
wf

'○ (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠고, 8월 1일(월)부터 2일(화) 오전 사이 제주도에 비가 오겠습니다.○ (기온) 이번 예보기간 아침 기온은 23~26도, 낮 기온은 30~34도로 어제(25일, 아침최저기온 22~26도, 낮최고기온 29~36도)와 비슷하겠습니다. ○ (주말전망) 30일(토)은 가끔 구름많고 전라권에는 오후에 소나기가 오는 곳이 있겠고, 31일(일)은 가끔 구름많겠습니다.아침 기온은 24~26도, 낮 기온은 31~34도가 되겠습니다.* 이번 예보기간 우리나라 주변 기압계에 따라 비 또는 소나기가 내리는 구역이 변동될 수 있으며, 강한 소나기가 내리는 지역에서는 돌풍과 함께 천둥.번개가 치는 곳이 있겠으니 안전에 유의하기 바라며, 앞으로 발표되는 기상정보를 참고하기 바랍니다.'

In [9]:
texts = soup.find_all('wf')
for t in texts:
    t = t.text
    t = re.sub('[^0-9가-힣]',' ',t)
    print(t,'\n')

   강수  30일 토 은 전라권에 소나기가 오는 곳이 있겠고  8월 1일 월 부터 2일 화  오전 사이 제주도에 비가 오겠습니다           기온  이번 예보기간 아침 기온은 23 26도  낮 기온은 30 34도로 어제 25일  아침최저기온 22 26도  낮최고기온 29 36도 와 비슷하겠습니다          주말전망  30일 토 은 가끔 구름많고 전라권에는 오후에 소나기가 오는 곳이 있겠고  31일 일 은 가끔 구름많겠습니다                      아침 기온은 24 26도  낮 기온은 31 34도가 되겠습니다               이번 예보기간 우리나라 주변 기압계에 따라 비 또는 소나기가 내리는 구역이 변동될 수 있으며  강한 소나기가 내리는 지역에서는 돌풍과 함께 천둥 번개가 치는 곳이 있겠으니 안전에 유의하기 바라며  앞으로 발표되는 기상정보를 참고하기 바랍니다  

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

맑음 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

흐림 

구름많음 

흐림 

흐림 

흐림 

흐림 

흐림 

흐림 

구름많음 

구름많음 

구름많음 

In [10]:
req = requests.get('https://naver.com')
html = req.text
# print(html)

soup = BeautifulSoup(html,'html.parser')
# result = soup.find_all('span',class_="blind")[0]
# result = soup.find_all('span',class_="fix")
result = soup.find_all('span',attrs={'class':'fix'})
# result = soup.find_all('a','api_link')

result

[<span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@query@ <span class="context">@intend@</span></span>]

In [11]:
import re

req = requests.get('https://naver.com')
soup = BeautifulSoup(html,'html.parser')
print(soup.find_all(string='네이버'))
print(soup.find_all(string=re.compile('네이버')))

[]
['네이버를 시작페이지로', '쥬니어네이버', '언론사가 직접 편집한 뉴스들을 네이버 홈에서 바로 보실 수 있습니다.', '네이버 개발자 센터', '네이버 D2', '네이버 D2SF', '네이버 랩스', '네이버 정책 및 약관', '네이버 정책']


select_one(), select()
- CSS 선택자를 활용하여 원하는 정보를 가져옴(태그를 검색하는 find, find_all과 비슷함)
- class는 ., id는 #로 표시


In [12]:
import urllib.request as req
url = "https://finance.naver.com/marketindex/"
res = req.urlopen(url)
soup = BeautifulSoup(res,'html.parser')
price = soup.select_one('div.head_info > span.value').string
print('usd/krw =',price)

usd/krw = 1,311.50


In [13]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""


In [14]:
!pip install lxml



In [15]:
from bs4 import BeautifulSoup

bs = BeautifulSoup(html_doc,'html.parser') # lxml 
print(bs.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [16]:
bs.title

<title>The Dormouse's story</title>

In [17]:
bs.title.name

'title'

In [18]:
bs.title.parent.name

'head'

In [19]:
bs.p

<p class="title"><b>The Dormouse's story</b></p>

In [20]:
bs.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [21]:
bs.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [22]:
bs.find(id='link3')

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [23]:
bs.a['class']

['sister']

In [24]:
for link in bs.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [25]:
bs.find_all()

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>,
 <head><title>The Dormouse's story</title></head>,
 <title>The Dormouse's story</title>,
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;

In [26]:
bs.find_all('p')

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

#### string vs. get_text()
- get_text()를 이용하면 한방에 현재 HTML 문서의 모든 텍스트를 추출할 수 있습니다. 조금 더 정확히 표현하면 get_text() 메서드는 현재 태그를 포함하여 모든 하위 태그를 제거하고 유니코드 텍스트만 들어있는 문자열을 반환
- string의 경우 문자열이 없으면 None을 출력하지만, get_text()의 경우 유니코드 형식으로 텍스트까지 문자열로 반환하기 때문에  아무 정보도 출력되지 않는다.
- string 속성은 태그(tag) 내 문자열을 반환. get_text()를 사용하더라도 정확하게 문자열을 추출하기 위해서는 항상 마지막 태그에 메서드를 사용


In [27]:
print(bs.string)

None


In [28]:
print(bs.get_text())

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [29]:
print(bs.find('div').string)

None


In [30]:
print(bs.find('div').get_text())




In [31]:
print(bs.find('body').string)

None


In [32]:
print(bs.find('body').get_text())



The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [33]:
bs.a.string

'Elsie'

In [34]:
li = bs.find_all('p')
for i in li:
    print(i.string)

The Dormouse's story
None
...


In [35]:
li

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [36]:
for i in li:
    print(i.get_text())

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...


#### urllib + bs

In [47]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
text = bs.find('p')
text = text.get_text()
text

'AiRS추천으로 구성된 뉴스를 제공합니다.'

In [48]:
bs.find('div').find('a').string

'메인 메뉴로 바로가기'

In [49]:
items = bs.find('div').find_all('a')
items

[<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>,
 <a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>,
 <a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>,
 <a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>,
 <a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>,
 <a class="entertain nclicks(gnb.enter)" href="https://entertain.naver.com/home">TV연예</a>,
 <a class="sports nclicks(gnb.sports)" href="https://sports.news.naver.com">스포츠</a>,
 <a class="weather nclicks(gnb.weather)" href="https://weather.naver.com">날씨</a>,
 <a class="premium nclicks(gnb.premium)" href="https://contents.premium.naver.com">프리미엄</a>,
 <a class="nclicks(lnb.pcmedia)" href="/"><span class="tx">언론사별</span> </a>,
 <a class="nclicks(lnb.pol)" href="/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100"><span class="tx">정치</span> <span class="blin

In [50]:
items = bs.find('div').find_all('a')
for item in items:
    print(item.get_text())
    

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리
정치
대통령실 
국회/정당 
북한 
행정 
국방/외교 
정치일반 


안내헤드라인 뉴스


동영상기사

오늘 대정부질문 이틀째‥경제분야 공방 예고
오늘 경제 분야 대정부 질문…세제 개편안 쟁점될 듯
추경호, 야당 ‘3高 위기’ 집중포화 막아낼 방패는
오늘 경제 분야 대정부질문…민생위기·법인세 인하 공방
10개의 관련뉴스 더보기



한동훈, '김혜경 법카 과잉수사' 박범계 추궁에 "저는 의원님과 달리.."
김혜경 ‘법카 유용’ 물은 박범계…한동훈 “저는 의원님과 다르다”
박범계 "김건희 여사 무혐의냐"…한동훈 "법·원칙 따라 결론"
한동훈, '김혜경 법카' 박범계 질문에 "저는 의원님과 달리..."
8개의 관련뉴스 더보기



여가부, 업무보고 2시간 동안 ‘폐지 계획’ 보고 안 했다
尹대통령 “여가부 폐지 로드맵 조속 마련하라”
윤 대통령, 지지율 때문?…돌연 여가부 폐지 속도전 주문
尹, 폐지 빼고 보고한 여가부에 “폐지안 조속 마련하라”
93개의 관련뉴스 더보기



권영세 "범죄자 격리는 위험한 생각…북송 영상 유튜브에 많아"
권영세 "탈북어민 흉악범이라 북송? 문명국가선 있을 수 없어"
권영세 "탈북민 의사 반한 강제북송, 2019년 어민북송이 유일"
권영세 "통일부, 北어민 북송 뒤치다꺼리...의사결정 관여 못 해"
29개의 관련뉴스 더보기



감사원 1차장에 '태양광 비리 감사' 김경호‥2차장 현완교
감사원, 태양광·지역비리 감사한 인물 전진배치…문 정부 겨냥하나
20개의 관련뉴스 더보기



박주민 “경찰모임이 어떻게 내란이냐”…이상민 “집단행동으로 보일 여지”



"경찰회의 쿠데타" 불지른 이상민…검찰 집단행동은? "그것과는 달라"
23개의 관련뉴스 더보기



尹, 故

#### 과제 0725-1

상기 출력물을 불필요한 공백없이  정렬하여 출력하세요.

In [55]:
import re
import urllib.request as rq
from bs4 import BeautifulSoup

ulr = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

html = rq.urlopen(url)
soup = BeautifulSoup(html,'lxml')

items = soup.find('div').find_all('a')

li = []
for i in items:
    li.append(i.get_text())
a = ' '.join(li)
re.sub('[\'\n]','',a)
# re.sub('\W',' ',a)

'메인 메뉴로 바로가기 본문으로 바로가기 검색 NAVER 뉴스 TV연예 스포츠 날씨 프리미엄 언론사별  정치 선택됨 경제  사회  생활/문화  IT/과학  세계  랭킹  신문보기  오피니언  TV  팩트체크  전체 언론사 뉴스스탠드 라이브러리 전체 언론사 뉴스스탠드 라이브러리 정치 대통령실  국회/정당  북한  행정  국방/외교  정치일반    안내헤드라인 뉴스  울릉도 간 이준석 "사심없이 당 지켜온 분들께 할 이야기 많아" 울릉도 간 이준석 "당원 5명이 만나자 해도 갈것…할 얘기 많아"(종합) 이준석, 이틀째 ‘보수 텃밭’ TK 방문…울릉도서 당원들 만난다 이준석 대표 ‘장외 정치’ 지속…오늘은 울릉도행 30개의 관련뉴스 더보기  이한열·전태일·박종철도 못받은 유공자 대우···‘운동권 셀프보상’ ‘신분세습법’ 비판은 타당한가[팩트체크] ‘운동권 신분 세습’ 권성동 주장에 우원식 “허위사실” 우원식 "민주유공자법이 셀프보상?…죽은 자가 환생해 만들어야 가능" 우원식 “모든 유공자법에 교육·취업 혜택… 민주유공자법만 뺄 순 없어” 24개의 관련뉴스 더보기  尹정부 사적채용 도마...野 "공정·상식에 정반대" 대정부질문 첫날…경찰국·檢인사·어민북송·사적채용 격돌 한 총리 "인사 검증, 내각으로 환원한 것은 정상화의 일환" 윤석열 정부 첫 대정부 질문서…민주당 사적채용·경찰국·이재명 수사 총 공세 27개의 관련뉴스 더보기  이상민 "경찰 내란이라 하진 않았다…쿠데타·내란 달라"(종합2보) 경찰 집단행동 두고 여야정 격돌…배후세력 언급도 "경찰회의 쿠데타" 불지른 이상민…검찰 집단행동은? "그것과는 달라" 이상민 "쿠데타와 내란은 달라"…여당에선 우려 목소리 23개의 관련뉴스 더보기  [속보] 윤 대통령, 경찰 집단반발에 "중대한 기강문란"  경찰에 채찍 든 尹 대통령 "집단반발, 중대한 국가 기강문란" 26개의 관련뉴스 더보기 동영상기사 여, 文정부 겨냥 공세…야, 검찰 공화국 비판  사적채용·경찰국 vs 어민 북송…공수 바뀐 여야 첫 대정부질문 23개의 관련뉴

In [None]:
print(bs.find('body').get_text())

In [None]:
items = bs.find('div',id='header').find_all('a')
for item in items:
    print(item.get_text())

In [None]:
texts = bs.find_all('p')
for t in texts:
#     print(t.string)
    print(t.get_text())

In [42]:
import urllib.request as rq
import re
url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
bs = bs.text
# bs
p = re.sub('[^가-힣]',' ',bs)
p = re.sub('\s{2,}',' ',p)
p

' 네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 화 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 속보 코로나 신규 확진자 만 명 만명 육박 파이낸셜뉴스 내용작성전 분기 경제성장률 민간소비 증가 영향 부산일보 분기 성장률 민간소비 증가 덕분 수출은 감소 문화일보 분기 성장률 소비 살아났지만 수출 마이너스 서울신문 속보 닫기 월 일 구독 동영상 재생시간 또 자녀 숨지게 한 후 극단 선택 최악의 아동학대 부모가 어린 자녀를 숨지게 한 뒤 스스로 목숨을 끊는 일이 또 벌어졌습니다 이같은 일은 동반자살 이 아닌 명백한 살인 이자 가장 극단적인 아동학대 범죄입니다 보도에 하정연 기자입니다 기자 오늘 일 노컷뉴스 월 일 구독 윤 대통령 한동훈 이상민 실세장관 독대 사면 경찰국 해법 관심 핵심요약 윤석열 대통령은 오늘 한동훈 법무부 장관과 이상민 행자부 장관으로부터 독대 보고 를 받습니다 윤 대통령의 최측근 으로 불리는 한 장관과 경찰 개혁 선봉장 이 장관의 업무 보고에 관심이 쏟아집니다 매경이코노미 월 일 구독 고금리 시대 투자 치트키 채권 급부상 대 안정적 수익률 우량 채권 매진 열풍 지난 월 일 삼성증권이 모바일 앱 엠팝 에서 판매한 연 대 특판 채권 상품이 분 만에 매진됐다 삼성증권은 금융지주 우리은행 농협은행 등 선순위 채권 종을 전주 월 일 구독 동영상 재생시간 법무부 지역 수요 반영한 맞춤형 비자 신설 정부가 인구 감소 지역에 외국인 정착을 장려하기 위해 지역 특화형 비자 를 신설하기로 했습니다 법무부는 지방자치단체장이 추천하는 외국인에게 거주 비자를 발급하고 정착을 지원하는 등의 지역 특화형 비자 시범 사 월 일 구독 레고랜드 개장 두 달여 만에 번째 멈춰 왜 레고랜드 번째 멈춤사고 또요 놀이기구가 멈췄다는 소식을 들은 대부분 사람의 반응은 한결같았습니다 왜 이렇게 자주 또 멈췄냐는 것입니다 개장 두 달

In [43]:
import urllib.request as rq
import re

url= 'https://news.naver.com'
html = rq.urlopen(url)
bs= BeautifulSoup(html,'lxml')
texts = bs.find_all('p')
for t in texts:
#     print(t.string,'\n')
    print(t.get_text(),'\n')

김연아♥고우림, 결혼 전제 '열애' 단독 보도 취재기 "김연아가 결혼을 한다고?" 올 초, 김연아의 결혼설은 소위 ‘선수 기자'들 사이에서 초미의 관심사였다. 하지만 ‘설’은 ‘설’일 뿐, 이런 뜬 소문은 당사자들이 

배현진 국민의힘 최고위원은 문재인 정부 시절 법무부 장관을 지낸 박범계 더불어민주당 의원이 법제사법위원회에 배정된 데 대해 “낯도 두껍다”고 힐난했습니다. 배 최고위원은 25일 박 의원이 한동훈 법무부 장관을 상대로 

전현직 법무장관, '인사 검증'·'검찰 인사' 격돌 윤석열 정부의 첫 법무부 장관인 한동훈 장관과 문재인 정부의 마지막 법무부 장관을 지냈던 더불어민주당 박범계 의원이 25일 국회 대정부질문에서 맞붙었다. 

李 “총경회의, 12·12사태 준해” 하나회 빗대며 강도 높게 비판 경찰, 30일 팀장회의 참석 독려 지구대장·파출소장도 동참 추진 류삼영 정복입고 회의주도 문제 소지 전문가 “공무원 집단행동 위반 여지” 국힘 “文 

유시민 전 노무현재단 이사장이 "윤석열 정부의 정체성은 무신정권 같다"고 비판했다. 유 전 이사장은 25일 YTN라디오 '뉴스킹 박지훈입니다'에 출연해 이 같이 정의하며 "정치는 실종되고 여야 간의 대화도 사라지고, 

윤석열 정부의 권력기관이 한 방향을 보고 섰다. 문재인 정부의 흔적을 도려내는 사정(司正) 작업으로 시선이 향한다. 정쟁의 중심으로 떠오른 사안이 권력기관 내부 조사로 이어지고, 검찰에 고발장이 접수돼 수사가 이뤄지 

이재용 삼성전자 부회장에게 보름 이상의 자유시간이 주어지면서 행보가 주목된다. 미국 등 해외로 장기 해외출장을 떠나거나 국내에 머물며 경영 구상에 집중하는 등 다양한 시나리오가 거론된다. 26일 재계와 법조계에 따르 

'리그 오브 레전드 챔피언스코리아'(이하 LCK)가 신규 제도 도입을 통해 '지속가능성'을 확보한다고 밝혔습니다. 신인 발굴을 위한 '육성권' 제도부터 '공인 에이전트 제도화' 및 '지정선수 특별협상'으로 리그 경쟁 

추적보도 훅입니다. 이른바 '7억 원 각

In [44]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.naver.com'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')
text = bs.find('p').get_text()
text

'현역 선수 시절 해외 원정도박으로 벌금형을 받았던 전 프로야구 선수 임창용(46)씨가 또 도박을 하다 적발돼 징역형의 집행유예를 선고받았다. 대전지법 형사5단독 김정헌 부장판사는 상습도박 혐의로 기소된 임씨에게 징역'

#### 과제0725_2
기상청 육상 정보에서 강원도의 지역번호는 105이다. 강원도의 날씨 예보를 불필요한 공백을 제거한 후 출력하세요.

In [None]:
import requests as rq
import re

url = 'https://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=105'

html = rq.get(url).text
soup = BeautifulSoup(html,'html.parser')
wf = soup.find('wf').get_text()
wf = re.sub('[^가-힣0-9()~.,ㅡ]',' ',wf)
wf
wf = re.sub('\s{2,}'','',wf)

#### 과제0725_3
"http://www.naver.com" 사이트에서 span 태그에 연결된 한글만을 불필요한 공백을 제거한 후 출력하세요.

In [167]:
from bs4 import BeautifulSoup
import requests as rq
url = 'http://www.naver.com'

html = rq.get(url).text
soup = BeautifulSoup(html,'lxml')
data = soup.find_all('span')

li =[]
for i in data:
    li.append(i.get_text())
a = re.sub('[^가-힣]',' ',str(li))
re.sub('\s{2,}',' ',a)

' 뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드 쥬니어네이버 해피빈 검색 한글 입력기 자동완성 레이어 삭제 설정이 초기화 된다면 도움말을 확인해주세요 설정이 초기화 된다면 도움말을 확인해주세요 도움말 도움말 자동저장 끄기 자동저장 끄기 회차 당첨번호 추첨 지급기한 년 추첨 지급기한 년 원 원 바로가기 바로가기 추가 추가 추가 자세히보기 도움말 신고 도움말 신고 자동완성 끄기 자동완성 끄기 쇼핑 쇼핑 이태원동 이태원동 리스트형 썸네일형 설정 이전 다음 닫기 닫기 이전 다음 닫기 닫기 이전 다음 다음 닫기 닫기 이전 다음 닫기 닫기 주제별로 분류된 다양한 글 모음 개의 글 이전 다음 재생 재생시간 재생시간 비엔나소시지 간단요리 비엔나소시지 간단요리 재생 재생시간 재생시간 보양식 중복요리 보양식 중복요리 주일 전 인어교주해적단 인어교주해적단 개월 전 졸리 졸리 주일 전 꼬마츄츄 꼬마츄츄 개월 전 레지나 레지나 재생 재생시간 재생시간 주일 전 냠냠간단요리 냠냠간단요리 재생 재생시간 재생시간 년 전 백년밥상 백년밥상 재생 재생시간 재생시간 개월 전 백년밥상 백년밥상 어제 다소마미 다소마미 일 전 철든철부지 철든철부지 주일 전 줌마파워 줌마파워 일 전 데일리 데일리 이전 다음 펀딩 달성 다온농원 다온농원 펀딩 달성 새뜸 새뜸 펀딩 달성 데일리스티치협동조합 데일리스티치협동조합 펀딩 달성 그린황칠 그린황칠 기부 원 기부 진도군노인복지관 진도군노인복지관 기부 원 기부 굿하트 금천재가노인지원센터 굿하트 금천재가노인지원센터 주일 전 봄날 봄날 개월 전 빵빵이 빵빵이 일 전 엘르 코리아 엘르 코리아 주일 전 끝도없는 인기 끝도없는 인기 개월 전 디니 디니 주일 전 채영테이블 채영테이블 일 전 우먼센스 우먼센스 주일 전 반 짝 거 리 면 돼지 반 짝 거 리 면 돼지 주일 전 페퍼민트 페퍼민트 개월 

#### 과제0725_4
"http://www.naver.com" 사이트에서 span 태그에 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 출력하세요.

#### 과제0725_5
"http://www.naver.com" 사이트에서 a 태그에 id가 있는 경우에 대하여 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 한줄에 출력하세요.

In [60]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://www.naver.com'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')

texts = bs.select('a[id]')
# print(texts)

li = []
for t in texts:
    li.append(t.get_text())


p = re.sub('[^\w+\d+]',' ', str(li))
p = re.sub('\s+',' ', p)
print(p)


 다운로드 네이버를 시작페이지로 한글 입력기 자동완성 레이어 관심주제 설정 TOP 


#### 과제0725_6
Q12. url = 'https://news.naver.com/' 사이트 p태크에서 class가 cjs_ht인 데이터를 출력하세요.


In [61]:
from bs4 import BeautifulSoup as bsoup
import re
import requests
url = 'https://news.naver.com/'
req = requests.get(url)
html = req.text

soup = bsoup(html, 'html.parser')
result = soup.find_all('p', attrs={'class':"cjs_ht"}) # p class = "cjs_ht" 찾기
result

q = re.sub('[^가-힣]', ' ', str(result))  # 다시 문자화시켜서 re.sub
words = re.sub('\s+', " ", q)
# words = " ".join(re.split(r'\s+', q))
words = words[1:-1]
words


'오늘 언론사가 발행한 종이신문에 실린 뉴스 면 기사가 제공됩니다'

In [63]:
from bs4 import BeautifulSoup
import urllib.request as rq

ulr = 'https://naver.com/'
html = rq.urlopen(url)
bs = BeautifulSoup(html,'lxml')

#print(bs.find('p'))
print(bs.find_all('p',limit=1),'\n') #하나는 한개 2면 두번째까지 갯수제한
print(bs.find_all('p',limit=2),'\n')
print(bs.find_all('p',limit=3))

[<p class="cjs_d">윤석열 정부의 권력기관이 한 방향을 보고 섰다. 문재인 정부의 흔적을 도려내는 사정(司正) 작업으로 시선이 향한다. 정쟁의 중심으로 떠오른 사안이 권력기관 내부 조사로 이어지고, 검찰에 고발장이 접수돼 수사가 이뤄지</p>] 

[<p class="cjs_d">윤석열 정부의 권력기관이 한 방향을 보고 섰다. 문재인 정부의 흔적을 도려내는 사정(司正) 작업으로 시선이 향한다. 정쟁의 중심으로 떠오른 사안이 권력기관 내부 조사로 이어지고, 검찰에 고발장이 접수돼 수사가 이뤄지</p>, <p class="cjs_d">불확실한 변수도 짚어주는 여우형 전문가에 주목해야 행동경제학의 석학 대니얼 카너먼이 세계적인 예측 전문가로 꼽는 필립 테틀록 미국 펜실베이니아대 교수는 내로라하는 전문가들의 예측 실력을 원숭이가 다트를 명중시키는 확</p>] 

[<p class="cjs_d">윤석열 정부의 권력기관이 한 방향을 보고 섰다. 문재인 정부의 흔적을 도려내는 사정(司正) 작업으로 시선이 향한다. 정쟁의 중심으로 떠오른 사안이 권력기관 내부 조사로 이어지고, 검찰에 고발장이 접수돼 수사가 이뤄지</p>, <p class="cjs_d">불확실한 변수도 짚어주는 여우형 전문가에 주목해야 행동경제학의 석학 대니얼 카너먼이 세계적인 예측 전문가로 꼽는 필립 테틀록 미국 펜실베이니아대 교수는 내로라하는 전문가들의 예측 실력을 원숭이가 다트를 명중시키는 확</p>, <p class="cjs_d">김연아♥고우림, 결혼 전제 '열애' 단독 보도 취재기 "김연아가 결혼을 한다고?" 올 초, 김연아의 결혼설은 소위 ‘선수 기자'들 사이에서 초미의 관심사였다. 하지만 ‘설’은 ‘설’일 뿐, 이런 뜬 소문은 당사자들이</p>]


In [80]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.daum.net/politics/'
html = rq.get(url)
html =html.text
bs = BeautifulSoup(html,'lxml')
# title = bs.find('h2')
# title = bs.find_all('h2',id=True)
title = bs.find('h2',id='mainContent').text
title

'정치'

In [81]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.daum.net/politics/'
html = rq.get(url)
html =html.text
bs = BeautifulSoup(html,'lxml')
# title = bs.select_one('span', class_='txt_gnb').text
title = bs.select_one('#gnbContetn > div > ul > li.on > a > span ').text
title

'정치'

In [95]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver'
html = rq.get(url)
html =html.text
bs = BeautifulSoup(html,'lxml')
# title = bs.select_one('span', class_='txt_gnb').text
title = bs.select_one('#old_content > table > tbody > tr:nth-child(2) > td.title > div > a').text
title

'외계+인 1부'

In [84]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver'
html = rq.get(url)
html = html.text

bs = BeautifulSoup(html,'lxml')
title = bs.select_one('#old_content > table > tbody > tr:nth-child(2) > td.title > div > a').text
title


'외계+인 1부'

In [93]:
# Q. 네이버 영화 랭킹 가져와서 첫번째 영화제목을 출력하세요
from bs4 import BeautifulSoup
import requests as rq

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver'
html = rq.get(url)
html = html.text

bs = BeautifulSoup(html,'lxml')
title = bs.find_all('div',class_='tit3')
# for t in title:
#     print(t.text)
print(title[0].text)





외계+인 1부



#### 과제0726_1
네이버 영화 랭킹 가져와서 조회순 전체 영화제목 50개를 출력하세요(출력방식 1위 : 외계+1인 1부)

In [194]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://movie.naver.com/movie/sdb/rank/rmovie.naver'
html = rq.get(url)
html = html.text

bs = BeautifulSoup(html,'lxml')
title = bs.find_all('div',class_='tit3')


# title = re.sub('\n',' ',str(title))
for i in range(50):
    print(f'{1+i}위:',end=''+title[i].text)


1위:
외계+인 1부
2위:
탑건: 매버릭
3위:
한산: 용의 출현
4위:
헤어질 결심
5위:
범죄도시2
6위:
그레이 맨
7위:
토르: 러브 앤 썬더
8위:
미니언즈2
9위:
마녀(魔女) Part2. The Other One
10위:
더 킬러: 죽어도 되는 아이
11위:
비상선언
12위:
엘비스
13위:
명탐정 코난: 할로윈의 신부
14위:
뒤틀린 집
15위:
헌트
16위:
썸머 필름을 타고!
17위:
멘
18위:
아이를 위한 아이
19위:
브로커
20위:
놉
21위:
쥬라기 월드: 도미니언
22위:
메모리
23위:
닥터 스트레인지: 대혼돈의 멀티버스
24위:
핸썸
25위:
뽀로로 극장판 드래곤캐슬 대모험
26위:
로스트 도터
27위:
오싹한 동거
28위:
니얼굴
29위:
탑건
30위:
임파서블 러브
31위:
범죄도시
32위:
굿 럭 투 유, 리오 그랜드
33위:
큐어
34위:
버즈 라이트이어
35위:
군다
36위:
스파이형 모델
37위:
극장판 주술회전 0
38위:
섹스 앤 퓨리
39위:
명량
40위:
VR 파이터
41위:
불릿 트레인
42위:
리미트
43위:
마녀
44위:
감동주의보
45위:
특송
46위:
귀멸의 칼날: 아사쿠사 편
47위:
클라우스
48위:
레지던트 이블: 라쿤시티
49위:
아바타: 물의 길
50위:
이상한 나라의 수학자


In [97]:
html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""
import re

bs = BeautifulSoup(html,'html.parser')
li = bs.find_all(href=re.compile('^https://'))
for e in li:
    print(e.attrs['href'])

https://example.com/fuga
https://example.com/foo


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용


In [99]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics#1/ '
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')
lines = bs.select('body > div > main > section > div > div > ul > li > strong > a')
body = '\n'.join([line.text for line in lines])
print(body)

국제인권연맹∙NKDB, '북한 장애인 인권 실태' 지적 의견서 유엔 제출
'경찰국 신설' 행안부 직제 개정안 국무회의 통과
2주째 잠행한 김정은..'전승절' 맞아 공식 석상 등장에 주목
尹의 업무보고 방식에 박지원 "세상에 그런 천재가 없어요" 힐난
전주혜 "초선들, 당 지지율 급락에 침묵? 신중함 필요"
정청래 "이재명 사법 리스크? 저쪽 프레임에 우리가 내부총질"
경찰국 신설 시행령 국무회의 의결..내달 2일 시행
'지속 가능한 돌봄사회 제주' 주제 공동포럼 내달 2일 개최
완연한 감소세에도 여전한 '최대비상방역'..'변수'에 긴장하는 북한
대통령실 앞에 선 野.."모든 권한 집중해 경찰장악 저지"


In [104]:
import requests as rq
from bs4 import BeautifulSoup

url  = 'https://news.daum.net/politics#1/'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')
line2 = bs.select_one('body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul > li:nth-child(1) > strong > a')
line2.text

"2주 넘게 '두문불출' 김 여사..목요일 등장할까?"

In [109]:
# Q. "2주 넘게 '두문불출'"
import requests as rq
from bs4 import BeautifulSoup

url  = 'https://news.v.daum.net/v/20220726105712920'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')
line2 = bs.select('#harmonyContainer > section')
body = '\n'.join([line.text for line in line2])
print(body)






■ "마드리드 이후 김건희 여사가 안 보인다"
윤석열 대통령의 지지율 추이와 더불어 최근 언론이 자주 언급하는 기사는 "김건희 여사가 공개 행보를 중단했다"는 내용입니다. 
북대서양조약기구, NATO 순방 동행을 마치고 난 뒤 두문불출하고 있다는 겁니다.



 정치평론가들은 김 여사가 공개 행보에 나설 때마다 관심을 끌기는 했지만 팬클럽, 수행원, 제2부속실 설치, 명품 목걸이 논란 등으로 부정적인 여론이 대두되자 ‘리스크 관리’에 들어간 것으로 보고 있습니다. 
장성철 공론센터 소장은 “김건희 여사가 최근 2주간 사라졌다”면서 “김 여사가 지지율에 중대한 영향을 끼친다는 정무적인 판단이 있었을 것”이라고 말했습니다. 배종찬 인사이트케이 소장 역시 윤 대통령의 지지율 하락 원인 중 하나로 김건희 여사를 꼽았습니다. 배 소장은 경제, 인사, 양극화, 김 여사, 도어스테핑의 앞글자를 딴 ‘경인양김도’가 지지율이 떨어진 이유라고 분석했습니다. 유튜브 채널 ‘시사저널 TV’에 출연한 진중권 전 교수는 “지금 김건희 여사는 잘하고 있는 것 아니냐?”는 사회자의 질문에 “그렇다. 조금 더 기다려야 될 것 같다”고 조언하기도 했습니다.
■ 공개행보 재개는? 목요일 진수식이 유력
그렇다면 김건희 여사는 언제쯤 다시 언론에 모습을 드러낼까요? 목요일인 28일이 될 가능성이 높습니다. 차세대 이지스함인 정조대왕 진수식이 열리는데, 여기에 참석하지 않을까 예상됩니다.
배에 이름을 붙이고 처음 물에 띄워 바다로 내보내는 의식인 진수식(進水式)에서는 진수도끼(보통 금토끼)로 밧줄을 끊거나 샴페인을 깨는 행사가 있습니다. 진수식의 하이라이트인데요, 관례적으로 여성이 해왔다고 합니다. 왜 여성이 하게 됐는지를 놓고 영국 빅토리아 여왕이 세레모니를 한 이후 관례로 굳어졌다는 설도 있고, 배(ship)를 여성 대명사인 she로 받는데서 유래했다 혹은 탯줄을 자르는 상징적인 의미가 있기 때문에 여성이 하게 됐다는 여러 가지 설들이 있습니다. 
김건희 여사가 진수식에 등장할지는 목요일

In [111]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics/'
r= rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')
lines = bs.select('body > div >  main > section >div > div> ul > li > strong > a',limit=1)
url_3 = lines[0]['href']
print(url_3)
r_3= rq.get(url_3)
html_3 = r_3.text
bs_3 = BeautifulSoup(html_3,'lxml')
data = bs_3.find_all('div',class_ = 'layer_summary')
for i in data:
    for j in i.find_all('p'):
        print(j.get_text())


https://v.daum.net/v/20220726110123240
북한 서해상에서 발견된 중국 선박이 신분을 세탁한 북한 선박일 수 있다는 지적이 26일 제기됐다.
미국의 소리(VOA)방송은 이날 선박의 실시간 위치 정보를 보여주는 '마린트래픽(MarineTraffic)'을 인용해 중국 선적의 '산허'호가 북한 서해 초도에서 서쪽으로 약 26km 떨어진 지점에서 위치 신호를 보내고 있는데, 멀지 않은 지점에서 북한 선박 수송호가 대기 중인 것으로 나타났다고 보도했다.


In [112]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.v.daum.net/v/20220726105712920'
r = rq.get(url)
html = r.text
soup = BeautifulSoup(html, 'lxml')
lines = soup.select('#harmonyContainer > section > p')
article = [line.text for line in lines]
article = ' '.join(article)
article


'■ "마드리드 이후 김건희 여사가 안 보인다" 윤석열 대통령의 지지율 추이와 더불어 최근 언론이 자주 언급하는 기사는 "김건희 여사가 공개 행보를 중단했다"는 내용입니다.  북대서양조약기구, NATO 순방 동행을 마치고 난 뒤 두문불출하고 있다는 겁니다.  정치평론가들은 김 여사가 공개 행보에 나설 때마다 관심을 끌기는 했지만 팬클럽, 수행원, 제2부속실 설치, 명품 목걸이 논란 등으로 부정적인 여론이 대두되자 ‘리스크 관리’에 들어간 것으로 보고 있습니다.  장성철 공론센터 소장은 “김건희 여사가 최근 2주간 사라졌다”면서 “김 여사가 지지율에 중대한 영향을 끼친다는 정무적인 판단이 있었을 것”이라고 말했습니다. 배종찬 인사이트케이 소장 역시 윤 대통령의 지지율 하락 원인 중 하나로 김건희 여사를 꼽았습니다. 배 소장은 경제, 인사, 양극화, 김 여사, 도어스테핑의 앞글자를 딴 ‘경인양김도’가 지지율이 떨어진 이유라고 분석했습니다. 유튜브 채널 ‘시사저널 TV’에 출연한 진중권 전 교수는 “지금 김건희 여사는 잘하고 있는 것 아니냐?”는 사회자의 질문에 “그렇다. 조금 더 기다려야 될 것 같다”고 조언하기도 했습니다. ■ 공개행보 재개는? 목요일 진수식이 유력 그렇다면 김건희 여사는 언제쯤 다시 언론에 모습을 드러낼까요? 목요일인 28일이 될 가능성이 높습니다. 차세대 이지스함인 정조대왕 진수식이 열리는데, 여기에 참석하지 않을까 예상됩니다. 배에 이름을 붙이고 처음 물에 띄워 바다로 내보내는 의식인 진수식(進水式)에서는 진수도끼(보통 금토끼)로 밧줄을 끊거나 샴페인을 깨는 행사가 있습니다. 진수식의 하이라이트인데요, 관례적으로 여성이 해왔다고 합니다. 왜 여성이 하게 됐는지를 놓고 영국 빅토리아 여왕이 세레모니를 한 이후 관례로 굳어졌다는 설도 있고, 배(ship)를 여성 대명사인 she로 받는데서 유래했다 혹은 탯줄을 자르는 상징적인 의미가 있기 때문에 여성이 하게 됐다는 여러 가지 설들이 있습니다.  김건희 여사가 진수식에 등장할지는 목요일 확인할 수

In [113]:
url = 'https://news.v.daum.net/v/20220726103412655'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')
text = bs.find('section').find_all('p')
for t in text:
    t = t.get_text()
    t = re.sub('[^,.~(0-9가-힣)]', ' ', t)
    t = re.sub('\s{2,}',' ', t )
    print(t)



(서울 뉴스1) 양은하 기자 김정은 북한 노동당 총비서가 2주 넘게 공개 활동을 자제하고 있다. 오는 27일 한국전쟁 전승절 (정전협정체결일 7월27일) 69주년을 계기로 한 기념행사를 계기로 공개활동을 재개할 것인지 여부가 관심사다.
김 총비서는 지난 8일 각급 당 위원회 조직부 당 생활지도부문 일꾼 특별강습회 참가자들과 기념사진을 찍은 이후 26일인 이날까지 20일 가까이 모습을 드러내지 않고 있다. 이는 올해 들어 가장 긴 잠행이다. 
이는 상반기 총화(결산)와 신종 코로나바이러스 감염증(코로나19) 대응을 위한 당 전원회의와 비서국회의, 당 중앙군사위 확대회의 등 각종 회의를 주재하며 바빴던 지난달과는 상당히 대비되는 모습이기도 하다. 
이 기간 특별한 정치 일정이 없었던 탓에, 북한 매체들도 하반기 경제 성장을 독려하면서 내부 결속을 다지는 통상적인 보도를 이어가고 있다. 소위 건강이상설 같은 김 총비서의 신변을 둘러싼 특이 정보나 소문도 제기되지 않고 있다. 
현재 김 총비서의 다음 행보는 제8차 전국노병대회가 유력하다. 김 총비서는 지난 2020년 6차와 지난해 7차 대회에도 참석해 직접 축하연설을 했다. 대회는 27일 개최가 유력하다.
정주년(5 10년 단위로 꺾어지는 해)은 아니지만 코로나19 상황 속에서 3년 연속 개최하는 대회이고, 올해도 안팎의 어려움이 가중되는 상황이어서 결속을 위해 김 총비서가 등장할 것으로 보인다. 
긴 휴식 이후의 등장인 만큼 연설에서 어떤 대외 메시지를 내놓을지에 관심이 모아지고 있다. 지난해와 달리 올해는 강경한 메시지를 발신할 것으로 예상된다.
지난해 김 총비서는 특별한 메시지 없이 노병들에게 예우를 갖추며 결속에 집중했다. 정전협정체결일에 남북 간 통신연락채널을 복구하는 등 유화 분위기가 조성되던 당시 상황이 반영된 것이다. 
올해는 미국과의 대결 구도가 본격화하는 모습을 보이고 있어 분위기가 다르다. 김 총비서는 지난달 당 전원회의에서 대적 투쟁 , 강 대 강, 정면승부 의 대남 및 대미 강경 기조를 천명

In [116]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.v.daum.net/v/20220726105712920'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')
lines = bs.select_one('#harmonyContainer > section').text
line = re.sub('\n', ' ', lines)
line = re.sub('\s+', ' ', line)
print(line)


 ■ "마드리드 이후 김건희 여사가 안 보인다" 윤석열 대통령의 지지율 추이와 더불어 최근 언론이 자주 언급하는 기사는 "김건희 여사가 공개 행보를 중단했다"는 내용입니다. 북대서양조약기구, NATO 순방 동행을 마치고 난 뒤 두문불출하고 있다는 겁니다. 정치평론가들은 김 여사가 공개 행보에 나설 때마다 관심을 끌기는 했지만 팬클럽, 수행원, 제2부속실 설치, 명품 목걸이 논란 등으로 부정적인 여론이 대두되자 ‘리스크 관리’에 들어간 것으로 보고 있습니다. 장성철 공론센터 소장은 “김건희 여사가 최근 2주간 사라졌다”면서 “김 여사가 지지율에 중대한 영향을 끼친다는 정무적인 판단이 있었을 것”이라고 말했습니다. 배종찬 인사이트케이 소장 역시 윤 대통령의 지지율 하락 원인 중 하나로 김건희 여사를 꼽았습니다. 배 소장은 경제, 인사, 양극화, 김 여사, 도어스테핑의 앞글자를 딴 ‘경인양김도’가 지지율이 떨어진 이유라고 분석했습니다. 유튜브 채널 ‘시사저널 TV’에 출연한 진중권 전 교수는 “지금 김건희 여사는 잘하고 있는 것 아니냐?”는 사회자의 질문에 “그렇다. 조금 더 기다려야 될 것 같다”고 조언하기도 했습니다. ■ 공개행보 재개는? 목요일 진수식이 유력 그렇다면 김건희 여사는 언제쯤 다시 언론에 모습을 드러낼까요? 목요일인 28일이 될 가능성이 높습니다. 차세대 이지스함인 정조대왕 진수식이 열리는데, 여기에 참석하지 않을까 예상됩니다. 배에 이름을 붙이고 처음 물에 띄워 바다로 내보내는 의식인 진수식(進水式)에서는 진수도끼(보통 금토끼)로 밧줄을 끊거나 샴페인을 깨는 행사가 있습니다. 진수식의 하이라이트인데요, 관례적으로 여성이 해왔다고 합니다. 왜 여성이 하게 됐는지를 놓고 영국 빅토리아 여왕이 세레모니를 한 이후 관례로 굳어졌다는 설도 있고, 배(ship)를 여성 대명사인 she로 받는데서 유래했다 혹은 탯줄을 자르는 상징적인 의미가 있기 때문에 여성이 하게 됐다는 여러 가지 설들이 있습니다. 김건희 여사가 진수식에 등장할지는 목요일 확인할 수 있을 

#### 크롤링) 접속 차단되었을때 User-Agent지정(header)
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=kiddwannabe&logNo=221185808375


In [120]:
from bs4 import BeautifulSoup
import requests

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}


url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102'
req = requests.get(url,headers = headers)
bs = BeautifulSoup(req.content,'html.parser')
print(bs)


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh">
<meta content="width=1106" name="viewport">
<meta content="사회 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=102" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" property="og:image">
<meta content="교육, 언론, 의료, 인물, 사건사고 등 사회 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author">
<meta content="summary" name="twitter:card"/>
<meta content="사회 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" name="t

In [125]:
target = bs.select_one('#main_content > div > div._persist > div:nth-child(1) > div:nth-child(1) > div.cluster_body > ul > li:nth-child(1) > div.cluster_text > a')
# target = ' '.join(i.text for i in target)

print(target.text,'\n')
print(target,'\n')
print(target['class'],'\n')
print(target['href'])

신호 장애로 KTX·SRT 열차 운행 지연...복구 완료 

<a class="cluster_text_headline nclicks(cls_nav.clsart)" href="https://n.news.naver.com/mnews/article/052/0001768689?sid=102">신호 장애로 KTX·SRT 열차 운행 지연...복구 완료</a> 

['cluster_text_headline', 'nclicks(cls_nav.clsart)'] 

https://n.news.naver.com/mnews/article/052/0001768689?sid=102


In [130]:
target = bs.select('#main_content > div > div > div > div > div > ul > li > div > a')
for element in target:
    print(element.text)
    print(element['href'])

신호 장애로 KTX·SRT 열차 운행 지연...복구 완료
https://n.news.naver.com/mnews/article/052/0001768689?sid=102
KTX 고모~신경주역 신호장애 복구, 오전 10시부터 정상운행(종합)
https://n.news.naver.com/mnews/article/421/0006240201?sid=102
경부고속철 신경주역 부근 신호 장애로 열차 최장 70분 지연
https://n.news.naver.com/mnews/article/055/0000988457?sid=102
SRT, 신경주역 건천 연결선서 '신호 장애'…열차 지연
https://n.news.naver.com/mnews/article/003/0011326066?sid=102
'답안지 유출' 광주 사립고 학생 경찰 조사
https://n.news.naver.com/mnews/article/277/0005122960?sid=102
광주 모 고교 답안지 유출 의혹… 경찰, 학생 1명 피의자 입건
https://n.news.naver.com/mnews/article/022/0003718653?sid=102
사립고교서 시험지 답안 유출...4년 전에도 시험지 유출
https://n.news.naver.com/mnews/article/016/0002020141?sid=102
광주 모 고교서 기말고사 답안 유출 의혹…4년전 '시험지 유출' 그 학교
https://n.news.naver.com/mnews/article/586/0000042089?sid=102
이상민 "총경 집단행동, 軍하나회 쿠데타에 준하는 상황…징계사유 아닌 형사범죄 사건"
https://n.news.naver.com/mnews/article/087/0000914011?sid=102
초급 간부까지 참전한 경찰 vs 행안부 정면 충돌
https://n.news.naver.com/mnews/article/081/0003289885?sid=102
이상민 "해산명령 내렸는데 어겼다, 12·12 쿠데타 준하는

# 이미지 추출


In [137]:
import requests as rq
url ='https://n.news.naver.com/mnews/article/025/0003212284?sid=102'
r = rq.get(url,headers=headers).text
bs = BeautifulSoup(r,'lxml')
target = bs.select_one('#img1')
print(target)
print('-'*50)
print(target['data-src'])


<img class="_LAZY_LOADING" data-src="https://imgnews.pstatic.net/image/025/2022/07/26/0003212284_001_20220726105201081.jpg?type=w647" id="img1"/>
--------------------------------------------------
https://imgnews.pstatic.net/image/025/2022/07/26/0003212284_001_20220726105201081.jpg?type=w647


Q. url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100' 사이트에서 뉴스기사를 출력하세요.
- 주요 키워드 분석을 위한 데이터 셋 만들기

In [152]:
import requests as rq

url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'
r = rq.get(url,headers=headers).text
bs = BeautifulSoup(r,'lxml')
keyw = bs.select('#main_content > div > div._persist')
print(keyw)

[<div class="_persist">
<div class="cluster">
<div class="cluster_group _cluster_content">
<div class="cluster_body">
<ul class="cluster_list">
<li class="cluster_item">
<div class="cluster_thumb">
<div class="cluster_thumb_inner">
<a class="cluster_thumb_link nclicks(cls_pol.clsart)" href="https://n.news.naver.com/mnews/article/422/0000552809?sid=100">
<img alt="" height="90" onerror="javascript:this.src='https://ssl.pstatic.net/static.news/image/news/2009/noimage_132x90.png';this.style.width=132;this.style.height=90;" src="https://imgnews.pstatic.net/image/origin/422/2022/07/26/552809.jpg?type=ofullfill132_90" width="132"/>
<strong class="r_ico r_vod_medium">동영상기사</strong>
</a>
</div>
</div>
<div class="cluster_text">
<a class="cluster_text_headline nclicks(cls_pol.clsart)" href="https://n.news.naver.com/mnews/article/422/0000552809?sid=100">[속보] 윤대통령, 경찰 집단반발에 "중대한 기강문란"</a>
<div class="cluster_text_lede">- 윤대통령 "집단행동에 깊은 우려 가지고 있어" - "대통령이 치안·국방 최종지휘…집단반발 중대한 국기문란" - "국가의 기본 질서 기강 

In [None]:
from konlpy.tag import Okt
from collections import Counter
from bs4 import BeautifulSoup
import requests

url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'
rqs = requests.get(url,headers=headers).text
bs = BeautifulSoup(rqs,'lxml')
bs = bs.find_all('div',class_='cluster')

In [None]:
result = []
for i in bs:
    result.append(i.get_text())
bs = re.sub('[^가-힣]+',' ',str(result))

In [245]:
okok = Okt()
okok2 = okok.pos(bs)
okre = []
for i, j in okok2:
    if (j =='Noun')& (len(i)> 1 ):
        okre.append(i)

okreid = dict(Counter(okre).most_common())
okreid = sorted(okreid.items(), key=lambda x:x[1], reverse=True)
dword = ["국민일보","강력","동아일보","진정","최종","조선일보","움직임","주문","직원","만날","어젯","타고","명의","해도","전날","안위","시대","침소","봉대","무스","이상","대부분","사진","제공","사진기","자단","시선집중","전화","인터","성명","당장","통째","즉각","시도","모든","지고","브리핑","차원","연합뉴스","실기","르뽀","콰콰광","초토화","비승","우뢰","굉음","하늘","벼락","이윽고","후회","당시","자신","프레","변위","석비","서관","시작","오전","내일","테이블","주목","물어","통해","안면","몰수","데일리안","면복","최근"]
okreid=dict(okreid)
for i in dword:
    if i in okreid(key):
        
okreid = okreid.pop(dword[1])

KeyError: '강력'

In [247]:
okreid[0]

{'영화': 10,
 '랭킹': 5,
 '범죄': 4,
 '탑건': 4,
 '검색': 3,
 '외계': 3,
 '매버릭': 3,
 '결심': 3,
 '도시': 3,
 '러브': 3,
 '아이': 3,
 '집계': 3,
 '보기': 3,
 '바로가기': 2,
 '평점': 2,
 '네티즌': 2,
 '모험': 2,
 '한산': 2,
 '용의': 2,
 '출현': 2,
 '토르': 2,
 '썬더': 2,
 '미니': 2,
 '마녀': 2,
 '극장판': 2,
 '주일': 2,
 '일로': 2,
 '이용': 2,
 '책임': 2,
 '법적': 2,
 '저작권': 2,
 '사업자': 2,
 '등록': 2,
 '번호': 2,
 '네이버': 1,
 '메인': 1,
 '메뉴': 1,
 '본문': 1,
 '영역': 1,
 '상영작': 1,
 '예정작': 1,
 '현재': 1,
 '상영': 1,
 '개봉': 1,
 '예정': 1,
 '예고편': 1,
 '디렉토리': 1,
 '리뷰': 1,
 '다운로드': 1,
 '극장': 1,
 '영화인': 1,
 '전체': 1,
 '드라마': 1,
 '판타지': 1,
 '공포': 1,
 '멜로': 1,
 '애정': 1,
 '로맨스': 1,
 '스릴러': 1,
 '느와르': 1,
 '다큐멘터리': 1,
 '코미디': 1,
 '가족': 1,
 '미스터리': 1,
 '전쟁': 1,
 '애니메이션': 1,
 '뮤지컬': 1,
 '액션': 1,
 '테이블': 1,
 '순위': 1,
 '변동': 1,
 '그레이': 1,
 '킬러': 1,
 '비상': 1,
 '선언': 1,
 '엘비스': 1,
 '명탐정': 1,
 '코난': 1,
 '할로윈': 1,
 '신부': 1,
 '헌트': 1,
 '썸머': 1,
 '필름': 1,
 '타고': 1,
 '브로커': 1,
 '쥬라기': 1,
 '월드': 1,
 '도미니언': 1,
 '메모리': 1,
 '닥터': 1,
 '스트레': 1,
 '혼돈': 1,
 '멀티버스': 1,
 '핸썸': 1,
 '뽀로로': 1,
 '드래

#### 과제0726_2
네이버 카테고리별 기사를 아래 카테고리 정의를 기준으로 크롤링한 후 불필요한 공백을 제거하고 한글만으로 된 데이터 프레임을 출력하세요.(용도는 카테고리별 키워드 분석을 위한 시각화임을 감안하여 데이터 수집 및 전처리 수행)
- 카테고리 정의
    - 100 정치
        - (청와대[264] + 국회/정당[265] + 북한[268] + 국방/외교[267])

    - 101 경제
        - (금융[259] + 증권[258] + 산업/재계[261] + 글로벌 경제[262] + 부동산[260])

    - 103 생활/문화
        - (건강정보[241] + 여행/레저[237] + 공연/전시[242] + 날씨[248] + 생활문화 일반[245])

    - 105 IT/과학
        - (통신/뉴미디어[227] + IT 일반[230] + 컴퓨터[283] + 과학 일반[228])
        
- 카테고리별 1000개, 총 4천개로 구성된 데이터프레임 생성

In [214]:
import pandas as pd
from konlpy.tag import Okt
from collections import Counter
from bs4 import BeautifulSoup
import requests
news_df= pd.read_json('news_df')
# news_df

news=news_df['news']
# news = re.sub('[^가-힣]+','',str(news))
li=[]
for i in news:
    li.append(i)
# li
li = re.sub('[^가-힣\s]+','',str(li))
ok = Okt()
li = ok.pos(li)
li2=[]
for i,j in li:
    if (len(i)>1) & (j =='Noun'):
        li2.append(i)
        
li2 = dict(Counter(li2).most_common())
li2 = sorted(li2.items(), key=lambda x : x[1], reverse=True)
li2

[('금융', 134),
 ('장관', 119),
 ('대통령', 118),
 ('상반기', 83),
 ('업무', 82),
 ('한동훈', 81),
 ('경찰', 79),
 ('한국', 72),
 ('분기', 70),
 ('투자', 70),
 ('코로나', 68),
 ('중복', 68),
 ('폭염', 66),
 ('국회', 64),
 ('서비스', 64),
 ('축하', 62),
 ('박진', 62),
 ('기업', 59),
 ('날씨', 59),
 ('영업', 58),
 ('우영', 57),
 ('개선', 54),
 ('최고', 54),
 ('회의', 53),
 ('과학기술', 52),
 ('반도체', 52),
 ('서울', 52),
 ('억원', 51),
 ('소나기', 51),
 ('외교', 49),
 ('증권', 49),
 ('현대', 48),
 ('추진', 47),
 ('상임', 46),
 ('전국', 46),
 ('금리', 46),
 ('정부', 44),
 ('보고', 44),
 ('지원', 44),
 ('최대', 44),
 ('출시', 44),
 ('관련', 43),
 ('정보', 42),
 ('치료', 42),
 ('오늘', 42),
 ('신설', 41),
 ('국제', 41),
 ('실적', 41),
 ('팽나무', 41),
 ('속보', 40),
 ('사업', 40),
 ('아파치', 39),
 ('공급', 39),
 ('법무부', 38),
 ('주재', 38),
 ('공연', 38),
 ('전체', 37),
 ('북한', 37),
 ('개최', 37),
 ('계약', 37),
 ('센터', 37),
 ('항공', 36),
 ('유지', 36),
 ('증가', 36),
 ('자동차', 36),
 ('훈련', 35),
 ('브리핑', 35),
 ('위원장', 35),
 ('기술', 35),
 ('개발', 34),
 ('전쟁', 34),
 ('물놀이', 34),
 ('윤석열', 33),
 ('용산정', 33),
 ('비창', 33),
 ('교

In [None]:
# 웹구조 파악 : sid1 = 100, sid2 = 264, page = 
https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100
https://news.naver.com/main/main.naver?mode=LS2D&mid=shm&sid1=100&sid2=265
https://news.naver.com/main/main.naver?mode=LS2D&mid=shm&sid1=100&mid=shm&date=20220726&page=27

url='https://news.naver.com/main/list.naver?mode=LS2D&sid2='+str(cat)+'sid1=100&mid=shm&date=20220726&page='+str(i+1)

In [4]:
import pandas as pd
news_df = pd.DataFrame(columns=['news','category'])
news_df

Unnamed: 0,news,category


In [None]:
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

cats=[264,265,268,267]
ind=0 # 행 번호
for cat in cats:
    for i in range(15):
        url='https://news.naver.com/main/list.naver?mode=LS2D&sid2='+str(cat)+'&sid1=100&mid=shm&date=20220726&page='+str(i+1)       
        headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
        news = requests.get(url, headers=headers)
        bs = BeautifulSoup(news.text,'html.parser')
        links = bs.select('#main_content > div > ul > li > dl > dt > a')
        newslinks=[]
        for j, a in enumerate(links):
            newslink = a.get('href')
            newslinks.append(newslink)
            newslinks = list(set(newslinks)) # 셋을 사용하여 중복 기사 제거

        for link in newslinks:
            res2 = requests.get(link, headers=headers).text
            bs2 = BeautifulSoup(res2,'html.parser')
            news = bs2.find('div',id='dic_area').text
            news = re.sub('\n','',news) # 개행 공백으로
            news = re.sub('\t','',news) # tab 공백으로
            news_df.loc[ind] = [news,cat]        
            ind += 1
news_df