### BeautifulSoup 모듈
- 홈페이지 내 데이터를 쉽게 추출할 수 있게 해주는 파이썬 외부 라이브러리
- 웹 문서 내 수많은 HTML 태그들을 parser를 활용해 사용하기 편한 파이썬 객체로 만들어 제공
- 웹 문서 구조를 알고 있다면 편하게 데이터를 뽑아 활용할 수 있음

#### 기존방식과의 차이점
- 정규 표현식, 문자열 함수 등을 활용하여 홈페이지 텍스트 내 패턴을 분석하여 하나씩 원하는 데이터를 찾아가는 형식
- BS는 HTML 문서를 태그를 기반으로 구조화하여 태그로 원하는 데이터를 찾아가는 형식


In [None]:
#살펴보기

In [3]:
html_doc = """
<html lang="en">
<head><title>crawl</title></head>
<body>
<p class="a" align="center"> text1</p>
<p class="b" align="center"> text2</p>
<p class="c" align="center"> text3</p>
<div><img src="/source" width="300" height="200"></div>
</body>
</html>
"""

In [9]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc,'html.parser')  # html parser를 사용
print(soup)


<html lang="en">
<head><title>crawl</title></head>
<body>
<p align="center" class="a"> text1</p>
<p align="center" class="b"> text2</p>
<p align="center" class="c"> text3</p>
<div><img height="200" src="/source" width="300"/></div>
</body>
</html>



In [8]:
print(soup.prettify())   #탭도 적용해서 이쁘게 보여줌

<html lang="en">
 <head>
  <title>
   crawl
  </title>
 </head>
 <body>
  <p align="center" class="a">
   text1
  </p>
  <p align="center" class="b">
   text2
  </p>
  <p align="center" class="c">
   text3
  </p>
  <div>
   <img height="200" src="/source" width="300"/>
  </div>
 </body>
</html>



In [None]:
#살펴보기: 태그 안에 텍스트 뽑아내기

In [11]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

In [13]:
soup=BeautifulSoup(html,'html.parser')
print(soup.prettify())

<html>
 <body>
  <h1>
   스크레이핑이란?
  </h1>
  <p>
   웹 페이지를 분석하는 것
  </p>
  <p>
   원하는 부분을 추출하는 것
  </p>
 </body>
</html>



In [15]:
h1=soup.html.body.h1
h1.string

'스크레이핑이란?'

In [22]:
p1=soup.html.body.p
p2=p1.next_sibling.next_sibling

print(p1.string, p2.string)

웹 페이지를 분석하는 것 원하는 부분을 추출하는 것


---

#### find() : HTML의 해당 태그에 대한 첫 번째 정보를 가져옴
- find(속성='값') : HTML 해당 속성과 일치하는 값에 대한 첫 번째 정보를 가져옴

In [35]:
html = """
<html><body>
  <h1 id='title'>스크레이핑이란?</h1>
  <p id='body'>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

In [38]:
soup=BeautifulSoup(html,'html.parser')
title=soup.find(id='title')
body=soup.find(id='body')

print(title.string)      
print(title.text)        
print(title.get_text())

print(body.string)
print(body.text)
print(body.get_text())

스크레이핑이란?
스크레이핑이란?
스크레이핑이란?
웹 페이지를 분석하는 것
웹 페이지를 분석하는 것
웹 페이지를 분석하는 것


#### find_all(), findAll() : HTML의 해당 태그에 대한 첫 번째 정보들을 가져옴

In [42]:
texts=soup.findAll('p')

for t in texts:
    print(t.text)

웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


In [20]:
#urlopen()과 BeautifulSoup의 조합

from bs4 import BeautifulSoup
import urllib.request as req

url="http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"   #xlm 데이터
response=req.urlopen(url)

soup=BeautifulSoup(response, 'html.parser')
title=soup.find('title').string
wf=soup.find('wf').string           #weather forecassting의 약자인 wf부르기

print(title, wf)

기상청 육상 중기예보 ○ (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 22~26도, 낮 기온은 29~34도로 오늘(24일, 아침최저기온 22~24도, 낮최고기온 25~32도)보다 높겠습니다.<br /><br />* 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며, 돌풍과 함께 천둥.번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며, 앞으로 발표되는 기상정보를 참고하기 바랍니다.
<?xml version="1.0" encoding="utf-8" ?>
<rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubdate>2022년 07월 24일 (일)요일 18:00</pubdate>
<item>
<author>기상청</author>
<category>육상중기예보</category>
<title>전국 육상 중기예보 - 2022년 07월 24일 (일)요일 18:00 발표</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp
<guid>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</guid>
<description>
<header>
<title>전국 육상중기예보</title>
<tm>202207241800</tm>
<wf><![CDATA[○ (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 22~26도, 낮 기온은 29~34도로 오늘(24일, 아침최저기온 2

In [50]:
import requests
import re

url="http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp" 
data=requests.get(url).text
soup=BeautifulSoup(data,'html.parser')
wf=soup.find('wf').string
wf=re.sub('[^0-9가-힣()]',' ',wf)
wf

'   강수  27일 수 은 수도권과 강원영서에 비가 오겠습니다           기온  이번 예보기간 아침 기온은 22 25도  낮 기온은 29 34도로 어제 21일  아침최저기온 20 24도  낮최고기온 23 32도 보다 높겠습니다               이번 예보기간 북태평양고기압의 발달 여부와 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며  정체전선의 영향권에서 벗어난 지역에도 대기 불안정으로 소나기가 내릴 가능성이 있겠으니  앞으로 발표되는 기상정보를 참고하기 바랍니다 '

## 과제 07/22_2

 #### 다음과 같이 나타나도록 하시오
 ```
'(강수) 23일(토) 오후부터 24일(일) 오전 사이 전국에 비가 오겠고, 강원영동은 24일(일) 오후까지 이어지는 곳이 있겠습니다. 27일(수)은 수도권과 강원영서에 비가 오겠습니다.(기온) 이번 예보기간 아침 기온은 22~26도로 어제(19일, 아침최저기온 20~24도)보다 조금 높겠고, 낮 기온은 28~34도로 어제(낮최고기온 27~34도)와 비슷하겠습니다.(주말전망) 23일(토) 오후부터 24일(일) 오전 사이 전국에 비가 오겠고, 강원영동은 24일(일) 오후까지 이어지는 곳이 있겠습니다.
```


In [9]:
import requests
import re
from bs4 import BeautifulSoup

url="http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp" 
data=requests.get(url).text
soup=BeautifulSoup(data,'html.parser')
wf=soup.find('wf').string
wf

'○ (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 22~26도, 낮 기온은 29~34도로 오늘(24일, 아침최저기온 22~24도, 낮최고기온 25~32도)보다 높겠습니다.<br /><br />* 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며, 돌풍과 함께 천둥.번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며, 앞으로 발표되는 기상정보를 참고하기 바랍니다.'

In [14]:
#
wf_sub=re.sub('[^가-힣0-9(),~. ]','',wf)
re.sub('  ','',wf_sub)

' (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠습니다. (기온) 이번 예보기간 아침 기온은 22~26도, 낮 기온은 29~34도로 오늘(24일, 아침최저기온 22~24도, 낮최고기온 25~32도)보다 높겠습니다. 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며, 돌풍과 함께 천둥.번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며, 앞으로 발표되는 기상정보를 참고하기 바랍니다.'

In [18]:
#
wf_sub=re.sub(r'[*<>br○/]','',wf)
re.sub('  ','',wf_sub)

' (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠습니다. (기온) 이번 예보기간 아침 기온은 22~26도, 낮 기온은 29~34도로 오늘(24일, 아침최저기온 22~24도, 낮최고기온 25~32도)보다 높겠습니다. 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며, 돌풍과 함께 천둥.번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며, 앞으로 발표되는 기상정보를 참고하기 바랍니다.'

---

In [61]:
texts=soup.find_all('wf')
for i in texts:
    t=i.text
    t=re.sub('[^0-9가-힣]',' ',t)
    print(t)

   강수  27일 수 은 수도권과 강원영서에 비가 오겠습니다           기온  이번 예보기간 아침 기온은 22 25도  낮 기온은 29 34도로 어제 21일  아침최저기온 20 24도  낮최고기온 23 32도 보다 높겠습니다               이번 예보기간 북태평양고기압의 발달 여부와 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며  정체전선의 영향권에서 벗어난 지역에도 대기 불안정으로 소나기가 내릴 가능성이 있겠으니  앞으로 발표되는 기상정보를 참고하기 바랍니다 
구름많음
맑음
구름많음
맑음
구름많음
구름많고 비
구름많음
구름많음
맑음
구름많음
구름많음
구름많음
구름많음
구름많음
맑음
구름많음
맑음
구름많음
구름많고 비
구름많음
구름많음
맑음
구름많음
구름많음
구름많음
구름많음
구름많음
맑음
구름많음
맑음
구름많음
구름많고 비
구름많음
구름많음
맑음
구름많음
구름많음
구름많음
구름많음
구름많음
맑음
구름많음
맑음
구름많음
구름많고 비
구름많음
구름많음
맑음
구름많음
구름많음
구름많음
구름많음
구름많음
맑음
구름많음
맑음
구름많음
구름많고 비
구름많음
구름많음
맑음
구름많음
구름많음
구름많음
구름많음
구름많음
맑음
구름많음
맑음
구름많음
구름많고 비
구름많음
구름많음
맑음
구름많음
구름많음
구름많음
구름많음
구름많음
맑음
구름많음
구름많음
구름많음
구름많고 비
구름많음
구름많음
구름많음
구름많음
구름많음
흐림
흐림
구름많음
맑음
구름많음
구름많음
구름많음
구름많고 비
구름많음
구름많음
구름많음
구름많음
구름많음
흐림
흐림
구름많음
구름많음
흐림
흐림
구름많음
흐림
흐림
흐림
구름많음
맑음
맑음
맑음
흐림
구름많음
구름많음
구름많음
구름많음
구름많음
맑음
구름많음
구름많음
맑음
구름많음
구름많음
맑음
구름많음
구름많음
구름많음
구름많음
구름많음
구름많음
맑음
구름많음
구름많음
맑음
구름많음
구름많음
맑음
구름많음
구름많음
구름많음
구름많음
구름많음
구름많음
맑음
구름많음
구름많음
맑음
구름많음
구름많음
맑음
구름많음
구름많음
구름많음
구름많

In [68]:
#네이버 url 및 find_all을 활용해서 정보 추출

req=requests.get('http://naver.com')

html=req.text

soup=BeautifulSoup(html,'html.parser')

result=soup.find_all('span',class_='blind')  
            #span 태그의 class="blind" 일 때, class가 예약어라 '_' 붙여줘야함
result[:5]

[<span class="blind">네이버</span>,
 <span class="blind">쥬니어네이버</span>,
 <span class="blind">해피빈</span>,
 <span class="blind">검색</span>,
 <span class="blind">한글 입력기</span>]

In [69]:
result2=soup.find_all('span', class_='fix')
result2

[<span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@query@ <span class="context">@intend@</span></span>]

In [70]:
result3=soup.find_all('span',attrs={'class':'fix'})
result3

[<span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@query@ <span class="context">@intend@</span></span>]

In [72]:
import re

req=requests.get('http://naver.com')
soup=BeautifulSoup(html,'html.parser')

soup.find_all(string='네이버')

['네이버']

In [73]:
soup.find_all(string=re.compile('네이버'))

['네이버',
 '네이버를 시작페이지로',
 '쥬니어네이버',
 '언론사가 직접 편집한 뉴스들을 네이버 홈에서 바로 보실 수 있습니다.',
 '계절이 바뀔때마다 고민하게 되는 인테리어. 크기가 크고 가격대가 있는 가구보다는 몇 가지 소품으로 여름을 위한 인테리어 해보기. #네이버리빙 #내돈내산 #리빙잇템 여름을 위한 인테리어 소품들 몇 가지. 1 라탄 소품/ 소가구 작은 라탄 바구니와 라탄 스툴이에요. 작지만 인테리어 효과는 크죠. 시원한 느낌도 들구요. 스툴은 협탁처럼 사용할 수 있어서 침대 옆',
 "( 이 컨텐츠는 꿀하우스 네이버카페, 인스타그램 등 회원분들의 실제 인테리어 공간 제보로 만들어집니다. ) 인스타그램 : 꿀하우스 @ggulhouse따뜻하고 포근하게 따뜻하고 포근하게 제가 좋아하는 노란색으로 가득 채운 공간입니다. 오늘두 smile! 'ᴗ' 무드등 : 젊은이마켓 감성네온 무드등 / 전신거울 : 트리빔하우스 300 확장형 / ",
 '■ 이벤트 진행 기간 기간 : 2022. 07.01 - 2022.07.31 발표 : 2022. 08.16 ■ 혜택 7월의 공간 100P!CK 우리 집 여러 공간이 선정될 수 있습니다 선정된 공간마다 홈스타일링 지원금 네이버페이 3만 포인트 최우수 공간에는 네이버페이 20만 포인트 - 메인 노출 여부와 관계 없이 공간100P!CK 에 선정될 수 있습니다. -',
 '네이버 리빙과 함께하는 메인 도전 리빙&레시피와 이웃 추가하고 블로그 혹은 포스팅 url을 비공개 댓글로 남겨주세요. 말머리에 [살림] [취미] 를 붙여 주시고, 포스팅의 간략한 내용 설명도 부탁드릴게요. 살림 추천 키워드 #여름살림 #살림노하우 #살림꿀팁 #창틀청소법 #세탁법 #베이킹소다활용법 #주방정리 #수납노하우 #팬트리정리 #천연세제만들기 #친환경살',
 '이건 정말 잘 샀는데! 자랑하고 싶은 #내돈내산잇템 을 소개해주세요 잇템은 3개 이상 / 대가성 리뷰 불가 #자랑하고싶은살림아이템5 #내가사고내가쓴후기 #내가산후기 #살림리뷰 #살림잇템 #살림템

#### select_one(), select()
- CSS 선택자를 활용하여 원하는 정보를 가져옴(태그를 검색하는 find, find_all과 비슷함)
- class는 ".", id는 "#"로 표시

In [4]:
from bs4 import BeautifulSoup
from urllib import request


url = "https://finance.naver.com/marketindex/"

res=request.urlopen(url)
soup=BeautifulSoup(res,'html.parser')
price=soup.select_one('#exchangeList > li.on > a.head.usd > div > span.value').string
   #copy selector 기능을 사용해서 복붙
print('usd/krw= ',price)

usd/krw=  1,308.80


In [5]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [7]:
!pip install lxml



In [24]:
#첫번째 파싱 방법
bs=BeautifulSoup(html_doc, 'html.parser')
print(bs.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [72]:
#두번째 파싱 방법
bs2=BeautifulSoup(html_doc, 'lxml')
bs2

<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

In [15]:
bs.title

<title>The Dormouse's story</title>

In [16]:
bs.title.name

'title'

In [18]:
bs.title.parent

<head><title>The Dormouse's story</title></head>

In [19]:
bs.title.parent.name

'head'

In [20]:
bs.p

<p class="title"><b>The Dormouse's story</b></p>

In [21]:
bs.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [23]:
bs.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [26]:
bs.find(id='link3')

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [27]:
bs.find('a',calss_='sister')   

In [31]:
bs.a['class']

['sister']

In [32]:
#a태그 내에서 href 링크들만 뽑아내기

for link in bs.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [33]:
bs.find_all()

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>,
 <head><title>The Dormouse's story</title></head>,
 <title>The Dormouse's story</title>,
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;

In [36]:
#p태그 내 a태그가 있어서 a태그가 나옴

bs.find_all('p')

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [37]:
len(bs.find_all('p'))  #p태그는 3개인 것을 알 수 있음

3

#### string vs. get_text()
- get_text()를 이용하면 한방에 현재 HTML 문서의 모든 텍스트를 추출할 수 있습니다. 조금 더 정확히 표현하면 get_text() 메서드는 현재 태그를 포함하여 모든 하위 태그를 제거하고 유니코드 텍스트만 들어있는 문자열을 반환
- string의 경우 문자열이 없으면 None을 출력하지만, get_text()의 경우 유니코드 형식으로 텍스트까지 문자열로 반환하기 때문에  아무 정보도 출력되지 않는다.
- string 속성은 태그(tag) 내 문자열을 반환. get_text()를 사용하더라도 정확하게 문자열을 추출하기 위해서는 항상 마지막 태그에 메서드를 사용


In [44]:
print(bs.get_text())    #바디 전체의 텍스트 전체를 뽑아줌

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [51]:
print(bs.body.get_text())
print(bs.find('body').get_text())



The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [45]:
print(bs.string)      #바디 전체의 텍스트를 뽑아내지 못함

None


In [54]:
print(bs.body.string)
print(bs.find('body').string)

None
None


In [47]:
print(bs.find('div').get_text())   #div안에 아무 내용이 없으면 아무것도 출력이 안됨




In [46]:
print(bs.find('div').string)     #div 안에 아무 내용이 없으면 None값을 출력함

None


In [55]:
print(bs.a.string)

Elsie


In [58]:
li=bs.find_all('p')

for i in li:
    print(i.string)      #a태그 내 text들이 None처리됨

The Dormouse's story
None
...


In [59]:
for i in li:
    print(i.get_text())    #a태그 내 text들이 출력됨

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...


In [70]:
#네이버 정치뉴스 크롤링을 lxml 파싱으로 해보기

import urllib.request as rq

url='https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html=rq.urlopen(url)
bs= BeautifulSoup(html,'lxml')      #
text=bs.p
text=text.get_text()
text

'AiRS추천으로 구성된 뉴스를 제공합니다.'

In [77]:
text2=bs.find_all('a')
for t in text2:
    print(t.get_text(),end='')

메인 메뉴로 바로가기본문으로 바로가기검색NAVER뉴스TV연예스포츠날씨프리미엄언론사별 정치 선택됨경제 사회 생활/문화 IT/과학 세계 랭킹 신문보기 오피니언 TV 팩트체크 전체 언론사뉴스스탠드라이브러리전체 언론사뉴스스탠드라이브러리정치대통령실 국회/정당 북한 행정 국방/외교 정치일반 안내헤드라인 뉴스

법조계 "민주유공자법, 기준 불분명·과도한 혜택…위헌소송 남발할 것”신문브리핑 3 "與 "野의 민주유공자法, 운동권 신분 세습법"" 외 주요기사우원식 "민주화유공자법, 박종철·이한열를 유공자로 인정해달라는 것"우원식 “모든 유공자법에 교육·취업 혜택...민주유공자법만 뺄 순 없어”19개의 관련뉴스 더보기

 "경찰국 신설 논란, 행안부·경찰청서 필요한 조치할 것"[尹 출근길 한마디]尹대통령, '警亂' 조짐에 "행안부·경찰청이 필요한 조치 잘 할 것"尹, 경찰 반발에 “행안부·경찰청에서 조치 잘 할 것”윤 대통령, 경찰 반발에 "행안부 · 경찰청서 필요 조치"46개의 관련뉴스 더보기

대통령실, 尹 지지율 하락에 "새 정부, 손발 맞추는 데 시간 필요"대통령실 "경찰국 신설이 치안본부? 프레임 공격"강승규 “경찰국 신설 ‘전두환식’ 비판은 프레임 공격”강승규 “‘치안본부’ 비판은 프레임…경찰국은 권한 견제용”9개의 관련뉴스 더보기

우상호 "비서실장 첫 등판이 경찰 장악‥대통령 지시로 해석"민주당 "비서실장 첫 등판이 '경찰 장악' 관련…대통령 지시일 것"우상호 "경찰 장악에 비서실장 등판...尹 지시로 해석"여야 전면전 치닫는 경찰국 갈등…정국 최대 쟁점 급부상30개의 관련뉴스 더보기권성동 "대우조선 경영진, 방만 경영 책임지고 물러나야"

與, `파업·손실` 대우조선 경영진도 책임론…"`文 동생 친구 알박기` 박두선 사장 물러나라"10개의 관련뉴스 더보기

추미애 "류 총경 대기발령, 속 좁은 인사보복 철회해야"

추미애, 류삼영 두둔하며 尹정권 저격…“정치경찰화 시도, ‘국민 저항’ 직면할 것”9개의 관련뉴스 더보기

하태경 “경찰국 신설, 정부가 너무 거칠게 

In [88]:
item=bs.find('div').find('a').text
item

'메인 메뉴로 바로가기'

In [87]:
items=bs.find('div').find_all('a')
items

[<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>,
 <a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>,
 <a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>,
 <a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>,
 <a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>,
 <a class="entertain nclicks(gnb.enter)" href="https://entertain.naver.com/home">TV연예</a>,
 <a class="sports nclicks(gnb.sports)" href="https://sports.news.naver.com">스포츠</a>,
 <a class="weather nclicks(gnb.weather)" href="https://weather.naver.com">날씨</a>,
 <a class="premium nclicks(gnb.premium)" href="https://contents.premium.naver.com">프리미엄</a>,
 <a class="nclicks(lnb.pcmedia)" href="/"><span class="tx">언론사별</span> </a>,
 <a class="nclicks(lnb.pol)" href="/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100"><span class="tx">정치</span> <span class="blin

In [90]:
for item in items:
    print(item.get_text())

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리
정치
대통령실 
국회/정당 
북한 
행정 
국방/외교 
정치일반 


안내헤드라인 뉴스



법조계 "민주유공자법, 기준 불분명·과도한 혜택…위헌소송 남발할 것”
신문브리핑 3 "與 "野의 민주유공자法, 운동권 신분 세습법"" 외 주요기사
우원식 "민주화유공자법, 박종철·이한열를 유공자로 인정해달라는 것"
우원식 “모든 유공자법에 교육·취업 혜택...민주유공자법만 뺄 순 없어”
19개의 관련뉴스 더보기



 "경찰국 신설 논란, 행안부·경찰청서 필요한 조치할 것"[尹 출근길 한마디]
尹대통령, '警亂' 조짐에 "행안부·경찰청이 필요한 조치 잘 할 것"
尹, 경찰 반발에 “행안부·경찰청에서 조치 잘 할 것”
윤 대통령, 경찰 반발에 "행안부 · 경찰청서 필요 조치"
46개의 관련뉴스 더보기



대통령실, 尹 지지율 하락에 "새 정부, 손발 맞추는 데 시간 필요"
대통령실 "경찰국 신설이 치안본부? 프레임 공격"
강승규 “경찰국 신설 ‘전두환식’ 비판은 프레임 공격”
강승규 “‘치안본부’ 비판은 프레임…경찰국은 권한 견제용”
9개의 관련뉴스 더보기



우상호 "비서실장 첫 등판이 경찰 장악‥대통령 지시로 해석"
민주당 "비서실장 첫 등판이 '경찰 장악' 관련…대통령 지시일 것"
우상호 "경찰 장악에 비서실장 등판...尹 지시로 해석"
여야 전면전 치닫는 경찰국 갈등…정국 최대 쟁점 급부상
30개의 관련뉴스 더보기
권성동 "대우조선 경영진, 방만 경영 책임지고 물러나야"



與, `파업·손실` 대우조선 경영진도 책임론…"`文 동생 친구 알박기` 박두선 사장 물러나라"
10개의 관련뉴스 더보기



추미애 "류 총경 대기발령, 속 좁은 인사보복 철회해야"



추미애, 류삼영 두둔하며 尹정

In [92]:
items=bs.find('div',id='header').find_all('a')
items

[<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>,
 <a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>,
 <a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>,
 <a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>,
 <a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>,
 <a class="entertain nclicks(gnb.enter)" href="https://entertain.naver.com/home">TV연예</a>,
 <a class="sports nclicks(gnb.sports)" href="https://sports.news.naver.com">스포츠</a>,
 <a class="weather nclicks(gnb.weather)" href="https://weather.naver.com">날씨</a>,
 <a class="premium nclicks(gnb.premium)" href="https://contents.premium.naver.com">프리미엄</a>,
 <a class="nclicks(lnb.pcmedia)" href="/"><span class="tx">언론사별</span> </a>,
 <a class="nclicks(lnb.pol)" href="/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100"><span class="tx">정치</span> <span class="blin

In [93]:
for item in items:
    print(item.get_text())

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리


---

## 과제 07/25_1

#### Q. 상기 출력물을 불필요한 공백없이 정렬하여 출력하세요.(방법은 마음대로~)

---

In [91]:
texts=bs.find_all('p')
texts

[<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p>,
 <p class="section_sub_txt">오전 11시~오후 12시까지 집계한 결과입니다.</p>,
 <p class="copyright">본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.</p>]

In [94]:
for t in texts:
    print(t.string)

None
오전 11시~오후 12시까지 집계한 결과입니다.
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.


In [95]:
for t in texts:
    print(t.get_text())

AiRS추천으로 구성된 뉴스를 제공합니다.
오전 11시~오후 12시까지 집계한 결과입니다.
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.


In [122]:
import urllib.request as rq
import re

url='http://news.naver.com'
html=rq.urlopen(url)
bs=BeautifulSoup(html)

#한글만 뽑아내기
#방법1
text=bs.get_text()
p=re.findall('[가-힣 ]+',text)

hangeul=''
for i in p:
    hangeul+=i+' '
    hangeul=re.sub('[\s]{2,}','',hangeul)
print(hangeul)

네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 월 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자연재구독설정시사저널 월일구독 오르는 금리떨어지는 집값영끌족 상환 부담에비상 영끌족대출금리월부터 원리금만원 부담전체 가계대출 중세대 비중대보다 높아대출금리가포인트나 올랐습니다대 남성씨는년 경기 서울경제 월일구독 피겨여왕김연아월 결혼 세 연하 예비신랑 누구 피겨 여왕김연아 가 그룹 포레스텔라 멤버 팝페라 가수 고우림 과 결혼한다일 김연아의 매니지먼트사 올댓스포츠는김연아가 오는월 하순 서울 모처에서 성악가 고우림과 화촉을 밝힌다 고 밝혔다 광주방송 월일구독지지율주째대 긍정부정윤석열 대통령의 국정수행 지지율이 또 소폭 하락했다는 여론조사 결과가 나왔습니다리얼미터가 지난일 닷새 동안 전국세 이상 유권자명을 대상으로 윤 대통령의 국정 수행에 대한 평가를 조사한여성신문 월일구독 돌아온 대작햄릿 배우들 열연에 감탄여혐 서사는 아쉽 년 전 전석 매진작 배우 제작진 귀환 전무송 박정자 손숙 등 대배우들 조연 젊은 배우들이 주연 맡아 현대적 외피 두른 정통극 배우들 열연 빛나여성혐오지적 받는 원작 속 가부장 사회 수동적인 여성 비즈니스워치 월일구독 말라가는 동학개미 실탄 주가 전망에 쏠린눈 지난해 코로나 로 인한 급락장 이후 대세 상승장의 기류에 올라탄 동학개미들의 활동력이 현저하게 떨어졌다잠재적 투자 자금인 예탁금은 올해 들어 부쩍 감소하고 있고 거래대금도 예년 수준에 미치지 못하는 상황에 마주 새로보기 한겨레 월일구독 누가의 버터비치를 녹이나 에너지 문제는 복잡하지만 더 지속 가능한 길이 있을 겁니다단기적으론 석탄이 경제적이어도 장기적으로 사회가 감당 가능하고 적절한 에너지 생산 방법이 있습니다사회에 더 이익이 가는 방향으로 가야 합니다미디어오늘 월일구독 국민의힘 수신료 폐지주장에비전문가적 주장비판한노조 프랑스가수신료 폐지를 결정하면서 국민의힘

In [123]:
#방법2
text=str(bs)
p=re.findall('[가-힣 ]+',text)
re.sub('\s{1,}',' ',' '.join(p))

' 네이버 뉴스 네이버 뉴스 정치 경제 사회 생활 문화 세계 과학 등 언론사별 분야별 뉴스 기사 제공 네이버 네이버 뉴스 네이버 뉴스 네이버 뉴스 정치 경제 사회 생활 문화 세계 과학 등 언론사별 분야별 뉴스 기사 제공 본문 바로가기 구분 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 월 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 시사저널 월 일 시사저널 구독 오르는 금리 떨어지는 집값 영끌족 상환 부담에 비상 영끌족 대출금리 월부터 원리금 만원 부담 전체 가계대출 중 세대 비중 대보다 높아 대출금리가 포인트나 올랐습니다 대 남성 씨는 년 경기 서울경제 월 일 서울경제 구독 피겨여왕 김연아 월 결혼 세 연하 예비신랑 누구 피겨 여왕 김연아 가 그룹 포레스텔라 멤버 팝페라 가수 고우림 과 결혼한다 일 김연아의 매니지먼트사 올댓스포츠는 김연아가 오는 월 하순 서울 모처에서 성악가 고우림과 화촉을 밝힌다 고 밝혔다 광주방송 월 일 광주방송 구독 지지율 주째 대 긍정 부정 윤석열 대통령의 국정수행 지지율이 또 소폭 하락했다는 여론조사 결과가 나왔습니다 리얼미터가 지난 일 닷새 동안 전국 세 이상 유권자 명을 대상으로 윤 대통령의 국정 수행에 대한 평가를 조사한 여성신문 월 일 여성신문 구독 돌아온 대작 햄릿 배우들 열연에 감탄 여혐 서사는 아쉽 년 전 전석 매진작 배우 제작진 귀환 전무송 박정자 손숙 등 대배우들 조연 젊은 배우들이 주연 맡아 현대적 외피 두른 정통극 배우들 열연 빛나 여성혐오 지적 받는 원작 속 가부장 사회 수동적인 여성 비즈니스워치 월 일 비즈니스워치 구독 말라가는 동학개미 실탄 주가 전망에 쏠린 눈 지난해 코로나 로 인한 급락장 이후 대세 상승장의 기류에 올라탄 동학개미들의 활동력이 현저하게 떨어졌다 잠재적 투자 자금인 예탁금은 올해 들어 부쩍 감소하고 있고 거래대금도 예년 수준에 미치지 못하는 상황에 마주 새로보기

In [131]:
url='http://news.naver.com'
html=rq.urlopen(url)
bs=BeautifulSoup(html)
texts= bs.find_all('p')

for t in texts:
    print(t.get_text())

한국 스포츠계의 '슈퍼스타' 김연아가 오는 10월 5살 연하 성악가와 결혼한다. 김연아의 매니지먼트사인 올댓스포츠는 25일 보도자료를 통해 "김연아가 10월 하순 서울 모처에서 성악가 고우림(27)과 화촉을 밝힌다"
전국 경찰서장 회의에 참석했다가 대기발령 조치를 당한 울산중부경찰서장 류삼영 총경이 "휴일에 정당한 절차를 거쳐 세미나 형식을 회의를 한 것에 대한 징계는 부당하고 해당 모임에 대해 강제해산 명령은 오히려 직권 남용
'피겨퀸' 김연아가 오는 10월 결혼합니다. 김연아의 매니지먼트사 올댓스포츠는 오늘(25일) "김연아가 오는 10월 하순 서울 모처에서 성악가 고우림과 화촉을 밝힌다"라고 전했습니다. 고우림은 서울대 성악과를 졸업한
[분화 경계 수준 레벨5 '피난' 격상, 주민 33세대 51명 전원 대피 완료… "대규모 분화 임박한 상황은 아니다"] 일본 규슈 남쪽 가고시마현에 있는 활화섬 사쿠라지마가 25일 이틀 연속 강하게 분화했다. 현지 
'영끌족', 대출금리 2.2%→5% "8월부터 원리금 150만원 부담" 전체 가계대출 중 2030세대 비중 27.5%…"50대보다 높아" "대출금리가 2.8%포인트나 올랐습니다." 30대 남성 A씨는 2020년 경기
‘피겨퀸’ 김연아(32)가 오는 10월 결혼한다. 김연아의 매니지먼트사인 올댓스포츠는 25일 “김연아가 10월 하순 서울 모처에서 성악가 고우림(27)과 화촉을 밝힌다”고 밝혔다. 고우림의 소속사도“김연아와 3년 열
행정안전부 경찰국 신설에 반대해 전국 경찰서장 회의를 주도한 류삼영 총경이 대기발령 조치를 받자 일선 경찰들이 "나도 징계하라"며 크게 반발하고 있습니다. 유근창 경남 마산동부경찰서 양덕지구대장은 오늘 오전 경찰 내
한국사회에서 함께 살아가고 있지만 차별과 배제를 일상적으로 겪는 이주민 2세대가 있다. 본인 또는 부모가 외국으로부터 이주한 경험이 있는 ‘이주배경 청년’이다. 여기서 ‘이주’란 중국, 베트남, 몽골, 러시아 등 외
‘피겨여왕’ 김연아가 성악가이자 그룹 포레스텔라 멤버 고우

In [142]:
import requests
from bs4 import BeautifulSoup

url='https://news.naver.com'

response=requests.get(url)
html=response.text
bs=BeautifulSoup(html,'html.parser')


ps=bs.find_all('p')

for p in ps:
    print(p.get_text())

1000원 미만 초저가 마트 즉석밥도 인기 퇴근하고 집에 와서 배가 고픈데 밥솥에 밥이 똑 떨어졌을 때 부엌 ‘상비군’ 즉석밥을 찾는 사람이 적잖을 것이다. 코로나19에 감염돼 집에서 자가격리를 해야 했을 때도 즉석
“에너지 문제는 복잡하지만 더 지속 가능한 길이 있을 겁니다. 단기적으론 석탄이 경제적이어도 장기적으로 사회가 감당 가능하고 적절한 에너지 생산 방법이 있습니다. 사회에 더 이익이 가는 방향으로 가야 합니다.” 20
전라북도교육청이 지방공무원 필기시험 합격자를 발표했습니다. 전북교육청은 교육행정 직군에서 245명, 전산과 사서, 공업 등 나머지 10개 분야에서 67명 등 총 312명의 필기시험 합격자를 결정했으며, 이들을 대상으
일본 출입국관리소에 수용된 외국인 여성들을 만나온 오다 아사히(織田朝日) 씨는 출입국관리 체계와 수용시설의 문제점을 지적하는 활동을 하고 있다. 출입국관리 시스템에 의해 수용된 여성들의 실태를 오다 씨가 직접 전한다
2018년 아이스쇼에서 첫 만남…비공개 결혼식 '피겨퀸' 김연아(32)가 오는 10월 결혼한다. 김연아의 매니지먼트사인 올댓스포츠는 25일 "김연아가 10월 하순 서울 모처에서 성악가 고우림(27)과 화촉을 밝힌다"
#. 지난 4월 철거공사를 끝낸 서울 용산의 한 다세대주택(빌라). 건물 4개를 허문 자리에 각종 폐기물이 방치된 채로 공사장 인부들은 물론 포클레인 등 공사 장비가 3개월째 자취를 감춰버렸다. 건축비 상승으로 공사
문화재청은 인기리에 방송 중인 '이상한 변호사 우영우'에 등장한 팽나무의 문화재적 가치를 판단하기 위해 천연기념물 지정 조사를 하기로 했습니다. 이 드라마 8회에 나온 팽나무는 경남 창원시 북부리 마을 산정에 우뚝 
올 초 전 국민을 충격에 빠뜨렸던 '계곡 살인 사건'이 일어난 경기도 가평 용소계곡에 관광객들의 발길이 북새통을 이루고 있다. 이곳에서는 지난해 7월에도 30대 남성이 숨지는 등 매년 익사 사고가 발생하고 있으나 이
정부, 9600여t 공급 발표 농가·중도매인·농협 곤혹 창

## 과제 07/25_2

#### 기상청 육상 정보에서 강원도의 지역번호는 105이다. 강원도의 날씨 예보를 불필요한 공백을 제거한 후 출력하세요. 

In [150]:
url="http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp" 

https://www.weather.go.kr/plus/land/forecast/summary.jsp

In [151]:
import xmltodict
import urllib
from bs4 import BeautifulSoup
import re

In [157]:
response=urllib.request.urlopen(url)
xmltodict.parse(response)

{'rss': {'@version': '2.0',
  'channel': {'title': '기상청 육상 중기예보',
   'link': 'http://www.kma.go.kr/weather/forecast/mid-term_01.jsp',
   'description': '기상청 날씨 웹서비스',
   'language': 'ko',
   'generator': '기상청',
   'pubDate': '2022년 07월 25일 (월)요일 06:00',
   'item': {'author': '기상청',
    'category': '육상중기예보',
    'title': '전국 육상 중기예보 - 2022년 07월 25일 (월)요일 06:00 발표',
    'link': 'http://www.kma.go.kr/weather/forecast/mid-term_01.jsp',
    'guid': 'http://www.kma.go.kr/weather/forecast/mid-term_01.jsp',
    'description': {'header': {'title': '전국 육상중기예보',
      'tm': '202207250600',
      'wf': '○ (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 22~26도, 낮 기온은 29~34도로 어제(24일, 아침최저기온 22~24도, 낮최고기온 25~32도)보다 높겠습니다.<br />○ (주말전망) 30일(토)은 전라권에 소나기가 오는 곳이 있겠고, 31일(일)은 중부지방은 대체로 맑겠으며 남부지방과 제주도는 구름많겠습니다. <br />              아침 기온은 23~25도, 낮 기온은 31~34도가 되겠습니다.<br /><br />* 이번 예보기간 동안 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며, 돌풍과 함께 천둥.번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며, 앞으로 발표되는 

## 과제 07/25_3

#### Q. "http://www.naver.com" 사이트에서 span 태그에 연결된 한글만을 불필요한 공백을 제거한 후 출력하세요.

In [149]:
url="http://www.naver.com" 

## 과제 07/25_4

#### Q. "http://www.naver.com" 사이트에서 span 태그에 연결된 문자+숫자를 불필요한 공백을 제거한 후 출력하세요.

## 과제 07/25_5

#### Q. "http://www.naver.com" 사이트에서 a 태그에 id가 있는 경우에 대하여 연결된 문자+숫자를 불필요한 공백을 제거한 후 출력하세요.

## 과제 07/25_6

#### url = 'https://news.naver.com/' 사이트 p태크에서 class가 cjs_ht인 데이터를 한글만을 불필요한 공백을 제거한 후 출력하세요.

## find_all( '태그', limit=n)
- find_all로 찾은 태그의 n개를 뽑아 추출할 수 있음

In [152]:
from bs4 import BeautifulSoup
import urllib.request as rq

url = "https://naver.com/"

html = rq.urlopen(url)
bs = BeautifulSoup(html,'lxml')

print(bs.find('p'),'\n')
# print(bs.find_all('p'))

print(bs.find_all('p', limit=1),'\n')
print(bs.find_all('p', limit=2),'\n')     
print(bs.find_all('p', limit=3),'\n')

<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p> 

[<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>] 

[<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>, <p class="dsc">ON/OFF 설정은<br/>해당기기(브라우저)에 저장됩니다.</p>] 

[<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>, <p class="dsc">ON/OFF 설정은<br/>해당기기(브라우저)에 저장됩니다.</p>, <p class="dsc"><em class="txt">동일한 시간대/연령/남녀별</em> 사용자 그룹의<br/>관심사에 맞춰 자동완성을 제공합니다.</p>] 



In [165]:
from bs4 import BeautifulSoup
import requests as rq

url='https://news.daum.net/politics#1'

html = requests.get(url)
html = html.text
bs = BeautifulSoup(html, 'lxml')


In [171]:
#정치 타이틀 추출


#방법1
title = bs.select('#gnbContent > div > ul > li:nth-child(3) > a > span')
print(title)

#방법2
title = bs.find_all('span', class_="txt_gnb")[2]   
print(title)

#방법3
title = bs.find_all('h2', id=True)
title

[<span class="txt_gnb">정치</span>]
<span class="txt_gnb">정치</span>


[<h2 class="screen_out" id="mainContent">정치</h2>]

In [170]:
title = bs.find_all('h2', id=True)
title

[<h2 class="screen_out" id="mainContent">정치</h2>]

In [244]:
#네이버영화 페이지에서 영화 랭킹을 가져와서 첫번재 영화제목을 출력하기

url = 'https://movie.naver.com/'

html = requests.get(url)
html = html.text

bs = BeautifulSoup(html, 'lxml')

images = bs.find_all('img')
for image in images:
    print(image.attrs['alt'])

자동완성 펼치기
NAVER
영화
미니언즈2
외계+인 1부
범죄도시2
더 킬러: 죽어도 되는 아이
내 손 안 영화매거진 무료로 구독하세요
스페셜 예고편
메인 예고편
메인 예고편
티저 예고편
시선을 빼앗기다
신비한 해저세계
액션 블록버스터
연인의 마지막 장
위험에 빠지다
신념을 건 작전
맨위로
NAVER


In [192]:
#두번째 방법
bs = BeautifulSoup(html,'lxml')
title = bs.find_all('div',class_='tit3')

# for t in title:
#     print(t.text)

print(title[0].text)


외계+인 1부



---

####  과제 0726_1
- 네이버 영화 랭킹을 가져와서 조회순 전체 영화제목을 50개 출력하세요( 출력방식: 1위: 외계+인 1부)

---

In [193]:
html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""

In [200]:
import re

bs = BeautifulSoup(html, 'html.parser')
li = bs.find_all(href = re.compile('https://'))

for e in li:
    print(e.attrs['href'])

https://example.com/fuga
https://example.com/foo


## CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용


In [291]:
import requests as rq
from bs4 import BeautifulSoup

url = 'http://news.daum.net/politics#1'
r =  rq.get(url)
html = r.text
bs = BeautifulSoup(html)
bs

<!DOCTYPE html>
<html class="os_unknown none unknown version_0" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="always" name="referrer"/>
<meta content="Daum 뉴스" property="og:author"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content="정치" property="og:title"/>
<meta content="https://t1.daumcdn.net/media/img-media/mobile/meta/news.png" property="og:image"/>
<meta content="다음뉴스" property="og:description"/>
<meta content="https://news.daum.net/politics" property="og:url"/>
<link href="https://m2.daumcdn.net/img-media/2010ci/Daum_favicon.ico" rel="shortcut icon"/>
<title>정치 | 다음뉴스</title>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="//t1.daumcdn.net/media/kraken/news/ac08ae6/style.css.merged.css" rel="stylesheet" type="text/css"/>
<link href="//t1.daumcdn.net/media/kraken/news/ac08ae6/calendar.css.merged.css" rel="stylesheet" type="text/css"/>
<!--[if lte IE 8]>
<script src="https://m2.daumcdn.net/svc/original/U0301/cssjs/JSON-js/fc535e9cc8/json2.

##### body 중간에 기사 헤드 전체 뽑기

In [292]:
#css 선택자를 이용해서 기사 헤드 전체 추출

line = bs.select('body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul > li:nth-child(1) > strong > a')
lines = bs.select('body > div > main > section > div > div > ul > li > strong > a')

print(line,'\n')
print(lines)

[<a class="link_txt" href="https://v.daum.net/v/20220726111417964">[무등의 아침] 이동학 "이재명 당 대표 되면 적대적 공생..망가진 정치 바꿀 것"</a>] 

[<a class="link_txt" href="https://v.daum.net/v/20220726111417964">[무등의 아침] 이동학 "이재명 당 대표 되면 적대적 공생..망가진 정치 바꿀 것"</a>, <a class="link_txt" href="https://v.daum.net/v/20220726111023772">[인터뷰] 與 홍석준 "금산분리 등 금융 규제 들여다볼 것"</a>, <a class="link_txt" href="https://v.daum.net/v/20220726111001736">시간외근로 선원, 수당 대신 휴가 조항 삭제..선원법 개정 추진</a>, <a class="link_txt" href="https://v.daum.net/v/20220726110807623">초유의 경란(警亂).. 尹의 '옐로카드'</a>, <a class="link_txt" href="https://v.daum.net/v/20220726110433391">[뉴스라이브] 민주당 전당대회 컷오프 D-2..'586 당권 주자' 김민석 의원에게 묻는다</a>, <a class="link_txt" href="https://v.daum.net/v/20220726110123240">북한 해역에 나타난 중국 선박.."신분 세탁한 北 선박일 수도"</a>, <a class="link_txt" href="https://v.daum.net/v/20220726105953058">박홍근 "국기문란 자초한건 尹대통령..지지율 폭락원인 몰라?"</a>, <a class="link_txt" href="https://v.daum.net/v/20220726105453780">정점식 "박범계, 한동훈 놓고 재임시절 잘못 합리화..후안무치"</a>, <a class="li

In [293]:
#기사 헤드 합치기

body= '\n'.join([line.text for line in lines])
print(body)

[무등의 아침] 이동학 "이재명 당 대표 되면 적대적 공생..망가진 정치 바꿀 것"
[인터뷰] 與 홍석준 "금산분리 등 금융 규제 들여다볼 것"
시간외근로 선원, 수당 대신 휴가 조항 삭제..선원법 개정 추진
초유의 경란(警亂).. 尹의 '옐로카드'
[뉴스라이브] 민주당 전당대회 컷오프 D-2..'586 당권 주자' 김민석 의원에게 묻는다
북한 해역에 나타난 중국 선박.."신분 세탁한 北 선박일 수도"
박홍근 "국기문란 자초한건 尹대통령..지지율 폭락원인 몰라?"
정점식 "박범계, 한동훈 놓고 재임시절 잘못 합리화..후안무치"
與 "KBS 신뢰 바닥인데..수신료 강제 징수 안돼"
서영교 "김대기·권성동, 尹에 딸랑딸랑만 하냐" 맹폭


- body 중간에 첫번째 기사 헤드 뽑기

In [294]:
#select_one 사용

line = bs.select_one('body > div > main > section > div > div > ul > li > strong > a')
print(line)

body = line.text
print(body)

<a class="link_txt" href="https://v.daum.net/v/20220726111417964">[무등의 아침] 이동학 "이재명 당 대표 되면 적대적 공생..망가진 정치 바꿀 것"</a>
[무등의 아침] 이동학 "이재명 당 대표 되면 적대적 공생..망가진 정치 바꿀 것"


##### body 중간에 첫번째 기사 헤드의 내용 뽑아서 불필요한 공백 제거

In [295]:
url = bs.select_one('body > div > main > section > div > div > ul > li > strong > a').attrs['href']
print(url)

html=rq.get(url)
bs2=BeautifulSoup(html.text, 'html.parser')
bs2

https://v.daum.net/v/20220726111417964


<!DOCTYPE html>

<html lang="ko">
<head data-cloud-area="head">
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<style>
            @import url('//t1.daumcdn.net/harmony_static/cloud/page/07dbf94b96594fe2ea9953108239daca8e501bfc1653982322266.css');
            @import url('//t1.daumcdn.net/harmony_static/cloud/2022/06/29/common.98cb4e1c81a314168abb.css')
        </style>
<style>
            /* 다음 카페 소셜 쉐어 임시 비활성화 */
            .list_sns li:nth-child(6) {
                display: none;
            }
        </style>
<meta content="Z5yfeJv8jA" property="mccp:docId"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content='[무등의 아침] 이동학 "이재명 당 대표 되면 적대적 공생..망가진 정치 바꿀 것"' property="og:title"/>
<meta content="20220726111416" property="og:regDate"/>
<meta content="article" property="og:type"/>
<meta content="KBS" property="og:article:author"/>
<meta content="https://news.v.daum.net/v/Z5yfeJv8jA" property="og:url"/>
<meta content="https://img1.daumcdn.net/

In [296]:
title = bs2.find('h3',class_='tit_view').text
body = '\n'.join([line.text for line in bs2.find('section').find_all('p')[1:]])
print(title + '\n' + body)

[무등의 아침] 이동학 "이재명 당 대표 되면 적대적 공생..망가진 정치 바꿀 것"
◇ 정길훈 앵커 (이하 정길훈): 민주당 당권 주자 가운데 유일한 청년 후보인 이동학 전 최고위원이 어제 광주를 찾았습니다. 이 후보는 낡은 기득권 정치를 끝내고 정치 교체를 이루자, 이렇게 주장하고 있는데요. 이동학 후보 연결합니다. 안녕하십니까?
◆ 더불어민주당 이동학 전 최고위원 (이하 이동학): 안녕하십니까?

◇ 정길훈: 어제 광주를 방문해서 당원들도 만나고 시민도 만나셨을 텐데요. 민심이 어땠습니까?
◆ 이동학: 우선 최선을 다해서 밀어줬는데 대선에서 패배한 데 대해서 실망을 표하시는 분들도 계셨고요. 민주당이 개선의 노력은 안 하는데 선거 때만 읍소를 한다, 이런 실망감을 표시하시는 분도 계셨습니다.
◇ 정길훈: 현재 당권에 여덟 분이 도전하고 있는데요. 이 후보가 당 대표에 도전해야 되겠다고 결심한 이유 어떤 것입니까?

◆ 이동학: 우선 저는 정치가 좀 망가져 있는 것 아닌가라고 판단을 하고 있는데요. 이것은 왜 그러냐 하면 우리가 상대방의 발목을 잡고 못하게 막으면 저들이 넘어지게 되어 있잖아요.
◇ 정길훈: 양당 정치에서 말씀하시는 것이지요.
◆ 이동학: 네. 그러면 선택지가 우리밖에 없으니 우리를 뽑게 되는 것이에요. 국민들 입장에서는요. 그리고 상대방이 또 우리의 발목을 잡고 우리가 넘어지면 또 상대방을 찍는 것이에요. 그러니까 아무런 개선이 없어도 상대방 발목만 잡으면 집권을 하거나 당선이 되는 정치를 하다 보니 국민 입장에서는 삶이 제대로 지켜지기가 어렵다. 이 문제를 지적하면서 지금 게임의 룰을 바꿔야, 정치인에게 이익이 되는 룰이 아니라 국민에게 이익이 되는 룰로 바꿔야 된다. 몇십 년 동안 이렇게 한국 정치가 오면서 점점 양극단의 분노가 계속 쌓이고 있는 것 같아서 이런 상태로는 아무런 위기를 해결할 수 없겠다 이런 절박감에 나오게 됐습니다.
◇ 정길훈: 정치가 망가져 있다고 하셨는데요. 이 후보가 당 대표가 되면 민주당의 모습 어떻게 달라지겠습

##### 추가연습) 김건희 여사 기사 내용 뽑기

In [279]:
url = 'https://news.v.daum.net/v/20220726105712920'

In [283]:
print(url)

html = rq.get(url)
bs2 = BeautifulSoup(html.text, 'html.parser')
bs2

https://news.v.daum.net/v/20220726105712920


<!DOCTYPE html>

<html lang="ko">
<head data-cloud-area="head">
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<style>
            @import url('//t1.daumcdn.net/harmony_static/cloud/page/07dbf94b96594fe2ea9953108239daca8e501bfc1653982322266.css');
            @import url('//t1.daumcdn.net/harmony_static/cloud/2022/06/29/common.98cb4e1c81a314168abb.css')
        </style>
<style>
            /* 다음 카페 소셜 쉐어 임시 비활성화 */
            .list_sns li:nth-child(6) {
                display: none;
            }
        </style>
<meta content="UOf9JnyP9M" property="mccp:docId"/>
<meta content="다음뉴스" property="og:site_name"/>
<meta content="2주 넘게 '두문불출' 김 여사..목요일 등장할까?" property="og:title"/>
<meta content="20220726105712" property="og:regDate"/>
<meta content="article" property="og:type"/>
<meta content="MBC" property="og:article:author"/>
<meta content="https://news.v.daum.net/v/UOf9JnyP9M" property="og:url"/>
<meta content="https://img1.daumcdn.net/thumb/S1200x630/?f

In [284]:
title = bs2.find('h3',class_='tit_view').text
body = '\n'.join([line.text for line in bs2.find('section').find_all('p')[1:]])
print(title + '\n' + body)

2주 넘게 '두문불출' 김 여사..목요일 등장할까?
■ "마드리드 이후 김건희 여사가 안 보인다"
윤석열 대통령의 지지율 추이와 더불어 최근 언론이 자주 언급하는 기사는 "김건희 여사가 공개 행보를 중단했다"는 내용입니다. 
북대서양조약기구, NATO 순방 동행을 마치고 난 뒤 두문불출하고 있다는 겁니다.

 정치평론가들은 김 여사가 공개 행보에 나설 때마다 관심을 끌기는 했지만 팬클럽, 수행원, 제2부속실 설치, 명품 목걸이 논란 등으로 부정적인 여론이 대두되자 ‘리스크 관리’에 들어간 것으로 보고 있습니다. 
장성철 공론센터 소장은 “김건희 여사가 최근 2주간 사라졌다”면서 “김 여사가 지지율에 중대한 영향을 끼친다는 정무적인 판단이 있었을 것”이라고 말했습니다. 배종찬 인사이트케이 소장 역시 윤 대통령의 지지율 하락 원인 중 하나로 김건희 여사를 꼽았습니다. 배 소장은 경제, 인사, 양극화, 김 여사, 도어스테핑의 앞글자를 딴 ‘경인양김도’가 지지율이 떨어진 이유라고 분석했습니다. 유튜브 채널 ‘시사저널 TV’에 출연한 진중권 전 교수는 “지금 김건희 여사는 잘하고 있는 것 아니냐?”는 사회자의 질문에 “그렇다. 조금 더 기다려야 될 것 같다”고 조언하기도 했습니다.
■ 공개행보 재개는? 목요일 진수식이 유력
그렇다면 김건희 여사는 언제쯤 다시 언론에 모습을 드러낼까요? 목요일인 28일이 될 가능성이 높습니다. 차세대 이지스함인 정조대왕 진수식이 열리는데, 여기에 참석하지 않을까 예상됩니다.
배에 이름을 붙이고 처음 물에 띄워 바다로 내보내는 의식인 진수식(進水式)에서는 진수도끼(보통 금토끼)로 밧줄을 끊거나 샴페인을 깨는 행사가 있습니다. 진수식의 하이라이트인데요, 관례적으로 여성이 해왔다고 합니다. 왜 여성이 하게 됐는지를 놓고 영국 빅토리아 여왕이 세레모니를 한 이후 관례로 굳어졌다는 설도 있고, 배(ship)를 여성 대명사인 she로 받는데서 유래했다 혹은 탯줄을 자르는 상징적인 의미가 있기 때문에 여성이 하게 됐다는 여러 가지 설들이 있습니다. 

## headers
##### (크롤링 시) 접속 차단되었을 때, header의 User-Agent  지정

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=kiddwannabe&logNo=221185808375

In [285]:
#접속이 안되는 경우 예시

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102'

req = requests.get(url)
bs = BeautifulSoup(req.content, 'html.parser')
print(bs)

ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))

In [303]:
#유저 정보 추가

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}


req = requests.get(url, headers=headers)   #봇이 아님을 인증하는 헤더 정보 추가
bs = BeautifulSoup(req.content, 'html.parser')
print(bs)


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh">
<meta content="width=1106" name="viewport">
<meta content="사회 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=102" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" property="og:image">
<meta content="교육, 언론, 의료, 인물, 사건사고 등 사회 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author">
<meta content="summary" name="twitter:card"/>
<meta content="사회 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_200x200_20160804.png" name="t

In [304]:
#기사 대표 head 한 개뽑기

target = bs.select_one('#main_content > div > div._persist > div:nth-child(1) > div:nth-child(1) > div.cluster_body > ul > li:nth-child(1) > div.cluster_text > a')
print(target.text, '\n')
print(target, '\n')
print(target['class'], '\n')
print(target['href'])


“우영우엔 공감, 우리에겐 욕설” 2컷 만평 띄운 전장연 

<a class="cluster_text_headline nclicks(cls_nav.clsart)" href="https://n.news.naver.com/mnews/article/020/0003442168?sid=102">“우영우엔 공감, 우리에겐 욕설” 2컷 만평 띄운 전장연</a> 

['cluster_text_headline', 'nclicks(cls_nav.clsart)'] 

https://n.news.naver.com/mnews/article/020/0003442168?sid=102


In [308]:
#기사 대표 head 전체 뽑기

targets = bs.select('#main_content > div > div > div > div > div > ul > li > div > a')
head_all='\n'.join([t.text for t in targets])
print(head_all)

“우영우엔 공감, 우리에겐 욕설” 2컷 만평 띄운 전장연
전장연 “‘우영우’엔 공감, 우리에겐 비난·조롱·욕설… 왜 이렇게 다른 반응?”
"우영우엔 공감하면서 지하철 장애인은 조롱" 만평 올린 전장연
전장연 "우영우는 공감하면서, 우리에겐 왜 비난·조롱"
류삼영 총경의 외로운 싸움…오는 30일 14만 경찰 전체회의[뉴스1 PICK]
류삼영, 대기발령 후 첫 출근 "닭의 목 비틀어도 새벽은 온다"
류삼영 총경 "행안부 경찰국은 경찰의 정치적 중립 훼손"
"경찰의 정당한 목소리, 감찰과 위협 맞지 않아"
광주 사립고 시험지 유출 의혹…경찰 수사
광주 모 고교 시험문제 유출…경찰 수사 중
광주 사립고교서 답안지 유출 의혹…고교생 주거지 압수수색
'답안지 유출' 광주 사립고 학생 경찰 조사
‘복마전’ 농협 비상임이사 돈선거…출마자·대의원 무더기 적발
아직도 이런일이...돈으로 표 사려한 농협 비상임이사 후보들
농협 이사 선거 앞두고 금품 거래…경찰, 68명 적발
농협 선거 때 돈 봉투 건넨 이사 ‘집행유예 2년’
전남 상반기 수출액 253억 달러...지난해보다 32.4% 증가
정유업계, 상반기 석유제품 수출액 280억弗…반기 사상 최대
'개량 백신' 들어온다…"8월 말 접종계획 발표"
방역당국 "코로나19 개량 백신 접종계획 다음달 말 발표"
"12·12 쿠데타 준하는 상황"-"윤희근 후보 사퇴하라" 극한 대립
 경찰 집단행동 작심 비판… `하나회 쿠데타`까지 언급한 이상민[人사이더]
이상민 “경찰 집단행동 굉장히 경솔해… 국가기강 흔들리는 것”
이상민, '경찰국 반대' 경찰 회의 확대에 "부화뇌동, 대단히 위험" 비판
코로나 하루 확진자 다시 10만명대 되나..3개월만에 최대치
[속보] 코로나 신규 확진 10만명 육박… 96일 만에 최대치
“동부간선도로·강변북로, 9월 18일까지 부분 통제”
강변북·동부간선로, 9월까지 부분 교통통제… 가로등 교체 공사
6일 개장 광화문광장… 실감형 콘텐츠로 둘러본다
600년전 육조거리였던 광화문광장 3D 영상으로 경험한다
7개 전

In [318]:
#기사 대표 head의 href 뽑기

targets = bs.select('#main_content > div > div > div > div > div > ul > li > div > a')

for t in targets:
    print(t.text)
    print(t['href'])

“우영우엔 공감, 우리에겐 욕설” 2컷 만평 띄운 전장연
https://n.news.naver.com/mnews/article/020/0003442168?sid=102
전장연 “‘우영우’엔 공감, 우리에겐 비난·조롱·욕설… 왜 이렇게 다른 반응?”
https://n.news.naver.com/mnews/article/022/0003718891?sid=102
"우영우엔 공감하면서 지하철 장애인은 조롱" 만평 올린 전장연
https://n.news.naver.com/mnews/article/008/0004775154?sid=102
전장연 "우영우는 공감하면서, 우리에겐 왜 비난·조롱"
https://n.news.naver.com/mnews/article/057/0001679289?sid=102
류삼영 총경의 외로운 싸움…오는 30일 14만 경찰 전체회의[뉴스1 PICK]
https://n.news.naver.com/mnews/article/421/0006240084?sid=102
류삼영, 대기발령 후 첫 출근 "닭의 목 비틀어도 새벽은 온다"
https://n.news.naver.com/mnews/article/025/0003212301?sid=102
류삼영 총경 "행안부 경찰국은 경찰의 정치적 중립 훼손"
https://n.news.naver.com/mnews/article/014/0004873085?sid=102
"경찰의 정당한 목소리, 감찰과 위협 맞지 않아"
https://n.news.naver.com/mnews/article/079/0003668292?sid=102
광주 사립고 시험지 유출 의혹…경찰 수사
https://n.news.naver.com/mnews/article/028/0002599881?sid=102
광주 모 고교 시험문제 유출…경찰 수사 중
https://n.news.naver.com/mnews/article/005/0001542067?sid=102
광주 사립고교서 답안지 유출 의혹…고교생 주거지 압수수색
https://n.news.nav

In [323]:
#이미지 추출하기

url = 'https://n.news.naver.com/mnews/article/014/0004872935?sid=102'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

res = rq.get(url, headers=headers)
html = res.content
bs = BeautifulSoup(html,'lxml')

target = bs.select_one('#img1')
print(target)
print('\n')
print(target['data-src'])

<img class="_LAZY_LOADING" data-src="https://imgnews.pstatic.net/image/014/2022/07/26/0004872935_001_20220726083904125.jpg?type=w647" id="img1"/>


https://imgnews.pstatic.net/image/014/2022/07/26/0004872935_001_20220726083904125.jpg?type=w647


#### 연습문제
Q. url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100' 사이트에서 뉴스기사를 출력하세요.

- 용도는 주요 키워드 분석을 위한 데이터셋 만들기


In [340]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

res = rq.get(url, headers = headers)
html = res.content
bs = BeautifulSoup(html)

In [352]:
#분석을 위한 데이터셋 만들기

body = bs.select('#main_content > div > div > div > div > div > ul > li > div > a')  #기사 헤드라인 태그 뽑기

all_header=[b.text for b in body]   #기사 헤드라인의 텍스트만 뽑기

all_str_headers='\n'.join(all_header)   #기사 헤드라인 텍스트 타입을 string으로 바꾸기

print(all_str_headers)

박지원, 한동훈·이상민 직격 “과연 스타장관은 특별한 재능 가졌구나”
박지원 "왜 쿠데타냐‥경찰들이 총 한 방 쐈나"
박지원 "경찰 징계…尹, 대통령직을 검찰총장직으로 생각하는 듯"
박지원, 이상민 직격 "경찰이 총 쏘고 한강 넘었냐…한심한 작태"
행안부 內 경찰국 신설안 국무회의 의결…내달 2일 공포
'행안부 경찰국 신설안' 국무회의 통과…내달 2일 공포(종합)
경찰 반발에도 '8월 2일 경찰국 신설' 시행령안 국무회의 통과
[2보] '행안부 경찰국 신설안' 국무회의 의결…내달 2일 공포
“법정주의 용어 아냐” “말씀해주시면 듣겠다”… 전·현직 법무장관 설전
'실세장관' 2인 집중 타깃한 민주…韓·李, '엄호' 대치전선(종합2보)
 한동훈 vs 박범계, 전현직 법무장관의 격돌[속보영상]
대정부질문 데뷔전…한덕수 '노련' 한동훈 '무난' 이상민 '미흡'
이준석 "5명의 당원이 만나고자 해도 다 찾아가겠다"(종합)
"지금 팔도 유람할 때냐" 당내 비판에 이준석 "닭먹고 힘내자" 화답
이준석, 이번엔 울릉도행…보수 텃밭 TK 돌며 '장외정치'
울릉도 간 이준석 "5명이 만나자 해도 갈 것"...장외 정치 계속
한동훈, 내일 첫 ‘尹 독대 보고’…어떤 사안 언급될까
윤 대통령, 오늘 법무부 · 행안부 업무보고
'경찰국 신설 시행령' 국무회의行 vs. 野, 용산行 "경찰장악 규탄"
野 “두달만에 민주주의 통째로 부정”…‘尹정부 경찰장악 규탄’ 총공세
박지원 “검로경불…이상민 ‘스타 장관’이 尹대통령 망친다”
박지원 "'검로경불' 이상민 장관, 아카데미·대종상 감"
[속보]尹대통령 "여가부 폐지 로드맵 조속히 마련하라" 지시
여성가족부, 추진과제 보고했더니‥윤 대통령 "폐지 로드맵 조속히"
尹 “경찰 집단행동에 깊은 우려…국가기강 문란될 수 있어”
尹대통령 "중대한 국가 기강 문란"…경찰에 한달새 2번 강력 경고
박홍근 "이상민, '행정쿠데타' 발상…국기문란? 누가 일으키나"
용산으로 몰려간 野…박홍근 "진정 국기문란은 윤석열 정부가"
野 컷오프 이틀 앞인데…비명계 '

In [384]:
# 정규표현식으로 '...','\n' 삭제

import re

all_str_headers = re.sub('…',' ',all_str_headers)
print(all_str_headers)

박지원 한동훈·이상민 직격 “과연 스타장관은 특별한 재능 가졌구나” 박지원  왜 쿠데타냐‥경찰들이 총 한 방 쐈나  박지원  경찰 징계 尹 대통령직을 검찰총장직으로 생각하는 듯  박지원 이상민 직격  경찰이 총 쏘고 한강 넘었냐 한심한 작태  행안부 內 경찰국 신설안 국무회의 의결 내달 2일 공포  행안부 경찰국 신설안  국무회의 통과 내달 2일 공포(종합) 경찰 반발에도  8월 2일 경찰국 신설  시행령안 국무회의 통과 [2보]  행안부 경찰국 신설안  국무회의 의결 내달 2일 공포 “법정주의 용어 아냐” “말씀해주시면 듣겠다”  전·현직 법무장관 설전  실세장관  2인 집중 타깃한 민주 韓·李  엄호  대치전선(종합2보)  한동훈 vs 박범계 전현직 법무장관의 격돌[속보영상] 대정부질문 데뷔전 한덕수  노련  한동훈  무난  이상민  미흡  이준석  5명의 당원이 만나고자 해도 다 찾아가겠다 (종합)  지금 팔도 유람할 때냐  당내 비판에 이준석  닭먹고 힘내자  화답 이준석 이번엔 울릉도행 보수 텃밭 TK 돌며  장외정치  울릉도 간 이준석  5명이 만나자 해도 갈 것 ...장외 정치 계속 한동훈 내일 첫 ‘尹 독대 보고’ 어떤 사안 언급될까 윤 대통령 오늘 법무부 · 행안부 업무보고  경찰국 신설 시행령  국무회의行 vs. 野 용산行  경찰장악 규탄  野 “두달만에 민주주의 통째로 부정” ‘尹정부 경찰장악 규탄’ 총공세 박지원 “검로경불 이상민 ‘스타 장관’이 尹대통령 망친다” 박지원   검로경불  이상민 장관 아카데미·대종상 감  [속보]尹대통령  여가부 폐지 로드맵 조속히 마련하라  지시 여성가족부 추진과제 보고했더니‥윤 대통령  폐지 로드맵 조속히  尹 “경찰 집단행동에 깊은 우려 국가기강 문란될 수 있어” 尹대통령  중대한 국가 기강 문란  경찰에 한달새 2번 강력 경고 박홍근  이상민  행정쿠데타  발상 국기문란? 누가 일으키나  용산으로 몰려간 野 박홍근  진정 국기문란은 윤석열 정부가  野 컷오프 이틀 앞인데 비명계  조기 단일화  속내는?

In [None]:
#윤정준님

from konlpy.tag import Okt
from collections import Counter
from bs4 import BeautifulSoup
import requests

url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'
rqs = requests.get(url,headers=headers).text
bs = BeautifulSoup(rqs,'lxml')
bs = bs.find_all('div',class_='cluster')
result = []
for i in bs:
    result.append(i.get_text())
bs = re.sub('[^가-힣]+',' ',str(result))

okok = Okt()
okok2 = okok.pos(bs)
okre = []
for i, j in okok2:
    if (j =='Noun')& (len(i)> 1 ):
        okre.append(i)

okreid = dict(Counter(okre).most_common())
okreid = sorted(okreid.items(), key=lambda x:x[1], reverse=True)
okreid


#### 과제07/26_2
##### 제품 테이블에서 첫번째 타이틀 행을 제외한 모든 제품 행을 출력하세요
- html = urlopen('http://www.pythonscraping.com/pages/page3.html',context=context)

#### 과제07/26_3
##### 네이버 카테고리별 기사를 아래 카테고리 정의를 기준으로 크롤링한 후 불필요한 공백을 제거하고 한글만으로 된 데이터 프레임을 출력하세요.
- 카테고리 정의
    - 100 정치
        - (청와대[264] + 국회/정당[265] + 북한[268] + 국방/외교[267])

    - 101 경제
        - (금융[259] + 증권[258] + 산업/재계[261] + 글로벌 경제[262] + 부동산[260])

    - 103 생활/문화
        - (건강정보[241] + 여행/레저[237] + 공연/전시[242] + 날씨[248] + 생활문화 일반[245])

    - 105 IT/과학
        - (통신/뉴미디어[227] + IT 일반[230] + 컴퓨터[283] + 과학 일반[228])
        
- 카테고리별 1000개, 총 4천개로 구성된 데이터프레임 생성


In [None]:
#참고
#sid1= 정치/경제/생활문화/IT과학
https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100
#sid2= 각각의 sub 탭
https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid1=100&sid2=264
#page
https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2=264&sid1=100&date=20220726&page=2

In [383]:
'''
url = 'https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2='+str(cat2)+'&sid1=100&date=20220726&page='+str(i+1)
'''

"\nurl = 'https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2='+str(cat2)+'&sid1=100&date=20220726&page='+str(i+1)\n"

In [373]:
import pandas as pd

news_df = pd.DataFrame(columns=['news','category'])
news_df

Unnamed: 0,news,category


In [382]:
#정치

cats = [264,265,268,267]
ind = 0
for cat in cats:
    if 
    for i in range(15):
        url = 'https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2='+str(cat)+'&sid1=100&date=20220726&page='+str(i+1)
        headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
        
        news = requests.get(url, headers = headers)
        bs = BeautifulSoup(news.content, 'lxml')
        links = bs.select('#main_content > div > ul > li > dl > dt > a')
        
        #기사 헤드를 긁어서 뉴스링크들 모으기
        newslinks=[]
        for j, link in enumerate(links):            
            newslink = link.get('href')
            newslinks.append(newslink)
            newslinks = list(set(newslinks))    #중복 기사 제거
        
        #뉴스링크들 가지고 기사 본문 크롤링
        for link in newslinks:
            res2 = requests.get(link, headers = headers).text
            bs2 = BeautifulSoup(res2, 'html.parser')
            news = bs2.find('div', id='dic_area').text
            news = re.sub('\n', '', news)  #개행을 공백으로
            news = re.sub('\t', '', news)  #탭을 공백으로
            news_df.loc[ind] = [news, cat]
            ind += 1

news_df

Unnamed: 0,news,category
0,"""업무보고서 사면 얘기 안 나와…검찰총장, 상식·정의 따라 검찰 이끄는 분 될 것""...",264
1,[서울=뉴시스] 윤석열 대통령이 26일 서울 용산 대통령실 청사에서 한동훈 법무부 ...,264
2,[[the300](상보)]윤석열 대통령이 26일 용산 대통령실 집무실에서 한동훈 법...,264
3,기사내용 요약전담수사부서 살리고 형사부 수사권 부여검경 협의회 통해 '검수완박' 시...,264
4,"기사내용 요약티타임 '검언유착' 비판에 ""그렇게 보이지 않는다""""공직자, 언론으로부...",264
...,...,...
1159,(울산=연합뉴스) 김근주 기자 = 행정안전부 경찰국 신설 반대 경찰서장 회의...,267
1160,"총리 주재 국무회의서 시행령 의결“행안장관, 잘 설득해 달라” 주문다음 달 2일 공...",267
1161,(인천공항=뉴스1) 조태형 기자 = 이종섭 국방부 장관이 한미 국방장관회담과 한국전...,267
1162,(서울=연합뉴스) 김영은 기자 = 국가보훈처에 따르면 미국 워싱턴D.C에 있는 한국...,267


In [394]:
news_df2=pd.DataFrame(columns=['news','category'])
news_df2

Unnamed: 0,news,category


In [437]:
#경제
#(금융[259] + 증권[258] + 산업/재계[261] + 글로벌 경제[262] + 부동산[260])

import requests as rq
from bs4 import BeautifulSoup

category = [259,258,261,262,260]
ind = 0

for cat in category:
    if cat==262:
        for i in range(6):
            url = 'https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2='+str(cat)+'&sid1=101&date=20220726&page='+str(i+1)
            headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
            html = rq.get(url, headers = headers).content
            bs = BeautifulSoup(html, 'html.parser')
            a = bs.select('#main_content > div > ul > li > dl > dt> a')
    else:
        for i in range(15):
            url = 'https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2='+str(cat)+'&sid1=101&date=20220726&page='+str(i+1)
            headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
            html = rq.get(url, headers = headers).content
            bs = BeautifulSoup(html, 'html.parser')
            a = bs.select('#main_content > div > ul > li > dl > dt> a')
        
            #a태그 내 뉴스링크 모으기
            news_links = []
            for i in a:
                news_link = i.get('href')
                news_links.append(news_link)
                news_links = list(set(news_links))

            #뉴스링크로 뉴스 본문 크롤링
            for link in news_links:
                html2 = rq.get(link, headers = headers).content
                bs2 = BeautifulSoup(html2, 'html.parser')
                bs2.find('div', id='dic_area').text
                news = bs2.find('div', id='dic_area').text
                news = re.sub('\n','',news)
                news = re.sub('\t','',news)
                news_df2.loc[ind] = [news, cat]
                ind += 1
news_df2    

ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))

In [438]:
news_df3=pd.DataFrame(columns=['news','category'])
news_df3

Unnamed: 0,news,category


In [430]:
#생활/문화: 103

category = [241,237,242,248,245]
ind = 0

for cat in category:
    for i in range(15):
        url = 'https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2='+str(cat)+'&sid1=103&date=20220726&page='+str(i+1)
        html = rq.get(url, headers = headers).content
        bs = BeautifulSoup(html,'html.parser')
        a = bs.select('#main_content > div > ul > li > dl > dt> a')
        
        news_links=[]
        for i in a:
            link = i['href']
            news_links.append(link)
            news_links = list(set(news_links))
            
        for news_link in news_links:
            html2 = rq.get(news_link, headers = headers).content
            bs2 = BeautifulSoup(html2, 'html.parser')
            if bs2.find('div', id='dic_area').text==None:
                pass
            else:
                news = bs2.find('div', id='dic_area').text
            news = re.sub('\n\t','',news)
            news_df3.loc[ind]=[news, cat]
            ind += 1
news_df3

AttributeError: 'NoneType' object has no attribute 'text'

In [439]:
#IT/과학: 105

category = [227,230,283,228]
ind = 0

for cat in category:
    url = 'https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2='+str(cat)+'&sid1=105&date=20220726&page='+str(i+1)
    html = rq.get(url, headers = headers)
    bs = BeautifulSoup(html,'lxml')
    a = bs.select('#main_content > div > ul > li > dl > dt> a')
    
    for i in a:
        

ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))