### BeautifulSoup 모듈
- 홈페이지 내 데이터를 쉽게 추출할 수 있게 해주는 파이썬 외부 라이브러리
- 웹 문서 내 수많은 HTML 태그들을 parser를 활용해 사용하기 편한 파이썬 객체로 만들어 제공
- 웹 문서 구조를 알고 있다면 편하게 데이터를 뽑아 활용할 수 있음

기존방식과의 차이점
- 정규 표현식, 문자열 함수 등을 활용하여 홈페이지 텍스트 내 패턴을 분석하여 하나씩 원하는 데이터를 찾아가는 형식
- BS는 HTML 문서를 태그를 기반으로 구조화하여 태그로 원하는 데이터를 찾아가는 형식


In [2]:
html_doc = """
<html lang="en">
<head><title>crawl</title></head>
<body>
<p class="a" align="center"> text1</p>
<p class="b" align="center"> text2</p>
<p class="c" align="center"> text3</p>
<div><img src="/source" width="300" height="200"></div>
</body>
</html>
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

<html lang="en">
 <head>
  <title>
   crawl
  </title>
 </head>
 <body>
  <p align="center" class="a">
   text1
  </p>
  <p align="center" class="b">
   text2
  </p>
  <p align="center" class="c">
   text3
  </p>
  <div>
   <img height="200" src="/source" width="300"/>
  </div>
 </body>
</html>



In [10]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html,'html.parser')
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling  # next_sibling 두개인 이유? 공백이 </p> 다음 ㅎ나ㅏ 있음 공백 고려해서 두개씩

print(h1.string)
print(p1.string)
print(p2.string)

스크레이핑이란?
웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


### find() : HTML의 해당 태그에 대한 첫 번째 정보를 가져옴
- find(속성='값') : HTML 해당 속성과 일치하는 값에 대한 첫 번째 정보를 가져옴


### find_all() : 
- HTML의 해당 태그에 대한 모든 정보를 리스트 형식으로 가져옴. limit 옵션으로 개수 지정 가능
- CSS 속성으로 필터링(class_로 클래스를 직접 사용 혹은 attrs에서 속성 = 값으로 필터링)


In [28]:
html = """
<html><body>
  <h1 id='title'>스크레이핑이란?</h1>
  <p id='body'>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
title = soup.find(id='title')
body = soup.find(id='body')

print(title.string)
print(body.string)
print(title.text)
print(body.text)
print(body.get_text())

스크레이핑이란?
웹 페이지를 분석하는 것
스크레이핑이란?
웹 페이지를 분석하는 것
웹 페이지를 분석하는 것


In [21]:
#texts = soup.findAll('p')
texts = soup.find_all('p')
for t in texts:
    print(t.text)

웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


In [24]:
# urlopen()과 BeautifulSoup의 조합
import warnings
warnings.filterwarnings('ignore')
from bs4 import BeautifulSoup
import urllib.request as req
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
title = soup.find('title').string
wf = soup.find('wf').string
print(title,'\n')
print(wf)

기상청 육상 중기예보 

○ (강수) 27일(수)은 수도권과 강원영서에 비가 오겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 22~25도, 낮 기온은 29~34도로 어제(21일, 아침최저기온 20~24도, 낮최고기온 23~32도)보다 높겠습니다.<br /><br />* 이번 예보기간 북태평양고기압의 발달 여부와 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 지역에도 대기 불안정으로 소나기가 내릴 가능성이 있겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.


In [67]:
import requests
import re

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
data = requests.get(url).text
soup = BeautifulSoup(data, 'html.parser')
wf = soup.find('wf').string

wf = re.sub('[^0-9가-힣]',' ',wf)
wf

'   강수  26일 화 은 충청권과 남부지방에  27일 수 은 수도권과 강원영서  충남권  전북에 소나기가 오는 곳이 있겠습니다           기온  이번 예보기간 아침 기온은 22 25도  낮 기온은 29 35도로 오늘 22일  아침최저기온 22 25도  낮최고기온 27 31도 보다 높겠습니다               27일 수 까지 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며  소나기가 내리는 지역에서는 돌풍과 함께 천둥 번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며  앞으로 발표되는 기상정보를 참고하기 바랍니다 '

#### 과제 0722_2
wf를 다시 정렬하여 불필요한 부분을 제거해서 아래와 같은 형식으로 출력하세요.

'(강수) 23일(토) 오후부터 24일(일) 오전 사이 전국에 비가 오겠고, 강원영동은 24일(일) 오후까지 이어지는 곳이 있겠습니다. 27일(수)은 수도권과 강원영서에 비가 오겠습니다.(기온) 이번 예보기간 아침 기온은 22~26도로 어제(19일, 아침최저기온 20~24도)보다 조금 높겠고, 낮 기온은 28~34도로 어제(낮최고기온 27~34도)와 비슷하겠습니다.(주말전망) 23일(토) 오후부터 24일(일) 오전 사이 전국에 비가 오겠고, 강원영동은 24일(일) 오후까지 이어지는 곳이 있겠습니다.


In [69]:
a = re.sub(' +',' ',wf)
a

' 강수 26일 화 은 충청권과 남부지방에 27일 수 은 수도권과 강원영서 충남권 전북에 소나기가 오는 곳이 있겠습니다 기온 이번 예보기간 아침 기온은 22 25도 낮 기온은 29 35도로 오늘 22일 아침최저기온 22 25도 낮최고기온 27 31도 보다 높겠습니다 27일 수 까지 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며 소나기가 내리는 지역에서는 돌풍과 함께 천둥 번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며 앞으로 발표되는 기상정보를 참고하기 바랍니다 '

In [33]:
texts = soup.find_all('wf')
for t in texts:
    t = t.text
    t = re.sub('[^0-9가-힣]',' ',t)
    print(t, '\n')

   강수  27일 수 은 수도권과 강원영서에 비가 오겠습니다           기온  이번 예보기간 아침 기온은 22 25도  낮 기온은 29 34도로 어제 21일  아침최저기온 20 24도  낮최고기온 23 32도 보다 높겠습니다               이번 예보기간 북태평양고기압의 발달 여부와 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며  정체전선의 영향권에서 벗어난 지역에도 대기 불안정으로 소나기가 내릴 가능성이 있겠으니  앞으로 발표되는 기상정보를 참고하기 바랍니다  

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많고 비 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

흐림 

흐림 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많고 비 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

흐림 

흐림 

구름많음 

구름많음 

흐림 

흐림 

구름많

In [43]:
req = requests.get('https://naver.com')
html = req.text
#print(html)

# blind / fix / attrs 차이

soup = BeautifulSoup(html,'html.parser')
#result = soup.find_all('span',class_='blind')[0]  #< [1] 인덱스
#result = soup.find_all('span',class_='fix')
result = soup.find_all('span',attrs={'class':'fix'})
#result = soup.find_all('span')

result

[<span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@query@ <span class="context">@intend@</span></span>]

In [47]:
import re

req = requests.get('https://naver.com')
soup = BeautifulSoup(html,'html.parser')
print(soup.find_all(string='네이버'))
print(soup.find_all(string=re.compile('네이버')))

['네이버']
['네이버', '네이버를 시작페이지로', '쥬니어네이버', '언론사가 직접 편집한 뉴스들을 네이버 홈에서 바로 보실 수 있습니다.', '네이버장보기를 통해 구매한 식재료로 여름제철 밑반찬을 만들었어요🤗 #네이버장보기 #네이버장보기후기 63,500원 상품할인5,760 총 57,800원 포인트적립1,767 63,570원 상품할인4,070원 총59,500원 포인트적립1,639원 #이마트몰 #이마트네이버점 #네이버장보기 원하는 시간대에 배송을 신청하면 깔끔하게 포장되서 문앞에 도착해서 정말 편안', '네이버 장보기 주문 후기 / 오이 김밥 만들기 집 주변에 큰마트가 없고 아이가 있다보니 장을 보러 가는 것도 나에게 아주 큰 일이 되어버렸다. 그래서 나의 주 장보기 방식은 바로 온라인으로 장보기이다. 마트에 가지 않아도 집에서 편하게 주문할 수 있으니 애용할 수 밖에 없다. 이번에는 네이버 장보기로 주문해보고 후기를 남겨본다 :) 지난번에 이용했던 네이버', '네이버 장보기의 장점 🌈과소비를 하지 않는다. 🌈온라인으로 장을 보니 쓸데없는 것은 사지않는다. 🌈필요한 것만 구매하니 시간을 줄일 수가 있다. 🌈그날그날의 특가 상품이 많다. 🌈할인을 많이 해준다. 🌈힘들게 다리품을 팔지 않아도 된다. 🌈내가 원하는 시간대에 배달이 가능하다. 🌈구매 적립금과 리뷰 적립금이 만만치 않다. 🌈사진 리뷰를 적으', '네이버장보기, 이마트 당일배송으로 집에서 시원하게 장보기! 복날 몸보신 삼계탕 장어덮밥 만들기! 덥고 끕끕한 날씨가 계속되는 요즘이예요. 요즘 같은 날엔 손가락 하나만 까딱해서 주문하는 배달음식이 최고라는 생각이 들 때가 많아요. 그렇다고 맨날 맨날 배달음식만 먹을 수는 없고요^^ 날짜를 보니 어느덧 벌써 초복이 돌아왔어요. 오늘이 초복이니 곧 중복도 오겠', '안녕하세요, 네이버 레시피입니다. 매주 장바구니 소개 코너로 이웃님들과 함께 해왔는데요:) 7월 한 달간 #네이버장보기 #장보기만렙 챌린지로 찾아 뵙게 됐습니다. 총 4주간 매주 월요일마다 다른 주

### select_one(), select()
- CSS 선택자를 활용하여 원하는 정보를 가져옴(태그를 검색하는 find, find_all과 비슷함)
- class는 ., id는 #로 표시


In [49]:
import urllib.request as req

url = "https://finance.naver.com/marketindex/"
res = req.urlopen(url)
soup = BeautifulSoup(res,'html.parser')
price = soup.select_one('div.head_info > span.value').string
print('usd/krw =', price)

usd/krw = 1,312.90


In [1]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""


In [2]:
!pip install lxml



In [4]:
from bs4 import BeautifulSoup

bs = BeautifulSoup(html_doc, 'html.parser') # 파싱 방법 : parser, lxml 

print(bs.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [5]:
bs.title

<title>The Dormouse's story</title>

In [6]:
bs.title.name

'title'

In [7]:
bs.title.parent.name

'head'

In [8]:
bs.p

<p class="title"><b>The Dormouse's story</b></p>

In [9]:
bs.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [10]:
bs.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [11]:
bs.find(id='link3')

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [12]:
bs.a['class']

['sister']

In [13]:
for link in bs.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [14]:
bs.find_all()

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>,
 <head><title>The Dormouse's story</title></head>,
 <title>The Dormouse's story</title>,
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;

In [15]:
bs.find_all('p')

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

### string vs. get_text()
- get_text()를 이용하면 한방에 현재 HTML 문서의 모든 텍스트를 추출할 수 있습니다. 조금 더 정확히 표현하면 get_text() 메서드는 현재 태그를 포함하여 모든 하위 태그를 제거하고 유니코드 텍스트만 들어있는 문자열을 반환
- string의 경우 문자열이 없으면 None을 출력하지만, get_text()의 경우 유니코드 형식으로 텍스트까지 문자열로 반환하기 때문에  아무 정보도 출력되지 않는다.
- string 속성은 태그(tag) 내 문자열을 반환. get_text()를 사용하더라도 정확하게 문자열을 추출하기 위해서는 항상 마지막 태그에 메서드를 사용

In [16]:
print(bs.string)

None


In [17]:
print(bs.get_text())

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [18]:
print(bs.find('div'))

<div></div>


In [19]:
print(bs.find('div').string) # 스트링은 none 이라도 반환해주는데

None


In [20]:
print(bs.find('div').get_text())  # 아무것도 없으면 진짜 아무것도 안나옴




In [21]:
print(bs.find('body').string)

None


In [23]:
print(bs.find('body').get_text())  # get_text() << 형식 기억



The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [24]:
bs.find('body').get_text() # 프린트 안쓰면 \n까지 다나옴!

"\n\nThe Dormouse's story\nOnce upon a time there were three little sisters; and their names were\nElsie,\nLacie and\nTillie;\nand they lived at the bottom of a well.\n...\n"

In [25]:
bs.a.string  # 스트링은 해당되는 것만 뿁 나옴

'Elsie'

In [26]:
li = bs.find_all('p')
for i in li:
    print(i.string)

The Dormouse's story
None
...


In [27]:
li = bs.find_all('p')
for i in li:
    print(i.get_text())

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...


### urllib + bs

In [29]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html = rq.urlopen(url)
bs = BeautifulSoup(html,'lxml')
text = bs.find('p')
text = text.get_text()
text

'AiRS추천으로 구성된 뉴스를 제공합니다.'

In [30]:
bs.find('div')

<div id="wrap">
<!-- 광고적용 태그 추가 -->
<div id="da_base"></div>
<div id="da_stake"></div>
<div class="header" id="header">
<div id="u_skip">
<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>
<a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>
</div>
<div class="snb_area">
<div class="snb_inner">
<div class="gnb_area">
<div class="gnb_wrap">
<div class="gnb_dark_type2" id="gnb"></div>
</div>
<div class="gnb_search is_hidden _search_content">
</div>
<div class="gnb_tool" id="gnb_search_tool">
<a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>
</div>
</div>
<div id="snb_wrap">
<h1>
<a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>
<a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>
</h1>
<ul class="snb_related_service">
<li><span class="snb_bdr"></span><a class="entertain nclicks(gnb.enter)" href="https://entertain.nav

In [31]:
bs.find('div').find('a').string

'메인 메뉴로 바로가기'

In [45]:
items= bs.find('div').find_all('a')
for item in items:
    print(item.get_text())

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리
정치
대통령실 
국회/정당 
북한 
행정 
국방/외교 
정치일반 


안내헤드라인 뉴스



하태경 "행안부·경찰 한 몸 아냐…대통령실·정부 너무 거칠어"
하태경 “경찰서장회의 후 대기발령, 반발만 더 키운다”
하태경 “대통령실·정부, 경찰 반발 너무 거칠게 다뤄”
與 내부서도 경찰국 속도조절론…하태경 "너무 거칠어"
8개의 관련뉴스 더보기



북, 발열자 첫 50명대…"접경지역 인원·차량 소독 통제 강화"(종합)
北 신규 발열 환자 50명대 주장… 켄타우로스 변이 등장에 ‘긴장’
북, 신규 발열자 첫 50명대로 감소..."누적 발열자 중 99.99% 완쾌"
北, 신규 발열 환자 첫 50명대 주장…코로나 위기 극복 선언하나
16개의 관련뉴스 더보기



‘尹 지지율 반등 언제?’ 물으니 대통령실 “자리매김 과정”
하락세 멈춘 ‘尹 국정지지율’… 보수진영 ‘위기감’ 작동한 듯
尹대통령 지지율 '긍정' 33.3% '부정' 63.4% [리얼미터]
尹지지율 ‘긍정’ 33.3%… ‘매우못함’ 54.0% [리얼미터]
39개의 관련뉴스 더보기



‘운동권 신분 세습’ 권성동 주장에 우원식 “허위사실”
우원식 "민주유공자법이 운동권 신분 세습법? 거짓 선동"
민주유공자법 논란… 與 “운동권 신분세습법”vs 野 “사실 왜곡”
우상호 "민주유공자법, 혜택 다 들어내겠다…명예회복이 목적"
19개의 관련뉴스 더보기
'컷오프 D-4'…野 당권주자 지방서 막판 총력전



비이재명계 연일 단일화 띄우기...28일 컷오프 앞두고 부분 성사 주목
48개의 관련뉴스 더보기



오늘 尹정부 첫 대정부 질문…경찰국 신설·북송 등 최대 쟁점



오늘 尹정부 첫 대정부질문…강제북송·사적채용 격돌 예상
54개의 관련뉴스 

#### 과제 0725_1
상기 출력물을 불필요한 공백없이 정렬하여 출력하세요.

In [185]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html = rq.urlopen(url)
bs = BeautifulSoup(html,'lxml')
text = bs.find('div')
text = text.get_text()
text

'\n\n\n\n\n\n메인 메뉴로 바로가기\n본문으로 바로가기\n\n\n\n\n\n\n\n\n\n\n검색\n\n\n\n\nNAVER\n뉴스\n\n\nTV연예\n스포츠\n날씨\n프리미엄\n\n\n\n\n\n\n\n\n\n\n언론사별 \n정치 선택됨\n경제 \n사회 \n생활/문화 \nIT/과학 \n세계 \n랭킹 \n신문보기 \n오피니언 \nTV \n팩트체크 \n\n\n\n\n\n\n\n전체 언론사\n뉴스스탠드\n라이브러리\n\n\n\n\n\n\n\n\n07.25(월)\n\n전체 언론사\n뉴스스탠드\n라이브러리\n\n\n\n\n\n기사목록\n\n\n\n\n\n\n\n\n정치\n\n대통령실 \n국회/정당 \n북한 \n행정 \n국방/외교 \n정치일반 \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n안내헤드라인 뉴스\n\n\n                            헤드라인 뉴스와 각 기사묶음 타이틀은  기사 내용을 기반으로 자동 추출됩니다.\n                        \n\n닫기\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n尹대통령, 다음주 여름휴가…역대 대통령 휴가지 ‘저도’ 갈까\n윤석열 대통령이 다음주 여름휴가를 가기로 했다. 휴가 지역으로는 역대 대통령들이 여름 휴가지로 자주 방문했던 경남 거제 저도가 꼽히고 있다. 윤 대통령은 …\n\n국민일보\n\n\n\n\n\n\nYTN\n\n尹 대통령, 내주 휴가...전 공무원 휴가 독려\n\n\n\n\n\n조선일보\n\n尹대통령 다음주 여름휴가… 全공무원 휴가 독려\n\n\n\n\n\n동아일보\n\n尹대통령 다음주 여름휴가…“내수진작 차원에서 공무원 휴가 독려”\n\n\n\n\n\n\n36개의 관련뉴스 더보기\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n맞붙은 박범계·한동훈…“인사권 맘대로” vs “본인도 패싱하지 않았냐”\n더불어민주당 박범계 의원이 25일 오후 국회에서 열린 정치·외교·통일·안보 분야 대정부질문에서 한동훈 법무부 장관에게 질문하고 있다.[

In [186]:
text1 = re.sub('[^\w+]',' ',text)
text1 = re.sub(' +',' ',text1)
text1

' 메인 메뉴로 바로가기 본문으로 바로가기 검색 NAVER 뉴스 TV연예 스포츠 날씨 프리미엄 언론사별 정치 선택됨 경제 사회 생활 문화 IT 과학 세계 랭킹 신문보기 오피니언 TV 팩트체크 전체 언론사 뉴스스탠드 라이브러리 07 25 월 전체 언론사 뉴스스탠드 라이브러리 기사목록 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 안내헤드라인 뉴스 헤드라인 뉴스와 각 기사묶음 타이틀은 기사 내용을 기반으로 자동 추출됩니다 닫기 尹대통령 다음주 여름휴가 역대 대통령 휴가지 저도 갈까 윤석열 대통령이 다음주 여름휴가를 가기로 했다 휴가 지역으로는 역대 대통령들이 여름 휴가지로 자주 방문했던 경남 거제 저도가 꼽히고 있다 윤 대통령은 국민일보 YTN 尹 대통령 내주 휴가 전 공무원 휴가 독려 조선일보 尹대통령 다음주 여름휴가 全공무원 휴가 독려 동아일보 尹대통령 다음주 여름휴가 내수진작 차원에서 공무원 휴가 독려 36개의 관련뉴스 더보기 맞붙은 박범계 한동훈 인사권 맘대로 vs 본인도 패싱하지 않았냐 더불어민주당 박범계 의원이 25일 오후 국회에서 열린 정치 외교 통일 안보 분야 대정부질문에서 한동훈 법무부 장관에게 질문하고 있다 사진 제공 국회사진 이데일리 머니투데이 박범계 법무부 인사검증 지적에 한동훈 과거 정부도 위법 조선일보 박범계 법무부 인사검증 법치농단 한동훈 그러면 文민정실도 위법 뉴시스 한동훈 인사검증이 잘못이라면 과거 민정수석실도 모두 위법 26개의 관련뉴스 더보기 이준석 장외정치 계속 오늘 울릉도서 당원들과 만남 국민의힘 윤리위원회의 징계 이후 전국을 돌고 있는 이준석 대표가 오늘은 울릉도에서 당원들과 만납니다 이 대표는 어제 저녁 경북 포항에서 지지자 백여 명과 모임을 진행한 뒤 같은 날 배편을 통해 울릉도에 YTN 채널A 이준석 대표 장외 정치 지속 오늘은 울릉도행 중앙일보 이준석은 장외정치 중 이번엔 울릉도서 당원들과 저녁 식사 뉴스1 이준석 정치적 엘도라도 TK 공략 시작 대구 도심에 李 응원 영상 11개의 관련뉴스 더보기 軍 27일 

In [39]:
items = bs.find('div', id='header').find_all('a')
for item in items:
    print(item.get_text())

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리


In [35]:
texts = bs.find_all('p')
texts

[<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p>,
 <p class="section_sub_txt">오전 11시~오후 12시까지 집계한 결과입니다.</p>,
 <p class="copyright">본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.</p>]

In [52]:
texts = bs.find_all('p')
for t in texts:
    #print(t.string)
    print(t.get_text())

AiRS추천으로 구성된 뉴스를 제공합니다.
오전 11시~오후 12시까지 집계한 결과입니다.
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.


In [54]:
import urllib.request as rq
url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html,'lxml')
bs

<!DOCTYPE html>
<html lang="ko">
<head>
<title id="browserTitleArea">네이버 뉴스</title>
<script>
	function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
</script>
<script>
	(function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
</script>
<script>
		var g_ssc = 'news.v3_media' || null;
		</script>
<meta charset="utf-8"/>
<meta content="width=device-width,initial-scale=1.0,maximum-sca

In [67]:
bs = bs.text
# bs
p = re.sub('[^가-힣]',' ',bs)
p = re.sub('\s{2,}',' ',p)
p

' 네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 월 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 부산일보 월 일 구독 여왕 김연아 포레스텔라 고우림과 년 열애 끝 월 결혼 피겨퀸 김연아 와 성악가 고우림 이 오는 월 결혼식을 올린다 일 김연아의 매니지먼트사인 올댓스포츠는 김연아가 월 서울 모처에서 성악가 고우림과 화촉을 밝힌다 고 밝혔다 올댓스포츠는 김 시사저널 월 일 구독 오르는 금리 떨어지는 집값 영끌족 상환 부담에 비상 영끌족 대출금리 월부터 원리금 만원 부담 전체 가계대출 중 세대 비중 대보다 높아 대출금리가 포인트나 올랐습니다 대 남성 씨는 년 경기 헬스조선 월 일 구독 반복되는 소화 불량 그리고 황달 담도암 검사 받아야 담도암 년 생존율은 꼴찌 췌장암 에서 등이다 명 중 명만 산다 꼴찌가 아닌 탓인지 담도암은 비교적 잘 알려지지 않았다 다른 나라보다 우리나라에서 호발 하는 암인데도 말이다 증상이 잘 안 나타나기 파이낸셜뉴스 월 일 구독 김연아 살 연하 고우림과 결혼 년 열애 피겨 여왕 김연아 와 팝페라 가수 고우림 이 결혼한다 일 두 사람의 열애 소식과 함께 고우림 소속사 비트인터렉티브는 이날 공식입장을 내고 고우림은 오는 월 피겨여왕 김연아와 결혼식을 올린 국제신문 월 일 구독 행안부 경찰 총경 회의 대단히 부적절 평검사 회의와 달라 행정안전부가 경찰 총경 회의에 대해 대단히 부적절하고 적법한 직무명령에 불복종한 사안 이라며 경찰청에서 위법성에 대해 엄정하게 조사하고 후속처리할 것으로 생각한다 는 입장을 밝혔다 이상민 행안부 장관은 일 새로보기 월 일 구독 겨울을 기다리는 푸틴 에너지 위기 어쩌나 노르트스트림 운영은 재개됐지만 공급량은 반쪽에 불과 당초 우려에도 불구하고 중단되었던 러시아 유럽 가스관 노르트스트림 을 통한 가스공급이 지난 일 재개되었습니다 정기점검을 위해 노르트스트림 이 월 

In [78]:
import urllib.request as rq
import re    

url = 'https://news.naver.com'
html = rq.urlopen(url)  # 여기는 urlopen(url)
bs = BeautifulSoup(html,'lxml')

# 와우.. join 쓰면 단어 하나하나가 연결됨

#bs = str(bs)  요고 보다는 get_text()가 좋음!
text = bs.get_text()
news = re.findall('[가-힣]+', text)
news = ' '.join(news)
news

'네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 월 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 뉴시스 월 일 구독 피겨여왕 김연아 세 연하 고우림과 월 결혼 종합 보 기사내용 요약 크로스오버 그룹 포레스텔라 멤버 전 피겨스케이팅 스타 국가대표 선수 출신 김연아 가 세 연하인 크로스오버 그룹 포레스텔라 멤버 겸 팝페라 가수 고우림 과 결혼한다 일 김연아 소속사 코메디닷컴 월 일 구독 근육 유지하고 세포 손상 줄이는 음식 조합은 근육을 유지하고 강화하는데 좋은 음식으로 닭가슴살이 꼽힌다 하지만 퍽퍽한 맛이 단점이다 건강을 위해 식단에 올려도 남기는 경우가 적지 않다 공장에서 만든 단백질 보충제 형태보다는 자연 그대로의 음식이 좋은데 어 아이뉴스 월 일 구독 김연아 고우림 월 결혼 년 열애 피겨여왕 김연아와 가수 고우림이 부부의 연을 맺는다 크로스오버 그룹 포레스텔라 멤버 고우림 소속사 비트인터렉티브 측은 일 고우림은 오는 월 피겨여왕 김연아와 결혼식을 올린다 며 공식 입장을 밝혔다 소 여성신문 월 일 구독 돌아온 대작 햄릿 배우들 열연에 감탄 여혐 서사는 아쉽 년 전 전석 매진작 배우 제작진 귀환 전무송 박정자 손숙 등 대배우들 조연 젊은 배우들이 주연 맡아 현대적 외피 두른 정통극 배우들 열연 빛나 여성혐오 지적 받는 원작 속 가부장 사회 수동적인 여성 일다 월 일 구독 몇 년씩 감금 아이와 격리 이렇게까지 해야 하나 일본 출입국관리소에 수용된 외국인 여성들을 만나온 오다 아사히 씨는 출입국관리 체계와 수용시설의 문제점을 지적하는 활동을 하고 있다 출입국관리 시스템에 의해 수용된 여성들의 실태를 오다 씨가 직접 전한다 새로보기 머니투데이 월 일 구독 영상 살인데 할머니 됐다 손자 안은 여성에 발칵 중국 세 여성이 손자의 출생을 축하하는 영상을 소셜네트워크서비스 에 올렸다 해당 영상은 억회 넘는 조회수를 기

In [81]:
texts = bs.find_all('p')
for t in texts:
    #print(t.string, '\n') #string으로 하니까 None 나옴
    print(t.get_text(), '\n')

기사내용 요약 크로스오버 그룹 포레스텔라 멤버 전 피겨스케이팅 스타 국가대표 선수 출신 김연아(32)가 5세 연하인 크로스오버 그룹 '포레스텔라' 멤버 겸 팝페라 가수 고우림(27)과 결혼한다. 25일 김연아 소속사 

근육을 유지하고 강화하는데 좋은 음식으로 닭가슴살이 꼽힌다. 하지만 퍽퍽한 맛이 단점이다. 건강을 위해 식단에 올려도 남기는 경우가 적지 않다. 공장에서 만든 단백질 보충제 형태보다는 자연 그대로의 음식이 좋은데 어 

피겨여왕 김연아와 가수 고우림이 부부의 연을 맺는다. 크로스오버 그룹 포레스텔라 멤버 고우림 소속사 비트인터렉티브 측은 25일 "고우림은 오는 10월 '피겨여왕' 김연아와 결혼식을 올린다"며 공식 입장을 밝혔다. 소 

6년 전 전석 매진작 배우·제작진 귀환 전무송·박정자·손숙 등 대배우들 조연 3040 젊은 배우들이 주연 맡아 현대적 외피 두른 정통극...배우들 열연 빛나 '여성혐오' 지적 받는 원작 속 가부장 사회 수동적인 여성 

일본 출입국관리소에 수용된 외국인 여성들을 만나온 오다 아사히(織田朝日) 씨는 출입국관리 체계와 수용시설의 문제점을 지적하는 활동을 하고 있다. 출입국관리 시스템에 의해 수용된 여성들의 실태를 오다 씨가 직접 전한다 

중국 36세 여성이 손자의 출생을 축하하는 영상을 SNS(소셜네트워크서비스)에 올렸다. 해당 영상은 2억회 넘는 조회수를 기록하며 중국 누리꾼 사이에서 '조혼 논쟁'을 촉발시켰다. 23일(현지시각) 사우스차이나모닝포 

2in1 에어컨(스탠드+벽걸이)이 설치된 사진 한 장이 온라인을 달구고 있다. 작성자 A 씨는 최근 커뮤니티에 "부모님이 300만원 넘게 주고 2in1 에어컨 설치된 모습을 보고 화가 났다"면서 "부모님만 집에 있을 

담도암 5년 생존율은 꼴찌(췌장암)에서 2등이다. 10명 중 3명만 산다. 꼴찌가 아닌 탓인지 담도암은 비교적 잘 알려지지 않았다. 다른 나라보다 우리나라에서 호발(好發)하는 암인데도 말이다. 증상이 잘 안 나타나기 

Under the beamin

### requests+ bs

In [82]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.naver.com'

r = rq.get(url) # 여기는 get(url)
html = r.text # 꼭 text로 뽑아줘야함 requests는
bs = BeautifulSoup(html, 'lxml')
bs

<!DOCTYPE html>
<html lang="ko">
<head>
<title id="browserTitleArea">네이버 뉴스</title>
<script>
	function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
</script>
<script>
	(function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
</script>
<script>
		var g_ssc = 'news.v3_media' || null;
		</script>
<meta charset="utf-8"/>
<meta content="width=device-width,initial-scale=1.0,maximum-sca

In [83]:
text = bs.find('p').get_text()
text

'2016년 언론 사상 최대 규모의 조세도피처 데이터가 유출됐다. 국제탐사보도언론인협회(ICIJ) 주관으로 전 세계 400여 명의 기자가 국제협업 취재팀을 꾸렸다. 파나마 페이퍼스 프로젝트다. 당시 파나마 로펌 모색 '

#### 과제 0725_2

기상청 육상 정보에서 강원도의 지역 번호는 105이다. 강원도의 날씨 예보를 불필요한 공백을 제거한 후 출력하세요.

In [88]:
from bs4 import BeautifulSoup
import requests as rq

url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')
bs

<?xml version="1.0" encoding="utf-8" ?><html><body><rss version="2.0">
<channel>
<title>기상청 육상 중기예보</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp
<description>기상청 날씨 웹서비스</description>
<language>ko</language>
<generator>기상청</generator>
<pubdate>2022년 07월 25일 (월)요일 06:00</pubdate>
<item>
<author>기상청</author>
<category>육상중기예보</category>
<title>전국 육상 중기예보 - 2022년 07월 25일 (월)요일 06:00 발표</title>
<link/>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp
<guid>http://www.kma.go.kr/weather/forecast/mid-term_01.jsp</guid>
<description>
<header>
<title>전국 육상중기예보</title>
<tm>202207250600</tm>
<wf>&lt;![CDATA[○ (강수) 30일(토)은 전라권에 소나기가 오는 곳이 있겠습니다. <br/>○ (기온) 이번 예보기간 아침 기온은 22~26도, 낮 기온은 29~34도로 어제(24일, 아침최저기온 22~24도, 낮최고기온 25~32도)보다 높겠습니다.<br/>○ (주말전망) 30일(토)은 전라권에 소나기가 오는 곳이 있겠고, 31일(일)은 중부지방은 대체로 맑겠으며 남부지방과 제주도는 구름많겠습니다. <br/>              아침 기온은 23~25도, 낮 기온은 31~34도가 되겠습니다.<br/><br/>* 이번 예보기간 동안 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며, 돌풍과 함께 천둥.번개를 동반한 강한 소나기가 내리는 곳이 있

In [122]:
kwd = bs.find_all('강원도영서')
kwd

[]

In [105]:
kang = bs.find_all('province')
kang

[<province>서울ㆍ인천ㆍ경기도</province>,
 <province>서울ㆍ인천ㆍ경기도</province>,
 <province>서울ㆍ인천ㆍ경기도</province>,
 <province>서울ㆍ인천ㆍ경기도</province>,
 <province>서울ㆍ인천ㆍ경기도</province>,
 <province>서울ㆍ인천ㆍ경기도</province>,
 <province>강원도영서</province>,
 <province>강원도영서</province>,
 <province>강원도영동</province>,
 <province>대전ㆍ세종ㆍ충청남도</province>,
 <province>대전ㆍ세종ㆍ충청남도</province>,
 <province>대전ㆍ세종ㆍ충청남도</province>,
 <province>충청북도</province>,
 <province>충청북도</province>,
 <province>충청북도</province>,
 <province>광주ㆍ전라남도</province>,
 <province>광주ㆍ전라남도</province>,
 <province>광주ㆍ전라남도</province>,
 <province>광주ㆍ전라남도</province>,
 <province>광주ㆍ전라남도</province>,
 <province>광주ㆍ전라남도</province>,
 <province>전라북도</province>,
 <province>전라북도</province>,
 <province>전라북도</province>,
 <province>전라북도</province>,
 <province>전라북도</province>,
 <province>전라북도</province>,
 <province>부산ㆍ울산ㆍ경상남도</province>,
 <province>부산ㆍ울산ㆍ경상남도</province>,
 <province>부산ㆍ울산ㆍ경상남도</province>,
 <province>부산ㆍ울산ㆍ경상남도</province>,
 <province>부산ㆍ울산ㆍ경상남도</province>,
 <pro

#### 과제 0725_3

"http://www.naver.com" 사이트에서 span 태그에 연결된 한글만을 불필요한 공백을 제거한 후 출력하세요.


In [124]:
from bs4 import BeautifulSoup
import requests as rq

url = "http://www.naver.com" 

nav = rq.get(url)
html = nav.text
bs = BeautifulSoup(html,'lxml')
bs

<!DOCTYPE html>
<html data-dark="false" lang="ko"> <head> <meta charset="utf-8"/> <title>NAVER</title> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <meta content="NAVER" name="apple-mobile-web-app-title"/> <meta content="index,nofollow" name="robots"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"/> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"/> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="twitter:

In [133]:
span = bs.find_all('span')

import re

span = str(span)
span2 = re.findall('[가-힣]+',span)

span2 = ' '.join(span2)
span2

'뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드 네이버 쥬니어네이버 해피빈 검색 한글 입력기 자동완성 레이어 클래스를 추가해주세요 삭제 설정이 초기화 된다면 도움말 을 확인해주세요 설정이 초기화 된다면 도움말 을 확인해주세요 도움말 도움말 클래스를 추가해주세요 자동저장 끄기 클래스를 추가해주세요 자동저장 끄기 회차 당첨번호 추첨 지급기한 년 추첨 지급기한 년 원 원 날씨별 맑음 낮 맑음 밤 구름조금 낮 구름조금 밤 구름많음 낮 구름많음 밤 흐림 약한비 비 강한비 약한눈 눈 강한눈 진눈깨비 소나기 안개 소낙눈 번개뇌우 우박 황사 비또는눈 가끔비 가끔눈 가끔비또는눈 흐린후갬 뇌우후갬 비후갬 눈후갬 흐려져비 흐려져눈 날씨별 맑음 낮 맑음 밤 구름조금 낮 구름조금 밤 구름많음 낮 구름많음 밤 흐림 약한비 비 강한비 약한눈 눈 강한눈 진눈깨비 소나기 안개 소낙눈 번개뇌우 우박 황사 비또는눈 가끔비 가끔눈 가끔비또는눈 흐린후갬 뇌우후갬 비후갬 눈후갬 흐려져비 흐려져눈 바로가기 바로가기 추가 최근검색어 있으면 날짜 표시 추가 추가 클래스를 추가해주세요 클래스를 추가해주세요 자세히보기 도움말 신고 도움말 신고 클래스를 추가해주세요 자동완성 끄기 클래스를 추가해주세요 자동완성 끄기 쇼핑 쇼핑 최저기온 최고기온 이태원동 이태원동 리스트형 썸네일형 설정 이전 다음 닫기 닫기 이전 다음 닫기 닫기 이전 다음 다음 닫기 닫기 이전 다음 닫기 닫기 주제별로 분류된 다양한 글 모음 개의 글 이전 다음 루시드 루시드 요일별 웹툰 요일별 웹툰 퀘스트지상주의 퀘스트지상주의 신화급 귀속 아이템을 손에 넣었다 신화급 귀속 아이템을 손에 넣었다 위 유지 채용택 한가람 화 위 유지 박태준 만화회사 화 왜 그래 여보 위 유지 조용석 부 화 설마 너도 도핑이냐 위 유지 치즈 화 라멘 위 유지 모랑지 부 화 위 유지 설이

#### 과제 0725_4

"http://www.naver.com" 사이트에서 span 태그에 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 출력하세요.

In [210]:
from bs4 import BeautifulSoup
import requests as rq
import re

url = "http://www.naver.com" 

nav = rq.get(url)
html = nav.text
bs = BeautifulSoup(html,'lxml')


texts = bs.find_all('span')
li = []
for t in texts:
    result.append(t.get_text())
print(result)

AttributeError: 'str' object has no attribute 'append'

In [206]:
res = re.sub(' +',' ',result)
res

'[ \' 네 이 버 \' , \' 뉴 스 \' , \' 본 문 \' , \' 바 로 가 기 \' , \' 뉴 스 \' , \' 연 예 \' , \' 스 포 츠 \' , \' 날 씨 \' , \' 프 리 미 엄 \' , \' 검 색 \' , \' 언 론 사 별 \' , \' 정 치 \' , \' 경 제 \' , \' 사 회 \' , \' 생 활 \' , \' 문 화 \' , \' 과 학 \' , \' 세 계 \' , \' 랭 킹 \' , \' 신 문 보 기 \' , \' 오 피 니 언 \' , \' 팩 트 체 크 \' , \' 전 체 \' , \' 언 론 사 \' , \' 뉴 스 스 탠 드 \' , \' 라 이 브 러 리 \' , \' 콘 텐 츠 \' , \' 월 \' , \' 전 체 \' , \' 언 론 사 \' , \' 뉴 스 스 탠 드 \' , \' 라 이 브 러 리 \' , \' 언 론 사 편 집 \' , \' 기 자 \' , \' 연 재 \' , \' 구 독 설 정 \' , \' 부 산 일 보 \' , \' 월 \' , \' 일 \' , \' 구 독 \' , \' 여 왕 \' , \' 김 연 아 \' , \' 포 레 스 텔 라 \' , \' 고 우 림 과 \' , \' 년 \' , \' 열 애 \' , \' 끝 \' , \' 월 \' , \' 결 혼 \' , \' 피 겨 퀸 \' , \' 김 연 아 \' , \' 와 \' , \' 성 악 가 \' , \' 고 우 림 \' , \' 이 \' , \' 오 는 \' , \' 월 \' , \' 결 혼 식 을 \' , \' 올 린 다 \' , \' 일 \' , \' 김 연 아 의 \' , \' 매 니 지 먼 트 사 인 \' , \' 올 댓 스 포 츠 는 \' , \' 김 연 아 가 \' , \' 월 \' , \' 서 울 \' , \' 모 처 에 서 \' , \' 성 악 가 \' , \' 고 우 림 과 \' , \' 화 촉 을 \' , \' 밝 힌 다 \' , \' 고 \' , \' 밝 혔 다 \' , \' 올 

In [135]:
from bs4 import BeautifulSoup
import requests as rq
import re

url = "http://www.naver.com" 

nav = rq.get(url)
html = nav.text
bs = BeautifulSoup(html,'lxml')

span3 = bs.find_all('span')
span3 = str(span3)
span4 = re.findall('[가-힣]+|[0-9]+', span3)
span4 = ' '.join(span4)
span4

'뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 1 3 1 20 17 매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 0436 7 다운로드 네이버 쥬니어네이버 해피빈 검색 한글 입력기 자동완성 레이어 클래스를 추가해주세요 삭제 설정이 초기화 된다면 29 도움말 을 확인해주세요 설정이 초기화 된다면 29 도움말 을 확인해주세요 605 1991 도움말 605 1991 도움말 클래스를 추가해주세요 자동저장 끄기 클래스를 추가해주세요 자동저장 끄기 5 회차 당첨번호 추첨 13 지급기한 1 년 추첨 13 지급기한 1 년 6 6 7 7 8 8 9 9 10 10 11 11 12 12 6 6 7 7 8 8 9 9 10 10 11 11 12 12 12 14 8 9 8 9 6 원 6 원 7 7 날씨별 1 맑음 낮 2 맑음 밤 3 구름조금 낮 4 구름조금 밤 5 구름많음 낮 6 구름많음 밤 7 흐림 8 약한비 9 비 10 강한비 11 약한눈 12 눈 13 강한눈 14 진눈깨비 15 소나기 16 안개 17 소낙눈 18 번개뇌우 19 우박 20 황사 21 비또는눈 22 가끔비 23 가끔눈 24 가끔비또는눈 25 흐린후갬 26 뇌우후갬 27 비후갬 28 눈후갬 29 흐려져비 30 흐려져눈 7 8 날씨별 1 맑음 낮 2 맑음 밤 3 구름조금 낮 4 구름조금 밤 5 구름많음 낮 6 구름많음 밤 7 흐림 8 약한비 9 비 10 강한비 11 약한눈 12 눈 13 강한눈 14 진눈깨비 15 소나기 16 안개 17 소낙눈 18 번개뇌우 19 우박 20 황사 21 비또는눈 22 가끔비 23 가끔눈 24 가끔비또는눈 25 흐린후갬 26 뇌우후갬 27 비후갬 28 눈후갬 29 흐려져비 30 흐려져눈 7 8 7 5 5 바로가기 바로가기 추가 최근검색어 있으면 날짜 표시 추가 추가 2 클래스를 추가해주세요 2 클래스를 추가해주세요 자세히보기 2 605 1987 도움말 605 1

In [145]:
from bs4 import BeautifulSoup
import requests as rq
import re

url = "http://www.naver.com" 

nav = rq.get(url)
html = nav.text
bs = BeautifulSoup(html,'lxml')

span3 = bs.find_all('span')
span3 = str(span3)


span4 = re.findall('\w+', span3)
span4 = ' '.join(span4)
span4

'span 뉴스스탠드 바로가기 span span 주제별캐스트 바로가기 span span 타임스퀘어 바로가기 span span 쇼핑캐스트 바로가기 span span 로그인 바로가기 span span class _1syGnXOL _3VkgqBXB data clk dropbanner1a style padding right 20px font size 17px color black span 매일 쓰는 브라우저 보안이 걱정된다면 span strong 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 strong span span 매일 쓰는 브라우저 보안이 걱정된다면 span span style background color 0436c7 다운로드 span span class blind 네이버 span span class blind 쥬니어네이버 span span class blind 해피빈 span span class blind 검색 span span class ico_search_submit span span class blind 한글 입력기 span span class ico_keyboard span span class blind 자동완성 레이어 span span class ico_arr span span class fix span class common_ico_kwd i class imsc ico_search i span span txt span span span class common_ico_kwd i class imsc ico_search i span span txt span span class etc em class date date em AU _del 클래스를 추가해주세요 a aria pressed false class bt_item _del href role button i class imsc ico_del 삭제 i a span span class kwd_dsc 설정이 초기화 된다면 a class kwd_help data clk sly help href ht

#### 과제 0725_5
"http://www.naver.com" 사이트에서 a 태그에 id가 있는 경우에 대하여 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 한줄에 출력하세요.

In [159]:
from bs4 import BeautifulSoup
import requests as rq
import re

url = "http://www.naver.com"

naver = rq.get(url)
html = naver.text
bs = BeautifulSoup(html,'lxml')

atag = bs.find_all('a', id='')
atag

[<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>,
 <a href="#themecast"><span>주제별캐스트 바로가기</span></a>,
 <a href="#timesquare"><span>타임스퀘어 바로가기</span></a>,
 <a href="#shopcast"><span>쇼핑캐스트 바로가기</span></a>,
 <a href="#account"><span>로그인 바로가기</span></a>,
 <a class="_3h-N8T9V" data-clk="dropbanner1b" href="https://whale.naver.com/banner/details/security/?=main&amp;wpid=RydDy7"></a>,
 <a class="logo_naver" data-clk="top.logo" href="/"><span class="blind">네이버</span></a>,
 <a class="link_jrnaver" data-clk="top.jrnaver" href="https://jr.naver.com"><i class="ico_jrnaver"></i><span class="blind">쥬니어네이버</span></a>,
 <a class="link_happybin" data-clk="top.happybean" href="https://happybean.naver.com"><i class="ico_happybin"></i><span class="blind">해피빈</span></a>,
 <a aria-pressed="false" class="item _delAll" href="#" role="button">전체삭제</a>,
 <a class="kwd" href="#">
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>
 </a>,
 <a aria-press

#### 과제 0725_6

url = 'https://news.naver.com/' 사이트 p태그에서 class가 cjs_ht인 데이터를  한글만을 불필요한 공백을 제거한 후 출력하세요.

In [148]:
from bs4 import BeautifulSoup
import requests as rq
import re

url = 'https://news.naver.com/'

naver = rq.get(url)
html = naver.text
bs = BeautifulSoup(html,'lxml')

uu = bs.find_all('p',{'class':'cjs_ht'})
uu

[<p class="cjs_ht">
                         
                             
                             
                                 방송 모아보기 클릭 시<br/>해당 방송사 뉴스를 볼 수 있으며<br/><span class="comp_ico_live">LIVE</span> 표시가 된 경우 생중계로<br/>시청 가능합니다.
                             
                         
                     </p>]

In [157]:
uu = str(uu)
uu2= re.findall('[가-힣]+', uu)
uu2 = ' '.join(uu2)
uu2

'방송 모아보기 클릭 시 해당 방송사 뉴스를 볼 수 있으며 표시가 된 경우 생중계로 시청 가능합니다'