# BeautifulSoup 모듈
- 홈페이지 내 데이터를 쉽게 추출할 수 있게 해주는 파이썬 외부 라이브러리
- 웹 문서 내 수많은 HTML 태그들을 parser를 활용해 사용하기 편한 파이썬 객체로 만들어 제공
- 웹 문서 구조를 알고 있다면 편하게 데이터를 뽑아 활용할 수 있음

기존방식과의 차이점
- 정규 표현식, 문자열 함수 등을 활용하여 홈페이지 텍스트 내 패턴을 분석하여 하나씩 원하는 데이터를 찾아가는 형식
- BS는 HTML 문서를 태그를 기반으로 구조화하여 태그로 원하는 데이터를 찾아가는 형식


In [5]:
html_doc = """
<html lang="en">
<head><title>crawl</title></head>
<body>
<p class="a" align="center"> text1</p>
<p class="b" align="center"> text2</p>
<p class="c" align="center"> text3</p>
<div><img src="/source" width="300" height="200"></div>
</body>
</html>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc,'html.parser')

print(soup.prettify())

<html lang="en">
 <head>
  <title>
   crawl
  </title>
 </head>
 <body>
  <p align="center" class="a">
   text1
  </p>
  <p align="center" class="b">
   text2
  </p>
  <p align="center" class="c">
   text3
  </p>
  <div>
   <img height="200" src="/source" width="300"/>
  </div>
 </body>
</html>



In [12]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
h1 = soup.html.body.h1
p1 = soup.html.body.p

# p2 = p1.next_sibling 하나는 공백
p2 = p1.next_sibling.next_sibling

print(h1.string)
print(p1.string)
print(p2.string)

스크레이핑이란?
웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


## find
find() : HTML의 해당 태그에 대한 첫 번째 정보를 가져옴
- find(속성='값') : HTML 해당 속성과 일치하는 값에 대한 첫 번째 정보를 가져옴


In [15]:
html = """
<html><body>
  <h1 id ='title'>스크레이핑이란?</h1>
  <p id='body'>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""
#find 첫번째 태그를 반환
soup = BeautifulSoup(html,'html.parser')
title = soup.find(id='title')
body = soup.find(id='body')

# 태그 하위의 문자열을 객체화한다. 문자열이 없으면 None을 반환
print(title.string)
print(body.string)

# 하위 자식태그의 텍스트까지 문자열로 반환
print(title.text)
print(body.text)

# html 문서의 모든 텍스트를 추출
print(body.get_text()) 

스크레이핑이란?
웹 페이지를 분석하는 것
스크레이핑이란?
웹 페이지를 분석하는 것
웹 페이지를 분석하는 것


## findAll
find_all() : 
- HTML의 해당 태그에 대한 모든 정보를 리스트 형식으로 가져옴. limit 옵션으로 개수 지정 가능
- CSS 속성으로 필터링(class_로 클래스를 직접 사용 혹은 attrs에서 속성 = 값으로 필터링)


In [19]:
# findAll 조건에 해당되는 모든 태그를 리스트로 반환
# texts = soup.find_all('p') 도 동일

texts = soup.findAll('p')
# print(texts)

for t in texts:
    print(t.text)

웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


In [33]:
req = requests.get('https://naver.com')
html = req.text
# print(html)

soup = BeautifulSoup(html,'html.parser')

result = soup.find_all('span',class_='blind') # class과 예약어라 겹쳐서 _추가로 붙여준다.
result

[<span class="blind">네이버</span>,
 <span class="blind">쥬니어네이버</span>,
 <span class="blind">해피빈</span>,
 <span class="blind">검색</span>,
 <span class="blind">한글 입력기</span>,
 <span class="blind">자동완성 레이어</span>,
 <span class="blind">쇼핑</span>,
 <span class="blind">쇼핑LIVE</span>,
 <span class="blind">리스트형</span>,
 <span class="blind">썸네일형</span>,
 <span class="blind">설정</span>,
 <span class="blind">이전</span>,
 <span class="blind">다음</span>,
 <span class="blind">닫기</span>,
 <span class="blind">닫기</span>,
 <span class="blind">이전</span>,
 <span class="blind">다음</span>,
 <span class="blind">닫기</span>,
 <span class="blind">닫기</span>,
 <span class="blind">이전</span>,
 <span class="blind">다음</span>,
 <span class="blind">다음</span>,
 <span class="blind">닫기</span>,
 <span class="blind">닫기</span>,
 <span class="blind">이전</span>,
 <span class="blind">다음</span>,
 <span class="blind">닫기</span>,
 <span class="blind">닫기</span>,
 <span class="blind">이전</span>,
 <span class="blind">다음</span>,
 <span class="bl

In [34]:
result = soup.find_all('span',class_='blind')[0]
result

#result = soup.find_all('a','api_link')

<span class="blind">네이버</span>

In [36]:
result = soup.find_all('span')
result

[<span>뉴스스탠드 바로가기</span>,
 <span>주제별캐스트 바로가기</span>,
 <span>타임스퀘어 바로가기</span>,
 <span>쇼핑캐스트 바로가기</span>,
 <span>로그인 바로가기</span>,
 <span class="_1syGnXOL _3VkgqBXB" data-clk="dropbanner1a" style="padding-right: 20px; font-size: 17px; color: black"><span>매일 쓰는 브라우저 보안이 걱정된다면, </span><strong>안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요.</strong></span>,
 <span>매일 쓰는 브라우저 보안이 걱정된다면, </span>,
 <span style="background-color: #0436c7">다운로드</span>,
 <span class="blind">네이버</span>,
 <span class="blind">쥬니어네이버</span>,
 <span class="blind">해피빈</span>,
 <span class="blind">검색</span>,
 <span class="ico_search_submit"></span>,
 <span class="blind">한글 입력기</span>,
 <span class="ico_keyboard"></span>,
 <span class="blind">자동완성 레이어</span>,
 <span class="ico_arr"></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="common_ico_kwd"><i class="imsc ico_search"></i></span>,
 <span>@txt@</span>,
 <span class="etc">
 <em class="date">@date@.</e

In [37]:
result = soup.find_all('span',class_='fix')
result

[<span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@query@ <span class="context">@intend@</span></span>]

In [38]:
result = soup.find_all('span',attrs={'class':'fix'}) # class를 딕셔너리로 지정
result

[<span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@query@ <span class="context">@intend@</span></span>]

In [39]:
import re

req = requests.get('https://naver.com')
soup = BeautifulSoup(html,'html.parser')

# find_all
print(soup.find_all(string='네이버'))

# 정규식
print(soup.find_all(string=re.compile('네이버')))

['네이버']
['네이버', '네이버를 시작페이지로', '쥬니어네이버', '언론사가 직접 편집한 뉴스들을 네이버 홈에서 바로 보실 수 있습니다.', '네이버 개발자 센터', '네이버 D2', '네이버 D2SF', '네이버 랩스', '네이버 정책 및 약관', '네이버 정책']


## select
select_one(), select()
- CSS 선택자를 활용하여 원하는 정보를 가져옴(태그를 검색하는 find, find_all과 비슷함)
- class는 ., id는 #로 표시

In [41]:
import urllib.request as req

url = "https://finance.naver.com/marketindex/"

res = req.urlopen(url)
soup = BeautifulSoup(res,'html.parser')

price = soup.select_one('div.head_info > span.value').string

print('usd/krw =', price)

usd/krw = 1,312.90


In [1]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [2]:
!pip install lxml



In [3]:
from bs4 import BeautifulSoup

# 객체 생성
bs = BeautifulSoup(html_doc, 'html.parser') # lxml

# 정렬
print(bs.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [4]:
bs.title

<title>The Dormouse's story</title>

In [5]:
bs.title.name

'title'

In [6]:
bs.title.parent.name

'head'

In [7]:
bs.p

<p class="title"><b>The Dormouse's story</b></p>

In [8]:
bs.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [9]:
bs.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [10]:
bs.find(id='link3')

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [11]:
bs.a['class']

['sister']

In [12]:
for link in bs.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [14]:
bs.find_all

<bound method Tag.find_all of <html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>>

In [16]:
bs.find_all('p')

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

## string vs. get_text()
- get_text()를 이용하면 한방에 현재 HTML 문서의 모든 텍스트를 추출할 수 있습니다. 조금 더 정확히 표현하면 get_text() 메서드는 현재 태그를 포함하여 모든 하위 태그를 제거하고 유니코드 텍스트만 들어있는 문자열을 반환
- string의 경우 문자열이 없으면 None을 출력하지만, get_text()의 경우 유니코드 형식으로 텍스트까지 문자열로 반환하기 때문에  아무 정보도 출력되지 않는다.
- string 속성은 태그(tag) 내 문자열을 반환. get_text()를 사용하더라도 정확하게 문자열을 추출하기 위해서는 항상 마지막 태그에 메서드를 사용


In [23]:
bs.find_all

<bound method Tag.find_all of <html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>>

In [17]:
# string 스트링만 리스트로 추출함
# 줄바꿈, 공백 등 필요없는 것들을 제거한 스트링 리스트를 반환
print(bs.string)

None


In [18]:
# get_text 일반적으로 텍스트 부분만 모두 추출함
# 하나의 스트링을 만들어 반환
print(bs.get_text())

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [21]:
print(bs.find('div'))

<div></div>


In [22]:
# 문자열이 없으면 "None"을 반환
print(bs.find('div').string)

None


In [24]:
# 유니코드형식으로 텍스트까지 문자열로 반환하기 때문에 아무정보도 나오지 않는다.
print(bs.find('div').get_text())




In [25]:
print(bs.find('body').string)

None


In [26]:
# 하위태그에 텍스트까지 파상하려는 경우, get_text() 선호
print(bs.find('body').get_text())



The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [27]:
# 정확한 선택자를 통한 파싱할 경우, string을 선호
bs.a.string

'Elsie'

In [28]:
li = bs.find_all('p')
li

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [29]:
# 문자열이 없으면 "None"을 반환
li = bs.find_all('p')
for i in li:
    print(i.string)

The Dormouse's story
None
...


In [30]:
for i in li:
    print(i.get_text())

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...


## urllib + BeautifulSoup

In [3]:
# urlopen()과 BeautifulSoup의 조합

import warnings
warnings.filterwarnings('ignore')

from bs4 import BeautifulSoup
import urllib.request as req

# url 선언
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

# request로 url에 대한 응답값을 가져온다
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')

# title 태그의 문자열을 반환
title = soup.find('title').string

# 'wf' 첫번째 정보만 반환
wf = soup.find('wf').string

print(title,'\n')
print(wf)

기상청 육상 중기예보 

○ (강수) 26일(화)은 충청권과 남부지방에, 27일(수)은 수도권과 강원영서, 충남권, 전북에 소나기가 오는 곳이 있겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 22~25도, 낮 기온은 29~35도로 오늘(22일, 아침최저기온 22~25도, 낮최고기온 27~31도)보다 높겠습니다.<br /><br />* 27일(수)까지 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며, 소나기가 내리는 지역에서는 돌풍과 함께 천둥.번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며, 앞으로 발표되는 기상정보를 참고하기 바랍니다.


In [4]:
import requests
import re

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

data = requests.get(url).text
soup = BeautifulSoup(data,'html.parser')

wf = soup.find('wf').string

# wf에서 제외할 부분을 공백처리하여 wf에 저장하여 반환
wf = re.sub('[^0-9가-힣]',' ', wf)
wf

'   강수  26일 화 은 충청권과 남부지방에  27일 수 은 수도권과 강원영서  충남권  전북에 소나기가 오는 곳이 있겠습니다           기온  이번 예보기간 아침 기온은 22 25도  낮 기온은 29 35도로 오늘 22일  아침최저기온 22 25도  낮최고기온 27 31도 보다 높겠습니다               27일 수 까지 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며  소나기가 내리는 지역에서는 돌풍과 함께 천둥 번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며  앞으로 발표되는 기상정보를 참고하기 바랍니다 '

#### 과제 0722
wf를 다시 정렬하여 불필요한 부분을 제거해서 아래와 같은 형식으로 출력하세요.
(정규표현식 이용)

In [7]:
import re
result = re.sub(' +',' ',wf)
result

' 강수 26일 화 은 충청권과 남부지방에 27일 수 은 수도권과 강원영서 충남권 전북에 소나기가 오는 곳이 있겠습니다 기온 이번 예보기간 아침 기온은 22 25도 낮 기온은 29 35도로 오늘 22일 아침최저기온 22 25도 낮최고기온 27 31도 보다 높겠습니다 27일 수 까지 우리나라 주변 기압계에 따라 소나기가 내리는 구역이 변동될 수 있으며 소나기가 내리는 지역에서는 돌풍과 함께 천둥 번개를 동반한 강한 소나기가 내리는 곳이 있겠으니 안전에 유의하기 바라며 앞으로 발표되는 기상정보를 참고하기 바랍니다 '

In [28]:
texts = soup.find_all('wf')
# print(texts)

for t in texts:
    t = t.text
    t = re.sub('[^0-9가-힣]',' ',t)
    print(t, '\n')

   강수  27일 수 은 수도권과 강원영서에 비가 오겠습니다           기온  이번 예보기간 아침 기온은 22 25도  낮 기온은 29 34도로 어제 21일  아침최저기온 20 24도  낮최고기온 23 32도 보다 높겠습니다               이번 예보기간 북태평양고기압의 발달 여부와 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며  정체전선의 영향권에서 벗어난 지역에도 대기 불안정으로 소나기가 내릴 가능성이 있겠으니  앞으로 발표되는 기상정보를 참고하기 바랍니다  

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많고 비 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

흐림 

흐림 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많고 비 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

흐림 

흐림 

구름많음 

구름많음 

흐림 

흐림 

구름많

In [31]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
text = bs.find('p')
text = text.get_text()
text

'AiRS추천으로 구성된 뉴스를 제공합니다.'

In [34]:
bs.find('div').find('a').string

'메인 메뉴로 바로가기'

In [38]:
items = bs.find('div').find_all('a')
#items

for item in items:
    print(item.get_text())

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리
정치
대통령실 
국회/정당 
북한 
행정 
국방/외교 
정치일반 


안내헤드라인 뉴스



김병주 "북송 탈북어민, 귀순 아닌 밀항해 숨어 살 의도였던 듯"
‘북송 어민 살해’ 오락가락 여당, 우왕좌왕 통일부…정치권 “자료 공개만이 정답”
김병주 "북송 탈북어민, 귀순 아닌 밀항 의도한 듯"
탈북어부 '흉악범' 진위 논란까지...검찰 수사쟁점 갈수록 늘어
11개의 관련뉴스 더보기



이준석은 '장외 정치 중'…25일 울릉도 입도, TK공략 나선다
이준석, 정치적 '엘도라도' TK 공략 시작…대구 도심에 李 응원 영상
이준석, 이번엔 울릉도행…보수 텃밭 TK 돌며 '장외정치'
이준석, 장외정치 계속...오늘 울릉도서 당원들과 만남
7개의 관련뉴스 더보기



나경원 "이준석, 자숙하는 모습 보여야…나라면 그랬을 것"
나경원 "이준석, 자숙하는 모습 보여야…나라면 그랬을 것"
나경원 “이준석, 늘 불안불안…조금 더 자숙해야”
나경원, '尹정부 사람 냄새 없다' 野에 "그런 말 할 자격 있나"
9개의 관련뉴스 더보기



내일부터 尹정부 첫 대정부질문…'공수교대' 여야 격돌 불가피
5년 만에 '공격수' 된 민주당, 尹정부 실정에 강력 공세 예고
오늘 윤정부 첫 대정부질문…정치·외교·통일·안보 분야
尹정부 정치·외교 대정부 질문…강제북송·사적채용 격돌
54개의 관련뉴스 더보기
軍, '27일 전후 北 핵실험' 가능성에 "시기특정 적절치 않아"



北, 정전 69년 맞아 핵실험?…軍 "시기 특정 부적절"
7개의 관련뉴스 더보기



대통령실 사적 채용 ‘부적절’ 68%…민주당 지지율 41.9% [KSOI]



尹대통령 부정 64.5%…7주만에 하락세 멈춰 [KSOI]
9개의 관련뉴스 더보기



#### 과제 0725

상기 출력물 불필요한 공백없이 정렬하여 출력하세요.

In [178]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html = rq.urlopen(url)
bs = BeautifulSoup(html,'lxml')
text = bs.find('div')
text = text.get_text()
text

'\n\n\n\n\n\n메인 메뉴로 바로가기\n본문으로 바로가기\n\n\n\n\n\n\n\n\n\n\n검색\n\n\n\n\nNAVER\n뉴스\n\n\nTV연예\n스포츠\n날씨\n프리미엄\n\n\n\n\n\n\n\n\n\n\n언론사별 \n정치 선택됨\n경제 \n사회 \n생활/문화 \nIT/과학 \n세계 \n랭킹 \n신문보기 \n오피니언 \nTV \n팩트체크 \n\n\n\n\n\n\n\n전체 언론사\n뉴스스탠드\n라이브러리\n\n\n\n\n\n\n\n\n07.25(월)\n\n전체 언론사\n뉴스스탠드\n라이브러리\n\n\n\n\n\n기사목록\n\n\n\n\n\n\n\n\n정치\n\n대통령실 \n국회/정당 \n북한 \n행정 \n국방/외교 \n정치일반 \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n안내헤드라인 뉴스\n\n\n                            헤드라인 뉴스와 각 기사묶음 타이틀은  기사 내용을 기반으로 자동 추출됩니다.\n                        \n\n닫기\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n권성동 “경찰 집단행동은 배부른 밥투정, 정치세력화”\n권성동 국민의힘 대표 직무대행 겸 원내대표는 25일 행정안전부 내 경찰국 신설에 반대하기 위한 전국경찰서장회의가 열린 것과 관련해 “직무유기이자, 국민  …\n\n경향신문\n\n\n\n\n\n\n뉴시스\n\n與, \'경찰 반발\'에 "배부른 밥투정·집단 이기주의" 맹공(종합)\n\n\n\n\n\n한국일보\n\n국민의힘 "경찰 반발은 \'배부른 밥투정\'… 민주적 통제 필요"\n\n\n\n\n\nKBS\n\n권성동 “경찰 집단행동은 배부른 밥투정”\n\n\n\n\n\n\n41개의 관련뉴스 더보기\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n박용진, 강병원·김민석·설훈에 "혁신 단일화, 빠르게 가자"\n8·28 더불어민주당 전당대회 당대표 선거에 출마한 박용진 의원이 24일 다른 후보들을 향해 “혁신 단일화 공동선언에 함께하자”며 ‘선제

In [181]:
text1 = re.sub('[^\w+]',' ',text)

text1 = re.sub(' +',' ',text1)
text1

' 메인 메뉴로 바로가기 본문으로 바로가기 검색 NAVER 뉴스 TV연예 스포츠 날씨 프리미엄 언론사별 정치 선택됨 경제 사회 생활 문화 IT 과학 세계 랭킹 신문보기 오피니언 TV 팩트체크 전체 언론사 뉴스스탠드 라이브러리 07 25 월 전체 언론사 뉴스스탠드 라이브러리 기사목록 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 안내헤드라인 뉴스 헤드라인 뉴스와 각 기사묶음 타이틀은 기사 내용을 기반으로 자동 추출됩니다 닫기 권성동 경찰 집단행동은 배부른 밥투정 정치세력화 권성동 국민의힘 대표 직무대행 겸 원내대표는 25일 행정안전부 내 경찰국 신설에 반대하기 위한 전국경찰서장회의가 열린 것과 관련해 직무유기이자 국민 경향신문 뉴시스 與 경찰 반발 에 배부른 밥투정 집단 이기주의 맹공 종합 한국일보 국민의힘 경찰 반발은 배부른 밥투정 민주적 통제 필요 KBS 권성동 경찰 집단행동은 배부른 밥투정 41개의 관련뉴스 더보기 박용진 강병원 김민석 설훈에 혁신 단일화 빠르게 가자 8 28 더불어민주당 전당대회 당대표 선거에 출마한 박용진 의원이 24일 다른 후보들을 향해 혁신 단일화 공동선언에 함께하자 며 선제적 단일화 를 제 이데일리 디지털타임스 이재명 박용진 안정권 민주 전대 컷오프 사실상 1자리 싸움 MBC 박용진 선제적 단일화 선언에 강병원 설훈 동참 의사 밝혀 아시아경제 강병원 예비경선 전 1차 단일화 선언 박용진 제안에 공감 51개의 관련뉴스 더보기 국회 인사청문특위 남래진 선관위원 후보자 청문보고서 채택 국회 인사청문특별위원회가 남래진 중앙선거관리위원 후보자에 대한 인사청문경과보고서를 채택했습니다 오늘 인사청문회에서는 사적 채용 논란이 불거진 대통령 MBC 매일경제 경비업체 대표 경비로 일했다 KBS 남래진 선관위원 후보자 중앙선관위 편향 시비 없는 인사로 구성돼야 SBS 남래진 아들 사적채용 논란 강릉 선관위원에 자진사퇴가 맞아 25개의 관련뉴스 더보기 쿠데타 발언 이상민 묵묵히 일하는 다른 경찰 명예훼손 이상민 행정안전부 장관이 경찰국 설치와 

In [39]:
texts = bs.find_all('p')
texts

[<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p>,
 <p class="section_sub_txt">오전 11시~오후 12시까지 집계한 결과입니다.</p>,
 <p class="copyright">본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.</p>]

In [43]:
items = bs.find('div',id='header').find_all('a')
for item in items:
    print(item.get_text())

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리


In [54]:
texts = bs.find_all('p')
for t in texts:
    #print(t.string)
    print(t.get_text())

AiRS추천으로 구성된 뉴스를 제공합니다.
오전 11시~오후 12시까지 집계한 결과입니다.
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.


In [64]:
import urllib.request as rq

url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html,'lxml')
#bs

text = bs.get_text()

regrex = re.compile('[가-힣]+',text)
result = regrex.findall(text)
result

['네이버',
 '뉴스',
 '본문',
 '바로가기',
 '뉴스',
 '연예',
 '스포츠',
 '날씨',
 '프리미엄',
 '검색',
 '언론사별',
 '정치',
 '경제',
 '사회',
 '생활',
 '문화',
 '과학',
 '세계',
 '랭킹',
 '신문보기',
 '오피니언',
 '팩트체크',
 '전체',
 '언론사',
 '뉴스스탠드',
 '라이브러리',
 '콘텐츠',
 '월',
 '전체',
 '언론사',
 '뉴스스탠드',
 '라이브러리',
 '언론사편집',
 '기자',
 '연재',
 '구독설정',
 '조선',
 '월',
 '일',
 '구독',
 '내부서도',
 '경찰국',
 '속도조절론',
 '하태경',
 '너무',
 '거칠어',
 '행정안전부',
 '산하에',
 '경찰국을',
 '신설하는',
 '문제를',
 '두고',
 '정부와',
 '경찰이',
 '갈등을',
 '겪고',
 '있는',
 '가운데',
 '여당',
 '내부에서도',
 '속도',
 '조절이',
 '필요하다는',
 '의견이',
 '나왔다',
 '하태경',
 '국민의힘',
 '의원은',
 '일',
 '대통령실도',
 '그렇고',
 '정부가',
 '경찰을',
 '너무',
 '뉴시스',
 '월',
 '일',
 '구독',
 '피겨여왕',
 '김연아',
 '세',
 '연하',
 '고우림과',
 '월',
 '결혼',
 '종합',
 '보',
 '기사내용',
 '요약',
 '크로스오버',
 '그룹',
 '포레스텔라',
 '멤버',
 '전',
 '피겨스케이팅',
 '스타',
 '국가대표',
 '선수',
 '출신',
 '김연아',
 '가',
 '세',
 '연하인',
 '크로스오버',
 '그룹',
 '포레스텔라',
 '멤버',
 '겸',
 '팝페라',
 '가수',
 '고우림',
 '과',
 '결혼한다',
 '일',
 '김연아',
 '소속사',
 '데일리안',
 '월',
 '일',
 '구독',
 '우영우',
 '감동',
 '속',
 '그',
 '팽나무',
 '실제',
 '장소',
 '창원서',
 '인기',
 '인

In [68]:
import urllib.request as rq

url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html,'lxml')
bs = str(bs)

regrex = re.findall('[가-힣]+',bs)
result = ' '.join(result)
result

'네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 월 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 조선 월 일 구독 내부서도 경찰국 속도조절론 하태경 너무 거칠어 행정안전부 산하에 경찰국을 신설하는 문제를 두고 정부와 경찰이 갈등을 겪고 있는 가운데 여당 내부에서도 속도 조절이 필요하다는 의견이 나왔다 하태경 국민의힘 의원은 일 대통령실도 그렇고 정부가 경찰을 너무 뉴시스 월 일 구독 피겨여왕 김연아 세 연하 고우림과 월 결혼 종합 보 기사내용 요약 크로스오버 그룹 포레스텔라 멤버 전 피겨스케이팅 스타 국가대표 선수 출신 김연아 가 세 연하인 크로스오버 그룹 포레스텔라 멤버 겸 팝페라 가수 고우림 과 결혼한다 일 김연아 소속사 데일리안 월 일 구독 우영우 감동 속 그 팽나무 실제 장소 창원서 인기 인증샷 이어져 경남 창원에 있는 거대한 팽나무가 최근 인증샷 명소로 인기몰이 중이다 최근 화제인 드라마 이상한 변호사 우영우 에 등장한 이후로 입소문을 타서다 지난 일 방송된 이상한 변호사 우영우 회에는 팽나 기자협회보 월 일 구독 전 노조위원장 조합비 억 횡령 전임 노조위원장이 억원대의 조합비를 횡령한 사실이 뒤늦게 드러났다 현 노조 집행부는 고소장을 제출하는 등 민형사상 책임을 묻는 작업에 착수했다 신호 전국언론노조 지부장은 일 사내 공지를 통해 이데일리 월 일 구독 김어준 만난 임은정 검찰서 뉴스공장 싫어하는 걸 알기에 최근 지난 년간 자신이 검찰 내부를 고발한 일을 엮어 책 계속 가보겠습니다 으로 낸 임은정 대구지검 부장검사 사법연수원 기 가 라디오 김어준의 뉴스공장 에 출연한 뒤 소회를 전했다 일 임 부장검사 새로보기 머니 월 일 구독 김노향의 부동산톡 둔촌주공 남 일 아니네 도시 흉물 된 주택가 철거현장 지난 월 철거공사를 끝낸 서울 용산의 한 다세대주택 빌라 건물 개를 허문 자리에 각종 폐기물이 방치된

In [66]:
import urllib.request as rq
import re
url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
bs = bs.text
# bs
p = re.sub('[^가-힣]',' ',bs)
p = re.sub('\s{2,}',' ',p)
p

' 네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 월 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 코리아중앙데일리 월 일 구독 월 일 구독 지구대장 파출소장들 우리도 회의하자 들끓는 경찰 행정안전부 경찰국 신설에 반대해 전국 경찰서장 회의를 주도한 류삼영 총경이 대기발령 조치를 받자 일선 경찰들이 나도 징계하라 며 크게 반발하고 있습니다 유근창 경남 마산동부경찰서 양덕지구대장은 오늘 오전 경찰 내 뉴시스 월 일 구독 피겨여왕 김연아 세 연하 고우림과 월 결혼 종합 보 기사내용 요약 크로스오버 그룹 포레스텔라 멤버 전 피겨스케이팅 스타 국가대표 선수 출신 김연아 가 세 연하인 크로스오버 그룹 포레스텔라 멤버 겸 팝페라 가수 고우림 과 결혼한다 일 김연아 소속사 시사 월 일 구독 끝날 것 같았던 코로나 파도 얼마나 거세질까 썰물의 시간이 지나고 밀물의 시간이 돌아왔다 월 중순 하루 만명으로 정점을 찍은 뒤 줄어들던 신규 확진자가 주 만에 상승세를 나타냈다 기울기는 제법 가파르다 월 첫째 주 주간 일평균 확진자 수는 약 조선비즈 월 일 구독 흔들리는 반러연대 가스 사용량 두고 내부균열 국가마다 에너지 사정 다른 영향 감축은 과도 유럽연합 집행위원회가 러시아의 가스 수출 무기화 에 대비해 가스 사용량을 줄이자고 제안했지만 일부 남유럽 국가들이 반대하면서 의 반러시 새로보기 조세일보 월 일 구독 민주 류삼영 대기발령 에 대통령이 직접 올라탔다 정면으로 맞설 것 더불어민주당은 일 윤석열 정부의 경찰국 신설 에 반발하는 전국 경찰서장 회의를 주도한 류삼영 울산 중부서장에 대한 대기발령 조치와 관련 윤석열 대통령이 직접 이 문제에 올라탔다 며 민주당은 경찰장악 음모에 여성신문 월 일 구독 돌아온 대작 햄릿 배우들 열연에 감탄 여혐 서사는 아쉽 년 전 전석 매진작 배우 제작진 귀환 전무송 박정자 손숙 등 대배우들 조연 젊

In [72]:
import urllib.request as rq
import re

url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
texts = bs.find_all('p')
for t in texts:
    #print(t.string,'\n')-> None 발견
    print(t.get_text(),'\n')

여론조사업체 리얼미터의 정례 조사에서 윤석열 대통령의 국정수행 지지율 하락 폭이 둔화했습니다. 리얼미터가 지난주 실시한 여론조사 결과를 보면, 윤 대통령 국정 수행에 대한 긍정 평가는 33.3%, 부정 평가는 63. 

‘피겨여왕’ 김연아(32)가 오는 10월 결혼한다. 김연아의 소속사 올댓스포츠는 25일 “김연아가 오는 10월 하순 서울 모처에서 성악가 고우림(27)과 화촉을 밝힌다”고 밝혔다. 김연아의 피앙세인 고우림은 서울대  

일본 규슈섬 남쪽 가고시마현에 있는 사쿠라지마 활화산이 이틀 연속 강하게 분화했다. 인명 피해는 없는 것으로 알려졌다. 지난 24일 분화하고 있는 일본 규슈섬 남쪽 가고시마현에 있는 사쿠라지마 활화산. (사진=AFP 

YTN 전임 노조위원장이 4억원대의 조합비를 횡령한 사실이 뒤늦게 드러났다. 현 노조 집행부는 고소장을 제출하는 등 민형사상 책임을 묻는 작업에 착수했다. 신호 전국언론노조 YTN지부장은 22일 사내 공지를 통해 “ 

2in1 에어컨(스탠드+벽걸이)이 설치된 사진 한 장이 온라인을 달구고 있다. 작성자 A 씨는 최근 커뮤니티에 "부모님이 300만원 넘게 주고 2in1 에어컨 설치된 모습을 보고 화가 났다"면서 "부모님만 집에 있을 

2018년 아이스쇼에서 첫 만남…비공개 결혼식 '피겨퀸' 김연아(32)가 오는 10월 결혼한다. 김연아의 매니지먼트사인 올댓스포츠는 25일 "김연아가 10월 하순 서울 모처에서 성악가 고우림(27)과 화촉을 밝힌다" 

중국 텐센트가 한국 게임산업협회 이사사로 가입한 것을 두고 게임업계가 시끄럽다. 중국 게임 회사가 한국에서 자유롭게 활동하는 데 반해, 중국에서는 한국 게임사의 활약이 제약을 받는 것을 두고 설왕설래가 오간다. 무역 

'피겨퀸' 김연아가 오는 10월 결혼합니다. 김연아의 매니지먼트사 올댓스포츠는 오늘(25일) "김연아가 오는 10월 하순 서울 모처에서 성악가 고우림과 화촉을 밝힌다"라고 전했습니다. 고우림은 서울대 성악과를 졸업한 

이준석 국민의힘 대표에게 성상

## requests + BeautifulSoup

In [250]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.naver.com'
r = rq.get(url)

html = r.text
bs = BeautifulSoup(html, 'lxml')
bs

<!DOCTYPE html>
<html lang="ko">
<head>
<title id="browserTitleArea">네이버 뉴스</title>
<script>
	function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
</script>
<script>
	(function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
</script>
<script>
		var g_ssc = 'news.v3_media' || null;
		</script>
<meta charset="utf-8"/>
<meta content="width=device-width,initial-scale=1.0,maximum-sca

#### 과제 0725
기상청 육상 정보에서 강원도의 지역번호는 105이다. 강원도의 날씨 예보를 불필요한 공백을 제거한 후 출력하세요.

In [254]:
import warnings
warnings.filterwarnings('ignore')

from bs4 import BeautifulSoup
import urllib.request as req

url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp'

res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')

text = soup.select('강원도영서')
text

[]

#### 과제 0725
Q. "http://www.naver.com" 사이트에서 span 태그에 연결된 한글만을 불필요한 공백을 제거한 후 출력하세요.


In [88]:
import urllib.request as rq
import re

url = 'http://www.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')

text = bs.find_all('span')
text = str(text)
text

p = re.sub('[^가-힣]',' ',text)
p = re.sub(' +',' ',p)
p

' 뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드 네이버 쥬니어네이버 해피빈 검색 한글 입력기 자동완성 레이어 클래스를 추가해주세요 삭제 설정이 초기화 된다면 도움말 을 확인해주세요 설정이 초기화 된다면 도움말 을 확인해주세요 도움말 도움말 클래스를 추가해주세요 자동저장 끄기 클래스를 추가해주세요 자동저장 끄기 회차 당첨번호 추첨 지급기한 년 추첨 지급기한 년 원 원 날씨별 맑음 낮 맑음 밤 구름조금 낮 구름조금 밤 구름많음 낮 구름많음 밤 흐림 약한비 비 강한비 약한눈 눈 강한눈 진눈깨비 소나기 안개 소낙눈 번개뇌우 우박 황사 비또는눈 가끔비 가끔눈 가끔비또는눈 흐린후갬 뇌우후갬 비후갬 눈후갬 흐려져비 흐려져눈 날씨별 맑음 낮 맑음 밤 구름조금 낮 구름조금 밤 구름많음 낮 구름많음 밤 흐림 약한비 비 강한비 약한눈 눈 강한눈 진눈깨비 소나기 안개 소낙눈 번개뇌우 우박 황사 비또는눈 가끔비 가끔눈 가끔비또는눈 흐린후갬 뇌우후갬 비후갬 눈후갬 흐려져비 흐려져눈 바로가기 바로가기 추가 최근검색어 있으면 날짜 표시 추가 추가 클래스를 추가해주세요 클래스를 추가해주세요 자세히보기 도움말 신고 도움말 신고 클래스를 추가해주세요 자동완성 끄기 클래스를 추가해주세요 자동완성 끄기 쇼핑 쇼핑 최저기온 최고기온 이태원동 이태원동 리스트형 썸네일형 설정 이전 다음 닫기 닫기 이전 다음 닫기 닫기 이전 다음 다음 닫기 닫기 이전 다음 닫기 닫기 주제별로 분류된 다양한 글 모음 개의 글 이전 다음 개월 전 한경 한경 개월 전 문학수첩 문학수첩 개월 전 알에이치코리아 알에이치코리아 개월 전 동양북스 동양북스 개월 전 문예춘추사 문예춘추사 집계기간 제공 인터넷 교보문고 이전 다음 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위 위

#### 과제 0725
Q. "http://www.naver.com" 사이트에서 span 태그에 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 출력하세요.


In [184]:
import urllib.request as rq
import re

url = 'http://www.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')

text = bs.find_all('span')
text = str(text)
text

'[<span>뉴스스탠드 바로가기</span>, <span>주제별캐스트 바로가기</span>, <span>타임스퀘어 바로가기</span>, <span>쇼핑캐스트 바로가기</span>, <span>로그인 바로가기</span>, <span class="_1syGnXOL _3VkgqBXB" data-clk="dropbanner1a" style="padding-right: 20px; font-size: 17px; color: black"><span>매일 쓰는 브라우저 보안이 걱정된다면, </span><strong>안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요.</strong></span>, <span>매일 쓰는 브라우저 보안이 걱정된다면, </span>, <span style="background-color: #0436c7">다운로드</span>, <span class="blind">네이버</span>, <span class="blind">쥬니어네이버</span>, <span class="blind">해피빈</span>, <span class="blind">검색</span>, <span class="ico_search_submit"></span>, <span class="blind">한글 입력기</span>, <span class="ico_keyboard"></span>, <span class="blind">자동완성 레이어</span>, <span class="ico_arr"></span>, <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>, <span class="common_ico_kwd"><i class="imsc ico_search"></i></span>, <span>@txt@</span>, <span class="etc">\n<em class="date">@date@.</em>\n<!-- [AU] _del 

In [230]:
import urllib.request as rq
import re

url = 'http://www.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')

texts = bs.find_all('span')


result = []
for text in texts:
    result.append(text.get_text())
print(result)

['뉴스스탠드 바로가기', '주제별캐스트 바로가기', '타임스퀘어 바로가기', '쇼핑캐스트 바로가기', '로그인 바로가기', '매일 쓰는 브라우저 보안이 걱정된다면, 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요.', '매일 쓰는 브라우저 보안이 걱정된다면, ', '다운로드', '네이버', '쥬니어네이버', '해피빈', '검색', '', '한글 입력기', '', '자동완성 레이어', '', '@txt@', '', '@txt@', '\n@date@.\n\n삭제\n', '설정이 초기화 된다면 도움말을 확인해주세요.', '설정이 초기화 된다면 도움말을 확인해주세요.', '\n도움말\n', '도움말', '\n\n\n자동저장 끄기\n\n', '\n\n자동저장 끄기\n', '', '@5@회차 당첨번호', '\n추첨 @13@.지급기한 1년\n', '추첨 @13@.', '지급기한 1년', '\n\n@6@@7@@8@@9@@10@@11@@12@\n\n', '\n@6@@7@@8@@9@@10@@11@@12@\n', '@14@', '@txt@@currency@', '@currency@', '\n@8@(@9@%)\n', '@8@(@9@%)', '\n@6@원\n', '@6@원', '', '@txt@', '\n@7@, @message@\n', '@7@, @message@', '\n\n\n@7@\n@8@°\n\n', '\n\n@7@\n@8@°\n', '@7@', '', '@txt@', '\n@5@\n', '@5@', '\n바로가기\n', '바로가기', '@txt@', '', '\n추가\n', '@txt@', '', '\n\n@date@.\n추가\n', '@query@ @intend@', '', '@intend@', '\n추가\n', '', '\n\n\n\n자세히보기\n', '', '\n도움말\n신고\n', '도움말', '신고', '\n\n\n자동완성 끄기\n\n', '\n\n자동완성 끄기\n', '쇼핑', '쇼핑LIVE', '23.0°', '33.0°', '이태원동', '이태원동', 

In [231]:
result = str(result)
p = re.sub('[^\w]',' ',result)
p = re.sub('[n]',' ',p)
p = re.sub(' +',' ',p)
p

' 뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드 네이버 쥬니어네이버 해피빈 검색 한글 입력기 자동완성 레이어 txt txt date 삭제 설정이 초기화 된다면 도움말을 확인해주세요 설정이 초기화 된다면 도움말을 확인해주세요 도움말 도움말 자동저장 끄기 자동저장 끄기 5 회차 당첨번호 추첨 13 지급기한 1년 추첨 13 지급기한 1년 6 7 8 9 10 11 12 6 7 8 9 10 11 12 14 txt curre cy curre cy 8 9 8 9 6 원 6 원 txt 7 message 7 message 7 8 7 8 7 txt 5 5 바로가기 바로가기 txt 추가 txt date 추가 query i te d i te d 추가 자세히보기 도움말 신고 도움말 신고 자동완성 끄기 자동완성 끄기 쇼핑 쇼핑LIVE 23 0 33 0 이태원동 이태원동 리스트형 썸네일형 설정 이전 다음 닫기 닫기 이전 다음 닫기 닫기 이전 다음 다음 닫기 닫기 이전 다음 닫기 닫기 주제별로 분류된 다양한 글 모음 671 개의 글 이전 다음 아르마니 뷰티 아르마니 뷰티 네이버쇼핑 기획전 네이버쇼핑 기획전 1주일 전 의율 의율 1주일 전 횬블리 횬블리 2개월 전 민됴 민됴 1주일 전 메이쥬니 메이쥬니 재생 재생시간14 03 재생시간 1개월 전 디렉터파이 디렉터파이 재생 재생시간13 23 재생시간 3개월 전 디렉터파이 디렉터파이 재생 재생시간19 51 재생시간 4개월 전 디렉터파이 디렉터파이 2주일 전 뷰스타 포롱 뷰스타 포롱 3주일 전 쥬니 쥬니 1주일 전 비비쥬 비비쥬 1주일 전 하디미 하디미 재생 재생시간14 43 재생시간 6개월 전 디렉터파이 디렉터파이 재생 재생시간00 29 재생시간 5개월 전 갓신상 갓신상 재생 재생시간21 06 재생시간 5개월 전 디렉터파이 디렉터파이 2주일 전 최뮤즈 최뮤즈 

#### 과제 0725
Q. "http://www.naver.com" 사이트에서 a 태그에 id가 있는 경우에 대하여 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 한줄에 출력하세요.


In [235]:
import urllib.request as rq

url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')

text = bs.find_all('a',id=True)
text

[<a class="_2aeXMlrb BMgpjddw" data-clk="dropdownload1b" href="https://installer-whale.pstatic.net/downloads/banner/RydDy7/WhaleSetup.exe" id="NM_whale_download_btn"><span style="background-color: #0436c7">다운로드</span></a>,
 <a class="link_set" data-clk="top.mkhome" href="https://help.naver.com/support/welcomePage/guide.help" id="NM_set_home_btn">네이버를 시작페이지로</a>,
 <a class="btn_keyboard" href="#" id="ke_kbd_btn" onclick="return false;" role="button"><span class="blind">한글 입력기</span><span class="ico_keyboard"></span></a>,
 <a aria-pressed="false" class="btn_arw _btn_arw fold" data-atcmp-element="" href="#" id="nautocomplete" role="button" tabindex="2"><span class="blind">자동완성 레이어</span><span class="ico_arr"></span></a>,
 <a class="btn_set" data-clk="tca.like" href="#" id="NM_THEME_EDIT_SET" role="button">관심주제 설정</a>,
 <a class="content_top" href="#wrap" id="NM_scroll_top_btn"><span class="blind">TOP</span></a>]

In [236]:
result = []
for t in text:
    result.append(t.get_text())
print(result)

['다운로드', '네이버를 시작페이지로', '한글 입력기', '자동완성 레이어', '관심주제 설정', 'TOP']


In [237]:
result = ' '.join(result)
result

'다운로드 네이버를 시작페이지로 한글 입력기 자동완성 레이어 관심주제 설정 TOP'

#### 과제 0725
url = 'https://news.naver.com/' 사이트 p태크에서 class가 cjs_ht인 데이터를 한글만을 불필요한 공백을 제거한 후 
출력하세요.


In [168]:
import urllib.request as rq
url = 'https://news.naver.com/'

html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')

text = bs.find_all("p",{"class":"cjs_ht"})
text

[<p class="cjs_ht">
                         
                             
                             
                                 방송 모아보기 클릭 시<br/>해당 방송사 뉴스를 볼 수 있으며<br/><span class="comp_ico_live">LIVE</span> 표시가 된 경우 생중계로<br/>시청 가능합니다.
                             
                         
                     </p>]

In [169]:
text = str(text)
text =re.findall('[가-힣]+',text)
text = ' '.join(text)
text

'방송 모아보기 클릭 시 해당 방송사 뉴스를 볼 수 있으며 표시가 된 경우 생중계로 시청 가능합니다'