BeautifulSoup 모듈
- 홈페이지 내 데이터를 쉽게 추출할 수 있게 해주는 파이썬 외부 라이브러리
- 웹 문서 내 수많은 HTML 태그들을 parser를 활용해 사용하기 편한 파이썬 객체로 만들어 제공
- 웹 문서 구조를 알고 있다면 편하게 데이터를 뽑아 활용할 수 있음

기존방식과의 차이점
- 정규 표현식, 문자열 함수 등을 활용하여 홈페이지 텍스트 내 패턴을 분석하여 하나씩 원하는 데이터를 찾아가는 형식
- BS는 HTML 문서를 태그를 기반으로 구조화하여 태그로 원하는 데이터를 찾아가는 형식


In [3]:
html_doc = """
<html lang="en">
<head><title>crawl</title></head>
<body>
<p class="a" align="center"> text1</p>
<p class="b" align="center"> text2</p>
<p class="c" align="center"> text3</p>
<div><img src="/source" width="300" height="200"></div>
</body>
</html>
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

<html lang="en">
 <head>
  <title>
   crawl
  </title>
 </head>
 <body>
  <p align="center" class="a">
   text1
  </p>
  <p align="center" class="b">
   text2
  </p>
  <p align="center" class="c">
   text3
  </p>
  <div>
   <img height="200" src="/source" width="300"/>
  </div>
 </body>
</html>



In [7]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""
soup = BeautifulSoup(html, 'html.parser')
h1 = soup.html.body.h1
p1 = soup.html.body.p
# p2 = p1.next_sibling
p2 = p1.next_sibling.next_sibling

print(h1.string)
print(p1.string)
print(p2.string)

스크레이핑이란?
웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


find() : HTML의 해당 태그에 대한 첫 번째 정보를 가져옴
- find(속성='값') : HTML 해당 속성과 일치하는 값에 대한 첫 번째 정보를 가져옴

find_all() : 
- HTML의 해당 태그에 대한 모든 정보를 리스트 형식으로 가져옴. limit 옵션으로 개수 지정 가능
- CSS 속성으로 필터링(class_로 클래스를 직접 사용 혹은 attrs에서 속성 = 값으로 필터링)


In [10]:
html = """
<html><body>
  <h1 id='title'>스크레이핑이란?</h1>
  <p id='body'>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
title = soup.find(id='title')
body = soup.find(id='body')

print(title.string)
print(body.string)
print(title.text)
print(body.text)
print(body.get_text())

스크레이핑이란?
웹 페이지를 분석하는 것
스크레이핑이란?
웹 페이지를 분석하는 것
웹 페이지를 분석하는 것


In [14]:
# texts = soup.findAll('p')
texts = soup.find_all('p')
for t in texts:
    print(t.text)

웹 페이지를 분석하는 것
원하는 부분을 추출하는 것


In [16]:
# urlopen()과 BeautifulSoup의 조합
import warnings
warnings.filterwarnings('ignore')
from bs4 import BeautifulSoup
import urllib.request as req
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
title = soup.find('title').string
wf = soup.find('wf').string
print(title,'\n')
print(wf)

기상청 육상 중기예보 

○ (강수) 27일(수)은 수도권과 강원영서에 비가 오겠습니다. <br />○ (기온) 이번 예보기간 아침 기온은 22~25도, 낮 기온은 29~34도로 어제(21일, 아침최저기온 20~24도, 낮최고기온 23~32도)보다 높겠습니다.<br /><br />* 이번 예보기간 북태평양고기압의 발달 여부와 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며, 정체전선의 영향권에서 벗어난 지역에도 대기 불안정으로 소나기가 내릴 가능성이 있겠으니, 앞으로 발표되는 기상정보를 참고하기 바랍니다.


In [17]:
import requests
import re

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
data = requests.get(url).text
soup = BeautifulSoup(data,'html.parser')
wf = soup.find('wf').string
wf = re.sub('[^0-9가-힣]', ' ', wf)
wf

'   강수  27일 수 은 수도권과 강원영서에 비가 오겠습니다           기온  이번 예보기간 아침 기온은 22 25도  낮 기온은 29 34도로 어제 21일  아침최저기온 20 24도  낮최고기온 23 32도 보다 높겠습니다               이번 예보기간 북태평양고기압의 발달 여부와 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며  정체전선의 영향권에서 벗어난 지역에도 대기 불안정으로 소나기가 내릴 가능성이 있겠으니  앞으로 발표되는 기상정보를 참고하기 바랍니다 '

#### 과제0722_2
wf를 다시 정렬하여 불필요한 부분을 제거해서 아래와 같은 형식으로 출력하세요.

'(강수) 23일(토) 오후부터 24일(일) 오전 사이 전국에 비가 오겠고, 강원영동은 24일(일) 오후까지 이어지는 곳이 있겠습니다. 27일(수)은 수도권과 강원영서에 비가 오겠습니다.(기온) 이번 예보기간 아침 기온은 22~26도로 어제(19일, 아침최저기온 20~24도)보다 조금 높겠고, 낮 기온은 28~34도로 어제(낮최고기온 27~34도)와 비슷하겠습니다.(주말전망) 23일(토) 오후부터 24일(일) 오전 사이 전국에 비가 오겠고, 강원영동은 24일(일) 오후까지 이어지는 곳이 있겠습니다.


In [19]:
texts = soup.find_all('wf')
for t in texts:
    t = t.text
    t = re.sub('[^0-9가-힣]',' ', t)
    print(t,'\n')

   강수  27일 수 은 수도권과 강원영서에 비가 오겠습니다           기온  이번 예보기간 아침 기온은 22 25도  낮 기온은 29 34도로 어제 21일  아침최저기온 20 24도  낮최고기온 23 32도 보다 높겠습니다               이번 예보기간 북태평양고기압의 발달 여부와 정체전선의 위치에 따라 강수 구역이 변동될 수 있으며  정체전선의 영향권에서 벗어난 지역에도 대기 불안정으로 소나기가 내릴 가능성이 있겠으니  앞으로 발표되는 기상정보를 참고하기 바랍니다  

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

맑음 

구름많음 

구름많고 비 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많고 비 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

흐림 

흐림 

구름많음 

맑음 

구름많음 

구름많음 

구름많음 

구름많고 비 

구름많음 

구름많음 

구름많음 

구름많음 

구름많음 

흐림 

흐림 

구름많음 

구름많음 

흐림 

흐림 

구름많

In [32]:
req = requests.get('https://naver.com')
html = req.text
# print(html)

soup = BeautifulSoup(html,'html.parser')
# result = soup.find_all('span',class_='blind')[0]
# result = soup.find_all('span',class_="fix")
result = soup.find_all('span',attrs={'class':"fix"})
# result = soup.find_all('span')

result


[<span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span><span>@txt@</span></span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@txt@</span>,
 <span class="fix"><span class="common_ico_kwd"><i class="imsc ico_search"></i></span>@query@ <span class="context">@intend@</span></span>]

In [34]:
import re

req = requests.get('https://naver.com')
soup = BeautifulSoup(html,'html.parser')
print(soup.find_all(string='네이버'))
print(soup.find_all(string=re.compile('네이버')))

['네이버']
['네이버', '네이버를 시작페이지로', '쥬니어네이버', '언론사가 직접 편집한 뉴스들을 네이버 홈에서 바로 보실 수 있습니다.', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버스포츠', '네이버 멤버십으로 MLB 주요 경기 프리패스!', '네이버스포츠', 'PBA TOUR (네이버스포츠)', 'PBA TOUR (네이버스포츠)', '크보연구소_네이버스포츠', '크보연구소_네이버스포츠', '크보연구소_네이버스포츠', '네이버 개발자 센터', '네이버 D2', '네이버 D2SF', '네이버 랩스', '네이버 정책 및 약관', '네이버 정책']


select_one(), select()
- CSS 선택자를 활용하여 원하는 정보를 가져옴(태그를 검색하는 find, find_all과 비슷함)
- class는 ., id는 #로 표시


In [61]:
import urllib.request as req

url = "https://finance.naver.com/marketindex/"

res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
# price = soup.select_one('div.head_info > span.value').string
usd = soup.select_one('#exchangeList > li.on > a.head.usd > div > span.value').string

print('usd/krw =', usd)

usd/krw = 1,313.00


In [2]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>"""


In [3]:
!pip install lxml



In [5]:
from bs4 import BeautifulSoup

bs = BeautifulSoup(html_doc, 'html.parser') # lxml
print(bs.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [6]:
bs.title

<title>The Dormouse's story</title>

In [7]:
bs.title.name

'title'

In [8]:
bs.title.parent.name

'head'

In [9]:
bs.p

<p class="title"><b>The Dormouse's story</b></p>

In [10]:
bs.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [11]:
bs.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [12]:
bs.find(id='link3')

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [13]:
bs.a['class']

['sister']

In [14]:
for link in bs.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [15]:
bs.find_all()

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p></body></html>,
 <head><title>The Dormouse's story</title></head>,
 <title>The Dormouse's story</title>,
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 

In [16]:
bs.find_all('p')

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

#### string vs. get_text()
- get_text()를 이용하면 한방에 현재 HTML 문서의 모든 텍스트를 추출할 수 있습니다. 조금 더 정확히 표현하면 get_text() 메서드는 현재 태그를 포함하여 모든 하위 태그를 제거하고 유니코드 텍스트만 들어있는 문자열을 반환
- string의 경우 문자열이 없으면 None을 출력하지만, get_text()의 경우 유니코드 형식으로 텍스트까지 문자열로 반환하기 때문에  아무 정보도 출력되지 않는다.
- string 속성은 태그(tag) 내 문자열을 반환. get_text()를 사용하더라도 정확하게 문자열을 추출하기 위해서는 항상 마지막 태그에 메서드를 사용


In [20]:
bs = BeautifulSoup(html_doc, 'html.parser')
bs

<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p></body></html>

In [18]:
print(bs.string)

None


In [19]:
print(bs.get_text())

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...


In [22]:
print(bs.find('div').string)

None


In [23]:
print(bs.find('div').get_text())




In [25]:
print(bs.find('body').string)

None


In [27]:
bs.find('body').get_text()

"\n\nThe Dormouse's story\nOnce upon a time there were three little sisters; and their names were\nElsie,\nLacie and\nTillie;\nand they lived at the bottom of a well.\n..."

In [28]:
bs.a.string

'Elsie'

In [30]:
li = bs.find_all('p')
for i in li:
    print(i.string)

The Dormouse's story
None
...


In [31]:
for i in li:
    print(i.get_text())

The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...


#### urllib + bs

In [32]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
text = bs.find('p')
text = text.get_text()
text

'AiRS추천으로 구성된 뉴스를 제공합니다.'

In [36]:
bs.find('div').find('a').string

'메인 메뉴로 바로가기'

In [40]:
items = bs.find('div').find_all('a')
for item in items:
    print(item.get_text())

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리
정치
대통령실 
국회/정당 
북한 
행정 
국방/외교 
정치일반 


안내헤드라인 뉴스



권성동 "경찰 집단반발은 배부른 밥투정…대우조선 경영진 물러나야"
[속보] 권성동 "박두선 등 대우조선 경영진, 부실방만 책임지고 물러나야"
권성동 "대우조선 경영진, 방만 경영 책임지고 물러나야"
권성동 "대우조선 경영진, 방만 경영 책임지고 물러나야"
10개의 관련뉴스 더보기



우원식 "민주유공자법이 운동권 신분 세습법? 거짓 선동"
'셀프 보상 논란' 野 추진 '민주유공자법'…"박탈감 준다"는 혜택 뭐길래
우원식 "민주화유공자법, 박종철·이한열를 유공자로 인정해달라는 것"
여야, '민주유공자법' 공방…권성동 "운동권 신분 세습법" vs 우상호 "떡고물 바란 듯 몰아붙여"
19개의 관련뉴스 더보기



강승규 “‘치안본부’ 비판은 프레임…경찰국은 권한 견제용”
대통령실, 尹 지지율 하락세에 “새 정부 무엇 할지 자리매김하는 과정”
강승규 “경찰국 신설 ‘전두환식’ 비판은 프레임 공격”
대통령실 강승규 "왜 검사는 되고 경찰은 안되느냐? 성격이 달라서"
9개의 관련뉴스 더보기



나경원 "尹지지율 하락, 우리 반성부터…野공격 지나쳐"
나경원 “이준석, 늘 불안불안…조금 더 자숙해야”
나경원 "野 '탄핵' 언급 지나쳐…지지율 하락 원인은 與에 있어"
나경원 "이준석, 자숙하는 모습 보여야…나라면 그랬을 것"
9개의 관련뉴스 더보기



'전 장관' 박범계, '현 장관' 한동훈 집중타격 예고… "법치농단 하는 이유 묻겠다"



박범계 "한동훈, '법치농단'하는 이유 제대로 답변해야"
14개의 관련뉴스 더보기



이준석, 울릉도 입도…보수텃밭 TK 지지층 다지기



이준석은 장외정치 중...

#### 과제0725_1 
상기 출력물을 불필요한 공백없이 정렬하여 출력하세요.

In [47]:
items = bs.find('div',id='header').find_all('a')
for item in items:
    print(item.get_text())

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리


In [49]:
texts = bs.find_all('p')
for t in texts:
#     print(t.string)
    print(t.get_text())

AiRS추천으로 구성된 뉴스를 제공합니다.
오전 11시~오후 12시까지 집계한 결과입니다.
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.


In [51]:
import urllib.request as rq
import re
url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
bs = bs.text
# bs
p = re.sub('[^가-힣]',' ',bs)
p = re.sub('\s{2,}',' ',p)
p


' 네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 월 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 서울신문 월 일 구독 공식 김연아 세 연하 포레스텔라 고우림과 월 결혼 년 열애 피겨여왕 김연아 가 크로스오버 그룹 포레스텔라 멤버 고우림 과 월 결혼한다 고우림 소속사 비트인터렉티브 측은 일 공식 보도자료를 통해 고우림이 오는 월 김연아와 결혼식을 올린다 고 밝혔다 시사저널 월 일 구독 오르는 금리 떨어지는 집값 영끌족 상환 부담에 비상 영끌족 대출금리 월부터 원리금 만원 부담 전체 가계대출 중 세대 비중 대보다 높아 대출금리가 포인트나 올랐습니다 대 남성 씨는 년 경기 시사 월 일 구독 끝날 것 같았던 코로나 파도 얼마나 거세질까 썰물의 시간이 지나고 밀물의 시간이 돌아왔다 월 중순 하루 만명으로 정점을 찍은 뒤 줄어들던 신규 확진자가 주 만에 상승세를 나타냈다 기울기는 제법 가파르다 월 첫째 주 주간 일평균 확진자 수는 약 지디넷코리아 월 일 구독 일론 머스크 구글 창업자 세르게이 브린 아내와 불륜 일론 머스크 테슬라 최고경영자 가 친한 친구이던 세르게이 브린 구글 공동창업자의 아내와 불륜을 저질렀다고 월스트리트저널 이 일 현지시간 보도했다 보도에 따르면 세르게이 브린은 지난 월 아내 니 기자협회보 월 일 구독 전 노조위원장 조합비 억 횡령 전임 노조위원장이 억원대의 조합비를 횡령한 사실이 뒤늦게 드러났다 현 노조 집행부는 고소장을 제출하는 등 민형사상 책임을 묻는 작업에 착수했다 신호 전국언론노조 지부장은 일 사내 공지를 통해 새로보기 강원일보 월 일 구독 김건희 여사 팬클럽 건사랑 회장 강신업 변호사 이준석 성상납 의혹 기업인 변호 맡아 윤석열 대통령의 부인 김건희 여사의 팬클럽인 건사랑 회장 출신인 강신업 변호사가 국민의힘 이준석 대표에게 성상납을 한 의혹으로 경찰 조사를 받는 김성진 구속 수감 아

In [60]:
import urllib.request as rq
import re

url= 'https://news.naver.com'
html = rq.urlopen(url)
bs= BeautifulSoup(html,'lxml')
# bs = str(bs)
bs = bs.get_text()
result = re.findall('[가-힣]+',bs)
result = ' '.join(result)
result

'네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 월 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 아이뉴스 월 일 구독 김연아 고우림 월 결혼 년 열애 피겨여왕 김연아와 가수 고우림이 부부의 연을 맺는다 크로스오버 그룹 포레스텔라 멤버 고우림 소속사 비트인터렉티브 측은 일 고우림은 오는 월 피겨여왕 김연아와 결혼식을 올린다 며 공식 입장을 밝혔다 소 코리아중앙데일리 월 일 구독 디지털데일리 월 일 구독 페북 인스타하려면 개인정보 넘겨 메타 횡포에 이용자 시민단체 분노 페이스북 인스타그램을 운영하는 메타가 다음달 일 개인정보처리방침 및 이용약관을 업데이트한다 이에 따라 페이스북과 인스타그램 이용자는 개인정보 수집 이용 등에 대해 동의하지 않으면 서비스를 이 이코노미스트 월 일 구독 사업성 성공 가능성 그럼에도 코로나 치료제 도전 계속된다 기로에 선 바이오 코로나 변이 확산세가 가속화하고 있다 월 들어서면서 오미크론 변이인 로 인해 월 일 하루 전국에서 만 여 명의 확진자가 나왔다 일주일 전보다 약 배로 늘어났다 월 일까지만 해도 더팩트 월 일 구독 인터뷰 박지현 이재명 팬덤 예쁨 받으려 애교 문제 있어 박지현은 은수저 담글수록 민주당 독 드러난다 이재명 당선 월 일엔 승리의 밤이 왔으면 좋겠다 지난 월 일 더팩트 와 인터뷰했던 이재명의 영입 인재 박지현은 간절했다 윤석열 국민의 새로보기 한겨레 월 일 구독 윤 대통령 지지율 대로 경고한 대 급락 리얼미터 윤석열 대통령의 국정수행 지지율 긍정 평가 이 주째 대에서 답보하고 있다 이런 가운데 윤 대통령에 대한 대의 긍정 평가는 대까지 하락한 것으로 나타났다 리얼미터가 지난 일 성인 강원일보 월 일 구독 김건희 여사 팬클럽 건사랑 회장 강신업 변호사 이준석 성상납 의혹 기업인 변호 맡아 윤석열 대통령의 부인 김건희 여사의 팬클럽인 건사랑 회장 출신인 강신업 변호사가

In [64]:
import urllib.request as rq
import re

url= 'https://news.naver.com'
html = rq.urlopen(url)
bs= BeautifulSoup(html,'lxml')
texts = bs.find_all('p')
for t in texts:
#     print(t.string,'\n')
    print(t.get_text(),'\n')

포레스텔라 고우림(왼쪽, SNS), 김연아(뉴스1 DB) © 뉴스1(서울=뉴스1) 고승아 기자 = 전 피겨스케이팅 국가대표 선수 김연아(32)와 그룹 포레스텔라 멤버 팝페라 가수 고우림(27)이 깜짝 결혼 소식을 알렸다.고우림 소속사 비트인터렉티브는 25일 공식입장을 내고 "고우림은 오는 10월 김연아와 결혼식을... 

'피겨 여왕' 김연아(32)가 그룹 포레스텔라 멤버 팝페라 가수 고우림(27)과 결혼한다. 25일 김연아의 매니지먼트사 올댓스포츠는 "김연아가 오는 10월 하순 서울 모처에서 성악가 고우림과 화촉을 밝힌다"고 밝혔다 

피겨여왕 김연아와 가수 고우림이 부부의 연을 맺는다. 크로스오버 그룹 포레스텔라 멤버 고우림 소속사 비트인터렉티브 측은 25일 "고우림은 오는 10월 '피겨여왕' 김연아와 결혼식을 올린다"며 공식 입장을 밝혔다. 소 

'피겨퀸' 김연아가 오는 10월 결혼합니다. 김연아의 매니지먼트사 올댓스포츠는 오늘(25일) "김연아가 오는 10월 하순 서울 모처에서 성악가 고우림과 화촉을 밝힌다"라고 전했습니다. 고우림은 서울대 성악과를 졸업한 

1000원 미만 초저가 마트 즉석밥도 인기 퇴근하고 집에 와서 배가 고픈데 밥솥에 밥이 똑 떨어졌을 때 부엌 ‘상비군’ 즉석밥을 찾는 사람이 적잖을 것이다. 코로나19에 감염돼 집에서 자가격리를 해야 했을 때도 즉석 

“에너지 문제는 복잡하지만 더 지속 가능한 길이 있을 겁니다. 단기적으론 석탄이 경제적이어도 장기적으로 사회가 감당 가능하고 적절한 에너지 생산 방법이 있습니다. 사회에 더 이익이 가는 방향으로 가야 합니다.” 20 

한국사회에서 함께 살아가고 있지만 차별과 배제를 일상적으로 겪는 이주민 2세대가 있다. 본인 또는 부모가 외국으로부터 이주한 경험이 있는 ‘이주배경 청년’이다. 여기서 ‘이주’란 중국, 베트남, 몽골, 러시아 등 외 

다섯 살 많은 연상연하 커플 2018년 아이스쇼서 처음 만나 3년간 교제끝 부부의 연 맺어 데이트 사진 공개직후 ‘발표’ 피겨여왕 김연아(32·왼

requests + bs

In [66]:
from bs4 import BeautifulSoup
import requests as rq

url = 'https://news.naver.com'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')
text = bs.find('p').get_text()
text

'2018년 아이스쇼에서 첫 만남…비공개 결혼식 \'피겨퀸\' 김연아(32)가 오는 10월 결혼한다. 김연아의 매니지먼트사인 올댓스포츠는 25일 "김연아가 10월 하순 서울 모처에서 성악가 고우림(27)과 화촉을 밝힌다"'

#### 과제0725_2
기상청 육상 정보에서 강원도의 지역번호는 105이다. 강원도의 날씨 예보를 불필요한 공백을 제거한 후 출력하세요.

#### 과제0725_3
"http://www.naver.com" 사이트에서 span 태그에 연결된 한글만을 불필요한 공백을 제거한 후 출력하세요.


#### 과제0725_4
"http://www.naver.com" 사이트에서 span 태그에 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 출력하세요.


#### 과제0725_5
"http://www.naver.com" 사이트에서 a 태그에 id가 있는 경우에 대하여 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 한줄에 출력하세요.


#### 과제0725_6
url = 'https://news.naver.com/' 사이트 p태크에서 class가 cjs_ht인 데이터를 한글만을 불필요한 공백을 제거한 후 출력하세요.
