Beautiful Soup Documentation
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [1]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [2]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')

soup

<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

In [3]:
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [4]:
soup.title

<title>The Dormouse's story</title>

In [5]:
soup.title.name

'title'

In [6]:
soup.title.parent.name

'head'

In [7]:
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [8]:
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [9]:
soup.find('a')

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [10]:
soup.a['class']

['sister']

In [11]:
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [12]:
soup.find_all(class_='sister')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [13]:
soup.find(id = 'link3')

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [14]:
soup.p['class']

['title']

In [15]:
soup.find(class_='title')

<p class="title"><b>The Dormouse's story</b></p>

In [16]:
soup.find_all('p')

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [17]:
for link in soup.find_all('a') :
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [18]:
soup.find_all()

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>,
 <head><title>The Dormouse's story</title></head>,
 <title>The Dormouse's story</title>,
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;

#### string vs. get_text() vs. text
- BeautifulSoup 객체에서 text 속성, get_text() 메서드, string 속성은 모두 HTML 또는 XML 문서에서 텍스트 데이터를 추출하는 데 사용
- text 속성은 해당 태그에서 모든 텍스트 데이터를 가져오며, 
- get_text() 메서드도 동일한 결과를 반환합니다. 
- string 속성은 해당 태그에서 첫 번째로 발견된 문자열 데이터만 가져옵니다.

In [19]:
html = '''
<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>        
</body>
</html>
'''

In [20]:
soup = BeautifulSoup(html, 'html.parser')

print(soup.prettify())

<html>
 <body>
  <div>
   Hello,world!
  </div>
  <div>
   <p>
    Hello,
    <b>
     world!
    </b>
   </p>
  </div>
 </body>
</html>



In [21]:
print(soup.div.text)


Hello,world!



In [22]:
print(soup.div.get_text())


Hello,world!



In [23]:
print(soup.div.string)


Hello,world!



In [24]:
# text 속성

print(soup.p.text)


Hello,world!



In [25]:
# get_text()

print(soup.p.get_text())


Hello,world!



In [26]:
# string

print(soup.p.string)
print(soup.p.b.string)

None
world!


In [27]:
soup.b.string

'world!'

In [38]:
# body에 있는 모든 text

import re

bs = soup.body.text

print(bs)



Hello,world!



Hello,world!





In [29]:
# 정규 표현식을 사용하셩 아래와 같이 출력

# Hello,world!
# Hello,world!

bs = re.findall(r'[^\s]+', bs)

for t in bs :
    print(t)

Hello,world!
Hello,world!


In [36]:
bs = re.findall(r'[^\s]+', bs)

for t in bs :
    print(t, end = ' ')

Hello,world! Hello,world! 

In [39]:
bs = re.findall('.+', bs)
bs = ' '.join(bs)

print(bs)

Hello,world! Hello,world!


In [40]:
for t in bs :
    re.sub(r'\n', '', bs)
    print(t, end = '')

Hello,world! Hello,world!

In [41]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [54]:
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [52]:
soup = str(soup)
print(soup, type(soup))

<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html> <class 'str'>


In [50]:
# 영어만 출력

p = re.findall('[a-zA-Z]+', soup)

m = ' '.join(p)

m

'html head title The Dormouse s story title head body div div p class title b The Dormouse s story b p p class story Once upon a time there were three little sisters and their names were a class sister href http example com elsie id link Elsie a a class sister href http example com lacie id link Lacie a and a class sister href http example com tillie id link Tillie a and they lived at the bottom of a well p p class story p body html'

In [55]:
print(soup.get_text())

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [56]:
text = soup.find_all('body')

li = ''

for t in text :
    li += t.text
    
li

"\n\nThe Dormouse's story\nOnce upon a time there were three little sisters; and their names were\nElsie,\nLacie and\nTillie;\nand they lived at the bottom of a well.\n...\n"

In [57]:
# 개행을 정규표현식으로 제거

text = re.findall('\S+', soup.text)

for t in text :
    print(t, end = ' ')

The Dormouse's story The Dormouse's story Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well. ... 

In [58]:
soup.title

<title>The Dormouse's story</title>

In [59]:
print(soup.title.string)

The Dormouse's story


#### html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.

In [60]:
import urllib

url = 'http://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html = urllib.request.urlopen(url)
bs = BeautifulSoup(html, 'lxml')

print(bs)

<!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=1106" name="viewport"/>
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" name="twitt

In [61]:
text1 = bs.find('p')
print(text1, '\n')

text2 = bs.find('p').string
print(text2, '\n')

text3 = bs.find('p').get_text()
print(text3)

<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p> 

None 

AiRS추천으로 구성된 뉴스를 제공합니다.


In [62]:
text = bs.find_all('p')

for t in text :
    print(t.text)

AiRS추천으로 구성된 뉴스를 제공합니다.
오전 7시~오전 8시까지 집계한 결과입니다.
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.


bs4에서 headers는

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

- HTTP 요청을 보낼 때 요청 헤더를 설정하는 데 사용됩니다. 
- 일반적으로 웹 사이트에서 데이터를 스크래핑하려면, 해당 웹 사이트에서 HTTP 요청을 받을 때 자신이 웹 브라우저인 것처럼 보이도록 요청 헤더를 설정해야 합니다. 
- 이를 통해 웹 사이트는 봇이나 크롤러와 같은 자동화된 스크래핑 도구에서 요청을 보내는 것으로 인식하는 것을 방지할 수 있습니다.

In [63]:
import chardet
import requests

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = 'http://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

data = requests.get(url, headers = headers)

if data.status_code == 200:
    encoding = chardet.detect(data.content)['encoding']
    print(data.content.decode(encoding)) # 웹사이트의 html 코드를 포함하는 이진 데이터를 반환
#     print(data.text) # 웹사이트의 html 코드를 문자열 형태로 반환
    
else :
    print('Http request failed.')





<!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="euc-kr">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="referrer" contents="always">
<meta http-equiv="refresh" content="600" />
<meta name="viewport" content="width=1106" />

    
    
        
            
                
                    
                    
                    
                    
                        
	                        
		                        
		                        
		                        
		                    
		                    
		                    
		                    
		                    
		                    
		                    
		                
                    
                    
                
            
            
            
            
            
        
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    

<meta property="og:t

In [64]:
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = 'http://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

data = requests.get(url, headers = headers)

if data.status_code == 200:
    encoding = chardet.detect(data.content)['encoding']
#     print(data.content.decode(encoding))

ko = ' '.join(re.findall('[가-힣]+', data.text))

print(ko)

정치 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 네이버 정치 네이버 뉴스 네이버 뉴스 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 정치 홈 네이버 뉴스 광고적용 태그 추가 메인 메뉴로 바로가기 본문으로 바로가기 검색 뉴스 연예 스포츠 날씨 프리미엄 언론사별 정치 선택됨 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 전체 언론사 뉴스스탠드 뉴스스탠드 라이브러리 라이브러리 화 전체 언론사 전체 언론사 뉴스스탠드 뉴스스탠드 라이브러리 라이브러리 기사목록 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 언론사 구독하기 네이버 프리미엄콘텐츠 안내 헤드라인 뉴스 헤드라인 뉴스와 각 기사묶음 타이틀은 기사 내용을 기반으로 자동 추출 됩니다 닫기 맞벌이 학부모 위한 주 일제 검토한다는 민주당 번째 노동절을 맞은 일 더불어민주당 지도부는 학부모를 위한 주 일제 를 적극적으로 검토하겠다는 뜻을 밝혔다 더불어민주당 박광온 원내대표는 일 서울신문 머니투데이 박광온 정부 사람 중심 으로 국정운영해야 주 일제 추진할 것 서울경제 박광온 일하는 국민에 희망을 학부모 주 일제 적극 검토 박광온 사람 중심 국정 운영해야 학부모 주 일제 적극 검토 개의 관련뉴스 더보기 보증금 억 천만원까지 전세사기 특별법 적용 정부 수정안 제시 정부가 전세사기 특별법 적용 대상을 보증금 억 천만원까지 높이는 수정 의견을 국회에 제출했다 특별법 제정안에 담긴 국토교통부 장관이 정한 기준 이란 한겨레 피해자 요건 이견 전세사기특별법 소위 처리 불발 파이낸셜뉴스 국토위 전세사기특별법 심사 채권매입 지원대상 두고 이견차 머니투데이 국토위 전세사기 특별법 합의 불발 피해자 요건 두고 이견 개의 관련뉴스 더보기 조태용 국가안보실장 한 미 핵억제 동맹 업그레이드 핵공유 논란에는 표현상 오해 조태용 국가안보실장 사진 은 일 한 미 정상회담 성과와 관련해 한 미 동맹이 재래식 군사력을 기초로 한 동맹이 아니라 핵억제 동맹으로 업그레이드됐다 경향신문 뉴시스 

In [65]:
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = 'http://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

data = requests.get(url, headers = headers)

soup = BeautifulSoup(data.text, 'lxml')

ko = ' '.join(re.findall('[가-힣]+', soup.get_text()))

print(ko)

정치 홈 네이버 뉴스 메인 메뉴로 바로가기 본문으로 바로가기 검색 뉴스 연예 스포츠 날씨 프리미엄 언론사별 정치 선택됨 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 화 전체 언론사 뉴스스탠드 라이브러리 기사목록 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 안내헤드라인 뉴스 헤드라인 뉴스와 각 기사묶음 타이틀은 기사 내용을 기반으로 자동 추출됩니다 닫기 국토부 전세사기 특별법 수정안 제시 보증금 채권 매입은 여전히 반대 국토교통부가 전세사기 피해지원 특별법 적용 기준을 넓힌 수정안을 국회에 제시했다 수정안에는 임차주택의 보증금과 면적 요건을 완화하고 경 공매가 개시되 경향신문 부산일보 전세사기 피해자 요건 까다롭다 국회 국토위 소위 특별법 처리 불발 머니투데이 피해자 두 번 죽이는 법 정부 여당 전세사기 특별법 반대 파이낸셜뉴스 보증금 채권 매입 피해자 자격 이견 일 처리 힘들듯 전세사기 특별법 험로 예고 개의 관련뉴스 더보기 한미동맹 청년 미래세대에 기회의 플랫폼 돼야 종합 윤석열 대통령은 일 조 바이든 미국 대통령과의 정상회담을 통해 한미동맹이 포괄적으로 강화했다고 평가하면서 무엇보다 청년 미래 세대에게 기회의 플랫폼이 뉴스 중앙일보 윤 대통령 한 미 동맹 미래 세대에 기회의 플랫폼 돼야 서울경제 확장된 한미동맹 청년에 기회의 플랫폼 돼야 헤럴드경제 속보 대통령 업그레이드 된 한미동맹 미래 세대에 기회의 플랫폼 돼야 개의 관련뉴스 더보기 박광온 원내대표단 비명계로 대거 채웠다 박광온 더불어민주당 원내대표가 신임 원내수석부대표에 계파색이 옅은 재선의 송기헌 의원을 임명했다 다만 년 전당대회 돈봉투 의혹에 연루된 윤관석 서울신문 중앙일보 박광온 민주 신임 원내대표단 구성 원내수석에 송기헌 중앙일보 박광온 대의원제 폐지 돈봉투 해법 아니다 친명계와 시각차 이데일리 친명일색 지도부에 친낙 인자 박광온 등장 이재명 의 행방은 개의 관련뉴스 더보기 윤석열 대통령 진정한 노동약자 보호위해 노사 법치주의 확립

In [66]:
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

url = 'http://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

data = requests.get(url, headers = headers)

soup = BeautifulSoup(data.text, 'lxml')

div_h = soup.find('div', id = 'header')

print(div_h)

<div class="header" id="header">
<div id="u_skip">
<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>
<a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>
</div>
<div class="snb_area">
<div class="snb_inner">
<div class="gnb_area">
<div class="gnb_wrap">
<div class="gnb_dark_type2" id="gnb"></div>
</div>
<div class="gnb_search is_hidden _search_content">
</div>
<div class="gnb_tool" id="gnb_search_tool">
<a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>
</div>
</div>
<div id="snb_wrap">
<h1>
<a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>
<a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>
</h1>
<ul class="snb_related_service">
<li><span class="snb_bdr"></span><a class="entertain nclicks(gnb.enter)" href="https://entertain.naver.com/home">TV연예</a></li>
<li><span class="snb_bdr"></span><a class="sports nclicks(gn

In [67]:
div_menu = soup.div.find('span')

print(div_menu.text)

메인 메뉴로 바로가기


In [68]:
div_menu = soup.div.find('a', href = "#lnb").find('span').text

print(div_menu)

메인 메뉴로 바로가기


In [69]:
lists = soup.find('div', id = True).find_all('a')

for i in lists :
    print(i.text)

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리
정치
대통령실 
국회/정당 
북한 
행정 
국방/외교 
정치일반 


안내헤드라인 뉴스



與 윤리위, 다음달 1일 첫 회의…김재원·태영호 운명은
與 윤리위, '설화' 김재원·태영호 징계 절차 개시
野 돈봉투 의혹에 차별화 나선 與, 오늘 첫 윤리위가 시험대
국민의힘, 김재원·태영호 징계 절차 개시…다음 주 징계 유력
98개의 관련뉴스 더보기



박진 "尹방미는 특정국 겨냥 아냐…中, 과잉대응할 필요없어"
박진 "전술핵 재배치 비현실적…한미 NCG 신설로 실효성 강화"
박진 외교장관 “전술핵 재배치, 비현실적…비핵화 어긋나”
박진 "방미 특정국 겨냥한 것 아니다…中, 과잉대응할 필요없어"
13개의 관련뉴스 더보기
박광온 “학부모 위한 주 4일제 검토할 것”
민주당 “맞벌이 부부 위해 ‘주 4일제’ 적극 검토”
민주당 박광온 "초등생 맞벌이 부모 주 4일제 추진"
박광온 "초등 자녀 키우는 맞벌이 부부 위한 주4일제 적극 검토"
25개의 관련뉴스 더보기



與, 청년정책네트워크 출범…1호 정책 '누구나 토익 5년'
김기현 "당에 아픈 손가락 청년 문제…청년정책 컨트롤타워 되길"
국민의힘 청년정책네트워크 출범…"1호 정책은 토익 유효기간 연장"
“청년문제는 아픈 손가락”... 김기현 대표가 위원장 ‘청년정책네트워크’ 출범
27개의 관련뉴스 더보기
감사원 "KBS 경영진, 중대한 위법 사실 발견 안 돼"



감사원 "KBS사장, 정당 가입 이력 없어…중대한 위법 사실 없다"
23개의 관련뉴스 더보기



박광온 원내대표 ‘쇄신’ 강조… 돈봉투 대처, 위기관리 시험대



민주당 원내수석에 '비명계' 송기헌 임명
63개의 관련뉴스 더보기


동영상기사

윤대통령 "한미정상회담, 청년미래세대

In [70]:
div_id = soup.find('div', id = True)

print(div_id)

<div id="wrap">
<!-- 광고적용 태그 추가 -->
<div id="da_base"></div>
<div id="da_stake"></div>
<div class="header" id="header">
<div id="u_skip">
<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>
<a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>
</div>
<div class="snb_area">
<div class="snb_inner">
<div class="gnb_area">
<div class="gnb_wrap">
<div class="gnb_dark_type2" id="gnb"></div>
</div>
<div class="gnb_search is_hidden _search_content">
</div>
<div class="gnb_tool" id="gnb_search_tool">
<a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>
</div>
</div>
<div id="snb_wrap">
<h1>
<a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>
<a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>
</h1>
<ul class="snb_related_service">
<li><span class="snb_bdr"></span><a class="entertain nclicks(gnb.enter)" href="https://entertain.nav

In [71]:
url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

data = urllib.request.urlopen(url)

soup = BeautifulSoup(data, 'lxml')

text = soup.find_all('p')

print(text)

[<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p>, <p class="section_sub_txt">오전 7시~오전 8시까지 집계한 결과입니다.</p>, <p class="copyright">본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.</p>]


In [72]:
for t in text :
    t = t.get_text()
    
    print(t, '\n')

AiRS추천으로 구성된 뉴스를 제공합니다. 

오전 7시~오전 8시까지 집계한 결과입니다. 

본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다. 



In [73]:
url = 'https://news.naver.com'

data = urllib.request.urlopen(url)

soup = BeautifulSoup(data, 'lxml')

text = soup.find_all('p')

for t in text :
    
    print(t.string)

이건산업이 알짜 사업 및 자회사를 이건창호에 몰아준 이유 박승준 사장 등이 법인 손해만큼 시세차익 거둬 논란 예상 이건그룹이 최근 2세 경영 체제로의 전환을 서두르고 있다. 지주회사인 이건홀딩스는 3월29일 주주총회
■ JTBC 뉴스룸이 단독 보도한 '주가조작 의혹' 녹취파일 등의 저작권은 JTBC에 있습니다. 인용보도시 'JTBC 뉴스룸' 출처를 분명하게 인식할 수 있는 크기로 표기해 사용해주시기 바랍니다. 주가조작단은 자신들
다우데이타·서울가스 회장, 매도 직전 블록딜로 수백억원 챙겨 “오너일가, 분기별로 계열사 주가 동향 보고받아...이상 반응 인지 가능” 일각선 “내 재산 수백억 왔다 갔다 하는 데 배경 안 찾아본다고? 말 안된다” 
방탄소년단(BTS) 멤버 슈가가 최근 첫 번째 솔로 월드투어에서 팬들에게 삼성전자 갤럭시 휴대전화로만 ‘셀카’ 촬영을 해주겠다며 깜짝 이벤트를 진행했다. 슈가는 삼성전자 갤럭시 스마트폰의 광고 모델로 활동 중이다. 
요즘 4대강 사업의 주역들이 부쩍 대중 앞에 자주 등장하고 있다. 이명박 전 대통령(이하 존칭 생략)은 며칠 전 측근 유인촌의 연극을 관람했고 앞으로 4대강도 방문할 예정이라고 한다. 4대강 추진본부장이었던 심명필은
'더불어민주당 전당대회 돈봉투 의혹' 피의자로 입건된 송영길 전 대표가 현시점에서 조사가 어렵다는 검찰 측의 입장에도 2일 자진 출두를 강행할 예정이다. 송 전 대표는 이날 오전 10시 서울중앙지방검찰청에 출두하고 
내년에 적용될 최저임금 수준을 결정하기 위한 최저임금위원회 제1차 전원회의가 오늘(2일) 오후 3시 정부세종청사에서 열린다. 첫 전원회의는 당초 지난달 18일 열릴 예정이었지만, 노동계 인사들이 공익위원 간사인 권순
핵심요약 당시 정 변호사 아들 학폭 담당 과장, 현 강원도교육청 고위직 재직 중 국회 "징계위원회 명단에 없어 몰랐다. 상황 다시 살펴 볼 것" 당사자 "정 변호사 아들 관련 사안 기억나지 않는다" 정순신 변호사(전
1일 오전 대구축산물도매시장과 붙어 있는 대구도축장 계류장

In [74]:
url = 'https://news.naver.com'

data = urllib.request.urlopen(url)

soup = BeautifulSoup(data, 'lxml')

text = soup.find_all('p') # 태그가 포함된 문자열 리스트
text = [t.get_text() for t in text] # 태그 제외한 문자만 추출
text = ' '.join(text) # 문자열로 변환 
text = re.findall('[가-힣]+', text) # 정규표현식으로 리스트  
text = ' '.join(text)  

print(text)

질병관리청 의심증상 신고자의 개인정보는 보호되고 있으므로 적극적인 신고 당부 모르는 사람과의 밀접접촉을 피하고 의심증상이 있을 경우 타인과의 접촉 삼가 질병관리청 청장 지영미 은 국내 번째 엠폭스 확진환 길가던 대 부부가 음주 운전 차량에 치여 한 명이 숨졌습니다 오늘 일 오후 시쯤 완주군 봉동읍 한 도로에서 갓길을 걷던 대 부부가 음주 상태인 대가 몰던 승용차에 치여 부인이 숨졌습니다 경찰은 붙 중국에서 대 아들의 도박빚을 갚기 위해 수년간 회삿돈 만 위안 약 억 만원 을 횡령한 대 여성이 경찰에 덜미를 잡혔다 일 현지시간 홍콩의 사우스차이나모닝포스트 에 따르면 회계사인 살을 빼려고 식사량을 줄이고 열심히 걷기 운동을 하는 사람이 있다 먹는 양을 갑자기 줄이고 한 시간 동안 걷는 데도 늘어난 체중은 변하지 않는다 다이어트 방법이 잘못된 것일까 덜 먹고 운동하는 데도 살이 안 북한 해커조직 김수키 가 윈도 도움말 파일로 위장한 악성코드를 유포하고 있어 주의가 요구된다고 보안업체 안랩이 밝혔습니다 김수키는 윈도 도움말 파일인 형식으로 된 악성코드를 이메일로 유포해 이용자 정보를 만 원권 지폐 사용과 신용카드 모바일 결제가 보편화하면서 만 권 수표 사용이 급격히 줄었다는 금융권 분석 결과가 나왔다 한국은행과 금융결제원은 지난해 만 원권 자기앞수표 이용건수가 하루 평균 만 건으 요즘 대강 사업의 주역들이 부쩍 대중 앞에 자주 등장하고 있다 이명박 전 대통령 이하 존칭 생략 은 며칠 전 측근 유인촌의 연극을 관람했고 앞으로 대강도 방문할 예정이라고 한다 대강 추진본부장이었던 심명필은 인스타그램엔 하루에 천 만 장의 사진이 올라온다 이중 상당수는 자신의 모습이 담긴 셀카다 사람들은 왜 셀카를 찍을까 흔히 생각하는 바와는 달리 자신을 과시하고 싶어 셀카를 찍는 것만은 아니라는 연구 결과 한복도 김치도 중국 문화라며 억지 주장을 펼치는 중국의 누리꾼들 이번에는 한옥까지 자기네 것이라고 주장하고 있습니다 정부가 문화유산을 활용한 게임과 메타버스 창작을 지원하기 위해서 무료로

In [75]:
# requests
from bs4 import BeautifulSoup
import requests
import re
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=105"
res = requests.get(url).text
soup = BeautifulSoup(res,'lxml')
wf = soup.find('wf').text
text = ''.join(re.findall('[^A-Z0-9]?[0-9가-힣]+[^A-Z0-9]?',wf))
text



'(강수) 5일(금)은 강원도에 비가 내리겠으며, 강원영동은 6일(토) 오전까지 이어지겠습니다.(기온) 5일(금)~7일(일) 아침 기온은 6~17도로 평년(최저기온 6~12도)과 비슷하거나 조금 높겠고, 낮 기온은 13~22도로 평년(최고기온 17~25도)보다 조금 낮겠습니다. 8일(월)~12일(금) 아침 기온은 3~15도로 평년(최저기온 6~12도)과 비슷하거나 조금 낮겠고, 낮 기온은 16~24도로 평년(최고기온 17~24도)과 비슷하겠습니다.(해상) 동해중부해상의 물결은 5일(금)~6일(토)은 1.0~3.0m로 높게 일겠습니다.(주말전망) 6일(토)~7일(일)은 대체로 흐리겠으나, 6일(토) 오전에 강원영동은 비가 내리겠습니다. 아침 기온은 6~15도, 낮 기온은 13~21도가 되겠습니다. 6일(토)은 저기압의 위치와 이동 속도에 따라 강수 구역이 변경될 가능성이 있으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.'

In [76]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

values = {
    'stnld' : '109' # 서울 109 강원도 105
}

params = urllib.parse.urlencode(values)

url = url + '?' + params
print('url = ', url)

res = urllib.request.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
wf = soup.find('wf').string
text = ''.join(re.findall('[^A-Z0-9]?[0-9가-힣]+[^A-Z0-9]?', wf))

text

url =  http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnld=109


'(강수) 5일(금)은 전국 비, 6일(토) 오전은 강원영동과 경상권, 제주도에 비가 오겠습니다.(기온) 5일(금)~6일(토) 아침 기온은 14~19도로 평년(최저기온 9~14도)보다 높겠고, 7일(일)~12일(금) 아침 기온은 8~15도로 평년과 비슷하겠습니다. 낮 기온은 18~25도로 평년(최고기온 20~25도)과 비슷하겠습니다.(주말전망) 6일(토) 전국이 대체로 흐리고 오전에 강원영동과 경상권, 제주도에 비가 오겠습니다. 7일(일)은 전국이 구름많겠습니다. 아침 기온은 11~18도, 낮 기온은 18~22도가 되겠습니다. 6일(토)은 저기압의 위치와 이동 속도에 따라 강수 구역이 변경될 가능성이 있으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.'

In [77]:
url = 'http://www.naver.com'

data = requests.get(url)
data = data.text

bs = BeautifulSoup(data, 'lxml')

print(bs.find_all('p'))

[<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>, <p class="dsc">ON/OFF 설정은<br/>해당기기(브라우저)에 저장됩니다.</p>, <p class="dsc"><em class="txt">동일한 시간대/연령/남녀별</em> 사용자 그룹의<br/>관심사에 맞춰 자동완성을 제공합니다.</p>, <p class="popup_msg">해당 언론사 사정으로 접근이 제한됩니다.</p>, <p class="popup_msg"><strong class="NM_NEWSSTAND_POPUP_PNAME"></strong>을(를)<br/>구독해지 하시겠습니까?</p>, <p class="toast_msg">구독한 언론사에 추가되었습니다.</p>, <p class="popup_msg">해당 언론사 사정으로 접근이 제한됩니다.</p>, <p class="popup_msg"><strong class="NM_NEWSSTAND_POPUP_PNAME"></strong>을(를)<br/>구독해지 하시겠습니까?</p>, <p class="toast_msg">구독한 언론사에 추가되었습니다.</p>, <p class="popup_msg">해당 언론사 사정으로 접근이 일시 제한됩니다.</p>, <p class="popup_msg"><strong class="NM_NEWSSTAND_POPUP_PNAME"></strong>을(를)<br/>구독해지 하시겠습니까?</p>, <p class="popup_msg">해당 언론사 사정으로 접근이 제한됩니다.</p>, <p class="popup_msg"><strong class="NM_NEWSSTAND_POPUP_PNAME"></strong>을(를)<br/>구독해지 하시겠습니까?</p>, <p class="dsc_msg">언론사 구독 설정에서 관심있는 언론사를 구독하시면<br/>언론사가 직접 편집한 뉴스들을 네이버 홈에서 바로 보실 수 있

In [78]:
url = 'http://www.naver.com'

data = urllib.request.urlopen(url)

bs = BeautifulSoup(data, 'lxml')

print(bs.find_all('p'))

[<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>, <p class="dsc">ON/OFF 설정은<br/>해당기기(브라우저)에 저장됩니다.</p>, <p class="dsc"><em class="txt">동일한 시간대/연령/남녀별</em> 사용자 그룹의<br/>관심사에 맞춰 자동완성을 제공합니다.</p>, <p class="popup_msg">해당 언론사 사정으로 접근이 제한됩니다.</p>, <p class="popup_msg"><strong class="NM_NEWSSTAND_POPUP_PNAME"></strong>을(를)<br/>구독해지 하시겠습니까?</p>, <p class="toast_msg">구독한 언론사에 추가되었습니다.</p>, <p class="popup_msg">해당 언론사 사정으로 접근이 제한됩니다.</p>, <p class="popup_msg"><strong class="NM_NEWSSTAND_POPUP_PNAME"></strong>을(를)<br/>구독해지 하시겠습니까?</p>, <p class="toast_msg">구독한 언론사에 추가되었습니다.</p>, <p class="popup_msg">해당 언론사 사정으로 접근이 일시 제한됩니다.</p>, <p class="popup_msg"><strong class="NM_NEWSSTAND_POPUP_PNAME"></strong>을(를)<br/>구독해지 하시겠습니까?</p>, <p class="popup_msg">해당 언론사 사정으로 접근이 제한됩니다.</p>, <p class="popup_msg"><strong class="NM_NEWSSTAND_POPUP_PNAME"></strong>을(를)<br/>구독해지 하시겠습니까?</p>, <p class="dsc_msg">언론사 구독 설정에서 관심있는 언론사를 구독하시면<br/>언론사가 직접 편집한 뉴스들을 네이버 홈에서 바로 보실 수 있

In [79]:
print(bs.find('p'))


<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>


In [80]:
# limit  태그의 양을 제한

print(bs.find_all('p', limit = 1), '\n')
print(bs.find_all('p', limit = 2), '\n')

[<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>] 

[<p class="dsc">
<i class="imsc ico_election"></i><span class="_alert_passage"></span>
</p>, <p class="dsc">ON/OFF 설정은<br/>해당기기(브라우저)에 저장됩니다.</p>] 



In [81]:
url = 'http://news.naver.com'

data = requests.get(url)
data = data.text
bs = BeautifulSoup(data, 'lxml')

# print(bs.find('p', class_ = "cjs_ht"))
print(bs.find_all('p', {'class' : "cjs_d"}))

[<p class="cjs_d">기시다 후미오(岸田文雄) 일본 총리는 "7일부터 8일까지 일정으로, 한국을 방문하는 방향으로 조율 중"이라고 1일(현지시간) 밝혔다. 일본 공영 NHK, 니혼게이자이신문(닛케이)에 따르면 가나 수도 아크라를 방문 중</p>, <p class="cjs_d">'더불어민주당 전당대회 돈봉투 의혹' 피의자로 입건된 송영길 전 대표가 현시점에서 조사가 어렵다는 검찰 측의 입장에도 2일 자진 출두를 강행할 예정이다. 송 전 대표는 이날 오전 10시 서울중앙지방검찰청에 출두하고 </p>, <p class="cjs_d">더불어민주당 전당대회 돈봉투 의혹과 관련해 금품 살포의 최종 수혜자로 지목된 송영길 전 대표가 오늘(2일) 검찰 자진 출두를 강행합니다. 송 전 대표는 이날 오전 10시 서울중앙지방검찰청에 출두한 뒤, 기자회견을 통</p>, <p class="cjs_d">전국에서 모인 13만명의 노동자들..."7월 총파업" 결의 다졌다 ▲ 민주노총 주최 ‘노동개악 저지! 윤석열 심판! 제133주년 세계노동절대회’가 1일 오후 서울 광화문 세종대로에서 열렸다. ⓒ 권우성 '2023 세</p>, <p class="cjs_d">노동절인 1일 구속영장실질심사를 앞두고 있던 민주노총 건설노조 강원도 지역 간부가 법원 앞에서 분신했다. 노동계는 대규모 집회를 열고 윤석열 정부의 노조 때리기를 비판하며 총력 투쟁을 예고했다. 2일 한겨레와 경향신</p>, <p class="cjs_d">서울에서 차를 타고 1시간여 만에 도착한 강원도 춘천 남산면에 위치한 더존비즈온 강촌캠퍼스. 이름 그대로 대학 캠퍼스를 방불케 하는 이곳의 지하1층에는 총면적 3300㎡ 규모의 데이터센터 'D-클라우드센터'가 자리 </p>, <p class="cjs_d">편집자주한국은 의료 가성비가 좋다고 하죠. 아프면 예약 없이 3,000~4,000원에 전문의를 보는 나라, 흔치 않으니까요. 그러나 건보 흑자, 일부 의료인의 희생 덕에 양질의 의료를 누렸던 시대도 끝나 갑니다. 미</p>

In [82]:
# bs.find_all('p', {'class' : "cjs_d"}) 에서 한글만 출력 p태그 별로 열방향

text = bs.find_all('p', {'class' : "cjs_d"})

# text = [i.get_text() for i in text]

for i in text :
    
    ko = ' '.join(re.findall('[가-힣]+', i.text))
    
    print(ko, '\n')

기시다 후미오 일본 총리는 일부터 일까지 일정으로 한국을 방문하는 방향으로 조율 중 이라고 일 현지시간 밝혔다 일본 공영 니혼게이자이신문 닛케이 에 따르면 가나 수도 아크라를 방문 중 

더불어민주당 전당대회 돈봉투 의혹 피의자로 입건된 송영길 전 대표가 현시점에서 조사가 어렵다는 검찰 측의 입장에도 일 자진 출두를 강행할 예정이다 송 전 대표는 이날 오전 시 서울중앙지방검찰청에 출두하고 

더불어민주당 전당대회 돈봉투 의혹과 관련해 금품 살포의 최종 수혜자로 지목된 송영길 전 대표가 오늘 일 검찰 자진 출두를 강행합니다 송 전 대표는 이날 오전 시 서울중앙지방검찰청에 출두한 뒤 기자회견을 통 

전국에서 모인 만명의 노동자들 월 총파업 결의 다졌다 민주노총 주최 노동개악 저지 윤석열 심판 제 주년 세계노동절대회 가 일 오후 서울 광화문 세종대로에서 열렸다 권우성 세 

노동절인 일 구속영장실질심사를 앞두고 있던 민주노총 건설노조 강원도 지역 간부가 법원 앞에서 분신했다 노동계는 대규모 집회를 열고 윤석열 정부의 노조 때리기를 비판하며 총력 투쟁을 예고했다 일 한겨레와 경향신 

서울에서 차를 타고 시간여 만에 도착한 강원도 춘천 남산면에 위치한 더존비즈온 강촌캠퍼스 이름 그대로 대학 캠퍼스를 방불케 하는 이곳의 지하 층에는 총면적 규모의 데이터센터 클라우드센터 가 자리 

편집자주한국은 의료 가성비가 좋다고 하죠 아프면 예약 없이 원에 전문의를 보는 나라 흔치 않으니까요 그러나 건보 흑자 일부 의료인의 희생 덕에 양질의 의료를 누렸던 시대도 끝나 갑니다 미 

배우 인터뷰한 성 인물 논란 어떻게 봐야하나 산업은 일본 내 성착취 구조 의 첨단에 자리합니다 그 구조에 대한 비판적 고려 없이 이를 콘텐츠화한다뇨 이나영 중앙대학교 사회학과 교수 

뉴스룸이 단독 보도한 주가조작 의혹 녹취파일 등의 저작권은 에 있습니다 인용보도시 뉴스룸 출처를 분명하게 인식할 수 있는 크기로 표기해 사용해주시기 바랍니다 주가조작단은 자신들 

월로 들어서면서 계절감이 회복됐습니다 당

In [83]:
url = 'http://news.daum.net/politics'

data = requests.get(url).text

bs = BeautifulSoup(data, 'lxml')
bs1 = bs.find_all('h2', id = 'mainContent')

print(bs1)
print(bs.find('h2', id = 'mainContent').text)

[<h2 class="screen_out" id="mainContent">정치</h2>]
정치


In [84]:
url = 'https://serieson.naver.com/v3/movie/ranking/realtime'

data = requests.get(url).text

bs = BeautifulSoup(data, 'lxml')

# print(bs.prettify())

r = bs.find('span', class_ = "Title_title__s9o0D").text

print(r)
    

던전 앤 드래곤: 도적들의 명예


In [85]:
html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""

soup = BeautifulSoup(html, 'html.parser')

li = soup.find_all(href = re.compile(r'^https://'))

for e in li : 
    print(e.attrs['href'])

https://example.com/fuga
https://example.com/foo


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용

In [86]:
url = 'http://news.daum.net/politics#1'

data = requests.get(url).text

bs = BeautifulSoup(data, 'lxml')

lines = bs.select('body > div > main > section > div > div > ul > li > strong > a')
# print(lines, '\n')

body = '\n'.join([line.text for line in lines])
print(body)

국민대 한반도미래연, 오는 3~4일 통일 뮤지컬 '외딴섬' 공연
“조사받겠다”는 송영길… “조사 불가”라는 검찰
북핵 위협에 압도적 대응…'힘에 의한 평화' 방점[尹정부 개혁 1년]
태영호 "尹 외교 만점", "토플 960점급"…이유 있었던 찬사?
日기시다 "방한하면 한일 관계 가속…국제정세 의견 교환 기회"
노동자 분신 1면에 쓴 한겨레, 노동절 집회 교통체증 전한 조선
“대체복무도 징벌적” 다시 헌재 심판대로
檢, '송영길 돈봉투 의혹' 수사 본격화… 불법자금 규모 늘어날까
[尹정부 1년]①"하루 만보 찍힌다"…용산시대, 달라진 소통법
우방국 도청 가능하게 만든 미국의 대외정보감시법, 과연 폐지할까


In [87]:
body = re.findall(r'[가-힣]+', body)
body = ' '.join(body)

print(body)

국민대 한반도미래연 오는 일 통일 뮤지컬 외딴섬 공연 조사받겠다 는 송영길 조사 불가 라는 검찰 북핵 위협에 압도적 대응 힘에 의한 평화 방점 정부 개혁 년 태영호 외교 만점 토플 점급 이유 있었던 찬사 기시다 방한하면 한일 관계 가속 국제정세 의견 교환 기회 노동자 분신 면에 쓴 한겨레 노동절 집회 교통체증 전한 조선 대체복무도 징벌적 다시 헌재 심판대로 송영길 돈봉투 의혹 수사 본격화 불법자금 규모 늘어날까 정부 년 하루 만보 찍힌다 용산시대 달라진 소통법 우방국 도청 가능하게 만든 미국의 대외정보감시법 과연 폐지할까


### 과제1 

url = 'http://www.naver.com' 에서 title 내용을 세가지 방법으로 출력하세요.

In [88]:
url = 'http://www.naver.com'

data = requests.get(url).text

bs = BeautifulSoup(data, 'lxml')
# print(bs.prettify())

title = bs.find('title')
print(title.text, '\n')

NAVER 



In [89]:
url = 'http://www.naver.com'

data = urllib.request.urlopen(url)

bs = BeautifulSoup(data, 'lxml')
# print(bs.prettify())

title1 = bs.find('title')
print(title1.text, '\n')

NAVER 



In [90]:
url = 'http://www.naver.com'

data = requests.get(url).text

bs = BeautifulSoup(data, 'lxml')
# print(bs.prettify())

title = bs.select('head > title')
print(title[0].text, '\n')

NAVER 



### 과제 2

url = 'http://www.naver.com' span 태그에 연결된 한글만을 불필요한 공백을 제거한 후 출력

In [91]:
url = 'http://www.naver.com'

data = requests.get(url).text

bs = BeautifulSoup(data, 'lxml')
# print(bs.prettify())

span = bs.find_all('span')
span = [i.get_text() for i in span]
span = ' '.join(re.findall(r'[가-힣]+', ''.join(span)))

print(span)


뉴스스탠드 바로가기주제별캐스트 바로가기타임스퀘어 바로가기쇼핑캐스트 바로가기로그인 바로가기매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드네이버쥬니어네이버해피빈검색한글 입력기자동완성 레이어 삭제 설정이 초기화 된다면 도움말을 확인해주세요 설정이 초기화 된다면 도움말을 확인해주세요 도움말 도움말 자동저장 끄기 자동저장 끄기 회 로또당첨번호 동행복권 제공 동행복권 제공 원 원 바로가기 바로가기 추가 추가 추가 자세히보기 도움말 신고 도움말신고 자동완성 끄기 자동완성 끄기 쇼핑쇼핑 영등포동 가영등포동 가리스트형썸네일형설정이전다음닫기닫기이전다음닫기닫기이전다음다음닫기닫기이전다음닫기닫기주제별로 분류된 다양한 글 모음 개의 글이전다음정지영 다산북스 다산북스송희구 서삼독 서삼독최인아 해냄출판사 해냄출판사오시훈 에듀윌 에듀윌여수언니 정혜영 놀 놀집계기간 제공인터넷 교보문고이전다음 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위 위위러셀 내피어 한국경제신문 한국경제신문박송이 미래엔아이세움 미래엔아이세움백승하 겜툰 겜툰빈센트 김두언 위즈덤하우스 위즈덤하우스존 소포릭 윌북 윌북박시연 아울북 아울북엠마 드레이지 피카주니어 피카주니어 알리사 떠오름 떠오름한문도 세기북스 세기북스이강용 클 클삼성출판사 편집부 삼성출판사 삼성출판사일홍 필름 필름 손미나 코알라컴퍼니 코알라컴퍼니이명로 상승미소 문학동네 문학동네강민희 겜툰 겜툰 이전다음언론사 헤드라인 보기코로나바이러스감염증 현황보합 보합보합 보합상승 상승 라이트 모드로 보기


### 과제 3 

url = 'http://www.naver.com' 에서 span 태그에 연결된 문자 + 숫자 를 불필요한 공백을 제거한후 출력

In [92]:
url = 'http://www.naver.com' 

data = requests.get(url).text

bs = BeautifulSoup(data, 'lxml')
# print(bs.prettify())

span = bs.find_all('span')
span = [i.get_text() for i in span]
span = ' '.join(re.findall(r'\w+', ''.join(span)))

print(span)


뉴스스탠드 바로가기주제별캐스트 바로가기타임스퀘어 바로가기쇼핑캐스트 바로가기로그인 바로가기매일 쓰는 브라우저 보안이 걱정된다면 안전하고 빠른 최신 브라우저 웨일로 업데이트 하세요 매일 쓰는 브라우저 보안이 걱정된다면 다운로드네이버쥬니어네이버해피빈검색한글 입력기자동완성 레이어 txt txt date 삭제 설정이 초기화 된다면 도움말을 확인해주세요 설정이 초기화 된다면 도움말을 확인해주세요 도움말 도움말 자동저장 끄기 자동저장 끄기 5 회 로또당첨번호 동행복권 제공 동행복권 제공 6 7 8 9 10 11 12 6 7 8 9 10 11 12 14 txt currency currency 8 9 8 9 6 원 6 원 txt 7 message 7 message 7 8 7 8 7 txt 5 5 바로가기 바로가기 txt 추가 txt date 추가 query intend intend 추가 자세히보기 도움말 신고 도움말신고 자동완성 끄기 자동완성 끄기 쇼핑쇼핑LIVE10 0 25 0 영등포동3가영등포동3가리스트형썸네일형설정이전다음닫기닫기이전다음닫기닫기이전다음다음닫기닫기이전다음닫기닫기주제별로 분류된 다양한 글 모음651 개의 글이전다음어제 인플루언서꽃여사 인플루언서꽃여사1주일 전 인플루언서다곰 인플루언서다곰1주일 전 인플루언서이지 인플루언서이지2일 전 인플루언서테드 인플루언서테드6일 전 인플루언서Tom편집장 인플루언서Tom편집장1개월 전 프로개 프로개4일 전 인플루언서이과장 인플루언서이과장6일 전 차이의놀이 차이의놀이재생재생시간02 32재생시간어제 미운 우리 새끼 미운 우리 새끼10시간 전 인플루언서잭 인플루언서잭4일 전 인플루언서화장품읽어주는남자 인플루언서화장품읽어주는남자경제 비즈니스4일 전 인플루언서쫑 인플루언서쫑패션6일 전 인플루언서원덕구 인플루언서원덕구무료5시간 전 프리미엄튼튼주식 프리미엄튼튼주식3일 전 인플루언서오늘의집 인플루언서오늘의집2일 전 인플루언서미나 인플루언서미나3주일 전 인플루언서chinadrum의 MLB 이야기 인플루언서chinadrum의 MLB 이야기재생재생

### 과제 4

url = 'http://www.naver.com' 에서 a 태그에 id가 있는 경우에 대하여 연결된 문자 + 숫자를 아래와 같이 출력

- 해당되는 조건에 맞게 모두 출력
- 한글만 열방향으로 출력
- 블필요한 공백을 제거한후 한글만 한줄에 출력

In [93]:
url = 'http://www.naver.com' 

data = requests.get(url).text

bs = BeautifulSoup(data, 'lxml')
# print(bs.prettify())

a = bs.find_all('a', id = True)
a = [i.get_text() for i in a]
a = '\n'.join(re.findall(r'\w+', ''.join(a)))
b = ' '.join(re.findall(r'\w+', ''.join(a)))

print(a, '\n')
print(b)

다운로드네이버를
시작페이지로한글
입력기자동완성
레이어관심주제
설정TOP 

다운로드네이버를 시작페이지로한글 입력기자동완성 레이어관심주제 설정TOP


### 과제 5

네이버 영화 랭킹 실시간 조회 데이터를 가져와서 top10 영화를 아래와 같이 출력하세요

- 1: 던전 앤 드래곤
- 2: 존윅

In [94]:
url = 'https://serieson.naver.com/v3/movie/ranking/realtime'

data = requests.get(url).text

bs = BeautifulSoup(data, 'lxml')
# print(bs.prettify())

rank = bs.find_all('span', class_ = "Title_title__s9o0D", limit = 10)
# print(rank)

rank = [i.get_text() for i in rank]

for i, n in enumerate(rank) :
    print(f'{i + 1} : {n}')

1 : 파벨만스
2 : 던전 앤 드래곤: 도적들의 명예
3 : 앤트맨과 와스프: 퀀텀매니아
4 : 웅남이
5 : 존 윅 3: 파라벨룸
6 : 오토라는 남자
7 : 앤트맨과 와스프: 퀀텀매니아(세트: 1~3편)
8 : 아이 필 프리티
9 : 존 윅 - 리로드
10 : 너의 이름은.


### 과제 6

url = 'http://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100' 사이트에서 뉴스 기사 제목(title)을 출력하세요

In [95]:
url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

data = urllib.request.urlopen(url)

bs = BeautifulSoup(data, 'html.parser')
# print(bs.prettify()) 

lines = bs.select('#main_content > div > div > div > div > div > ul > li > div > a')
# print(lines)
title = '\n'.join([line.text for line in lines])

print(title)

감사원 "KBS사장, 정당 가입 이력 없어…중대한 위법 사실 없다"
시작부터 ‘코드감사 꼬리표’…감사원 “KBS, 위법사실 확인 안돼”
감사원 "KBS 경영진, 중대한 위법 사실 발견 안 돼"
감사원 “KBS 사장 정당 가입 검증하라”
조태용 “한·미 동맹, 핵기반 동맹으로 업그레이드”
조태용 국가안보실장 “한·미, 핵억제 동맹 업그레이드” 핵공유 논란에는 “표현상 오해”
안보실장, 김태효 '핵 공유'에 "오해 살 표현…핵통제동맹"
안보실장 "워싱턴 선언, 핵 억제동맹...핵공유 표현 안 맞아"
김진표, 美하원의원 방한단 접견 "올해 안에 한미의원연맹 창설하자"
장호진 외교부 1차관, 美 하원 의원단 면담…북핵 공조 지지 당부
김 의장 만난 미 하원의원단 "윤 대통령, 환상적인 방미"
한총리, 美 하원의원단 접견…방미 결과 등 논의
與 윤리위, 김재원·태영호 징계 절차 개시…‘1호 징계’ 수위는
정면 돌파 택한 김재원·태영호
국민의힘, ‘4·3 왜곡’ 김재원·태영호 징계 절차 개시
전주혜 "김재원·태영호, 신속한 징계 필요성 공감대"
이재명 "과로사회로의 퇴행 막을 것"…주 69시간 노동 비판
이재명 "'주 69시간 노동' 시민 삶 위태…과로사회 퇴행 막을 것"
[속보]尹 “소수만 기득권 누리면 자유가 아니라 특권”…근로자의날 메시지
尹대통령 "노동 약자 보호 위해 고용세습 근절·법치주의 확립"
尹 지지율 소폭 반등…‘순방 리스크’ 끊어냈나
영어 연설 효과? 미국 다녀온 尹 지지율, 4주 만에 올랐다
민주 원내수석에 '비명' 송기헌…원내대변인은 김한규·이소영
친명 덜고 비명 더한 `박광온號` 출범…"견고한 통합"(종합)
尹대통령, 프라미스 작전 참가자 격려…"외교 역량의 성과"
대통령실, 간호법 거부권 관련 “각각 법안의 특수성 고려할 것”
대통령실 “尹-여야 원내대표 회동, 마다할 이유 없다”
대통령실 “윤 대통령, 여야 합의 땐 (여야 지도부 회동) 마다할 이유 없어”
한일·한미일 연쇄회담 예고…“방미 후속 조치 만전”
미국 “이달 G7회의 때 한미일 정상

### 과제 7

네이버 뉴스 데이터 사회분야 데이터를 가져와서 다음을 수행하세요

- 첫번째 뉴스 제목과 href를 출력
- 뉴스 전체 제목과 href를 출력 (열방향)

In [96]:
url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

data = urllib.request.urlopen(url)

bs = BeautifulSoup(data, 'lxml')

lines = bs.select_one('#main_content > div > div > div > div > div > ul > li > div > a')
# print(lines)

title = lines.text
href = lines['href']

print(title)
print(href)

與 윤리위, 김재원·태영호 징계하기로 결정… 오는 8일 징계 수위 정할 듯
https://n.news.naver.com/mnews/article/366/0000898098?sid=100


In [97]:
url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'

data = urllib.request.urlopen(url)

bs = BeautifulSoup(data, 'html.parser')
# print(bs.prettify()) 

lines = bs.select('#main_content > div > div > div > div > div > ul > li > div > a')
# print(lines)

for i in lines :
    title = i.text
    href = i['href']
    print(f'{title} {href}', '\n')

박광온 "정부, '사람 중심'으로 국정운영해야…주4.5일제 추진할 것" https://n.news.naver.com/mnews/article/008/0004881759?sid=100 

박광온 "국정운영 '사람 중심'으로 바꿔야…학부모 주 4일제 검토" https://n.news.naver.com/mnews/article/055/0001054488?sid=100 

민주 "사람 중심 국정운영해야...학부모 주4일제 추진" https://n.news.naver.com/mnews/article/052/0001879521?sid=100 

박광온 "사람 중심으로 국정운영 바꿔야…학부모 주4일제 검토" https://n.news.naver.com/mnews/article/001/0013913799?sid=100 

尹 “한·미, 산업·문화 등 동맹 확장…미래세대에 기회 플랫폼 돼야” https://n.news.naver.com/mnews/article/005/0001605231?sid=100 

尹 "확장된 한미동맹, 미래세대 기회 플랫폼 돼야" https://n.news.naver.com/mnews/article/277/0005253026?sid=100 

"한미동맹, 미래세대에 기회 플랫폼 돼야" https://n.news.naver.com/mnews/article/214/0001269897?sid=100 

尹대통령 “한미동맹, 미래세대에 기회의 플랫폼 돼야” https://n.news.naver.com/mnews/article/081/0003357770?sid=100 

與, 오늘 윤리위 첫 회의…김재원·태영호 징계 논의할까 https://n.news.naver.com/mnews/article/215/0001098681?sid=100 

김재원 ‘5.18 설화’ 한 달 반 만에 윤리위…다음 주 징계 유력 https://n.news.naver.com/mnews/article/056/0011476395?sid=100 

국민의힘 윤리위 오늘 첫 회의…‘설화’ 김재