Beautiful Soup Documentation <br/>
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [3]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://naver.com" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [4]:
with open('wtest1.html','w') as f:
    f.write(html_doc)

In [2]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
soup

<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html>

In [5]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://naver.com" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [6]:
soup.title

<title>The Dormouse's story</title>

In [7]:
soup.title.name

'title'

In [8]:
soup.title.parent.name

'head'

In [9]:
# p태그 첫번째 데이터
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [10]:
# a태그 첫번째 데이터
soup.a

<a class="sister" href="http://naver.com" id="link1">Elsie</a>

In [11]:
soup.find('a')

<a class="sister" href="http://naver.com" id="link1">Elsie</a>

In [12]:
soup.a['class']

['sister']

In [13]:
soup.find_all('a')

[<a class="sister" href="http://naver.com" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [14]:
soup.find_all(class_="sister")

[<a class="sister" href="http://naver.com" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [15]:
soup.find(id="link3")

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [16]:
soup.p['class']

['title']

In [17]:
soup.find('p')

<p class="title"><b>The Dormouse's story</b></p>

In [19]:
soup.find(class_='story')

<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://naver.com" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

In [20]:
soup.find_all('p')

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://naver.com" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [21]:
for link in soup.find_all('a'):
    print(link.get('href'))

http://naver.com
http://example.com/lacie
http://example.com/tillie


In [22]:
soup.find_all()

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://naver.com" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>,
 <head><title>The Dormouse's story</title></head>,
 <title>The Dormouse's story</title>,
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://naver.com" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived

#### string vs. get_text() vs. text
- BeautifulSoup 객체에서 text 속성, get_text() 메서드, string 속성은 모두 HTML 또는 XML 문서에서 텍스트 데이터를 추출하는 데 사용
- text 속성은 해당 태그에서 모든 텍스트 데이터를 가져오며, 
- get_text() 메서드도 동일한 결과를 반환합니다. 
- string 속성은 해당 태그에서 첫 번째로 발견된 문자열 데이터만 가져옵니다.

In [23]:
html = '''
<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>        
</body>
</html>
'''

In [34]:
with open('bt_test.html','w') as f:
    f.write(html)

In [35]:
with open('bt_test.html','r') as f:
    html = f.read()
    print(html)


<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>        
</body>
</html>



In [47]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

<html>
 <body>
  <div>
   Hello,world!
  </div>
  <div>
   <p>
    Hello,
    <b>
     world!
    </b>
   </p>
  </div>
 </body>
</html>



In [25]:
print(soup.div.text)


Hello,world!



In [26]:
print(soup.div.get_text())


Hello,world!



In [27]:
print(soup.div.string)


Hello,world!



In [28]:
# text 속성
print(soup.p.text)


Hello,world!



In [29]:
# get_text() 메서드
print(soup.p.get_text())


Hello,world!



In [31]:
# string 속성
print(soup.p.string)
print(soup.p.b.string)

None
world!


In [32]:
soup.b.string

'world!'

In [48]:
# body에 있는 모든 text 
import re
bs = soup.body.text
print(bs)



Hello,world!



Hello,world!





In [None]:
# Q. 정규표현식을 사용하여 아래와 같이 출력하세요.
Hello,world!
Hello,world!

In [35]:
bs1 = re.finditer('.+', bs)
print(bs1)
for i in bs1:
    print(i.group())

<callable_iterator object at 0x0000029CE53C5A30>
Hello,world!
Hello,world!


In [36]:
texts = re.findall('[^\s]+',bs)
for t in texts:
    print(t)
# print(re.findall('[A-Za-z!]+',bs))

Hello,world!
Hello,world!


In [None]:
# Q. 아래와 같이 출력하세요.
Hello,world! Hello,world! 

In [41]:
text=re.findall('[^\s]+',bs)
for t in text:
    print(t,end=' ')

Hello,world! Hello,world! 

In [42]:
bs = soup.body.text
bs = re.findall('.+',bs)
print(' '.join(bs))

Hello,world! Hello,world!


In [43]:
li = ''
for t in texts:
    li += t
    li += ' '
print(li)

Hello,world! Hello,world! 


In [52]:
for t in texts:
    re.sub(r'\n','',t)
    print(t,end=' ')

Hello,world! Hello,world! 

In [51]:
from bs4 import BeautifulSoup
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [53]:
bs = str(soup)
print(bs,type(bs))

<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html> <class 'str'>


In [54]:
# 영어 텍스트만 출력
p = re.findall('[a-zA-Z]+',bs) # 정규표현식
m = ' '.join(p)
m

'html head title The Dormouse s story title head body div div p class title b The Dormouse s story b p p class story Once upon a time there were three little sisters and their names were a class sister href http example com elsie id link Elsie a a class sister href http example com lacie id link Lacie a and a class sister href http example com tillie id link Tillie a and they lived at the bottom of a well p p class story p body html'

In [55]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [56]:
print(soup.get_text())
print(soup.text)

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [58]:
texts = soup.find_all('body')
li = ''
for t in texts:
    li += t.text
li

"\n\nThe Dormouse's story\nOnce upon a time there were three little sisters; and their names were\nElsie,\nLacie and\nTillie;\nand they lived at the bottom of a well.\n...\n"

In [59]:
# 개행을 정규표현식으로 제거

re.sub('\n','',li)

"The Dormouse's storyOnce upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;and they lived at the bottom of a well...."

In [60]:
# 개행을 정규표현식으로 제거
import re
texts = re.findall('[^\s]+', soup.text)
li =''
for text in texts:
    li += text
    li += ' '
print(li)

The Dormouse's story The Dormouse's story Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well. ... 


In [61]:
soup.title

<title>The Dormouse's story</title>

In [62]:
print(soup.title.string)

The Dormouse's story


bs

https://hi-guten-tag.tistory.com/8

#### html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.


#### urllib + bs

In [None]:
# lxml은 파이썬에서 XML과 HTML 문서를 파싱하고 조작하기 위한 빠르고 유연한 라이브러리
!pip install lxml

In [63]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
# html = rq.urlopen(url).read()
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
print(bs)

<!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=1106" name="viewport"/>
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" name="twitt

In [64]:
text1 = bs.find('p')
print(text1,'\n')
text2 = bs.find('p').string
print(text2,'\n')
text3 = bs.find('p').get_text()
print(text3)

<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p> 

None 

AiRS추천으로 구성된 뉴스를 제공합니다.


In [67]:
texts = bs.find_all('p')

for t in texts:
    print(t.text)

AiRS추천으로 구성된 뉴스를 제공합니다.
오전 10시~오전 11시까지 집계한 결과입니다.
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.


bs4에서 headers는 

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
- HTTP 요청을 보낼 때 요청 헤더를 설정하는 데 사용됩니다. 
- 일반적으로 웹 사이트에서 데이터를 스크래핑하려면, 해당 웹 사이트에서 HTTP 요청을 받을 때 자신이 웹 브라우저인 것처럼 보이도록 요청 헤더를 설정해야 합니다. 
- 이를 통해 웹 사이트는 봇이나 크롤러와 같은 자동화된 스크래핑 도구에서 요청을 보내는 것으로 인식하는 것을 방지할 수 있습니다.

 #### 인코딩 에러를 해결
 chardet.detect(response.content)['encoding']은 response.content의 인코딩 방식을 자동으로 감지하여 반환하며
 이 값을 encoding 변수에 저장한 후, response.content를 이 encoding 방식으로 디코딩하여 html 변수에 저장하고 출력

In [71]:
import requests
import chardet

# HTTP 요청에서 사용될 헤더 정보를 설정합니다.
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

# 웹사이트에서 스크래핑할 URL을 지정합니다.
url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'

# 지정된 url에 HTTP GET 요청을 전달
response = requests.get(url, headers=headers)

# HTTP 요청이 성공적으로 전달되었다면, 웹사이트의 HTML 코드를 출력합니다.
if response.status_code == 200:
#     encoding = chardet.detect(response.content)['encoding']
#     print(response.content.decode(encoding)) # 웹사이트의 HTML 코드를 포함하는 이진(binary) 데이터를 반환
     print(response.text) # 웹사이트의 HTML 코드를 문자열 형태로 반환
else:
    print("HTTP request failed.")






<!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="euc-kr">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="referrer" contents="always">
<meta http-equiv="refresh" content="600" />
<meta name="viewport" content="width=1106" />

    
    
        
            
                
                    
                    
                    
                    
                        
	                        
		                        
		                        
		                        
		                    
		                    
		                    
		                    
		                    
		                    
		                    
		                
                    
                    
                
            
            
            
            
            
        
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    

<meta property="og:t

In [None]:
# Q. response값에서 한글만 출력하세요.

In [73]:
# 한글만 출력
import re
texts = response.text
result = re.findall('[가-힣]+',texts)
# print(result)
' '.join(result)


'정치 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 네이버 정치 네이버 뉴스 네이버 뉴스 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 정치 홈 네이버 뉴스 광고적용 태그 추가 메인 메뉴로 바로가기 본문으로 바로가기 검색 뉴스 연예 스포츠 날씨 프리미엄 언론사별 정치 선택됨 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 전체 언론사 뉴스스탠드 뉴스스탠드 라이브러리 라이브러리 월 전체 언론사 전체 언론사 뉴스스탠드 뉴스스탠드 라이브러리 라이브러리 기사목록 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 언론사 구독하기 네이버 프리미엄콘텐츠 안내 헤드라인 뉴스 헤드라인 뉴스와 각 기사묶음 타이틀은 기사 내용을 기반으로 자동 추출 됩니다 닫기 일본인 가네코 다쓰지 월 독립운동가 대한민국 독립 헌신 국가보훈처가 일본인으로서 대한민국 독립에 헌신한 독립유공자 가네코 후미코 선생과 후세 다쓰지 선생을 각각 년 월의 독립운동가 로 선정했다고 뉴스 한겨레 일본인 가네코 후미코 후세 다쓰지 월 독립운동가 뉴시스 박열의 그녀 독립기념관 월의 독립운동가 됐다 서울경제 월의 독립운동가 에 가네코 후미코 후세 다쓰지 선정 개의 관련뉴스 더보기 민형배 당내 비판 늘 그래왔던 분들 자기 참모에 수류탄 터뜨리는 행위 뉴스킹 라디오 뉴스킹 박지훈입니다 방송일시 년 월 일 월 진행 박지훈 변호사 출연자 민형배 더불어민주당 의원 아래 텍스트는 실제 방송 내용과 차이가 김민석 송영길 발언이 공천에 직결 황당한 상상력 최강시사 방미 성과 엇갈리는 평가 여 역사적 전환점 야 사기 외교 뉴스라이브 검찰 캠프 관계자 등 추가 압수수색 송영길 물극필반 뉴스라이브 개의 관련뉴스 더보기 한미동맹은 미래 세대 위한 유산 대통령 귀국후 트위터에 올려 하버드대에선 워싱턴 선언은 업그레이드된 제 의 방위조약 윤석열 대통령이 박 일 미국 국빈 방문을 마치고 일 서 조선일보 워싱턴 선언 핵 포함 상호방위 업그레이드 이종섭 국방장관 워싱턴 선언 제 한미상호

In [75]:
import requests as rq
from bs4 import BeautifulSoup
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'
r = rq.get(url,headers=headers)
# print(r)
html = r.text
bs = BeautifulSoup(html, 'lxml')
print(bs.prettify)

<bound method Tag.prettify of <!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=1106" name="viewport"/>
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800

In [76]:
bs.find('div')

<div id="wrap">
<!-- 광고적용 태그 추가 -->
<div id="da_base"></div>
<div id="da_stake"></div>
<div class="header" id="header">
<div id="u_skip">
<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>
<a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>
</div>
<div class="snb_area">
<div class="snb_inner">
<div class="gnb_area">
<div class="gnb_wrap">
<div class="gnb_dark_type2" id="gnb"></div>
</div>
<div class="gnb_search is_hidden _search_content">
</div>
<div class="gnb_tool" id="gnb_search_tool">
<a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>
</div>
</div>
<div id="snb_wrap">
<h1>
<a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>
<a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>
</h1>
<ul class="snb_related_service">
<li><span class="snb_bdr"></span><a class="entertain nclicks(gnb.enter)" href="https://entertain.nav

In [78]:
bs.find('div',id=True)

<div id="wrap">
<!-- 광고적용 태그 추가 -->
<div id="da_base"></div>
<div id="da_stake"></div>
<div class="header" id="header">
<div id="u_skip">
<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>
<a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>
</div>
<div class="snb_area">
<div class="snb_inner">
<div class="gnb_area">
<div class="gnb_wrap">
<div class="gnb_dark_type2" id="gnb"></div>
</div>
<div class="gnb_search is_hidden _search_content">
</div>
<div class="gnb_tool" id="gnb_search_tool">
<a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>
</div>
</div>
<div id="snb_wrap">
<h1>
<a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>
<a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>
</h1>
<ul class="snb_related_service">
<li><span class="snb_bdr"></span><a class="entertain nclicks(gnb.enter)" href="https://entertain.nav

In [79]:
bs.find('div', id='header')

<div class="header" id="header">
<div id="u_skip">
<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>
<a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>
</div>
<div class="snb_area">
<div class="snb_inner">
<div class="gnb_area">
<div class="gnb_wrap">
<div class="gnb_dark_type2" id="gnb"></div>
</div>
<div class="gnb_search is_hidden _search_content">
</div>
<div class="gnb_tool" id="gnb_search_tool">
<a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>
</div>
</div>
<div id="snb_wrap">
<h1>
<a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>
<a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>
</h1>
<ul class="snb_related_service">
<li><span class="snb_bdr"></span><a class="entertain nclicks(gnb.enter)" href="https://entertain.naver.com/home">TV연예</a></li>
<li><span class="snb_bdr"></span><a class="sports nclicks(gn

In [80]:
bs.div.find("a",href=True).get_text()

'메인 메뉴로 바로가기'

In [81]:
bs.select_one("[tabindex = '1']").text

'메인 메뉴로 바로가기'

In [82]:
bs.find('div',id=True).find('a').text

'메인 메뉴로 바로가기'

In [190]:
lists = bs.find('div',id=True).find_all('a')
for i in lists:
    print(i.text)

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리
정치
대통령실 
국회/정당 
북한 
행정 
국방/외교 
정치일반 


안내헤드라인 뉴스



김기현, '음주운전 방지 장치 부착 의무화' 법안 내일 대표 발의
'후~' 불어야 시동…김기현 '음주운전 방지장치' 법안 내일 발의
3번째 음주운전…중앙선 넘어 트럭 들이받았지만 '집행유예'
'스쿨존 음주운전' 엄벌…"안전시설 설치부터"
40개의 관련뉴스 더보기



민주당 "尹대통령 방미, 대국민 사기 외교"
민주당 “尹 방미, 대국민 사기 외교…텅빈 쇼핑백”
민주 "尹 방미, '빈손' 넘어 '사기' 외교…경제 사안 해결 없어"
"무한·영원한 번영" "텅 빈 쇼핑백"‥여야, 국빈방미 극과극 평가
24개의 관련뉴스 더보기



한·미정상회담 끝나자 ‘비싼대가 치를 것’ 위협한 북한, 군사 행동 수위 높이나?
北, ‘워싱턴 선언’에 핵 선제타격 위협…대형도발 강행하나
北, 연일 ‘워싱턴 선언’ 비난하며 도발 명분 쌓기…“군사억제력 강화 당연”
北김여정, 한미 비난하며 '결정적 행동' 위협…도발 명분쌓기
8개의 관련뉴스 더보기



민주당 "있지도 않은 핵공유 말 지어내" 정부·여당 비판한 이유는?
민주 “핵 공유? 대국민 사기극…아전인수식 정신 승리”
민주당, '사실상 핵 공유'에 "대통령실·與, 정신승리 끈 놓지 못해"
민주, '사실상 핵공유' 논란에 "대국민 사기극…정신승리 하자는 것"
31개의 관련뉴스 더보기



김여정, '정권종말' 바이든에 "미래없는 늙은이의 망언"



[속보] 北김여정, 바이든 ‘정권 종말’ 발언에 “늙은이의 망언, 쉽게 넘길 수 없다”
85개의 관련뉴스 더보기


동영상기사

'방미' 윤대통령, MIT 석학 만나…'디지털 바이오' 논의



MIT 찾은 尹 대통령 “한

In [83]:
import urllib.request as rq

url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
texts = bs.find_all('p')
print(texts)

[<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p>, <p class="section_sub_txt">오전 11시~오후 12시까지 집계한 결과입니다.</p>, <p class="copyright">본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.</p>]


In [84]:
for t in texts:
    t = t.get_text()
    print(t,'\n')

AiRS추천으로 구성된 뉴스를 제공합니다. 

오전 11시~오후 12시까지 집계한 결과입니다. 

본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다. 



In [85]:
import urllib.request as rq
url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
print(bs.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <title id="browserTitleArea">
   네이버 뉴스
  </title>
  <script>
   function isMobileDevice() {
		return /^.*(iPhone|iPod|iPad|Android).*/.test(navigator.userAgent);
	}
  </script>
  <script>
   (function () {
		try {
			if (isMobileDevice() && isAbleApplyPrefersColorScheme()) {
				
				document.querySelector("html").classList.add("DARK_THEME");
			}
		} catch(e) {}

		function isAbleApplyPrefersColorScheme() {
			
			if (window.matchMedia("(prefers-color-scheme)").matches === false) {
				return false;
			}

			var userAgent = navigator.userAgent;

			if (userAgent.indexOf("NAVER") > -1) {
				
				if (/.*NAVER\([a-zA-Z]*;\s[a-zA-Z]*;\s([0-9]*);/.test(userAgent)) {
					return Number(RegExp.$1) >= 1000;
				}
			} else {
				
				return document.cookie.indexOf("NSCS=1") > -1;
			}

			return false;
		}
	})();
  </script>
  <script>
   var g_ssc = 'news.v3_media' || null;
  </script>
  <meta charset="utf-8"/>
  <meta content="width=device-width,

In [None]:
# Q. p 태그 데이터를 모두 불러와서 텍스트만 출력

In [86]:
# bs.find_all
texts = bs.find_all('p')
for t in texts:
    print(t.string)

검찰 조사 이뤄질지는 미지수 2021년 더불어민주당 전당대회 돈 봉투 살포 의혹과 관련해 민주당 송영길 전 대표가 2일 서울중앙지검에 자진 출두한다. 더불어민주당 송영길 전 대표. 공동취재사진 송 전 대표 변호인인 
39년간 미국 뉴욕 극장가에서 자리를 지켜온 한인 샌드위치 가게가 문을 닫았다. 이 소식에 브로드웨이 배우와 스태프 등 단골이 모여 송별하는 자리를 마련한 데 이어 외신도 이를 슬픈 소식으로 보도했다. 지난달 30일
“연산군이 황음무도한 짓을 벌인 탕춘대가 유네스코 세계유산감이라고?” 최근 문화재청이 한양도성과 북한산성, 탕춘대성을 포함한 ‘한양의 수도성곽’을 유네스코 세계유산 등재신청 후보로 선정했습니다. 이에따라 올해 9월에
송 전 대표 "2일 검찰에 자진 출두하겠다" 더불어민주당 송영길 전 대표가 지난달 24일 오후 인천국제공항 제1여객터미널을 통해 입국해 기자회견을하고 있다. 장용준기자 검찰이 2021년 더불어민
윤석열 대통령이 1일 이번 미국 국빈방문을 "업그레이드 되고 확장된 한미동맹"이라고 평가하며 "청년 미래 세대에게 기회의 플랫폼이 돼야 한다"고 했다. 이날 윤 대통령은 방미 귀국 이후 처음으로 주재한 수석비서관회의
편집자주한국은 의료 가성비가 좋다고 하죠. 아프면 예약 없이 3,000~4,000원에 전문의를 보는 나라, 흔치 않으니까요. 그러나 건보 흑자, 일부 의료인의 희생 덕에 양질의 의료를 누렸던 시대도 끝나 갑니다. 미
중국 네티즌들이 한복, 음력 설에 이어 한옥이 중국 문화라는 황당 주장을 펼쳐 눈살을 찌푸리게 하고 있다. 1일 게임업계에 따르면 중국 네티즌들은 에픽게임즈가 운영하는 ‘언리얼 엔진 마켓플레이스’에 올라온 한옥 애셋
“양심. 그래요, 양심. 세상에서 제일 무서운 게 그겁니다. 군인들이 쏘아 죽인 사람들의 시신을 리어카에 실어 앞세우고 수십만의 사람들과 함께 총구 앞에 섰던 날, 느닷없이 발견한 내 안의 깨끗한 무엇에 나는 놀랐습
“북한 장교들은 한국의 초코파이와 도리토스(나초칩)를 좋아했어요.” 2013년부

In [None]:
# Q. p 태그 데이터를 모두 불러와서 한글만 출력

In [87]:
url = 'https://news.naver.com'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')

import re
texts = bs.text
result = re.findall('[가-힣]+',texts)
' '.join(result)

'네이버 뉴스 본문 바로가기 뉴스 연예 스포츠 날씨 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 뉴스스탠드 라이브러리 콘텐츠 월 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 월 일 구독 한옥은 중국 건축 또 억지 중국 누리꾼 댓글 테러 정부가 메타버스 콘텐츠 창작자들을 위해 무료로 개방한 한국 전통문화 데이터가 일부 중국 누리꾼들의 댓글 테러로 몸살을 앓고 있습니다 오늘 일 게임업계에 따르면 에픽게임즈가 운영하는 언리얼 엔진 마켓플레이스 에 매일경제 월 일 구독 이서진이 왜 거기서 나와 어떻게 오셨냐 묻자 검찰 계실 때 미국을 국빈 방문한 윤석열 대통령이 참석한 행사에 배우 이서진이 모습을 나타냈다 윤 대통령은 지난 일 현지시간 워싱턴 미국영화협회 건물에서 개최된 글로벌 영상콘텐츠 리더십 포럼 에 참석했다 이 광주방송 월 일 구독 유승민 한미정상회담 코리안 파이는 뭘 얻었나 큰 성과 없어 유승민 국민의힘 전 의원이 한미정상회담 결과 와 관련 대한민국 대통령이면 대한민국 국민들께서 가장 위협을 느끼는 북핵문제에 대해서 이번에 길과 방향을 제대로 틀고 왔어야 된다 면서 그런데 오히려 미국한테 좀 동아일보 월 일 구독 근무 장교 장교들 초코파이 도리토스 좋아해 사람 세계 북한 장교들은 한국의 초코파이와 도리토스 나초칩 를 좋아했어요 년부터 년까지 유엔군 사령부 소속으로 비무장지대 에서 근무한 미국 해군 퇴역 장교 대니얼 맥셰인 전 소령은 지난달 일 미 월 일 구독 최대 만원 서울시 청년월세 어떻게 받나요 서울시는 청년에게 월세 최대 만원을 지원하는 년도 청년월세 대상자를 모집합니다 청년월세는 서울의 높은 주거비 부담을 덜어주기 위해 만 세 청년 만 천명에게 개월간 월세 최대 만원을 새로보기 한국경제 월 일 구독 제네시스 벤츠까지 제치더니 이번엔 오픈카 승부수 국내에서 벤츠를 이미 앞지른 제네시스가 글로벌에서도 판매량이 꾸준히 증가하며 승승장구하고 있다 특히 최근에는 컨버터블 콘셉트카를 

#### requests + bs

#### 과제1_0501.
'https://news.naver.com/' 에서 title 내용을 세가지 방법으로 출력하세요.

In [88]:
# requests
from bs4 import BeautifulSoup
import requests
import re
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=105"
res = requests.get(url).text
soup = BeautifulSoup(res,'html.parser')
wf = soup.find('wf').text
text = ''.join(re.findall('[^A-Z0-9]?[0-9가-힣]+[^A-Z0-9]?',wf))
text

'(하늘상태) 이번 예보기간은 대체로 흐린 날이 많겠으나, 8일(월)~11일(목)은 대체로 맑겠습니다.(기온) 이번 예보기간 아침 기온은 4~17도로 평년(최저기온 6~12도)과 비슷하거나 조금 높겠고, 낮 기온은 13~26도로 평년(최고기온 17~25도)과 비슷하거나 조금 낮겠습니다.(해상) 동해중부해상의 물결은 5일(금)~6일(토)은 1.0~3.0m로 높게 일겠습니다.(주말전망) 6일(토)~7일(일)은 대체로 흐리겠습니다. 아침 기온은 6~17도, 낮 기온은 13~22도가 되겠습니다. 4일(목)부터 7일(일) 사이 기압골의 발달 정도와 이동 속도에 따라 강수시점과 구역이 변경될 가능성이 있으니, 앞으로 발표되는 최신 예보를 반드시 참고하기 바랍니다.'

In [90]:
# urllib
import re
from bs4 import BeautifulSoup
import urllib.request
import urllib.parse

API = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
# 매개변수를 URL 인코딩합니다.
values = {
    'stnId': '109' # 서울 109, 강원도 105
}
params = urllib.parse.urlencode(values)
# 요청 전용 URL을 생성합니다.
url = API + "?" + params
print("url=", url)

res = urllib.request.urlopen(url)
soup = BeautifulSoup(res,'html.parser')
wf = soup.find('wf').string
text = ''.join(re.findall('[^A-Z0-9]?[0-9가-힣]+[^A-Z0-9]?',wf))
text

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


'(강수) 4일(목)~7일(일)은 대체로 흐리겠고, 8일(월)~11일(목)은 맑겠습니다.(기온) 아침 기온은 4일(목)~7일(일)은 10~17도로 평년(최저기온 9~12도)보다 높겠고, 그 밖의 날은 8~13도로 평년과 비슷하겠습니다. 이번 예보기간 낮 기온은 18~25도로 평년(최고기온 20~24도)과 비슷하겠습니다.(해상) 서해중부해상의 물결은 4일(목)~5일(금)은 1.0~3.0m로 높게 일겠고, 그 밖의 날은 1.0~2.0m로 일겠습니다.(주말전망) 6일(토)과 7일(일)은 대체로 흐리겠습니다. 아침 기온은 10~16도, 낮 기온은 19~21도가 되겠습니다. 4일(목)부터 7일(일) 사이 기압골의 발달 정도와 이동 속도에 따라 강수 예보가 변경될 수 있으니, 앞으로 발표되는 최신 예보를 반드시 참고하기 바랍니다.'

#### 연습 : urllib

#### 과제2_0501.
"http://www.naver.com" 사이트에서 span 태그에 연결된 한글만을 불필요한 공백을 제거한 후 출력하세요.

#### 과제3_0501.
"http://www.naver.com" 사이트에서 span 태그에 연결된 문자 + 숫자를 불필요한 공백을 제거한 후 출력하세요.

#### Q. "http://www.naver.com" 사이트에서 a 태그에 id가 있는 경우에 대하여 연결된 문자 + 숫자를 아래와 같이 출력하세요.
- 해당되는 조건에 맞게 모두 출력
- 한글만 열방향으로 출력
- 불필요한 공백을 제거한 후 한글만 한줄에 출력

In [4]:
# A.
import urllib.request as rq
import re
url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'html.parser')
texts = bs.find_all('a',id=True)
texts

[<a class="_2aeXMlrb BMgpjddw" data-clk="dropdownload1b" href="https://installer-whale.pstatic.net/downloads/banner/RydDy7/WhaleSetup.exe" id="NM_whale_download_btn"><span style="background-color: #0436c7">다운로드</span></a>,
 <a class="link_set" data-clk="top.mkhome" href="https://help.naver.com/support/welcomePage/guide.help" id="NM_set_home_btn">네이버를 시작페이지로</a>,
 <a class="btn_keyboard" href="#" id="ke_kbd_btn" onclick="return false;" role="button"><span class="blind">한글 입력기</span><span class="ico_keyboard"></span></a>,
 <a aria-pressed="false" class="btn_arw _btn_arw fold" data-atcmp-element="" href="#" id="nautocomplete" role="button" tabindex="2"><span class="blind">자동완성 레이어</span><span class="ico_arr"></span></a>,
 <a class="btn_set" data-clk="tca.like" href="#" id="NM_THEME_EDIT_SET" role="button">관심주제 설정</a>,
 <a class="content_top" href="#wrap" id="NM_scroll_top_btn"><span class="blind">TOP</span></a>]

#### 과제4_0501.
"http://www.naver.com" 사이트에서 a 태그에 id가 있는 경우에 대하여 연결된 문자 + 숫자를 아래와 같이 출력하세요.
- 해당되는 조건에 맞게 모두 출력
- 한글만 열방향으로 출력
- 불필요한 공백을 제거한 후 한글만 한줄에 출력

In [284]:
import urllib.request as rq
import re
url = "http://www.naver.com"
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
text = bs.find('div').get_text()
text

' 뉴스스탠드 바로가기 주제별캐스트 바로가기 타임스퀘어 바로가기 쇼핑캐스트 바로가기 로그인 바로가기 '

In [91]:
from bs4 import BeautifulSoup
import urllib.request as rq
url = 'https://news.naver.com/'
html = rq.urlopen(url)
bs = BeautifulSoup(html, 'lxml')
print(bs.find_all('p'))

[<p class="cjs_d">미국 뉴욕 타임스스퀘어에 있던 작은 샌드위치 가게가 문을 닫자 브로드웨이 배우들이 한자리에 모였다. 40년 가까이 이 가게를 운영한 한인 사장의 ‘은퇴식’을 열어주기 위해서였다. 최근 미국 폭스5 뉴욕, CBS 뉴욕</p>, <p class="cjs_d">“4인 가족이 1주일 정도 해외에 함께 나가면, 10만원을 훌쩍 넘어가는 게 현실이다” (여행객) “1주일이나 열흘간 해외에 갔다고 십몇만원(로밍요금)을 내야 하는 것은 과해 보인다” (박윤규 과학기술정보통신부 2차</p>, <p class="cjs_d">운동을 위해 시간과 비용을 들여 열심히 했는데도 몸의 변화가 없다면, 자신의 운동 습관을 체크해 봐야 한다. 특히 체중, 허리 사이즈, 근육의 양 등 중요 수치에 변화가 없다면, 운동 효과에 대한 회의감마저 갖게 된</p>, <p class="cjs_d">국민의힘 중앙윤리위원회가 오늘(1일) 설화로 논란을 일으킨 김재원·태영호 최고위원에 대한 징계 절차 개시를 결정했습니다. 국민의힘 윤리위는 오늘 오전 10시 서울 여의도 중앙당사에서 첫 회의를 열고 윤리위 안건에 대</p>, <p class="cjs_d">AV 배우 인터뷰한 &lt;성+인물&gt; 논란, 어떻게 봐야하나? "AV산업은 일본 내 ‘성착취 구조’의 첨단에 자리합니다. 그 구조에 대한 비판적 고려 없이 이를 콘텐츠화한다뇨." - 이나영 중앙대학교 사회학과 교수 AV(</p>, <p class="cjs_d">시중에 유통 중인 한 ‘무알코올 맥주’에서 세균수 기준 부적합이 확인돼 식품의약품안전처가 전량 회수조치에 나섰습니다. 식약처는 오비맥주 광주공장에서 제조한 ‘버드와이저 제로(Budweiser Zero)’가 세균수 기</p>, <p class="cjs_d">국내에서 벤츠를 이미 앞지른 제네시스가 글로벌에서도 판매량이 꾸준히 증가하며 승승장구하고 있다. 특히 최근에는 컨버터블 콘셉트카를 공개하며 고급 차 이미지 굳히기에 나섰다. 1일 업계에 따르면 지난해 제네시스 브

In [92]:
# find() : 하나의 요소만 가져 옴
print(bs.find('p'))

<p class="cjs_d">미국 뉴욕 타임스스퀘어에 있던 작은 샌드위치 가게가 문을 닫자 브로드웨이 배우들이 한자리에 모였다. 40년 가까이 이 가게를 운영한 한인 사장의 ‘은퇴식’을 열어주기 위해서였다. 최근 미국 폭스5 뉴욕, CBS 뉴욕</p>


In [97]:
# limit : 태그의 양을 제한
print(bs.find_all('p', limit=1),'\n')
print(bs.find_all('p', limit=10))


[<p class="cjs_d">미국 뉴욕 타임스스퀘어에 있던 작은 샌드위치 가게가 문을 닫자 브로드웨이 배우들이 한자리에 모였다. 40년 가까이 이 가게를 운영한 한인 사장의 ‘은퇴식’을 열어주기 위해서였다. 최근 미국 폭스5 뉴욕, CBS 뉴욕</p>] 

[<p class="cjs_d">미국 뉴욕 타임스스퀘어에 있던 작은 샌드위치 가게가 문을 닫자 브로드웨이 배우들이 한자리에 모였다. 40년 가까이 이 가게를 운영한 한인 사장의 ‘은퇴식’을 열어주기 위해서였다. 최근 미국 폭스5 뉴욕, CBS 뉴욕</p>, <p class="cjs_d">“4인 가족이 1주일 정도 해외에 함께 나가면, 10만원을 훌쩍 넘어가는 게 현실이다” (여행객) “1주일이나 열흘간 해외에 갔다고 십몇만원(로밍요금)을 내야 하는 것은 과해 보인다” (박윤규 과학기술정보통신부 2차</p>, <p class="cjs_d">운동을 위해 시간과 비용을 들여 열심히 했는데도 몸의 변화가 없다면, 자신의 운동 습관을 체크해 봐야 한다. 특히 체중, 허리 사이즈, 근육의 양 등 중요 수치에 변화가 없다면, 운동 효과에 대한 회의감마저 갖게 된</p>, <p class="cjs_d">국민의힘 중앙윤리위원회가 오늘(1일) 설화로 논란을 일으킨 김재원·태영호 최고위원에 대한 징계 절차 개시를 결정했습니다. 국민의힘 윤리위는 오늘 오전 10시 서울 여의도 중앙당사에서 첫 회의를 열고 윤리위 안건에 대</p>, <p class="cjs_d">AV 배우 인터뷰한 &lt;성+인물&gt; 논란, 어떻게 봐야하나? "AV산업은 일본 내 ‘성착취 구조’의 첨단에 자리합니다. 그 구조에 대한 비판적 고려 없이 이를 콘텐츠화한다뇨." - 이나영 중앙대학교 사회학과 교수 AV(</p>, <p class="cjs_d">시중에 유통 중인 한 ‘무알코올 맥주’에서 세균수 기준 부적합이 확인돼 식품의약품안전처가 전량 회수조치에 나섰습니다. 식약처는 오비맥주 광주공장에서 제조한 ‘버드와이저 제로(Budweiser Zero)’가 

url = 'https://news.naver.com/' 사이트 p태크에서 class가 cjs_ht인 데이터를 출력하세요.

In [102]:
from bs4 import BeautifulSoup
import requests as rq
url = 'https://news.naver.com/'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html, 'lxml')

# print(bs.find('p', class_="cjs_ht"))
print(bs.find_all('p', {'class':"cjs_d"}))

[<p class="cjs_d">“북한 장교들은 한국의 초코파이와 도리토스(나초칩)를 좋아했어요.” 2013년부터 2021년까지 유엔군 사령부 소속으로 비무장지대(DMZ)에서 근무한 미국 해군 퇴역 장교 대니얼 맥셰인 전 소령은 지난달 28일 미 </p>, <p class="cjs_d">“내 머리 위를 넘어 기시다 총리의 발밑에 떨어진 순간 폭탄인 줄 알았어요.” 4월15일 오전 11시30분께, 와카야마시 사이카자키 어시장에서 중의원 보궐선거 지원 연설을 하려던 기시다 후미오 총리를 향해 연막탄 크</p>, <p class="cjs_d">마이크로바이옴 시장의 게임체인저가 등장했다. 투약 방법의 불편함이 마이크로바이옴 치료제의 한계로 지적됐는데 간편하게 ‘먹는’ 방법의 마이크로바이옴 치료제가 세상에 나온 것이다. 이에 마이크로바이옴 치료제 시장 성장은</p>, <p class="cjs_d">정부가 메타버스 콘텐츠 창작자들을 위해 무료로 개방한 한국 전통문화 데이터가 일부 중국 누리꾼들의 댓글 테러로 몸살을 앓고 있습니다. 오늘(1일) 게임업계에 따르면 에픽게임즈가 운영하는 '언리얼 엔진 마켓플레이스'에</p>, <p class="cjs_d">세상을 바라보고 해석하는 시각이 남다른 Z세대(1990년대 중반~2000년대 초반 출생 세대). 그들이 바라보는 세상은 어떤 모습일까요. 머니S는 Z세대 기자들이 직접 발로 뛰며 그들의 시각으로 취재한 기사로 꾸미는</p>, <p class="cjs_d">겉모습은 꼰대지만 누구보다 맛에 진심인 이우석 먹고놀기연구소 소장이 풀어내는 쉬운 미식, 이번에는 호불호가 갈리기 십상인 매운탕 편으로 찾아왔습니다. 이우석 먹고놀기연구소 소장은 "횟집에서 회 뜨고 남은 생선으로 끓</p>, <p class="cjs_d">윤석열 대통령이 미국 백악관 국빈 만찬에서 '아메리칸 파이'(American Pie)를 부른 모습이 여러 외신에도 보도되며 화제를 모으고 있다. 윤 대통령은 미국 국빈 방문 중 지난 달 26일(현지시간) 열린 백악관</p>

In [None]:
# Q. texts = bs.find_all('p', {'class':"cjs_d"})에서 한글만 출력하세요(p테그별로 열방향) 

In [103]:
texts = bs.find_all('p', {'class':'cjs_d'})

for text in texts:
    print(text.text,'\n')

“북한 장교들은 한국의 초코파이와 도리토스(나초칩)를 좋아했어요.” 2013년부터 2021년까지 유엔군 사령부 소속으로 비무장지대(DMZ)에서 근무한 미국 해군 퇴역 장교 대니얼 맥셰인 전 소령은 지난달 28일 미  

“내 머리 위를 넘어 기시다 총리의 발밑에 떨어진 순간 폭탄인 줄 알았어요.” 4월15일 오전 11시30분께, 와카야마시 사이카자키 어시장에서 중의원 보궐선거 지원 연설을 하려던 기시다 후미오 총리를 향해 연막탄 크 

마이크로바이옴 시장의 게임체인저가 등장했다. 투약 방법의 불편함이 마이크로바이옴 치료제의 한계로 지적됐는데 간편하게 ‘먹는’ 방법의 마이크로바이옴 치료제가 세상에 나온 것이다. 이에 마이크로바이옴 치료제 시장 성장은 

정부가 메타버스 콘텐츠 창작자들을 위해 무료로 개방한 한국 전통문화 데이터가 일부 중국 누리꾼들의 댓글 테러로 몸살을 앓고 있습니다. 오늘(1일) 게임업계에 따르면 에픽게임즈가 운영하는 '언리얼 엔진 마켓플레이스'에 

세상을 바라보고 해석하는 시각이 남다른 Z세대(1990년대 중반~2000년대 초반 출생 세대). 그들이 바라보는 세상은 어떤 모습일까요. 머니S는 Z세대 기자들이 직접 발로 뛰며 그들의 시각으로 취재한 기사로 꾸미는 

겉모습은 꼰대지만 누구보다 맛에 진심인 이우석 먹고놀기연구소 소장이 풀어내는 쉬운 미식, 이번에는 호불호가 갈리기 십상인 매운탕 편으로 찾아왔습니다. 이우석 먹고놀기연구소 소장은 "횟집에서 회 뜨고 남은 생선으로 끓 

윤석열 대통령이 미국 백악관 국빈 만찬에서 '아메리칸 파이'(American Pie)를 부른 모습이 여러 외신에도 보도되며 화제를 모으고 있다. 윤 대통령은 미국 국빈 방문 중 지난 달 26일(현지시간) 열린 백악관 

윤석열 대통령의 5박7일 국빈 방미 일정이 끝난 가운데 대통령의 미 의회 ‘영어’ 연설에 관한 반응이 뜨거웠다. 이와 관련 중요한 것은 ‘외교 성과’라는 지적과 함께 외신의 보도 내용도 눈길을 끈다. 태영호 국민의힘 

소시에테제네랄(SG)증권 발 

In [107]:
texts = bs.find_all('p',{'class':'cjs_d'})
for i in texts:
    t = ' '.join(re.findall('[가-힣]+',i.text))
    print(t)

북한 장교들은 한국의 초코파이와 도리토스 나초칩 를 좋아했어요 년부터 년까지 유엔군 사령부 소속으로 비무장지대 에서 근무한 미국 해군 퇴역 장교 대니얼 맥셰인 전 소령은 지난달 일 미
내 머리 위를 넘어 기시다 총리의 발밑에 떨어진 순간 폭탄인 줄 알았어요 월 일 오전 시 분께 와카야마시 사이카자키 어시장에서 중의원 보궐선거 지원 연설을 하려던 기시다 후미오 총리를 향해 연막탄 크
마이크로바이옴 시장의 게임체인저가 등장했다 투약 방법의 불편함이 마이크로바이옴 치료제의 한계로 지적됐는데 간편하게 먹는 방법의 마이크로바이옴 치료제가 세상에 나온 것이다 이에 마이크로바이옴 치료제 시장 성장은
정부가 메타버스 콘텐츠 창작자들을 위해 무료로 개방한 한국 전통문화 데이터가 일부 중국 누리꾼들의 댓글 테러로 몸살을 앓고 있습니다 오늘 일 게임업계에 따르면 에픽게임즈가 운영하는 언리얼 엔진 마켓플레이스 에
세상을 바라보고 해석하는 시각이 남다른 세대 년대 중반 년대 초반 출생 세대 그들이 바라보는 세상은 어떤 모습일까요 머니 는 세대 기자들이 직접 발로 뛰며 그들의 시각으로 취재한 기사로 꾸미는
겉모습은 꼰대지만 누구보다 맛에 진심인 이우석 먹고놀기연구소 소장이 풀어내는 쉬운 미식 이번에는 호불호가 갈리기 십상인 매운탕 편으로 찾아왔습니다 이우석 먹고놀기연구소 소장은 횟집에서 회 뜨고 남은 생선으로 끓
윤석열 대통령이 미국 백악관 국빈 만찬에서 아메리칸 파이 를 부른 모습이 여러 외신에도 보도되며 화제를 모으고 있다 윤 대통령은 미국 국빈 방문 중 지난 달 일 현지시간 열린 백악관
윤석열 대통령의 박 일 국빈 방미 일정이 끝난 가운데 대통령의 미 의회 영어 연설에 관한 반응이 뜨거웠다 이와 관련 중요한 것은 외교 성과 라는 지적과 함께 외신의 보도 내용도 눈길을 끈다 태영호 국민의힘
소시에테제네랄 증권 발 주가 폭락 사태와 관련해 피해자라고 나선 가서 임창정이 이른바 조 축하 파티 에 이어 또 다른 고액 투자자 모임에도 임 씨가 나간 사실이 일 밝혀졌다 에 따르면 임창정은 

In [108]:
texts = bs.find_all('p', {'class':"cjs_d"})
for t in texts:
    t = str(t)
    t = re.findall('[가-힣]+',t)
    t = ' '.join(t)
    print(t,'\n')

북한 장교들은 한국의 초코파이와 도리토스 나초칩 를 좋아했어요 년부터 년까지 유엔군 사령부 소속으로 비무장지대 에서 근무한 미국 해군 퇴역 장교 대니얼 맥셰인 전 소령은 지난달 일 미 

내 머리 위를 넘어 기시다 총리의 발밑에 떨어진 순간 폭탄인 줄 알았어요 월 일 오전 시 분께 와카야마시 사이카자키 어시장에서 중의원 보궐선거 지원 연설을 하려던 기시다 후미오 총리를 향해 연막탄 크 

마이크로바이옴 시장의 게임체인저가 등장했다 투약 방법의 불편함이 마이크로바이옴 치료제의 한계로 지적됐는데 간편하게 먹는 방법의 마이크로바이옴 치료제가 세상에 나온 것이다 이에 마이크로바이옴 치료제 시장 성장은 

정부가 메타버스 콘텐츠 창작자들을 위해 무료로 개방한 한국 전통문화 데이터가 일부 중국 누리꾼들의 댓글 테러로 몸살을 앓고 있습니다 오늘 일 게임업계에 따르면 에픽게임즈가 운영하는 언리얼 엔진 마켓플레이스 에 

세상을 바라보고 해석하는 시각이 남다른 세대 년대 중반 년대 초반 출생 세대 그들이 바라보는 세상은 어떤 모습일까요 머니 는 세대 기자들이 직접 발로 뛰며 그들의 시각으로 취재한 기사로 꾸미는 

겉모습은 꼰대지만 누구보다 맛에 진심인 이우석 먹고놀기연구소 소장이 풀어내는 쉬운 미식 이번에는 호불호가 갈리기 십상인 매운탕 편으로 찾아왔습니다 이우석 먹고놀기연구소 소장은 횟집에서 회 뜨고 남은 생선으로 끓 

윤석열 대통령이 미국 백악관 국빈 만찬에서 아메리칸 파이 를 부른 모습이 여러 외신에도 보도되며 화제를 모으고 있다 윤 대통령은 미국 국빈 방문 중 지난 달 일 현지시간 열린 백악관 

윤석열 대통령의 박 일 국빈 방미 일정이 끝난 가운데 대통령의 미 의회 영어 연설에 관한 반응이 뜨거웠다 이와 관련 중요한 것은 외교 성과 라는 지적과 함께 외신의 보도 내용도 눈길을 끈다 태영호 국민의힘 

소시에테제네랄 증권 발 주가 폭락 사태와 관련해 피해자라고 나선 가서 임창정이 이른바 조 축하 파티 에 이어 또 다른 고액 투자자 모임에도 임 씨가 나간 사실이 일 

In [117]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics'

r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'html.parser')

print(bs.find_all('h2'),'\n')
print(bs.find('h2',id='mainContent').text)

[<h2 class="screen_out">뉴스 메인메뉴</h2>, <h2 class="screen_out" id="mainContent">정치</h2>, <h2 class="tit_direct">바로가기</h2>, <h2 class="screen_out">서비스 이용정보</h2>] 

정치


In [308]:
# Q. 네이버 영화 랭킹 조회순 첫번째 영화제목을 출력하세요.

In [118]:
url = 'https://serieson.naver.com/v3/movie/ranking/realtime'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'html.parser')
print(bs.find('span',class_='Title_title__s9o0D').text)

던전 앤 드래곤: 도적들의 명예


In [307]:
import requests
from bs4 import BeautifulSoup

url = "https://serieson.naver.com/v3/movie/ranking/realtime"

# HTTP GET 요청을 보냅니다.
response = requests.get(url)

# HTTP 요청이 성공적으로 전달되었다면, 웹사이트의 HTML 코드를 가져옵니다.
if response.status_code == 200:
    # HTML 코드를 파싱합니다.
    soup = BeautifulSoup(response.text, "html.parser")
# print(soup)
soup.find("span", class_="Title_title__s9o0D").text

'던전 앤 드래곤: 도적들의 명예'

#### 과제5_0501.
네이버 영화 랭킹 실시간 조회 데이터를 가져와서 Top 10 영화를 아래와 같이 출력하세요.

In [None]:
1: 던전 앤 드래곤: 도적들의 명예
2: 존 윅
3: 존 윅 3: 파라벨룸

#### 과제6_0501.
url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100' 사이트에서 뉴스기사 제목을 출력하세요. 

In [120]:
from bs4 import BeautifulSoup 
import re # 정규 표현식을 사용할 때 
html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""
soup = BeautifulSoup(html, "html.parser")
# 정규 표현식으로 href에서 https인 것 추출하기 
li = soup.find_all(href=re.compile(r"^https://"))
print(li,'\n')
for e in li: print(e.attrs['href'])

[<a href="https://example.com/fuga">fuga*</a>, <a href="https://example.com/foo">foo*</a>] 

https://example.com/fuga
https://example.com/foo


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용

In [124]:
# select_one()
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics#1'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')

# lines = bs.select('body > div > main > section > div.main-sub > div > ul > li:nth-child(1) > strong > a')
line = bs.select_one('body > div > main > section > div.main-sub > div > ul > li:nth-child(1) > strong > a')

print(line.text)

용혜인 "'초단시간 노동자 권리찾기법' 발의 추진"


In [125]:
# select()
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics#1'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')

# lines = bs.select('body > div > main > section > div.main-sub > div > ul > li:nth-child(1) > strong > a')
lines = bs.select('body > div > main > section > div > div > ul > li > strong > a')
body = '\n'.join([line.text for line in lines])
print(body)


尹 지지율 4주 만에 반등 34.5%..'미국 국빈 방문 영향'
송영길 측 회계담당자, 수사 직전 파리 방문…"가족 요청"
증평역 설치 100주년…군청 앞에 기념 표지판 제막
천아용인 모였다…이준석 “1000원밥? 똑바로 하면 2만원 내고도 온다”
용혜인 "'초단시간 노동자 권리찾기법' 발의 추진"
나라 곳간 우려는 뒷전... 재정소요 법안 '비용추계서 제출' 유명무실
5월 임시국회 시작…여야, '노란봉투법' 충돌 예고
민주당 “맞벌이 학부모 위한 주 4일제 적극 검토”
尹대통령, 한총리와 주례회동 취소…"방미 직후 사정 등 고려"
노동절에 노동자 갈라치는 대통령…“고용세습 뿌리 뽑겠다”


In [None]:
# Q. 한글만 출력하세요( 개행 없이)

In [126]:
texts = re.findall('[가-힣0-9]+',body)
print(' '.join(texts))

지지율 4주 만에 반등 34 5 미국 국빈 방문 영향 송영길 측 회계담당자 수사 직전 파리 방문 가족 요청 증평역 설치 100주년 군청 앞에 기념 표지판 제막 천아용인 모였다 이준석 1000원밥 똑바로 하면 2만원 내고도 온다 용혜인 초단시간 노동자 권리찾기법 발의 추진 나라 곳간 우려는 뒷전 재정소요 법안 비용추계서 제출 유명무실 5월 임시국회 시작 여야 노란봉투법 충돌 예고 민주당 맞벌이 학부모 위한 주 4일제 적극 검토 대통령 한총리와 주례회동 취소 방미 직후 사정 등 고려 노동절에 노동자 갈라치는 대통령 고용세습 뿌리 뽑겠다


#### 과제7_0501.
네이버 뉴스 데이터 사회분야 데이터를 가져와서 다음을 수행하세요.
- 첫번째 뉴스 제목과 href를 출력
- 뉴스 전체 제목과 href를 출력(열방향)

In [360]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://news.daum.net/politics#1'
r = rq.get(url)
html = r.text
bs = BeautifulSoup(html,'lxml')
lines = bs.select('body > div > main > section > div > div > ul > li > strong > a')
for line in lines:
    print(line.text)

금융위기 때 부실 금융사도 지원했으면서…피해 세입자는 왜?
여야, 엇갈린 방미 평가...'전세 사기 특별법' 본격 논의
내일 윤리위 첫 회의, 김재원 '5·18 이전 징계' 무게  [시사스페셜]
30대 퇴직금 평균 1180만원…전체 평균의 79% 수준
박광온 `통합` 내세웠지만… 민주당 계파결집 갈수록 심화
적과 아군 뿐인 ‘치명적’ 윤석열 외교…북·중·러 반발 거세진다
檢, 송영길 금품살포 공범 영장 적시…"지시 여부 확인할 것"
돈봉투·쇄신·개딸… 野 새 원내사령탑 과제 산적
북한, 연일 '워싱턴 선언' 비난…릴레이 도발 나서나
與, 윤리위·노동개혁특위 본격 가동
