Beautiful Soup Documentation
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [2]:
import warnings
warnings.filterwarnings('ignore')

import random
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats
from scipy.stats import t, norm, chi2, chi2_contingency

import math, scipy, sympy
from bs4 import BeautifulSoup as BS
import requests, re, urllib

from urllib import robotparser
from urllib.request import urlopen
import chardet

from matplotlib import rc
rc('font', family='Malgun Gothic')      #한글 폰트설정
plt.rcParams['axes.unicode_minus']=False      #마이너스 부호 출력 설정

findall은 요소의 태그 이름과 속성 값을 기준으로 검색하고, select는 CSS 선택자(요소의 태그 이름, 클래스, ID, 속성 등)를 사용하여 요소를 선택
#### => 사용법 비슷. 요소를 선택하는 방법에서 차이가 있을 뿐.

In [3]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

In [4]:
from bs4 import BeautifulSoup as BS
soup = BS(html_doc, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [5]:
print(soup.title,'\n')
print(soup.title.name,'\n')
print(soup.title.parent.name,'\n')
print(soup.p,'\n')   # p태그 첫 번째 데이터
print(soup.a,'\n')   # a태그 첫 번째 데이터
print(soup.find('a'),'\n')   # a태그 첫 번째 데이터
print(soup.a['class'],'\n')   # a의 클래스
print(soup.find_all('a'),'\n')   # 모든 a태그 데이터
print(soup.find_all(class_='sister'),'\n')   # 언더바 주의
print(soup.find(id='link3'),'\n')
print(soup.find(class_='story'),'\n')

<title>The Dormouse's story</title> 

title 

head 

<p class="title"><b>The Dormouse's story</b></p> 

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a> 

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a> 

['sister'] 

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>] 

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>] 

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a> 

<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2"

In [6]:
for link in soup.find_all('a'):
    print(link.get('href'))

http://example.com/elsie
http://example.com/lacie
http://example.com/tillie


In [7]:
soup.find_all()

[<html><head><title>The Dormouse's story</title></head>
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
 and they lived at the bottom of a well.</p>
 <p class="story">...</p>
 </body></html>,
 <head><title>The Dormouse's story</title></head>,
 <title>The Dormouse's story</title>,
 <body>
 <div></div>
 <p class="title"><b>The Dormouse's story</b></p>
 <p class="story">Once upon a time there were three little sisters; and their names were
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;

#### string vs. get_text() vs. text
- BeautifulSoup 객체에서 text 속성, get_text() 메서드, string 속성은 모두 HTML 또는 XML 문서에서 텍스트 데이터를 추출하는 데 사용
- text 속성은 해당 태그에서 모든 텍스트 데이터를 가져오며, 
- get_text() 메서드도 동일한 결과를 반환합니다. 
- string 속성은 해당 태그에서 첫 번째로 발견된 문자열 데이터만 가져옵니다.

In [8]:
html = '''
<html>
<body>
<div>
Hello,world!
</div>
<div>
<p>
Hello,<b>world!</b>
</p>
</div>        
</body>
</html>
'''

In [9]:
from bs4 import BeautifulSoup as BS
soup = BS(html, 'html.parser')
print(soup.prettify())

<html>
 <body>
  <div>
   Hello,world!
  </div>
  <div>
   <p>
    Hello,
    <b>
     world!
    </b>
   </p>
  </div>
 </body>
</html>



In [10]:
print(soup.div.text)
print(soup.div.get_text())
print(soup.div.string)


Hello,world!


Hello,world!


Hello,world!



In [11]:
# text 속성
print(soup.p.text)

# get_text 메서드
print(soup.p.get_text())

# string 속성
print(soup.p.string)
print(soup.p.b.string)
print(soup.b.string)


Hello,world!


Hello,world!

None
world!
world!


In [12]:
# body에 있는 모든 text
bs = soup.body.text
bs = re.findall('.+',bs)
for i in bs:
    print(i)

Hello,world!
Hello,world!


In [13]:
bs = soup.body.text
bs = re.findall('.+',bs)
print(' '.join(bs))

Hello,world! Hello,world!


In [14]:
bs = soup.body.text
re.sub(r'\n',' ',bs)

'  Hello,world!    Hello,world!   '

In [15]:
bs = soup.body.text
bs = re.findall('.+',bs)

li = ''
for t in bs:
    li += t
    li += ' '
print(li)

Hello,world! Hello,world! 


In [16]:
html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BS(html_doc, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <div>
  </div>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [17]:
bs = str(soup)
print(bs,'\n',type(bs))

<html><head><title>The Dormouse's story</title></head>
<body>
<div></div>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
</body></html> 
 <class 'str'>


In [18]:
# 영어 텍스트만 출력
p = re.findall('[a-zA-Z]+',bs)
' '.join(p)

'html head title The Dormouse s story title head body div div p class title b The Dormouse s story b p p class story Once upon a time there were three little sisters and their names were a class sister href http example com elsie id link Elsie a a class sister href http example com lacie id link Lacie a and a class sister href http example com tillie id link Tillie a and they lived at the bottom of a well p p class story p body html'

In [19]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [20]:
print(soup.get_text())
print(soup.text)

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...

The Dormouse's story


The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [21]:
texts = soup.find_all('body')
li=''
for t in texts:
    li +=t.text
print(li)



The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...



In [22]:
re.sub('\n','',li)

"The Dormouse's storyOnce upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;and they lived at the bottom of a well...."

In [23]:
texts = soup.find_all('body')
a=''
for i in texts:
    t = re.findall('.+', i.text)
    a+=' '.join(t)
a

"The Dormouse's story Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well. ..."

In [24]:
texts = soup.body.text
t = re.findall('.+',texts)
' '.join(t)

"The Dormouse's story Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well. ..."

bs<br>
https://hi-guten-tag.tistory.com/8

#### html.parser vs. lxml
- 파이썬에서 HTML 및 XML 문서를 파싱(parsing)하는 라이브러리
- html.parser는 HTML 문서를 파싱하는 데에 적합한 파서. 파이썬의 기본 라이브러리로 제공되며 파이썬 내부적으로 구현되어 있으며, 외부 종속성이 없으므로 파이썬과 함께 설치되는 패키지만 사용할 수 있습니다.
- lxml은 C 언어로 작성된 파이썬 외부 라이브러리로서 HTML 및 XML 문서를 파싱하는 데에 적합하며, 파서 성능이 매우 우수합니다.
- HTML 문서를 파싱하는 경우에는 html.parser를 사용하는 것이 간단하고 편리하며, 대부분의 경우에는 충분한 성능을 제공합니다. 그러나 대용량의 XML 문서나 매우 복잡한 HTML 문서를 파싱해야 하는 경우에는 lxml을 사용하는 것이 더 효율적입니다.

In [25]:
!pip install lxml



#### urllib + bs

In [26]:
url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100'
html = urllib.request.urlopen(url)
bs = BS(html, 'html.parser')
bs


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh">
<meta content="width=1106" name="viewport">
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image">
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author">
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" name="twitter

In [27]:
text1 = bs.find('p')
print(text1,'\n')

text2 = bs.find('p').string   # string는 태그의 첫줄만 뽑아냄 (첫줄 값->없음)
print(text2,'\n')

text3 = bs.find('p').get_text()   # get_text로 해야 전부 나옴
print(text3)

<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p> 

None 

AiRS추천으로 구성된 뉴스를 제공합니다.


In [28]:
texts = bs.find_all('p')
for t in texts:
    print(t.text)

AiRS추천으로 구성된 뉴스를 제공합니다.
오전 9시~오전 10시까지 집계한 결과입니다.
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.


#### bs4에서 headers는 
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

- HTTP 요청을 보낼 때 요청 헤더를 설정하는 데 사용됩니다. 
- 일반적으로 웹 사이트에서 데이터를 스크래핑하려면, 해당 웹 사이트에서 HTTP 요청을 받을 때 자신이 웹 브라우저인 것처럼 보이도록 요청 헤더를 설정해야 합니다. 
- 이를 통해 웹 사이트는 봇이나 크롤러와 같은 자동화된 스크래핑 도구에서 요청을 보내는 것으로 인식하는 것을 방지할 수 있습니다.

chardet.detect(response.content)['encoding']
response.content
encoding 변수에 저장한 후, response.content를 이 encoding 방식으로 디코딩하여 html 변수에 저장하고 출력

#### ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '현재 연결은 원격 호스트에 의해 강제로 끊겼습니다', None, 10054, None))
이때 헤더를 설정해줌으로서 웹사이트에 접근 가능

In [29]:
import chardet

# HTTP 요청에서 사용될 헤더 정보를 설정
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}

# 웹사이트에서 스크래핑할 URL을 지정
url  = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'

# 지정된 URL에 HTTP GET요청을 전달
response = requests.get(url, headers=headers)

# HTTP 요청이 성공적으로 전달되었다면, 웹사이트의 HTML코드 출력
if response.status_code==200:
    encoding = chardet.detect(response.content)['encoding']
    print(response.content.decode(encoding))   #웹사이트의 HTML코드를 포함하는 이진(바이너리) 데이터를 반환
#     print(response.text)  #웹사이트의 HTML코드를 문자열 형태로 반환
else:
    print('HTTP request failed.')





<!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="euc-kr">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="referrer" contents="always">
<meta http-equiv="refresh" content="600" />
<meta name="viewport" content="width=1106" />

    
    
        
            
                
                    
                    
                    
                    
                        
	                        
		                        
		                        
		                        
		                    
		                    
		                    
		                    
		                    
		                    
		                    
		                
                    
                    
                
            
            
            
            
            
        
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    
    

<meta property="og:t

In [30]:
# 한글만 뽑기
text = response.content.decode(encoding)
result = ' '.join(re.findall('[가-힣]+',text))
print(result)

정치 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 네이버 정치 네이버 뉴스 네이버 뉴스 네이버 뉴스 국회 행정 국방 외교 등 정치 분야 뉴스 제공 정치 홈 네이버 뉴스 광고적용 태그 추가 메인 메뉴로 바로가기 본문으로 바로가기 검색 뉴스 연예 스포츠 날씨 프리미엄 언론사별 정치 선택됨 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언 팩트체크 전체 언론사 전체 언론사 뉴스스탠드 뉴스스탠드 라이브러리 라이브러리 화 전체 언론사 전체 언론사 뉴스스탠드 뉴스스탠드 라이브러리 라이브러리 기사목록 정치 대통령실 국회 정당 북한 행정 국방 외교 정치일반 언론사 구독하기 네이버 프리미엄콘텐츠 안내 헤드라인 뉴스 헤드라인 뉴스와 각 기사묶음 타이틀은 기사 내용을 기반으로 자동 추출 됩니다 닫기 이재명 방탄 소급입법까지 허위사실 공표 처벌 못하게 개정 추진 선거법 개정안 소급 적용 추진 민주당 일부 의원이 이재명 대표가 공직선거법 위반으로 기소되기 일 전인 작년 월 일 이 대표 기소의 근거 조항을 조선일보 헤럴드경제 이재명 처벌근거 삭제법은 방탄 장경태 이제와서 의도 의심 뉴시스 이재명 방탄 선거법 개정 음흉한 시도 방탄 관련 없어 종합 연합뉴스 월 국회 소집 작년 월부터 방탄국회 여념없어 개의 관련뉴스 더보기 정부 전세피해 특별법 지원요건 개 개 축소안 제시 국토교통부가 전세사기 피해지원 특별법 적용 기준 가지로 줄인 수정안을 제시했다 기존에 나왔던 가지 기준이 협소하다는 지적에 따라 적용 범위를 일부 헤럴드경제 여야 전세사기 특별법 합의 불발 추후 재논의 예정 매일경제 전세사기 늪에 빠진 대한민국 정부 특별법 만들어 구제 나서 경제기사 이렇게 읽어요 국민일보 전세사기 특별법 합의 불발 선매입 후구상 놓고 이견 개의 관련뉴스 더보기 단독 미 전략핵잠 핵 무장 하고 방한 중하순 유력 오하이오급 잠수함에서 발사되는 트라이던트 한미 정상의 워싱턴 선언에 따라 우리 항구에 기항할 미 해군 전략핵잠수함이 핵탄두를 탑재하는지 관심 부산일보 단독 핵탄두 탑재 오는 일

In [31]:
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
url  = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'

html = requests.get(url, headers=headers).text
bs = BS(html, 'lxml')
print(bs.prettify)

<bound method Tag.prettify of <!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=1106" name="viewport"/>
<meta content="정치 : 네이버 뉴스" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="정치 : 네이버 뉴스" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800

In [32]:
bs.find('div')

<div id="wrap">
<!-- 광고적용 태그 추가 -->
<div id="da_base"></div>
<div id="da_stake"></div>
<div class="header" id="header">
<div id="u_skip">
<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>
<a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>
</div>
<div class="snb_area">
<div class="snb_inner">
<div class="gnb_area">
<div class="gnb_wrap">
<div class="gnb_dark_type2" id="gnb"></div>
</div>
<div class="gnb_search is_hidden _search_content">
</div>
<div class="gnb_tool" id="gnb_search_tool">
<a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>
</div>
</div>
<div id="snb_wrap">
<h1>
<a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>
<a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>
</h1>
<ul class="snb_related_service">
<li><span class="snb_bdr"></span><a class="entertain nclicks(gnb.enter)" href="https://entertain.nav

In [33]:
bs.find('div', id=True)   # id가 존재하는 div

<div id="wrap">
<!-- 광고적용 태그 추가 -->
<div id="da_base"></div>
<div id="da_stake"></div>
<div class="header" id="header">
<div id="u_skip">
<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>
<a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>
</div>
<div class="snb_area">
<div class="snb_inner">
<div class="gnb_area">
<div class="gnb_wrap">
<div class="gnb_dark_type2" id="gnb"></div>
</div>
<div class="gnb_search is_hidden _search_content">
</div>
<div class="gnb_tool" id="gnb_search_tool">
<a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>
</div>
</div>
<div id="snb_wrap">
<h1>
<a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>
<a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>
</h1>
<ul class="snb_related_service">
<li><span class="snb_bdr"></span><a class="entertain nclicks(gnb.enter)" href="https://entertain.nav

In [34]:
bs.find('div', id='header')

<div class="header" id="header">
<div id="u_skip">
<a href="#lnb" tabindex="1"><span>메인 메뉴로 바로가기</span></a>
<a href="#main_content" tabindex="2"><span>본문으로 바로가기</span></a>
</div>
<div class="snb_area">
<div class="snb_inner">
<div class="gnb_area">
<div class="gnb_wrap">
<div class="gnb_dark_type2" id="gnb"></div>
</div>
<div class="gnb_search is_hidden _search_content">
</div>
<div class="gnb_tool" id="gnb_search_tool">
<a class="tool_button _search_content_toggle_btn nclicks(gnb.sch)" href="javascript:;"><span class="icon_search">검색</span></a>
</div>
</div>
<div id="snb_wrap">
<h1>
<a class="h_logo nclicks(gnb.naver)" href="https://www.naver.com/"><span class="blind">NAVER</span></a>
<a class="h_news nclicks(gnb.news)" href="/"><span class="blind">뉴스</span></a>
</h1>
<ul class="snb_related_service">
<li><span class="snb_bdr"></span><a class="entertain nclicks(gnb.enter)" href="https://entertain.naver.com/home">TV연예</a></li>
<li><span class="snb_bdr"></span><a class="sports nclicks(gn

In [35]:
# div 중 '메인 메뉴로 바로가기' 출력
print(bs.div.find("a", href=True).get_text())
print(bs.div.find("a", href='#lnb').get_text())
print(bs.select_one("[tabindex = '1']").text)

메인 메뉴로 바로가기
메인 메뉴로 바로가기
메인 메뉴로 바로가기


In [36]:
lists = bs.find('div',id=True).find_all('a')
for i in lists:
    print(i.text)

메인 메뉴로 바로가기
본문으로 바로가기
검색
NAVER
뉴스
TV연예
스포츠
날씨
프리미엄
언론사별 
정치 선택됨
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 
전체 언론사
뉴스스탠드
라이브러리
전체 언론사
뉴스스탠드
라이브러리
정치
대통령실 
국회/정당 
북한 
행정 
국방/외교 
정치일반 


안내헤드라인 뉴스



與 윤리위, 김재원·태영호 징계 개시 오는 8일 당사자 소명 [뉴시스Pic]
[속보] 與윤리위, '설화' 김재원·태영호 징계절차 개시
與윤리위, 김재원·태영호 징계 개시…김재원 “대단히 죄송”
與, ‘설화’ 김재원 징계절차 개시… 金 “사퇴 생각 안해”
98개의 관련뉴스 더보기



"나 방첩사야" 사칭 민간인, 해병대 영내 활보하다 검거
"나 방첩사 소속이야"…차량에 경광등 단 민간인에 뚫린 해병대
민간인이 해병대 침입해 영내 2시간 활보…“방첩사 사칭”
"나 방첩사 소속이야" 사칭 민간인, 해병대 부대 2시간 넘게 활보하다 검거
20개의 관련뉴스 더보기



⑤지지부진한 3대 개혁…돌파구는?[尹정부 1년]
與 노동개혁특위 오늘 출범..."개혁 입법 방안 논의"
국민의힘 노동개혁특위 출범…'공정채용법' 추진
與, 오늘 노동개혁특위 출범…공정성·노사법치 등 대안 마련
7개의 관련뉴스 더보기



한총리, 美 하원의원과 만나…"IRA 상호협력 방향으로 가야"
김의장 만난 美하원의원단 "尹대통령, 환상적인 방미"
美 하원의원단 만난 韓총리 “IRA, 상호 투자 증진의 계기”
한총리 "한미 정상, 북 비핵화 공조 의지 확인"
17개의 관련뉴스 더보기



민주 원내수석에 '비명' 송기헌…원내대변인은 김한규·이소영



민주 원내 진용 새단장…비명·소장파 전면에
62개의 관련뉴스 더보기
전세사기 피해 특별법 적용대상 대폭 늘린다



전세사기 피해, 미추홀은 맞지만 동탄은 아니다?
79개의 관련뉴스 더보기
尹 “한미 산업·교육동맹 확장… 청년 위한 플랫폼으로”



윤 대통령 “업그레이드된 한·미 동맹, 

In [37]:
url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=100' 
html = urllib.request.urlopen(url)

bs = BS(html, 'lxml')
text = bs.find_all('p')
print(text)

[<p class="airs_info_inner"><i class="airs_info_icon_airs">AiRS</i><span class="airs_info_text"><b>추천</b>으로 구성된 뉴스를 제공합니다.</span></p>, <p class="section_sub_txt">오전 9시~오전 10시까지 집계한 결과입니다.</p>, <p class="copyright">본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.</p>]


In [38]:
for i in text:
    i = i.get_text()
    print(i)

AiRS추천으로 구성된 뉴스를 제공합니다.
오전 9시~오전 10시까지 집계한 결과입니다.
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다.


In [39]:
print(bs.prettify())

<!DOCTYPE HTML>
<html lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta contents="always" name="referrer"/>
  <meta content="600" http-equiv="refresh"/>
  <meta content="width=1106" name="viewport"/>
  <meta content="정치 : 네이버 뉴스" property="og:title"/>
  <meta content="website" property="og:type"/>
  <meta content="https://news.naver.com/main/main.naver?mode=LSD&amp;mid=shm&amp;sid1=100" property="og:url"/>
  <meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
  <meta content="국회, 행정, 국방, 외교 등 정치 분야 뉴스 제공" property="og:description"/>
  <meta content="네이버" property="og:article:author"/>
  <meta content="summary" name="twitter:card"/>
  <meta content="정치 : 네이버 뉴스" name="twitter:title"/>
  <meta content="네이버 뉴스" name="twitter:site"/>
  <meta content="네이버 뉴스" name="twitter:creator"/>
  <meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_

In [40]:
# p태그 데이터 모두 불러와 한글만 출력
for i in bs.find_all('p'):
    t = ' '.join(re.findall('[가-힣]+',i.text))
    print(t)

추천으로 구성된 뉴스를 제공합니다
오전 시 오전 시까지 집계한 결과입니다
본 콘텐츠의 저작권은 제공처 또는 네이버에 있으며 이를 무단 이용하는 경우 저작권법 등에 따라 법적책임을 질 수 있습니다


In [41]:
# requests
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=105"

res = requests.get(url).text
soup = BS(res,'html.parser')
wf = soup.find('wf').text
text = ''.join(re.findall('[^A-Z0-9]?[0-9가-힣]+[^A-Z0-9]?',wf))

text

'(강수) 5일(금)은 강원도에 비가 내리겠으며, 강원영동은 6일(토) 오전까지 이어지겠습니다.(기온) 5일(금)~7일(일) 아침 기온은 6~17도로 평년(최저기온 6~12도)과 비슷하거나 조금 높겠고, 낮 기온은 13~22도로 평년(최고기온 17~25도)보다 조금 낮겠습니다. 8일(월)~12일(금) 아침 기온은 3~15도로 평년(최저기온 6~12도)과 비슷하거나 조금 낮겠고, 낮 기온은 16~24도로 평년(최고기온 17~24도)과 비슷하겠습니다.(해상) 동해중부해상의 물결은 5일(금)~6일(토)은 1.0~3.0m로 높게 일겠습니다.(주말전망) 6일(토)~7일(일)은 대체로 흐리겠으나, 6일(토) 오전에 강원영동은 비가 내리겠습니다. 아침 기온은 6~15도, 낮 기온은 13~21도가 되겠습니다. 6일(토)은 저기압의 위치와 이동 속도에 따라 강수 구역이 변경될 가능성이 있으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.'

In [42]:
api = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"

# 매개변수를 url인코딩 합니다
values = {'stnld':'109'}    # 서울 109, 강원도 105... 등
params = urllib.parse.urlencode(values)

# 요청 전용 url을 생성합니다
url = api+'?'+params
print('url = ',url)

res = urllib.request.urlopen(url)
soup = BS(res, 'html.parser')

wf = soup.find('wf').string
text = ' '.join(re.findall('[^A-Z0-9]?[0-9가-힣]+[^A-Z0-9]',wf))
text

url =  http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnld=109


'(강수)  5일( 금) 은  전국  비,  6일( 토)  오전은  강원영동과  경상권,  제주도에  비가  오겠습니다. (기온)  5일( 금) ~6일( 토)  아침  기온은  14~ 19도로  평년( 최저기온  9~ 14도) 보다  높겠고,  7일( 일) ~12일( 금)  아침  기온은  8~ 15도로  평년과  비슷하겠습니다.  낮  기온은  18~ 25도로  평년( 최고기온  20~ 25도) 과  비슷하겠습니다. (주말전망)  6일( 토)  전국이  대체로  흐리고  오전에  강원영동과  경상권,  제주도에  비가  오겠습니다.  7일( 일) 은  전국이  구름많겠습니다.  아침  기온은  11~ 18도,  낮  기온은  18~ 22도가  되겠습니다.  6일( 토) 은  저기압의  위치와  이동  속도에  따라  강수  구역이  변경될  가능성이  있으니,  앞으로  발표되는  최신  예보를  참고하기  바랍니다.'

In [43]:
url = 'https://news.naver.com/'
html = urllib.request.urlopen(url)
bs = BS(html, 'lxml')
bs.find_all('p')

[<p class="cjs_d">‘SG증권발(發) 주가 폭락 사태’ 피해자라 주장해온 가수 임창정이 주가조작단과 동업한 정황이 포착됐다. 주범으로 지목된 라덕연 H투자자문사 대표를 ‘종교’라 칭하며 신뢰를 표한 모습 또한 공개됐다. 1일 JTBC </p>,
 <p class="cjs_d">최근 4년간 ‘SKY’로 불리는 서울대학교·연세대학교·고려대학교의 정시모집 합격자 중 71.6%가 수도권 출신인 것으로 확인됐다. 강득구 더불어민주당 의원(경기 안양만안)과 교육랩공공장은 최근 국회에서 기자회견을 열</p>,
 <p class="cjs_d">음주운전자에 의해 아까운 목숨들이 지고 있다. 지난 4월8일 대전시 둔산동 한 어린이보호구역에서 만취한 60대 운전자가 몰던 차량이 인도로 돌진했다. 차는 인도 위를 걸어가던 초등학생 4명을 덮쳤다. 배승아 양(만 </p>,
 <p class="cjs_d">회원 수 40만명에 육박하는 네이버 1위 명품 구매대행 카페에서 판매자가 물건을 주지 않은 채 돈만 가로챈 이른바 '먹튀' 사기 피해 잇따라 발생했다. 해당 카페에서 구매대행 판매자 A씨에게 물건을 받지 못했다는 피</p>,
 <p class="cjs_d">국민의힘 소속 양태석 거제시의원이 공식 석상에서 외국인 노동자 혐오 발언을 했다는 사실이 뒤늦게 알려져 여론의 뭇매를 맞고 있다. 지난달 20일, 양 의원은 거제시의회 경제관광위원회 외국인노동자 지원 조례안 심사 과</p>,
 <p class="cjs_d">AV 배우 인터뷰한 &lt;성+인물&gt; 논란, 어떻게 봐야하나? "AV산업은 일본 내 ‘성착취 구조’의 첨단에 자리합니다. 그 구조에 대한 비판적 고려 없이 이를 콘텐츠화한다뇨." - 이나영 중앙대학교 사회학과 교수 AV(</p>,
 <p class="cjs_d">인스타그램엔 하루에 9천500만 장의 사진이 올라온다. 이중 상당수는 자신의 모습이 담긴 셀카다. 사람들은 왜 셀카를 찍을까. 흔히 생각하는 바와는 달리, 자신을 과시하고 싶어 셀카를 찍는 것만은 아니

In [44]:
## find(): 하나의 요소만 가져옴
## limit(): 태그의 양을 제한
print(bs.find_all('p', limit=1),'\n')
print(bs.find_all('p', limit=5))

[<p class="cjs_d">‘SG증권발(發) 주가 폭락 사태’ 피해자라 주장해온 가수 임창정이 주가조작단과 동업한 정황이 포착됐다. 주범으로 지목된 라덕연 H투자자문사 대표를 ‘종교’라 칭하며 신뢰를 표한 모습 또한 공개됐다. 1일 JTBC </p>] 

[<p class="cjs_d">‘SG증권발(發) 주가 폭락 사태’ 피해자라 주장해온 가수 임창정이 주가조작단과 동업한 정황이 포착됐다. 주범으로 지목된 라덕연 H투자자문사 대표를 ‘종교’라 칭하며 신뢰를 표한 모습 또한 공개됐다. 1일 JTBC </p>, <p class="cjs_d">최근 4년간 ‘SKY’로 불리는 서울대학교·연세대학교·고려대학교의 정시모집 합격자 중 71.6%가 수도권 출신인 것으로 확인됐다. 강득구 더불어민주당 의원(경기 안양만안)과 교육랩공공장은 최근 국회에서 기자회견을 열</p>, <p class="cjs_d">음주운전자에 의해 아까운 목숨들이 지고 있다. 지난 4월8일 대전시 둔산동 한 어린이보호구역에서 만취한 60대 운전자가 몰던 차량이 인도로 돌진했다. 차는 인도 위를 걸어가던 초등학생 4명을 덮쳤다. 배승아 양(만 </p>, <p class="cjs_d">회원 수 40만명에 육박하는 네이버 1위 명품 구매대행 카페에서 판매자가 물건을 주지 않은 채 돈만 가로챈 이른바 '먹튀' 사기 피해 잇따라 발생했다. 해당 카페에서 구매대행 판매자 A씨에게 물건을 받지 못했다는 피</p>, <p class="cjs_d">국민의힘 소속 양태석 거제시의원이 공식 석상에서 외국인 노동자 혐오 발언을 했다는 사실이 뒤늦게 알려져 여론의 뭇매를 맞고 있다. 지난달 20일, 양 의원은 거제시의회 경제관광위원회 외국인노동자 지원 조례안 심사 과</p>]


In [45]:
url = 'https://news.naver.com/'
html = requests.get(url).text
bs = BS(html, 'html.parser')

bs.find('p', class_='cjs_ht')
bs.find_all('p', {'class':'cjs_d'})

[<p class="cjs_d">화요일인 오늘(26일) 전국이 대체로 맑은 가운데 내륙을 중심으로 큰 일교차가 나타나겠습니다. 한낮 최고기온은 26도까지 오르겠습니다. 기상청에 따르면 오늘 따뜻한 남서풍의 영향을 받아 전국 대부분 지역 낮 기온이 </p>,
 <p class="cjs_d">뉴스를 통해 우리를 웃고 울렸던 어제의 오늘을 다시 만나봅니다. 2015년 5월 2일. 이모씨(당시 25세)는 이날 밤 11시쯤 자신이 지내던 서울 관악구 신림동의 한 오피스텔에서 여자친구 김모씨(당시 26세)를 목</p>,
 <p class="cjs_d">가수 겸 배우 임창정 씨가 주가조작단이 개최한 한 투자자 모임에서 라덕연 대표에 대해 “아주 종교야!”라고 말한 모습이 공개됐다. 임씨는 자신도 주가조작의 피해자라고 호소하고 있다. 가수 겸 배우 임창정 (사진=뉴시</p>,
 <p class="cjs_d">10여년째 계획만 갖고 있는 청주동물원 이전 여부에 대해 청주시가 올해 안에 매듭을 짓겠다며 외부용역을 추진했는데 의회가 제동을 걸었습니다. 내년에 출범하는 시정연구원에 용역을 맡기라는 것인데 시간이 너무 지체된다는</p>,
 <p class="cjs_d">20대 국회 출판기념회 79건, 절반이 '총선 5개월 전' 열려 '북적북적' 출판기념회, 시중 판매는 뒷전…21대 의원 중 단 3명 공개 국회의원이 '작가'로 소개되는 장소. 출판기념회에서 의원들은 '책'을 팔지만,</p>,
 <p class="cjs_d">봉화산烽火山(920m) 우리나라에서 가장 흔한 산 이름이 봉화산이다. 5월 산행지로 추천하는 봉화산은 남원과 장수 경계에 있는 백두대간 주능선의 봉화산이다. 전북 남원시 아영면과 장수군 번암면의 경계를 이루는 이 산</p>,
 <p class="cjs_d">이진복 대통령실 정무수석은 2일 국민의힘 태영호 최고위원과 관련해 '공천 문제를 거론하며 한일 관계에 대해 옹호 발언을 해달라고 요청했다'는 MBC 보도에 대해 "그런 얘기를 전혀 나눈 적이 없다"고 말했다. 이

In [46]:
# 한글만 열방향으로 출력
texts = bs.find_all('p',{'class':'cjs_d'})

for i in texts:
    print(' '.join(re.findall('[가-힣0-9]+',i.text)))

화요일인 오늘 26일 전국이 대체로 맑은 가운데 내륙을 중심으로 큰 일교차가 나타나겠습니다 한낮 최고기온은 26도까지 오르겠습니다 기상청에 따르면 오늘 따뜻한 남서풍의 영향을 받아 전국 대부분 지역 낮 기온이
뉴스를 통해 우리를 웃고 울렸던 어제의 오늘을 다시 만나봅니다 2015년 5월 2일 이모씨 당시 25세 는 이날 밤 11시쯤 자신이 지내던 서울 관악구 신림동의 한 오피스텔에서 여자친구 김모씨 당시 26세 를 목
가수 겸 배우 임창정 씨가 주가조작단이 개최한 한 투자자 모임에서 라덕연 대표에 대해 아주 종교야 라고 말한 모습이 공개됐다 임씨는 자신도 주가조작의 피해자라고 호소하고 있다 가수 겸 배우 임창정 사진 뉴시
10여년째 계획만 갖고 있는 청주동물원 이전 여부에 대해 청주시가 올해 안에 매듭을 짓겠다며 외부용역을 추진했는데 의회가 제동을 걸었습니다 내년에 출범하는 시정연구원에 용역을 맡기라는 것인데 시간이 너무 지체된다는
20대 국회 출판기념회 79건 절반이 총선 5개월 전 열려 북적북적 출판기념회 시중 판매는 뒷전 21대 의원 중 단 3명 공개 국회의원이 작가 로 소개되는 장소 출판기념회에서 의원들은 책 을 팔지만
봉화산 920 우리나라에서 가장 흔한 산 이름이 봉화산이다 5월 산행지로 추천하는 봉화산은 남원과 장수 경계에 있는 백두대간 주능선의 봉화산이다 전북 남원시 아영면과 장수군 번암면의 경계를 이루는 이 산
이진복 대통령실 정무수석은 2일 국민의힘 태영호 최고위원과 관련해 공천 문제를 거론하며 한일 관계에 대해 옹호 발언을 해달라고 요청했다 는 보도에 대해 그런 얘기를 전혀 나눈 적이 없다 고 말했다 이 수
살을 빼려고 식사량을 줄이고 열심히 걷기 운동을 하는 사람이 있다 먹는 양을 갑자기 줄이고 한 시간 동안 걷는 데도 늘어난 체중은 변하지 않는다 다이어트 방법이 잘못된 것일까 덜 먹고 운동하는 데도 살이 안
유명 연예인 광고 포기 못하더니 국내 가상자산 거래소 코빗이 지난해 수백억원대 영업손실 기록했다 가상자산 시장 침체로 인한 거래수수

In [47]:
url = 'https://news.daum.net/politics'
r = requests.get(url).text
bs = BS(r,'html.parser')

for i in bs.find_all('h2', id='mainContent'):
    print(i.text)
    
bs.find_all('h2')

정치


[<h2 class="screen_out">뉴스 메인메뉴</h2>,
 <h2 class="screen_out" id="mainContent">정치</h2>,
 <h2 class="tit_direct">바로가기</h2>,
 <h2 class="screen_out">서비스 이용정보</h2>]

In [48]:
url = 'https://serieson.naver.com/v3/movie/ranking/realtime'
html = urllib.request.urlopen(url)
bs = BS(html, 'html.parser')
# print(bs.prettify())

bs.find('span',class_="Title_title__s9o0D").text

'던전 앤 드래곤: 도적들의 명예'

In [49]:
html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""
soup = BS(html, 'html.parser')

hi = soup.find_all(href=re.compile(r"^https://"))
for i in hi:
    print(i.attrs['href'])

https://example.com/fuga
https://example.com/foo


### CSS 선택자
- 원하는 정보만 선별하여 수집하고 싶을 때 css선택자를 활용할 수 있음
- (CSS 선택자 설명 추가)
- F12 >> 수집하고 싶은 부분 클릭 >> 태그 선택 >> copy Selector
- BeautifulSoup의 select_one, select 활용

In [50]:
url = 'https://news.daum.net/politics#1'
r = requests.get(url).text
bs = BS(r,'lxml')

li = 'body > div > main > section > div.main-sub > div > ul > li > strong > a'
# body > div.container-doc.cont-category > main > section > div.main-sub > div.box_g.box_news_major > ul > li:nth-child(1) > strong > a
# 'div.container-doc.cont-category', 'div.box_g.box_news_major' 등 태그만 남기고 세부경로 지우기
# 여러 뉴스의 헤드라인을 가져올 것이므로 'li:nth-child(1)' 지우기 (놔두면 1개만 나옴)

lines = bs.select(li)
body = '\n'.join([i.text for i in lines])

print(body, '\n')
print(' '.join(re.findall('[가-힣0-9]+',body)),'\n')   #한글/숫자만 쭉 출력

print(bs.select_one('body > div > main > section > div.main-sub > div > ul > li > strong > a').text)
print([i.text for i in bs.select('body > div > main > section > div.main-sub > div > ul > li:nth-child(1) > strong > a')])
# li:nth-child(1) 와 select_one 둘 다 같은 결과

[시선집중] "시진핑은 LG 공장까지 방문했는데.. 尹은 '장진호' 언급해 中 손절"
박광온 "지지자만으로 선거 못 이겨…확장성 싸움"
충주시, 사과·복숭아 공동 선별·출하 비용 지원 확대
태영호, ‘녹취록 파문’에 당내서도 역풍…“거짓말 멈추고 국회 떠나라”
노동절 다음날 ‘노조 때리기’ 들어간 與…“尹 노동개혁 뒷받침” [이런정치]
日기시다 “7~8일 방한 조정… 尹대통령과 깊은 신뢰”
포항시의회, 시내버스 보조금 과다 지급 질타
[돌쇠토론]尹의 공천개입? 태영호 녹취록, 왜 공개됐을까?
박광온 "전세 사기는 사회적 재난…정부 태도 전환 촉구"
宋 자진출두에 엇갈린 여야...박광온, 與 윤재옥 예방 

시선집중 시진핑은 공장까지 방문했는데 은 장진호 언급해 손절 박광온 지지자만으로 선거 못 이겨 확장성 싸움 충주시 사과 복숭아 공동 선별 출하 비용 지원 확대 태영호 녹취록 파문 에 당내서도 역풍 거짓말 멈추고 국회 떠나라 노동절 다음날 노조 때리기 들어간 노동개혁 뒷받침 이런정치 기시다 7 8일 방한 조정 대통령과 깊은 신뢰 포항시의회 시내버스 보조금 과다 지급 질타 돌쇠토론 의 공천개입 태영호 녹취록 왜 공개됐을까 박광온 전세 사기는 사회적 재난 정부 태도 전환 촉구 자진출두에 엇갈린 여야 박광온 윤재옥 예방 

[시선집중] "시진핑은 LG 공장까지 방문했는데.. 尹은 '장진호' 언급해 中 손절"
['[시선집중] "시진핑은 LG 공장까지 방문했는데.. 尹은 \'장진호\' 언급해 中 손절"']


In [None]:
url ='https://n.news.naver.com/mnews/article/032/0003161880?sid=101'


In [110]:
# 원하는 데이터 추출하기: 네이버증권 환전 고시 환율 가져오기
url = 'https://finance.naver.com/'
r = requests.get(url).text
bs = BS(r,'html.parser')
li='#content > div > div > div > table > tbody > tr > td'
li2='#content > div > div > div > table > tbody > tr > th > a'

for i in range(0,4):
    print(bs.select(li2)[i].text)
    print(bs.select(li)[i*2].text,':',bs.select(li)[i*2-1].text)

미국USD
1,339.20 : 하락 0.50
일본JPY (100엔)
974.28 : 하락 1.80
유럽연합EUR
1,471.78 : 하락 3.23
중국CNY
192.49 : 하락 2.78


In [111]:
html="""
<head>
    <title>crawler</title>
</head>
<body>
    <p class="a" align="center"> text1</p>
    <p class="b" align="center"> text2</p>
    <p class="c" align="center"> text3</p>
    <div>
        <img src="/source" width="300" height="200">
    </div>
</body>
</html>
"""

In [113]:
soup = BS(html, 'html.parser')
con = soup.find('body')
for c in con.children:
    print(c)



<p align="center" class="a"> text1</p>


<p align="center" class="b"> text2</p>


<p align="center" class="c"> text3</p>


<div>
<img height="200" src="/source" width="300"/>
</div>




In [115]:
res = urllib.request.urlopen('https://www.naver.com')
bdata = res.read()
html = bdata.decode('utf-8')
soup = BS(html, 'html.parser')

print(soup.find_all('a', {'class':'link_newsstand'}), '\n')
print(soup.findAll('a', {'class':'btn_sort'}))
# find_all = findAll 같음

[<a class="link_newsstand" data-clk="title" href="http://newsstand.naver.com/" target="_blank">뉴스스탠드</a>] 

[<a aria-controls="NM_NEWSSTAND_MY_LIST" aria-selected="false" class="btn_sort" data-clk="my" data-type="my" href="#" role="tab">구독한 언론사</a>, <a aria-controls="NM_NEWSSTAND_DEFAULT_THUMB" aria-selected="true" class="btn_sort" data-clk="all" data-type="all" href="#" role="tab">전체언론사</a>]


In [118]:
li = soup.find_all('a', {'class': {'link_newsstand','btn_sort'}})
# 2중 중괄호

for i in li:
    print(i.text)

뉴스스탠드
구독한 언론사
전체언론사


In [120]:
html = bdata.decode('utf-8')
bs = BS(html, 'html.parser')

li = bs.findAll({'h1','h2','h3','h4','h5','h6'}, limit=5)
for i in li:
    print(i,'\n')

<h1 class="logo_default">
<a class="logo_naver" data-clk="top.logo" href="/"><span class="blind">네이버</span></a>
</h1> 

<h2 class="blind">뉴스스탠드</h2> 

<h2 class="blind">주제별 캐스트</h2> 

<h2 class="blind">Sign in</h2> 

<h2 class="blind">타임스퀘어</h2> 



In [121]:
li = bs.findAll({'h1','h2','h3','h4','h5','h6'}, text='뉴스스탠드')
print(li)

[<h2 class="blind">뉴스스탠드</h2>]


In [125]:
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
url = "https://n.news.naver.com/mnews/article/032/0003161880?sid=101" # 네이버 기사 본문 페이지

req = requests.get(url, headers=headers)
soup = BS(req.content, "html.parser")

print(soup)

<!DOCTYPE html>

<html data-useragent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport">
<meta content="‘7% 할인’ 서울광역상품권 또 풀린다···“출생연도 홀짝수로 구매시간 분리”" property="og:title"/>
<meta content="article" property="og:type"/>
<meta content="https://n.news.naver.com/mnews/article/032/0003161880?sid=101" property="og:url"/>
<meta content="https://imgnews.pstatic.net/image/032/2022/07/24/0003161880_001_20220724112401144.jpg?type=w800" property="og:image"/>
<meta content="서울 25개 자치구 어디에서나 쓸 수 있는 ‘서울사랑상품권(광역상품권)’이 오는 28일 추가 발행된다. 1차 발행 때처럼 동시접속자가 몰리는 것을 막기 위해 이번에는 출생연도를 기준으로 홀수는 오전 10시부터, 짝수" property="og:description"/>
<meta content="경향신문 | 네이버" property="og:article:author"/>
<meta content="summary_large_image" nam

In [127]:
# 이미지 주소 추출 : #img1
target = soup.select_one("#img1")
print(target,'\n')

target = target["data-src"]
print(target)

<img class="_LAZY_LOADING" data-src="https://imgnews.pstatic.net/image/032/2022/07/24/0003161880_001_20220724112401144.jpg?type=w647" id="img1">
</img> 

https://imgnews.pstatic.net/image/032/2022/07/24/0003161880_001_20220724112401144.jpg?type=w647


In [128]:
# 네이버 환율 가져오기 : #exchangeList > li.on > a.head.usd > div > span.value
url = "https://finance.naver.com/marketindex/"
res = urllib.request.urlopen(url)
soup = BS(res, "html.parser")
print(soup)


<script language="javascript" src="/template/head_js.naver?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20230426171159/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20230426171159/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_up">
<span class="value">1,341.50</span>
<span class="txt_krw

#### 과제(1): 'https://news.naver.com/'에서 title내용을 3가지 방법으로 출력하세요

In [51]:
url = 'https://news.naver.com/'
html = requests.get(url).text
bs = BS(html, 'html.parser')

print(bs.title.text)
print(bs.find('title').text)
print(bs.select_one('title').text)

네이버 뉴스
네이버 뉴스
네이버 뉴스


#### 과제(2): 'https://news.naver.com'에서 span태그에 연결된 한글만 불필요한 공백을 제거해 출력하세요

In [52]:
url = 'https://news.naver.com'
html = requests.get(url).text
bs = BS(html, 'html.parser')
text=''

for i in bs.find_all('span'):
    text = text +' ' + ' '.join(re.findall('[가-힣]+',i.text))
    
print(text)

   뉴스 연예 연예 스포츠 스포츠 날씨 날씨 프리미엄 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 과학 세계 랭킹 신문보기 오피니언  팩트체크 화 언론사편집 기자 연재  속보 속보 닫기 월 일 동영상 재생시간 재생시간 재생시간 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 동영상 재생시간 재생시간 재생시간 월 일 월 일 동영상 재생시간 재생시간 재생시간 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 동영상 재생시간 재생시간 재생시간 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 동영상 재생시간 재생시간 재생시간 월 일 월 일 월 일 동영상 재생시간 재생시간 재생시간 월 일 월 일 동영상 재생시간 재생시간 재생시간 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 동영상 재생시간 재생시간 재생시간 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 월 일 신문 면 모아보기 방송뉴스 도움말 닫기 언론사별 심층기획  월 일 뉴시스 월 일 더스쿠프 월 일 언론사별 심층기획 매경이코노미 월 일 조선비즈 월 일 전자신문 월 일 언론사별 심층기획  월 일 부산일보 월 일 연합뉴스 월 일 언론사별 심층기획 광주방송 월 일 헤럴드경제 월 일 한국경제 월 일 언론사별 심층기획 더팩트 월 일 디지털타임스 월 일  월 일 언론사별 심층기획 헬스조선 월 일 서울신문 월 일 서울경제 월 일 언론사별 심층기획 미디어오늘 월 일 시사 월 일 동아일보 월 일 언론사별 심층기획 한국일보 월 일 조선일보 월 일 코리아헤럴드 월 일 언론사별 심층기획  월 일 강원일보 월 일 오마이뉴스 월 일 언론사별 심층기획 경기일보 월 일  월 일 노컷뉴스 월 일 언론사별 심층기획 매일신문 월 일 한겨레 월 일 국민일보 월 일

#### 과제(3): 'https://news.naver.com'에서 span 태그에 연결된 문자/숫자를 불필요한 공백을 제거한 후 출력

In [53]:
url = 'https://news.naver.com/'
html = requests.get(url).text
bs = BS(html, 'html.parser')
text=[]

for i in bs.find_all('span'):
    print(' '.join(re.findall('\w+',i.text)), end=' ')

NAVER NAVER 뉴스 연예 연예 스포츠 스포츠 날씨 날씨 프리미엄 프리미엄 검색 언론사별 정치 경제 사회 생활 문화 IT 과학 세계 랭킹 신문보기 오피니언 TV 팩트체크 화 언론사편집 기자 연재  속보 속보 닫기 05월 02일 10 05 05월 02일 10 02 05월 02일 10 04 05월 02일 08 59 05월 02일 09 15 05월 02일 08 39 05월 01일 22 32 동영상 재생시간00 23 재생시간00 23 재생시간 05월 02일 10 03 05월 02일 08 08 05월 02일 09 11 05월 02일 10 03 05월 02일 09 52 05월 02일 09 56 05월 02일 10 02 05월 02일 09 24 동영상 재생시간00 40 재생시간00 40 재생시간 05월 02일 09 13 05월 02일 10 00 05월 01일 18 17 05월 02일 08 56 05월 02일 09 51 동영상 재생시간02 27 재생시간02 27 재생시간 05월 02일 09 48 05월 02일 10 00 05월 02일 10 05 05월 02일 10 07 05월 02일 10 07 05월 02일 10 03 05월 02일 09 30 05월 02일 10 03 05월 02일 08 59 05월 02일 09 48 05월 02일 10 02 05월 02일 10 07 05월 01일 13 35 05월 02일 10 06 05월 02일 09 58 동영상 재생시간06 37 재생시간06 37 재생시간 05월 02일 10 06 05월 02일 09 55 05월 02일 10 05 05월 02일 10 07 05월 01일 17 58 05월 02일 09 27 05월 02일 09 59 05월 02일 10 03 05월 02일 09 57 동영상 재생시간01 17 재생시간01 17 재생시간 05월 02일 08 07 05월 02일 06 36 05월 02일 09 48 05월 02일 10 07 05월 02일 10 07 05월 02일 06 16 05월 02일 10 03 05월 02일 09 38 05월 0

#### 과제(4): 'https://news.naver.com'에서 태그에 id가 있는 경우에 대해, 문자+숫자를 아래와 같이 출력
- 해당되는 조건에 맞게 모두 출력
- 한글만 열방향으로 출력
- 불필요한 공백을 제거한 후 한글만 한줄에 출력

In [54]:
url = 'https://news.naver.com/'
html = requests.get(url).text
bs = BS(html, 'html.parser')
text=''

for i in bs.find_all(id=True):
    a = ' '.join(re.findall('\w+',i.text))
#     print(a)    #전체 출력 
    b = ' '.join(re.findall('[가-힣]+',i.text))
#     print(b)   #한글만 열방향 출력
    text +=b
print(text)   #한글만 한줄에 출력

네이버 뉴스전체 언론사 뉴스스탠드 라이브러리콘텐츠 화 전체 언론사 뉴스스탠드 라이브러리 언론사편집 기자 연재 구독설정 속보 송영길 서울중앙지검 자진출석 이데일리 송영길 전 민주당 대표 검찰 자진 출두 머니투데이 내용작성전 돈봉투 의혹 송영길 서울중앙지검 자진 출두 연합뉴스 검찰 송영길 출석 거부 로비서 돌려보내 매일경제 내용작성전 검찰 송영길 출석 거부 로비서 돌려보내 중앙일보 내용작성전 검찰 송영길 출석 거부 로비서 돌려보내 이코노미스트 내용작성전 민주당 전당대회 돈봉투 의혹 송영길 서울중앙지검 자진 출두 노컷뉴스 검찰 송영길 출석 거부 로비서 돌려보내 한국경제 내용작성전 간호법 반발 일 총파업 내일부터 부분파업 돌입 뉴시스 내용작성전 검찰 송영길 출석 거부 로비서 돌려보내 연합뉴스 내용작성전 민주당 돈 봉투 의혹 송영길 검찰 자진 출석 더팩트 송영길 출석 강행 돈봉투 입장 밝힐 듯 국민일보 내용작성전 돈봉투 의혹 송영길 자진 출석 입장표명은 없어 머니 내용작성전 돈봉투 의혹 송영길 서울중앙지검 자진 출석 경향신문 내용작성전 돈 봉투 의혹 송영길 전 민주당 대표 서울중앙지검 자진 출두 송영길 전 대표 일방적으로 자진출석 조선 내용작성전 돈봉투 의혹 송영길 서울중앙지검 자진 출두 내용작성전 민주당 돈봉투 의혹 송영길 자진 출석 중앙지검 도착 내용작성전 정무수석 공천은 당에서 논의 안했다 태영호 사과 받아 문화일보 이진복 태영호와 공천 얘기 나눈 적 없다 공천 줄 위치 있는 사람 아냐 강원일보 이진복 태영호 녹취록에 공천 줄 위치 아냐 논의 안해 대전일보 내용작성전 이진복 정무수석 공천은 당에서 태영호와 공천 얘기 나눈 적 없다 강원도민일보 속보 닫기 뉴스타파 월 일 구독 현장에서 아직도 대강은 대운하가 아니다 라는 그들에게 요즘 대강 사업의 주역들이 부쩍 대중 앞에 자주 등장하고 있다 이명박 전 대통령 이하 존칭 생략 은 며칠 전 측근 유인촌의 연극을 관람했고 앞으로 대강도 방문할 예정이라고 한다 대강 추진본부장이었던 심명필은 더스쿠프 월 일 구독 배민 알뜰배

In [55]:
url = 'https://www.naver.com'
html = urllib.request.urlopen(url)
bs = BS(html, 'html.parser')
t = bs.find_all('a', id=True)

t = [i.get_text() for i in t]
for i in t:
    if re.search('[가-힣]+',i):  # 한글이 있으면 True
        print(i)
# id가 있는 <a> 중 한글이 없으면 출력되지 않음

다운로드
네이버를 시작페이지로
한글 입력기
자동완성 레이어
관심주제 설정


#### 과제(5): 네이버 영화 랭킹 실시간 조회 데이터를 가져와 탑10 출력
- 1: 000
- 2: 0000
<br>...
- 10: 000 00

In [56]:
url = 'https://serieson.naver.com/v3/movie/ranking/realtime'
html = urllib.request.urlopen(url)
bs = BS(html, 'html.parser')
# print(bs.prettify())

for i in range(10):
    print(f'{i+1}:',bs.find_all('span', class_="Title_title__s9o0D")[i].text)

1: 던전 앤 드래곤: 도적들의 명예
2: 아바타: 물의 길(부가영상 제공)
3: 앤트맨과 와스프: 퀀텀매니아(세트: 1~3편)
4: 존 윅 3: 파라벨룸
5: 파벨만스
6: 너의 이름은.
7: 코코(패키지: 자막판+더빙판+부가영상)
8: 덫: 치명적인 유혹
9: 소중한 날의 꿈
10: 웅남이


In [57]:
url = 'https://serieson.naver.com/v3/movie/ranking/realtime'
html = urllib.request.urlopen(url)
bs = BS(html, 'html.parser')

bs.find_all(string=re.compile('Title'))
# 태그 속이 아닌, 태그 사이의 문자열을 검색
# 즉, 속성값이나 class등은 검색할 수 없음

title = bs.find_all(class_=re.compile('.*Title.*'))
# 이렇게 class값이라고 지정해 준 경우에는 가능
for i in range(10):
    print(f'{i+1}: {title[i].text}')   # 출력

1: 던전 앤 드래곤: 도적들의 명예
2: 아바타: 물의 길(부가영상 제공)
3: 앤트맨과 와스프: 퀀텀매니아(세트: 1~3편)
4: 존 윅 3: 파라벨룸
5: 파벨만스
6: 너의 이름은.
7: 코코(패키지: 자막판+더빙판+부가영상)
8: 덫: 치명적인 유혹
9: 소중한 날의 꿈
10: 웅남이


#### 과제(6): url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100' 사이트에서 뉴스기사 제목을 출력하세요.

In [2]:
url = 'https://news.naver.com/main/main.nhn?mode=LSD&mid=shm&sid1=100'
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
html = requests.get(url, headers=headers).text
bs = BS(html, 'html.parser')

li='#main_content > div > div._persist > div > div > div.cluster_body > ul > li > div.cluster_text > a'
for i in bs.select(li):
    print(i.text)

NameError: name 'requests' is not defined

#### 과제(7): 네이버 뉴스 사회 분야 데이터를 가져와 다음을 수행
- 첫번째 뉴스 제목과 href를 출력
- 뉴스 전체 제목과 href를 출력(열방향)

In [59]:
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
url = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102'

html = requests.get(url, headers=headers).text
bs = BS(html, 'html.parser')
li='#main_content > div > div._persist > div > div > div.cluster_body > ul > li > div.cluster_text > a'

one = bs.select_one(li, href=True)   #첫번째 뉴스
print(one.text, '\n'+one.attrs['href'], '\n')

for i in bs.select(li, href=True):   #전체 뉴스
    print(i.text, '\n' + i.attrs['href'])

충남 첫 엠폭스 확진자 발생…"해외 여행력 없어" 
https://n.news.naver.com/mnews/article/015/0004839482?sid=102 

충남 첫 엠폭스 확진자 발생…"해외 여행력 없어" 
https://n.news.naver.com/mnews/article/015/0004839482?sid=102
'엠폭스' 확진 환자 5명 추가…누적 47명 
https://n.news.naver.com/mnews/article/277/0005253084?sid=102
엠폭스 위험도 국민 생각은 "보통"…백신·치료제 인지도는 떨어져 
https://n.news.naver.com/mnews/article/277/0005253031?sid=102
"엠폭스 치료제·백신 있나?" 묻자…5명 중 1명도 정답 못맞혀 
https://n.news.naver.com/mnews/article/015/0004839469?sid=102
승무원과 고의로 부딪힌 40대…상습 보험사기로 재판행 
https://n.news.naver.com/mnews/article/055/0001054573?sid=102
승무원에 고의로 부딪힌 40대, 한 달 여행 뒤 52일간 입원(종합) 
https://n.news.naver.com/mnews/article/001/0013914935?sid=102
승무원 지나갈 때 일부러 고개 '쑥'...40대 보험사기로 기소 
https://n.news.naver.com/mnews/article/215/0001098745?sid=102
승무원 지나갈때 머리 내밀어 ‘쾅’…52일 입원 후 보험금 타냈다 
https://n.news.naver.com/mnews/article/009/0005124169?sid=102
“윤석열 정권 역사 심판대 세우자”…노동계 7월 총파업 예고 
https://n.news.naver.com/mnews/article/028/0002638063?sid=102
양대 노총 노동절 집회..."정부 노동 개악 규탄" 
https://n

#### 과제(1): 네이버 뉴스 메인에서 연예, 날씨, 스포츠, 프리미엄을 찾아 출력

In [124]:
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"}
url ='https://news.naver.com/'
html = requests.get(url, headers=headers).text
bs = BS(html, 'lxml')

for i in bs.find_all('span', class_='Nservice_subitem'):
    print(i.text.split())    # 깔끔하게 출력하고 싶으면 [0]인덱스 붙이기
#     print(i.text.split()[0])

['연예']
['스포츠']
['날씨']
['프리미엄']
