### 웹에서 원하는 정보를 추출하는 것
- HTML과 XML 문서에서 정보를 추출할 수 있다

!pip3 install beautifulsoup4

In [1]:
from bs4 import BeautifulSoup
html = """
<html><body>
 <h1> 파이선으로 웹문서 읽기 </h1>
 <p> 페이지 분석기능 </p>
 <p> 페이지 정렬 </p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
h1 = soup.html.body.h1
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

print("h1="+ h1.string)
print("p="+ p1.string)
print("p="+ p2.string)

h1= 파이선으로 웹문서 읽기 
p= 페이지 분석기능 
p= 페이지 정렬 


#### id 를 사용하는 방법
- 위와 같이 내부 구조를 일일이 파악하고 코딩하는 것은 복잡하다
- find()를 사용하여 간단히 원하는 항목을 찾을 수 있다

In [2]:
html = """
<html><body>
 <h1 id="title"> 파이선으로 웹문서 읽기 </h1>
 <p id="body"> 페이지 분석기능 </p>
 <p> 페이지 정렬 </p>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
title = soup.find(id="title")
body = soup.find(id="body")

print("title="+ title.string)
print("body="+ body.string)

title= 파이선으로 웹문서 읽기 
body= 페이지 분석기능 


#### find_all()을 이용하는 경우

In [3]:
from bs4 import BeautifulSoup
html = """
<html><body>
 <ul>
   <li><a href = "http://www.naver.com">네이버</a></li>
   <li><a href = "http://www.daum.com">다음</a></li>
 </ul>
</body></html>
"""

soup = BeautifulSoup(html, 'html.parser')
links = soup.find_all("a")
print(links)

for aa in links:
    href = aa.attrs["href"]
    text = aa.string
    print(text, "-->", href)


[<a href="http://www.naver.com">네이버</a>, <a href="http://www.daum.com">다음</a>]
네이버 --> http://www.naver.com
다음 --> http://www.daum.com


### DOM 요소 파악하기
- Document Object Model: XML이나 HTML 요소에 접근하는 구조를 나타낸다
- DOM 요소의 속성이란 태그 뒤에 나오는 속성을 말한다 <a> 태그의 속성은 href이다

In [4]:
from bs4 import BeautifulSoup
soup = BeautifulSoup("<p><a href='a.html'> test </a></p>", "html.parser")

# 분석이 되었는지 확인
soup.prettify()

'<p>\n <a href="a.html">\n  test\n </a>\n</p>\n'

In [5]:
# <a> 태그 변수를 a에 할당하고 속성의 자료형 확인
a = soup.p.a
a = soup.a
type(a.attrs)

dict

In [6]:
print(a)

<a href="a.html"> test </a>


In [7]:
print(a.attrs)

{'href': 'a.html'}


In [8]:
# href 속성이 들어 있는지 확인
'href' in a

False

In [9]:
'href' in a.attrs

True

In [10]:
# 속성 값 확인
a['href']

'a.html'

### urlopen() 사용 하기

In [11]:
import urllib.parse as parse
import urllib.request as req

url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')

title = soup.find("title").string
wf = soup.find('wf').string
print(title)
print("-------------")
print(wf)

기상청 육상 중기예보
-------------
○ (하늘상태) 이번 예보기간에는 전국이 구름많은 날이 많겠습니다.<br />○ (기온) 아침 기온은 12~19도, 낮 기온은 21~30도로 평년(최저기온 15~18도, 최고기온 24~28도)과 비슷하겠습니다.<br /><br />* 이번 예보기간 대기 상층(고도 5km 부근)의 찬 공기가 남하하면서 대기불안정으로 소나기가 내릴 가능성이 있겠으니, 앞으로 발표되는 최신 예보를 참고하기 바랍니다.




### CSS 선택자 사용하기
- CSS 선택자를 사용해서 원하는 요소를 추출할 수 있다.
- h1 과 li 태그를 추출하는 코드

In [12]:
from bs4 import BeautifulSoup
html = """
<html><body>
<div id="meigen">
 <h1> 위키북스 도서 </h1>
 <ul class="item">
   <li> 게임 입문 </li>
   <li> 파이선 입문 </li>
   <li> 웹 디자인 입문 </li>
 </ul>
</div>
</body></html>
"""
# CSS 쿼리로 title 추출하기

soup = BeautifulSoup(html, 'html.parser')
h1 = soup.select_one("div#meigen > h1").string
print("h1=", h1)

li_list = soup.select("div#meigen > ul.item > li")
for li in li_list:
    print("li=", li.string)


h1=  위키북스 도서 
li=  게임 입문 
li=  파이선 입문 
li=  웹 디자인 입문 


In [13]:
li_list

[<li> 게임 입문 </li>, <li> 파이선 입문 </li>, <li> 웹 디자인 입문 </li>]

In [14]:
li_list2 = soup.select(" ul.item > li")
for li in li_list2:
    print("li=", li.string)

li=  게임 입문 
li=  파이선 입문 
li=  웹 디자인 입문 


In [15]:
li_list2

[<li> 게임 입문 </li>, <li> 파이선 입문 </li>, <li> 웹 디자인 입문 </li>]

### 네이버 금융에서 환율정보 추출하기
- 먼저 네이버 웹사이트에서 소스보기를 하여 어디에 환률정보가 있는지 파악해야 한다.

In [16]:
## request 임포트 방법 1
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "https://finance.naver.com/"
reponse = urlopen(url)
reponse.status 

200

In [17]:
## request 임포트 방법 2
import requests
from bs4 import BeautifulSoup

url = "https://finance.naver.com/marketindex/"
reponse = requests.get(url) 
# requests.get()
# requests.post() 
reponse

<Response [200]>

In [18]:
# html 데이터 컴퓨터에서 가져오기
from bs4 import BeautifulSoup

page = open("./data/sample.html", "r", encoding='UTF8').read()
soup = BeautifulSoup(page, "html.parser")
print(soup.prettify())

<html>
 <head>
 </head>
 <body>
  <div>
   여기를 클릭하세요
  </div>
  <ul>
   <li>
    사과
   </li>
   <li>
    수박
   </li>
   <li>
    딸기
   </li>
  </ul>
 </body>
</html>



In [19]:
# html 데이터 웹에서 가져오기
import urllib.request as req
url = "http://finance.naver.com/marketindex"
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
print(soup)


<script language="javascript" src="/template/head_js.naver?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20240530183512/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20240530183512/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_up">
<span class="value">1,385.00</span>
<span class="txt_krw

In [20]:
price = soup.select_one("div.head_info > span.value").string
print("usd/krw=", price)

usd/krw= 1,385.00


In [21]:
# html 데이터 웹에서 가져오기
url = "http://finance.naver.com"
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')
print(soup)


<html lang="ko">
<head>
<title>네이버페이 증권</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<meta content="네이버페이 증권" name="apple-mobile-web-app-title">
<meta content="네이버페이 증권" property="og:title">
<meta content="https://ssl.pstatic.net/static/m/stock/im/2016/08/og_stock-200.png" property="og:image"/>
<meta content="https://finance.naver.com" property="og:url"/>
<meta content="국내 해외 증시 지수, 시장지표, 뉴스, 증권사 리서치 등 제공" property="og:description"/>
<meta content="article" property="og:type"/>
<meta content="" property="og:article:thumbnailUrl"/>
<meta content="네이버페이 증권" property="og:article:author"/>
<meta content="http://FINANCE.NAVER.COM" property="og:article:author:url"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20240530183512/css/finance_header.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstoc

In [22]:
soup.head

<head>
<title>네이버페이 증권</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="text/javascript" http-equiv="Content-Script-Type"/>
<meta content="text/css" http-equiv="Content-Style-Type"/>
<meta content="네이버페이 증권" name="apple-mobile-web-app-title">
<meta content="네이버페이 증권" property="og:title">
<meta content="https://ssl.pstatic.net/static/m/stock/im/2016/08/og_stock-200.png" property="og:image"/>
<meta content="https://finance.naver.com" property="og:url"/>
<meta content="국내 해외 증시 지수, 시장지표, 뉴스, 증권사 리서치 등 제공" property="og:description"/>
<meta content="article" property="og:type"/>
<meta content="" property="og:article:thumbnailUrl"/>
<meta content="네이버페이 증권" property="og:article:author"/>
<meta content="http://FINANCE.NAVER.COM" property="og:article:author:url"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20240530183512/css/finance_header.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/202405

In [23]:
soup.body

<body onload="getGNB();">
<script type="text/javascript">
	var nclk_evt = 3;
	nclk_do();
</script>
<script type="text/javascript">







var nsc="finance.home";


var ccsrv="cc.naver.com";


	
	
	var gnb_service='finance';
	


var gnb_logout=document.URL; //GNB에서 로그아웃 후 redirect 될 URL
var gnb_searchbox='off'; //미니 검색창을 on 할지 off 할지. default는 off
var gnb_shortnick='off'; //닉네임 말줄임(10자)을 on할지 off 할지. default는 off.


var gnb_naverme_layer_open_callback = function(){
	   var naverLayerSize = gnbNaverMeLayer.getLayerSize();
		
		var me_layers = document.getElementById("me_layers");
		me_layers.width=naverLayerSize.width;
		me_layers.height=naverLayerSize.height;};

var gnb_naverme_layer_close_callback = function(){
		
			var me_layers = document.getElementById("me_layers");
			me_layers.width="0";
			me_layers.height="0";};
</script>
<div id="u_skip">
<a href="#menu" tabindex="1"><span>메인 메뉴로 바로가기</span></a>
<a href="#start" tabindex="2"><span>본문으로 바로가기</span></a>
</div>
<div id="header">


##### **p 태그 확인(find, find_all, select)**
- 3가지 방법

1) 변수.태그
2) 변수.find('태그')
3) 변수.find_all('태그') : 여러 개의 태그 반환, 리스트 형태로 반환
> - findall 은 리스트 형태로 반환되기 때문에
> - soup.find_all(class="outer-text")[0] 이런 식으로 가능하다.

- select 
>- find - 하나 선택
>- find_all - 여러개 선택
>- 위와 같은 기능을 하는 select, select_one 이 있다
>- select_one - 하나 선택
>- select - 여러개 선택
   --> select 상위하위로 이동이 좀 더 자유롭다
>- soup.find_all("li","on")(# li 태그의 on 클래스) 와 같은 방법으로 아래와 같이 할 수 있다.
>- exchangeList = soup.select("li")
>- exchangeList = soup.select("#exchangeList > li")
>- select 사용법 : 클래스는 점(.)을 앞에 붙이고
>- select 사용법 : id 는 샾(#)을 앞에 붙인다
    >- #exchangeList > li : id exchangeList 바로 밑에(>) li 태그를 모두 가져온다

>- title = exchangeList[0].select_one(".h_lst").text # '미국 USD'
>- exchange = exchangeList[0].select_one(".value").text # '1,319.00'
>- change = exchangeList[0].select_one(".change").text
>- updown = exchangeList[0].select_one("div.head_info.point_dn > .blind").text
>- exchangeList[0].select_one("a").get("href")

In [24]:
soup.p

<p class="msg">
												현재 자동완성 기능을 사용하고 계십니다.
											</p>

In [25]:
soup.find('p')

<p class="msg">
												현재 자동완성 기능을 사용하고 계십니다.
											</p>

In [26]:
soup.find_all('p')
# find_all()은 지정된 태그를 모두 찾아줌, 리스트형태로 반환

[<p class="msg">
 												현재 자동완성 기능을 사용하고 계십니다.
 											</p>,
 <p class="msg">
 												자동완성 기능이 활성화되었습니다.
 											</p>,
 <p class="blind">코스피 시세 차트</p>,
 <p class="blind">코스닥 시세 차트</p>,
 <p class="blind">코스피200 시세 차트</p>,
 <p class="item">
 <a href="/sise/sise_group_detail.naver?type=upjong&amp;no=312" onclick="clickcr(this, 'tos.cat1', 'upjong_312', '', event);"><strong>가스유틸리티</strong></a>
 <em class="up">
 				+3.93%
 				</em>
 </p>,
 <p>
 <a href="/item/main.naver?code=018670" onclick="clickcr(this, 'tos.list1', '018670', '1', event);">SK가스</a>
 <em class="up">
 				+7.27%
 				</em>
 </p>,
 <p>
 <a href="/item/main.naver?code=036460" onclick="clickcr(this, 'tos.list1', '036460', '2', event);">한국가스공사</a>
 <em class="up">
 				+4.93%
 				</em>
 </p>,
 <p class="item">
 <a href="/sise/sise_group_detail.naver?type=upjong&amp;no=288" onclick="clickcr(this, 'tos.cat2', 'upjong_288', '', event);"><strong>건강관리기술</strong></a>
 <em class="up">
 				+3.74%
 				</em>
 </p>

In [27]:
soup.find_all(class_="blind")

[<span class="blind">네이버</span>,
 <span class="blind">페이</span>,
 <span class="blind">증권</span>,
 <label class="blind" for="stock_items">증권 종목명·지수명 검색</label>,
 <span class="blind">검색</span>,
 <span class="blind">자동완성</span>,
 <span class="blind">선택됨</span>,
 <div class="blind" id="start"><strong name="start">본문시작</strong></div>,
 <dl class="blind">
 <dt>오늘의 코스피/코스닥 지수</dt>
 <dd>2024년 05월 31일 장마감</dd>
 <dd>코스피 지수 2,636.52 전일대비 상승 1.08 플러스 0.04 퍼센트</dd>
 <dd>코스닥 지수 839.98 전일대비 상승 7.99 플러스 0.96 퍼센트</dd>
 </dl>,
 <strong class="blind" id="recent_mystock_blind">최근 조회종목 리스트</strong>,
 <span class="blind">주요뉴스 더보기</span>,
 <span class="blind">하락</span>,
 <span class="blind">상승</span>,
 <span class="blind">상승</span>,
 <span class="blind">상승</span>,
 <span class="blind">하락</span>,
 <span class="blind">상승</span>,
 <span class="blind">상승</span>,
 <span class="blind">상승</span>,
 <span class="blind">상승</span>,
 <span class="blind">하락</span>,
 <span class="blind">상승</span>,
 <span class="blind">보합<

In [28]:
soup.find("p", class_= "up")  ## 

In [29]:
soup.find_all(id='first')

[]

In [30]:
for each_tag in soup.find_all("p"):
    print("=" * 50)
    print(each_tag.text, end='')


												현재 자동완성 기능을 사용하고 계십니다.

												자동완성 기능이 활성화되었습니다.

가스유틸리티

				+3.93%
				

SK가스

				+7.27%
				

한국가스공사

				+4.93%
				

건강관리기술

				+3.74%
				

루닛

				+7.63%
				

코어라인소프..

				+3.59%
				

섬유,의류,신발,..

				+3.74%
				

제이에스코퍼..

				+20.47%
				

한세실업

				+16.54%
				

해운

				+7.15%
				


									STX그린로지..
									

				+19.18%
				


									대한해운
									

				+15.55%
				

마리화나(대마)

				+3.15%
				


									아이큐어
									

				+28.38%
				


									애머릿지
									

				+3.74%
				

항공/저가 항공..

				+2.95%
				


									한진칼
									

				+6.34%
				


									진에어
									

				+4.93%
				
단위|국제:달러/배럴,
						 국내:원/리터
단위|국제:달러/트로이온스,
단위|구리·납:달러/톤

			네이버파이낸셜(주)이 제공하는 금융 정보는 콘텐츠 제공업체로부터 받는 투자 참고사항이며, 오류가 발생하거나 지연될 수 있습니다.
			네이버파이낸셜(주)과 콘텐츠 제공업체는 제공된 정보에 의한 투자 결과에 법적인 책임을 지지 않습니다. 게시된 정보는 무단으로 배포할 수 없습니다.
		

In [31]:
print(soup.find_all(class_="blind")[0].text)
print(soup.find(class_="blind").string)
print(soup.find(class_="blind").get_text())

네이버
네이버
네이버


### CSS 자세히 알아보기
- 웹 페이지의 검사 메뉴를 선택 (우측 버튼)
- 특정 태그를 선택하고 다시 우측 버튼을 누르고 Copy - Copy selector를 선택하면 CSS 선택자가 클립보드에 저장된다 (아래 예시)

#mw-content-text > div > ul:nth-child(6) > li > b > a

- 위에서 nth-child(6)은 6번째에 있는 요소를 가리킨다
- 이를 기반으로 작품목록을 가져오는 프로그램을 작성하겠다.


In [32]:
from bs4 import BeautifulSoup
import urllib.request as req
# 아래는 저자:윤동주 부분인데 이는 웹사이트에서 복사하면 된다.

url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = req.urlopen(url)

soup = BeautifulSoup(res, 'html.parser')
a_list= soup.select("#mw-content-text > div > ul a")
for a in a_list:
    name = a.string
    print("-", name)

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


### CSS를 활용하는 방법 외에 re (정규표현식)을 사용하여 필요한 데이터를 추출할 수 있다

In [33]:
from bs4 import BeautifulSoup
import re
html = """
<ul>
   <li><a href="https://sample.com/foo">fuga </li>
   <li><a href="http://sample.com/okay">okay </li>
   <li><a href="https://sample.com/fuga"> fuga* </li>
   <li><a href="https://example.com/sample"> aaa </li>
</ul>
"""
html

'\n<ul>\n   <li><a href="https://sample.com/foo">fuga </li>\n   <li><a href="http://sample.com/okay">okay </li>\n   <li><a href="https://sample.com/fuga"> fuga* </li>\n   <li><a href="https://example.com/sample"> aaa </li>\n</ul>\n'

In [34]:
soup = BeautifulSoup(html, 'html.parser')
soup


<ul>
<li><a href="https://sample.com/foo">fuga </a></li>
<li><a href="http://sample.com/okay">okay </a></li>
<li><a href="https://sample.com/fuga"> fuga* </a></li>
<li><a href="https://example.com/sample"> aaa </a></li>
</ul>

In [35]:
li=soup.find_all(href=re.compile(r"^https://"))
li

[<a href="https://sample.com/foo">fuga </a>,
 <a href="https://sample.com/fuga"> fuga* </a>,
 <a href="https://example.com/sample"> aaa </a>]

In [36]:
for e in li: 
    print(e.attrs['href'])

https://sample.com/foo
https://sample.com/fuga
https://example.com/sample
