# BEGIN

In [14]:
# Jupyter Notebook 설정 : 모든 결과 출력
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

## HTML의 기본 구조

### HTML 생성

In [20]:
import os
# 폴더 생성
folder = "C:/Myexam"
os.makedirs(folder, exist_ok=True)

In [21]:
%%writefile C:/Myexam/HTML_example.html
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>이것은 HTML 예제</title>
</head>
<body>
<h1>출간된 책 정보</h1>
<p id="book_title">이해가 쏙쏙 되는 파이썬</p>
<p id="author">홍길동</p>
<p id="publisher">위키북스 출판사</p>
<p id="year">2018</p>
</body>
</html>

Writing C:/Myexam/HTML_example.html


### requests.get(url) : 웹 페이지의 HTML 소스 갖고 오기

In [None]:
import requests
res = requests.get("https://www.google.co.kr")
res.status_code # 200 : 정상
res.text[:100]

200

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

## BeautifulSoup

### 데이터 찾고 추출하기 : find(), find_all()

In [2]:
from bs4 import BeautifulSoup

# 테스트용 html 코드
html = """<html><body><div><span>\
<a href=http://www.naver.com>naver</a>\
<a href=https://www.google.com>google</a>\
<a href=http://www.daum.net/>daum</a>\
</span></div></body></html>"""

# BeautifulSoup를 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html, 'lxml')

# 파싱 결과를 좀 더 보기 편하게 HTML 구조의 형태로 확인
temp = soup.prettify()
print(type(temp), "\n", temp)

<class 'str'> 
 <html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>



#### find(tag, attrs_dict) : 지정한 첫번째 tag를 찾아서 반환

In [4]:
# HTML 소스코드에서 'a' 태그가 있는 첫 번째 요소를 찾아서 반환
tag = soup.find("a")
print(type(tag))
print(tag, ":", tag.get_text())

<class 'bs4.element.Tag'>
<a href="http://www.naver.com">naver</a> : naver


#### find_all(tag, attrs_dict) : 지정한 모든 tag를 찾아서 반환

In [53]:
# HTML 소스코드에서 'a' 태그가 있는 모든 요소를 찾아서 반환
tags = soup.find_all("a")
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <a href="http://www.naver.com">naver</a>
<class 'bs4.element.Tag'> : <a href="https://www.google.com">google</a>
<class 'bs4.element.Tag'> : <a href="http://www.daum.net/">daum</a>


#### findAll(tag, attrs_dict) : 지정한 모든 tag를 찾아서 반환

In [None]:
# HTML 소스코드에서 'a' 태그가 있는 모든 요소를 찾아서 list로 반환
tags = soup.findAll("a")
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <a href="http://www.naver.com">naver</a>
<class 'bs4.element.Tag'> : <a href="https://www.google.com">google</a>
<class 'bs4.element.Tag'> : <a href="http://www.daum.net/">daum</a>


bs4.element.Tag

#### 태그와 속성을 이용하여 원하는 데이터 찾기

In [None]:
from bs4 import BeautifulSoup

# 테스트용 HTML 코드
html2 = """
<html>
<head>
<title>작품과 작가 모음</title>
</head>
<body>
<h1>책 정보</h1>
<p id="book_title" class="one">토지</p>
<p id="author" class="one">박경리</p>
<p id="book_title" class="two">태백산맥</p>
<p id="author" class="two">조정래</p>
<p id="book_title" class="three">감옥으로부터의 사색</p>
<p id="author" class="three">신영복</p>
</body>
</html>
"""
soup2 = BeautifulSoup(html2, "html.parser")
#soup2 = BeautifulSoup(html2, "lxml")
print(type(soup2.title), ":", soup2.title)
print(type(soup2.body))
print(soup2.body)
print(soup2.body.h1)
print(soup2.body.p) # soup.find("p")

print("\n# soup2.find('p', {'id':'author'})")
tag = soup2.find('p', {'id':'author'})
print(type(tag), " : ", tag)

print("\n# soup2.find_all('p', {'id':'book_title'})")
tags = soup2.find_all('p', {'id':'book_title'})
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

print("\n# soup2.findAll('p', {'id':'book_title'})")
tags = soup2.findAll('p', {'id':'book_title'})
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.Tag'> : <title>작품과 작가 모음</title>
<class 'bs4.element.Tag'>
<body>
<h1>책 정보</h1>
<p class="one" id="book_title">토지</p>
<p class="one" id="author">박경리</p>
<p class="two" id="book_title">태백산맥</p>
<p class="two" id="author">조정래</p>
<p class="three" id="book_title">감옥으로부터의 사색</p>
<p class="three" id="author">신영복</p>
</body>
<h1>책 정보</h1>
<p class="one" id="book_title">토지</p>

# soup2.find('p', {'id':'author'})
<class 'bs4.element.Tag'>  :  <p class="one" id="author">박경리</p>

# soup2.find_all('p', {'id':'book_title'})
<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p class="one" id="book_title">토지</p>

# soup2.findAll('p', {'id':'book_title'})
<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p class="one" id="book_title">토지</p>
<class 'bs4.element.Tag'> : <p class="two" id="book_title">태백산맥</p>
<class 'bs4.element.Tag'> : <p class="three" id="book_title">감옥으로부터의 사색</p>
<class 'dict'>


In [12]:
print("\n# soup2.find_all('p', {'id':'book_title', 'class':'two'})")
tags = soup2.find_all('p', {'id':'book_title', 'class':'two'})
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

print("\n# soup2.findAll('p', {'id':'book_title', 'class':'two'})")
tags = soup2.findAll('p', {'id':'book_title', 'class':'two'})
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)


# soup2.find_all('p', {'id':'book_title', 'class':'two'})
<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p class="two" id="book_title">태백산맥</p>

# soup2.findAll('p', {'id':'book_title', 'class':'two'})
<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p class="two" id="book_title">태백산맥</p>


### CSS 선택자(selector)를 이용 : select(...)

In [19]:
tags = soup2.select('body h1')
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <h1>책 정보</h1>


In [20]:
tags = soup2.select('body p')
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p id="book_title">토지</p>
<class 'bs4.element.Tag'> : <p id="author">박경리</p>
<class 'bs4.element.Tag'> : <p id="book_title">태백산맥</p>
<class 'bs4.element.Tag'> : <p id="author">조정래</p>
<class 'bs4.element.Tag'> : <p id="book_title">감옥으로부터의 사색</p>
<class 'bs4.element.Tag'> : <p id="author">신영복</p>


#### id 사용하여 데이터를 추출

In [21]:
tags = soup2.select('p#book_title')
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p id="book_title">토지</p>
<class 'bs4.element.Tag'> : <p id="book_title">태백산맥</p>
<class 'bs4.element.Tag'> : <p id="book_title">감옥으로부터의 사색</p>


In [22]:
tags = soup2.select('p#author')
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p id="author">박경리</p>
<class 'bs4.element.Tag'> : <p id="author">조정래</p>
<class 'bs4.element.Tag'> : <p id="author">신영복</p>


#### class 사용하여 데이터를 추출

In [10]:
tags = soup2.select('p.one')
print(type(tags))
for tag in tags:
    print(type(tag), ":", tag)

<class 'bs4.element.ResultSet'>
<class 'bs4.element.Tag'> : <p class="one" id="book_title">토지</p>
<class 'bs4.element.Tag'> : <p class="one" id="author">박경리</p>


#### 예제

In [22]:
from bs4 import BeautifulSoup

html_str = """
<html>
<body>
<div id="wrap">
<div id="mainMenuBox">
<ul>
<li><a href="#">패션잡화</a></li>
<li><a href="#">주방용품</a></li>
<li><a href="#">생활건강</a></li>
<li><a href="#">DIY가구</a></li>
</ul>
</div>
<div>
<table>
<tr><td><img src="shoes1.jpg"></td>
<td><img src="shoes2.jpg"></td>
<td><img src="shoes3.jpg"></td></tr>
<tr id="prdName"><td>솔로이스트<br>걸리쉬 리본단화</td>
<td>맥컬린<br>그레이가보시스트랩 펌프스</td>
<td>맥컬린<br>섹슈얼인사이드펌프스</td></tr>
<tr id="price"><td>100,000원</td><td>200,000원</td><td>120,000원</td></tr>
</table>
</div>
<div id="out_box">
<div class="box">
<h4>공지사항</h4>
<hr>
<a href="#">[배송] : 무표배송 변경 안내 18.10.20</a><br>
<a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a><br>
<a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>
</div>
<div class="box">
<h4>커뮤니티</h4>
<hr>
<a href="#">[레시피] : 살 안찌는 야식 만들기</a><br>
<a href="#">[가구] : 헌집 새집 베스트 가구</a><br>
<a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br>
</div>
</div>
</div>
</body>
</html>"""
bs = BeautifulSoup(html_str,'html.parser')
print(bs.prettify())

<html>
 <body>
  <div id="wrap">
   <div id="mainMenuBox">
    <ul>
     <li>
      <a href="#">
       패션잡화
      </a>
     </li>
     <li>
      <a href="#">
       주방용품
      </a>
     </li>
     <li>
      <a href="#">
       생활건강
      </a>
     </li>
     <li>
      <a href="#">
       DIY가구
      </a>
     </li>
    </ul>
   </div>
   <div>
    <table>
     <tr>
      <td>
       <img src="shoes1.jpg"/>
      </td>
      <td>
       <img src="shoes2.jpg"/>
      </td>
      <td>
       <img src="shoes3.jpg"/>
      </td>
     </tr>
     <tr id="prdName">
      <td>
       솔로이스트
       <br/>
       걸리쉬 리본단화
      </td>
      <td>
       맥컬린
       <br/>
       그레이가보시스트랩 펌프스
      </td>
      <td>
       맥컬린
       <br/>
       섹슈얼인사이드펌프스
      </td>
     </tr>
     <tr id="price">
      <td>
       100,000원
      </td>
      <td>
       200,000원
      </td>
      <td>
       120,000원
      </td>
     </tr>
    </table>
   </div>
   <div id="out_box">
    <div class="box">
     <h

In [None]:
tags = bs.select("div")
print(type(tags), len(tags))

<class 'bs4.element.ResultSet'> 6


In [68]:
bs.select("div #mainMenuBox")

[<div id="mainMenuBox">
 <ul>
 <li><a href="#">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>
 </div>]

In [57]:
bs.select("#wrap > div")

[<div id="mainMenuBox">
 <ul>
 <li><a href="#">패션잡화</a></li>
 <li><a href="#">주방용품</a></li>
 <li><a href="#">생활건강</a></li>
 <li><a href="#">DIY가구</a></li>
 </ul>
 </div>,
 <div>
 <table>
 <tr><td><img src="shoes1.jpg"/></td>
 <td><img src="shoes2.jpg"/></td>
 <td><img src="shoes3.jpg"/></td></tr>
 <tr id="prdName"><td>솔로이스트<br/>걸리쉬 리본단화</td>
 <td>맥컬린<br/>그레이가보시스트랩 펌프스</td>
 <td>맥컬린<br/>섹슈얼인사이드펌프스</td></tr>
 <tr id="price"><td>100,000원</td><td>200,000원</td><td>120,000원</td></tr>
 </table>
 </div>,
 <div id="out_box">
 <div class="box">
 <h4>공지사항</h4>
 <hr/>
 <a href="#">[배송] : 무표배송 변경 안내 18.10.20</a><br/>
 <a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a><br/>
 <a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>
 </div>
 <div class="box">
 <h4>커뮤니티</h4>
 <hr/>
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br/>
 <a href="#">[가구] : 헌집 새집 베스트 가구</a><br/>
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br/>
 </div>
 </div>]

In [None]:
bs.select(".box")

[<div class="box">
 <h4>공지사항</h4>
 <hr/>
 <a href="#">[배송] : 무표배송 변경 안내 18.10.20</a><br/>
 <a href="#">[전시] : DIY 가구 전시 안내 18.10.31</a><br/>
 <a href="#">[판매] : 11월 특가 상품 안내 18.11.05</a>
 </div>,
 <div class="box">
 <h4>커뮤니티</h4>
 <hr/>
 <a href="#">[레시피] : 살 안찌는 야식 만들기</a><br/>
 <a href="#">[가구] : 헌집 새집 베스트 가구</a><br/>
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a><br/>
 </div>]

In [35]:
bs.select(".box")[1].select("a")

[<a href="#">[레시피] : 살 안찌는 야식 만들기</a>,
 <a href="#">[가구] : 헌집 새집 베스트 가구</a>,
 <a href="#">[후기] : 배송이 잘못 됐어요 ㅠㅠ</a>]

In [49]:
temp = bs.select(".box")[1].select("a")[1]
print(type(temp), ":", temp)

<class 'bs4.element.Tag'> : <a href="#">[가구] : 헌집 새집 베스트 가구</a>


In [40]:
temp = bs.select(".box")[1].select("a")[1].text
print(type(temp), ":", temp)

<class 'str'> : [가구] : 헌집 새집 베스트 가구


In [39]:
temp = bs.select(".box")[1].select("a")[1]["href"]
print(type(temp), ":", temp)

<class 'str'> : #


### 웹 페이지에서 이미지 가져오기

#### 하나의 이미지 내려받기

In [11]:
import os, requests

url = 'https://www.python.org/static/img/python-logo.png'
html_image = requests.get(url)
print(type(html_image), ":", html_image.status_code)

# 이미지 파일의 전체 경로에서 파일 이름만 추출
image_file_name = os.path.basename(url)
print(image_file_name)

# 이미지 파일을 내 컴퓨터로 내려받을 폴더를 생성
folder = 'C:/Myexam/download'
if not os.path.exists(folder):
    os.makedirs(folder)

# 생성한 이미지 파일을 위한 폴더와 추출한 이미지 파일을 통합
path_file = os.path.join(folder, image_file_name)
path_file

# 이미지 데이터를 1,000,000 바이트씩 나눠서 내려받고 파일에 순차적으로 저장
with open(path_file, 'wb') as f:
    chunk_size = 1000000
    for chunk in html_image.iter_content(chunk_size):
        f.write(chunk)

# 지정된 폴더의 파일 목록을 확인
os.listdir(folder)

<class 'requests.models.Response'> : 200
python-logo.png


['python-logo.png']

#### 여러 이미지 내려받기

In [25]:
from bs4 import BeautifulSoup
import requests
import os

# URL(주소)에서 이미지 주소 추출
def get_image_url(url_string):
    response_text = requests.get(url_string).text
    bs = BeautifulSoup(response_text, "lxml")
    img_tags = bs.select('img')
    if bool(img_tags):
        image_url_list = []
        for tag in img_tags:
            image_url_list.append(tag.get('src'))
        return image_url_list
    return None

# 폴더를 지정해 이미지 주소에서 이미지 내려받기
def download_image(img_folder, img_url):
    if bool(img_folder) and bool(img_url):
        if not os.path.exists(img_folder):
            os.makedirs(img_folder)
        path_file = os.path.join(img_folder, os.path.basename(img_url))
        if (os.path.exists(path_file)):
            print("[SKIP] '{0}' (이미 존재)".format(os.path.basename(img_url)))
            return
        response = requests.get(img_url)
        with open(path_file, 'wb') as f:
            chunk_size = 1000000
            for chunk in response.iter_content(chunk_size):
                f.write(chunk)
        print("이미지 파일명: '{0}'. 내려받기 완료!".format(os.path.basename(img_url)))
    else:
        print("내려받을 이미지가 없습니다.")

reshot_url = 'https://www.reshot.com/search/animal'
figure_folder = "C:/Myexam/download" # 이미지를 내려받을 폴더 지정
reshot_image_urls = get_image_url(reshot_url) # 이미지 파일의 주소 가져오기
#num_of_download_image = 3 # 내려받을 이미지 개수 지정
num_of_download_image = len(reshot_image_urls)
for k in range(num_of_download_image):
    download_image(figure_folder, reshot_image_urls[k])
print("선택한 모든 이미지 내려받기 완료!")

[SKIP] 'reshot-logo--mark-f8dfafbc1cc8fbf4dfa0e2f210265735aefa6e32f883b5a1fe27fd94f84719b3.svg' (이미 존재)
[SKIP] 'icon-no-photos-034c2399566c35bc56688f11795abdadf83f3c88fd167216a17ed55c2d65c73e.svg' (이미 존재)
[SKIP] 'external-link-arrow-9fdf3fbf53535dc5eb554a9a5d5601329bb7bb7169ee72746a37fac0527b2967.svg' (이미 존재)
[SKIP] 'nue-royalty-free-462bfb6f00f39fa826d02345c88ad4f478f7c91e4b7e52b69bf90af33f51e9e7.png' (이미 존재)
[SKIP] 'elements-logo-a914a0d98bda174a3e606aba79073b9c3c2db5075d5742ce48d9fb58186c0858.svg' (이미 존재)
[SKIP] 'external-link-arrow-9fdf3fbf53535dc5eb554a9a5d5601329bb7bb7169ee72746a37fac0527b2967.svg' (이미 존재)
[SKIP] 'reshot-logo--mark-f8dfafbc1cc8fbf4dfa0e2f210265735aefa6e32f883b5a1fe27fd94f84719b3.svg' (이미 존재)
선택한 모든 이미지 내려받기 완료!


### NAVER NEWS Crawling

In [None]:
from urllib.request import urlopen # 서버 요청/응답 패키지
import bs4 # 파싱패키지

url = 'https://news.naver.com'
html = urlopen(url) # <class 'http.client.HTTPResponse'>
bs = bs4.BeautifulSoup(html, 'html.parser')

In [64]:
news_title1_tags = bs.findAll('strong', {'class':'cnf_news_title'})
news_title2_tags = bs.findAll('a', {'class':'cnf_news'})
len(news_title1_tags) # 82
len(news_title2_tags) # 246
news_titles = news_title1_tags[:10]
for news_title in news_titles:
    print(news_title.text)

82

246

'개인정보 유출 사고'에도 쿠팡 이용자 수 '급증'…견고? 경고?
[속보]정청래 "윤석열, 뻔뻔한 자기 합리화…장동혁, 尹 궤변과 망언 재창·삼창 반복"
여중생 모텔 사망 비극 불렀다…성착취 범죄 소굴된 이곳
“오세훈 제설 안하고 팔짱 끼고 있었나”…추미애 “폭설에 5시간 걸려 귀가”
KT CEO 후보 숏리스트 누가 오를까
특검, 김기현 배우자 소환...'집사 게이트' IMS 대표 구속 갈림길
"감히 대통령 면전서" 정청래, 조희대 겨냥 "국민들이 용서하지 않을  것"
보고 없이 ‘대북전단 살포’ 의혹 軍심리전단 조사…계엄버스 징계도 본격화
국힘, ‘마동석 전략’과 ‘질서의 정치’로 트럼피즘 계승해야
[KT 참호 이사회]③ 사외이사, 해킹 대응 교육 뒤 사고 은폐 '외면'


### 네이버 뉴스섹션메뉴와 섹션별 url 추출

In [89]:
import pandas as pd

# 네이버 뉴스 섹션메뉴 태그 확인 (개발자도구)
# body > section > header > div.Nlnb._float_lnb > div > div > div.Nlnb_left._lnb_scroll > div > div > ul
# selector가 너무 길어서 유용하지 않아 보임
# 직접 확인한 태그와 클래스 속성 사용
# ul 태그의 class : Nlnb_menu_list
ul_tags = bs.findAll("ul",{"class":"Nlnb_menu_list"})
len(ul_tags) # 원소가 1개이므로
ul_tag = ul_tags[0]
li_tags = ul_tag.findAll("li")
for tag in li_tags:
    print(tag.text, end=", ")
print(len(li_tags))

li_tags = bs.findAll("li", {"class":"Nlist_item"})
for tag in li_tags:
    print(tag.text, end=", ")
print(len(li_tags))

link_list = []
section_list = []
for tag in li_tags:
    a_tag = tag.find('a')
    link_list.append(a_tag['href'])
    section_list.append(a_tag.text)
    #print(a_tag.text, a_tag['href'])
news_df = pd.DataFrame({'section':section_list, 'link':link_list})
news_df.to_csv('c:/Myexam/naver_news_section.csv', encoding='euc-kr')
news_df


1

언론사별, 정치, 경제, 사회, 생활/문화, IT/과학, 세계, 랭킹, 신문보기, 오피니언, TV, 팩트체크, 알고리즘 안내, 정정보도 모음, 14
언론사별, 정치, 경제, 사회, 생활/문화, IT/과학, 세계, 랭킹, 신문보기, 오피니언, TV, 팩트체크, 알고리즘 안내, 정정보도 모음, 14


Unnamed: 0,section,link
0,언론사별,https://news.naver.com/?viewType=pc
1,정치,https://news.naver.com/section/100
2,경제,https://news.naver.com/section/101
3,사회,https://news.naver.com/section/102
4,생활/문화,https://news.naver.com/section/103
5,IT/과학,https://news.naver.com/section/105
6,세계,https://news.naver.com/section/104
7,랭킹,https://news.naver.com/main/ranking/popularDay...
8,신문보기,https://news.naver.com/newspaper/home?viewType=pc
9,오피니언,https://news.naver.com/opinion/home


# END