### 웹스크래핑(Web Scrapping)

#### 1. 개념
* 웹스크래핑 : 웹사이트상에서 특정 부분에 위차한 정보를 컴퓨터
* 웹크롤링


#### 3. 파이썬으로 크롤링하기

크롤링의 정의는 `크롤링 crawling 또는 스크래핑 scraping`은 웹페이지를 그대로 가져와서 해당 페이지에서 데이터를 추출해 내는 행위이다.

#### 크롤링 또는 스크래핑방법
1. 원하는 페이지에 request를 보낸 결과를 html로 받는다.
2. 받은 html을 파싱한다.
3. 필요한 정보를 추출 및 저장

파이썬을 이용해서 웹크롤러를 만들기 위해서는 `http request/response`를 다루는 모듈과 html를 파싱하는 모듈이 필요하다.

> 참고사이트
* https://www.crummy.com/software/Beaurifulsoup
* https://docs.python.org/3.0/library/urllib.request/html

###### 1. 웹스크래핑  - html소스 읽기

In [6]:
from urllib.request import urlopen

# 사이트에 html 정보를 요청하는 request
html = urlopen('https://www.google.com')
display(html) # 객체의 정보만 출력
html.read() # html를 읽는 함수 == requests.get(url)

<http.client.HTTPResponse at 0x1c4fb970508>

b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="tL1jhynnvHAVBR9mIkmfjA==">(function(){window.google={kEI:\'beaKXvK0K6GwmAWWlY1g\',kEXPI:\'0,202123,3,1151620,5663,731,223,5104,207,3204,10,1051,175,364,1435,4,60,817,383,246,5,767,243,9,335,530,23,107,4,64,41,44,103,5,291,116,5,79,1126354,1197779,245,125,329118,1294,12383,4855,32691,15248,867,28684,363,8825,8384,4859,1361,9290,3030,2843,1895,3118,7910,1,1812,1239,2781,978,7931,5297,2054,622,298,873,1217,1710,1,1264,6430,7432,3874,2884,20,318,4516,2778,520,399,2277,8,2796,885,708,423,856,2213,201,328,149,1103,327,513,124,393,1470,4,48,820,3438,312,1137,2,2063,606,789,1050,184,544,1233,520,1947,747,1462,3,110,328,1284,16,2927,2247,473,1339,1787,3227,773,2072,9,815,6816,6513,2662,642,2449,2459,1226,1462,141,

In [11]:
# 2. 예외처리
from urllib.error import HTTPError
from urllib.error import URLError

try :
    # urlopen()에서 리턴되는 객체는 HttpResponse 객체
    html = urlopen('https://jaba.com') #에러발생을 위해 만든 없는 사이트 url
except HTTPError as e: 
    print('HTTP 에러!')
except URLError as e :
    print('존재하지 않는 사이트 주소입니다.')
    

존재하지 않는 사이트 주소입니다.


In [16]:
# 3. 이미지 다운로드 방법(1) - 간편한 방법
import urllib.request 

# daum사이트의 로고에서 마우스 우클릭 > 이미지주소 복사
url = 'https://t1.daumcdn.net/daumtop_chanel/op/20170315064553027.png'
savefilename = './images/daum.png'

# url를 일시적으로 저장, file경로를 지정하면  일시저장한 파일을 카피해서 지정경로에 저장

urllib.request.urlretrieve(url,savefilename)
print('저장')

저장


In [17]:
# 4. 이미지 다운로드 방법(2) - 바이너리파일로 처리

# 구글 로고를 저장
url = 'https://www.google.com/images/branding/googlelogo/2x/googlelogo_color_272x92dp.png'
savefilename = './images/google.png'

# 다운로드된 이미지 파일을 메모리에 저장
# urllib.request.urlopen(url).read() 앞에는 생략함
# byte파일로 저장됨
image = urlopen(url).read()
# 바이너리파일로 저장
with open(savefilename, mode = 'wb') as f :
    f.write(image)
    print('저장')
    

저장


In [27]:
# 5. 매개변수를 추가하여 인터넷 리소스를 요청하는 방법
# 기상청의 일기예보 : https://www.weather.go.kr

# 기상청 중기 일기예보
# 기상청 rss를 검색하면 기상청에서 rss을 제공하는 페이지에 들어갈 수 있다.
API = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp'

# API에 ?stnId=146를 추가하여 각 지역의 rss를 불러올 수 있다.
# url에 특수문자, 한글이 포함된 경웨 URL인코딩이 필요하다.
# 지역번호 : 전국 108, 서울/경기 109, 강원 105, 충북 131, 충남 133, 경북 146, 전남, 156
# 경북 143, 경남 159, 제주 184

values = {'stdId':'108'} # 전국, 각 지역에 맞는 코드를 넣어서 접근

# url에 한글, 특수문자가 포함될 경우 encoding
# urllib.parse.quote와 같은듯
params = urllib.parse.urlencode(values)
params
# 요청전용 URL 생성
url = API + '?' + params
print('url =', url)

# 다운로드
data = urllib.request.urlopen(url).read()

# decoding
text = data.decode('utf-8')


url = http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stdId=108


#### 2. 웹스크래핑(scrapping)

In [23]:
# 스크래핑 : 웹사이트에서 우너하는 정보를 추출하는 것
# BeautifulSope : HTML 파싱 라이브러리
# !pip install beautifulsoup4  

from bs4 import BeautifulSoup as bs
from urllib.request import urlopen

# https://stackoverflow.com의 메인페이지의 타이틀 텍스트를 가져오기
# url에 접속하여 연결된 후에 HttpResponse객체를 생성

html = urlopen('https://stackoverflow.com')

# html.read() -> html소스
# BeautifulSoup의 기본 분석기를 이용하여 html을 분석하기 위한 객체를 생성

# 기존 html.read를 보기쉽게 정리
# 기존 requests.get = urlopen
# requests.get(url).content = urlopen(url).read()

bs1 = BeautifulSoup(html.read(), 'html.parser')

# 문서내의 맨 처음의 h1 태그를 선택
print(bs1.h1)

NameError: name 'BeautifulSoup' is not defined

In [14]:
# next_sibling
from bs4 import BeautifulSoup as bs

# 분석하려는 html
html = '''
<html><body>
    <h1 id = 'title'>Hello Web Scrapping</h1>
    <p id = 'body'>웹 페이지 분석</p>
    <p>웹 스크래핑</p>
    
</body></html>
'''

# HTML분석 - html.parser(기본파서) 분석기 사용
# Ixml등의 외부 파서도 사용할 수 있다.
soup = bs(html, 'html.parser')

# 원하는 정보를 출력
h1 = soup.html.body.h1
h1
p1 = soup.html.body.p
p1

# sibling 형제노드(동일 레벨의 모드)
# previous_sibiling : 동일 레벨의 이전 노드
# next_sibiling : 동일 레벨의 다음 노드
# 선택되는 과정 : 첫번째 p 태그의 </p>뒤의 공백문자, 그 뒤의 <p>태그내용

# 하나만 할 시 뒤의 공백문자 \n을 인지해서 \n이 출력된다.
p2 = p1.next_sibling.next_sibling

# 요소의 글자를 출력하기
# bs(html, 'html.parser').html.body.h1.string
# string - 문자열 출력
print('h1 =', h1.string)
print('p1 =', p1.string)
print('p2 =', p2.string)


h1 = Hello Web Scrapping
p1 = 웹 페이지 분석
p2 = 웹 스크래핑


In [82]:
# 3. find()

# html 분석 : html.parser분석기 사용
soup = bs(html, 'html.parser')

# find 매서드로 원하는 부분을 추출
# 첫번째 자식객체만 가저옴
title = soup.find(id = 'title')
body = soup.find(id = 'body')
print('title =', p1.string)
print('body =', p2.string)

title = 웹 페이지 분석
body = 웹 스크래핑


In [104]:
# 4. find_all()
html = '''
<html><body>
    <ul>
        <li><a href ='http://daum.net'>daum</a></li>
        <li><a href ='http://google.com'>google</a></li>
        <li><a href ='http://yahoo.com'>yahoo</a></li>
        <li><a href ='http://naver.com'>naver</a></li>
        <li><a href ='http://nate.com'>nate</a></li>        
    </ul>  
</body></html>
'''
soup = bs(html, 'html.parser')
#soup.find_all?

links = soup.find_all('a')
# resultset형은 파이썬의 리스트 자료형
# 리스트 요소의 타입은 element.Tag 타입

print(type(links))
for i in links : 
    a = i.string
    # 태그 내부의 속성을 출력 : attrs[속성명]
    href = i.attrs['href']
    print(a,'=',href)



<class 'bs4.element.ResultSet'>
daum = http://daum.net
google = http://google.com
yahoo = http://yahoo.com
naver = http://naver.com
nate = http://nate.com


In [None]:
# 5. css처리 : select_one(), select()

html = '''
<html><body>
    <div id='main'>
        <h1>도서 목록</h1>
        <ul>
            <li>자바 프로그램 입문</li>
            <li>파이썬 머신러닝</li>
            <li>HTML5.CSS3</li>
        </ul>
    </div>  
</body></html>
'''

soup = bs(html, 'html.parser')

# 필요한 부분을 CSS로 추출
# h1의 도서 목록 추출, select_one()메서드 활용
h1 = soup.h1.string
h1 = soup.select_one('div#main>h1').string
h1

# li 목록 : select
li_list = soup.select('div#main>ul>li')
print(li_list)
for li in li_list :
    print(li)

#### 실습1. 기상청의 일기예보

In [332]:
# 태그의 텍스트 find().string
url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp'
html = urlopen(url)
soup = bs(html,'html.parser')

title = soup.title.string
print(title)
wf = soup.wf.string
wf = wf.replace('<br />', '\n')
#wf = wf.split('<br />')
print(wf)

기상청 육상 중기예보
○ (강수) 9일(목)은 강원영동에, 12일(일)은 충청도와 전라도, 경북에 비가 오겠습니다.
○ (건조) 이번 예보기간(9~16일) 전국이 대체로 맑고 대기가 매우 건조하겠으니, 산불 등 화재예방에 각별히 유의하기 바랍니다.
○ (기온) 이번 예보기간(9~16일) 낮 기온은 어제(5일, 9~18도)와 비슷하거나 조금 높은 13~22도로 포근하겠습니다.
○ (주말전망) 11일(토)은 대체로 맑겠고, 12일(일)은 충청도와 전라도, 경북에 비가 오겠습니다.
              주말 낮 기온은 13~19도로 포근하겠으나, 낮과 밤의 기온차가 10도 이상으로 크겠습니다.


#### 실습2. 네이버 금융 환율정보


In [None]:
url = 'https://finance.naver.com/marketindex/?tabSel=exchange#tab_section'
html = urlopen(url)
soup = bs(html, 'html.parser')

sale = soup.select_one('#exchangeList > li.on > a.head.usd > div > span.value').string
print('usd/krw =', sale)

In [360]:
url = 'https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC'
html = urlopen(url)
soup = bs(html, 'html.parser')
list = []
list_1 = soup.find(id = 'mw-content-text')
list_2 = list_1.find_all('ul')

# ul -> li -> ul -> li
# ul -> li -> a
# 첫번째가 카테고리화 되어있고 나머지가 아님
# 그래서 첫번째꺼에 맞추면 경로가 망해서 selector가 찾지를 못함
# find_all에서 ul를 전부 찾는데 ul안에 있는 ul도 카운트함
# 그래서 2번째 ul부터 시작하게 만들면 전부 같은 형식의 ul list를 출력이 가능
# find_all은 result_set 형식이기 때문에 인덱싱이 가능함
# 인덱싱을 통해서 첫번째 다른 형식의 ul를 생략하고 같은 형식의 ul부터 호출하면됨

for i in range(1,6):
    a = list_2[i].find_all('li')
    for j in a :
        list.append(j.string)

for i in list:
    print('...',i)
        

... 서시
... 자화상
... 소년
... 눈 오는 지도
... 돌아와 보는 밤
... 병원
... 새로운 길
... 간판 없는 거리
... 태초의 아침
... 또 태초의 아침
... 새벽이 올 때까지
... 무서운 시간
... 십자가
... 바람이 불어
... 슬픈 족속
... 눈감고 간다
... 또 다른 고향
... 길
... 별 헤는 밤
... 흰 그림자
... 사랑스런 추억
... 흐르는 거리
... 쉽게 씌어진 시
... 봄
... 참회록
... 간(肝)
... 위로
... 팔복
... 못자는밤
... 달같이
... 고추밭
... 아우의 인상화
... 사랑의 전당
... 이적
... 비오는 밤
... 산골물
... 유언
... 창
... 바다
... 비로봉
... 산협의 오후
... 명상
... 소낙비
... 한난계
... 풍경
... 달밤
... 장
... 밤
... 황혼이 바다가 되어
... 아침
... 빨래
... 꿈은 깨어지고
... 산림
... 이런날
... 산상
... 양지쪽
... 닭
... 가슴 1
... 가슴 2
... 비둘기
... 황혼
... 남쪽 하늘
... 창공
... 거리에서
... 삶과 죽음
... 초한대
... 산울림
... 해바라기 얼굴
... 귀뚜라미와 나와
... 애기의 새벽
... 햇빛·바람
... 반디불
... 둘 다
... 거짓부리
... 눈
... 참새
... 버선본
... 편지
... 봄
... 무얼 먹구 사나
... 굴뚝
... 햇비
... 빗자루
... 기왓장 내외
... 오줌싸개 지도
... 병아리
... 조개껍질
... 겨울
... 트루게네프의 언덕
... 달을 쏘다
... 별똥 떨어진 데
... 화원에 꽃이 핀다
... 종시


In [382]:
html = '''<!DOCTYPE html>
<html>
<head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">
    Once upon a time there were three little sisters; and their names were
    <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
    <a href="http://example.com/tillie" class="sister brother" id="link3">Tillie</a>;
    and they lived at the bottom of a well.
</p>
</body>
</html>
'''

soup = bs(html, 'html.parser')


# 1. element

print(soup.title)
print(soup.find('title'))

# 2. tag

print(soup.title.name)

# 3. text

print(soup.title.string)
print(soup.title.get_text())

# 4. single element

print(soup.a.get_text())
print(soup.find('a').get_text())

# 5. multi-element

print(soup.find_all('a'))

for i in range(0,3):
    print(soup.find_all('a')[i].get_text())

# 6. attribute

print(soup.a['class'])
print(soup.a.get('class'))
print()

# 7. find by id

print(soup.find(id='link1'))
print(soup.find('',{'id':'link1'}))
# 8. find by class

print(soup.find_all(class_='sister'))
print(soup.find_all('',{'class':'sister'}))

<title>The Dormouse's story</title>
<title>The Dormouse's story</title>
title
The Dormouse's story
The Dormouse's story
Elsie
Elsie
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister brother" href="http://example.com/tillie" id="link3">Tillie</a>]
Elsie
Lacie
Tillie
['sister']
['sister']

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister brother" href="http://example.com/tillie" id="link3">Tillie</a>]
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister brother" href="http://example.com/tillie" id="link3">Tillie</a>]


#### 고급 html 분석

In [24]:
# 1. 전쟁과 평화
from bs4 import BeautifulSoup as bs


# 전쟁과 평화
# http://shop.oreilly.com/product/0636920078067.do 참조 사이트. download ex
html = urlopen('https://www.pythonscraping.com/pages/warandpeace.html')
soup = bs(html, 'html.parser')


# span 태그중에서 class가 green인 태그들
# findAll(), find_all()
names = soup.find_all('span', class_='green')
# or soup.find_all('span', {'class':'green'})

for name in names :
    print(name.get_text())

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


In [393]:
# 2. 웹페이지에서 모든 h태그를 추출
# 리스트안에 for문 사용해서 출력
titles = soup.findAll(['h1','h2','h3','h4','h5','h6'])
print([title.get_text() for title in titles])

['War and Peace', 'Chapter 1']


In [405]:
# 3. span태그중에서 class가 green, red인 태그
# 리스트 for이용해서 출력
# find_all('span',{'class':'green','class':'red'}})
span = soup.find_all('span',{'class':{'green','red'}})
print([spans.string for spans in span])

["Well, Prince, so Genoa and Lucca are now just family estates of the\nBuonapartes. But I warn you, if you don't tell me that this means war,\nif you still try to defend the infamies and horrors perpetrated by\nthat Antichrist- I really believe he is Antichrist- I will have\nnothing more to do with you and you are no longer my friend, no longer\nmy 'faithful slave,' as you call yourself! But how do you do? I see\nI have frightened you- sit down and tell me all the news.", 'Anna\nPavlovna Scherer', 'Empress Marya\nFedorovna', 'Prince Vasili Kuragin', 'Anna Pavlovna', 'St. Petersburg', 'If you have nothing better to do, Count [or Prince], and if the\nprospect of spending an evening with a poor invalid is not too\nterrible, I shall be very charmed to see you tonight between 7 and 10-\nAnnette Scherer.', 'Heavens! what a virulent attack!', 'the prince', 'Anna Pavlovna', "First of all, dear friend, tell me how you are. Set your friend's\nmind at rest,", 'Can one be well while suffering mora

In [None]:
# 4. wordcount 
# 'the prince'단어의 갯수를 출력
span = soup.find_all('span',text='the prince')
len(span)

In [436]:
# 5. 자식노드 수집하기

html = req.urlopen('http://www.pythonscraping.com/pages/page3.html')
soup = bs(html,'html.parser')
a = soup.find_all(class_='gift')
for i in soup.find('table',{'id':'giftList'}).children:
     print(i)



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


In [446]:
# 6. next_siblings
html = req.urlopen('http://www.pythonscraping.com/pages/page3.html')
soup = bs(html, 'html.parser')

# table태그중에서 id가 giftList인 태그의 자식노드를 추출
# 자식노드 bs.find().tr.next_sibilings
# sibling : next_sibilings, previouw_siblings
# 제목행은 제외하고 검색
for sibling in soup.find('table', {'id':'giftList'}).tr.next_siblings:
    print(sibling)



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

In [449]:
# 6. previous_sibling
html = req.urlopen('http://www.pythonscraping.com/pages/page3.html')
soup = bs(html,'html.parser')


# img1.jpg의 부모노드의 이전 형제 노드의 텍스트값
# img1.jpg의 prarent, previouw_sibling사용

TypeError: 'NoneType' object is not iterable

##### jason 분석

In [15]:
# jason {key:value} 딕셔너리 같은 형태로 들어오는 데이터 형태
# 딕 - 리 - 딕 형태로 구성?


import json
json_str = \
'{"amount":[{"num":0},{"num":1},{"num":2}], \
  "fruits" : [{"fruit":"apple"},{"fruit":"banana"},{"fruit":"pear"}]\
}'
print(json_str)
print(type(json_str))
print()

obj = json.loads(json_str)
print(type(obj))

print(obj)
print(obj.get('fruits')[0])
print(obj.get('fruits')[1])
print(obj.get('amount')[2].get('num'))

{"amount":[{"num":0},{"num":1},{"num":2}],   "fruits" : [{"fruit":"apple"},{"fruit":"banana"},{"fruit":"pear"}]}
<class 'str'>

<class 'dict'>
{'amount': [{'num': 0}, {'num': 1}, {'num': 2}], 'fruits': [{'fruit': 'apple'}, {'fruit': 'banana'}, {'fruit': 'pear'}]}
{'fruit': 'apple'}
{'fruit': 'banana'}
2


##### pdf분석

* pip install pdfminer3k

In [None]:
# pdf문서 읽기
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open

In [None]:
def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)
    
    process_pdf(rsrcmgr,device,pdfFile)
    device.close()
    
    content = retstr.getvalue()
    retstr.close()
    
    return content

# 전쟁과 평화 pdf
pdfFile = req.urlopen('http://pythonscraping.com/pages/warandpeace/chapter1.pdf')
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()

##### 데이터 저장

In [None]:
# 웹페이지의 내용을 분석하여 csv파일로 저장
# table태그의 내부 텍스트를 저장
import csv

html = req.urlopen('http://en.wikipedia.org/wiki/Comparison_of_text_editors')
soup = bs(html, 'html.parser')

# class가 wikitable인 태그중에서 첫번쨰 태그를 선택
table = soup.findAll('table',{'class':'wikitable'})[0]
rows = table.findAll('rt')

csv_file = open('../data/editors.csv','wt',newline='', encoding = 'utf-8')
writer = csv.writer(csv_file)
try:
    for row in rows:
        csv_row = []
        # td, th 태그의 내용을 리스트에 추가
        for cell in row.findAll(['td','th']):
            csv_row.append(cell.get_text())
        writer.writerrow(csv_row)
finally : 
    print('파일이 저장되었습니다.')
    csv_file.close()

In [41]:
# 연습문제 1.
#다음 사이트에서 링크가 되어 있는 모든 제목을 가져와서 출력하기
#http://media.daum.net/digital/

html = req.urlopen('https://news.daum.net/digital/')
soup = bs(html,'html.parser')

a = soup.find_all('div',{'class':'cont_thumb'})

for i in a :
    b = i.find('a',{'class':'link_txt'}).get_text()
    print(b)


치매 정도를 'IQ'처럼 숫자로..'조기진단' 가능성 높였다
분자도 야구공처럼.. 양자 상태에 따라 운동궤적 달라져
배달의민족 "고개 숙여 사과드립니다"
고개 숙인 배민.."사장님들 말씀 경청하겠다"
혁신기업들, AI분야 매출액 증가율 73%로 '껑충'
최후의 1인을 가린다!카카오 배틀그라운드
대체불가 핵앤슬래시!  패스 오브 엑자일


In [84]:
#연습문제 2.
#네이버사이트 이미지 검색후 './images/naver'에 한번에 다운로드 및 저장하기(10ㄱ더\
#https://search.naver.com/search.naver?sm=tab_hty.top&where=image&query=코로나

inp = input('검색어 입력')
values = {'query':inp}
a = urllib.parse.urlencode(values)
url = 'https://search.naver.com/search.naver?sm=tab_hty.top&where=image&'
url1 = url+a

html = req.urlopen(url1)
soup = bs(html,'html.parser')
a = soup.find_all('img',{'class':'_img'})

for i in range(10):
    img = a[i]['data-source']
    urllib.request.urlretrieve(img,'./images/코로나%d.png'%i)
print('저장완료')

검색어 입력코로나


In [34]:
import urllib.request 

# daum사이트의 로고에서 마우스 우클릭 > 이미지주소 복사
url = 'https://t1.daumcdn.net/daumtop_chanel/op/20170315064553027.png'
savefilename = './images/daum.png'

# url를 일시적으로 저장, file경로를 지정하면  일시저장한 파일을 카피해서 지정경로에 저장

urllib.request.urlretrieve(url,savefilename)
print('저장')

검색어 입력코로나


'https://search.naver.com/search.naver?sm=tab_hty.top&where=image&query=%EC%BD%94%EB%A1%9C%EB%82%98'

#### 4. 웹사이트 정보를 mysql로 저장
#### 5. 웹사이트 캡춰
phantomjs
#### 6. 로그인이 필요한 사이트에서 데이타수집
크롬에서 네이버로그

연습문제
1. 도서목록수집(교보문고)
2. 다음에서 영화리뷰수집
3. 위키백과링크 수집
4. 파이썬 크롤링(html, Ajax, JavaScript)
5. 웹API로 데이터 추출
6. 정기적인 크롤링
7. 국제상품가격데이터