# 웹 스크레이핑

## 웹 브라우저로 웹 사이트 접속하기

### 하나의 웹 사이트에 접속하기

In [1]:
import webbrowser

url = 'www.naver.com'
webbrowser.open(url)

True

In [2]:
import webbrowser

naver_search_url = "http://search.naver.com/search.naver?query="
search_word = '파이썬'
url = naver_search_url + search_word

webbrowser.open_new(url)

True

In [3]:
import webbrowser

google_url = "www.google.com/#q="
search_word = 'python'
url = google_url + search_word

webbrowser.open_new(url)

True

### 여러 개의 웹 사이트에 접속하기

In [4]:
import webbrowser

urls = ['www.naver.com', 'www.daum.net', 'www.google.com']

for url in urls:
    webbrowser.open_new(url)

In [5]:
import webbrowser

google_url = "www.google.com/#q="
search_words = ['python web scraping', 'python webbrowser']

for search_word in search_words:
    webbrowser.open_new(google_url + search_word)

## 웹 스크레이핑을 위한 기본 지식

### 데이터의 요청과 응답 과정


### HTML의 기본 구조

In [8]:
%%writefile HTML_example.html 
<!doctype html>
<html>                                            # html 최상위 태그는 html.
 <head>                                           # head는 웹브라우저에 나오지 않음.
  <meta charset="utf-8">                          # charset : 속성명, "utf-8" : 속성 (unicode)
  <title>이것은 HTML 예제</title>
 </head>
 <body>                                           # body는 웹브라우저에 나옴.
  <h1>출간된 책 정보</h1>                         # <h1> </h1> : 헤드태그. 제목에 넣음. h1 h2 h3 이렇게 숫자에 따라 크기가 다름.
  <p id="book_title">이해가 쏙쏙 되는 파이썬</p>  # id : 속성명,  "book_title" : attribute(속성) [ ID와 CLASS는 공통적으로 많이 씀]
  <p id="author">홍길동</p>
  <p id="publisher">위키북스 출판사</p>
  <p id="year">2018</p>
 </body>
</html>

Overwriting HTML_example.html


In [10]:
%%writefile HTML_example2.html 
<!doctype html>
<html>
 <head>
  <meta charset="utf-8">
  <title>이것은 HTML 예제</title>
 </head>
 <body>
  <h1>출간된 책 정보</h1>
  <p>이해가 쏙쏙 되는 파이썬</p>             # p 태그의 속성이 없음. 이렇게도 쓸 수 있다.
  <p>홍길동</p>
  <p>위키북스 출판사</p>
  <p>2018</p>
 </body>
</html>

Overwriting HTML_example2.html


### 웹 페이지의 HTML 소스 갖고 오기

In [14]:
import requests

r = requests.get("https://www.google.co.kr")
r
# 결과가 200 : 정상적이다.

<Response [200]>

In [18]:
r.text[0:100] #웹 페이지를 정상적으로 가져옴

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

In [19]:
import requests

html = requests.get("https://www.google.co.kr").text #위와 동일
html[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

### HTML 소스코드를 분석하고 처리하기

#### 데이터 찾고 추출하기

## 아래 html 코드를 계층적으로 나타냄.
<html>
    <body>
        <div>                  #div : division, 구역이란 뜻
            <span>
                <a href=http://www.naver.com>naver</a>           # a 태그 : 하이퍼 (밑줄이 나옴)
                <a href=https://www.google.com>google</a>
                <a href=http://www.daum.net/>daum</a>
            </span>
        </div>
    </body>
</html>""" 

#### https://www.crummy.com/software/BeautifulSoup

In [27]:
from bs4 import BeautifulSoup
# 테스트용 html 코드
html = """<html><body><div><span>\
        <a href=http://www.naver.com>naver</a>\
        <a href=https://www.google.com>google</a>\
        <a href=http://www.daum.net/>daum</a>\
        </span></div></body></html>""" 

# BeautifulSoup를 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html) 
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="https://www.google.com">google</a> <a href="http://www.daum.net/">daum</a> </span></div></body></html>

In [28]:
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


In [29]:
soup.find('a')

<a href="http://www.naver.com">naver</a>

In [30]:
soup.find('a').get_text()

'naver'

In [31]:
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="https://www.google.com">google</a>,
 <a href="http://www.daum.net/">daum</a>]

In [32]:
site_names = soup.find_all('a')
for site_name in site_names:
    print(site_name.get_text())

naver
google
daum


In [33]:
from bs4 import BeautifulSoup

# 테스트용 HTML 코드
html2 = """
<html>
 <head>
  <title>작품과 작가 모음</title>
 </head>
 <body>
  <h1>책 정보</h1>
  <p id="book_title">토지</p>
  <p id="author">박경리</p>
  
  <p id="book_title">태백산맥</p>
  <p id="author">조정래</p>

  <p id="book_title">감옥으로부터의 사색</p>
  <p id="author">신영복</p>
 </body>
</html>
""" 

soup2 = BeautifulSoup(html2)

In [34]:
soup2.title

<title>작품과 작가 모음</title>

In [35]:
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>

In [36]:
soup2.body.h1

<h1>책 정보</h1>

In [37]:
soup2.find_all('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [38]:
soup2.find('p', {"id":"book_title"})

<p id="book_title">토지</p>

In [39]:
soup2.find('p', {"id":"author"})

<p id="author">박경리</p>

In [40]:
soup2.find_all('p', {"id":"book_title"})

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [41]:
soup2.find_all('p', {"id":"author"})

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [42]:
#책 이름과 저자 이름을 한번에 가져옴
from bs4 import BeautifulSoup

soup2 = BeautifulSoup(html2)

book_titles = soup2.find_all('p', {"id":"book_title"})
authors = soup2.find_all('p', {"id":"author"})

for book_title, author in zip(book_titles, authors):
    print(book_title.get_text() + '/' + author.get_text())

토지/박경리
태백산맥/조정래
감옥으로부터의 사색/신영복


In [43]:
soup2.select('body h1') #공백은 계층을 나타냄. body 태그 아래 h1

[<h1>책 정보</h1>]

In [44]:
soup2.select('body p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [45]:
soup2.select('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [46]:
soup2.select('p#book_title') # 샵은 id를 뜻함,   점은 class를 뜻함.

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [47]:
soup2.select('p#author')

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [48]:
%%writefile HTML_example_my_site.html 
<!doctype html>
<html>
  <head>
    <meta charset="utf-8">
    <title>사이트 모음</title>
  </head>
  <body>
    <p id="title"><b>자주 가는 사이트 모음</b></p>
    <p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
    <a href="http://www.naver.com" class="portal" id="naver">네이버</a> <br>   # a 태그 : 네이버를 누르면 저 주소로 들어가진다.
    <a href="https://www.google.com" class="search" id="google">구글</a> <br>
    <a href="http://www.daum.net" class="portal" id="danum">다음</a> <br>
    <a href="http://www.nl.go.kr" class="government" id="nl">국립중앙도서관</a>
  </body>
</html>

Writing HTML_example_my_site.html


In [49]:
f = open('HTML_example_my_site.html', encoding='utf-8')

html3 = f.read()
f.close()

soup3 = BeautifulSoup(html3)

In [50]:
soup3.select('a')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="portal" href="http://www.daum.net" id="danum">다음</a>,
 <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [51]:
soup3.select('a.portal')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="portal" href="http://www.daum.net" id="danum">다음</a>]

#### 웹 브라우저의 요소 검사

In [52]:
soup3.select('a')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="portal" href="http://www.daum.net" id="danum">다음</a>,
 <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [53]:
soup3.select('a.portal')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="portal" href="http://www.daum.net" id="danum">다음</a>]

In [54]:
soup3.select('a#naver')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>]

#### 줄 바꿈으로 가독성 높이기

In [55]:
%%writefile br_example_constitution.html
<!doctype html>
<html>
  <head>
    <meta charset="utf-8">
    <title>줄 바꿈 테스트 예제</title>
  </head>
  <body>
  <p id="title"><b>대한민국헌법</b></p>  ## <br/> : 줄 바꿈 태그. (시작 태그 끝 태그 구분이 없음)
  <p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>
  <p id="content">제2조 <br/>①대한민국의 국민이 되는 요건은 법률로 정한다.<br/>②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.</p>
  </body>
</html>

Writing br_example_constitution.html


In [57]:
from bs4 import BeautifulSoup

f = open('br_example_constitution.html', encoding='utf-8')

html_source = f.read()
f.close()

soup = BeautifulSoup(html_source)

title = soup.find('p', {"id":"title"}) # p 태그 중 id가 title인 것
contents = soup.find_all('p', {"id":"content"}) # p 태그 중 id가 content인 것 전부

print(title.get_text())
for content in contents:
    print(content.get_text()) # 태그를 제거하고 데이터만 추출

대한민국헌법
제1조 ①대한민국은 민주공화국이다.②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.
제2조 ①대한민국의 국민이 되는 요건은 법률로 정한다.②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.


In [59]:
html1 = '<p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>'

soup1 = BeautifulSoup(html1)

print("==> 태그 p로 찾은 요소")
content1 = soup1.find('p', {"id":"content"})
print(content1)

br_content = content1.find("br")
print("==> 결과에서 태그 br로 찾은 요소:", br_content)

br_content.replace_with("\n")
print("==> 태그 br을 개행문자로 바꾼 결과")
print(content1)

==> 태그 p로 찾은 요소
<p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>
==> 결과에서 태그 br로 찾은 요소: <br/>
==> 태그 br을 개행문자로 바꾼 결과
<p id="content">제1조 
①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>


In [61]:
soup2 = BeautifulSoup(html1)
content2 = soup2.find('p', {"id":"content"})

br_contents = content2.find_all("br")
for br_content in br_contents:
    br_content.replace_with("\n") # 줄 바꿈
print(content2)

<p id="content">제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>


In [62]:
def replace_newline(soup_html):
    br_to_newlines = soup_html.find_all("br")
    for br_to_newline in br_to_newlines: 
        br_to_newline.replace_with("\n")
    return soup_html

In [64]:
soup2 = BeautifulSoup(html1)
content2 = soup2.find('p', {"id":"content"})
content3 = replace_newline(content2)
print(content3.get_text())

제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.


In [65]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_source)

title = soup.find('p', {"id":"title"})
contents = soup.find_all('p', {"id":"content"})

print(title.get_text(), '\n')

for content in contents:
    content1 = replace_newline(content)
    print(content1.get_text(),'\n')

대한민국헌법 

제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다. 

제2조 
①대한민국의 국민이 되는 요건은 법률로 정한다.
②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다. 



## 웹 사이트에서 데이터 가져오기

### 웹 스크레이핑 시 주의 사항

* 웹 페이지의 소스코드에서 데이터를 얻기 위한 규칙을 발견할 수 있어야 한다.
* 파이썬 코드를 이용해 웹 스크레핑을 할 경우 해당 웹 사이트에 너무 빈번하게 접근하지 말아야 한다.
  필요 이상으로 접근 주기를 짧게 설정하지 않는 것이 예의이다.
* 웹 사이트는 언제든지 예고 없이 변경될 수 있으므로 웹 스크레핑을 위한 코드는 지속해서 관리해야 한다.
* 인터넷 상에 공개된 데이터라고 하더라도 저작권(copyright)이 있는 경우가 있으므로 웹 사이트에서 얻은 데이터를 활용하기 전에
  저작권 침해 여부를 미리 확인해야 한다.

### 순위 데이터를 가져오기


#### 웹 사이트 순위

In [3]:
import requests  
from bs4 import BeautifulSoup 

url = "https://www.alexa.com/topsites/countries/KR" # 웹사이트 방문 순위

html_website_ranking = requests.get(url).text       # 해당 페이지를 다운함. requests.
soup_website_ranking = BeautifulSoup(html_website_ranking)

# p 태그의 요소 안에서 a 태그의 요소를 찾음
website_ranking = soup_website_ranking.select('div.td.DescriptionCell p a') #태그중에서는 css도 있음. 그럴 때 쓰는게 select

In [4]:
website_ranking[0:6]   # p 밑에 a태그를 전부 가져옴.

[<a href="/siteinfo/google.com">Google.com</a>,
 <a href="/siteinfo/naver.com">Naver.com</a>,
 <a href="/siteinfo/youtube.com">Youtube.com</a>,
 <a href="/siteinfo/daum.net">Daum.net</a>,
 <a href="/siteinfo/tistory.com">Tistory.com</a>,
 <a href="/siteinfo/google.co.kr">Google.co.kr</a>]

In [93]:
website_ranking[0].get_text()

'Google.com'

In [94]:
website_ranking_address = [website_ranking_element.get_text() for website_ranking_element in website_ranking]

In [95]:
website_ranking_address[0:6]

['Google.com',
 'Naver.com',
 'Youtube.com',
 'Daum.net',
 'Google.co.kr',
 'Tistory.com']

In [101]:
import requests  
from bs4 import BeautifulSoup 

url = "https://www.alexa.com/topsites/countries/KR"

html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking)

# p 태그의 요소 안에서 a 태그의 요소를 찾음
website_ranking = soup_website_ranking.select('div.td.DescriptionCell p a')
website_ranking_address = [website_ranking_element.get_text() for website_ranking_element in website_ranking]

print("[Top Sites in South Korea]")
for k in range(6):
    print("{0}: {1}".format(k+1, website_ranking_address[k]))

[Top Sites in South Korea]
1: Google.com
2: Naver.com
3: Youtube.com
4: Daum.net
5: Google.co.kr
6: Tistory.com


In [102]:
import pandas as pd

website_ranking_dict = {'Website': website_ranking_address}
df = pd.DataFrame(website_ranking_dict, columns=['Website'], index=range(1,len(website_ranking_address)+1))
df[0:6]

Unnamed: 0,Website
1,Google.com
2,Naver.com
3,Youtube.com
4,Daum.net
5,Google.co.kr
6,Tistory.com


#### 주간 음악 순위

In [108]:
import requests
from bs4 import BeautifulSoup

url = "https://music.naver.com/listen/top100.nhn?domain=TOTAL_V2"
html_music = requests.get(url).text
soup_music = BeautifulSoup(html_music)

# a 태그의 요소 중에서 class 속성값이 "_title" 인 것을 찾고
# 그 안에서 span 태그의 요소 중에서 class 속성값이 "ellipsis"인 요소를 추출 
titles = soup_music.select('a._title span.ellipsis')
titles[0:7]

[<span class="ellipsis">그대라는 시</span>,
 <span class="ellipsis">술이 문제야</span>,
 <span class="ellipsis">헤어져줘서 고마워</span>,
 <span class="ellipsis">Snapping</span>,
 <span class="ellipsis">2002</span>,
 <span class="ellipsis">ICY</span>,
 <span class="ellipsis">Speechless (Full)</span>]

In [109]:
music_titles = [title.get_text() for title in titles]

In [110]:
music_titles[0:7]

['그대라는 시',
 '술이 문제야',
 '헤어져줘서 고마워',
 'Snapping',
 '2002',
 'ICY',
 'Speechless (Full)']

In [111]:
# a 태그의 요소 중에서 class 속성값이 "_artist" 인 것을 찾고
# 그 안에서 span 태그의 요소 중에서 class 속성값이 "ellipsis"인 요소를 추출
artists = soup_music.select('a._artist span.ellipsis') 
artists[0].get_text()

'\r\n\t\t\t\r\n\t\t\t\r\n\t\t\t태연 (TAEYEON)\r\n\t\t'

In [112]:
artists[0].get_text().strip()

'태연 (TAEYEON)'

In [113]:
music_artists = [artist.get_text().strip() for artist in artists]

In [114]:
music_artists[0:7]

['태연 (TAEYEON)', '벤', '청하', 'Anne-Marie', 'ITZY(있지)', 'Naomi Scott', '임재현']

In [115]:
# td 태그의 요소 중에서 class 속성값이 "_artist" 인 것을 찾고
# 그 안에서 a 태그의 요소를 추출
artists = soup_music.select('td._artist a')

In [116]:
artists[0]

<a class="_artist NPI=a:artist,r:1,i:35551" href="/artist/home.nhn?artistId=35551" title="태연 (TAEYEON)">
<span class="ellipsis">
			
			
			태연 (TAEYEON)
		</span>
</a>

In [117]:
artists[4]

<a class="_artist NPI=a:artist,r:5,i:355992" href="/artist/home.nhn?artistId=355992" title="Anne-Marie">
<span class="ellipsis">
			
			
			Anne-Marie
		</span>
</a>

In [118]:
artists[0].get_text().strip()

'태연 (TAEYEON)'

In [119]:
artists[4].get_text().strip()

'Anne-Marie'

In [120]:
music_artists = [artist.get_text().strip() for artist in artists]

In [121]:
music_artists[0:7]

['태연 (TAEYEON)', '장혜진', '벤', '청하', 'Anne-Marie', 'ITZY(있지)', 'Naomi Scott']

In [None]:
import requests
from bs4 import BeautifulSoup

url = "http://music.naver.com/listen/history/index.nhn?type=DOMESTIC&year=2017&month=12&week=1&page=1"    
# url = "http://music.naver.com/listen/history/index.nhn?type=DOMESTIC&year=2017&month=12&week=1&page=2"
# url = "http://music.naver.com/listen/top100.nhn?domain=TOTAL&page=1"
    
html_music = requests.get(url).text
soup_music = BeautifulSoup(html_music)

titles = soup_music.select('a._title span.ellipsis') 
artists = soup_music.select('td._artist a')

music_titles = [title.get_text() for title in titles]
music_artists = [artist.get_text().strip() for artist in artists]

for k in range(7):
    print("{0}: {1} / {2}".format(k+1, music_titles[k], music_artists[k]))

In [None]:
music_titles_artists={}
order = 0

for (music_title, music_artist) in zip(music_titles, music_artists):
    order = order + 1
    music_titles_artists[order] = [music_title, music_artist]

In [None]:
music_titles_artists[1]

In [None]:
music_titles_artists[2]

In [None]:
import requests
from bs4 import BeautifulSoup
import glob
    
naver_music_url = "http://music.naver.com/listen/history/index.nhn?type=DOMESTIC&year=2017&month=12&week=1&page="
 
# 네이버 music 주소를 입력하면 노래 제목과 아티스트를 반환
def naver_music(url):    
    html_music = requests.get(url).text
    soup_music = BeautifulSoup(html_music, "lxml")

    titles = soup_music.select('a._title span.ellipsis') 
    artists = soup_music.select('td._artist a')

    music_titles = [title.get_text() for title in titles]
    music_artists = [artist.get_text().strip() for artist in artists]
    
    return music_titles, music_artists

# 노래 제목과 아티스트를 저장할 파일 이름을 폴더와 함께 지정
file_name = 'C:/myPyCode/data/NaverMusicTop100.txt'

f = open(file_name,'w') # 파일 열기

# 각 page에는 50개의 노래 제목과 아티스트가 추출됨
for page in range(2):
    naver_music_url_page = naver_music_url + str(page+1) # page URL
    naver_music_titles, naver_music_artists = naver_music(naver_music_url_page)
    
    # 추출된 노래 제목과 아티스트를 파일에 저장 
    for k in range(len(naver_music_titles)):
        f.write("{0:2d}: {1}/{2}\n".format(page*50 + k+1, naver_music_titles[k],  naver_music_artists[k]))
        
f.close() # 파일 닫기

glob.glob(file_name) # 생성된 파일 확인

### 웹 페이지에서 이미지 가져오기

#### 하나의 이미지 내려받기

In [122]:
import requests  

#해당 웹페이지에 추가로 htmp코드의 src를 추가함.
url = 'https://www.python.org/static/img/python-logo.png'
html_image = requests.get(url)
html_image

<Response [200]>

In [123]:
import os

#위 url중 파일이름만 따냄.
image_file_name = os.path.basename(url)
image_file_name

'python-logo.png'

In [124]:
folder = 'download' 
if not os.path.exists(folder):
    os.makedirs(folder) # 디렉터리 생성

In [125]:
image_path = os.path.join(folder, image_file_name)
image_path

'download\\python-logo.png'

In [126]:
imageFile = open(image_path, 'wb')

In [127]:
# 이미지 데이터를 100000 바이트씩 나눠서 내려받고 파일에 순차적으로 저장
chunk_size = 1000000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

In [128]:
os.listdir(folder)

['python-logo.png']

In [129]:
import requests  
import os

url = 'https://www.python.org/static/img/python-logo.png'
html_image = requests.get(url)
image_file_name = os.path.basename(url)

folder = 'download' 

if not os.path.exists(folder):
    os.makedirs(folder)

image_path = os.path.join(folder, image_file_name)

imageFile = open(image_path, 'wb')
# 이미지 데이터를 100000 바이트씩 나눠서 저장
chunk_size = 1000000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

#### 여러 이미지 내려받기

In [130]:
import requests  
from bs4 import BeautifulSoup 

URL = 'https://pixabay.com/ko/photos/?order=popular&cat=animals'

html_pixabay_image = requests.get(URL).text
soup_pixabay_image = BeautifulSoup(html_pixabay_image)
pixabay_image_elements = soup_pixabay_image.select('img') 
pixabay_image_elements[0:3]

[<img alt="" src="https://cdn.pixabay.com/photo/2018/08/14/10/54/danxia-3605276__340.jpg" srcset="https://cdn.pixabay.com/photo/2018/08/14/10/54/danxia-3605276__340.jpg 1x, https://cdn.pixabay.com/photo/2018/08/14/10/54/danxia-3605276__480.jpg 2x"/>,
 <img alt="" src="https://cdn.pixabay.com/photo/2019/06/01/00/04/peony-4243278__340.jpg" srcset="https://cdn.pixabay.com/photo/2019/06/01/00/04/peony-4243278__340.jpg 1x, https://cdn.pixabay.com/photo/2019/06/01/00/04/peony-4243278__480.jpg 2x"/>,
 <img alt="" src="https://cdn.pixabay.com/photo/2019/07/16/11/14/banff-4341560__340.jpg" srcset="https://cdn.pixabay.com/photo/2019/07/16/11/14/banff-4341560__340.jpg 1x, https://cdn.pixabay.com/photo/2019/07/16/11/14/banff-4341560__480.jpg 2x"/>]

In [131]:
pixabay_image_url = pixabay_image_elements[0].get('src') #필요한것만 가져옴
pixabay_image_url

'https://cdn.pixabay.com/photo/2018/08/14/10/54/danxia-3605276__340.jpg'

In [132]:
html_image = requests.get(pixabay_image_url)

folder = "download"
    
# os.path.basename(URL)는 웹사이트나 폴더가 포함된 파일명에서 파일명만 분리하는 방법    
imageFile = open(os.path.join(folder, os.path.basename(pixabay_image_url)), 'wb')

# 이미지 데이터를 100000 바이트씩 나눠서 저장하는 방법
chunk_size = 1000000 
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

In [135]:
import requests  
from bs4 import BeautifulSoup 
import os

# URL(주소)에서 이미지 주소 추출
def get_image_url(url): 
    html_image_url = requests.get(url).text
    soup_image_url = BeautifulSoup(html_image_url)  
    image_elements = soup_image_url.select('img') 
    if(image_elements != None):
        image_urls = []
        for image_element in image_elements:
            image_urls.append(image_element.get('src'))
        return image_urls        
    else:
        return None
    
# 폴더를 지정해 이미지 주소에서 이미지 내려받기
def download_image(img_folder, img_url):
    if(img_url != None):  
        html_image = requests.get(img_url)
        # os.path.basename(URL)는 웹사이트나 폴더가 포함된 파일명에서 파일명만 분리    
        imageFile = open(os.path.join(img_folder, os.path.basename(img_url)), 'wb')

        chunk_size = 1000000 # 이미지 데이터를 100000 바이트씩 나눠서 저장
        for chunk in html_image.iter_content(chunk_size):
            imageFile.write(chunk)
            imageFile.close()
        print("이미지 파일명: '{0}'. 내려받기 완료!".format(os.path.basename(img_url))) 
    else:       
        print("내려받을 이미지가 없습니다.")
        
# 웹 사이트의 주소 지정   
pixabay_url = 'https://pixabay.com/ko/photos/?order=popular&cat=animals'
# pixabay_url= 'https://pixabay.com/ko/photos/?order=popular&cat=animals&pagi=2'

figure_folder = "download" # 이미지를 내려받을 폴더 지정  

pixabay_image_urls = get_image_url(pixabay_url) # 이미지 파일의 주소 가져오기

num_of_download_image = 7 # 내려받을 이미지 개수 지정
# num_of_download_image = len(pixabay_image_urls)

for k in range(num_of_download_image):
    download_image(figure_folder,pixabay_image_urls[k])
print("================================")
print("선택한 모든 이미지 내려받기 완료!")

이미지 파일명: 'danxia-3605276__340.jpg'. 내려받기 완료!
이미지 파일명: 'peony-4243278__340.jpg'. 내려받기 완료!
이미지 파일명: 'banff-4341560__340.jpg'. 내려받기 완료!
이미지 파일명: 'samburu-4371555__340.jpg'. 내려받기 완료!
이미지 파일명: 'abendstimmung-4353170__340.jpg'. 내려받기 완료!
이미지 파일명: 'indoors-3117027__340.jpg'. 내려받기 완료!
이미지 파일명: 'cat-2291039__340.jpg'. 내려받기 완료!
선택한 모든 이미지 내려받기 완료!


In [136]:
num_of_download_image = len(pixabay_image_urls)
num_of_download_image

37