### Web scraping 기본 지식

In [1]:
import webbrowser

url = 'www.naver.com'
webbrowser.open(url)

True

In [2]:
naver_search_url = "http://search.naver.com/search.naver?query="
search_word = '파이썬'
url = naver_search_url + search_word

webbrowser.open_new(url)

True

In [4]:
urls = ['www.naver.com', 'www.daum.net', 'www.google.com']

for url in urls:
    webbrowser.open_new(url)

In [5]:
google_url = "https://www.google.co.kr/search?q="
search_words = ['python web scraping', 'python webbrowser']

for search in search_words:
    webbrowser.open_new(google_url+search_word)

In [6]:
%%writefile C:\Users\LGE1\TIL\python\IntroductionToPython\HTML_example.html
<!doctype html>
<html>
 <head>
    <meta charset="utf-8">
    <title>이것은 HTML 예제</title>
 </head>
 <body>
    <h1>출간된 책 정보</h1>
    <p id="book_title">이해가 쏙쏙 되는 파이썬</p>
    <p id="author">홍길동</p>
    <p id="publisher">위키북스 출판사</p>
    <p id="year">2021</p>
 </body>
</html>

Writing C:\Users\LGE1\TIL\python\IntroductionToPython\HTML_example.html


In [7]:
import requests

r = requests.get("http://www.google.co.kr")
r

<Response [200]>

In [8]:
r.text[:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

In [10]:
html = requests.get("http://www.google.co.kr").text
html[:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

In [11]:
from bs4 import BeautifulSoup

In [12]:
html = """<html><body><div><span>\
        <a href=http://www.naver.com>naver</a>\
        <a href=http://www.google.com>google</a>\
        <a href=http://www.daum.net/>daum</a>\
        </span></div></body></html"""

soup = BeautifulSoup(html, 'lxml')
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="http://www.google.com">google</a> <a href="http://www.daum.net/">daum</a> </span></div></body></html>

In [13]:
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="http://www.google.com">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


In [14]:
soup.find('a')

<a href="http://www.naver.com">naver</a>

In [15]:
soup.find('a').get_text()

'naver'

In [17]:
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="http://www.google.com">google</a>,
 <a href="http://www.daum.net/">daum</a>]

In [18]:
site_names = soup.find_all('a')
for site_name in site_names:
    print(site_name.get_text())

naver
google
daum


In [19]:
html2 = """
<html>
 <head>
   <title>작품과 작가 모음</title>
 </head>
 <body>
   <h1>책 정보</h1>
   <p id="book_title">데이터 분석을 위한 파이썬철저입문</p>
   <p id="author">최은석</p>
   
   <p id="book_title">누구나 파이썬 통계분석</p>
   <p id="author">타니아이 히로키</p>
   
   <p id="book_title">SQL로 맛보는 데이터 전처리 분석</p>
   <p id="author">노수영</p>
 </body>
 </head>
</html>
"""

soup2 = BeautifulSoup(html2, 'lxml')

In [21]:
soup2.title

<title>작품과 작가 모음</title>

In [22]:
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">데이터 분석을 위한 파이썬철저입문</p>
<p id="author">최은석</p>
<p id="book_title">누구나 파이썬 통계분석</p>
<p id="author">타니아이 히로키</p>
<p id="book_title">SQL로 맛보는 데이터 전처리 분석</p>
<p id="author">노수영</p>
</body>

In [23]:
soup2.body.h1

<h1>책 정보</h1>

In [25]:
soup2.find_all('p')

[<p id="book_title">데이터 분석을 위한 파이썬철저입문</p>,
 <p id="author">최은석</p>,
 <p id="book_title">누구나 파이썬 통계분석</p>,
 <p id="author">타니아이 히로키</p>,
 <p id="book_title">SQL로 맛보는 데이터 전처리 분석</p>,
 <p id="author">노수영</p>]

In [27]:
soup2.find('p', {"id":"book_title"})

<p id="book_title">데이터 분석을 위한 파이썬철저입문</p>

In [28]:
soup2.find('p', {"id":"author"})

<p id="author">최은석</p>

In [29]:
soup2.find_all('p', {"id":"book_title"})

[<p id="book_title">데이터 분석을 위한 파이썬철저입문</p>,
 <p id="book_title">누구나 파이썬 통계분석</p>,
 <p id="book_title">SQL로 맛보는 데이터 전처리 분석</p>]

In [30]:
soup2.find_all('p', {"id":"author"})

[<p id="author">최은석</p>, <p id="author">타니아이 히로키</p>, <p id="author">노수영</p>]

In [33]:
book_titles = soup2.find_all('p', {"id":"book_title"})
authors = soup2.find_all('p', {"id":"author"})

for book_title, author in zip(book_titles, authors):
    print(book_title.get_text() + '/' + author.get_text())

데이터 분석을 위한 파이썬철저입문/최은석
누구나 파이썬 통계분석/타니아이 히로키
SQL로 맛보는 데이터 전처리 분석/노수영


In [34]:
soup2.select('body h1')

[<h1>책 정보</h1>]

In [35]:
soup2.select('body p')

[<p id="book_title">데이터 분석을 위한 파이썬철저입문</p>,
 <p id="author">최은석</p>,
 <p id="book_title">누구나 파이썬 통계분석</p>,
 <p id="author">타니아이 히로키</p>,
 <p id="book_title">SQL로 맛보는 데이터 전처리 분석</p>,
 <p id="author">노수영</p>]

In [36]:
soup2.select('p')

[<p id="book_title">데이터 분석을 위한 파이썬철저입문</p>,
 <p id="author">최은석</p>,
 <p id="book_title">누구나 파이썬 통계분석</p>,
 <p id="author">타니아이 히로키</p>,
 <p id="book_title">SQL로 맛보는 데이터 전처리 분석</p>,
 <p id="author">노수영</p>]

In [37]:
soup2.select('p#book_title')

[<p id="book_title">데이터 분석을 위한 파이썬철저입문</p>,
 <p id="book_title">누구나 파이썬 통계분석</p>,
 <p id="book_title">SQL로 맛보는 데이터 전처리 분석</p>]

In [38]:
soup2.select('p#author')

[<p id="author">최은석</p>, <p id="author">타니아이 히로키</p>, <p id="author">노수영</p>]

In [41]:
%%writefile C:\Users\LGE1\TIL\python\IntroductionToPython\HTML_example_my_site.html
<!doctype html>
<html>
 <head>
    <meta charset="utf-8">
    <title>사이트 모음</title>
 </head>
 <body>
    <p id="title"><b>자주 가는 사이트 모음</b></p>
    <p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
    <a href="https://www.naver.com" class="portal" id="naver">네이버</a> <br>
    <a href="https://www.google.com" class="search" id="google">구글</a> <br>
    <a href="https://fastcampus.co.kr" class="education" id="fastcampus">패스트캠퍼스</a> <br>
    <a href="https://lc.multicampus.com/k-digital/" class="education" id="multicampus">멀티캠퍼스</a>
 </body>
</html>

Overwriting C:\Users\LGE1\TIL\python\IntroductionToPython\HTML_example_my_site.html


In [42]:
f = open(r'C:\Users\LGE1\TIL\python\IntroductionToPython\HTML_example_my_site.html', encoding='utf-8')

html3 = f.read()
f.close()

soup3 = BeautifulSoup(html3, "lxml")

In [43]:
soup3

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<title>사이트 모음</title>
</head>
<body>
<p id="title"><b>자주 가는 사이트 모음</b></p>
<p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
<a class="portal" href="https://www.naver.com" id="naver">네이버</a> <br/>
<a class="search" href="https://www.google.com" id="google">구글</a> <br/>
<a class="education" href="https://fastcampus.co.kr" id="fastcampus">패스트캠퍼스</a> <br/>
<a class="education" href="https://lc.multicampus.com/k-digital/" id="multicampus">멀티캠퍼스</a>
</body>
</html>

In [44]:
soup3.select('a')

[<a class="portal" href="https://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="education" href="https://fastcampus.co.kr" id="fastcampus">패스트캠퍼스</a>,
 <a class="education" href="https://lc.multicampus.com/k-digital/" id="multicampus">멀티캠퍼스</a>]

In [45]:
soup3.select('a.education')

[<a class="education" href="https://fastcampus.co.kr" id="fastcampus">패스트캠퍼스</a>,
 <a class="education" href="https://lc.multicampus.com/k-digital/" id="multicampus">멀티캠퍼스</a>]

In [46]:
soup3.select('a#naver')

[<a class="portal" href="https://www.naver.com" id="naver">네이버</a>]

In [47]:
%%writefile C:\Users\LGE1\TIL\python\IntroductionToPython\br_example.html
<!doctype html>
<html>
 <head>
    <meta charset="utf-8">
    <title>줄 바꿈 테스트 예제</title>
 </head>
 <body>
    <p id="title"><b>대한민국헌법</b><p>
    <p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>
    <p id="content">제2조 <br/>①대한민국의 국민이 되는 요건은 법률로 정한다.<br/>②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.</p>
 </body>
</html>

Writing C:\Users\LGE1\TIL\python\IntroductionToPython\br_example.html


In [48]:
f = open(r'C:\Users\LGE1\TIL\python\IntroductionToPython\br_example.html', encoding='utf-8')

html_source = f.read()
f.close()

soup = BeautifulSoup(html_source, "lxml")

title = soup.find('p', {"id":"title"})
contents = soup.find_all('p', {"id":"content"})

print(title.get_text())
for content in contents:
    print(content.get_text())

대한민국헌법
제1조 ①대한민국은 민주공화국이다.②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.
제2조 ①대한민국의 국민이 되는 요건은 법률로 정한다.②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다.


In [49]:
html1 = '<p id="content">제1조 <br/>①대한민국은 민주공화국이다.<br/>②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>'

soup1 = BeautifulSoup(html1, 'lxml')
content1 = soup1.find('p', {'id':'content'})

br_contents = content1.find_all('br')
for br_content in br_contents:
    br_content.replace_with('\n')
print(content1)

<p id="content">제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다.</p>


In [50]:
def replace_newline(soup_html):
    br_to_newlines = soup_html.find_all('br')
    for br_to_newline in br_to_newlines:
        br_to_newline.replace_with('\n')
    return soup_html

In [51]:
soup = BeautifulSoup(html_source, 'lxml')

title = soup.find('p', {'id':'title'})
contents = soup.find_all('p', {'id':'content'})

print(title.get_text(), '\n')

for content in contents:
    content1 = replace_newline(content)
    print(content1.get_text(),'\n')

대한민국헌법 

제1조 
①대한민국은 민주공화국이다.
②대한민국의 주권은 국민에게 있고, 모든 권력은 국민으로부터 나온다. 

제2조 
①대한민국의 국민이 되는 요건은 법률로 정한다.
②국가는 법률이 정하는 바에 의하여 재외국민을 보호할 의무를 진다. 



### 웹 사이트에서 데이터 가져오기

#### 순위 데이터 가져오기
- 웹 사이트 순위

In [68]:
import requests
from bs4 import BeautifulSoup

In [61]:
url = 'https://www.alexa.com/topsites/countries/KR'

html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking, 'lxml')

website_ranking = soup_website_ranking.select('p a')
website_ranking_address = [website_ranking_element.get_text() for website_ranking_element in website_ranking[1:]]

print("<Top Sites in South Korea>")
for k in range(10):
    print(f'{k+1}: {website_ranking_address[k]}')

<Top Sites in South Korea>
1: Google.com
2: Naver.com
3: Youtube.com
4: Daum.net
5: Tistory.com
6: Kakao.com
7: Coupang.com
8: Tmall.com
9: Amazon.com
10: Google.co.kr


In [63]:
import pandas as pd

website_ranking_dict = {'Website': website_ranking_address}
df = pd.DataFrame(website_ranking_dict, columns=['Website'], index=range(1, len(website_ranking_address)+1))

In [65]:
df.head(10)

Unnamed: 0,Website
1,Google.com
2,Naver.com
3,Youtube.com
4,Daum.net
5,Tistory.com
6,Kakao.com
7,Coupang.com
8,Tmall.com
9,Amazon.com
10,Google.co.kr


- 주간 음악 순위

In [70]:
url = 'https://music.bugs.co.kr/chart/track/week/total?chartdate=20211206'

html_music = requests.get(url).text
soup_music = BeautifulSoup(html_music, 'lxml')

titles = soup_music.select('p.title a')
titles[:5]

[<a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('6138300',true);
 " title="ELEVEN">ELEVEN</a>,
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('32405698',true);
 " title="매일 크리스마스 (Everyday Christmas)">매일 크리스마스 (Everyday Christmas)</a>,
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('6138444',true);
 " title="눈이 오잖아(Feat.헤이즈)">눈이 오잖아(Feat.헤이즈)</a>,
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('32381760',true);
 " title="회전목마 (Feat. Zion.T, 원슈타인) (Prod. Slom)">회전목마 (Feat. Zion.T, 원슈타인) (Prod. Slom)</a>,
 <a adultcheckval="1" aria-label="새창" href="javascript:;" onclick="bugs.wiselog.area('list_tr_09_chart');bugs.music.listen('32388313',true);
 " title="리무진 (Feat. MINO) (Prod. GRAY)">리무진 (F

In [71]:
music_titles = [title.get_text() for title in titles]

In [73]:
music_titles[:10]

['ELEVEN',
 '매일 크리스마스 (Everyday Christmas)',
 '눈이 오잖아(Feat.헤이즈)',
 '회전목마 (Feat. Zion.T, 원슈타인) (Prod. Slom)',
 '리무진 (Feat. MINO) (Prod. GRAY)',
 '만남은 쉽고 이별은 어려워 (Feat. Leellamarz) (Prod. TOIL)',
 '불협화음 (Feat. AKMU) (Prod. GRAY)',
 'strawberry moon',
 '네가 없는 밤 (Feat. ASH ISLAND) (Prod. GRAY)',
 '문득']

In [84]:
artists = soup_music.select('p.artist a')
artists[:13]

[<a href="https://music.bugs.co.kr/artist/20148657?wl_ref=list_tr_10_chart" onclick="
 " title="IVE (아이브)">IVE (아이브)</a>,
 <a href="https://music.bugs.co.kr/artist/80041466?wl_ref=list_tr_10_chart" onclick="
 " title="다비치">다비치</a>,
 <a href="https://music.bugs.co.kr/artist/20056684?wl_ref=list_tr_10_chart" onclick="
 " title="이무진">이무진</a>,
 <a href="https://music.bugs.co.kr/artist/20073470?wl_ref=list_tr_10_chart" onclick="
 " title="sokodomo">sokodomo</a>,
 <a href="https://music.bugs.co.kr/artist/80337001?wl_ref=list_tr_10_chart" onclick="
 " title="BE'O (비오)">BE'O (비오)</a>,
 <a href="https://music.bugs.co.kr/artist/80026960?wl_ref=list_tr_10_chart" onclick="
 " title="베이식(Basick)">베이식(Basick)</a>,
 <a href="https://music.bugs.co.kr/artist/20096572?wl_ref=list_tr_10_chart" onclick="
 " title="Mudd the student">Mudd the student</a>,
 <a href="https://music.bugs.co.kr/artist/80049126?wl_ref=list_tr_10_chart" onclick="
 " title="아이유(IU)">아이유(IU)</a>,
 <a href="https://music.bugs.co.kr/a

In [85]:
artists = soup_music.select('p.artist a:not(.more)')
artists[:13]

[<a href="https://music.bugs.co.kr/artist/20148657?wl_ref=list_tr_10_chart" onclick="
 " title="IVE (아이브)">IVE (아이브)</a>,
 <a href="https://music.bugs.co.kr/artist/80041466?wl_ref=list_tr_10_chart" onclick="
 " title="다비치">다비치</a>,
 <a href="https://music.bugs.co.kr/artist/20056684?wl_ref=list_tr_10_chart" onclick="
 " title="이무진">이무진</a>,
 <a href="https://music.bugs.co.kr/artist/20073470?wl_ref=list_tr_10_chart" onclick="
 " title="sokodomo">sokodomo</a>,
 <a href="https://music.bugs.co.kr/artist/80337001?wl_ref=list_tr_10_chart" onclick="
 " title="BE'O (비오)">BE'O (비오)</a>,
 <a href="https://music.bugs.co.kr/artist/80026960?wl_ref=list_tr_10_chart" onclick="
 " title="베이식(Basick)">베이식(Basick)</a>,
 <a href="https://music.bugs.co.kr/artist/20096572?wl_ref=list_tr_10_chart" onclick="
 " title="Mudd the student">Mudd the student</a>,
 <a href="https://music.bugs.co.kr/artist/80049126?wl_ref=list_tr_10_chart" onclick="
 " title="아이유(IU)">아이유(IU)</a>,
 <a href="https://music.bugs.co.kr/a

In [89]:
music_artists = [artist.get_text() for artist in artists]

In [90]:
music_artists[:5]

['IVE (아이브)', '다비치', '이무진', 'sokodomo', "BE'O (비오)"]

In [101]:
url = 'https://music.bugs.co.kr/chart/track/week/total?chartdate=20211206'

html_music = requests.get(url).text
soup_music = BeautifulSoup(html_music, 'lxml')

titles = soup_music.select('p.title a')
artists = soup_music.select('p.artist a:not(.more)')

music_titles = [title.get_text() for title in titles]
music_artists = [artist.get_text() for artist in artists]

In [102]:
for k in range(10):
    print(f'{k+1}: {music_titles[k]}-{music_artists[k]}')

1: ELEVEN-IVE (아이브)
2: 매일 크리스마스 (Everyday Christmas)-다비치
3: 눈이 오잖아(Feat.헤이즈)-이무진
4: 회전목마 (Feat. Zion.T, 원슈타인) (Prod. Slom)-sokodomo
5: 리무진 (Feat. MINO) (Prod. GRAY)-BE'O (비오)
6: 만남은 쉽고 이별은 어려워 (Feat. Leellamarz) (Prod. TOIL)-베이식(Basick)
7: 불협화음 (Feat. AKMU) (Prod. GRAY)-Mudd the student
8: strawberry moon-아이유(IU)
9: 네가 없는 밤 (Feat. ASH ISLAND) (Prod. GRAY)-BE'O (비오)
10: 문득-BE'O (비오)


In [95]:
music_titles_artists = {}
order = 0

for (music_title, music_artist) in zip(music_titles, music_artists):
    order += 1
    music_titles_artists[order] = [music_title, music_artist]

In [98]:
music_titles_artists[1]

['ELEVEN', 'IVE (아이브)']

In [126]:
# 일간차트

def bugs_music_day_top100(year, month, day):
    
    month = "{0:02d}".format(month)
    day = "{0:02d}".format(day)
    
    base_url = 'https://music.bugs.co.kr/chart/track/day/total?chartdate='
    url = base_url + f'{year}{month}{day}'
    
    html_music = requests.get(url).text
    soup_music = BeautifulSoup(html_music, 'lxml')
    
    titles = soup_music.select('p.title a')
    artists = soup_music.select('p.artist a:not(.more)')
    
    music_titles = [title.get_text() for title in titles]
    music_artists = [artist.get_text() for artist in artists]
    
    return music_titles, music_artists

In [127]:
bugs_music_day_top100(2020,12,18)

(['What Do I Call You',
  'For You (Feat. Crush)',
  '불면증 (Vocal by 윤하)',
  'VVS (Feat. JUSTHIS) (Prod. GroovyRoom)',
  'CRY FOR ME',
  '악역 (Feat. 이하이 & 사이먼 도미닉) (Prod. 코드 쿤스트)',
  'Playlist',
  'Lovegame',
  'Dynamite',
  'All I Want for Christmas Is You',
  'Life Goes On',
  'Santa Tell Me ',
  '밤하늘의 별을(2020)',
  'Achoo (Feat. pH-1, HAON) (Prod. GroovyRoom)',
  'Panorama',
  '잘할게',
  'Lovesick Girls',
  'Black Mamba',
  '잠이 오질 않네요',
  '내일이 오면 (Feat. 기리보이, BIG Naughty (서동현))',
  'Hate you',
  'To the moon',
  '미리 메리 크리스마스 (feat. 천둥 Of MBLAQ)',
  '들불 (Wildfire)',
  '사라진 모든 것들에게(with ELLE KOREA)',
  'Galaxy',
  'Snowman',
  'I CAN’T STOP ME',
  '한잔이면 지워질까',
  '나랑 같이 걸을래 (바른연애 길잡이 X 적재)',
  '취기를 빌려 (취향저격 그녀 X 산들)',
  '가을밤에 든 생각',
  '뿌리 (Feat. JUSTHIS) (Prod. GroovyRoom)',
  '혼술하고 싶은 밤',
  '어김없이 이 거리에',
  '적외선 카메라',
  '고독하구만 (Feat. 수퍼비) (Prod. GroovyRoom)',
  'Savage Love (Laxed - Siren Beat) (BTS Remix)',
  '힘든 건 사랑이 아니다',
  'Better',
  'MAGO',
  '34+35',
  '에잇(Prod.&Feat. SUGA of BTS)',

In [135]:
# 차트를 파일로 저장

import glob

bugs_music_titles, bugs_music_artists = bugs_music_day_top100(2021, 12, 17)

file_name = r'C:\Users\LGE1\TIL\python\IntroductionToPython\bugs_day_top100.txt'
f = open(file_name, 'w')

for k in range(len(bugs_music_titles)):
    f.write(f"{k+1}: {bugs_music_titles[k]}-{bugs_music_artists[k]}\n")
    
f.close()

In [136]:
glob.glob(file_name)

['C:\\Users\\LGE1\\TIL\\python\\IntroductionToPython\\bugs_day_top100.txt']

#### 웹페이지에서 이미지 가져오기
- 하나의 이미지 내려받기

In [155]:
import requests

url = 'https://www.python.org/static/img/python-logo@2x.png'
html_image = requests.get(url)

In [140]:
html_image

<Response [200]>

In [149]:
import os

image_file_name = os.path.basename(url)
image_file_name

'python-logo@2x.png'

In [150]:
folder =  r'C:\Users\LGE1\TIL\python\IntroductionToPython\download'

if not os.path.exists(folder):
    os.makedirs(folder)

In [151]:
image_path = os.path.join(folder, image_file_name)
image_path

'C:\\Users\\LGE1\\TIL\\python\\IntroductionToPython\\download\\python-logo@2x.png'

In [152]:
imageFile = open(image_path, 'wb')

In [153]:
chunk_size = 1000000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

In [154]:
os.listdir(folder)

['python-logo@2x.png']

In [None]:
import requests
import os

url = 'https://www.python.org/static/img/python-logo@2x.png'
html_image = requests.get(url)
image_file_name = os.path.basename(url)

folder =  r'C:\Users\LGE1\TIL\python\IntroductionToPython\download'

if not os.path.exists(folder):
    os.makedirs(folder)
    
image_path = os.path.join(folder, image_file_name)

imageFile = open(image_path, 'wb')

chunk_size = 1000000
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

- 여러 이미지 내려받기

In [158]:
URL = 'https://www.reshot.com/free-stock-photos/search/animal/'

html_reshot_image = requests.get(URL).text
soup_reshot_image = BeautifulSoup(html_reshot_image, 'lxml')
reshot_image_elements = soup_reshot_image.select('a img')
reshot_image_elements[:5]

[<img alt="Reshot" height="33" src="https://www.reshot.com/build/reshot-logo--mark-cc49363ac3f7876f854286af4266ead51a7ff9e0fa12f30677c9e758d43dd0d1.svg" title="Reshot" width="46"/>,
 <img alt="" class="photos-item-card__image" height="2448" loading="lazy" src="https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1521838685/photosp/bae96789-a5ab-4471-b54f-9686ace09e33/bae96789-a5ab-4471-b54f-9686ace09e33.jpg" width="2448"/>,
 <img alt="Back off!" class="photos-item-card__image" height="2361" loading="lazy" src="https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1597098233/photosp/a44357c5-b1c3-41ef-9a65-7a4937b06a44/a44357c5-b1c3-41ef-9a65-7a4937b06a44.jpg" width="3148"/>,
 <img alt="Orphans" class="photos-item-card__image" height="3375" loading="lazy" src="https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1617578418/photosp/34fd9c70-8996-4706-a0f1-113231ed3eee/34fd9c70-8996-4706-a0f1-113231ed3eee.jpg" width="3375"/>,
 <img alt="Red dog" class="p

In [159]:
reshot_image_elements[1].get('src')

'https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1521838685/photosp/bae96789-a5ab-4471-b54f-9686ace09e33/bae96789-a5ab-4471-b54f-9686ace09e33.jpg'

In [167]:
# URL(주소)에서 이미지 주소 추출
def get_image_url(url):
    
    html_image_url = requests.get(url).text
    soup_image_url = BeautifulSoup(html_image_url, 'lxml')
    image_elements = soup_image_url.select('a img')

    if image_elements != None:
        image_urls = []
        for image_element in image_elements[1:]:
            image_urls.append(image_element.get('src'))
        return image_urls
    else:
        return None
    
# 폴더를 지정해 이미지 주소에서 이미지 내려받기
def download_image(img_folder, img_url):

    if img_url != None:
        html_image = requests.get(img_url)
        imageFile = open(os.path.join(img_folder, os.path.basename(img_url)), 'wb')

        chunk_size = 100000
        for chunk in html_image.iter_content(chunk_size):
            imageFile.write(chunk)
            imageFile.close()
        print(f"이미지 파일명: {os.path.basename(img_url)}. 내려받기 완료")
    else:
        print("내려받을 이미지가 없습니다.")

In [168]:
reshot_url = 'https://www.reshot.com/free-stock-photos/search/animal'
figure_folder = r'C:\Users\LGE1\TIL\python\IntroductionToPython\download'
reshot_image_urls = get_image_url(reshot_url)

num_of_download_image = int(input("내려받을 이미지 수:"))

for k in range(num_of_download_image):
    download_image(figure_folder, reshot_image_urls[k])

print("=============================================")
print("선택한 모든 이미지 내려받기 완료")

내려받을 이미지 수:5
이미지 파일명: bae96789-a5ab-4471-b54f-9686ace09e33.jpg. 내려받기 완료
이미지 파일명: a44357c5-b1c3-41ef-9a65-7a4937b06a44.jpg. 내려받기 완료
이미지 파일명: 34fd9c70-8996-4706-a0f1-113231ed3eee.jpg. 내려받기 완료
이미지 파일명: dbd9fa3b-238b-47b1-8e20-c05400cbe921.jpg. 내려받기 완료
이미지 파일명: 737d192f-ba38-4a71-9bb9-9d40b45d0263.jpg. 내려받기 완료
선택한 모든 이미지 내려받기 완료
