# 01. 웹 브라우저로 웹 사이트 접속하기

## 하나의 웹 사이트에 접속하기

In [1]:
import webbrowser

url = 'https://github.com/woojangchang/'
webbrowser.open(url)

True

In [2]:
# 검색을 위한 웹사이트 주소에 검색어를 연결하여 입력
naver_search_url = 'http://search.naver.com/search.naver?query='
search_word = '파이썬'
url = naver_search_url + search_word

webbrowser.open(url)

True

In [5]:
# 구글
google_url = 'www.google.com/search?q='
search_word = 'python'
url = google_url + search_word
webbrowser.open(url)

True

## 여러 개의 웹 사이트에 접속하기

In [6]:
search_words = ['python', '파이썬']

for search_word in search_words:
    webbrowser.open_new(google_url + search_word)

# 02. 웹 스크레이핑을 위한 기본 지식

## 웹 페이지의 HTML 소스 갖고 오기

In [7]:
import requests

r = requests.get('https://www.google.co.kr')
r

<Response [200]>

In [8]:
r.text[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

## HTML 소스코드를 분석하고 처리하기

In [9]:
from bs4 import BeautifulSoup

# 테스트용 html 코드
html = """<html><body><div><span>\
        <a href=http://www.naver.com>naver</a>\
        <a href=https://www.google.co.kr>google</a>\
        <a href=http://www.daum.net/>daum</a>\
        </span></div></body></html>"""

# Beautifulsoup을 이용해 HTML 소스를 파싱
soup = BeautifulSoup(html, 'lxml')
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="https://www.google.co.kr">google</a> <a href="http://www.daum.net/">daum</a> </span></div></body></html>

In [10]:
# HTML 구조로 확인
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="https://www.google.co.kr">
     google
    </a>
    <a href="http://www.daum.net/">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


### find, find_all
- 태그(또는 속성)으로 찾기

In [11]:
# 태그가 있는 첫 요소 찾기
soup.find('a')

<a href="http://www.naver.com">naver</a>

In [12]:
# a 태그에서 텍스트만 추출
soup.find('a').get_text()

'naver'

In [13]:
# a 태그 모든 요소 찾기
soup.find_all('a')

[<a href="http://www.naver.com">naver</a>,
 <a href="https://www.google.co.kr">google</a>,
 <a href="http://www.daum.net/">daum</a>]

In [14]:
# a 태그 모든 요소에서 텍스트만 추출
site_names = soup.find_all('a')
for site_name in site_names:
    print(site_name.get_text())

naver
google
daum


In [15]:
# 테스트용 HTML 코드2
html2 = """
<html>
    <head>
        <title>작품과 작가 모음</title>
    </head>
    <body>
        <h1>책 정보</h1>
        <p id="book_title">토지</p>
        <p id="author">박경리</p>
        
        <p id="book_title">태백산맥</p>
        <p id="author">조정래</p>
        
        <p id="book_title">감옥으로부터의 사색</p>
        <p id="author">신영복</p>
    </body>
</html>
"""

soup = BeautifulSoup(html2, "lxml")

In [16]:
# title 요소
soup.title

<title>작품과 작가 모음</title>

In [17]:
# body 요소
soup.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="author">박경리</p>
<p id="book_title">태백산맥</p>
<p id="author">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="author">신영복</p>
</body>

In [18]:
# body 내 h1
soup.body.h1

<h1>책 정보</h1>

In [19]:
# p 태그
soup.find_all('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [20]:
# p 태그, 원하는 속성
soup.find_all('p', {"id":"book_title"})

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [21]:
soup.find_all('p', {"id":"author"})

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

### select
- css 선택자
- 태그 이름 또는 태그 이름#id 또는 .class

In [23]:
# body의 h1
soup.select('body h1')

[<h1>책 정보</h1>]

In [24]:
# body의 p
soup.select('body p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [25]:
# p
soup.select('p')

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [26]:
# 속성값(id) 지정
soup.select('p#book_title')

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [27]:
soup.select('p#author')

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [28]:
soup.select('#author')

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [31]:
%%writefile HTML_example_my_site.HTML
<!doctype html>
<html>
    <head>
        <meta charset="utf-8">
        <title>사이트 모음</title>
    </head>
    <body>
        <p id="title"><b>자주 가는 사이트 모음</b></p>
        <p id="contents">이곳은 자주 가는 사이트를 모아둔 곳입니다.</p>
        <a href="http://www.naver.com" class="portal" id="naver">네이버</a><br>
        <a href="https://www.google.com" class="search" id="google">구글</a><br>
        <a href="http://www.daum.net" class="portal" id="daum">다음</a><br>
        <a href="http://www.nl.go.kr" class="government" id="nl">국립중앙도서관</a>
    </body>
</html>

Writing HTML_example_my_site.HTML


In [32]:
f = open('HTML_example_my_site.HTML', encoding='utf-8')

html = f.read()
f.close()

soup = BeautifulSoup(html, "lxml")

In [33]:
soup.select('a')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="search" href="https://www.google.com" id="google">구글</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>,
 <a class="government" href="http://www.nl.go.kr" id="nl">국립중앙도서관</a>]

In [34]:
# class 지정
soup.select('a.portal')

[<a class="portal" href="http://www.naver.com" id="naver">네이버</a>,
 <a class="portal" href="http://www.daum.net" id="daum">다음</a>]

# 03. 웹 사이트에서 데이터 가져오기

## 순위 데이터 가져오기

### 웹 사이트 순위
- https://www.alexa.com/topsites/countries/KR

In [36]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.alexa.com/topsites/countries/KR'

html_website_ranking = requests.get(url).text
soup_website_ranking = BeautifulSoup(html_website_ranking, 'lxml')

# p 태그 요소 안에서 a 태그 요소를 찾음
website_ranking = soup_website_ranking.select('p a')

In [37]:
website_ranking[:7]

[<a href="https://support.alexa.com/hc/en-us/articles/200444340" target="_blank">this explanation</a>,
 <a href="/siteinfo/google.com">Google.com</a>,
 <a href="/siteinfo/naver.com">Naver.com</a>,
 <a href="/siteinfo/youtube.com">Youtube.com</a>,
 <a href="/siteinfo/daum.net">Daum.net</a>,
 <a href="/siteinfo/tistory.com">Tistory.com</a>,
 <a href="/siteinfo/kakao.com">Kakao.com</a>]

In [38]:
website_ranking_address = [website_ranking_element.get_text() for website_ranking_element in website_ranking[1:]]

In [40]:
website_ranking_address[:7]

['Google.com',
 'Naver.com',
 'Youtube.com',
 'Daum.net',
 'Tistory.com',
 'Kakao.com',
 'Tmall.com']

### 주간 음악 순위
- https://vibe.naver.com/chart/total

In [56]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup

executable_path='data/chromedriver.exe'
chrome_options = Options()
chrome_options.add_argument("--headless")
driver = webdriver.Chrome(executable_path=executable_path, options=chrome_options)

url = "https://vibe.naver.com/chart/total"

driver.get(url)
html_music = driver.page_source
soup_music = BeautifulSoup(html_music, 'lxml')

# 순위, 제목, 가수, 앨범
ranks = soup_music.select('td.rank')
titles = soup_music.select('td.song')
artists = soup_music.select('td.artist')
albums = soup_music.select('td.album')

driver.close()

In [57]:
titles[:3]

[<td class="song"><div class="title_badge_wrap"><span class="inner_cell"><a class="link_text" href="/track/49680764" title="Stay">Stay</a></span><!-- --><!-- --><!-- --></div><div class="artist_sub" title="The Kid LAROI, Justin Bieber"><span><span><a class="link_artist" href="/artist/2978307"><span class="text">The Kid LAROI</span></a><span>, </span></span><span><a class="link_artist" href="/artist/119770"><span class="text">Justin Bieber</span></a><!-- --></span></span><span class="blind">아티스트명</span></div><!-- --></td>,
 <td class="song"><div class="title_badge_wrap"><span class="inner_cell"><a class="link_text" href="/track/50800360" title="Savage">Savage</a></span><!-- --><!-- --><!-- --></div><div class="artist_sub" title="aespa"><span><span><a class="link_artist" href="/artist/3980296"><span class="text">aespa</span></a><!-- --></span></span><span class="blind">아티스트명</span></div><!-- --></td>,
 <td class="song"><div class="title_badge_wrap"><span class="inner_cell"><a class="link

In [58]:
ranks[0].get_text(), titles[0].get_text(), artists[0].get_text(), albums[0].get_text()

('1',
 'StayThe Kid LAROI, Justin Bieber아티스트명',
 'The Kid LAROI, Justin Bieber',
 'Stay')

In [None]:
import re

ranks = [rank.get_text() for rank in ranks]
titles = [re.sub('아티스트명', '', title.get_text()) for title in titles]
artists = [artist.get_text() for artist in artists]
albums = [album.get_text() for album in albums]

In [60]:
ranks[0], titles[0], artists[0], albums[0]

('1',
 'StayThe Kid LAROI, Justin Bieber',
 'The Kid LAROI, Justin Bieber',
 'Stay')

In [61]:
titles = [re.sub(artists[i], '', titles[i]) for i in range(len(titles))]

In [62]:
titles[0]

'Stay'

In [65]:
import pandas as pd

data = {'노래':titles, '아티스트':artists, '앨범':albums}

df_music = pd.DataFrame(data, index=pd.Index(ranks, name='순위'))
df_music

Unnamed: 0_level_0,노래,아티스트,앨범
순위,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Stay,"The Kid LAROI, Justin Bieber",Stay
2,Savage,aespa,Savage - The 1st Mini Album
3,신호등,이무진,신호등
4,My Universe,"Coldplay, 방탄소년단",My Universe
5,낙하 (with 아이유)AKMU(악뮤),AKMU(악뮤),NEXT EPISODE
...,...,...,...
96순위 하락,aenergy,aespa,Savage - The 1st Mini Album
97순위 상승,전쟁터 (with 이선희)AKMU(악뮤),AKMU(악뮤),NEXT EPISODE
98순위 상승,ONLY,이하이,4 ONLY
99순위 하락,벌써 일년 (Drama Ver.),미도와 파라솔,슬기로운 의사생활 시즌2 OST Special


## 웹 페이지에서 이미지 가져오기

### 하나의 이미지 내려받기

In [66]:
import requests

url = 'https://www.python.org/static/img/python-logo.png'
html_image = requests.get(url)
html_image

<Response [200]>

In [67]:
import os

image_file_name = os.path.basename(url)
image_file_name

'python-logo.png'

In [68]:
folder = 'download'

if not os.path.exists(folder):
    os.mkdir(folder)

In [69]:
image_path = os.path.join(folder, image_file_name)
image_path

'download\\python-logo.png'

In [70]:
# 이미지 파일 저장
imageFile = open(image_path, 'wb') # 바이너리 파일임을 명시

chunk_size = 1000000 # 이미지를 1000000 바이트씩 나눠서 내려받고 파일에 순차적으로 저장
for chunk in html_image.iter_content(chunk_size):
    imageFile.write(chunk)
imageFile.close()

### 여러 이미지 내려받기
- https://www.reshot.com/search/animal
- a 태그 안에 img 태그

In [71]:
import requests
from bs4 import BeautifulSoup

URL = 'https://www.reshot.com/free-stock-photos/search/animal'

html_reshot_image = requests.get(URL).text
soup_reshot_image = BeautifulSoup(html_reshot_image, 'lxml')
reshot_image_elements = soup_reshot_image.select('a img')
reshot_image_elements[:4]

[<img alt="Reshot" height="33" src="https://www.reshot.com/build/reshot-logo--mark-cc49363ac3f7876f854286af4266ead51a7ff9e0fa12f30677c9e758d43dd0d1.svg" title="Reshot" width="46"/>,
 <img alt="" class="photos-item-card__image" height="2448" loading="lazy" src="https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1521838685/photosp/bae96789-a5ab-4471-b54f-9686ace09e33/bae96789-a5ab-4471-b54f-9686ace09e33.jpg" width="2448"/>,
 <img alt="Back off!" class="photos-item-card__image" height="2361" loading="lazy" src="https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1597098233/photosp/a44357c5-b1c3-41ef-9a65-7a4937b06a44/a44357c5-b1c3-41ef-9a65-7a4937b06a44.jpg" width="3148"/>,
 <img alt="Orphans" class="photos-item-card__image" height="3375" loading="lazy" src="https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1617578418/photosp/34fd9c70-8996-4706-a0f1-113231ed3eee/34fd9c70-8996-4706-a0f1-113231ed3eee.jpg" width="3375"/>]

In [73]:
# get('속성') : 속성값 반환
reshot_image_url = reshot_image_elements[1].get('src')
reshot_image_url

'https://res.cloudinary.com/twenty20/private_images/t_reshot-400/v1521838685/photosp/bae96789-a5ab-4471-b54f-9686ace09e33/bae96789-a5ab-4471-b54f-9686ace09e33.jpg'

In [74]:
def get_image_url(url):
    """URL(주소)에서 이미지 주소 추출"""
    html_reshot_image = requests.get(URL).text
    soup_reshot_image = BeautifulSoup(html_reshot_image, 'lxml')
    image_elements = soup_reshot_image.select('a img')
    
    if image_elements != None:
        image_urls = []
        for image_element in image_elements[1:]:
            image_urls.append(image_element.get('src'))
        return image_urls
    else:
        return None

In [75]:
def download_image(img_folder, img_url):
    """폴더를 지정해 이미지 주소에서 이미지 내려받기"""
    if img_url != None:
        html_image = requests.get(img_url)
        # os.path.basename(URL)은 웹사이트나 폴더가 포함된 파일명에서 파일명만 분리
        imageFile = open(os.path.join(img_folder, os.path.basename(img_url)), 'wb')
        
        chunk_size = 1000000 # 이미지 데이터를 1000000 바이트씩 나눠서 저장
        for chunk in html_image.iter_content(chunk_size):
            imageFile.write(chunk)
            imageFile.close()
        print("이미지 파일명: '{}'. 내려받기 완료!".format(os.path.basename(img_url)))
    else:
        print("내려받을 이미지가 없습니다.")

In [76]:
# 웹 사이트 주소 지정
reshot_url = 'https://www.reshot.com/free-stock-photos/search/animal'

figure_folder = 'download' # 이미지 내려받을 폴더 지정

reshot_image_urls = get_image_url(reshot_url) # 이미지 파일의 주소 가져오기

num_of_download_image = 7 # 내려받을 이미지 개수 지정
# num_of_download_image = len(reshot_image_urls) # 전체 이미지 개수

for k in range(num_of_download_image):
    download_image(figure_folder, reshot_image_urls[k])
    
print('=================================')
print('선택한 모든 이미지 내려받기 완료!')

이미지 파일명: 'bae96789-a5ab-4471-b54f-9686ace09e33.jpg'. 내려받기 완료!
이미지 파일명: 'a44357c5-b1c3-41ef-9a65-7a4937b06a44.jpg'. 내려받기 완료!
이미지 파일명: '34fd9c70-8996-4706-a0f1-113231ed3eee.jpg'. 내려받기 완료!
이미지 파일명: 'dbd9fa3b-238b-47b1-8e20-c05400cbe921.jpg'. 내려받기 완료!
이미지 파일명: '737d192f-ba38-4a71-9bb9-9d40b45d0263.jpg'. 내려받기 완료!
이미지 파일명: 'c3c3604d-36eb-4f8a-9768-cebc0749d5a5.jpg'. 내려받기 완료!
이미지 파일명: 'bd35932f-98e9-4164-bb40-24f2df77ce93.jpg'. 내려받기 완료!
선택한 모든 이미지 내려받기 완료!
