# 웹크롤링 

- selenium 라이브러리의 webdriver 사용
 - 사람이 하는 작업을 코드로 구현하게 한다
 - 현재 사용중인 웹 드라이버를 사용한다
- Beatifulsoup을 사용한 HTML 파싱
- (참조) 데잍분석 실무 파이썬 (이형석 외 저)

### selenium과 크롬드라이버 설치

In [7]:
# ! pip install selenium
from selenium import webdriver

In [4]:
# 크롬드라이버 다운받기
# 아래 주소클릭 후, 자신의 크롬 버전 확인 후 해당 버전 파일 다운로드 (89 등)
# https://sites.google.com/a/chromium.org/chromedriver/downloads
print('https://sites.google.com/a/chromium.org/chromedriver/downloads')

https://sites.google.com/a/chromium.org/chromedriver/downloads


### 크롬드라이버 활용하기

In [5]:
!pwd

/Users/hwa-kim/Dropbox/lab/book12/datasalon-master/02_개정판/2_Data_Analysis_Basic


In [6]:
# 크롬브라우저 실행하기 (위에서 다운받은 파일 지정)
# driver에 명령을 내려서 브라우저를 조작할 수 있다

from selenium import webdriver
# (윈도우) driver = webdriver.Chrome('c:/download_folder/chromedriver.exe')
# (맥)
driver = webdriver.Chrome('/Users/hwa-kim/Dropbox/down/chromedriver')

In [12]:
url = 'https://www.naver.com/'
driver.get(url)

### 웹 페이지(HTML) 다운로드

In [13]:
# 예제 2-38 웹페이지 html 다운로드 하기
html = driver.page_source

In [17]:
html[:400]

'<html lang="ko" data-dark="false" data-useragent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"><head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"> <meta name="robots" co'

### HTML 구조 살펴보기


In [93]:
# 실습용 HTML (여러 줄의 문자열 사용)
html = '''
<html>
    <head>
    </head>
    <body>
        <h1> 우리동네시장</h1>
            <div class = 'sale'>
                <p id='fruits1' class='fruits'>
                    <span class = 'name'> 바나나 </span>
                    <span class = 'price'> 3000원 </span>
                    <span class = 'inventory'> 500개 </span>
                    <span class = 'store'> 가나다상회 </span>
                    <a href = 'http://bit.ly/forPlaywithData' > 홈페이지 </a>
                </p>
            </div>
            <div class = 'prepare'>
                <p id='fruits2' class='fruits'>
                    <span class ='name'> 파인애플 </span>
                </p>
            </div>
    </body>
</html>
'''


# BeautifulSoup을 이용한 정보 찾기

In [19]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

### HTML 정보 찾기 ① - 태그 속성 활용


In [21]:
# 태그명으로 태그 찾기, select로 조건 명시
tags_span = soup.select('span')
tags_p = soup.select('p')

In [22]:
tags_span

[<span class="name"> 바나나 </span>,
 <span class="price"> 3000원 </span>,
 <span class="inventory"> 500개 </span>,
 <span class="store"> 가나다상회 </span>,
 <span class="name"> 파인애플 </span>]

In [24]:
# 속성명으로 찾기, # 뒤에 id, 또는 '.' 뒤에 class
# 태그명과 클래스로 지정하기
ids_fruits1 = soup.select('#fruits1')
class_price = soup.select('.price')
tags_span_class_price = soup.select('span.price')

In [28]:
print(ids_fruits1)

[<p class="fruits" id="fruits1">
<span class="name"> 바나나 </span>
<span class="price"> 3000원 </span>
<span class="inventory"> 500개 </span>
<span class="store"> 가나다상회 </span>
<a href="http://bit.ly/forPlaywithData"> 홈페이지 </a>
</p>]


In [30]:
print(class_price)

[<span class="price"> 3000원 </span>]


In [31]:
print(tags_span_class_price)

[<span class="price"> 3000원 </span>]


### HTML 정보 찾기 ② - 상위 구조 활용

In [33]:
# 태그명과 스팬 이름으로 모두 찾기 (2개))
tags_name = soup.select('span.name')
print(tags_name)

[<span class="name"> 바나나 </span>, <span class="name"> 파인애플 </span>]


In [35]:
# 바나나가 속한 부모 태그를 지정하여 찾기 (fruits1: 1개)
tags_banana1 = soup.select('#fruits1 > span.name')
print(tags_banana1)

[<span class="name"> 바나나 </span>]


In [36]:
# 태그 구조로 위치 찾기: 한 단계 아래는 '>' 로 표시, 여러 단계 아래는 ' ' 사용
# 아래는 같은 결과를 나타냄
tags_banana2 = soup.select('div.sale > #fruits1 > span.name')
tags_banana3 = soup.select('div.sale span.name')
print(tags_banana2)
print(tags_banana3)

[<span class="name"> 바나나 </span>]
[<span class="name"> 바나나 </span>]


###  정보 가져오기 ① - 태그 그룹에서 하나의 태그 선택하기


In [38]:
# 태그 그룹에서 하나의 태그만 선택하기
tags = soup.select('span.name')
tag_1 = tags[0]    #인덱스 번호로 하나의 태그 지정하기
tags, tag_1

([<span class="name"> 바나나 </span>, <span class="name"> 파인애플 </span>],
 <span class="name"> 바나나 </span>)

In [41]:
for tag in tags:
    print(tag)

<span class="name"> 바나나 </span>
<span class="name"> 파인애플 </span>


### 정보 가져오기 ② - 선택한 태그에서 정보 가져오기

- 태그에서 화면에 보이는 텍스트 부분만 가져오기  

content = tag.text   
attribute = tag['속성명']  # 태그 내 속성값 가져오기

In [45]:
# 선택한 태그에서 텍스트, 속성 값 가져오기
tags = soup.select('a')
print(tags)
tag = tags[0]
content = tag.text
print(content)
link = tag['href']
print(link)

[<a href="http://bit.ly/forPlaywithData"> 홈페이지 </a>]
 홈페이지 
http://bit.ly/forPlaywithData


## 멜론 노래 순위 정보 크롤링①

※ 경로지정시  `슬러시 (/) 사용` 
    * 역슬러시(\) X  : unicode 에러 발생 가능
    * 슬러시(/)  O

※ 멜론 사이트 개편으로 인해, 크롤링 진행 코드가 변경되었습니다. (updated 2020.07.13)

In [15]:
# 크롬드라이버 실행
# from selenium import webdriver
# driver = webdriver.Chrome('c:/playwithdata/chromedriver.exe')

In [49]:
# 예제 2-52 멜론 인기차트 웹페이지 접속하기
url = 'http://www.melon.com/chart/index.htm'
driver.get(url)

In [50]:
# 예제 2-53 HTML 다운로드 및 BeautifulSoup으로 읽기
from bs4 import BeautifulSoup
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

In [79]:
songs = soup.select('table > tbody >tr')
# (다른 방법) songs = soup.select('tr')[1:]     # 첫 번째는 제외하고, 두 번째(인덱스번호 1) 부터 끝까지만 선택
print(len(songs))                 # 100 으로 정리하고 싶은 노래 개수에 맞게 선택됨
print(songs[0])                   # 그 중 첫 번째 태그를 보니, 1위 곡으로 조회됨

100
<tr data-song-no="30287019">
<td><div class="wrap t_right"><input class="input_check" name="input_check" title="롤린 (Rollin') 곡 선택" type="checkbox" value="30287019"/></div></td>
<td><div class="wrap">
<a class="image_typeAll" href="javascript:melon.link.goAlbumDetail('10043575');" title="Rollin'">
<img alt="Rollin' - 페이지 이동" height="60" onerror="WEBPOCIMG.defaultAlbumImg(this);" src="https://cdnimg.melon.co.kr/cm2/album/images/100/43/575/10043575_20210302112520_500.jpg/melon/resize/120/quality/80/optimize" width="60"/>
<span class="bg_album_frame"></span>
</a>
</div></td>
<td><div class="wrap">
<a class="btn button_icons type03 song_info" href="javascript:melon.link.goSongDetail('30287019');" title="롤린 (Rollin') 곡정보"><span class="none">곡정보</span></a>
</div></td>
<td><div class="wrap">
<div class="wrap_song_info">
<div class="ellipsis rank01"><span>
<a href="javascript:melon.play.playSong('19030101',30287019);" title="롤린 (Rollin') 재생">롤린 (Rollin')</a>
</span></div>
<br/>
<div class="

In [81]:
song = songs[0]

In [82]:
# 태그 'a'의 갯수 찾기
title = song.select('a')
len(title)

6

In [83]:
# span > a인 갯수 찾기
title = song.select('span > a')
len(title)

2

In [84]:
title

[<a href="javascript:melon.play.playSong('19030101',30287019);" title="롤린 (Rollin') 재생">롤린 (Rollin')</a>,
 <a href="javascript:melon.link.goArtistDetail('531700');" title="브레이브걸스 - 페이지 이동">브레이브걸스</a>]

In [85]:
# div 태그에서 클래스명이 ellipsis 이며 rank01인 태그의 아래의 span 태그 아래의 a
title = song.select('div.ellipsis.rank01 > span > a')
len(title)

1

In [86]:
# 곡 제목 가져오기
song.select('div.ellipsis.rank01 > span > a')[0].text

"롤린 (Rollin')"

In [87]:
# 가수 찾기
song.select('div.ellipsis.rank02 > a')[0].text

'브레이브걸스'

In [88]:
# 멜론 50위 노래순위 정보 가져오기
for song in songs:                                        
    title = song.select('div.ellipsis.rank01 > span > a')[0].text
    singer = song.select ('div.ellipsis.rank02 > a')[0].text  
    print(title, singer, sep = ' | ')

롤린 (Rollin') | 브레이브걸스
Celebrity | 아이유
On The Ground | 로제 (ROSÉ)
LOVE DAY (2021) (바른연애 길잡이 X 양요섭, 정은지) | 양요섭
Dynamite | 방탄소년단
밤하늘의 별을(2020) | 경서
밝게 빛나는 별이 되어 비춰줄게 | 송이한
내 손을 잡아 | 아이유
잠이 오질 않네요 | 장범준
VVS (Feat. JUSTHIS) (Prod. GroovyRoom) | 미란이 (Mirani)
Gone | 로제 (ROSÉ)
Lovesick Girls | BLACKPINK
취기를 빌려 (취향저격 그녀 X 산들) | 산들
이 밤을 빌려 말해요 (바른연애 길잡이 X 10CM) | 10CM
나랑 같이 걸을래 (바른연애 길잡이 X 적재) | 적재
에잇(Prod.&Feat. SUGA of BTS) | 아이유
Blueming | 아이유
흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야 | 장범준
그날에 나는 맘이 편했을까 | 이예준
오래된 노래 | 스탠딩 에그
어떻게 이별까지 사랑하겠어, 널 사랑하는 거지 | AKMU (악동뮤지션)
힘든 건 사랑이 아니다 | 임창정
Savage Love (Laxed - Siren Beat) (BTS Remix) | Jawsh 685
사실 나는 (Feat.전건호) | 경서예지
고백 (바른연애 길잡이 X 허각) | 허각
Life Goes On | 방탄소년단
METEOR | 창모 (CHANGMO)
모든 날, 모든 순간 (Every day, Every Moment) | 폴킴
Dolphin | 오마이걸 (OH MY GIRL)
내 마음이 움찔했던 순간 (취향저격 그녀 X 규현) | 규현 (KYUHYUN)
어떻게 지내 (Prod. By VAN.C) | 오반 (OVAN)
2002 | Anne-Marie
그 한마디 (바른연애 길잡이 X 이하이) | 이하이
봄날 | 방탄소년단
How You Like That | BLACKPINK
함께 했는데 이별은 나 혼자인 거야 | 소정 (레이디스 코드)
아로하 | 조정석


In [90]:
driver = webdriver.Chrome('c:/playwithdata/chromedriver.exe')     
url = 'http://www.melon.com/chart/index.htm'
driver.get(url)          
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
                               
songs = soup.select('tr')[1:]     # 멜론 사이트 개편으로 코드 수정(updated 2020.07.13)
for song in songs:                                        
    title = song.select('div.ellipsis.rank01 > span > a')[0].text
    singer = song.select ('div.ellipsis.rank02 > a')[0].text  
    print(title, singer, sep = ' | ')

롤린 (Rollin') | 브레이브걸스
Celebrity | 아이유
On The Ground | 로제 (ROSÉ)
LOVE DAY (2021) (바른연애 길잡이 X 양요섭, 정은지) | 양요섭
Dynamite | 방탄소년단
밤하늘의 별을(2020) | 경서
밝게 빛나는 별이 되어 비춰줄게 | 송이한
내 손을 잡아 | 아이유
잠이 오질 않네요 | 장범준
VVS (Feat. JUSTHIS) (Prod. GroovyRoom) | 미란이 (Mirani)
Gone | 로제 (ROSÉ)
Lovesick Girls | BLACKPINK
취기를 빌려 (취향저격 그녀 X 산들) | 산들
이 밤을 빌려 말해요 (바른연애 길잡이 X 10CM) | 10CM
나랑 같이 걸을래 (바른연애 길잡이 X 적재) | 적재
에잇(Prod.&Feat. SUGA of BTS) | 아이유
Blueming | 아이유
흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야 | 장범준
그날에 나는 맘이 편했을까 | 이예준
오래된 노래 | 스탠딩 에그
어떻게 이별까지 사랑하겠어, 널 사랑하는 거지 | AKMU (악동뮤지션)
힘든 건 사랑이 아니다 | 임창정
Savage Love (Laxed - Siren Beat) (BTS Remix) | Jawsh 685
사실 나는 (Feat.전건호) | 경서예지
고백 (바른연애 길잡이 X 허각) | 허각
Life Goes On | 방탄소년단
METEOR | 창모 (CHANGMO)
모든 날, 모든 순간 (Every day, Every Moment) | 폴킴
Dolphin | 오마이걸 (OH MY GIRL)
내 마음이 움찔했던 순간 (취향저격 그녀 X 규현) | 규현 (KYUHYUN)
어떻게 지내 (Prod. By VAN.C) | 오반 (OVAN)
2002 | Anne-Marie
그 한마디 (바른연애 길잡이 X 이하이) | 이하이
봄날 | 방탄소년단
How You Like That | BLACKPINK
함께 했는데 이별은 나 혼자인 거야 | 소정 (레이디스 코드)
아로하 | 조정석


# CSS Selector를 이용하는 방법

- driver.find_elements_by_css_selector 사용
- Beautifulsoup을 사용하지 않고 태그, 클래스, id, 부모태그 등을 지정할 수 있다
- html 문서를 다운로드 하지 않고, 접속한 상태에서 작업을 한다. 따라서 클릭, 입력 등을 할 수 있다
 - 클릭 입력 후 특정한 페이지가 나타나면 다음 작업을 수행하게 할 수 있다

In [92]:
# driver = webdriver.Chrome('c:/playwithdata/chromedriver.exe')  
driver = webdriver.Chrome('/Users/hwa-kim/Dropbox/down/chromedriver')  
url = 'http://www.melon.com/chart/index.htm'
driver.get(url)          
                                
songs = driver.find_elements_by_css_selector('tr')[1:]     # 멜론 사이트 개편으로 코드 수정(updated 2020.07.13)
for song in songs:                                        
    title = song.find_elements_by_css_selector('div.ellipsis.rank01 > span > a')[0].text
    singer = song.find_elements_by_css_selector('div.ellipsis.rank02 > a')[0].text  
    print(title, singer, sep = ' | ')

롤린 (Rollin') | 브레이브걸스
Celebrity | 아이유
On The Ground | 로제 (ROSÉ)
LOVE DAY (2021) (바른연애 길잡이 X 양요섭, 정은지) | 양요섭
Dynamite | 방탄소년단
밤하늘의 별을(2020) | 경서
밝게 빛나는 별이 되어 비춰줄게 | 송이한
내 손을 잡아 | 아이유
잠이 오질 않네요 | 장범준
VVS (Feat. JUSTHIS) (Prod. GroovyRoom) | 미란이 (Mirani)
Gone | 로제 (ROSÉ)
Lovesick Girls | BLACKPINK
취기를 빌려 (취향저격 그녀 X 산들) | 산들
이 밤을 빌려 말해요 (바른연애 길잡이 X 10CM) | 10CM
나랑 같이 걸을래 (바른연애 길잡이 X 적재) | 적재
에잇(Prod.&Feat. SUGA of BTS) | 아이유
Blueming | 아이유
흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야 | 장범준
그날에 나는 맘이 편했을까 | 이예준
오래된 노래 | 스탠딩 에그
어떻게 이별까지 사랑하겠어, 널 사랑하는 거지 | AKMU (악동뮤지션)
힘든 건 사랑이 아니다 | 임창정
Savage Love (Laxed - Siren Beat) (BTS Remix) | Jawsh 685
사실 나는 (Feat.전건호) | 경서예지
고백 (바른연애 길잡이 X 허각) | 허각
Life Goes On | 방탄소년단
METEOR | 창모 (CHANGMO)
모든 날, 모든 순간 (Every day, Every Moment) | 폴킴
Dolphin | 오마이걸 (OH MY GIRL)
내 마음이 움찔했던 순간 (취향저격 그녀 X 규현) | 규현 (KYUHYUN)
어떻게 지내 (Prod. By VAN.C) | 오반 (OVAN)
2002 | Anne-Marie
그 한마디 (바른연애 길잡이 X 이하이) | 이하이
봄날 | 방탄소년단
How You Like That | BLACKPINK
함께 했는데 이별은 나 혼자인 거야 | 소정 (레이디스 코드)
아로하 | 조정석
