# Crawling
---

## 1. 웹크롤링을 위한 환경 설정

### (1) selenium 설치

In [1]:
# !pip install selenium

### (2) chromedriver 설치

chrome 설정에서 도움말, 버전 확인. 97버전   
https://chromedriver.chromium.org/downloads   
https://chromedriver.storage.googleapis.com/97.0.4692.71/chromedriver_win32.zip   

In [2]:
from selenium import webdriver
webdriver.__version__

'4.1.0'

---
## 2. Chromedriver 활용

### (1) Chromedriver 실행

In [3]:
from selenium.webdriver.chrome.service import Service

In [4]:
service=Service('../chromedriver/chromedriver.exe')

In [5]:
driver=webdriver.Chrome(service=service)

### (2) 웹페이지에 접속하여 html 정보 가져오기

In [6]:
url = 'https://www.naver.com/'
driver.get(url)                          # ctrl+shift+i (F12) 개발자 도구

In [7]:
html=driver.page_source

In [8]:
# 예제
html='''
<html>
    <head>
    </head>
    <body>
        <h1> 우리동네시장</h1>
            <div class = 'sale'>
                <p id='fruits1' class='fruits'>
                    <span class = 'name'> 바나나 </span>
                    <span class = 'price'> 3000원 </span>
                    <span class = 'inventory'> 500개 </span>
                    <span class = 'store'> 가나다상회 </span>
                    <a href = 'http://bit.ly/forPlaywithData' > 홈페이지 </a>
                </p>
            </div>
            <div class = 'prepare'>
                <p id='fruits2' class='fruits'>
                    <span class ='name'> 파인애플 </span>
                </p>
            </div>
    </body>
</html>
'''

In [9]:
html        # 알아보기 어렵게 출력된다.

"\n<html>\n    <head>\n    </head>\n    <body>\n        <h1> 우리동네시장</h1>\n            <div class = 'sale'>\n                <p id='fruits1' class='fruits'>\n                    <span class = 'name'> 바나나 </span>\n                    <span class = 'price'> 3000원 </span>\n                    <span class = 'inventory'> 500개 </span>\n                    <span class = 'store'> 가나다상회 </span>\n                    <a href = 'http://bit.ly/forPlaywithData' > 홈페이지 </a>\n                </p>\n            </div>\n            <div class = 'prepare'>\n                <p id='fruits2' class='fruits'>\n                    <span class ='name'> 파인애플 </span>\n                </p>\n            </div>\n    </body>\n</html>\n"

## 3. 정보 찾기 (BeautifulSoup)

In [10]:
# !pip install bs4

In [11]:
from bs4 import BeautifulSoup

In [12]:
soup=BeautifulSoup(html, 'html.parser')
soup


<html>
<head>
</head>
<body>
<h1> 우리동네시장</h1>
<div class="sale">
<p class="fruits" id="fruits1">
<span class="name"> 바나나 </span>
<span class="price"> 3000원 </span>
<span class="inventory"> 500개 </span>
<span class="store"> 가나다상회 </span>
<a href="http://bit.ly/forPlaywithData"> 홈페이지 </a>
</p>
</div>
<div class="prepare">
<p class="fruits" id="fruits2">
<span class="name"> 파인애플 </span>
</p>
</div>
</body>
</html>

In [13]:
# 다시 네이버 url 가져오기
url='https://naver.com'
driver.get(url)
html=driver.page_source
soup=BeautifulSoup(html,'html.parser')
# soup

## 4. 멜론차트 크롤링

In [14]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from bs4 import BeautifulSoup

In [16]:
service=Service('../chromedriver/chromedriver.exe')
driver=webdriver.Chrome(service=service)
url='https://www.melon.com/chart/index.htm'
driver.get(url)
html=driver.page_source
# 멜론 사이트의 전체 html 가져오기
soup=BeautifulSoup(html, 'html.parser')
songs=soup.select('table>tbody>tr')
print(len(songs))
songs[0]

100


<tr class="lst50" data-song-no="34061322" id="lst50">
<td><div class="wrap t_right"><input class="input_check" name="input_check" title="사랑은 늘 도망가 곡 선택" type="checkbox" value="34061322"/></div></td>
<td><div class="wrap t_center"><span class="rank">1</span><span class="none">위</span></div></td>
<!-- 차트순위 추가 -->
<td><div class="wrap">
<span class="rank_wrap" title="순위 동일">
<span class="bullet_icons rank_static"><span class="none">순위 동일</span></span>
<span class="none">0</span>
</span>
</div></td>
<td><div class="wrap">
<a class="image_typeAll" href="javascript:melon.link.goAlbumDetail('10735654');" title="신사와 아가씨 OST Part.2">
<img alt="신사와 아가씨 OST Part.2 - 페이지 이동" height="60" onerror="WEBPOCIMG.defaultAlbumImg(this);" src="https://cdnimg.melon.co.kr/cm2/album/images/107/35/654/10735654_20211008114339_500.jpg/melon/resize/120/quality/80/optimize" width="60"/>
<span class="bg_album_frame"></span>
</a>
</div></td>
<td><div class="wrap">
<a class="btn button_icons type03 song_info" href="ja

In [17]:
# 1등 곡과 가수 뽑기
song=songs[0]
title=song.select('div.ellipsis.rank01>span>a')[0].text
singer=song.select('div.ellipsis.rank02>a')[0].text
print(title)
print(singer)

사랑은 늘 도망가
임영웅


In [18]:
# 차트 100개 다 뽑아서 출력
for song in songs:
    title=song.select('div.ellipsis.rank01>span>a')[0].text
    singer=song.select('div.ellipsis.rank02>a')[0].text
    print(title, singer, sep=':')

사랑은 늘 도망가:임영웅
취중고백:김민석 (멜로망스)
회전목마 (Feat. Zion.T, 원슈타인) (Prod. Slom):sokodomo
Counting Stars (Feat. Beenzino):BE'O (비오)
ELEVEN:IVE (아이브)
리무진 (Feat. MINO) (Prod. GRAY):BE'O (비오)
겨울잠:아이유
Dreams Come True:aespa
눈이 오잖아(Feat.헤이즈):이무진
만남은 쉽고 이별은 어려워 (Feat. Leellamarz) (Prod. TOIL):베이식 (Basick)
다정히 내 이름을 부르면:경서예지
strawberry moon:아이유
Step Back:GOT the beat
신호등:이무진
Savage:aespa
드라마:아이유
STAY:The Kid LAROI
이제 나만 믿어요:임영웅
Next Level:aespa
불협화음 (Feat. AKMU) (Prod. GRAY):Mudd the student
Christmas Tree:V
흰눈:먼데이 키즈 (Monday Kiz)
우리가 헤어져야 했던 이유:비비 (BIBI)
그대라는 사치:임영웅
쉬어 (Feat. MINO) (Prod. GRAY):아넌딜라이트(Anandelight)
네가 없는 밤 (Feat. ASH ISLAND) (Prod. GRAY):BE'O (비오)
다시 사랑한다면 (김필 Ver.):임영웅
너를 생각해:주시크 (Joosiq)
별빛 같은 나의 사랑아:임영웅
Butter:방탄소년단
OHAYO MY NIGHT:디핵 (D-Hack)
Wake Up (Prod. 코드 쿤스트):개코
잊었니:임영웅
언덕나무:이승윤
서랍:10CM
HERO:임영웅
Permission to Dance:방탄소년단
문득:BE'O (비오)
바라만 본다:MSG워너비(M.O.M)
끝사랑:임영웅
이별후회:김나영
My Universe:Coldplay
낙하 (with 아이유):AKMU (악뮤)
Dynamite:방탄소년단
Bk Love:임영웅
Celebrity:아이유
정거장:아이유
Weekend:태연 (TAE