## Ch.2.2 웹크롤링 기초

### 1. Selenium과 크롬 드라이버 설치

In [9]:
from selenium import webdriver


driver = webdriver.Chrome()

url = 'https://www.naver.com/'
driver.get(url)

html = driver.page_source

In [10]:
html = '''
<html>
    <head>
    </head>
    <body>
        <h1> 우리동네시장</h1>
            <div class = 'sale'>
                <p id='fruits1' class='fruits'>
                    <span class = 'name'> 바나나 </span>
                    <span class = 'price'> 3000원 </span>
                    <span class = 'inventory'> 500개 </span>
                    <span class = 'store'> 가나다상회 </span>
                    <a href = 'http://bit.ly/forPlaywithData' > 홈페이지 </a>
                </p>
            </div>
            <div class = 'prepare'>
                <p id='fruits2' class='fruits'>
                    <span class ='name'> 파인애플 </span>
                </p>
            </div>
    </body>
</html>
'''

In [18]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser') # html.parser가 성능이 맞지 않을 때, lxml 사용할 수 있음
soup


<html>
<head>
</head>
<body>
<h1> 우리동네시장</h1>
<div class="sale">
<p class="fruits" id="fruits1">
<span class="name"> 바나나 </span>
<span class="price"> 3000원 </span>
<span class="inventory"> 500개 </span>
<span class="store"> 가나다상회 </span>
<a href="http://bit.ly/forPlaywithData"> 홈페이지 </a>
</p>
</div>
<div class="prepare">
<p class="fruits" id="fruits2">
<span class="name"> 파인애플 </span>
</p>
</div>
</body>
</html>

### 2. HTML 정보 찾기 - 태그 속성(attribute) 활용
- 참고문서 : https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [23]:
tags_span = soup.select('span')
tags_p = soup.select('p')
print(tags_span)
print(tags_p)
print(type(tags_p)) # ResultSet (결과집합)

[<span class="name"> 바나나 </span>, <span class="price"> 3000원 </span>, <span class="inventory"> 500개 </span>, <span class="store"> 가나다상회 </span>, <span class="name"> 파인애플 </span>]
[<p class="fruits" id="fruits1">
<span class="name"> 바나나 </span>
<span class="price"> 3000원 </span>
<span class="inventory"> 500개 </span>
<span class="store"> 가나다상회 </span>
<a href="http://bit.ly/forPlaywithData"> 홈페이지 </a>
</p>, <p class="fruits" id="fruits2">
<span class="name"> 파인애플 </span>
</p>]
<class 'bs4.element.ResultSet'>


In [25]:
# id (#) & class (.) 찾기
ids_fruits1 = soup.select('#fruits1')
print(ids_fruits1)

class_price = soup.select('.price')
print(class_price)

[<p class="fruits" id="fruits1">
<span class="name"> 바나나 </span>
<span class="price"> 3000원 </span>
<span class="inventory"> 500개 </span>
<span class="store"> 가나다상회 </span>
<a href="http://bit.ly/forPlaywithData"> 홈페이지 </a>
</p>]
[<span class="price"> 3000원 </span>]


### 3. HTML 정보 찾기 - 상위 구조 활용

In [31]:
# banana 만 찾기
soup.select('#fruits1 > span.name')
soup.select('div.sale > #fruits1 > span.name')

[<span class="name"> 바나나 </span>]

### 4. HTML 정보 가져오기

In [34]:
# 태그 선택하기
tags = soup.select('span.name')
for tag in tags:
    print(tag)

<span class="name"> 바나나 </span>
<span class="name"> 파인애플 </span>


In [41]:
# 텍스트, 속성값 가져오기
tags = soup.select('a')
tag = tags[0]
content = tag.text
link = tag['href']

print("text :", content)
print("link :", link)

text :  홈페이지 
link : http://bit.ly/forPlaywithData


### 5. 멜론 노래 순위 정보 크롤링

In [69]:
from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome()

url = 'https://www.melon.com/chart/index.htm'
driver.get(url)

soup = BeautifulSoup(driver.page_source, 'html.parser')

In [55]:
songs = soup.select('tbody > tr')
len(songs)

100

In [66]:
song = songs[0]
title = song.select('div.rank01 > span > a')[0].text
singer = song.select('div.rank02 > span > a')[0].text
print(title, singer)

신호등 이무진


In [68]:
for song in songs:
    title = song.select('div.rank01 > span > a')[0].text
    singer = song.select('div.rank02 > span > a')[0].text
    print(title, ':', singer)

신호등 : 이무진
바라만 본다 : MSG워너비(M.O.M)
낙하 (with 아이유) : AKMU (악뮤)
Next Level : aespa
Permission to Dance : 방탄소년단
Weekend : 태연 (TAEYEON)
Butter : 방탄소년단
Queendom : Red Velvet (레드벨벳)
STAY : The Kid LAROI
좋아좋아 : 조정석
OHAYO MY NIGHT : 디핵 (D-Hack)
DUMB DUMB : 전소미
헤픈 우연 : 헤이즈 (Heize)
Peaches (Feat. Daniel Caesar & Giveon) : Justin Bieber
비와 당신 : 이무진
Dynamite : 방탄소년단
Bad Habits : Ed Sheeran
Dun Dun Dance : 오마이걸 (OH MY GIRL)
이제 나만 믿어요 : 임영웅
롤린 (Rollin') : 브레이브걸스
비가 오는 날엔 (2021) : 헤이즈 (Heize)
라일락 : 아이유
치맛바람 (Chi Mat Ba Ram) : 브레이브걸스
Celebrity : 아이유
Alcohol-Free : TWICE (트와이스)
안녕 (Hello) : 조이 (JOY)
하루만 더 : 빅마마
ASAP : STAYC(스테이씨)
나를 아는 사람 : MSG워너비(정상동기)
다정히 내 이름을 부르면 : 경서예지
여전히 아름다운지 : 세븐틴
별빛 같은 나의 사랑아 : 임영웅
Savage Love (Laxed - Siren Beat) (BTS Remix) : Jawsh 685
사이렌 Remix (Feat. UNEDUCATED KID, Paul Blanco) : 호미들
운전만해 (We Ride) : 브레이브걸스
작은 것들을 위한 시 (Boy With Luv) (Feat. Halsey) : 방탄소년단
HERO : 임영웅
그대라는 사치 : 임영웅
내 손을 잡아 : 아이유
가을 우체국 앞에서 : 김대명
밝게 빛나는 별이 되어 비춰줄게 : 송이한
상상더하기 : 라붐 (LABOUM)
다시 사랑한다면 (김필 Ver.) 