## HTTP 응답

* 웹서버는 대개 HTML, CSS, JavaSrip, Image 형식으로 응답한다.
* HTML 문서는 중첩된 태그로 구성된 계층구조로 이루어져 있다.

## DOM 문서
* 브라우저는 HTML 문자열을 DOM Tree로 변환하여 문서를 표현한다.
* 서버로부터 응답을 받는다면 이 부분에 집중해야 한다. 보통 브라우저의 "페이지 소스보기"를 통해 확인한다.
* 그러나 이때 브라우저 나름의 해석에 들어간다. 이는 브라우저의 "개발자 도구"를 통해 확인한다.

## 복잡한 문자열에서 특정 문자열을 가져오려면?
* 방법 1: 정규표현식 활용
    * 가장 빠른 처리가 가능하나 정규표현식 Rule을 만드는 것이 많이 번거롭고 복잡하다.
    * 때에 따라 필요할 수 있다.
* 방법 2: HTML Parser 라이브러리 활용
    * DOM Tree를 탐색하는 방식으로 적용이 쉽다.
    
    ex) BeautifulSoup4, lxml, pyquery 등

## BeautifulSoup4
HTML/XML 문자열에서 원하는 태크 정보를 뽑아낸다.

In [1]:
import requests
from bs4 import BeautifulSoup

## 다양한 BeautifulSoup4의 Parser

### html.parser
* BeautifulSoup4 내장 파서

### lxml
* lxml HTML 파서 사용(외부 C 라이브러리)
* html.parser보다 유연하고 빠른 처리
* 설치 : pip install lxml

## HTML 내에서 태그 찾기
* 방법 1: find를 통해 하나씩 차근차근 찾아들어가기
* 방법 2: 태크간의 관계를 지정하여 찾기 with CSS Selector

## Melon Chart HTML 획득하기

In [21]:
import requests
from bs4 import BeautifulSoup

In [22]:
request_headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
    'Referer': 'http://www.melon.com'
}
url = "https://www.melon.com/chart/index.htm"
res = requests.get(url, headers=request_headers)
html = res.text

In [23]:
res.status_code

200

In [24]:
soup = BeautifulSoup(html, 'html.parser')

In [25]:
tag_list = soup.select('li')
len(tag_list)

159

### 방법 1: find를 통해 하나씩 차근차근 찾아들어가기

In [28]:
tag_list = []
for tr_tag in soup.find(id="tb_list").find_all('tr'):
    tag = tr_tag.find(class_='wrap_song_info')
    if tag:
        tag_sub_list = tag.find_all(href=lambda value: (value and "playSong" in value))
        tag_list.extend(tag_sub_list)

for idx, tag in enumerate(tag_list):
    print(idx+1, tag.text)

1 떨어지는 낙엽까지도
2 어떻게 이별까지 사랑하겠어, 널 사랑하는 거지
3 새 사랑
4 흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야
5 있어줘요
6 조금 취했어 (Prod. 2soo)
7 허전해
8 사랑이란 멜로는 없어
9 워커홀릭
10 안녕
11 오늘도 빛나는 너에게 (To You My Light) (Feat.이라온)
12 시든 꽃에 물을 주듯
13 만추 (Feat. Crush)
14 가을밤 떠난 너
15 Feel Special
16 니 소식
17 우리 어떻게 할까요
18 포장마차
19 기억해줘요 내 모든 날과 그때를
20 헤어지자 (Prod. 정키)
21 호랑이소굴 (Feat. Jvcki Wai)
22 가끔 이러다
23 2002
24 Señorita
25 천둥벌거숭이 (Feat. Jvcki Wai, 염따)
26 사랑에 연습이 있었다면 (Prod. 2soo)
27 사랑이 식었다고 말해도 돼
28 그대라는 시
29 술이 문제야
30 사람
31 이별행동
32 BAND
33 작은 것들을 위한 시 (Boy With Luv) feat. Halsey
34 다시 만날까 봐
35 모든 날, 모든 순간 (Every day, Every Moment)
36 bad guy
37 우리 시작해도 괜찮을까요
38 나의 어깨에 기대어요
39 헤어져줘서 고마워
40 벗
41 헤어질 자신 있니 (Narr. SBS 박선영 아나운서)
42 Done For Me
43 내 목소리 들리니
44 일기
45 사월이 지나면 우리 헤어져요 (Beautiful goodbye)
46 달
47 너를 만나
48 널 안지 않을 수 있어야지
49 Speechless (Full)
50 내 안부
51 날라리 (LALALAY)
52 사계 (Four Seasons)
53 솔직하게 말해서 나
54 복숭아
55 가을속에서
56 내 맘을 볼 수 있나요
57 노래방에서
58 가라사대
59 FLASH
60 꿈속에 너 (Feat. 전상근)
61 DAUM (Feat. Colde)
62 그때가 좋았어
63 ICY
64 전화를 할까봐
6

### 방법 2: CSS Selector 활용

In [30]:
tag_list = soup.select("#tb_list tr .wrap_song_info a[href*=playSong]") # a를 찾는 것인데 href가 playSong이 포함된 것만 찾음
for idx, tag in enumerate(tag_list):
    print(idx+1, tag.text)

1 떨어지는 낙엽까지도
2 어떻게 이별까지 사랑하겠어, 널 사랑하는 거지
3 새 사랑
4 흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야
5 있어줘요
6 조금 취했어 (Prod. 2soo)
7 허전해
8 사랑이란 멜로는 없어
9 워커홀릭
10 안녕
11 오늘도 빛나는 너에게 (To You My Light) (Feat.이라온)
12 시든 꽃에 물을 주듯
13 만추 (Feat. Crush)
14 가을밤 떠난 너
15 Feel Special
16 니 소식
17 우리 어떻게 할까요
18 포장마차
19 기억해줘요 내 모든 날과 그때를
20 헤어지자 (Prod. 정키)
21 호랑이소굴 (Feat. Jvcki Wai)
22 가끔 이러다
23 2002
24 Señorita
25 천둥벌거숭이 (Feat. Jvcki Wai, 염따)
26 사랑에 연습이 있었다면 (Prod. 2soo)
27 사랑이 식었다고 말해도 돼
28 그대라는 시
29 술이 문제야
30 사람
31 이별행동
32 BAND
33 작은 것들을 위한 시 (Boy With Luv) feat. Halsey
34 다시 만날까 봐
35 모든 날, 모든 순간 (Every day, Every Moment)
36 bad guy
37 우리 시작해도 괜찮을까요
38 나의 어깨에 기대어요
39 헤어져줘서 고마워
40 벗
41 헤어질 자신 있니 (Narr. SBS 박선영 아나운서)
42 Done For Me
43 내 목소리 들리니
44 일기
45 사월이 지나면 우리 헤어져요 (Beautiful goodbye)
46 달
47 너를 만나
48 널 안지 않을 수 있어야지
49 Speechless (Full)
50 내 안부
51 날라리 (LALALAY)
52 사계 (Four Seasons)
53 솔직하게 말해서 나
54 복숭아
55 가을속에서
56 내 맘을 볼 수 있나요
57 노래방에서
58 가라사대
59 FLASH
60 꿈속에 너 (Feat. 전상근)
61 DAUM (Feat. Colde)
62 그때가 좋았어
63 ICY
64 전화를 할까봐
6

## CSS selector 문법

* "tag_name[attr]"     : tag_name 태그 중에 attr 속성이 정의된 모든 태크
* "tag_name[attr=bar]" : tag_name 태그 중에 attr 속성 값이 bar인 모든 태크
* "tag_name[attr*=bar]" : tag_name 태그 중에 attr 속성 값에 bar 문자열이 포함된 모든 태그
* "tag_name[attr^=bar]" : tag_name 태그 중에 attr 속성 값이 bar 문자열로 시작하는 모든 태그
* "tag_name[attr$=bar]" : tag_name 태그 중에 attr 속성 값에 bar 문자열로 끝나는 모든 태그

## Tip. CSS Selector 지정할 때
패턴을 너무 타이트하게 지정하면 HTML 마크업이 조금만 변경되어도 태그를 찾을수 없게 된다. 적절하게 최소한의 패턴을 지정하는 게 좋다.

### Practice : 멜론 TOP 100 사이트에서 100곡에 대해 아래 정보 수립하기
* 곡명
* 앨범명
* 가수명
* 랭킹

In [70]:
title_list = soup.select("#tb_list tr .wrap_song_info a[href*=playSong]") # a를 찾는 것인데 href가 playSong이 포함된 것만 찾음
album_list = soup.select("#tb_list tr .wrap_song_info a[href*=goAlbumDetail]")
singer_list = soup.select(".wrap_song_info > div a[href*=goArtistDetail]")
rank_list = soup.select("td > div > .rank")

In [87]:
import pandas as pd

song_list = []
for rank, title, singer, album in zip(rank_list, title_list, singer_list, album_list):
    song = {
        "rank": rank.text,
        "title": title.text,
        "singer": singer.text,
        "album": album.text
    }
    song_list.append(song)

In [89]:
df = pd.DataFrame(song_list)
df.tail()

Unnamed: 0,rank,title,singer,album
95,96,Way Back Home,권진아,Take
96,97,뱃노래,10cm,항해
97,98,Love Shot,10cm,LOVE SHOT - The 5th Album Repackage
98,99,독 : Fear,벤,SEVENTEEN 3RD ALBUM ‘An Ode’
99,100,웃을 때 제일 예뻐,벤,비상 : QUANTUM LEAP


In [90]:
df.to_csv('song_list.csv')