## 웹크롤링 맛보기

In [1]:
# 크롬 드라이버 실행
from selenium import webdriver
driver = webdriver.Chrome('C:/Users/NK/Desktop/programming/python/chromedriver.exe')

#### 웹 페이지 접속

In [2]:
# driver.get(URL)

url = 'https://www.naver.com/'
driver.get(url)

#### 웹 페이지(HTML) 다운로드

In [3]:
# 현재 크롬브라우저가 접속한 웹 페이지의 HTML을 다운로드
html = driver.page_source

#### HTML 구조 살펴보기

    HTML의 특징
     1) 시작과 끝이 있다 
         - <태그>로 시작해서 </태그>로 끝난다. 태그명은 div, span, p, a, tr, td등 다양
     2) 태그는 다른 태그에 속할 수 있다
         - 태그 시작과 끝 부분 사이에 다른 태그가 들어있을 수 있음
     3) 태그의 시작과 끝 사이에 화면에 표시되는 정보가 들어간다.
         ex) <태그> LeeNamKyu <태그/> 라면 화면에는 LeeNamKyu 부분이 출력
     4) 태그 기호 내에 속성을 가질 수 있다.
         - <태그 속성1 = 값1 속성2 = 값2>안녕하세요</태그> 라면 속성1,2가 포함된 내용이 출력된다.

#### BeautifulSoup을 이용한 정보 찾기

In [4]:
# 실습용 HTML
html = '''
<html>
    <head>
    </head>
    <body>
        <h1> 우리동네시장</h1>
            <div class = 'sale'>
                <p id='fruits1' class='fruits'>
                    <span class = 'name'> 바나나 </span>
                    <span class = 'price'> 3000원 </span>
                    <span class = 'inventory'> 500개 </span>
                    <span class = 'store'> 가나다상회 </span>
                    <a href = 'http://bit.ly/forPlaywithData' > 홈페이지 </a>
                </p>
            </div>
            <div class = 'prepare'>
                <p id='fruits2' class='fruits'>
                    <span class ='name'> 파인애플 </span>
                </p>
            </div>
    </body>
</html>
'''

In [5]:
# HTML문자열을 BeutifulSoup로 해석하기
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

#### html 정보 찾기(1) 태그속성 활용

In [6]:
# 태그명으로 태그 찾기

# select 메쏘드로 span이라는 태그 선택, 리스트로 반환
tags_span = soup.select('span')
tags_p = soup.select('p')

tags_span

[<span class="name"> 바나나 </span>,
 <span class="price"> 3000원 </span>,
 <span class="inventory"> 500개 </span>,
 <span class="store"> 가나다상회 </span>,
 <span class="name"> 파인애플 </span>]

In [7]:
# id와 class로 태그 찾기

# select 메쏘드를 사용하되, 입력값 앞에 #을 넣으면 id, .을 넣으면 class
ids_fruits1 = soup.select('#fruits1')
class_price = soup.select('.price')

# 태그명과 클래스명 조건을 함꼐 지정하는 것도 가능
tags_span_class_price = soup.select('span.price')
tags_span_class_price

## class속성은 글꼴, 배경색 등 서식을 지정하기 위해 주로 사용
## id는 특정 대상을 지정하기 위해 사용 -> html내 한번만 사용이 가능하므로 id를 잘 활용하면 특정 태그를 손쉽게 찾을 수 있음

[<span class="price"> 3000원 </span>]

#### HTML 정보 찾기(2) 상위구조 활용

In [8]:
# 부모 정보 없이 span 태그만으로 정보를 찾을 경우
tags_name = soup.select('span.name')
print(tags_name)

[<span class="name"> 바나나 </span>, <span class="name"> 파인애플 </span>]


In [9]:
# 부모 정보를 추가하여 span태그로 정보를 찾을 경우
tags_banana1 = soup.select('#fruits1 > span.name')
print(tags_banana1)

[<span class="name"> 바나나 </span>]


In [10]:
# >를 활용하면 바로 아래 자식 태그의 정보만 찾을 수 있음
tags_banana2 = soup.select('div.sale > #fruits1 > span.name')

# 공백을 활용하면 몇 단계 아래 자식 태그의 정보도 찾을 수 있음
tags_banana3 = soup.select('div.sale span.name')

print(tags_banana2)
print(tags_banana3)

[<span class="name"> 바나나 </span>]
[<span class="name"> 바나나 </span>]


#### 정보 가져오기 (1) 태그 그룹에서 하나의 태그 선택하기

In [11]:
# 태그 그룹에서 하나의 태그만 선택

tags = soup.select('span.name')
tag_1 = tags[0]
print(tag_1)

<span class="name"> 바나나 </span>


In [12]:
# 태그 그룹에서 반복문으로 태그 하나씩 선택

tags = soup.select('span.name')
for tag in tags:
    print(tag)

<span class="name"> 바나나 </span>
<span class="name"> 파인애플 </span>


#### 정보 가져오기 (2) 선택한 태그에서 정보 가져오기

In [13]:
# 태그에서 정보 가져오기

tags = soup.select('a')
tag = tags[0]

# 태그에서 화면에 보이는 텍스트 부분만 가져오기
content = tag.text
print(content)

# 태그내 속성 값 가져오기
link = tag['href']
print(link)

 홈페이지 
http://bit.ly/forPlaywithData


#### 멜론 노래 순위 정보 크롤링(1) BeautifulSoup 활용

In [14]:
from selenium import webdriver

driver = webdriver.Chrome('C:/Users/NK/Desktop/programming/python/chromedriver.exe')

In [15]:
url = 'https://www.melon.com/chart/index.htm'
driver.get(url)

In [16]:
from bs4 import BeautifulSoup
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

In [17]:
# 노래 제목과 앨범명 추출
titles = soup.select("#frm > div > table > tbody > tr > td > div > div > div.ellipsis.rank01 > span > a")  
albums = soup.select("#frm > div > table > tbody > tr > td > div > div > div.ellipsis.rank03 > a")

# 태그에서 노래 제목만 추출하여 리스트로 만듬
for i in range(len(titles)):
    titles[i] = titles[i].text

# 태그에서 앨범명만 추출하여 리스트로 만듬    
for i in range(len(albums)):
    albums[i] = albums[i].text

In [53]:
# 가수 추출, 여러명의 가수가 노래를 부른경우 다른 탭으로 나눠져있어서 따로 처리해줘야함.
singers = soup.select("#frm > div > table > tbody > tr > td > div > div > div.ellipsis.rank02")

# div.ellipsis.rank02의 갯수를 세고
for i in range(len(singers)):
    singers[i] = singers[i].select('span > a')
    # 같은 노래에 속하는 가수들은 리스트로 묶어줌
    for j in range(len(singers[i])):
        singers[i][j] = singers[i][j].text

In [57]:
# 노래제목, 가수, 앨범을 한꺼번에 출력    
for i in range(10):
#for i in range(len(singers)):    
    print(f'{titles[i]} | {singers[i]}, {albums[i]}')

How You Like That | ['BLACKPINK'], How You Like That
Summer Hate (Feat. 비) | ['지코 (ZICO)'], RANDOM BOX
Downtown Baby | ['블루 (BLOO)'], Downtown Baby
마리아 (Maria) | ['화사 (Hwa Sa)'], María
에잇(Prod.&Feat. SUGA of BTS) | ['아이유'], 에잇
보라빛 밤 (pporappippam) | ['선미'], 보라빛 밤 (pporappippam)
아로하 | ['조정석'], 슬기로운 의사생활 OST Part 3
Into the I-LAND | ['아이유'], I-LAND Part.1 Signal Song
사랑하게 될 줄 알았어 | ['전미도'], 슬기로운 의사생활 OST Part 11
살짝 설렜어 (Nonstop) | ['오마이걸'], NONSTOP


#### 멜론 노래 순위 정보 크롤링(2) Selenium만 활용

    - BeautifulSoup은 html을 다운받아서 쥬피터노트북에서 처리한다면 Selenium은 크롬에서 처리
    
    - 멜론 등은 크롤링 방지를 위해 주기적으로 태그를 변환, https://grefer.tistory.com/2 를 보고 참고하면서 크롤링하자