# 크롤링-1

### 1. urllib

In [3]:
from urllib import request

#### 1.1. urllib.request를 이용한 다운로드

In [5]:
# 라이브러리 읽어들이기 
from urllib import request

url="http://uta.pw/shodou/img/28/214.png"
savename="test.png"

request.urlretrieve(url, savename)
print("저장되었습니다")

저장되었습니다


#### 1.2. urlopen으로 파일에 저장하는 방법

In [6]:
# URL과 저장경로 지정하기
url = "http://uta.pw/shodou/img/28/214.png"
savename = "test1.png"
#다운로드
mem = request.urlopen(url).read()
#파일로 저장하기, wb는 쓰기와 바이너리모드
with open(savename, mode="wb") as f:
    f.write(mem)
    print("저장되었습니다..")

저장되었습니다..


#### 1.3. API 사용하기

In [7]:
#데이터 읽어들이기
url="http://api.aoikujira.com/ip/ini"
res=request.urlopen(url)
data=res.read()

#바이너리를 문자열로 변환하기
text=data.decode("utf-8")
print(text)

[ip]
API_URI=http://api.aoikujira.com/ip/get.php
REMOTE_ADDR=220.127.17.109
REMOTE_HOST=220.127.17.109
REMOTE_PORT=34830
HTTP_HOST=api.aoikujira.com
HTTP_USER_AGENT=Python-urllib/3.8
HTTP_ACCEPT_LANGUAGE=
HTTP_ACCEPT_CHARSET=
SERVER_PORT=80
FORMAT=ini




### 2. BeautifulSoup
#### 패키지 import 및 기본 예제 HTML

In [8]:
from bs4 import BeautifulSoup

In [9]:
html = """
<html><body>
  <h1>스크레이핑이란?</h1>
  <p>웹 페이지를 분석하는 것</p>
  <p>원하는 부분을 추출하는 것</p>
</body></html>
"""

#### 2.1. 기본사용

In [10]:
soup = BeautifulSoup(html, 'html.parser')   # HTML 분석

In [11]:
h1 = soup.html.body.h1   # 원하는 부분 추출
p1 = soup.html.body.p
p2 = p1.next_sibling.next_sibling

In [12]:
print(f"h1 = {h1.string}")   # 요소 글자 출력
print(f"p  = {p1.string}")
print(f"p  = {p2.string}")

h1 = 스크레이핑이란?
p  = 웹 페이지를 분석하는 것
p  = 원하는 부분을 추출하는 것


#### 2.2. 요소를 찾는 method

In [19]:
soup = BeautifulSoup(html, 'html.parser')   # 단일 element 추출

title = soup.find("h1")
body  = soup.find("p")
print(title)

print(f"#title = {title.string}" )
print(f"#body = {body.string}")

<h1>스크레이핑이란?</h1>
#title = 스크레이핑이란?
#body = 웹 페이지를 분석하는 것


In [21]:
# 복수 element 추출
html = """   
<html><body>
  <ul>
    <li><a href="http://www.naver.com">naver</a></li>
    <li><a href="http://www.daum.net">daum</a></li>
  </ul>
</body></html>
"""
   
soup = BeautifulSoup(html, 'html.parser')

links = soup.find_all("a")
print(links, len(links))

for a in links:
    href = a.attrs['href'] # href의 속성에 있는 속성값을 추출
    text = a.string 
    print(text, ">", href)

[<a href="http://www.naver.com">naver</a>, <a href="http://www.daum.net">daum</a>] 2
naver > http://www.naver.com
daum > http://www.daum.net


### 3. Css selector

In [23]:
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
    <li>유니티 게임 이펙트 입문</li>
    <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
    <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

# HTML 분석하기 
soup = BeautifulSoup(html, 'html.parser')

In [25]:
# 타이틀 부분 추출하기 --- (※3)
h1 = soup.select_one("div#meigen > h1").string
print(f"h1 = {h1}")

# 목록 부분 추출하기 --- (※4)
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
  print(f"li = {li.string}")

h1 = 위키북스 도서
li = 유니티 게임 이펙트 입문
li = 스위프트로 시작하는 아이폰 앱 개발 교과서
li = 모던 웹사이트 디자인의 정석


### 4. 활용 예제

In [27]:
from bs4 import BeautifulSoup
from urllib import request, parse

#### 4.1. 네이버 금융 - 환율정보

In [28]:
url = "https://finance.naver.com/marketindex/"   # HTML 가져오기
res = request.urlopen(url)

In [29]:
soup = BeautifulSoup(res, "html.parser")   # HTML 분석하기

In [30]:
price = soup.select_one("div.head_info > span.value").string   # 원하는 데이터 추출하기
print("usd/krw =", price) 

usd/krw = 1,178.00


#### 4.2. 기상청 RSS

In [31]:
url = "http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp"   # HTML 가져오기

#매개변수를 URL로 인코딩한다.
values = {
    'stnId':'109'
}

params=parse.urlencode(values)
url += "?"+params # URL에 매개변수 추가
print("url=", url)

res = request.urlopen(url)

url= http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109


In [32]:
soup = BeautifulSoup(res, "html.parser")   # HTML 분석하기

In [37]:
header = soup.find("header")   # 원하는 데이터 추출하기

title = header.find("title").text
wf = header.find("wf").text

print(title)
print(wf)

서울,경기도 육상중기예보
○ (강수) 29일(수)과 10월 6일(수)은 비가 내리겠습니다.<br />○ (기온) 이번 예보기간 아침최저기온은 12~19도로 어제(25일, 아침최저기온 15~20도)와 비슷하거나 조금 낮겠고, <br />          낮최고기온은 23~28도로 어제(25일, 낮최고기온 23~24도)보다 높겠습니다.<br />○ (해상) 서해중부해상의 물결은 1.0~2.0m로 일겠습니다.


#### 4.3. 윤동주 작가의 작품 목록

In [38]:
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

# #mw-content-text 바로 아래에 있는 
# ul 태그 바로 아래에 있는
# li 태그 아래에 있는
# a 태그를 모두 선택합니다.
a_list = soup.select("#mw-content-text   ul > li  a")
for a in a_list:
    name = a.string
    print(f"- {name}", )

- 하늘과 바람과 별과 시
- 증보판
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


## 일반문제
### 1. 네이버 뉴스 헤드라인

In [40]:
url = "https://news.naver.com/"   # url 지정

res = request.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

selector = "#today_main_news > div.hdline_news > ul > li > div.hdline_article_tit > a"   # 원하는 데이터 selector 지정

for a in soup.select(selector):   # 데이터 추출
    title = a.text
    print(title)


                                        암호화폐 거래소 제도권 편입됐지만…트레블룰·업권법등 변수 '수두룩'
                                    

                                        [속보] "60세이상·의료진에 '부스터샷' 곧 시작...접종간격도 단축"
                                    

                                        바이든-시진핑 통화 2주 후 풀려난 화웨이 멍완저우
                                    

                                        "빠른 시일 내 남북정상회담" 김여정 돌변…담화에 깔린 '밑밥'
                                    

                                        후발 인뱅 케뱅·토스, 대출 고객 잡고 보자··· ‘한도 축소’ 카뱅과 대비
                                    


### 2. 시민의 소리 게시판

In [43]:
url_head = "https://www.sisul.or.kr"   # url 지정

url_board = url_head + "/open_content/childrenpark/qna/qnaMsgList.do?pgno=1"



res = request.urlopen(url_board)
soup = BeautifulSoup(res, "html.parser")

# selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"   # 원하는 데이터 selector 지정
selector = "#detail_con > div.generalboard > table > tbody > tr > td.left.title > a"

titles = []   # 데이터 추출
links = []
for a in soup.select(selector):   
    titles.append(a.text)
    links.append(url_head + a.attrs["href"])
    
print(titles, links)

['그늘막 텐트 문의', '감사 인사 드립니다.', '어린이대공원 매점 냉장고 점검 부탁드립니다.', '어린이를 위한 공원내 식당에 아기를 위한 시설 부족(아기의자가 왜 없죠?)', '강창수 해설사님 ', '동물해설사님 칭찬', '강창수 동물 해설사님', '놀이동산 푸드코트 김치가 중국산인 이유는?', '주슨트 설명 최고예요!!', '강창수 주슨트님 최고 !!'] ['https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=IVqdRMtJvbX6aTLbQTPK3pbinaVZxV5JsNffEXV1daf3CFLKp26m6ktMw4Udzr9h.etisw2_servlet_user?qnaid=QNAS20210926000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=IVqdRMtJvbX6aTLbQTPK3pbinaVZxV5JsNffEXV1daf3CFLKp26m6ktMw4Udzr9h.etisw2_servlet_user?qnaid=QNAS20210926000001&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=IVqdRMtJvbX6aTLbQTPK3pbinaVZxV5JsNffEXV1daf3CFLKp26m6ktMw4Udzr9h.etisw2_servlet_user?qnaid=QNAS20210925000002&pgno=1', 'https://www.sisul.or.kr/open_content/childrenpark/qna/qnaMsgDetail.do;jsessionid=IVqdRMtJvbX6aTLbQTPK3pbinaVZxV5JsNffEXV1daf3CFLKp26m6ktMw4Udzr9h.etisw2_servlet_user?qnaid=QNAS20210923000005

### csv 저장

In [46]:
import pandas as pd


board_df = pd.DataFrame({"title": titles, "link": links})
board_df.head()

Unnamed: 0,title,link
0,그늘막 텐트 문의,https://www.sisul.or.kr/open_content/childrenp...
1,감사 인사 드립니다.,https://www.sisul.or.kr/open_content/childrenp...
2,어린이대공원 매점 냉장고 점검 부탁드립니다.,https://www.sisul.or.kr/open_content/childrenp...
3,어린이를 위한 공원내 식당에 아기를 위한 시설 부족(아기의자가 왜 없죠?),https://www.sisul.or.kr/open_content/childrenp...
4,강창수 해설사님,https://www.sisul.or.kr/open_content/childrenp...


In [48]:
board_df.to_csv("board.csv", index=False)

# 크롤링-2

### 라이브러리

In [52]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import pandas as pd
from pandas import DataFrame
import time

### 1. Text Crawling

#### 1.1. Simple Text Crawling

__* 사이트가 바뀐 것인지 모르겠지만, 기존 코드로 문의사항 제목 크롤링이 제한되는 것 같아, 클릭코드 추가 및 xpath로 대체해보았습니다.__

In [91]:
 # chrome driver 설정
driver = webdriver.Chrome('C:/Users/SeongSan/Documents/selenium/chromedriver.exe')
driver.implicitly_wait(10)

url = "https://www.bikeseoul.com/customer/opinionBoard/opinionBoardList.do?currentPageNo=1"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# title crawling
driver.find_element_by_xpath('/html/body/div[1]/div[2]/div/div/div[2]/ul/li[2]').click()
title = WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.XPATH, "/html/body/div[1]/div[2]/div/div/div[3]/div[2]/ul/li[1]/dl/dt/a/span")))

print("Title: {}".format(title.text))

Title: 따릉이를 이용하고 싶은데 어떻게 해야 하나요?(구매/대여/반납)


#### 1.2. Text Crawling with for loop

In [93]:
 # chrome driver 설정
driver = webdriver.Chrome('C:/Users/SeongSan/Documents/selenium/chromedriver.exe')
driver.implicitly_wait(10)

url = "https://www.bikeseoul.com/customer/opinionBoard/opinionBoardList.do?currentPageNo=1"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# title crawling
driver.find_element_by_xpath('/html/body/div[1]/div[2]/div/div/div[2]/ul/li[2]').click()
for i in range(2, 7):
    title = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.XPATH, "/html/body/div[1]/div[2]/div/div/div[3]/div[2]/ul/li[" + str(i) + "]/dl/dt/a/span")))
    print("Title: {}".format(title.text))

Title: 정기권 및 이용권 이용방법 (이용권은 한번만 이용 가능한가요?)
Title: 카드 등록은 어떻게 하나요?(대여카드,환승카드)
Title: 대여카드를 이용한 사용방법
Title: 대여소 아닌곳에 자전거를 잠시 두려고 합니다.(자가잠금)
Title: 티머니(교통카드,시티패스 등) 카드 등록을 통한 따릉이 이용방법


In [94]:
 # chrome driver 설정
driver = webdriver.Chrome('C:/Users/SeongSan/Documents/selenium/chromedriver.exe')
driver.implicitly_wait(10)

url = "https://www.bikeseoul.com/customer/opinionBoard/opinionBoardList.do?currentPageNo=1"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
title_list = []

# title crawling
driver.find_element_by_xpath('/html/body/div[1]/div[2]/div/div/div[2]/ul/li[2]').click()
for i in range(2, 7):
    title = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.XPATH, "/html/body/div[1]/div[2]/div/div/div[3]/div[2]/ul/li[" + str(i) + "]/dl/dt/a/span")))
    title_list.append(title.text)
    
print(title_list)

['정기권 및 이용권 이용방법 (이용권은 한번만 이용 가능한가요?)', '카드 등록은 어떻게 하나요?(대여카드,환승카드)', '대여카드를 이용한 사용방법', '대여소 아닌곳에 자전거를 잠시 두려고 합니다.(자가잠금)', '티머니(교통카드,시티패스 등) 카드 등록을 통한 따릉이 이용방법']


#### 1.3. Text Crawling(Click & Back)
__클릭 코드도 기존 css코드를 다른 xpath로 대체했습니다.__

In [97]:
 # chrome driver 설정
driver = webdriver.Chrome('C:/Users/SeongSan/Documents/selenium/chromedriver.exe')
driver.implicitly_wait(10)

url = "https://www.bikeseoul.com/customer/opinionBoard/opinionBoardList.do?currentPageNo=1"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# click
click_element = WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.XPATH, "/html/body/div[1]/div[2]/div/div/div[4]/div/dl/dd[1]/a")))
click_element.click()    

# back
driver.back()

#### 1.4. Text Crawling including contents

In [113]:
 # chrome driver 설정
driver = webdriver.Chrome('C:/Users/SeongSan/Documents/selenium/chromedriver.exe')
driver.implicitly_wait(10)

url = "https://www.bikeseoul.com/customer/opinionBoard/opinionBoardList.do?currentPageNo=1"
driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
title_list = []
content_list = []

# 문의사항 게시판 click
driver.find_element_by_xpath('/html/body/div[1]/div[2]/div/div/div[2]/ul/li[2]').click() 
driver.implicitly_wait(10)
      # click
click_element = WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.XPATH, "/html/body/div[1]/div[2]/div/div/div[3]/div[2]/ul/li[2]/dl/dt")))
click_element.click()  
driver.implicitly_wait(10)
    # title crawling
title = WebDriverWait(driver, 20).until(
    EC.presence_of_element_located((By.XPATH, "/html/body/div[1]/div[2]/div/div/div[3]/div[2]/ul/li[2]/dl/dt/a/span")))
title_list.append(title.text)
    # content crawling
content = WebDriverWait(driver, 20).until(
    EC.presence_of_element_located((By.XPATH, "/html/body/div[1]/div[2]/div/div/div[3]/div[2]/ul/li[2]/dl/dd")))
content_list.append(content.text)
    
print(title_list)
print(content_list)

['정기권 및 이용권 이용방법 (이용권은 한번만 이용 가능한가요?)']
['▶ 정기권/일일권(1시간) 이용 방법\n    ① 일일 한번에 한시간씩 사용하고 반납하는것이 원칙 !\n    (예. 13시 대여, 14시 이내 반납 , 14시에 대여 15시 이내 반납, 반복 사용 가능)\n    ② 한번 빌리면 대여시간 기본 60분(60분이내 반납하고 다시 빌리고 반복하여 하루종일\n        이용 가능) -\n"\n대여횟수제한없음\n"\n    ※ 60분 넘어서 반납하지 않고 계속 사용하면\n5분\n에\n200원씩\n추가 요금 발생!!\n     (만약, 60분 넘어서 반납하지 않고 계속 사용시간 최대 4시간 동안만 가능,\n     이후에는 "\n도난\n"으로 간주하여 경찰 신고)\n\n\n▶ 정기권/일일권(2시간) 이용 방법\n    ① 일일 한번에 두시간씩 사용하고 반납하는것이 원칙 !\n    (예. 13시 대여, 15시 이내 반납 , 15시에 대여 17시 이내 반납, 반복 사용 가능)\n    ② 한번 빌리면 대여시간 기본 120분(120분이내 반납하고 다시 빌리고 반복하여 하루\n        종일 이용 가능) - "\n대여횟수제한없음"\n    ※ 120분 넘어서 반납하지 않고 계속 사용하면\n5분\n에\n200\n원\n씩\n추가 요금 발생!!\n     (만약, 120분 넘어서 반납하지 않고 계속 사용시간 최대 6시간 동안만 가능,\n     이후에는 "\n도난\n"으로 간주하여 경찰 신고)\n\n[이용시 주의사항]\n① 자전거는 대여했던 곳이 아닌 본인의 현재 위치 근처의 대여소에 반납해도 됨\n② 일일권 및 정기권 사용 시, 이용시간 내에 계속 반납하면 하루종일 사용 가능\n   (\n대여횟\n수제한없음\n)\n③ 대여 시 기계에 문제가 생겼거나, 고장났거나, 사고가 발생할 경우 콜센터(1599-0120) 으로 연락하여 자전거 회수를 요청하면 됨\n④ 대여소 거치대에 자전거가 꽉 차서 반납이 여려울 경우, 이미 거치 되어 있는 자전거의 왼쪽에 

# 크롤링-3

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import pandas as pd
from pandas import DataFrame
import time

### 1. Text Crawling
#### 1.1. Simple Text Crawling

In [116]:
 # chrome driver 설정
driver = webdriver.Chrome('C:/Users/SeongSan/Documents/selenium/chromedriver.exe')
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# title crawling
title = WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.CSS_SELECTOR, "#lst50 > td:nth-child(6) > div > div > div.ellipsis.rank01")))

# print("Title: {}".format(title.text))

title.text

'STAY'

In [117]:
# 2번째 제목 크롤링
print(WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.XPATH, "/html/body/div/div[3]/div/div/div[3]/form/div/table/tbody/tr[2]/td[6]/div/div/div[1]/span/a"))).text)

신호등


#### 1.2. Text Crawling with for loop

In [119]:
 # chrome driver 설정
driver = webdriver.Chrome('C:/Users/SeongSan/Documents/selenium/chromedriver.exe')
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
title_list = []

# title crawling (TOP 50)
for i in range(1, 51):
    title = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.XPATH, "/html/body/div/div[3]/div/div/div[3]/form/div/table/tbody/tr["+str(i)+"]/td[6]/div/div/div[1]/span/a")))
    title_list.append(title.text)
    
print(title_list)

['STAY', '신호등', 'My Universe', 'OHAYO MY NIGHT', 'Permission to Dance', 'Next Level', '바라만 본다', 'Butter', 'Weekend', '낙하 (with 아이유)', 'Dynamite', '좋아좋아', 'Peaches (Feat. Daniel Caesar & Giveon)', 'Queendom', 'DUMB DUMB', 'Bad Habits', '다정히 내 이름을 부르면', '헤픈 우연', '시간을 거슬러 (낮에 뜨는 달 X 케이윌)', '가을 타나 봐', '이제 나만 믿어요', '비와 당신', 'Sticker', "롤린 (Rollin')", '라일락', 'Dun Dun Dance', '고백', 'Celebrity', 'ASAP', 'Savage Love (Laxed - Siren Beat) (BTS Remix)', '별빛 같은 나의 사랑아', '사이렌 Remix (Feat. UNEDUCATED KID, Paul Blanco)', '작은 것들을 위한 시 (Boy With Luv) (Feat. Halsey)', '비가 오는 날엔 (2021)', '색안경 (STEREOTYPE)', '그대라는 사치', '가을 우체국 앞에서', 'HERO', '다시 사랑한다면 (김필 Ver.)', 'Lemonade', '봄날', '찰나가 영원이 될 때 (The Eternal Moment)', '하루만 더', '밝게 빛나는 별이 되어 비춰줄게', '내 손을 잡아', '끝사랑', 'Life Goes On', '안녕 (Hello)', 'Bk Love', '잊었니']


#### 1.3. Text Crawling (Click & Back)

In [None]:
 # chrome driver 설정
driver = webdriver.Chrome('C:/Users/SeongSan/Documents/selenium/chromedriver.exe')
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 1번째 click하기
click_element = WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.XPATH, "/html/body/div/div[3]/div/div/div[4]/form/div/table/tbody/tr["+str(1)+"]/td[5]/div")))
click_element.click()    

# back
driver.back()

# 2번째 click하기
click_element = WebDriverWait(driver, 20) \
    .until(EC.presence_of_element_located((By.XPATH, "/html/body/div/div[3]/div/div/div[4]/form/div/table/tbody/tr["+str(2)+"]/td[5]/div")))
click_element.click()    

# back
driver.back()

#### 1.4. Text Crawling including Contents

In [121]:
 # chrome driver 설정
driver = webdriver.Chrome('C:/Users/SeongSan/Documents/selenium/chromedriver.exe')
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"
driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
title_list = []
artist_list = []
heart_list = []
lyrics_list = []

# crawling (TOP 5)
for i in range(1, 6):
    # click
    click_element = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.XPATH, "/html/body/div/div[3]/div/div/div[3]/form/div/table/tbody/tr[" + str(i) + "]/td[5]/div/a")))
    click_element.click()

    # title crawling
    title = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#downloadfrm > div > div > div.entry > div.info > div.song_name")))
    title_list.append(title.text)

    # artist crawling
    artist = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#downloadfrm > div > div > div.entry > div.info > div.artist > a > span:nth-child(1)")))
    artist_list.append(artist.text)
    
    # heart crawling
    heart = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#d_like_count")))
    heart_list.append(heart.text)

    # lyrics crawling
    lyrics = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#d_video_summary")))
    lyrics_list.append(lyrics.text)
    
    # back
    driver.back()
    
print(title_list)
print(artist_list)
print(heart_list)
print(lyrics_list)

['STAY', '신호등', 'My Universe', 'OHAYO MY NIGHT', 'Permission to Dance']
['The Kid LAROI', '이무진', 'Coldplay', '디핵 (D-Hack)', '방탄소년단']
['152,373', '215,120', '68,262', '133,283', '176,333']
["I do the same thing I told you\nthat I never would\nI told you I'd change\neven when I knew I never could\nI know that I can't find\nnobody else\nas good as you\nI need you to stay\nneed you to stay hey Oh\nI get drunk wake up\nI'm wasted still\nI realize the time\nthat I wasted here\nI feel like you can't\nfeel the way I feel\nOh I'll be fucked up\nif you can't be right here\nOh ooh-woah\nOh ooh-woah ooh-woah\nOh ooh-woah\nOh ooh-woah ooh-woah\nOh ooh-woah\nOh ooh-woah ooh-woah\nOh I'll be fucked up\nif you can't be right here\nI do the same thing I told you\nthat I never would\nI told you I'd change\neven when I knew I never could\nI know that I can't find\nnobody else\nas good as you\nI need you to stay\nneed you to stay hey\nI do the same thing I told you\nthat I never would\nI told you I'd chan

In [125]:
 # chrome driver 설정
driver = webdriver.Chrome('C:/Users/SeongSan/Documents/selenium/chromedriver.exe')
driver.implicitly_wait(10)

url = "https://www.melon.com/chart/index.htm"
driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
title_list = []
artist_list = []
heart_list = []
lyrics_list = []

# crawling (TOP 5)
for i in range(1, 6):
    # click
    click_element = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.XPATH, "/html/body/div/div[3]/div/div/div[3]/form/div/table/tbody/tr[" + str(i) + "]/td[5]/div/a")))
    click_element.click()

    # title crawling
    title = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#downloadfrm > div > div > div.entry > div.info > div.song_name")))
    title_list.append(title.text)

    # artist crawling
    artist = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#downloadfrm > div > div > div.entry > div.info > div.artist > a > span:nth-child(1)")))
    artist_list.append(artist.text)
    
    # heart crawling
    heart = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#d_like_count")))
    heart_list.append(heart.text)

    # lyrics crawling
    lyrics = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#d_video_summary")))
    lyrics_list.append(lyrics.text)
    
    # back
    driver.back()
    
    
# 결과 변수
raw_result = {'title': title_list,
              'artist': artist_list,
              'heart': heart_list,
          'lyrics': lyrics_list}

result = pd.DataFrame(raw_result)
print(result)
# # csv 파일로 save
# result.to_csv("MelonTop5", mode='w')

# driver 종료
driver.quit()

                 title         artist    heart  \
0                 STAY  The Kid LAROI  152,380   
1                  신호등            이무진  215,120   
2          My Universe       Coldplay   68,282   
3       OHAYO MY NIGHT    디핵 (D-Hack)  133,289   
4  Permission to Dance          방탄소년단  176,337   

                                              lyrics  
0  I do the same thing I told you\nthat I never w...  
1  이제야 목적지를 정했지만\n가려한 날 막아서네 난 갈 길이 먼데\n새빨간 얼굴로 화...  
2  You, you are my universe and\nI just want to p...  
3  너를 사랑하고 있어\n너를 사랑하고 있어\n자기야 날 사랑해주면 안 될까\n말처럼 ...  
4  It’s the thought of being young\nWhen your hea...  
