# 크롤링의 종류



## 1. 정적 크롤링
- 웹에 있는 정적인 데이터를 수집할 때 사용
    - 정적인 데이터란 로그인과 같은 사전 작업 없이 바로 볼 수 있는 데이터
    - 새로고침을 하지 않는 이상 변하지 않는 데이터
    - 주소를 통해 요청받고 결과를 전달해 주고 종료
- 연속적인 작업은 수행할 수 없으며, 주로 한 페이지 안에 원하는 정보가 모두 드러난 경우 사용
- 또한 한 페이지 안에 모든 작업이 이루어지기 때문에 속도가 매우 빠르다. 
- 수집 대상의 한계 존재


## 2. 동적 크롤링
- 웹에 있는 동적인 데이터를 수집할 때 사용
    - 동적인 데이터는 입력, 클릭, 로그인과 같이 페이지 이동시 얻을 수 있는 데이터
    - 단계적 접근이 필요하기 때문에 수집 속도가 느리지만 수집 대상에 한계가 거의 없다는 큰 장점
    - 연속적인 접근이 가능, 페이지 이동이 필수적이거나 페이지 안에 정보가 은닉되어 있을 경우 사용


|           | 정적 크롤링             | 동적 크롤링                   |
| --------- | ----------------------- | ----------------------------- |
| 연속성    | 주소를 통한 단발적 접근 | 브라우저를 사용한 연속적 접근 |
| 속도      | 빠름                    | 느림                          |
| 수집 성능 | 수집 대상에 한계가 있음 | 수집 대상에 한계가 거의 없음  |

# 라이브러리
- 크롤링시 자주 사용 되는 라이브러리는 다음과 같다.

## 1. time 라이브러리

- time.time() : time.time()은 UTC를 사용해 현재 시간을 실수 형태로 돌려주는 함수이다.
    - 1970년 1월 1일 0시 0분 0초 기준으로 지난 시간을 초 단위로 돌려준다. 
    
    ```python
    import time
    print(time.time())
    ```
 
- time.localtime() : 현재 시간을 년, 월, 일, 시, 분, 초..의 형태로 출력해준다.
 
    ```python
    import time
    print(time.localtime())
    ```



## 2.정적 클로링 도구
- requests : 간편한 HTTP 요청 처리를 위해 사용하는 라이브러리, 웹과 연결을 위해 사용된다.
- beautifulsoup : html 태그를 다룰 수 있는 라이브러리, 웹에 있는 데이터 중 필요한 데이터만 뽑아내기 위해 사용
- pd.read_html : html 내의 table만 추출할수 있는 도구


## 3. 동적 크롤링 도구
- selenium : 웹 드라이버를 사용해 자동화 기능을 실현하는 라이브러리이다.
    - 웹에 접속해 클릭, 이동과 같응 action을 제어할 수 잇다
    - chromedriver.exe를 설치하고 이를통해 제어 가능
    
## 4. multiprocessing 모듈
- multiprocessing : 여러개의 코어를 활용할 수 있는 multiprocessing 모듈을 사용하면 크롤링 속도를 개선할수 있다.
    - process fork 문제로 인해 windows 에서는 사용불가, colab에서 사용가능


 
    

### 1. 웹 문서 전체 가져오기
- urllib.request 패키지

In [None]:
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup as bs

 https://www.naver.com/
- https: https 프로토콜로 통신한다( http: 암호화 안시키고 전달하는 방식)
- www : 월드 와이드 웹 사이트를 의미한다.
- naver.com : domain name을 의미한다.

In [None]:
html = urlopen("https://www.naver.com/")

In [None]:
html

<http.client.HTTPResponse at 0x7f0998f26d50>

In [None]:
soup = bs(html, "html.parser")
soup

- requests 패키지 사용의 결과

In [None]:
html = requests.get("https://www.naver.com/")
soup = bs(html.text, "html.parser")
print(soup)

In [None]:
# www.google.com 에 requests 또는 urlopen 을 통해 접근하고 사이트의 내용을 요청해 보세요
google = requests.get("https://www.google.co.kr/")
soup = bs(google.text, "html.parser")
print(soup)

# 웹페이지와 HTML
- 웹페이지는 HTML(HyperText Markup Language)을 기반으로 만든다.
- F12를 누르면 뜨는 코드들이 HTML이다.
- Ctrl + shift + c

HTML 문서를 통해 웹페이지가 어떻게 구성되어 있는지 알 수 있으며, 이를 통해 원하는 데이터가 웹 페이지의 어디에 위치하는지 파악해 수집하는 것이 가능하다.

## 1. HTML 태그

- HTML은 마크로 둘러싸인 언어라는 뜻으로 구조에 대한 정보를 기반으로 작성된 언어
- 각각의 구성 요소는 마크 역할을 하는 태그로 감싸져 있다.
    - 웹페이지의 시작과 끝을 의미하는 <html></html>
    - 문서의 제목을 의미하는 <title></title>
    - 웹에 실제로 표시되는 내용을 의미하는 <body></body>

```html
<태그>내용</태그>
```




## 2. HTML 태그의 종류
- ul : unordered list. 순
- li : list item. 목록의 내용이 되는 실질적 태그
    - [참고](https://www.w3schools.com/html/html_lists.asp)
- a : 하이퍼링크를 나타내는 태그
  - <a href="https://www.google.com">google</a>
- p : paragraph(단락)의 약자, 긴 글 뭉텅이.
- table : 표를 나타내는 태그
    - [참고](https://www.w3schools.com/html/tryit.asp?filename=tryhtml_table3)
- img 태그
    - 이미지를 표시하는 태그
- find html 태그
    - find("태그") - 첫번째 태그만 검색
    - find_all("태그") - 전체 태그 검색후 list로 반환

In [None]:
html = requests.get("https://www.naver.com/")
soup = bs(html.text, "html.parser")

In [None]:
find_div = soup.find("div", id = "u_skip")  #div 태그에서 id가 u_skip인 첫번째 태그만을 검색
print(find_div)

<div id="u_skip"> <a href="#newsstand"><span>뉴스스탠드 바로가기</span></a> <a href="#themecast"><span>주제별캐스트 바로가기</span></a> <a href="#timesquare"><span>타임스퀘어 바로가기</span></a> <a href="#shopcast"><span>쇼핑캐스트 바로가기</span></a> <a href="#account"><span>로그인 바로가기</span></a> </div>


In [None]:
find_div = soup.find("div", class_ = "group_flex")
print(find_div)

In [None]:
# div 태그에서  class_= group_nav를 검색해보세요
find_div = soup.find("div", class_ = "group_nav")
print(find_div)

In [None]:
find_div.find("li")

<li class="nav_item">
<a class="nav" data-clk="svc.mail" href="https://mail.naver.com/"><i class="ico_mail"></i>메일</a>
</li>

In [None]:
find_div.find_all("li")[0].get_text()  #리스트 형태를 지닌다

'\n메일\n'

In [None]:
item = find_div.find_all("li")[0].get_text()
print(item)


메일



In [None]:
item = find_div.find_all("li")[0].get_text()  #find_all은 모든 tag를 찾아준다 결과는 list와 같다.
item_href = find_div.find_all("li")[0].find("a")["href"] #find 후 결과중 tag내의 속성값을 찾기 위해서는 인덱싱을 해준다.
print(item, item_href)


메일
 https://mail.naver.com/


In [None]:
# navbar의 이름과 링크를 출력하기
html = requests.get("https://www.naver.com/")
soup = bs(html.text, "html.parser")
find_div = soup.find("div", class_ = "group_nav")

In [None]:
nav_list = find_div.find_all("li")

In [None]:
print(nav_list[2])

<li class="nav_item"><a class="nav" data-clk="svc.blog" href="https://section.blog.naver.com/">블로그</a></li>


In [None]:
for i in nav_list:
    nav_list_name = i.get_text()
    nav_list_name = nav_list_name.replace("\n","")
    nav_list_url = i.find("a")["href"]
    print(nav_list_name,",", nav_list_url)  #get_text 텍스트를 추출한다.
    

메일 , https://mail.naver.com/
카페 , https://section.cafe.naver.com/
블로그 , https://section.blog.naver.com/
지식iN , https://kin.naver.com/
쇼핑 , https://shopping.naver.com/
쇼핑LIVE , https://shoppinglive.naver.com/home
Pay , https://order.pay.naver.com/home
TV , https://tv.naver.com/
사전 , https://dict.naver.com/
뉴스 , https://news.naver.com/
증권 , https://finance.naver.com/
부동산 , https://land.naver.com/
지도 , https://map.naver.com/
VIBE , https://vibe.naver.com/
도서 , https://search.shopping.naver.com/book/home
웹툰 , https://comic.naver.com/



## 4. 선택자
### 선택자
- 태그 중에는 동일한 태그가 존재할 수있다. 
- 선택자(Selector)는 동일한 태그 여러 개 중에서도 각 태그를 구별할 수 있는 일종의 주소이다.

### 선택자의 필요성

```html
<div>	
	<div>
		<span> Python </span>
		<span> Hello world </span>
	</div>
	
	<div>
		<span> Java </span>
		<span> Coffee </span>
	</div>
<div>
```

- <span> 태그는 다양한 내용을 담을 수 있다.
- <span> 태그가 4개나 있어서 컴퓨터가 구분하기 어렵다. 이러한 문제를 해결하기 위해 선택자를 사용함.

```html
<div id = "contents">	
	<div class = "metadata1">
		<span class = "language"> Python </span>
		<span class = "project" > Hello world </span>
	</div>
	
	<div class = "metadata2">
		<span class = "language"> Java </span>
		<span class = "project"> Coffee </span>
	</div>
<div>
```

언어(language)와 관련된 데이터만 필요하다면, 태그로만 해당 데이터를 선택하면, <span>을 사용할 것이다.

하지만 <span>에 언어 정보 뿐만 아니라 프로젝트 정보(Hello world, Coffee)도 포함됩니다.

이러한 경우, 원하는 정보만 찾는 것이 힘들지만 "class = 'language'"라는 선택자를 통해 우리는 두 개의 언어 관련 데이터(python, java)를 찾을 수 있다.

### id와 class
- 태그의 선택자는 주로 id와 class를 사용한다.
- id는 어떤 요소의 고유한 값.
    - [참고](https://www.w3schools.com/html/html_id.asp)
    - html에서도 id는 하나의 고유한 선택자로, __중복__ 되지 않고 하나만 존재한다.
- class 태그는 같은 속성을 지닌 데이터를 묶어주는 값이다.
    - 한 태그가 __여러 개__ 의 class를 가질 수 있다.
    - [참고](https://www.w3schools.com/html/html_classes.asp)

비슷한 속성끼리 묶어줄 때 class 태그를 사용한다.



### 선택자 사용법
```html
<div id='123' class='456'>
```
- 선택자에 따라 데이터를 찾는 코드에 차이가 있다.
- id는 '#'를 붙이고, class는 '.'을 붙여준다.

- 태그만 사용해 데이터를 찾을 경우 -> 태그
  - div
- 태그와 id를 사용해 데이터를 찾을 경우 -> 태그#id
  - div#123
- 태그와 class를 사용해 데이터를 찾을 경우 -> 태그.class
  - div.456
- 태그, id, class 모두 사용해 데이터를 찾을 경우 -> 태그#id.class
  - div#123.456

- 참고 : class 이름에 공백이 포함될 경우가 종종 있는데, 이럴 경우 공백을 .으로 대체해서 작성하면 된다.
    - ex)

    ```html
    <div class='hello python'>
    ```

    -> div.hello.python

In [None]:
selector_soup = soup.select("#NM_FAVORITE > div.group_nav > ul.list_nav.type_fix") # 해당 tag 에서 마우스 오른쪽 버튼 -> copy -> copy selector

In [None]:
selector_soup

[<ul class="list_nav type_fix">
 <li class="nav_item">
 <a class="nav" data-clk="svc.mail" href="https://mail.naver.com/"><i class="ico_mail"></i>메일</a>
 </li>
 <li class="nav_item"><a class="nav" data-clk="svc.cafe" href="https://section.cafe.naver.com/">카페</a></li>
 <li class="nav_item"><a class="nav" data-clk="svc.blog" href="https://section.blog.naver.com/">블로그</a></li>
 <li class="nav_item"><a class="nav" data-clk="svc.kin" href="https://kin.naver.com/">지식iN</a></li>
 <li class="nav_item"><a class="nav shop" data-clk="svc.shopping" href="https://shopping.naver.com/"><span class="blind">쇼핑</span></a></li>
 <li class="nav_item"><a class="nav shoplive" data-clk="svc.shoppinglive" href="https://shoppinglive.naver.com/home"><span class="blind">쇼핑LIVE</span></a></li>
 <li class="nav_item"><a class="nav" data-clk="svc.pay" href="https://order.pay.naver.com/home">Pay</a></li>
 <li class="nav_item">
 <a class="nav" data-clk="svc.tvcast" href="https://tv.naver.com/"><i class="ico_tv"></i>TV

In [None]:
# selector_soup[0].text   전체가 리스트 형태라서 0번 인덱스 요소를 가져와야한다.
selector_soup[0].find_all("a")
# selector를 이용해
# 메일, 카페, 블로그 지식iN, ... 을 출력해보세요

[<a class="nav" data-clk="svc.mail" href="https://mail.naver.com/"><i class="ico_mail"></i>메일</a>,
 <a class="nav" data-clk="svc.cafe" href="https://section.cafe.naver.com/">카페</a>,
 <a class="nav" data-clk="svc.blog" href="https://section.blog.naver.com/">블로그</a>,
 <a class="nav" data-clk="svc.kin" href="https://kin.naver.com/">지식iN</a>,
 <a class="nav shop" data-clk="svc.shopping" href="https://shopping.naver.com/"><span class="blind">쇼핑</span></a>,
 <a class="nav shoplive" data-clk="svc.shoppinglive" href="https://shoppinglive.naver.com/home"><span class="blind">쇼핑LIVE</span></a>,
 <a class="nav" data-clk="svc.pay" href="https://order.pay.naver.com/home">Pay</a>,
 <a class="nav" data-clk="svc.tvcast" href="https://tv.naver.com/"><i class="ico_tv"></i>TV</a>]

In [None]:
for i in selector_soup[0].find_all("a"):
    print(i.text)

메일
카페
블로그
지식iN
쇼핑
쇼핑LIVE
Pay
TV


# 라이브러리 BeautifulSoup
- BeautifulSoup 라이브러리는 HTML 문설르 탐색해서 원하는 부분만 쉽게 뽑아낼 수 있게 해주는 라이브러리이다.

## BeutifulSoup의 필요성




### BeautifulSoup
- 함수 BeautifulSoup()
    - 문자열 HTML 코드를 실제 HTML 코드로 변환해주는 함수 BeautifulSoup

```python
BeautifulSoup(문자열, 'html.parser')
```
- 함수 find_all()
    - find_all() 함수는 HTML 코드에서 우리가 원하는 부분을 모두 가져오는 함수
    - 원하는 부분을 지정할 때 사용하는 것은 태그와 선택자
    - find_all()은 해당 태그의 모든 HTML 코드를 리스트 형태로 반환

```python
# <div id="example1">
실제HTML코드.find_all("div")
실제HTML코드.find_all(id="example1")

# <div id="example1">, <span class="example2">
실제HTML코드.find_all(["div", "span"])
실제HTML코드.find_all(attrs = {"id":"example1", "class":"example2"})
```

- 함수 find()
    - find() 함수는 딱 하나만 가져온다.

```python
# <div id="example1">
실제HTML코드.find("div")  #tag만
실제HTML코드.find(id="example1")  #selector만
실제HTML코드.find(attrs = {"id":"example1"})  #selector
실제HTML코드.find("div", {"id":"example1"})  #tag, selector
```



#### 로또 당첨 확인

In [None]:
from bs4 import BeautifulSoup

In [None]:
import requests

In [None]:
lot_url = "https://dhlottery.co.kr/gameResult.do?method=byWin"
raw = requests.get(lot_url)
lot_soup = BeautifulSoup(raw.text, "html.parser")
lot_nums = lot_soup.find("div", {"class":"nums"})
lot_nums = lot_soup.find("div", class_ = "nums")
print(lot_nums)
lot_nums = lot_nums.find_all("span")
#print(lot_nums)
for i in lot_nums:
    print(i.text)

<div class="nums">
<div class="num win">
<strong>당첨번호</strong>
<p>
<span class="ball_645 lrg ball1">8</span>
<span class="ball_645 lrg ball1">9</span>
<span class="ball_645 lrg ball2">20</span>
<span class="ball_645 lrg ball3">25</span>
<span class="ball_645 lrg ball3">29</span>
<span class="ball_645 lrg ball4">33</span>
</p>
</div>
<div class="num bonus">
<strong>보너스</strong>
<p><span class="ball_645 lrg ball1">7</span></p>
</div>
</div>
8
9
20
25
29
33
7


##### 크롤링 대상 사이트 살펴보기
- https://search.hankyung.com/apps.frm/search.news?query=%EC%BD%94%EB%A1%9C%EB%82%98&page=1
- url 패턴 : query="검색값"&page="페이지값"임을 알 수 있다. 
- html 태그
    - \<ul class="article">
    - \<ul class="article">
    - \<li> 태그 속 <em class="tit"> 

In [None]:
hank_url = "https://search.hankyung.com/apps.frm/search.news?query=%EC%BD%94%EB%A1%9C%EB%82%98&page=3"
hank_raw = requests.get(hank_url)
hank_soup = BeautifulSoup(hank_raw.text, "html.parser")

articles  = hank_soup.find("ul", {"class":"article"})
title = articles.find_all("em", {"class":"tit"})
date_time = articles.find_all("span", {"class":"date_time"})

for tit, time in zip(title, date_time):
  print(tit.text, time.text)

[팩트체크] 훈련소 입소 후 코로나 확진돼 귀가하면 복무기간 안 빼준다? 2022.07.28 17:50
깐깐해진 거래소…바이오 IPO 꽉 막혔다 2022.07.28 17:49
日, 일주일간 신규 확진 100만명 육박…이 기간 '세계 최다' 2022.07.28 17:49
휴가철 교통사고 증가 우려…"오후 2~6시 주의하세요" 2022.07.28 17:46
또 외부일정…사흘째 도어스테핑 생략 2022.07.28 17:45
한화솔루션, 태양광 흑자 전환에 20% 급등 2022.07.28 17:44
이스타항공 항공 면허 무효 위기…국토부 부실 심사 지적도 2022.07.28 17:44
필리핀 K팝 경연대회 열기'후끈'…관람객 1천명 몰려 2022.07.28 17:43
[바이오 컴퍼니 2022] 아미코젠, 바이오의약품 소재 국산화 2022.07.28 17:40
[바이오 컴퍼니 2022] 아이센스, 혈당측정기 세계적 강자 2022.07.28 17:36


<img src="https://blog.kakaocdn.net/dn/caNQvW/btq4JfrNJfP/zdIHGBlZFZr26k2XeHJhbK/img.png">
- https://it-eldorado.tistory.com/143

In [None]:
import pandas as pd

keyword = input("검색어를 입력하세요 : ")

count = 0
for i in range(1,11):
    hank_url = "https://search.hankyung.com/apps.frm/search.news?query="+keyword+"&page="+str(i)
    hank_raw = requests.get(hank_url)
    hank_soup = BeautifulSoup(hank_raw.text, "html.parser")

    articles  = hank_soup.find("ul", {"class":"article"})
    title = articles.find_all("em", {"class":"tit"})
    date_time = articles.find_all("span", {"class":"date_time"})

    

    for tit, time in zip(title, date_time):
      count += 1  
      print(count, tit.text, pd.to_datetime(time.text))

In [None]:
import pandas as pd

keyword = input("검색어를 입력하세요 : ")

count = 0
df = pd.DataFrame(columns = ["title", "date"])

for i in range(1,11):
    hank_url = f"https://search.hankyung.com/apps.frm/search.news?query={keyword}&page={i}"
    hank_raw = requests.get(hank_url)
    hank_soup = BeautifulSoup(hank_raw.text, "html.parser")

    articles  = hank_soup.find("ul", {"class":"article"})
    title = articles.find_all("em", {"class":"tit"})
    date_time = articles.find_all("span", {"class":"date_time"})

    

    for tit, time in zip(title, date_time):
      count += 1  
      title = tit.text
      title_time = pd.to_datetime(time.text)
      print(count, title, title_time)
      df = df.append({"title": title, "date":title_time}, ignore_index = True)

In [None]:
df

Unnamed: 0,title,date
0,"""기회는 한 번""…BTS 머물던 그 별장, 단돈 9000원에 즐긴다",2022-07-28 16:27:00
1,"[고침] 문화('싱어게인2' 톱6 서기, 지친 이들을 위한 힐링송…)",2022-07-28 15:12:00
2,"'싱어게인2' 톱6 서기, 지친 이들을 위한 힐링송 '낮잠' 발표",2022-07-28 13:31:00
3,[신간] 100단어로 읽는 중세 이야기·고대 그리스에서 1년 살기,2022-07-28 11:41:00
4,"서기 ""방탄소년단 커버 영상에 뷔 댓글 안 믿겨…최애는 지민""",2022-07-28 11:22:00
...,...,...
95,"""국가 위해 진행""…정부 행사서만 볼 수 있는 BTS '완전체'",2022-07-22 07:00:00
96,"'태국의 BTS' 뮤 수파싯, '심플리케이팝 콘투어' 출연",2022-07-21 18:08:00
97,"안무가 류재준, 댄서 기반 빌리드엔터 설립",2022-07-21 17:25:00
98,"BTS 솔로 활동 첫 주자 '제이홉' 외신서 호평…""강력한 음반""",2022-07-21 15:37:00


In [None]:
import datetime as dt
df.to_csv(f'{dt.datetime.now()}.csv')

In [None]:
#주피터 랩에서 다시 만든다

In [None]:
#멜론 top100

- 장르를 번호로 입력받고 입력받은 장르의 Top 50 을 DF로 출력하세요
- df에는 가수, 제목이 있어야 합니다. 


장르를 고르세요
1: 발라드
2: 댄스
3: 랩/힙합
4: R&B/Soul
5: 인디음악
6: 록/메탈
7: 트로트
8: 포크/블루스

7
트로트 top 50 입니다.
df....

In [None]:
melon_url = "https://www.melon.com/genre/song_list.htm?gnrCode=GN0500"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"}
raw = requests.get(melon_url, headers = header)
melon_soup = BeautifulSoup(raw.text, "html.parser")

melon_tbody = melon_soup.find("tbody")
title = melon_tbody.find_all("div", {"class":"ellipsis rank01"})
singer = melon_tbody.find_all("div", {"class":"ellipsis rank02"})
print(title)
print(singer)

In [None]:
melon_url = "https://www.melon.com/genre/song_list.htm?gnrCode=GN0500"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"}
raw = requests.get(melon_url, headers = header)
melon_soup = BeautifulSoup(raw.text, "html.parser")

melon_soup = melon_soup.select("#conts > div.wrap_tabmenu01.type08")
#melon_genre = melon_soup.find_all("li")
#genre = melon_genre.find_all("li")
melon_genre = melon_soup[0].find_all("a")
for i, j in zip(melon_genre,range(len(melon_genre))):
  print(j+1, i.text)

1 발라드
2 댄스
3 랩/힙합
4 R&B/Soul
5 인디음악
6 록/메탈
7 트로트
8 포크/블루스


In [None]:
i = input(" : ")
melon_url = f"https://www.melon.com/genre/song_list.htm?gnrCode=GN0{i}00"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"}
raw = requests.get(melon_url, headers = header)
melon_soup = BeautifulSoup(raw.text, "html.parser")

melon_tbody = melon_soup.find("tbody")
title = melon_tbody.find_all("div", {"class":"ellipsis rank01"})
singer = melon_tbody.find_all("span",{"class":"checkEllipsis"})
print(singer[0].text)
title[0].find("a").text
for i,j in zip (title, singer):
  title = i.text
  singer = j.text
  print(title, singer)

In [None]:
melon_url = "https://www.melon.com/genre/song_list.htm?gnrCode=GN0500"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"}
raw = requests.get(melon_url, headers = header)
melon_soup = BeautifulSoup(raw.text, "html.parser")

melon_soup_1 = melon_soup.select("#conts > div.wrap_tabmenu01.type08")
melon_genre = melon_soup_1[0].find_all("a")
for i, j in zip(melon_genre,range(len(melon_genre))):
  print(j+1, i.text)

genre_input = input("장르를 선택하세요 : ")

melon_url = f"https://www.melon.com/genre/song_list.htm?gnrCode=GN0{genre_input}00"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"}
raw = requests.get(melon_url, headers = header)
melon_soup = BeautifulSoup(raw.text, "html.parser")

melon_tbody = melon_soup.find("tbody")
title = melon_tbody.find_all("div", {"class":"ellipsis rank01"})
singer = melon_tbody.find_all("span",{"class":"checkEllipsis"})
for i,j in zip (title, singer):
  title = i.text
  singer = j.text
  print(title, singer)

1 발라드
2 댄스
3 랩/힙합
4 R&B/Soul
5 인디음악
6 록/메탈
7 트로트
8 포크/블루스
장르를 선택하세요 : 2

첫사랑 (Pop? Pop!)
 첫사랑(CSR)

Drummin'
 TO1 (티오원)

로나로나땅땅
 로나 Rona

Ice Cream
 Ziodina (지오디나)

외롭지않느냐고
 HAEXSO

Monochrome (Color)
 ATBO

YOU.F.O
 니콜

PARADE (Feat. 양요섭 of 하이라이트)
 하이파이브 (Hy-Five)

EMERGENCY
 라미

You're my…
 히양

Walking on the moon
 TAN

DRIVE
 모나 (MONA)

Churup!
 Hezz (홍의진)

City of Star
 Taebeen

I Like That (Feat.소울크라이) (Tropical Mix)
 데니스프로젝트

여름밤 우리
 J-Young

중화반점
 루이스 (Louis)

STARLIGHT
 덴파마루 (DENPAMARU)

Somebody!
 로꼬, 화사 (Hwa Sa)

Nerdy
 퍼플키스 (PURPLE KISS)

Cheeky (feat. Bustabomb, 김산하)
 마리포사 (Mariposa)

썸머썸 (Summer Some) (Feat. 2.3.4)
 송포유

달빛바다
 프로미스나인

이래도 되는걸까
 유슬, 라키

Traveler
 CHEEZE (치즈), 곽윤기

빛이나는 그대 (feat. 강대웅 of 삼총사 & 노유하)
 용이

권토중래
 Manjagu(맨자구)

옛날 통닭
 이백길

ALIEN (Feat. 천누리)
 Musist

집에 보내줘
 예랑가랑

aHHa
 뮤티브(MuuTive)

Love(위클리 X 김이나 프로젝트)
 Weeekly (위클리)

U&Iverse
 ASTRO (아스트로)

Golden Hours
 Risso (리소), BNJX (밴젝스)

나빌레라
 현아

둠두둠 (Doom Du Doom)
 P1Harmony

쥐 (RATvolution)
 안예은

BLIND

In [2]:
from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [3]:
df = pd.DataFrame(columns = ["title", "singer"]) 

melon_url = "https://www.melon.com/genre/song_list.htm?gnrCode=GN0100"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"}
raw = requests.get(melon_url, headers = header)
melon_soup = BeautifulSoup(raw.text, "html.parser")

#melon_soup_list = melon_soup.find("div", attrs = {"class":"wrap_tabmenu01.type08"})
#print(melon_soup_list)

melon_soup = melon_soup.select("#conts > div.wrap_tabmenu01.type08")
melon_genre = melon_soup[0].find_all("li")

for i, j in zip(melon_genre,range(len(melon_genre))):
  print(j+1, i.text)


genre_input = input("장르를 선택하세요 : ")

melon_url = f"https://www.melon.com/genre/song_list.htm?gnrCode=GN0{genre_input}00"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"}
raw = requests.get(melon_url, headers = header)
melon_soup = BeautifulSoup(raw.text, "html.parser")

melon_tbody = melon_soup.find("tbody")
title = melon_tbody.find_all("div", {"class":"ellipsis rank01"})
singer = melon_tbody.find_all("span",{"class":"checkEllipsis"})
for i,j in zip (title, singer):
  title = i.text
  title = title.replace("\n","")
  singer = j.text
  print(title, singer)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
df

1 발라드
2 댄스
3 랩/힙합
4 R&B/Soul
5 인디음악
6 록/메탈
7 트로트
8 포크/블루스
장르를 선택하세요 :  4
이브닝 (Feat. BIG Naughty) 유주 (YUJU)
Let's Take a Walk 정바스, PERC%NT
Take this waltz 오안, 성담
Beat of My Heart Elodie Wave
CHANCE 최수환 (Choi suhwan)
다 알아요 클래디 (ClaD)
coverin’ MADDY (매디)
Hockney Summer 권소만
Dancing in the moonlight Anna (안나)
Airplane (feat.윤서원) Remo
Vinyl house Peak eqwa
Sunday Morning 마누
곰팡이 이아론
무하루 (Feat. Somm) SOFI
Polaroid Madeby
Light the way Mugg (머그)
여름밤 (Flowery Night) 이섬
어설픈 사이 연후
서수진 강재영
퇴근할 때 듣는 노래 WE ARE THE FUTURE (위아더퓨처)
달은 밝고 밝은데 리밋 (Limit)
Wave (Song By Joyce Yoo) KozyPop
산책 (Feat. 하루 (HARU)) 새벽, Mainvow
Summer Dream (feat. 지은 (ZIEUN)) 서교동의 밤
Don't wake up (feat. muhpy, Horim) Neulbo
Never know JERO
이 순간 JEMINN
This Dawn 안이 (Ahny)
Into You 서인범
DAWN 첼로 (Chello)
It must be Love (Feat. 문예린) 영원
이제 그만 이상훈
Leave it There 콜리 (Collie)
27 캔버스 (feat. a 9uy) 바일린하우스(VYLYNN HOUSE)
치즈 piyanie (피얀이)
RIDE! HEEE
소음 루나틱퍼플
Just A Dancer 선예
be free 규빈 (OnlyOneOf)
안녕 (Prod. DASU) Earn
Love? Love! 하이빈 (HiBin)
Si

  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "singer": singer}, ignore_index = True)
  df = df.append({"title": title, "sin

Unnamed: 0,title,singer
0,이브닝 (Feat. BIG Naughty),유주 (YUJU)
1,Let's Take a Walk,"정바스, PERC%NT"
2,Take this waltz,"오안, 성담"
3,Beat of My Heart,Elodie Wave
4,CHANCE,최수환 (Choi suhwan)
5,다 알아요,클래디 (ClaD)
6,coverin’,MADDY (매디)
7,Hockney Summer,권소만
8,Dancing in the moonlight,Anna (안나)
9,Airplane (feat.윤서원),Remo


In [None]:
pip uninstall jupyterlab-git