## 웹 크롤링(Web Crwaling)
- 사용자가 웹에서 데이터를 수집하는 행위를 컴퓨터를 통해서 자동화 시키는 기술
- 파이썬 언어의 request 라이브러리를 통해서 브라우저에 접근하여 데이터를 요청, 응답 받을 수 있음
  

In [7]:
# 프로세스
# 1. 정보를 가져올 사이트를 로드 (요청 후 응답)
# 2. HTML태그와 CSS선택지를 활용하여 원하는 정보의 위치에 접근
# 3. 원하는 정보를 가져올 수 있는 파이썬 코드작성 후 실행

### Request 라이브러리
- 파이썬으로 접근할 웹페이지의 HTML 요소들을 요청/ 응받받을 때 사용되는 라이브러리
- 요청하고 응답을 받으면 역할이 끝나며 브라우저의 역할을 대신한다고 볼 수 있음

In [8]:
import requests as req

### 파이썬으로 구글 사이트와 통신

In [9]:
# get : 웹상에서 가져올 정보를 요청하는 함수(매개변수로 웹사이트의 url을 풀로 입력)
res_google = req.get("https://www.google.com/")

# 웹 브라우저에서는 http를 쓰지 않아도 동작했지만 코드로 접근시에는 모든 url을 정확하게 작성해야함.

# https : http 의 보안 업그레이드 버전의 통신규약

In [10]:
res_google = req.get("https://www.google.com/")
res_google

# Response [200] : 데이터 통신에 성공했다는 의미(그러나 내용물은 사이트의 보안에 따라서 모두 전달되지 않을 수도 있음)
# 400번대 메시지 : 문제 발생(클라이언트의 요청 문제)
# 500번대 메시지 : 문제 발생(서버의 응답 문제)

<Response [200]>

In [11]:
# 구글 사이트의 첫 페이지 HTML 코드를 텍스트로 불러오기
res_google.text

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="mAD4mvrjM-PSl5yDX93OLA">(function(){var _g={kEI:\'dmlsaOHmLueN2roPkqzD8AQ\',kEXPI:\'0,18167,184625,25,37,2,3497435,1093,302126,236535,48791,30022,16105,344796,51386,238658,15671,5214610,11400,463,5991615,30820565,25228681,138268,7146,6971,22910,42258,6750,23878,9139,4600,328,6225,1117,53072,9976,15049,8212,871,6551,30376,12505,2,15832,52948,1259,352,18880,8967,759,3858,5773,6375,15269,5968,16524,3254,8,2989,35,3420,5355,2,8126,2449,9659,5683,3604,11410,6362,6207,2954,5649,3821,280,369,678,3547,3,4801,1932,486,1,3857,1754,4834,1,2602,861,2,1590,4,1,2,2,2,1457,4,1617,763,728,1032,655,923,4377,1464,1493,2,233,3,1519,6,1754,422,305,5,632,761,533,401,691,935,1711,101,2,4,1,321,1822,1612,1668,667,34,1318,5,983,7

#### 멜론 사이트의 페이지 정보 요청

In [12]:
req.get("https://www.melon.com/")

<Response [406]>

In [13]:
# 웹 브라우저의 인증인 User-Agent 설정
U_A = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36"}

In [14]:
# 멜론 메인 페이지에 대한 요청에 따른 응답을 res 변수에 저장
res = req.get("https://www.melon.com/", headers=U_A)
res

<Response [200]>

In [15]:
# 응답 내에서 HTML코드를 텍스트로 출력
res.text
# 해당 코드는 개발자도구 Elements 탭에 있는 코드와 동일한 코드!

'<!DOCTYPE html>\n<html lang="ko">\n<head>\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t\r\n\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\r\n\t<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />\r\n\r\n\t\r\n\r\n\t\r\n\r\n\t<title>Melon::음악이 필요한 순간, 멜론</title>\r\n\t<meta name="keywords" content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" />\r\n\t<meta name="description" content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" />\r\n\t<meta name="naver-site-verification" content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" />\r\n\t<meta name="google-site-verification" content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" />\r\n\t<meta property="fb:app_id" content="4022717807957185"/>\r\n\t<meta property="og:title" content="Melon"/>\r\n\t<meta property="og:image" content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png"/>\r\n\t<meta property="og:description" content="음악이

#### 구글 사이트의 상단 문자 추출하기
- 컴퓨터에게 HTML 태그 및 CSS 선택자 정보를 알려줘서 해당 태그에 맞는 문자들을 가져오게 해야함

In [16]:
res_google = req.get("https://www.google.com/", headers= U_A)
res_google.text

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta charset="UTF-8"><meta content="origin" name="referrer"><link href="//www.gstatic.com/images/branding/searchlogo/ico/favicon.ico" rel="icon"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="-NI35Dk9QrhF39ETFG8UMQ">window._hst=Date.now();</script><script nonce="-NI35Dk9QrhF39ETFG8UMQ">(function(){var _g={kEI:\'d2lsaJrgCOWNseMPlYrqgQI\',kEXPI:\'31\',kBL:\'-SZd\',kOPI:89978449};(function(){var a;((a=window.google)==null?0:a.stvsc)?google.kEI=_g.kEI:window.google=_g;}).call(this);})();(function(){google.sn=\'webhp\';google.kHL=\'ko\';})();(function(){\nvar g=this||self;function k(){return window.google&&window.google.kOPI||null};var l,m=[];function n(a){for(var b;a&&(!a.getAttribute||!(b=a.getAttribute("eid")));)a=a.parentNode;return b||l}function p(a){for(var b=null;a&&(!a.getAttribute||!(b=a.getAttribute("leid")));)a

#### 가져온 텍스트 코드를 컴퓨터가 이해할 수 있는 HTML 언어로 변형
- BeautifulSoup 라이브러리 사용

In [17]:
# pip는 파이썬 라이브러리들을 담고 있는 공간이며 !pip install 명령을 통해 특정 라이브러리를 설치할 수 있음
!pip install bs4



In [18]:
# BeautifulSoup은 통신이 끝난 정적 컨텐츠만 가져올 수 있음(추후 동적 컨텐츠에도 접근할 수 있는 selenium도 배울 예정!)
from bs4 import BeautifulSoup as bs

In [19]:
# lxml : 파이썬에서 사용되는 parser(웹 페이지 문서를 읽고 해석하여 내용을 분리해주는 역할)의 일종
bs(res_google.text, "lxml")

# HTML코드를 텍스트로 불러왔으니 이를 파이썬에서 활용할 수 있도록 코드로 다시 변환하는 것. (이를 bs객체화 라고 부름)

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta charset="utf-8"/><meta content="origin" name="referrer"/><link href="//www.gstatic.com/images/branding/searchlogo/ico/favicon.ico" rel="icon"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Google</title><script nonce="-NI35Dk9QrhF39ETFG8UMQ">window._hst=Date.now();</script><script nonce="-NI35Dk9QrhF39ETFG8UMQ">(function(){var _g={kEI:'d2lsaJrgCOWNseMPlYrqgQI',kEXPI:'31',kBL:'-SZd',kOPI:89978449};(function(){var a;((a=window.google)==null?0:a.stvsc)?google.kEI=_g.kEI:window.google=_g;}).call(this);})();(function(){google.sn='webhp';google.kHL='ko';})();(function(){
var g=this||self;function k(){return window.google&&window.google.kOPI||null};var l,m=[];function n(a){for(var b;a&&(!a.getAttribute||!(b=a.getAttribute("eid")));)a=a.parentNode;return b||l}function p(a){for(var b=null;a&&(!a.getAttribute||!(b=a.getAttribute("leid")));)a=a.pare

In [20]:
soup = bs(res_google.text, "lxml")

In [21]:
print(type(res_google.text))    # 문자열
print(type(soup))               # bs 객체

<class 'str'>
<class 'bs4.BeautifulSoup'>


#### 가져오고 싶은 요소 선택하기
- 요소 위를 우클릭하여 '검사'를 클릭
- 개발자도구(F12)를 눌러서 화살표로 요소 선택

In [22]:
# select : 필요한 요소를 검색해서 수집하는 명령(태그 및 선택자를 작성)
soup.select("a")
# 현재는 구글 메인페이지에서 a 태그가 들어가는 요소를 전부 가져온 상태

[<a class="MV3Tnb" href="https://about.google/?fg=1&amp;utm_source=google-KR&amp;utm_medium=referral&amp;utm_campaign=hp-header" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://about.google/%3Ffg%3D1%26utm_source%3Dgoogle-KR%26utm_medium%3Dreferral%26utm_campaign%3Dhp-header&amp;ved=0ahUKEwja95jig6yOAxXlRmwGHRWFOiAQkNQCCAI&amp;opi=89978449">Google 정보</a>,
 <a class="MV3Tnb" href="https://store.google.com/KR?utm_source=hp_header&amp;utm_medium=google_ooo&amp;utm_campaign=GS100042&amp;hl=ko-KR" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://store.google.com/KR%3Futm_source%3Dhp_header%26utm_medium%3Dgoogle_ooo%26utm_campaign%3DGS100042%26hl%3Dko-KR&amp;ved=0ahUKEwja95jig6yOAxXlRmwGHRWFOiAQpMwCCAM&amp;opi=89978449">스토어</a>,
 <a aria-label="Gmail " class="gb_X" data-pid="23" href="https://mail.google.com/mail/&amp;ogbl" target="_top">Gmail</a>,
 <a aria-label="이미지 검색 " class="gb_X" data-pid="2" href="https://www.google.com/imghp?hl=ko&amp;ogbl" target="_top">이미지</a>,

In [23]:
soup.select("a.MV3Tnb")
# select로 a태그의 MV3Tnb클래스를 가진 값을 리스트로 출력(현재는 총 2개)

[<a class="MV3Tnb" href="https://about.google/?fg=1&amp;utm_source=google-KR&amp;utm_medium=referral&amp;utm_campaign=hp-header" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://about.google/%3Ffg%3D1%26utm_source%3Dgoogle-KR%26utm_medium%3Dreferral%26utm_campaign%3Dhp-header&amp;ved=0ahUKEwja95jig6yOAxXlRmwGHRWFOiAQkNQCCAI&amp;opi=89978449">Google 정보</a>,
 <a class="MV3Tnb" href="https://store.google.com/KR?utm_source=hp_header&amp;utm_medium=google_ooo&amp;utm_campaign=GS100042&amp;hl=ko-KR" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://store.google.com/KR%3Futm_source%3Dhp_header%26utm_medium%3Dgoogle_ooo%26utm_campaign%3DGS100042%26hl%3Dko-KR&amp;ved=0ahUKEwja95jig6yOAxXlRmwGHRWFOiAQpMwCCAM&amp;opi=89978449">스토어</a>]

In [24]:
# select_one : 수집한 데이터 중에서 첫번째 데이터만 접근
soup.select_one("a.MV3Tnb")

<a class="MV3Tnb" href="https://about.google/?fg=1&amp;utm_source=google-KR&amp;utm_medium=referral&amp;utm_campaign=hp-header" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://about.google/%3Ffg%3D1%26utm_source%3Dgoogle-KR%26utm_medium%3Dreferral%26utm_campaign%3Dhp-header&amp;ved=0ahUKEwja95jig6yOAxXlRmwGHRWFOiAQkNQCCAI&amp;opi=89978449">Google 정보</a>

In [25]:
# [0] : 수집한 데이터 중에서 첫번째 데이터만 접근  ~~~~~~~~>> 위에랑 똑같이 나옴. 벗 위에가 더 빠름.
soup.select("a.MV3Tnb")[0]

<a class="MV3Tnb" href="https://about.google/?fg=1&amp;utm_source=google-KR&amp;utm_medium=referral&amp;utm_campaign=hp-header" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://about.google/%3Ffg%3D1%26utm_source%3Dgoogle-KR%26utm_medium%3Dreferral%26utm_campaign%3Dhp-header&amp;ved=0ahUKEwja95jig6yOAxXlRmwGHRWFOiAQkNQCCAI&amp;opi=89978449">Google 정보</a>

In [26]:
txt = soup.select("a.MV3Tnb")

In [27]:
# 0번 인덱스의 실제 텍스트만 출력(bs객체화를 시켜뒀기 때문에 .test 명령을 사용할 수 있음!)
txt[0].text

'Google 정보'

In [28]:
# txt에 포함되는 text 모두 출력하라
for i in txt :
    print(i.text)

Google 정보
스토어


- 즉 크롤링은 웹 개발자가 개발해둔 '사이트의 스타일', '페이지 구성', '태그', '클래스', '아이디' 등을 잘 이해하고 찾아서 원하는 데이터만 수집하게 하는 자동화 코드를 만드는 것이 목표!

### 멜론 사이트 상단 문자값들 가져오기
- 멜론티켓, 이용권구매, 멜론혜택, 이벤트, 공지사항 까지 총 5개를 한줄씩 개행으로 출력
- 코드만 타이핑하지 말고, 그 순서와 코드를 설명해주는 주석도 달면서 해볼 것!

In [29]:
res_mel = req.get("https://www.melon.com/",  headers=U_A)
res_mel

<Response [200]>

In [30]:
soup_mel=bs(res_mel.text, "lxml")

In [31]:
soup_mel.select("span")              #공통된 태그 span을 뽑아냄.

[<span>멜론티켓</span>,
 <span>이용권구매</span>,
 <span>멜론혜택</span>,
 <span>이벤트</span>,
 <span>공지사항</span>,
 <span class="screen-out">Melon</span>,
 <span class="odd_span">자동검색 펼침</span>,
 <span class="odd_span">검색</span>,
 <span class="thumb_40">
 <span class="thumb_frame"></span>
 <img alt="" class="autocomplete-img" height="40" width="40"/>
 </span>,
 <span class="thumb_frame"></span>,
 <span class="autocomplete-label"></span>,
 <span><span class="f11 autocomplete-info"></span></span>,
 <span class="f11 autocomplete-info"></span>,
 <span>해당글자로 시작하는 단어가 없습니다.</span>,
 <span class="cur_status none">현재 선택된 메뉴-</span>,
 <span class="menu_bg menu01">멜론차트</span>,
 <span class="cur_status none">현재 선택된 메뉴-</span>,
 <span class="menu_bg menu02">최신음악</span>,
 <span class="cur_status none">현재 선택된 메뉴-</span>,
 <span class="menu_bg menu03">장르음악</span>,
 <span class="cur_status none">현재 선택된 메뉴-</span>,
 <span class="menu_bg menu04">멜론DJ</span>,
 <span class="cur_status none">현재 선택된 메뉴-</span>,
 <span cla

In [32]:
html_mel = soup_mel.select("span")

In [33]:
html_mel[0]

<span>멜론티켓</span>

In [34]:
html_mel[0].text

'멜론티켓'

In [35]:
for i in range(5) :
    print(html_mel[i].text)

멜론티켓
이용권구매
멜론혜택
이벤트
공지사항


### 네이버 뉴스 기사 제목 가져오기
- 검색어는 본인이 원하는 검색어로 진행

In [36]:
url = "https://search.naver.com/search.naver?sm=tab_hty.top&where=news&ssc=tab.news.all&query=%EC%BC%80%EC%9D%B4%ED%8C%9D%EB%8D%B0%EB%AA%AC%ED%97%8C%ED%84%B0%EC%A6%88&oquery=%EC%BC%80%EC%9D%B4%ED%8C%9D%EB%8D%B0%EB%AA%AC%ED%97%8C%ED%84%B0%EC%A6%88&tqi=jbWCpdqpts0ssFeVsBlssssssuR-336803&ackey=c0pkujne"
res_news = req.get(url, headers=U_A)
res_news

<Response [200]>

In [37]:
soup_news = bs(res_news.text, "lxml")

In [38]:
soup_news.select("span.sds-comps-text.sds-comps-text-ellipsis.sds-comps-text-ellipsis-1.sds-comps-text-type-headline1")

# span 태그와 클래스명을 썼는데도 안뽑혔던 이유는 클래스 명칭이 여러개(중간에 공백이 있는 경우)있을 때는 '.'으로 이오어 붙여줘야하기 때문

[<span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1"><mark>케이팝데몬</mark>헌터스 '골든', 영화 시상식 주제가상 노린다</span>,
 <span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1">헌트릭스 ‘오스카’ 노리고 사자보이즈 BTS 앞서고…‘케데헌’ OST 파...</span>,
 <span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1">성신여대 서경덕 교수, 넷플릭스 영화 '<mark>케이팝 데몬</mark> 헌터스' 글로벌 1위...</span>,
 <span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1">넷플릭스 영화 '<mark>케이팝 데몬</mark> 헌터스' "아덴 조, 안효섭, 켄 정, 이병헌 ...</span>,
 <span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1">"소니, K팝 걸그룹 주인공 애니 '<mark>데몬</mark> 헌터스' 만든다"</span>,
 <span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1">음악·애니 때려잡는 여성 <mark>케이팝</mark>…'세계로 뻗는다'</span>,
 

In [39]:
articles = soup_news.select("span.sds-comps-text.sds-comps-text-ellipsis.sds-comps-text-ellipsis-1.sds-comps-text-type-headline1") 

In [40]:
for i in articles :
    print(i.text)

케이팝데몬헌터스 '골든', 영화 시상식 주제가상 노린다
헌트릭스 ‘오스카’ 노리고 사자보이즈 BTS 앞서고…‘케데헌’ OST 파...
성신여대 서경덕 교수, 넷플릭스 영화 '케이팝 데몬 헌터스' 글로벌 1위...
넷플릭스 영화 '케이팝 데몬 헌터스' "아덴 조, 안효섭, 켄 정, 이병헌 ...
"소니, K팝 걸그룹 주인공 애니 '데몬 헌터스' 만든다"
음악·애니 때려잡는 여성 케이팝…'세계로 뻗는다'
"소니, K-팝 걸그룹 주인공 애니메이션 만든다"


### 멜론 차트 Top100의 타이틀과 아티스트명 크롤링 하기
- 타이틀(노래제목), 가수명을 beautifulsoup을 사용해서 수집
- for문으로 접근
- pandas의 DataFrame으로 만들기
- 저장한 파일 내보내기

In [41]:
res = req.get("https://www.melon.com/chart/index.htm", headers=U_A)
res

<Response [200]>

In [42]:
soup= bs(res.text, "lxml")

- 노래제목 : titles
- 가수명 : artists

In [43]:
soup.select("a")
# a태그로는 우리가 원하지 않는 정보들이 너무 많이 가져와짐.(조금 더 태그와 선택자로 범위를 좁혀야함!)

[<a href="#gnb_menu">메뉴</a>,
 <a href="#conts_section">본문</a>,
 <a href="#footer">하단 정보</a>,
 <a class="mlog" data="LOG_PRT_CODE=1&amp;MENU_PRT_CODE=0&amp;MENU_ID_LV1=&amp;CLICK_AREA_PRT_CODE=V08&amp;ACTION_AF_CLICK=V1" href="//ticket.melon.com/main/index.htm" title="멜론티켓"><span>멜론티켓</span></a>,
 <a class="mlog" data="LOG_PRT_CODE=1&amp;MENU_PRT_CODE=0&amp;MENU_ID_LV1=&amp;CLICK_AREA_PRT_CODE=B01&amp;ACTION_AF_CLICK=V1" href="/commerce/pamphlet/web/sale_listMainView.htm" title="이용권구매"><span>이용권구매</span></a>,
 <a class="mlog" data="LOG_PRT_CODE=1&amp;MENU_PRT_CODE=0&amp;MENU_ID_LV1=&amp;CLICK_AREA_PRT_CODE=V06&amp;ACTION_AF_CLICK=V1" href="//www.melon.com/benefit/lounge/main.htm" title="멜론혜택"><span>멜론혜택</span></a>,
 <a class="mlog" data="LOG_PRT_CODE=1&amp;MENU_PRT_CODE=0&amp;MENU_ID_LV1=&amp;CLICK_AREA_PRT_CODE=B03&amp;ACTION_AF_CLICK=V1" href="/event/list.htm" title="이벤트"><span>이벤트</span></a>,
 <a class="mlog" data="LOG_PRT_CODE=1&amp;MENU_PRT_CODE=0&amp;MENU_ID_LV1=&amp;CLICK_AREA_PR

In [44]:
# 부모 - 자식 태그는 '>' 로 표기함
soup.select("span > a")

# a 태그의 부모인 span태그로도 범위가 너무 넓게 수집됨(더 위의 부모까지 올라가보자!)

[<a href="javascript:melon.play.playSong('1000002721',39156202);" title="FAMOUS 재생">FAMOUS</a>,
 <a href="javascript:melon.link.goArtistDetail('4346804');" title="ALLDAY PROJECT - 페이지 이동">ALLDAY PROJECT</a>,
 <a href="javascript:melon.play.playSong('1000002721',39121279);" title="Dirty Work 재생">Dirty Work</a>,
 <a href="javascript:melon.link.goArtistDetail('2899555');" title="aespa - 페이지 이동">aespa</a>,
 <a href="javascript:melon.play.playSong('1000002721',36397952);" title="Drowning 재생">Drowning</a>,
 <a href="javascript:melon.link.goArtistDetail('2086047');" title="WOODZ - 페이지 이동">WOODZ</a>,
 <a href="javascript:melon.play.playSong('1000002721',38626852);" title="너에게 닿기를 재생">너에게 닿기를</a>,
 <a href="javascript:melon.link.goArtistDetail('468244');" title="10CM - 페이지 이동">10CM</a>,
 <a href="javascript:melon.play.playSong('1000002721',38388023);" title="시작의 아이 재생">시작의 아이</a>,
 <a href="javascript:melon.link.goArtistDetail('566431');" title="마크툽 (MAKTUB) - 페이지 이동">마크툽 (MAKTUB)</a>,
 <a href

In [45]:
# 타이틀(노래 제목) 수집
soup.select("div.ellipsis.rank01> span > a")

[<a href="javascript:melon.play.playSong('1000002721',39156202);" title="FAMOUS 재생">FAMOUS</a>,
 <a href="javascript:melon.play.playSong('1000002721',39121279);" title="Dirty Work 재생">Dirty Work</a>,
 <a href="javascript:melon.play.playSong('1000002721',36397952);" title="Drowning 재생">Drowning</a>,
 <a href="javascript:melon.play.playSong('1000002721',38626852);" title="너에게 닿기를 재생">너에게 닿기를</a>,
 <a href="javascript:melon.play.playSong('1000002721',38388023);" title="시작의 아이 재생">시작의 아이</a>,
 <a href="javascript:melon.play.playSong('1000002721',39166708);" title="Golden 재생">Golden</a>,
 <a href="javascript:melon.play.playSong('1000002721',38733032);" title="어제보다 슬픈 오늘 재생">어제보다 슬픈 오늘</a>,
 <a href="javascript:melon.play.playSong('1000002721',38429074);" title="모르시나요(PROD.로코베리) 재생">모르시나요(PROD.로코베리)</a>,
 <a href="javascript:melon.play.playSong('1000002721',38629386);" title="like JENNIE 재생">like JENNIE</a>,
 <a href="javascript:melon.play.playSong('1000002721',39180051);" title="WICKED 재생">

In [46]:
titles = soup.select("div.ellipsis.rank01> span > a")

In [47]:
titles[0].text

'FAMOUS'

In [48]:
len(titles)

100

In [49]:
for i in titles :
    print(i.text)

FAMOUS
Dirty Work
Drowning
너에게 닿기를
시작의 아이
Golden
어제보다 슬픈 오늘
모르시나요(PROD.로코베리)
like JENNIE
WICKED
Soda Pop
Whiplash
Never Ending Story
HOME SWEET HOME (feat. 태양, 대성)
청춘만화
눈물참기
HANDS UP
TOO BAD (feat. Anderson .Paak)
나는 반딧불
HAPPY
오늘만 I LOVE YOU
APT.
LIKE YOU BETTER
REBEL HEART
한 페이지가 될 수 있게
빌려온 고양이 (Do the Dance)
Flower
Your Idol
네모의 꿈
THUNDER
소나기
Supernova
MY LOVE(2025)
천상연
Welcome to the Show
내게 사랑이 뭐냐고 물어본다면
HOT
Die With A Smile
toxic till the end
STYLE
Pookie
예뻤어
내 이름 맑음
어떻게 이별까지 사랑하겠어, 널 사랑하는 거지
고민중독
ATTITUDE
그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))
DRIP
UP (KARINA Solo)
청혼하지 않을 이유를 못 찾았어
Supersonic
첫 만남은 계획대로 되지 않아
I DO ME
사랑은 늘 도망가
미치게 그리워서
PO￦ER
Love wins all
그날이 오면
에피소드
주저하는 연인들을 위해
123-78
Magnetic
슬픈 초대장
How Sweet
나는 아픈 건 딱 질색이니까
Seven (feat. Latto) - Clean Ver.
I AM
여름이었다
Sticky
너의 모든 순간
Hype Boy
Fly Up
비의 랩소디
다정히 내 이름을 부르면
사랑인가 봐
모든 날, 모든 순간 (Every day, Every Moment)
How It’s Done
SING ALONG!
천국보다 아름다운
영원해
우리들의 블루스
봄날
헤어지자 말해요
The Chase
TAKE ME
인사
Small girl (feat. 도경수(D.O.)

- 내가 수집하고자 하는 요소가 구분자(id, class)가 없는 경우
  - 그 요소를 포함하고 있는 바로 위 부모선택자 까지 접근
  - 부모선택자 또한 구분자가 없는 경우 구분자가 있는 부모까지 거슬러 올라가는 것이 원하는 데이터에 접근하기 수월함

In [50]:
# 가수명 수집
soup.select("div.ellipsis.rank02> span > a")

[<a href="javascript:melon.link.goArtistDetail('4346804');" title="ALLDAY PROJECT - 페이지 이동">ALLDAY PROJECT</a>,
 <a href="javascript:melon.link.goArtistDetail('2899555');" title="aespa - 페이지 이동">aespa</a>,
 <a href="javascript:melon.link.goArtistDetail('2086047');" title="WOODZ - 페이지 이동">WOODZ</a>,
 <a href="javascript:melon.link.goArtistDetail('468244');" title="10CM - 페이지 이동">10CM</a>,
 <a href="javascript:melon.link.goArtistDetail('566431');" title="마크툽 (MAKTUB) - 페이지 이동">마크툽 (MAKTUB)</a>,
 <a href="javascript:melon.link.goArtistDetail('4348386');" title="HUNTR/X - 페이지 이동">HUNTR/X</a>,
 <a href="javascript:melon.link.goArtistDetail('1458723');" title="EJAE - 페이지 이동">EJAE</a>,
 <a href="javascript:melon.link.goArtistDetail('2736606');" title="AUDREY NUNA - 페이지 이동">AUDREY NUNA</a>,
 <a href="javascript:melon.link.goArtistDetail('2742895');" title="REI AMI - 페이지 이동">REI AMI</a>,
 <a href="javascript:melon.link.goArtistDetail('4348387');" title="KPop Demon Hunters Cast - 페이지 이동">KPop De

In [51]:
artists = soup.select("div.ellipsis.rank02 > a")

In [52]:
artists[0].text

'ALLDAY PROJECT'

In [53]:
for i in artists :
    print(i.text)

ALLDAY PROJECT
aespa
WOODZ
10CM
마크툽 (MAKTUB)
HUNTR/X
EJAE
AUDREY NUNA
REI AMI
KPop Demon Hunters Cast
우디 (Woody)
조째즈
제니 (JENNIE)
ALLDAY PROJECT
KPop Demon Hunters Cast
Danny Chung
Saja Boys
Andrew Choi
Neckwav
Kevin Woo
samUIL Lee
aespa
아이유
G-DRAGON
이무진
QWER
MEOVV (미야오)
G-DRAGON
황가람
DAY6 (데이식스)
BOYNEXTDOOR
로제 (ROSÉ)
Bruno Mars
프로미스나인
IVE (아이브)
DAY6 (데이식스)
아일릿(ILLIT)
오반(OVAN)
KPop Demon Hunters Cast
대니 정
Saja Boys
Andrew Choi
Neckwav
Kevin Woo
samUIL Lee
아이유
세븐틴 (SEVENTEEN)
이클립스 (ECLIPSE)
aespa
이예은
아샤트리
전건호
이창섭
DAY6 (데이식스)
로이킴
LE SSERAFIM (르세라핌)
Lady Gaga
Bruno Mars
로제 (ROSÉ)
Hearts2Hearts (하츠투하츠)
FIFTY FIFTY
DAY6 (데이식스)
QWER
AKMU (악뮤)
QWER
IVE (아이브)
너드커넥션 (Nerd Connection)
BABYMONSTER
aespa
이무진
프로미스나인
TWS (투어스)
KiiiKiii (키키)
임영웅
황가람
G-DRAGON
아이유
투모로우바이투게더
이무진
잔나비
BOYNEXTDOOR
아일릿(ILLIT)
순순희(지환)
NewJeans
i-dle (아이들)
정국
IVE (아이브)
H1-KEY (하이키)
KISS OF LIFE
성시경
NewJeans
RIIZE
임재현
경서예지
전건호
멜로망스
폴킴
HUNTR/X
EJAE
AUDREY NUNA
REI AMI
KPop Demon Hunters Cast
도경수(D.O.)
임영웅
도경수(D.O.)
임영웅
방탄소년단
박재정


In [54]:
len(artists)
# 아티스트의 경우 하나의 노래에 여러명의 아티스트가 부른 곡들이 있어서 각각의 아티스트를 모두 개별 카운팅 하고 있는 상태

125

In [55]:
# div 태그에 allipsis.rank02 클래스 아래에 a 태그(가수명)가 여러개 들어있는 곡들이 있었음
# 위 코드는 각각의 a태그에 접근하는 코드였기 때문에 개별로 카운팅을 했다면, 우리가 원하는 건 한 곡당 아티스트 한팀이
# 매칭되기를 바라기 때문에 여러개의 a태그를 묶어주는 div.ellipsis.rank02로 카운팅을 해주면 100개로 맞춰짐.
artists = soup.select("div.ellipsis.rank02")
len(artists)

100

In [56]:
# 위에처럼 그냥 가져오면 이름 두개씩 배열 되니까 span으로 한 번 더 좁힘.
artists = soup.select("div.ellipsis.rank02 > span")
for i in artists :
    print(i.text)

ALLDAY PROJECT
aespa
WOODZ
10CM
마크툽 (MAKTUB)
HUNTR/X, EJAE, AUDREY NUNA, REI AMI, KPop Demon Hunters Cast
우디 (Woody)
조째즈
제니 (JENNIE)
ALLDAY PROJECT
KPop Demon Hunters Cast, Danny Chung, Saja Boys, Andrew Choi, Neckwav, Kevin Woo, samUIL Lee
aespa
아이유
G-DRAGON
이무진
QWER
MEOVV (미야오)
G-DRAGON
황가람
DAY6 (데이식스)
BOYNEXTDOOR
로제 (ROSÉ), Bruno Mars
프로미스나인
IVE (아이브)
DAY6 (데이식스)
아일릿(ILLIT)
오반(OVAN)
KPop Demon Hunters Cast, 대니 정, Saja Boys, Andrew Choi, Neckwav, Kevin Woo, samUIL Lee
아이유
세븐틴 (SEVENTEEN)
이클립스 (ECLIPSE)
aespa
이예은, 아샤트리, 전건호
이창섭
DAY6 (데이식스)
로이킴
LE SSERAFIM (르세라핌)
Lady Gaga, Bruno Mars
로제 (ROSÉ)
Hearts2Hearts (하츠투하츠)
FIFTY FIFTY
DAY6 (데이식스)
QWER
AKMU (악뮤)
QWER
IVE (아이브)
너드커넥션 (Nerd Connection)
BABYMONSTER
aespa
이무진
프로미스나인
TWS (투어스)
KiiiKiii (키키)
임영웅
황가람
G-DRAGON
아이유
투모로우바이투게더
이무진
잔나비
BOYNEXTDOOR
아일릿(ILLIT)
순순희(지환)
NewJeans
i-dle (아이들)
정국
IVE (아이브)
H1-KEY (하이키)
KISS OF LIFE
성시경
NewJeans
RIIZE
임재현
경서예지, 전건호
멜로망스
폴킴
HUNTR/X, EJAE, AUDREY NUNA, REI AMI, KPop Demon Hunters Cast
도경수(D.O.)
임영웅

In [57]:
len(artists)

100

### 수집한 데이터 정체 !!!!!! <어려움 복습>
- 요소들 중 순수한 텍스트만 추출해서 리스트로 만들기

In [58]:
print(type(titles))
print(type(artists))

# 자료형을 파악해보니 리스트인줄 알았던 두 변수가 bs에서 지원하는 ResultSet의 형태로 동작하고 있음
# pandas와의 호환 및 추가 활용성을 확장시키기 위해 list형태로 변환하여 저장하기

<class 'bs4.element.ResultSet'>
<class 'bs4.element.ResultSet'>


In [59]:
titles_list = []
artists_list = []

# 반복문으로 텍스트 추출 후, 리스트에 담아주기
for i in range(len(titles)) :    # titles나 artists 둘 중 어느거로 해도 상관없음(100개)
    titles_list.append(titles[i].text)   # titles에 있는 HTML 요소 중 i번째 요소의 텍스트만 추출해서 리스트에 넣기
    artists_list.append(artists[i].text)  # artists도 마찬가지

In [60]:
len(titles_list), len(artists_list)

(100, 100)

### DataFrame화 시키기

In [61]:
import pandas as pd

In [62]:
# DF에 넣어줄 딕셔너리 만들기(틱셔너리의 key는 컬럼명, value는 실제 데이터 값이 됨)
melon_dic = {"타이틀":titles_list, "아티스트": artists_list}

In [63]:
melon_df = pd.DataFrame(melon_dic, index= range(1,101))
melon_df.index.name = "순위"
melon_df

Unnamed: 0_level_0,타이틀,아티스트
순위,Unnamed: 1_level_1,Unnamed: 2_level_1
1,FAMOUS,ALLDAY PROJECT
2,Dirty Work,aespa
3,Drowning,WOODZ
4,너에게 닿기를,10CM
5,시작의 아이,마크툽 (MAKTUB)
...,...,...
96,이제 나만 믿어요,임영웅
97,Ditto,NewJeans
98,모래 알갱이,임영웅
99,너와의 모든 지금,재쓰비 (JAESSBEE)


In [64]:
# 파일로 추출하기
 # to_csv : DF를 csv파일로 내보내는 함수 (csv와 다른 확장자명으로도 저장가능하며 구분자를 다르게 지정해야 함)
 # utf-8 : 세계적인 인코딩 표준 타입
melon_df.to_csv('멜론차트 TOP100.csv', encoding='utf-8')

### [과제] 사람인 HOT100 신입 구인광고의 TOP10 기업 데이터를 수집해보자~!
- 공고명 : title
- 회사명 : company
- 지역 : region
- 경력사항 : career
- 학력 : education
- *총 5종의 데이터를 추출하여 DataFrame으로 출력해보세요.*

In [105]:
res = req.get("https://www.saramin.co.kr/zf_user/jobs/hot100", headers=U_A)
soup= bs(res.text, "lxml")             # 객체화

In [107]:
title = soup.select("a.str_tit > span")
title

[<span>[쿠팡] 사내 통번역사 (신입/경력)</span>,
 <span>기술직(생산직) 신입 채용</span>,
 <span>제주 드림타워 복합리조트 [카지노&amp;호텔] 대규모 신입/경력 공채</span>,
 <span>2025년 하반기 포스코스틸리온 신입사원 공개채용</span>,
 <span>2025년 6월 롯데이노베이트 신입사원 채용 일반전형</span>,
 <span>2025년 한국관광공사 일반직 신입사원 채용</span>,
 <span>[정규직]생산,조립,사무직,AS,서비스·생산부문 담당자 채용.</span>,
 <span>신입/경력 사원 모집</span>,
 <span>GS바이오 생산기술직 인턴 모집</span>,
 <span>현대오토에버 7월 경력채용 (전 부문)</span>,
 <span>[쿠팡] 이츠 영업사원 대규모 채용 (입사축하금 100만원)</span>]

In [116]:
company = soup.select("div.col.company_nm")
company

[<div class="col company_nm">
 <span class="str_tit">쿠팡(주)</span>
 <button aria-pressed="false" class="interested_corp" csn="RzBaRnNqKzJuWVdVeHNDLzlFVjcrQT09" del_fl="n" first_nudge="off" onclick="try{Saramin.btnJob('favor', this, '', 'list');}catch(e){}" title="관심기업 등록" type="button"><span>관심기업 등록</span></button> <span class="info_stock" title="대기업">대기업</span>
 </div>,
 <div class="col company_nm">
 <a class="str_tit" href="/zf_user/company-info/view-inner-recruit?csn=aXVSajN0M3FxSVlEb055UkFlTkdGQT09" target="_blank">
                             현대로템(주)                        </a>
 <button aria-pressed="false" class="interested_corp" csn="aXVSajN0M3FxSVlEb055UkFlTkdGQT09" del_fl="n" first_nudge="off" onclick="try{Saramin.btnJob('favor', this, '', 'list');}catch(e){}" title="관심기업 등록" type="button"><span>관심기업 등록</span></button> <span class="main_corp" title="현대자동차그룹">현대자동차그룹</span>
 <span class="info_stock" title="대기업">대기업</span>
 </div>,
 <div class="col company_nm">
 <a class="str_ti

In [119]:
# 한국관광공사나 코리아하이텍은 a태그가 아닌 span태그에 기업명 텍스트가 들어가 있고
# 다른 기업들은 span 태그에 다른 텍스트가 들어가 있어서 공통분모를 찾기가 어려움
# 따라서 조건문을 활용하여 각 요소별로 기업명이 들어있는 부분만 찾아서 크롤링을 하게 하는 코드를 작성하자!

company_names = []
for i in company :
    # company에 수집된 HTML요소 순서 상 a 태그가 먼저고 span 태그가 뒤에 나오기 때문에 a 태그가 있는지를 파악하는 조건문을 먼저 작성.
    if i.select('a') :   # a태그로 찾은 값이 있다면
        target = i.select_one('a')
    elif i.select('span') :
        target = i.select_one('span')
        
 # text 명령을 위해서 조건문 내부에 select_one으로 단일값만 반환(select로 찾은 다수의 값은 바로 text 명령사용 불가)
    company_names.append(target.text.strip())    # 공백 없애주는 명령문 strip()
company_names

['쿠팡(주)',
 '현대로템(주)',
 '(주)엘티엔터테인먼트',
 '포스코스틸리온(주)',
 '롯데이노베이트(주)',
 '한국관광공사',
 '코리아하이텍',
 '현대종합금속(주)',
 'GS바이오(주)',
 '현대오토에버(주)',
 '쿠팡(주)']

In [120]:
region = soup.select("p.work_place")
region

[<p class="work_place">서울 송파구</p>,
 <p class="work_place">경남 창원시 외</p>,
 <p class="work_place">제주 제주시 외</p>,
 <p class="work_place">경북 포항시 외</p>,
 <p class="work_place">서울 금천구 외</p>,
 <p class="work_place">강원 원주시</p>,
 <p class="work_place">경기 부천시 원미구 외</p>,
 <p class="work_place">서울 강남구 외</p>,
 <p class="work_place">전남 여수시</p>,
 <p class="work_place">전국</p>,
 <p class="work_place">전국 외</p>]

In [121]:
career = soup.select("p.career")
career

[<p class="career">경력무관 · 정규직</p>,
 <p class="career">신입 · 정규직</p>,
 <p class="career">신입 · 정규직 외</p>,
 <p class="career">신입 · 정규직 외</p>,
 <p class="career">신입 · 정규직</p>,
 <p class="career">신입 · 정규직</p>,
 <p class="career">경력무관 · 정규직</p>,
 <p class="career">신입 · 정규직</p>,
 <p class="career">경력무관 · 정규직 외</p>,
 <p class="career">신입 · 정규직</p>,
 <p class="career">경력무관 · 계약직</p>]

In [122]:
education = soup.select("p.education")
education

[<p class="education">석사↑</p>,
 <p class="education">고졸↑</p>,
 <p class="education">학력무관</p>,
 <p class="education">대학교(4년)↑</p>,
 <p class="education">대학교(4년)↑</p>,
 <p class="education">학력무관</p>,
 <p class="education">고졸↑</p>,
 <p class="education">대학교(4년)↑</p>,
 <p class="education">대학(2,3년)↑</p>,
 <p class="education">대학교(4년)↑</p>,
 <p class="education">고졸↑</p>]

In [123]:
print(len(title))
print(len(company_names))
print(len(region))
print(len(career))
print(len(education))

11
11
11
11
11


In [126]:
# 맨 첫번째 추천 기업에 대한 정보는 빼고 text 변환하여 각 데이터들을 리스트에 넣자.
title_list, region_list, career_list, education_list = [], [], [], []

for i in range(1, 11) :
    title_list.append(title[i].text)
    region_list.append(region[i].text)
    career_list.append(career[i].text)
    education_list.append(education[i].text)

print(len(title_list))
print(len(region_list))
print(len(career_list))
print(len(education_list))

10
10
10
10


In [127]:
saram_dic = {'공고제목': title_list, '회사명' : company_names[1:], '지역' : region_list, '경력사항': career_list, '학력': education_list }

saram_df = pd.DataFrame(saram_dic, index=range(1,11))
saram_df.index.name = '순위'
saram_df

Unnamed: 0_level_0,공고제목,회사명,지역,경력사항,학력
순위,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,기술직(생산직) 신입 채용,현대로템(주),경남 창원시 외,신입 · 정규직,고졸↑
2,제주 드림타워 복합리조트 [카지노&호텔] 대규모 신입/경력 공채,(주)엘티엔터테인먼트,제주 제주시 외,신입 · 정규직 외,학력무관
3,2025년 하반기 포스코스틸리온 신입사원 공개채용,포스코스틸리온(주),경북 포항시 외,신입 · 정규직 외,대학교(4년)↑
4,2025년 6월 롯데이노베이트 신입사원 채용 일반전형,롯데이노베이트(주),서울 금천구 외,신입 · 정규직,대학교(4년)↑
5,2025년 한국관광공사 일반직 신입사원 채용,한국관광공사,강원 원주시,신입 · 정규직,학력무관
6,"[정규직]생산,조립,사무직,AS,서비스·생산부문 담당자 채용.",코리아하이텍,경기 부천시 원미구 외,경력무관 · 정규직,고졸↑
7,신입/경력 사원 모집,현대종합금속(주),서울 강남구 외,신입 · 정규직,대학교(4년)↑
8,GS바이오 생산기술직 인턴 모집,GS바이오(주),전남 여수시,경력무관 · 정규직 외,"대학(2,3년)↑"
9,현대오토에버 7월 경력채용 (전 부문),현대오토에버(주),전국,신입 · 정규직,대학교(4년)↑
10,[쿠팡] 이츠 영업사원 대규모 채용 (입사축하금 100만원),쿠팡(주),전국 외,경력무관 · 계약직,고졸↑
