### 웹 크롤링(Web Crawling)
- 사용자가 웹에서 데이터를 수집하는 행위를 컴퓨터를 통해서 자동화 시키는 기술
- 웹 개발자가 개발해둔 사이트의 스타일, 페이지 구성, 태그, 클래스, 아이디 등을 잘 이해하고 찾아서 원하는 데이터만 수집하게 하는 자동화 코드를 만드는 것
- 파이썬 언어의 requests 라이브러리를 통해서 브라우저에 접근하여 데이터를 요청, 응답을 받을 수 있다.

#### process
1. 정보를 가져올 사이트 로드
2. HTML 태그와 CSS 선택자를 활용하여 원하는 정보에 접근
3. 원하는 정보를 가져올 수 있는 파이썬 코드 작성, 실행

#### requests 라이브러리
- 파이썬으로 접근할 웹페이지의 HTML 요소들을 요청/응답받을 때 사용됨.
- 요청하고 응답을 받으면 역할이 끝나며 브라우저의 역할을 대신한다고 볼 수 있다.

In [1]:
import requests as req
import pandas as pd

In [6]:
# 파이썬으로 구글 사이트와 통신
# get: 웹상에서 가져올 정보를 요청하는 함
res_google = req.get('https://google.com') # 반드시 https://를 써야함!!! 정확한 url를 적어야함.
# https: http의 보안 업그레이드 버전

In [8]:
res_google
# Response[200]: 데이터 통신에 성공했다는 의미(그러나 사이트의 내용은 보안상 모두 전달되지 않을 수 있음.)
# 400번대 메세지: 문제 발생(클라이언트의 요청 문제)
# 500번대 메세지: 문제 발생(서버의 응답 문제)

<Response [200]>

In [10]:
# html코드를 text로 다 불러오기
# 개발자도구 elements 탭에 있는 코드와 동일
res_google.text

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="C90raZrU5WCR_VxK3P9d6A">(function(){var _g={kEI:\'8VBraKLbMMri1e8PmMeSkAg\',kEXPI:\'0,18168,184624,62,2,610013,1284,2886097,1134,448528,90133,48791,30022,16105,344796,283629,6415,5230280,11402,1796191,30972742,4043709,25228681,117307,35078,8450,56715,6753,21349,2529,9139,4600,328,6225,64165,6747,8301,8213,891,6531,30376,28339,48282,5925,352,5010,2,4971,4673,4224,8970,4614,5773,13482,11479,2651,4719,11805,2808,446,8,2989,35,3420,2827,763,9894,6715,5392,3705,1978,3605,11409,6362,2975,6186,1727,7744,279,369,676,1211,2,1608,728,3,4811,935,3,985,485,1,3435,422,1753,3619,200,1016,1,2597,866,2,1558,4,1,2,2,2,1489,4,1130,7,480,1490,1033,1579,4505,6345,423,941,2386,676,1970,101,2,4,1,266,55,778,2657,1667,667,34,131

### 멜론 사이트의 페이지 정보 요청

In [13]:
req.get('https://www.melon.com/')
# 멜론은 구글보다 보안이 더 심함. 그래서 그냥 url로 접근하면 에러남.
# 우리가 브라우저로 접근하는 게 아니어서 그럼. 그렇다면 브라우저인 척을 해야함.

<Response [406]>

In [3]:
# 웹브라우저의 인증인 User-Agent 설정
# User-Agent 찾는 법: 개발자도구 -> 네트워크 -> f5 누르기 -> 맨 위에 www.melon.com 클릭 -> header 맨 밑에 있음.
U_A = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36"}

In [19]:
res_melon = req.get('https://www.melon.com/',headers=U_A)
res_melon
# success!

<Response [200]>

In [21]:
res_melon.text

'<!DOCTYPE html>\n<html lang="ko">\n<head>\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t\r\n\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\r\n\t<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />\r\n\r\n\t\r\n\r\n\t\r\n\r\n\t<title>Melon::음악이 필요한 순간, 멜론</title>\r\n\t<meta name="keywords" content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" />\r\n\t<meta name="description" content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" />\r\n\t<meta name="naver-site-verification" content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" />\r\n\t<meta name="google-site-verification" content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" />\r\n\t<meta property="fb:app_id" content="4022717807957185"/>\r\n\t<meta property="og:title" content="Melon"/>\r\n\t<meta property="og:image" content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png"/>\r\n\t<meta property="og:description" content="음악이

#### 구글 사이트의 상단 문자 추출하기
- 컴퓨터에게 HTML 태그 및 CSS 선택자 정보를 알려줘서 해당 태그에 맞는 문자들을 추출

In [24]:
res_google = req.get('https://google.com', headers=U_A)
res_google.text

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta charset="UTF-8"><meta content="origin" name="referrer"><link href="//www.gstatic.com/images/branding/searchlogo/ico/favicon.ico" rel="icon"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="ea-yQHQvZlhFK9_KWee2VQ">window._hst=Date.now();</script><script nonce="ea-yQHQvZlhFK9_KWee2VQ">(function(){var _g={kEI:\'LFZraK_8OZ_f2roPtrCQqAQ\',kEXPI:\'31\',kBL:\'8rgJ\',kOPI:89978449};(function(){var a;((a=window.google)==null?0:a.stvsc)?google.kEI=_g.kEI:window.google=_g;}).call(this);})();(function(){google.sn=\'webhp\';google.kHL=\'ko\';})();(function(){\nvar g=this||self;function k(){return window.google&&window.google.kOPI||null};var l,m=[];function n(a){for(var b;a&&(!a.getAttribute||!(b=a.getAttribute("eid")));)a=a.parentNode;return b||l}function p(a){for(var b=null;a&&(!a.getAttribute||!(b=a.getAttribute("leid")));)a

In [41]:
type(res_google.text) # 문자열

str

#### 가져온 텍스트 코드를 컴퓨터가 이해할 수 있는 HTML 언어로 변형
- BeautifulSoup 라이브러리 사용

In [27]:
# pip는 파이썬 라이브러리들을 담고 있는 공간이며 !pip install 명령을 통해 특정 라이브러리를 설치할 수 있음.
!pip install bs4 # install

Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl.metadata (411 bytes)
Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Installing collected packages: bs4
Successfully installed bs4-0.0.2


In [5]:
# BeautifulSoup: 통신이 끝난 정적 컨텐츠만 가져올 수 있음(추후 동적 컨텐츠에도 접근할 수 있는 selenium도 배울 예정)
from bs4 import BeautifulSoup as bs

In [35]:
# lxml: 파이썬에서 사용되는 parser(웹 페이지 문서를 읽고 해석하여 내용을 분리해주는 역할)의 일종
# res_google.text와 다르게 ''가 없다. res_google.text 문자를 파이썬에서 활용할 수 있도록 코드형식으로 변환 (bs 객체화)
soup_google = bs(res_google.text, 'lxml')
soup_google

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta charset="utf-8"/><meta content="origin" name="referrer"/><link href="//www.gstatic.com/images/branding/searchlogo/ico/favicon.ico" rel="icon"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Google</title><script nonce="ea-yQHQvZlhFK9_KWee2VQ">window._hst=Date.now();</script><script nonce="ea-yQHQvZlhFK9_KWee2VQ">(function(){var _g={kEI:'LFZraK_8OZ_f2roPtrCQqAQ',kEXPI:'31',kBL:'8rgJ',kOPI:89978449};(function(){var a;((a=window.google)==null?0:a.stvsc)?google.kEI=_g.kEI:window.google=_g;}).call(this);})();(function(){google.sn='webhp';google.kHL='ko';})();(function(){
var g=this||self;function k(){return window.google&&window.google.kOPI||null};var l,m=[];function n(a){for(var b;a&&(!a.getAttribute||!(b=a.getAttribute("eid")));)a=a.parentNode;return b||l}function p(a){for(var b=null;a&&(!a.getAttribute||!(b=a.getAttribute("leid")));)a=a.pare

In [37]:
type(soup_google) # bs 객체

bs4.BeautifulSoup

#### 가져오고 싶은 요소 선택하기
- 요소 위를 우클릭하여 '검사'클릭
- 개발자도구를 눌러서 화살표로 요소 선택

In [54]:
# a태그 중 클래스명이 MV3Tnb인 거 리스트로 다 가져오기
# select: 필요한 요소 수집하는 명령(태그명이나 선택자로 작성)
soup_text = soup_google.select('a.MV3Tnb')
soup_text

[<a class="MV3Tnb" href="https://about.google/?fg=1&amp;utm_source=google-KR&amp;utm_medium=referral&amp;utm_campaign=hp-header" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://about.google/%3Ffg%3D1%26utm_source%3Dgoogle-KR%26utm_medium%3Dreferral%26utm_campaign%3Dhp-header&amp;ved=0ahUKEwivwr2d_amOAxWfr1YBHTYYBEUQkNQCCAI&amp;opi=89978449">Google 정보</a>,
 <a class="MV3Tnb" href="https://store.google.com/KR?utm_source=hp_header&amp;utm_medium=google_ooo&amp;utm_campaign=GS100042&amp;hl=ko-KR" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://store.google.com/KR%3Futm_source%3Dhp_header%26utm_medium%3Dgoogle_ooo%26utm_campaign%3DGS100042%26hl%3Dko-KR&amp;ved=0ahUKEwivwr2d_amOAxWfr1YBHTYYBEUQpMwCCAM&amp;opi=89978449">스토어</a>]

In [56]:
# select_one: 수집한 데이터 중에서 맨 첫번째 데이터만 접근, 리스트로 안 나옴.
soup_google.select_one('a.MV3Tnb')

<a class="MV3Tnb" href="https://about.google/?fg=1&amp;utm_source=google-KR&amp;utm_medium=referral&amp;utm_campaign=hp-header" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://about.google/%3Ffg%3D1%26utm_source%3Dgoogle-KR%26utm_medium%3Dreferral%26utm_campaign%3Dhp-header&amp;ved=0ahUKEwivwr2d_amOAxWfr1YBHTYYBEUQkNQCCAI&amp;opi=89978449">Google 정보</a>

In [58]:
# 0번 인덱스의 실제 텍스트만 출력(bs로 객체화를 시켰기 때문에 .text명령을 사용할 수 있음!)
soup_text[0].text

'Google 정보'

In [60]:
for i in soup_text:
    print(i.text)

Google 정보
스토어


#### 멜론에서도 비슷하게 추출해보기

In [73]:
soup_melon = bs(res_melon.text,'lxml')
soup_melon

<!DOCTYPE html>
<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<title>Melon::음악이 필요한 순간, 멜론</title>
<meta content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" name="keywords"/>
<meta content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" name="description"/>
<meta content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" name="naver-site-verification"/>
<meta content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" name="google-site-verification"/>
<meta content="4022717807957185" property="fb:app_id"/>
<meta content="Melon" property="og:title"/>
<meta content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png" property="og:image"/>
<meta content="음악이 필요한 순간, 멜론" property="og:description"/>
<meta content="http://www.melon.com/" property="og:url"/>
<meta content="website" property="og:type"/>
<meta content="멜론" property="og:site_na

In [91]:
text = soup_melon.select('.menu-list li a span')
text

[<span>멜론티켓</span>,
 <span>이용권구매</span>,
 <span>멜론혜택</span>,
 <span>이벤트</span>,
 <span>공지사항</span>]

In [95]:
for i in text:
    print(i.text)

멜론티켓
이용권구매
멜론혜택
이벤트
공지사항


In [109]:
# 그냥 span만 select해서 맨 5개만 출력해도 됨.
soup_melon.select('span')[0:5]

[<span>멜론티켓</span>,
 <span>이용권구매</span>,
 <span>멜론혜택</span>,
 <span>이벤트</span>,
 <span>공지사항</span>]

#### 네이버에서 삼성전자 뉴스 헤드라인만 추출

In [113]:
url = 'https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90'
res_news = req.get(url, headers = U_A)
res_news

<Response [200]>

In [115]:
soup_news = bs(res_news.text, 'lxml')
soup_news

<!DOCTYPE html>
<html lang="ko"><head> <meta charset="utf-8"/> <meta content="strict-origin-when-cross-origin" name="referrer"/> <meta content="telephone=no,address=no,email=no" name="format-detection"/> <meta content="삼성전자 : 네이버 뉴스검색" property="og:title"/> <meta content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png" property="og:image"/> <meta content="'삼성전자'의 네이버 뉴스검색 결과입니다." property="og:description"/> <meta content="'삼성전자'의 네이버 뉴스검색 결과입니다." lang="ko" name="description"/> <title>삼성전자 : 네이버 뉴스검색</title> <link href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_32x32_240820.ico" rel="shortcut icon"/> <link href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" rel="search" title="Naver" type="application/opensearchdescription+xml"/><script> if (top.frames.length!=0 || window!=top) window.open(location, "_top"); </script><link href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_250529.css" rel="stylesheet" type="text/css"/> <link href

In [128]:
# 클래스 명칭이 여러개라면 중간중간 .으로 이어붙여주면 됨.
# 처음 보이는 헤드라인 10개만 보임.
articles = soup_news.select('.sds-comps-text.sds-comps-text-ellipsis.sds-comps-text-ellipsis-1.sds-comps-text-type-headline1')
articles

[<span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1"><mark>삼성</mark>·LG<mark>전자</mark>, "으뜸효율 가전…구매 혜택 더 늘린다"</span>,
 <span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1"><mark>삼성전자</mark>，'더 프리미어 5' 활용 레고 브릭 조립 체험공간 열어</span>,
 <span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1"><mark>삼성전자</mark> '더 프리미어 5' 활용해 레고 브릭 조립하는 이색 체험 공간 선...</span>,
 <span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1">[단독] <mark>삼성전자</mark>, 중국산 폴더블폰 핵심소재 OCA 샘플 테스트 진행</span>,
 <span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1"><mark>삼성전자</mark> 잠정실적 발표 앞두고…"6만전자 사도 될까"</span>,
 <span class="sds-comps-text sds-comps-text-ellipsis sds-comps-text-ellipsis-1 sds-comps-text-type-headline1">‘3000피’ 못 따라잡는 <mark>삼성전자</mark>… 9년 만에 시

In [130]:
for i in articles:
    print(i.text)

삼성·LG전자, "으뜸효율 가전…구매 혜택 더 늘린다"
삼성전자，'더 프리미어 5' 활용 레고 브릭 조립 체험공간 열어
삼성전자 '더 프리미어 5' 활용해 레고 브릭 조립하는 이색 체험 공간 선...
[단독] 삼성전자, 중국산 폴더블폰 핵심소재 OCA 샘플 테스트 진행
삼성전자 잠정실적 발표 앞두고…"6만전자 사도 될까"
‘3000피’ 못 따라잡는 삼성전자… 9년 만에 시총 비중 최저
삼성전자, 2분기 실적 발표 임박…반도체 회복세 주목
삼성·LG전자, ‘으뜸효율 가전제품’ 구매 혜택 더 늘린다
'이 회사'는 인당 8500만원 쏜다는데…삼성전자 성과급 '이럴 수가'
코스피 달리는데 '대장주' 삼성전자는?…시총 비중 9년만에 최저


### 멜론 차트 Top100의 타이틀과 아티스트명 크롤링하기
- 타이틀, 가수명을 beautifulsoup을 사용해서 수집
- pandas의 DataFrame으로 만들기
- 저장한 파일 내보내기

In [183]:
mchart_url = 'https://www.melon.com/chart/index.htm'
res_mchart = req.get(mchart_url, headers=U_A)
res_mchart

<Response [200]>

In [185]:
soup_mchart = bs(res_mchart.text,'lxml')
soup_mchart

<!DOCTYPE html>
<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<title>멜론차트&gt;TOP100&gt;멜론</title>
<meta content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" name="keywords"/>
<meta content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" name="description"/>
<meta content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" name="naver-site-verification"/>
<meta content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" name="google-site-verification"/>
<meta content="4022717807957185" property="fb:app_id"/>
<meta content="Melon" property="og:title"/>
<meta content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png" property="og:image"/>
<meta content="음악이 필요한 순간, 멜론" property="og:description"/>
<meta content="http://www.melon.com/chart/index.htm" property="og:url"/>
<meta content="website" property="og:type"/>
<meta content="멜론" proper

In [193]:
extract_title = soup_mchart.select('.ellipsis.rank01 span a')
extract_title

[<a href="javascript:melon.play.playSong('1000002721',39156202);" title="FAMOUS 재생">FAMOUS</a>,
 <a href="javascript:melon.play.playSong('1000002721',39121279);" title="Dirty Work 재생">Dirty Work</a>,
 <a href="javascript:melon.play.playSong('1000002721',36397952);" title="Drowning 재생">Drowning</a>,
 <a href="javascript:melon.play.playSong('1000002721',38626852);" title="너에게 닿기를 재생">너에게 닿기를</a>,
 <a href="javascript:melon.play.playSong('1000002721',38388023);" title="시작의 아이 재생">시작의 아이</a>,
 <a href="javascript:melon.play.playSong('1000002721',38429074);" title="모르시나요(PROD.로코베리) 재생">모르시나요(PROD.로코베리)</a>,
 <a href="javascript:melon.play.playSong('1000002721',38733032);" title="어제보다 슬픈 오늘 재생">어제보다 슬픈 오늘</a>,
 <a href="javascript:melon.play.playSong('1000002721',38123332);" title="Whiplash 재생">Whiplash</a>,
 <a href="javascript:melon.play.playSong('1000002721',38629386);" title="like JENNIE 재생">like JENNIE</a>,
 <a href="javascript:melon.play.playSong('1000002721',39166708);" title="Golden 

In [197]:
song_title = [] # list로 만들어야 pandas로 활용 가능
for i in extract_title:
    song_title.append(i.text)

song_title

['FAMOUS',
 'Dirty Work',
 'Drowning',
 '너에게 닿기를',
 '시작의 아이',
 '모르시나요(PROD.로코베리)',
 '어제보다 슬픈 오늘',
 'Whiplash',
 'like JENNIE',
 'Golden',
 'Never Ending Story',
 'HOME SWEET HOME (feat. 태양, 대성)',
 'WICKED',
 '나는 반딧불',
 '청춘만화',
 'TOO BAD (feat. Anderson .Paak)',
 'HANDS UP',
 'HAPPY',
 '오늘만 I LOVE YOU',
 'APT.',
 'Soda Pop',
 'REBEL HEART',
 '눈물참기',
 '한 페이지가 될 수 있게',
 'Flower',
 '소나기',
 'Supernova',
 '천상연',
 '네모의 꿈',
 'MY LOVE(2025)',
 'LIKE YOU BETTER',
 '내게 사랑이 뭐냐고 물어본다면',
 '빌려온 고양이 (Do the Dance)',
 'Welcome to the Show',
 'THUNDER',
 'HOT',
 'toxic till the end',
 'Die With A Smile',
 '예뻤어',
 '내 이름 맑음',
 '어떻게 이별까지 사랑하겠어, 널 사랑하는 거지',
 '고민중독',
 'ATTITUDE',
 '그대만 있다면 (여름날 우리 X 너드커넥션 (Nerd Connection))',
 'Supersonic',
 'DRIP',
 '첫 만남은 계획대로 되지 않아',
 'UP (KARINA Solo)',
 '사랑은 늘 도망가',
 '청혼하지 않을 이유를 못 찾았어',
 'I DO ME',
 'Love wins all',
 'Pookie',
 'STYLE',
 'PO￦ER',
 'Magnetic',
 '미치게 그리워서',
 'Seven (feat. Latto) - Clean Ver.',
 'How Sweet',
 'Hype Boy',
 '주저하는 연인들을 위해',
 '슬픈 초대장',
 'I AM

In [231]:
extract_artist = soup_mchart.select('.ellipsis.rank02 a')
extract_artist

[<a href="javascript:melon.link.goArtistDetail('4346804');" title="ALLDAY PROJECT - 페이지 이동">ALLDAY PROJECT</a>,
 <a href="javascript:melon.link.goArtistDetail('4346804');" title="ALLDAY PROJECT - 페이지 이동">ALLDAY PROJECT</a>,
 <a href="javascript:melon.link.goArtistDetail('2899555');" title="aespa - 페이지 이동">aespa</a>,
 <a href="javascript:melon.link.goArtistDetail('2899555');" title="aespa - 페이지 이동">aespa</a>,
 <a href="javascript:melon.link.goArtistDetail('2086047');" title="WOODZ - 페이지 이동">WOODZ</a>,
 <a href="javascript:melon.link.goArtistDetail('2086047');" title="WOODZ - 페이지 이동">WOODZ</a>,
 <a href="javascript:melon.link.goArtistDetail('468244');" title="10CM - 페이지 이동">10CM</a>,
 <a href="javascript:melon.link.goArtistDetail('468244');" title="10CM - 페이지 이동">10CM</a>,
 <a href="javascript:melon.link.goArtistDetail('566431');" title="마크툽 (MAKTUB) - 페이지 이동">마크툽 (MAKTUB)</a>,
 <a href="javascript:melon.link.goArtistDetail('566431');" title="마크툽 (MAKTUB) - 페이지 이동">마크툽 (MAKTUB)</a>,
 <a 

In [232]:
artist = []
for i in extract_artist:
    artist.append(i.text)
    
artist

['ALLDAY PROJECT',
 'ALLDAY PROJECT',
 'aespa',
 'aespa',
 'WOODZ',
 'WOODZ',
 '10CM',
 '10CM',
 '마크툽 (MAKTUB)',
 '마크툽 (MAKTUB)',
 '조째즈',
 '조째즈',
 '우디 (Woody)',
 '우디 (Woody)',
 'aespa',
 'aespa',
 '제니 (JENNIE)',
 '제니 (JENNIE)',
 'HUNTR/X',
 'EJAE',
 'AUDREY NUNA',
 'REI AMI',
 'KPop Demon Hunters Cast',
 'HUNTR/X',
 'EJAE',
 'AUDREY NUNA',
 'REI AMI',
 'KPop Demon Hunters Cast',
 '아이유',
 '아이유',
 'G-DRAGON',
 'G-DRAGON',
 'ALLDAY PROJECT',
 'ALLDAY PROJECT',
 '황가람',
 '황가람',
 '이무진',
 '이무진',
 'G-DRAGON',
 'G-DRAGON',
 'MEOVV (미야오)',
 'MEOVV (미야오)',
 'DAY6 (데이식스)',
 'DAY6 (데이식스)',
 'BOYNEXTDOOR',
 'BOYNEXTDOOR',
 '로제 (ROSÉ)',
 'Bruno Mars',
 '로제 (ROSÉ)',
 'Bruno Mars',
 'KPop Demon Hunters Cast',
 'Danny Chung',
 'Saja Boys',
 'Andrew Choi',
 'Neckwav',
 'Kevin Woo',
 'samUIL Lee',
 'KPop Demon Hunters Cast',
 'Danny Chung',
 'Saja Boys',
 'Andrew Choi',
 'Neckwav',
 'Kevin Woo',
 'samUIL Lee',
 'IVE (아이브)',
 'IVE (아이브)',
 'QWER',
 'QWER',
 'DAY6 (데이식스)',
 'DAY6 (데이식스)',
 '오반(OVAN)',
 '오반(

In [225]:
len(artist)
# 분명 100개가 나와야하는데 242개가 나옴. 한 곡을 여러명이 부른 곡이 있기 때문이다.

242

In [253]:
# a에 부른 사람 하나하나가 저장되어있는데, 그러지 말고 여러명이 불러도 하나로 카운팅되게끔
# 
extract_artist = soup_mchart.select('.ellipsis.rank02 span')
extract_artist

[<span class="checkEllipsis" style="display:none"><a href="javascript:melon.link.goArtistDetail('4346804');" title="ALLDAY PROJECT - 페이지 이동">ALLDAY PROJECT</a></span>,
 <span class="checkEllipsis" style="display:none"><a href="javascript:melon.link.goArtistDetail('2899555');" title="aespa - 페이지 이동">aespa</a></span>,
 <span class="checkEllipsis" style="display:none"><a href="javascript:melon.link.goArtistDetail('2086047');" title="WOODZ - 페이지 이동">WOODZ</a></span>,
 <span class="checkEllipsis" style="display:none"><a href="javascript:melon.link.goArtistDetail('468244');" title="10CM - 페이지 이동">10CM</a></span>,
 <span class="checkEllipsis" style="display:none"><a href="javascript:melon.link.goArtistDetail('566431');" title="마크툽 (MAKTUB) - 페이지 이동">마크툽 (MAKTUB)</a></span>,
 <span class="checkEllipsis" style="display:none"><a href="javascript:melon.link.goArtistDetail('3186091');" title="조째즈 - 페이지 이동">조째즈</a></span>,
 <span class="checkEllipsis" style="display:none"><a href="javascript:melon.

In [255]:
artist = []
for i in extract_artist:
    artist.append(i.text)
    
artist

['ALLDAY PROJECT',
 'aespa',
 'WOODZ',
 '10CM',
 '마크툽 (MAKTUB)',
 '조째즈',
 '우디 (Woody)',
 'aespa',
 '제니 (JENNIE)',
 'HUNTR/X, EJAE, AUDREY NUNA, REI AMI, KPop Demon Hunters Cast',
 '아이유',
 'G-DRAGON',
 'ALLDAY PROJECT',
 '황가람',
 '이무진',
 'G-DRAGON',
 'MEOVV (미야오)',
 'DAY6 (데이식스)',
 'BOYNEXTDOOR',
 '로제 (ROSÉ), Bruno Mars',
 'KPop Demon Hunters Cast, Danny Chung, Saja Boys, Andrew Choi, Neckwav, Kevin Woo, samUIL Lee',
 'IVE (아이브)',
 'QWER',
 'DAY6 (데이식스)',
 '오반(OVAN)',
 '이클립스 (ECLIPSE)',
 'aespa',
 '이창섭',
 '아이유',
 '이예은, 아샤트리, 전건호',
 '프로미스나인',
 '로이킴',
 '아일릿(ILLIT)',
 'DAY6 (데이식스)',
 '세븐틴 (SEVENTEEN)',
 'LE SSERAFIM (르세라핌)',
 '로제 (ROSÉ)',
 'Lady Gaga, Bruno Mars',
 'DAY6 (데이식스)',
 'QWER',
 'AKMU (악뮤)',
 'QWER',
 'IVE (아이브)',
 '너드커넥션 (Nerd Connection)',
 '프로미스나인',
 'BABYMONSTER',
 'TWS (투어스)',
 'aespa',
 '임영웅',
 '이무진',
 'KiiiKiii (키키)',
 '아이유',
 'FIFTY FIFTY',
 'Hearts2Hearts (하츠투하츠)',
 'G-DRAGON',
 '아일릿(ILLIT)',
 '황가람',
 '정국',
 'NewJeans',
 'NewJeans',
 '잔나비',
 '순순희(지환)',
 'IVE (아이브)',
 '성시

In [257]:
len(artist)
# 100개가 나온다!

100

In [261]:
top100_title = pd.DataFrame(song_title)
top100_artist = pd.DataFrame(artist)

In [271]:
top100 = pd.concat([top100_title, top100_artist], axis=1)
top100.columns = ['title','artist']
top100

Unnamed: 0,title,artist
0,FAMOUS,ALLDAY PROJECT
1,Dirty Work,aespa
2,Drowning,WOODZ
3,너에게 닿기를,10CM
4,시작의 아이,마크툽 (MAKTUB)
...,...,...
95,온기,임영웅
96,너와의 모든 지금,재쓰비 (JAESSBEE)
97,Home,임영웅
98,여름이었다,H1-KEY (하이키)


In [279]:
# 아니면 딕셔너리로 넣을 수도 있다.
# key에는 컬럼명, value에는 실제 데이터 값
top100_dic = {'title':song_title,'artist':artist}
top100_df = pd.DataFrame(top100_dic, index=range(1,101)) # 1번부터 나옴.
top100_df.index.name = 'rank'
top100_df

Unnamed: 0_level_0,title,artist
rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,FAMOUS,ALLDAY PROJECT
2,Dirty Work,aespa
3,Drowning,WOODZ
4,너에게 닿기를,10CM
5,시작의 아이,마크툽 (MAKTUB)
...,...,...
96,온기,임영웅
97,너와의 모든 지금,재쓰비 (JAESSBEE)
98,Home,임영웅
99,여름이었다,H1-KEY (하이키)


In [283]:
# 파일로 추출하기
# to_csv: df를 csv파일로 내보내는 함수(csv 외 다른 확장자명으로도 저장가능하며 구분자를 다르게 지정해야 함.)
top100_df.to_csv('Melon Chart Top100', encoding='utf-8')

### 사람인 HOT100 신입 구인광고의 TOP10기업의 데이터를 수집해보기
- 공고명: tile
- 회사명: company
- 지역: region
- 경력사항: career
- 학력: education
- 총 5종의 데이터를 추출하여 DataFrame으로 출력

In [7]:
saramin_url = 'https://www.saramin.co.kr/zf_user/jobs/hot100'
res_saramin = req.get(saramin_url, headers = U_A)
res_saramin

<Response [200]>

In [9]:
soup_saramin = bs(res_saramin.text,'lxml')
soup_saramin

<!DOCTYPE html>
<html lang="ko">
<head>
<title>전체 신입 채용정보 | 인기공고 HOT100 - 사람인</title> <meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="ko-KR" http-equiv="Content-Language"/>
<meta content="86455485e27cab6986d130e4c3b90c5b516820d1" name="naver-site-verification"/>
<meta content="가장 인기있는 전체 신입 채용공고 확인하고 취업하세요! - 인기공고 HOT 100 사람인" name="Description"/>
<meta content="사람인" name="writer"/>
<meta content="전체 신입 인기공고 HOT100, 직업, 직무, 경영, 사무, 영업, IT, 디자인, 서비스, 생산, 제조, 건설, 유통, 미디어, 교육, 전문직, 근무지역, 서울, 경기, 인천, 부산, 학력, 고졸, 초대졸, 대졸, 기업유형, 대기업, 공사·공기업, 외국계기업, 스타트업, 중견기업, 중소기업, 이직, 신입, 경력, 공채, 사람인, 취업, 채용, 공채" name="keywords"/>
<meta content="nosublinks" name="naver"/> <meta content="전체 신입 채용정보 | 인기공고 HOT100 - 사람인" property="og:title"/>
<meta content="사람인" property="og:site_name"/>
<meta content="website" property="og:type"/>
<meta content="http://www.saraminimage.co.kr/logo/saraminsnslogo.png" property="og:image"

In [11]:
title = soup_saramin.select('.job_tit a span')
title

[<span>SCM팀 구매/생산 담당모집</span>,
 <span>기술직(생산직) 신입 채용</span>,
 <span>제주 드림타워 복합리조트 [카지노&amp;호텔] 대규모 신입/경력 공채</span>,
 <span>2025년 하반기 포스코스틸리온 신입사원 공개채용</span>,
 <span>2025년 6월 롯데이노베이트 신입사원 채용 일반전형</span>,
 <span>2025년 한국관광공사 일반직 신입사원 채용</span>,
 <span>[정규직]생산,조립,사무직,AS,서비스·생산부문 담당자 채용.</span>,
 <span>신입/경력 사원 모집</span>,
 <span>GS바이오 생산기술직 인턴 모집</span>,
 <span>현대오토에버 7월 경력채용 (전 부문)</span>,
 <span>[쿠팡] 이츠 영업사원 대규모 채용 (입사축하금 100만원)</span>]

In [15]:
company = soup_saramin.select('.company_nm > .str_tit')
company

[<span class="str_tit">(주)링티</span>,
 <a class="str_tit" href="/zf_user/company-info/view-inner-recruit?csn=aXVSajN0M3FxSVlEb055UkFlTkdGQT09" target="_blank">
                             현대로템(주)                        </a>,
 <a class="str_tit" href="/zf_user/company-info/view-inner-recruit?csn=TFkvTjUrQlBaaHNQNTJKU3FIeVdHZz09" target="_blank">
                             (주)엘티엔터테인먼트                        </a>,
 <a class="str_tit" href="/zf_user/company-info/view-inner-recruit?csn=c2F5K1AzdW8vaXUyOVVnY1k3VkZZZz09" target="_blank">
                             포스코스틸리온(주)                        </a>,
 <a class="str_tit" href="/zf_user/company-info/view-inner-recruit?csn=MUFqUVhjZXlEZWQ5cXNWNzUrcHc3Zz09" target="_blank">
                             롯데이노베이트(주)                        </a>,
 <span class="str_tit">한국관광공사</span>,
 <span class="str_tit">코리아하이텍</span>,
 <a class="str_tit" href="/zf_user/company-info/view-inner-recruit?csn=Vm1HQnpqeEhINS9INUVNUys1SWtyUT09" target="_blank">
   

In [13]:
# 한국관광공사나 코리아하이텍은 a 태그가 아닌 span 태그에 기업명 텍스트가 들어가 있고
# 다른 기업들은 span 태그에 대른 텍스트가 들어가 있어서 공통분모를 찾기가 어려움.
# 따라서 조건문을 활용하여 각 요소별로 기업명이 들어있는 부분만 찾아서 크롤링 하게 하는 코드를 작성

company =[]
for i in company:
    # company에 수집된 HTML요소 순서 상 a 태그가 먼저고 span 태그가 뒤에 나오기 때문에 a 태그가 있는지를 파악하는 조건문을 먼저 작성
    if i.select('a'): # a태그로 찾은 값이 있다면
        # .text를 쓰기 위해 select_one 사용
        target = i.select_one('span')
    elif i.select('span'):
        target = i.select_one('span')
    company.append(target.text.strip()) # text 명령을 위해서 조건문 내부에 select_one으로 단일값만 반환

company

[]

In [17]:
region = soup_saramin.select('.work_place')
region

[<p class="work_place">서울 강남구 외</p>,
 <p class="work_place">경남 창원시 외</p>,
 <p class="work_place">제주 제주시 외</p>,
 <p class="work_place">경북 포항시 외</p>,
 <p class="work_place">서울 금천구 외</p>,
 <p class="work_place">강원 원주시</p>,
 <p class="work_place">경기 부천시 원미구 외</p>,
 <p class="work_place">서울 강남구 외</p>,
 <p class="work_place">전남 여수시</p>,
 <p class="work_place">전국</p>,
 <p class="work_place">전국 외</p>]

In [19]:
career = soup_saramin.select('.career')
career

[<p class="career">경력 5년↑ · 정규직</p>,
 <p class="career">신입 · 정규직</p>,
 <p class="career">신입 · 정규직 외</p>,
 <p class="career">신입 · 정규직 외</p>,
 <p class="career">신입 · 정규직</p>,
 <p class="career">신입 · 정규직</p>,
 <p class="career">경력무관 · 정규직</p>,
 <p class="career">신입 · 정규직</p>,
 <p class="career">경력무관 · 정규직 외</p>,
 <p class="career">신입 · 정규직</p>,
 <p class="career">경력무관 · 계약직</p>]

In [21]:
edu = soup_saramin.select('.education')
edu

[<p class="education">대학교(4년)↑</p>,
 <p class="education">고졸↑</p>,
 <p class="education">학력무관</p>,
 <p class="education">대학교(4년)↑</p>,
 <p class="education">대학교(4년)↑</p>,
 <p class="education">학력무관</p>,
 <p class="education">고졸↑</p>,
 <p class="education">대학교(4년)↑</p>,
 <p class="education">대학(2,3년)↑</p>,
 <p class="education">대학교(4년)↑</p>,
 <p class="education">고졸↑</p>]

In [23]:
title_list = []
company_list = []
region_list = []
career_list = []
edu_list = []

for i in range(1,len(company)):
    title_list.append(title[i].text)
    company_list.append(company[i].text.strip()) # 양옆 공백 제거
    region_list.append(region[i].text)
    career_list.append(career[i].text)
    edu_list.append(edu[i].text)
company_list

['현대로템(주)',
 '(주)엘티엔터테인먼트',
 '포스코스틸리온(주)',
 '롯데이노베이트(주)',
 '한국관광공사',
 '코리아하이텍',
 '현대종합금속(주)',
 'GS바이오(주)',
 '현대오토에버(주)',
 '쿠팡(주)']

In [25]:
print(len(title_list))
print(len(company_list))
print(len(region_list))
print(len(career_list))
print(len(edu_list))

10
10
10
10
10


In [27]:
saramindic = {'job title':title_list,'company':company_list,'region':region_list,'career':career_list,'education':edu_list}
saramindf = pd.DataFrame(saramindic)
saramindf.index = range(1,11)
saramindf

Unnamed: 0,job title,company,region,career,education
1,기술직(생산직) 신입 채용,현대로템(주),경남 창원시 외,신입 · 정규직,고졸↑
2,제주 드림타워 복합리조트 [카지노&호텔] 대규모 신입/경력 공채,(주)엘티엔터테인먼트,제주 제주시 외,신입 · 정규직 외,학력무관
3,2025년 하반기 포스코스틸리온 신입사원 공개채용,포스코스틸리온(주),경북 포항시 외,신입 · 정규직 외,대학교(4년)↑
4,2025년 6월 롯데이노베이트 신입사원 채용 일반전형,롯데이노베이트(주),서울 금천구 외,신입 · 정규직,대학교(4년)↑
5,2025년 한국관광공사 일반직 신입사원 채용,한국관광공사,강원 원주시,신입 · 정규직,학력무관
6,"[정규직]생산,조립,사무직,AS,서비스·생산부문 담당자 채용.",코리아하이텍,경기 부천시 원미구 외,경력무관 · 정규직,고졸↑
7,신입/경력 사원 모집,현대종합금속(주),서울 강남구 외,신입 · 정규직,대학교(4년)↑
8,GS바이오 생산기술직 인턴 모집,GS바이오(주),전남 여수시,경력무관 · 정규직 외,"대학(2,3년)↑"
9,현대오토에버 7월 경력채용 (전 부문),현대오토에버(주),전국,신입 · 정규직,대학교(4년)↑
10,[쿠팡] 이츠 영업사원 대규모 채용 (입사축하금 100만원),쿠팡(주),전국 외,경력무관 · 계약직,고졸↑
