# 웹 크롤링(Web Crawling)
- 웹 상에서 기계가 자동으로 데이터를 수집하는 기술

In [None]:
# 전체 프로세스
 # 1. 정보를 가져올 사이트와 통신
 # 2. HTML 태그와 CSS 선택자를 활용하여 원하는 정보의 위치 찾기
 # 3. 원하는 정보를 가져올 수 있는 파이썬 크롤러 코드 작성

## Requests 라이브러리
- 접근할 웹 페이지의 HTML 요소들을 python코드로 요청할 때 사용
- 요청하고 응답 받으면 역할이 끝나며, 웹 브라우저의 역할을 대신한다고 볼 수 있음

In [1]:
import requests as req

### 1. 구글 사이트와 통신

In [3]:
# get : 웹 상에서 가져올 정보를 요청하는 함수(매개변수로 웹사이트의 url 입력)
res_google = req.get("https://www.google.com/")

In [4]:
res_google

# Response [200] : 통신이 가능한 상태(가능한 상태일뿐 실제로 데이터는 사이트의 보안에 따라 담길수도 아닐수도 있음)
# 400번대 메시지 : 문제 발생(클라이언트의 요청이 잘못된 문제)
# 500번대 메시지 : 문제 발생(서버의 응답이 불가능한 문제)

<Response [200]>

### 2. 멜론 사이트와 통신

In [5]:
req.get("https://www.melon.com/")

<Response [406]>

### 웹 통신 방식 GET vs POST
- **GET** : POST방식에 비해 전송 속도가 좀 더 빠르나 주소창에 데이터가 다 노출(쿼리스트링 방식)되어 보안에 취약하며, 전송할 수 있는 글자 수에 제한이 있음
- **POST** : 데이터의 크기에 제한이 없고, URL에 데이터를 노출하지 않아서 보안이 상대적으로 좋으나 GET방식에 비해 속도는 느린편

In [6]:
# User-Agent : 클라이언트의 소프트웨어 환경에 대한 정보
U_A = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.0.0 Safari/537.36"}

In [7]:
req.get("https://www.melon.com/", headers=U_A)

# 유저 인증 후에 통신이 가능해짐

<Response [200]>

In [8]:
res = req.get("https://www.melon.com/", headers=U_A)

In [9]:
# text : 해당 페이지의 HTML코드를 텍스트로 추출
res.text

'<!DOCTYPE html>\n<html lang="ko">\n<head>\n\t\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t\r\n\r\n\t\r\n\t\r\n\t\r\n\t\r\n\r\n\t<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\r\n\t<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />\r\n\r\n\t\r\n\r\n\t\r\n\r\n\t<title>Melon::음악이 필요한 순간, 멜론</title>\r\n\t<meta name="keywords" content="음악서비스, 멜론차트, 멜론TOP100, 최신음악, 인기가요, 뮤직비디오, 앨범, 플레이어, 스트리밍, 다운로드, 아티스트플러스, 아티스트채널" />\r\n\t<meta name="description" content="No.1 뮤직플랫폼 멜론! 최신 트렌드부터 나를 아는 똑똑한 음악추천까지!" />\r\n\t<meta name="naver-site-verification" content="ee85ff6db1fa8f2226bcb671ecb2bcdbcffb6f8b" />\r\n\t<meta name="google-site-verification" content="q4tbTQhmxa4La3OdNLsNOCxrJ_WV6lUlBFrFW4-HqQc" />\r\n\t<meta property="fb:app_id" content="4022717807957185"/>\r\n\t<meta property="og:title" content="Melon"/>\r\n\t<meta property="og:image" content="https://cdnimg.melon.co.kr/resource/image/web/common/logo_melon142x99.png"/>\r\n\t<meta property="og:description" content="음악이

### 3. 구글 메인 페이지 정보 가져오기

In [10]:
res_google = req.get("https://www.google.com/", headers=U_A)
res_google.text

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta charset="UTF-8"><meta content="origin" name="referrer"><link href="//www.gstatic.com/images/branding/searchlogo/ico/favicon.ico" rel="icon"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="lxiL6uPFgx1FHyJCPPUt9Q">window._hst=Date.now();</script><script nonce="lxiL6uPFgx1FHyJCPPUt9Q">(function(){var _g={kEI:\'1BlvacjZEfiP8L0PxvPwiAw\',kEXPI:\'31\',kBL:\'YpcU\',kOPI:89978449};(function(){var a;((a=window.google)==null?0:a.stvsc)?google.kEI=_g.kEI:window.google=_g;}).call(this);})();(function(){google.sn=\'webhp\';google.kHL=\'ko\';google.rdn=false;})();(function(){\nvar g=this||self;function k(){return window.google&&window.google.kOPI||null};var l,m=[];function n(a){for(var b;a&&(!a.getAttribute||!(b=a.getAttribute("eid")));)a=a.parentNode;return b||l}function p(a){for(var b=null;a&&(!a.getAttribute||!(b=a.getAttri

#### 가져온 텍스트를 컴퓨터가 이해할 수 있는 HTML언어로 변형(파싱)
- BeautifulSoup 라이브러리 사용

In [11]:
# B.S 설치
!pip install bs4



In [12]:
# BeautifulSoup : 정적 컨텐츠(개발자도구에 표시되는 코드)만 수집해 올 수 있는 클래스
from bs4 import BeautifulSoup as bs

In [14]:
# 파싱(parsing) 진행
 # 파싱 : 텍스트를 기계가 이해하는 코드로 변환
 # lxml : python에서 사용되는 파서 중 하나
soup = bs(res_google.text, "lxml")

In [15]:
print(type(res_google.text))  # 문자열
print(type(soup))             # BS 객체

<class 'str'>
<class 'bs4.BeautifulSoup'>


In [16]:
# select : 가져오고 싶은 요소에 접근
soup.select("a")

[<a class="MV3Tnb" href="https://about.google/?fg=1&amp;utm_source=google-KR&amp;utm_medium=referral&amp;utm_campaign=hp-header" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://about.google/%3Ffg%3D1%26utm_source%3Dgoogle-KR%26utm_medium%3Dreferral%26utm_campaign%3Dhp-header&amp;ved=0ahUKEwjIk_6euJmSAxX4B7wBHcY5HMEQkNQCCAI&amp;opi=89978449">Google 정보</a>,
 <a class="MV3Tnb" href="https://store.google.com/KR?utm_source=hp_header&amp;utm_medium=google_ooo&amp;utm_campaign=GS100042&amp;hl=ko-KR" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://store.google.com/KR%3Futm_source%3Dhp_header%26utm_medium%3Dgoogle_ooo%26utm_campaign%3DGS100042%26hl%3Dko-KR&amp;ved=0ahUKEwjIk_6euJmSAxX4B7wBHcY5HMEQpMwCCAM&amp;opi=89978449">스토어</a>,
 <a aria-label="Gmail " class="gb_Z" data-pid="23" href="https://mail.google.com/mail/&amp;ogbl" target="_top">Gmail</a>,
 <a aria-label="이미지 검색 " class="gb_Z" data-pid="2" href="https://www.google.com/imghp?hl=ko&amp;ogbl" target="_top">이미지</a>,

In [17]:
# a 태그의 MV3Tnb 클래스를 가진 요소에 접근
soup.select("a.MV3Tnb")

[<a class="MV3Tnb" href="https://about.google/?fg=1&amp;utm_source=google-KR&amp;utm_medium=referral&amp;utm_campaign=hp-header" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://about.google/%3Ffg%3D1%26utm_source%3Dgoogle-KR%26utm_medium%3Dreferral%26utm_campaign%3Dhp-header&amp;ved=0ahUKEwjIk_6euJmSAxX4B7wBHcY5HMEQkNQCCAI&amp;opi=89978449">Google 정보</a>,
 <a class="MV3Tnb" href="https://store.google.com/KR?utm_source=hp_header&amp;utm_medium=google_ooo&amp;utm_campaign=GS100042&amp;hl=ko-KR" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://store.google.com/KR%3Futm_source%3Dhp_header%26utm_medium%3Dgoogle_ooo%26utm_campaign%3DGS100042%26hl%3Dko-KR&amp;ved=0ahUKEwjIk_6euJmSAxX4B7wBHcY5HMEQpMwCCAM&amp;opi=89978449">스토어</a>]

In [18]:
# select_one : 반환 받은 HTML 요소들 중 첫번째 데이터만 가져오고 싶은 경우 사용
soup.select_one("a.MV3Tnb")

<a class="MV3Tnb" href="https://about.google/?fg=1&amp;utm_source=google-KR&amp;utm_medium=referral&amp;utm_campaign=hp-header" ping="/url?sa=t&amp;rct=j&amp;source=webhp&amp;url=https://about.google/%3Ffg%3D1%26utm_source%3Dgoogle-KR%26utm_medium%3Dreferral%26utm_campaign%3Dhp-header&amp;ved=0ahUKEwjIk_6euJmSAxX4B7wBHcY5HMEQkNQCCAI&amp;opi=89978449">Google 정보</a>

In [19]:
txt = soup.select("a.MV3Tnb")

In [21]:
txt[0].text   # 컨텐츠 텍스트만 출력

'Google 정보'

In [24]:
for i in txt :
    print(i.text)

Google 정보
스토어


### 4. 멜론 사이트 상단 문자값 가져오기
- 멜론 티켓, 이용권구매, 멜론라운지, 이벤트, 공지사항 까지 5개를 한줄씩 개행으로 출력해보세요

In [None]:
# 1. 멜론 사이트와 통신
# 2. HTML 코드 파싱
# 3. 원하는 요소에 접근

In [26]:
# 1
res = req.get("https://www.melon.com/", headers=U_A)
res

<Response [200]>

In [28]:
# 2
soup = bs(res.text, "lxml")

In [30]:
# 3
mel = soup.select("span")

In [31]:
mel[0].text

'멜론티켓'

In [32]:
mel[1].text

'이용권구매'

In [33]:
for i in range(5) :
    print(mel[i].text)

멜론티켓
이용권구매
멜론혜택
이벤트
공지사항


In [39]:
soup.select("ul.menu-list > li > a > span")

[<span>멜론티켓</span>,
 <span>이용권구매</span>,
 <span>멜론혜택</span>,
 <span>이벤트</span>,
 <span>공지사항</span>]

In [34]:
# 정확히 5개만 찾기
mel = soup.select("ul.menu-list")
mel

[<ul class="menu-list">
 <li class="first_child d_melon_ticket"><a class="mlog" data="LOG_PRT_CODE=1&amp;MENU_PRT_CODE=0&amp;MENU_ID_LV1=&amp;CLICK_AREA_PRT_CODE=V08&amp;ACTION_AF_CLICK=V1" href="//ticket.melon.com/main/index.htm" title="멜론티켓"><span>멜론티켓</span></a></li>
 </ul>,
 <ul class="menu-list">
 <li class="first_child"><a class="menu01 mlog" data="LOG_PRT_CODE=1&amp;MENU_PRT_CODE=0&amp;MENU_ID_LV1=&amp;CLICK_AREA_PRT_CODE=B01&amp;ACTION_AF_CLICK=V1" href="/commerce/pamphlet/web/sale_listMainView.htm" title="이용권구매"><span>이용권구매</span></a></li>
 <li><a class="menu02 mlog" data="LOG_PRT_CODE=1&amp;MENU_PRT_CODE=0&amp;MENU_ID_LV1=&amp;CLICK_AREA_PRT_CODE=V06&amp;ACTION_AF_CLICK=V1" href="//www.melon.com/benefit/lounge/main.htm" title="멜론혜택"><span>멜론혜택</span></a></li>
 <li><a class="menu03 mlog" data="LOG_PRT_CODE=1&amp;MENU_PRT_CODE=0&amp;MENU_ID_LV1=&amp;CLICK_AREA_PRT_CODE=B03&amp;ACTION_AF_CLICK=V1" href="/event/list.htm" title="이벤트"><span>이벤트</span></a></li>
 <li class="last_chil

In [36]:
for i in mel :
    print(i.text.strip())  # strip : 문자열 앞뒤 공백 제거

멜론티켓
이용권구매
멜론혜택
이벤트
공지사항


### 5. 네이버 뉴스 기사 제목 가져오기

In [None]:
# 1. 네이버 뉴스 사이트와 통신
# 2. HTML 코드 파싱
# 3. 원하는 요소에 접근

In [40]:
# 1
url = "https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90"

res_news = req.get(url, headers=U_A)
res_news

<Response [200]>

In [41]:
# 2
soup_news = bs(res_news.text, "lxml")

In [44]:
# 3
# 클래스 명을 넣었을 때 바로 나오지 않는 이유는 다중클래스로 클래스 명 가운데 공백이 있으면 . 으로 이어붙여줘야 제대로 인식됨
news = soup_news.select("span.sds-comps-text.sds-comps-text-ellipsis.sds-comps-text-ellipsis-1.sds-comps-text-type-headline1")

In [45]:
for i in news :
    print(i.text)

"테슬라 팔고 삼성전자 사야 하나"…주판알 튕기는 서학개미
삼성전자 OLED TV, 美 컨슈머리포트 '최고의 TV' 선정
삼성전자, 홍라희 2조 주식 처분에 1%대 하락
삼성전자, MS출신 유럽 대관 전문가 영입…EU 규제 대응 강화
홍라희, 삼성전자 주식 1500만주 처분…상속세 납부 목적
삼성전자, 사상 첫 15만전자 달성…역대 최고가
삼성전자 1주도 없이 109억 매도 '폭탄'…국내외 금융사 6곳 40억 '과징금...
삼성전자·SK하이닉스, 올해 낸드플래시 생산량 감축… “초호황기 이익...
삼성전자, SK하이닉스와 메모리 수익성 좁혔다
삼성전자, 장중 1%대 상승하며 ‘15만원’ 터치…목표 주가 ‘줄상향’
