# 크롤링
- 웹사이트 내 필요한 데이터(텍스트, 속성, 링크)들을 수집하는 기술
- 사람이 수집하는 프로세스를 세분화해서 작성
- 사람이 할 수 있는 수준의 수집을 진행 가능 -> 속도가 월등히 빠름
- 함수를 외우는 방식보다는, 프로세스 이해하기 + 파이썬과 대화하는 형태로 진행

# 통신에서 기초는 요청/응답
- 클라이언트가 요청(request)
- 서버가 응답(respones)

In [5]:
# 파이썬 코드를 통해서 웹페이지 정보를 받아올 수 있는 라이브러리
# 브라우저 역할을 대신해줌
import requests as req

In [13]:
# req.get("웹페이지 주소") -> 내가 원하는 웹페이지의 정보를 요청하는 기능
# response의 응답 코드가 200이어야 성공
res = req.get("https://www.naver.com/")

In [11]:
res

<Response [200]>

In [17]:
# 응답데이터 중에 html 데이터만 출력
res.text

'   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" 

In [37]:
# response 406 => 요청 문제
# why? => 브라우저가 아니고 코드로 접근해서 멜론 서버가 데이터를 리턴하지 않음
# how? => 사람인척 속이는 작업 필요(브라우저를 동반해서 보내기)
res2 = req.get("https://www.melon.com/")

In [33]:
# 개발자 도구 > Network > Doc > Name에서 링크 선택 > Headers 최하단 User-Agent
head = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36"}

In [29]:
res3 = req.get("https://www.melon.com/", headers = head)

In [35]:
res3

<Response [200]>

In [55]:
# 특정 태그만 골라와 주는 라이브러리
# res.text 는 String 데이터
# bs를 이용해서 String -> HTML로 변환하여 접근
from bs4 import BeautifulSoup as bs

In [41]:
allNews = req.get("https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EC%9D%B4%EC%83%81%EA%B8%B0%ED%9B%84")

In [59]:
# lxml: HTML을 분석하기 위한 도구
# bx(변환할 데이터, 파싱방법)
# 파싱(parsing): 데이터를 특정 규칙에 맞게 구조화된 형태로 바꾸는 작업 
soup = bs(allNews.text, "lxml")

In [None]:
# 파싱결과: 객체{태그: <span>, 속: {align:center}, 콘텐츠: "~~"}
# -> 컴퓨터가 각각의 키값을 통해서 값에 접근할 수 있음

# 파싱을 하는 이유: 컴퓨터에게 각각 태그, 속성, 컴텐츠에 접근을 시키기 위해서

In [61]:
# select("선택자")
# HTML데이터에서 특정 요소(태그, 콘텐츠)만 수집하는 것이 가능해짐
# 명확하게 요청하지 않으면 정확한 수집이 불가능
news_title = soup.select("a.news_tit")
news_title

[<a class="news_tit" href="https://biz.heraldcorp.com/article/10464396?ref=naver" onclick="return goOtherCR(this, 'a=nws_all*h.tit&amp;r=1&amp;i=8800010E_000000000000000002456757&amp;g=016.0002456757&amp;u='+urlencode(this.href));" target="_blank" title="“벚꽃 활짝인데, 눈이 와?”…황당한 4월 이상기후, 대체 왜?">“벚꽃 활짝인데, 눈이 와?”…황당한 4월 <mark>이상기후</mark>, 대체 왜?</a>,
 <a class="news_tit" href="https://news.kbs.co.kr/news/pc/view/view.do?ncd=8226528&amp;ref=A" onclick="return goOtherCR(this, 'a=nws_all*e.tit&amp;r=3&amp;i=88000114_000000000000000011930952&amp;g=056.0011930952&amp;u='+urlencode(this.href));" target="_blank" title="이상기후에 명품 참두릅 ‘냉해’ 입을까 조마조마"><mark>이상기후</mark>에 명품 참두릅 ‘냉해’ 입을까 조마조마</a>,
 <a class="news_tit" href="https://www.yna.co.kr/view/AKR20250413018900030?input=1195m" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=4&amp;i=880000D8_000000000000000015326509&amp;g=001.0015326509&amp;u='+urlencode(this.href));" target="_blank" title="LG생활건강, '그린밸류 유스' 발대식…청년 기후 활동가 육성">LG생활건강, '그린밸류 유스'

In [63]:
len(news_title)

4

In [65]:
# 우리가 수집한 new_tilte 안에는 "요소"가 들어있음
# 우리가 필요한건? content
# 해결법 -> 수집된 "요소"에서 "content"만 뽑아내기
news_title[0].text

'“벚꽃 활짝인데, 눈이 와?”…황당한 4월 이상기후, 대체 왜?'

In [87]:
# 반복문을 활용해서 모든 제목 데이터만 출력
# + 활용을 위해서 제목 텍스트만 담을 리스트를 생성
title_list = []
for i in news_title:
    title_list.append(i.text)
    print(i.text)

“벚꽃 활짝인데, 눈이 와?”…황당한 4월 이상기후, 대체 왜?
이상기후에 명품 참두릅 ‘냉해’ 입을까 조마조마
LG생활건강, '그린밸류 유스' 발대식…청년 기후 활동가 육성
기후위기 대응은 국가 지도자의 시대적 사명


In [79]:
# pandas를 통해서 시각화
import pandas as pd

In [93]:
data = pd.DataFrame(title_list, columns=["제목"])
data

Unnamed: 0,제목
0,"“벚꽃 활짝인데, 눈이 와?”…황당한 4월 이상기후, 대체 왜?"
1,이상기후에 명품 참두릅 ‘냉해’ 입을까 조마조마
2,"LG생활건강, '그린밸류 유스' 발대식…청년 기후 활동가 육성"
3,기후위기 대응은 국가 지도자의 시대적 사명
