# 크롤링
- 웹사이트 내 필요한 데이터(텍스트, 속성, 링크)들을 수집하는 기술
- 사람이 수잡하는 프로세스를 세분화해서 작성
- 사람이 할 수 있는 수준의 수집을 진행 >> 속도가 빠르다
- 함수를 외우지말고 이해하자

# 통신에서 기초는 요청/응답
- 클라이언트가 요청(request)
- 서버가 응답 (response)

In [1]:
# 파이썬 코드를 통해서 웹페이지 정보를 받아올 수 있는 라이브러리
# 브라우저 역할을 대신
import requests as req

In [2]:
# req.get() >> 웹페이지 주소를 매개변수로 담는다 (내가 원하는 웹페이지 정보 요청)
res = req.get("https://www.naver.com/")

In [3]:
res
# 응답 코드

<Response [200]>

In [6]:
# 응답데이터 중 html 데이터만 출력
res.text

'   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" 

In [10]:
# 406 >> 요청 문제
# why? 브라우저가 아닌 코드로접근해서 서버가 데이터를 리턴하지 않음
# how? 사람인척 (브라우저 동반)
res2 = req.get("https://www.melon.com/")

In [15]:
head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36"}

In [16]:
res3 = req.get("https://www.melon.com/", headers=head)

In [17]:
res3

<Response [200]>

In [18]:
# res.text >> String 으로 반환
# bs를 이용해서 String > html로 변환하여 접근
from bs4 import BeautifulSoup as bs

In [27]:
allNews = req.get("https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query=%EC%9D%B4%EC%83%81%EA%B8%B0%ED%9B%84")

In [26]:
# 변환할 데이터와 파싱하는 방법이 필요하다
# 파싱이랑 데이터를 특정 규칙에 맞게 구조화된 형태로 바꾸는 작업
soup = bs(allNews.text, "lxml") # >> 분석 코드

In [None]:
# 파싱 결과 : 객체형태 {태그 : <span>, 속성:{align:center}, 콘텐츠:"~~"}
# 각각의 키값을 통해서 값에 접근

# 하는 이유 : 각각 태그, 속성, 컨텐츠에 접근을 시키기 위해

In [36]:
# select 선택자 작성
# HTML 데이터에서 특정 요소만 수집가능
# 명확하게 요청하자
news_title = soup.select("a.news_tit")

In [34]:
news_title

[<a class="news_tit" href="https://biz.heraldcorp.com/article/10464396?ref=naver" onclick="return goOtherCR(this, 'a=nws_all*h.tit&amp;r=1&amp;i=8800010E_000000000000000002456757&amp;g=016.0002456757&amp;u='+urlencode(this.href));" target="_blank" title="“벚꽃 활짝인데, 눈이 와?”…황당한 4월 이상기후, 대체 왜?">“벚꽃 활짝인데, 눈이 와?”…황당한 4월 <mark>이상기후</mark>, 대체 왜?</a>,
 <a class="news_tit" href="https://news.kbs.co.kr/news/pc/view/view.do?ncd=8226528&amp;ref=A" onclick="return goOtherCR(this, 'a=nws_all*e.tit&amp;r=3&amp;i=88000114_000000000000000011930952&amp;g=056.0011930952&amp;u='+urlencode(this.href));" target="_blank" title="이상기후에 명품 참두릅 ‘냉해’ 입을까 조마조마"><mark>이상기후</mark>에 명품 참두릅 ‘냉해’ 입을까 조마조마</a>,
 <a class="news_tit" href="https://www.yna.co.kr/view/AKR20250413018900030?input=1195m" onclick="return goOtherCR(this, 'a=nws_all*a.tit&amp;r=4&amp;i=880000D8_000000000000000015326509&amp;g=001.0015326509&amp;u='+urlencode(this.href));" target="_blank" title="LG생활건강, '그린밸류 유스' 발대식…청년 기후 활동가 육성">LG생활건강, '그린밸류 유스'

In [37]:
# 4개 이유
len(news_title)

4

In [38]:
# 수집한 news_title 안에는 요소가있다
# 필요한건 content 
# 해결법 수집된 요소에서 content만 추출

news_title[0].text

'“벚꽃 활짝인데, 눈이 와?”…황당한 4월 이상기후, 대체 왜?'

In [45]:
# 반복문
# 활용을 위해 리스트에 담긴
title_list = []
for i in news_title :
    title_list.append(i.text)

In [43]:
import pandas as pd

In [46]:
data = pd.DataFrame(title_list, columns=["제목"])

In [47]:
data

Unnamed: 0,제목
0,"“벚꽃 활짝인데, 눈이 와?”…황당한 4월 이상기후, 대체 왜?"
1,이상기후에 명품 참두릅 ‘냉해’ 입을까 조마조마
2,"LG생활건강, '그린밸류 유스' 발대식…청년 기후 활동가 육성"
3,기후위기 대응은 국가 지도자의 시대적 사명
