# Requests 라이브러리
- 파이썬 코드를 통해서 웹페이지의 정보를 요청해주는 라이브러리 -> 사람에게는 브라우저 역할 대신

In [6]:
import requests as req     # requests(리퀘스트) : 요청하다

In [7]:
# 1. 네이버 페이지 좀 가져와줘! (대화 주고받기)
# req 요청을 보내면 res 응답이 넘어온다. (requests -> response)
# 응답코드가 200 => 통신에 성공했다는 뜻!!
# 400 => 에러(클라이언트의 요청의 문제) -> 요청을 수정하면 통신에 성공
# 500 => 에러(서버의 응답 문제) -> 접근이 불가능

# -> 주어 동사 목적어 
# => requests한테 가져와(명령하고 있으니 소괄호) 네이버페이지를  
res = req.get("http://www.naver.com")

In [8]:
# 2. 응답코드 속에서 html 정보만 조회 (응답 html코드 태그)
res.text
# 실제로는 html 코드 아님(컴퓨터가 이해할 수 없는 코드) 
# -> 앞 뒤로 따옴표가 있으면 실제 데이터 타입은 문자열(텍스트데이터) => 변형해줘야함

'   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" 

# BeautifulSoup 라이브러리
- req로 받아온 텍스트 데이터를 컴퓨터가 이해할 수 있게 html로 변형해주는 라이브러리

In [9]:
from bs4 import BeautifulSoup as bs

In [10]:
# bs을 통해서 text 데이터 -> html (데이터로) 변형 => 파싱작업
# bs객체화를 진행한다!
soup = bs(res.text, "lxml")    # res 안에 있는 글자정보를 바꿔주세요 (lxml : 파싱방법)

# 뉴스 타이틀 정보만 수집

In [11]:
# 1. 데이터 요청
res = req.get("https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%88%88%EB%AC%BC%EC%9D%98+%EC%97%AC%EC%99%95")

In [12]:
# 2. bs데이터로 파싱
soup = bs(res.text, "lxml")

In [13]:
# 3. soup데이터 중에 뉴스 타이틀만 수집해줘!
# soup데이터 중에 a태그만 수집해줘!
    # soup.select("a")
# 위 a태그를 불러온 것은 모든 a태그를 불러온 것으로 선택자를 통해서 뉴스타이틀인 것만 가져오기

# 특정 요소를 수집하기 위해서 select 명령어 활용
# 주의점 : 명령어가 복수개를 의미 -> 리턴 데이터가 리스트 형태로 넘어온다 -> 반드시 인덱스를 활용해야 데이터 접근이 가능하다.
# 하나만 수집하고 싶은 경우 -> select_one()
title = soup.select("a.news_tit")

In [14]:
# 4. 순수한 텍스트 데이터만 새롭게 생성
titleList = []
# 비어있는 반복문에 차곡차곡 넣기
for i in title :
    # 글자만 꺼내서 비어있는 리스트에 저장해주기
    titleList.append(i.text)

In [15]:
titleList

["'눈물의 여왕', 글로벌 누적 시청 4억 6070시간…숫자로 보는 흥행 돌풍",
 "'눈물의 여왕' 김수현·김지원, 종영 이후에도 '백홍앓이'",
 "'선재 업고 튀어', '눈물의 여왕' 꺾고 화제성 올킬..역대급 기록",
 '‘눈물의 여왕’ 외신이 짚은 흥행 포인트3']

# 크롤링 할 때 기억해야하는 순서
#### *항상 먼저 내용 확인하고 변수에 담아주기!!*
#### 1. 수집하고자 하는 사이트의 정보 요청하기
    - req.get(url)
#### 2. bs을 통해서 데이터를 html로 변형시키기
    - 컴퓨터가 접근 할 수 있게
#### 3. select 함수를 통해서 필요한 요소만 수집하기
    - soup.select("선택자")
#### 4. 순수하게 필요한 정보(글자, 속성)만 재가공해주기
    - 비어있는 리스트 제작하기
#### 5. 데이터 활용
    - 데이터프레임, csv파일로 저장, 머신러닝/딥러닝의 학습데이터로 활용