# Requests 라이브러리
- 파이썬 코드를 통해서 웹페이지의 정보를 요청해주는 라이브러리 -> 브라우저 역할 대신

In [1]:
import requests as req

In [2]:
# 1. 네이버 페이지 좀 가져와줘!
# req 요청을 보내면 response 응답이 넘어온다.
# 응답 코드 200 ->통신에 성공했습니다.
# 응답 코드 400 -> 에러 (클라이언트의 요청의 문제) -> 요청을 수정하면 통신에 성공 // JAVA Script 문제
# 응답 코드 500 -> 에러 (서버의 응답 문제) -> 접근이 불가능 // DB, JSP 문제
res = req.get("http://www.naver.com")

In [3]:
# 2. 응답코드 속에서 html 정보만 조회
res.text

'   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" 

# BeautifulSoup 라이브러리
- req로 받아온 텍스트 데이터를 컴퓨터가 이해할 수 있게 html로 변형해주는 라이브러리

In [4]:
from bs4 import BeautifulSoup as bs

In [11]:
# bs을 통해서 text -> html 변형 => 파싱 작업
# bs 객체화를 진행한다!
soup = bs(res.text, "lxml")
# lxml -> 파싱 형태

<!DOCTYPE html>
<html lang="ko"><head> <meta charset="utf-8"/> <meta content="always" name="referrer"/> <meta content="telephone=no,address=no,email=no" name="format-detection"/> <meta content="알파벳a 주가 : 네이버 통합검색" property="og:title"/> <meta content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png" property="og:image"/> <meta content="'알파벳a 주가'의 네이버 통합검색 결과입니다." property="og:description"/> <meta content="'알파벳a 주가'의 네이버 통합검색 결과입니다." lang="ko" name="description"/> <title>알파벳a 주가 : 네이버 통합검색</title> <link href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico" rel="shortcut icon"/> <link href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" rel="search" title="Naver" type="application/opensearchdescription+xml"/><script> if (top.frames.length!=0 || window!=top) window.open(location, "_top"); </script><link href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_240314.css" rel="stylesheet" type="text/css"/> <link href="https://ssl.ps

# 뉴스의 타이틀 정보만 수집

In [6]:
# 1. 데이터 요청
res = req.get("https://search.naver.com/search.naver?where=nexearch&sm=top_sly.hst&fbm=0&acr=1&acq=%EC%95%8C%ED%8C%8C%EB%B2%B3+&qdt=0&ie=utf8&query=%EC%95%8C%ED%8C%8C%EB%B2%B3a+%EC%A3%BC%EA%B0%80")

In [7]:
# 2. bs 데이터로 파싱 작업 해주기
soup = bs(res.text, 'lxml')

In [8]:
# 3. sopu 데이터 중 뉴스 타이틀만 수집해줘
# soup 데이터 중에 a 태그만 수집해줘
# 특정 요소를 수집하기 위해서 select 명령어 활용
# 주의점 : select 명령어가 복수개를 의미 -> 리턴 데이터가 리스트 형태로 넘어온다.
# 반드시 인덱스를 활용해야 데이터 접근이 가능함
# 하나만 수집하고 싶은 경우 -> select_one()
title = soup.select("a.news_tit")

In [9]:
# 3. 순수한 텍스트 데이터만 새롭게 생성
# 엘리먼트 요소들을 가져온 것이니 컨텐츠를 꺼내와야함
# title[0].text 이걸 반복하고, 반복 후 빈 리스트에 가져온 텍스트를 담을 거야
titleList = []
for i in title :
    # 글자만 꺼내서 비어있는 리스트에 저장
    titleList.append(i.text)

In [10]:
titleList

['[미국주식] 증시 혼조…MS·엔비디아·테슬라·디즈니 등 주가↓ 알파벳은↑',
 '[미국주식] 증시 아직 ‘땡큐’ 연준…애플·알파벳·엔비디아·아마존 등 주...',
 "미국증시 나스닥100 상승...테슬라 '폭등', 애플 '급등', 알파벳A '뚝'",
 '[미국주식] 증시, 머스크 핫이슈…테슬라·애플·아마존 등 주가↑, MS·메타...']

# 크롤링할 때 기억해야 하는 순서
1) 수집하고자 하는 사이트의 정보를 요청 -> req.get(url)
2) bs를 통해서 데이터를 html로 변형 -> 컴퓨터가 접근할 수 있게
3) select 함수를 통해서 필요한 요소만 수집 -> soup.select("선택자")
4) 순수하게 필요한 정보(글자, 속성)만 재가공 -? 비어있는 리스트 제작
5) 데이터를 활용 -> 데이터 프레임을 통한 시각화, csv 파일로 저장, 머신러닝, 딥러닝의 학습 데이터로의 활용