# Crowling
- 사람이 하는 데이터 수집을 컴퓨터에게 명령을 내리는 기술
- 많은 양의 데이터를 수집하는 경우에 활용(리뷰, 블로그글, 뉴스, 카페글.. 등의 raw data 수집)
- 핵심 : 사람이 하는 행위를 세분화해서 명령을 내려야 한다.

## 통신의 기초
- 통신은 요청(request)과 응답(response)의 구조로 이루어 진다.
- 사람들은 사이트를 보기 위해서 브라우저로 요청 => 서버는 브라우저에게 응답
- 파이썬으로 사이트를 요청하면 => 서버는 파이썬에게 응답 => 라이브러리 필요하다.

## requests 라이브러리 
- 브라우저 없이, 파이썬으로 서버에게 데이터를 요청하는 라이브러리

In [8]:
import requests as req

In [9]:
# 주어 동사 목적어 형식으로 명령 내리면된다.
# 1. 특정 사이트의 정볼르 요청 => 사람이 브라우저로 사이트 방문
# 프로그램이에서 주어라는것은 브라우저에 명령해야한다. 
# 이후 . 으로 다음 명령을 넣어라.

# 메개변수 parameter는 요청에 필요한 정보들이다.
res = req.get("https://www.naver.com")

##  요청이 발생하면 반드시 응답이 넘어온다. 
- 응답코드 3가지 종류
- 200 : 통신에 성공했다. But 완벽하게 데이터가 넘어왔는지는 모른다.
- 400 : 통신에 실패했다. => 요청하는 client(브라우저, 파이썬)이 잘못된 요청을 했다.  
- 500 : 통신에 실패했다. => 응답하는 server(사이트)가 잘못되었다.
- 400이 나오면 코드로 수정이 가능, 500이 나오면 접근이 불가능

In [10]:
# 2. 응답은 res에서 필요한 html글자만 출력 
# key 값을 꺼내오니깐 () 하수가 없다.
a = res.text
a

'   <!doctype html> <html lang="ko" class="fzoom"> <head> <meta charset="utf-8"> <meta name="Referrer" content="origin"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <title>NAVER</title> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" 

## res로 받아온 데이터는 String 타입의 데이터다.
- 컴퓨터는 웹에서 특정 요소를 지칭하렴녀 태그로 소통이 가능
- 문제점 : 넘겨받은 데이터가 String 타입의 데이터다. 
- 해결책 : String => HTML로 변형(parsing)
-  형변환 => 파싱(Parsing)  : string => html
-  html => xml => json
- 파일을 넘길대도 parsing 해야한다. 

In [11]:
# 문자를 html로 변환해주는 라이브러리 => req와 세트로 활용된다.

# import 방법이 좀 다를 수 있다. 
# package안에 들어있는 library를 가져오는 방법 bs4 package 안에 있는 BeautifulSoup을 가지고와서 bs라는 이름을 붙여서 사용하겠다.
from bs4 import BeautifulSoup as bs

In [None]:
# lxml parser가 없을 경우 설치
#!pip install lxml

# req의 내용중 text를 lxml parser 이용해서 변환한다.
# 다른 parser도 있지만 lxml이 가장 빠르고 안정적이다.
# lxml parser로 html 파일로 parsing
# response의 내용은 많은것들이 들어있다. 그중 text만을 =>html parsing
bs(res.text, "lxml")



<!DOCTYPE html>
<html class="fzoom" lang="ko"> <head> <meta charset="utf-8"/> <meta content="origin" name="Referrer"/> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <title>NAVER</title> <meta content="NAVER" name="apple-mobile-web-app-title"/> <meta content="index,nofollow" name="robots"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"/> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"/> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양

### 정리 
1) 사이트를 요청하기 위해서 req를 활용한다.
2) 응답코드가 200인지 확인하다 (통신성공)
3) bs을 통해서 html데이터로 변환한다.
4) 데이터 수집
5) 데이터 가공
6) 데이터 활용

In [13]:
# 사이트들어가서 제목을 가져온다. https://zdnet.co.kr/news/?lstcode=0000&page=1
# 제목을 가지고와서 파일로 저장한다.

