# 파이썬 웹크로울링

## request 모듈
- http는 요청과 응답으로 이루어져 있다.
- 사용자가 원하는 정보를 요청하게 되면, 서버는 해당 요청을 확인 후 적절한 응답을 해주는 구조
- 사용자가 서버에 요청을 할 때 크게 4가지로 구분하여 요청을 함
    - get : 정보를 가져오기 위해 요청
    - post : 새로운 정보를 보내기 위해 요청
    - put : 수정할 정보를 보내기 위해 요청
    - delete : 정보를 삭제하기 위한 요청
- HTTP의 응답
    - 1XX : 요청을 받았으나, 아직 작업이 진행 중
    - 2XX : 사용자의 요청이 성공적으로 수행되었을 때
    - 3XX : 요청이 완료되었으나, 리다이렉션이 필요할 때
    - 4XX : 사용자의 요청이 잘못되었을 때
    - 5XX : 서버에 오류가 발생

- requests 모듈을 활요해주는 사이트도 존재
* https://requests.readthedocs.io/projects/3/#
* 데이터와 함께 post요청
    - post (url, data=XX)
    - post (url, files=XX)
* 헤더, 쿠기를 함께 get요청
    - get(url, headers=XX, cookies=XX)
* 인코딩 설정
    - encoding="utf-8"

In [1]:
import requests

In [2]:
url='https://www.naver.com/'
response=requests.get(url)
print(response)

<Response [200]>


In [3]:
print(response.status_code)

200


In [4]:
response.text

'\n<!doctype html>                     <html lang="ko" data-dark="false"> <head> <meta charset="utf-8"> <title>NAVER</title> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=1190"> <meta name="apple-mobile-web-app-title" content="NAVER"/> <meta name="robots" content="index,nofollow"/> <meta name="description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta property="og:title" content="네이버"> <meta property="og:url" content="https://www.naver.com/"> <meta property="og:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta property="og:description" content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요"/> <meta name="twitter:card" content="summary"> <meta name="twitter:title" content=""> <meta name="twitter:url" content="https://www.naver.com/"> <meta name="twitter:image" content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png"> <meta name="twitter:description" content="네이버 메인에서

In [7]:
url='https://search.naver.com/search.naver'
params={'query':'aaa'}
response=requests.get(url,params=params)
print(response)
response.text

<Response [200]>


'<!doctype html> <html lang="ko"> <head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=2.0"> <meta property="og:title" content="aaa : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'aaa\'의 네이버 통합검색 결과입니다."> <meta name="description" lang="ko" content="\'aaa\'의 네이버 통합검색 결과입니다."> <title>aaa : 네이버 통합검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_200528.css"> <link rel="stylesheet" type="text/css" href

In [9]:
url='https://comic.naver.com/webtoon/list.nhn'
params={'titleId':570503,'no':307}
response=requests.get(url,params=params)
print(response)
response.text

<Response [200]>


'\r\n\r\n\r\n  \r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n<!DOCTYPE html>\r\n<html lang="ko">\r\n<head>\r\n\t\r\n\t\t\r\n\t\t\r\n\t\t\r\n\t\t\r\n\t\t<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\r\n\t\t\r\n\t<meta http-equiv="Content-type" content="text/html; charset=UTF-8">\r\n\t<title>연애혁명 :: 네이버 만화</title>\r\n\t\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n    \r\n    \r\n    \r\n        <meta property="og:title" content="연애혁명">\r\n        <meta property="og:image" content="https://shared-comic.pstatic.net/thumb/webtoon/570503/thumbnail/thumbnail_IMAG19_c04fd4ec-8bbf-4765-ab13-2281b1eb254e.jpg" >\r\n        <meta property="og:description" content="로맨스, 그런 건 우리에게 있을 수가 없어!신개념 개그 로맨스">\r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n\r\n\r\n<meta property="og:url" content="https://comic.naver.com/webtoon/list.nhn?titleId=570503&amp;no=307" >\r\n<meta property="og:type" content="article" >\r\n<meta property="og:article:auth

In [11]:
url='https://www.google.co.kr/search'
params={'q':'python'}
response=requests.get(url,params=params)
print(response)
a=response.text.split('\n')
for b in a:
    print(b)

<Response [200]>
<!doctype html><html lang="ko"><head><meta charset="UTF-8"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>python - Google 검색</title><script nonce="BuXAMTsAj3BGnG1Khssa3A==">(function(){
document.documentElement.addEventListener("submit",function(b){var a;if(a=b.target){var c=a.getAttribute("data-submitfalse");a="1"==c||"q"==c&&!a.elements.q.value?!0:!1}else a=!1;a&&(b.preventDefault(),b.stopPropagation())},!0);document.documentElement.addEventListener("click",function(b){var a;a:{for(a=b.target;a&&a!=document.documentElement;a=a.parentElement)if("A"==a.tagName){a="1"==a.getAttribute("data-nohref");break a}a=!1}a&&b.preventDefault()},!0);}).call(this);(function(){
var a=window.performance;window.start=Date.now();a:{var b=window;if(a){var c=a.timing;if(c){var d=c.navigationStart,f=c.responseStart;if(f>d&&f<=window.start){window.start=f;b.wsrt=f-d;break a}}a.now&&(b.wsrt=Math.floor(a.now()))}}window.google=window.googl