In [1]:
from urllib import parse
from bs4 import BeautifulSoup
import requests

 # urllib 패키지를 이용한 URL 다루기
- urllib 패키지
     - URL 작업을 위한 여러 모듈을 모은 패키지
- 주요모듈
    - urllib.request: URL을 열고 요청을 위한 모듈
    - urllib.parse: URL 구문 분석을 위한 모듈
    - urllib.robotparser: robots.txt 파일을 구문 분석하기 위한 모듈

In [2]:
# www.naver.com/robts.txt
# www.daum.net/robots.txt

# robots.txt는?
# 크롤링이 된다 안된다의 일종의 안내같은 것. 해도 되는지 안되는지 가이드같은 것.

## URL (Uniform Resource Locator) 이란
- 네트워크 상의 자원(html문서, 이미지 등등) 이 어디에 있는지 그 위치를 식별하기 위한 규약
    - 인터넷상의 웹페이지등을 찾기 위한 주소를 말한다.
- [위키백과](https://ko.wikipedia.org/wiki/URL)

### URL의 구성요소
- 구문
    - ` scheme:[//[user:password@]host[:port]][/]path[?query][#fragment]`
    
- 스키마(schema): 통신 방식
- 호스트(host): 서버 주소
- 포트번호(port): 서버 프로세스를 구분하는 식별번호
- 패스(path): 서버에서 문서의 위치
- 쿼리(query): 문서에 전달하는 추가 정보

In [3]:
# fragment 그 페이지의 특정한 곳으로 이동하는 것.

### URL 예

```
https://search.naver.com:80/search.naver?sm=top_hty&fbm=1&ie=utf8&query=scraping
```

- 스키마(scheme): `https://`
- 호스트(host): `search.naver.com`
- 포트번호(port): `80`. 웹브라우저들은 port 번호 생략시 80으로 전송된다.
- 자원경로(path): `search.naver`
- 쿼리스트링(query): `?sm=top_hty&fbm=1&ie=utf8&query=scraping`

## urllib.parse 모듈을 이용한 URL 다루기
- 파이썬 내장모듈로 url과 관련된 다양한 기능을 제공하는 모듈
    - url 구문 분석
    - url 경로 합치기    

### url 분석 (parsing)
- urllib.parse 모듈의 urlparse()함수 이용
- **urlparse(분석할 URL) : ParseResult**
- ParseResult의 속성을 이용해 url 구성요소 조회
    - scheme, hostname, port, path, query

In [4]:
# 주로 경로 합치기를 많이 사용함.

url = 'https://search.naver.com:80/search.naver?sm=top_hty&fbm=1&ie=utf8&query=scraping'

In [5]:
p1 = parse.urlparse(url)
type(p1)

urllib.parse.ParseResult

In [6]:
p1.scheme, p1.hostname, p1.port, p1.path, p1.query

('https',
 'search.naver.com',
 80,
 '/search.naver',
 'sm=top_hty&fbm=1&ie=utf8&query=scraping')

### url 합치기
크롤링시 같은 사이트의 여러 다른 자원을 조회하는 경우가 많다. 이럴때 host는 동일하고 path 이후가 바뀐다. 그래서 중복되는 url을 base url 로 지정하고 바뀌는 부분만 붙여서 url을 완성하면 편리하다.
- **parse.urljoin(base, url)**
    - base+'/'+url 형태로 합쳐 준다.

In [7]:
base_url = 'https://news.naver.com'

path1 = '/news.nhn?oid=442&aid=0000120587'
path2 = '/news.nhn?oid=236&aid=0000204651'
path3 = '/news.nhn?oid=109&aid=0004244616'

# 네이버는 이렇게 URL을 전부 써놓지 않는다. 붙여줘야 함.
# 다음은 다 붙어있음!

In [8]:
parse.urljoin(base_url, path1)

'https://news.naver.com/news.nhn?oid=442&aid=0000120587'

In [9]:
path_list = [path1, path2, path3]

for path in path_list:
    url = parse.urljoin(base_url, path)
    print(url, '요청처리')

https://news.naver.com/news.nhn?oid=442&aid=0000120587 요청처리
https://news.naver.com/news.nhn?oid=236&aid=0000204651 요청처리
https://news.naver.com/news.nhn?oid=109&aid=0004244616 요청처리


# requests 모듈을 이용한 웹 요청
- [Requests 홈페이지](https://requests.kennethreitz.org/en/master/)
- **HTTP 요청을 처리하는 파이썬 패키지**
- get/post 방식 모두를 지원하며 쿠키, 헤더정보등을 HTTP의 다양한 요청처리를 지원한다.
- 내장 라이브러리가 아니므로 인스톨이 필요
    - 아나콘다 배포판에는 내장되어 있어 별도의 인스톨이 필요없다.
    - `pip install requests`
    - `conda install -c conda-forge requests`

## 요청 함수
- get(): GET방식 요청
- post(): POST방식 요청

## requests.get(URL)
- **GET 방식 요청**
- **주요 매개변수**
    - params: 요청파라미터를 dictionary로 전달
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - Response

## requests.post(URL)
- **POST 방식 요청**
- **주요 매개변수**
    - datas : 요청파라미터를 dictionary로 전달
    - files : 업로드할 파일을 dictionary로 전달
        - key: 이름, value: 파일과 연결된 InputStream(TextIOWrapper)
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - Response    

> ### HTTP 요청 헤더(Request Header)
> HTTP 요청시 웹브라우저가 client의 여러 부가적인 정보들을 Key-Value 쌍 형식으로 전달한다.
> - accept: 클라이언트가 처리가능한 content 타입 (Mime-type 형식으로 전달)
> - accept-language: 클라이언트가 지원하는 언어(ex: ko, en-US)
> - host: 요청한 host 
> - user-agent: 웹브라우저 종류

## Response객체 - 요청 결과
- get()/post() 의 요청 결과를 Response에 담아 반환
    - Response의 속성을 이용해 응답결과를 조회
- 주요속성
    - url: 응답 받은(요청한) url 
    - status_code: HTTP 응답 상태코드
    - headers: 응답 header 정보를 dictionary로 반환
- **응답 결과 조회**
    - text: 응답내용을 
    - content: 응답내용(응답결과가 binary 일 경우 - image, 동영상등)
    - json()
        - 응답 결과가 JSON 인 경우 dictionary로 변환해서 반환

> ### JSON(JavaScript Object Notation)
> key-value 형태 또는 배열 형태의 text이며 이 기종간 데이터 교환에 많이 사용된다. 자바스크립트 언어에서 Object와 array를 생성하는 문법을 이용해 만듬. 
- [JSON 공식사이트](http://json.org)
>
> ### json 모듈
> JSON 형식 문자열을 다루는 모듈
> - json.loads(json문자열)
>    - JSON 형식 문자열을 dictionary로 변환
> - json.dumps(dictionary)
>    - dictionary를 JSON 형식 문자열로 변환

> ### HTTP 응답 상태코드
> - https://developer.mozilla.org/ko/docs/Web/HTTP/Status 
- 2XX: 성공
    - 200: OK
- 3XX: 다른 주소로 이동 (이사)
    - 300번대이면 자동으로 이동해 준다. 크롤링시는 볼일이 별로 없다.
- 4XX: 클라이언트 오류 (사용자가 잘못한 것)
  - 404: 존재하지 않는 주소
- 5XX: 서버 오류 (서버에서 문제생긴 것)
  - 500: 서버가 처리방법을 모르는 오류
  - 503: 서버가 다운 등의 문제로 서비스 불가 상태

In [10]:
response = requests.get('https://www.daum.net')
print(type(response), response)

<class 'requests.models.Response'> <Response [200]>


In [11]:
response.status_code == 200

# 실제로 확인할 때 요거 많이 쓴다.

True

In [12]:
print(response.text)

<!DOCTYPE html>
<html lang="ko" class="">
<head>
<meta charset="utf-8"/>
<title>Daum</title>
<meta property="og:url" content="https://www.daum.net/">
<meta property="og:type" content="website">
<meta property="og:title" content="Daum">
<meta property="og:image" content="//i1.daumcdn.net/svc/image/U03/common_icon/5587C4E4012FCD0001">
<meta property="og:description" content="나의 관심 콘텐츠를 가장 즐겁게 볼 수 있는 Daum">
<meta name="msapplication-task" content="name=Daum;action-uri=https://www.daum.net/;icon-uri=/favicon.ico">
<meta name="msapplication-task" content="name=미디어다음;action-uri=https://news.daum.net/;icon-uri=/media_favicon.ico">
<meta name="msapplication-task" content="name=메일;action-uri=http://mail.daum.net;icon-uri=/mail_favicon.ico">
<meta name="referrer" content="origin">
<link rel="search" type="application/opensearchdescription+xml" href="//search.daum.net/OpenSearch.xml" title="다음">
<script type="text/javascript" src="//t1.daumcdn.net/tiara/js/v1/tiara.min.js"></script>
<style type="

### Get 방식 요청 예제

In [13]:
base_url = 'http://httpbin.org/'

In [14]:
url = parse.urljoin(base_url, 'get')
# print(url)
res = requests.get(url)
print(res.status_code)

if res.status_code == 200:
    print(res.text) # 딕셔너리 형태이기때문에 굳이 문자열로 바꿔서 쓸 필요가 없다.
    result_json = res.json() # JSON 문자열을 Dictionary로 변환
    print(type(result_json))
    print(result_json.get('origin'), result_json.get('url'))
    
    print(result_json.get('headers').get('User-Agent')) # 딕셔너리 안에 딕셔너리.
else:
    print('잘못된 응답', res.status_code)

200
{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0", 
    "X-Amzn-Trace-Id": "Root=1-5f185e45-8fecb61de40c7e4afc551231"
  }, 
  "origin": "211.178.26.126", 
  "url": "http://httpbin.org/get"
}

<class 'dict'>
211.178.26.126 http://httpbin.org/get
python-requests/2.22.0


In [15]:
params = {
    'name':'Hong', # 같은 이름으로 여러개 보낼 때는 리스트로 묶어서 보내주면 된다. ['Hong', 'Kim', 'Lee']
    'age':30,
}

# User-Agent header 설정
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}

# 쿠키이이이
cookies = {
    'c1':'cookie value 1',
    'c2':'cookie value 2',
}



res = requests.get(url, params=params, headers=headers, cookies=cookies)
print(res.status_code)

if res.status_code == 200:
    print(res.text) # 딕셔너리 형태이기때문에 굳이 문자열로 바꿔서 쓸 필요가 없다.
    result_json = res.json() # JSON 문자열을 Dictionary로 변환
    print(type(result_json))
    print(result_json.get('origin'), result_json.get('url'))
    
    print(result_json.get('headers').get('User-Agent')) # 딕셔너리 안에 딕셔너리.
else:
    print('잘못된 응답', res.status_code)

200
{
  "args": {
    "age": "30", 
    "name": "Hong"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Cookie": "c1=cookie value 1; c2=cookie value 2", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-5f185e45-e74eb6cde74850253c1748a3"
  }, 
  "origin": "211.178.26.126", 
  "url": "http://httpbin.org/get?name=Hong&age=30"
}

<class 'dict'>
211.178.26.126 http://httpbin.org/get?name=Hong&age=30
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36


In [16]:
# User Agent 중요하다. 
# 구글에 my user agent 검색하면 내꺼 나옴.

# Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36
# 쨔잔

In [17]:
# 값이 안올 때 확인해야할거 유저에이전트, 레퍼러, 쿠키 이 세 가지 확인해봐야함.

In [18]:
# image (binary 파일) - 응답. response.content
url = parse.urljoin(base_url, 'image/jpeg')
print(url)

res = requests.get(url)
print(res.status_code)

if res.status_code == 200:
    with open('image.jpg', 'wb') as f: # 쓸 꺼고 바이너리
        f.write(res.content)

http://httpbin.org/image/jpeg
200


### Post 요청 예

In [19]:
url = parse.urljoin(base_url, 'post')
print(url)

# 요청 파라미터
data = {
    'name':'kim',
    'age':20,
}

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
}



res = requests.post(url, data=data, headers=headers)
print(res.status_code)
if res.status_code == 200:
    print(res.text)
    print(res.json())

http://httpbin.org/post
200
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "age": "20", 
    "name": "kim"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "15", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-5f185e46-67f1654683d9528c617ba118"
  }, 
  "json": null, 
  "origin": "211.178.26.126", 
  "url": "http://httpbin.org/post"
}

{'args': {}, 'data': '', 'files': {}, 'form': {'age': '20', 'name': 'kim'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Content-Length': '15', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'httpbin.org', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36', 'X-Amzn

In [20]:
# 뷰티풀습은 태그 기반으로 왔을 때 쓰는 것.

### 응답결과(Response) 조회

In [21]:
url = 'http://www.pythonscraping.com/pages/warandpeace.html'
print(url)

http://www.pythonscraping.com/pages/warandpeace.html


In [22]:
# 형광색 단어 크롤링

res = requests.get(url)
print(res.status_code) # 항상 이걸로 확인해주자.

if res.status_code == 200:
    soup = BeautifulSoup(res.text)
    greens = soup.select('span.green')
#     print(greens)
    green_words = [tag.text.replace('\n', ' ') for tag in greens] # 엔터 빼주기. replace써도되고 정규식 써도 됨.
else:
    print('요청 실패', res.status_code)

200


In [23]:
green_words

['Anna Pavlovna Scherer',
 'Empress Marya Fedorovna',
 'Prince Vasili Kuragin',
 'Anna Pavlovna',
 'St. Petersburg',
 'the prince',
 'Anna Pavlovna',
 'Anna Pavlovna',
 'the prince',
 'the prince',
 'the prince',
 'Prince Vasili',
 'Anna Pavlovna',
 'Anna Pavlovna',
 'the prince',
 'Wintzingerode',
 'King of Prussia',
 'le Vicomte de Mortemart',
 'Montmorencys',
 'Rohans',
 'Abbe Morio',
 'the Emperor',
 'the prince',
 'Prince Vasili',
 'Dowager Empress Marya Fedorovna',
 'the baron',
 'Anna Pavlovna',
 'the Empress',
 'the Empress',
 "Anna Pavlovna's",
 'Her Majesty',
 'Baron Funke',
 'The prince',
 'Anna Pavlovna',
 'the Empress',
 'The prince',
 'Anatole',
 'the prince',
 'The prince',
 'Anna Pavlovna',
 'Anna Pavlovna']

In [24]:
#text > p:nth-child(15) > span

In [30]:
# 빨간색 크롤링

if res.status_code == 200:
    soup = BeautifulSoup(res.text)
    reds = soup.select('span.red')
#     print(reds)
    red_text = [red.text.replace('\n', ' ') for red in reds]

In [31]:
red_text

["Well, Prince, so Genoa and Lucca are now just family estates of the Buonapartes. But I warn you, if you don't tell me that this means war, if you still try to defend the infamies and horrors perpetrated by that Antichrist- I really believe he is Antichrist- I will have nothing more to do with you and you are no longer my friend, no longer my 'faithful slave,' as you call yourself! But how do you do? I see I have frightened you- sit down and tell me all the news.",
 'If you have nothing better to do, Count [or Prince], and if the prospect of spending an evening with a poor invalid is not too terrible, I shall be very charmed to see you tonight between 7 and 10- Annette Scherer.',
 'Heavens! what a virulent attack!',
 "First of all, dear friend, tell me how you are. Set your friend's mind at rest,",
 'Can one be well while suffering morally? Can one be calm in times like these if one has any feeling?',
 'You are staying the whole evening, I hope?',
 "And the fete at the English ambassa