# Python 웹 관련 라이브러리

- ## 웹서버 프로그래밍
    - (**Web Framework**)
    - Django, Flask
    
- ## 웹 클라이언트 프로그래밍
    - urllib 패키지; 고수준 API 제공
    - urllib.parse, urllib.request, urllib.error 등

- ## http 패키지
    - 저수준 API 제공
    - 웹 클라이언트용 API
        - http.client 등
    - 웹 서버용 API
        - http.cookie 등
    

# 1. 웹 클라이언트 라이브러리

## urllib.parse 모듈
- URL의 분해, 조립, 변경, 및 URL 문자 인코딩, 디코딩을 처리하는 함수를 제공
- https://docs.python.org/ko/3/library/urllib.parse.html

In [4]:
import urllib

In [5]:
from urllib.parse import urlparse
result = urlparse('https://docs.python.org/ko/3/library/urllib.parse.html')
print(result)

ParseResult(scheme='https', netloc='docs.python.org', path='/ko/3/library/urllib.parse.html', params='', query='', fragment='')


#### Paesing(파싱), Paser
- 파싱
    -  파싱((syntactic) parsing)은 일련의 문자열을 의미있는 토큰(token)으로 분해하고 이들로 이루어진 파스 트리(parse tree)를 만드는 과정을 말한다. https://ko.wikipedia.org/wiki/%EA%B5%AC%EB%AC%B8_%EB%B6%84%EC%84%9D
    - 인터넷에 주어진 정보를 가공하여 서버에서 불러올 수 있도록 하는 것
- <-> 크롤링
    - 조직적, 자동화 된 방법으로 웹을 탐색하며 데이터를 수집하는 작업
- parser
    - 파싱을 하는 프로그램
    

----

## urllib.request 모듈
- URL에서 데이터를 가져옴
- https://docs.python.org/ko/3.10/library/urllib.request.html

헤더 출력

In [11]:
import urllib.request

a=urllib.request.urlopen('https://docs.python.org/ko/3.10/library/urllib.request.html')
headers = a.getheaders()
for i in headers:
    print(i)

('Connection', 'close')
('Content-Length', '198409')
('Server', 'nginx')
('Content-Type', 'text/html')
('Last-Modified', 'Wed, 03 Feb 2021 15:00:02 GMT')
('ETag', '"601aba72-30709"')
('X-Clacks-Overhead', 'GNU Terry Pratchett')
('Strict-Transport-Security', 'max-age=315360000; includeSubDomains; preload')
('Via', '1.1 varnish, 1.1 varnish')
('Accept-Ranges', 'bytes')
('Date', 'Thu, 04 Feb 2021 00:36:04 GMT')
('Age', '17667')
('X-Served-By', 'cache-lga21924-LGA, cache-hnd18745-HND')
('X-Cache', 'MISS, HIT')
('X-Cache-Hits', '0, 1')
('X-Timer', 'S1612398964.076692,VS0,VE1')
('Vary', 'Accept-Encoding')


URL 상태 코드 출력

In [13]:
a=urllib.request.urlopen('https://docs.python.org/ko/3.10/library/urllib.request.html')
print(a.status)

200


### (GET 방식 요청)

In [6]:
import urllib.request

a=urllib.request.urlopen('https://docs.python.org/ko/3.10/library/urllib.request.html', data=None)
print(a.read(500).decode('utf8'))# 500바이트 만큼 읽음; 분량조절


<!DOCTYPE html>

<html lang="ko">
  <head>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1.0" />
    <title>urllib.request — URL을 열기 위한 확장 가능한 라이브러리 &#8212; Python 3.10.0a5 문서</title>
    <link rel="stylesheet" href="../_static/pydoctheme.css" type="text/css" />
    <link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
    
    <script id="documentation_options" data-url_root="../" src="..


### (POST 방식 요청); 리소스의 생성, 데이터 추가

In [27]:
import urllib.request
import requests

url ='http://httpbin.org/post'
data = "name=Han seokwon&email=hanseokwon@han.com"

enCod=requests.get(url).encoding # 해당 사이트의 인코딩 방식
req = urllib.request.urlopen(url, bytes(data, encoding=enCod))

print(req.read(500).decode('utf-8'))

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "email": "hanseokwon@han.com", 
    "name": "Han seokwon"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "41", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.8", 
    "X-Amzn-Trace-Id": "Root=1-601d91d3-4f0e15c71986e5c93b165673"
  }, 
  "json": null, 
  "origin": "175.204.249.133", 
  "url": "http://httpbin.org/post"
}



#### - Request 클래스로 요청 헤더 지정 
    - url 인자에 문자열 대신 urllib.request.Request 클래스 지정
    - urllib.request.Request 객체를 생성하고 add_header로 헤더를 추가하여 웹 서버로 요청을 보냄

In [35]:
import urllib.request
import urllib.parse
import requests

data1 = {
    'name' : '한석원',
    'email' : 'hanseokwon@han.com',
    'url' : 'https://docs.python.org/ko/3.10/library/urllib.request.html'
}

url ='http://httpbin.org/post'
encData=urllib.parse.urlencode(data1)
enCod=requests.get(url).encoding # 해당 사이트의 인코딩 방식

req = urllib.request.Request(url, bytes(encData, encoding=enCod))
req.add_header('Date', '05 Feb 2021 18:52:34 GMT')
a = urllib.request.urlopen(req)
print(a.info())
print(a.read(500).decode(enCod))

Date: Fri, 05 Feb 2021 18:54:46 GMT
Content-Type: application/json
Content-Length: 616
Connection: close
Server: gunicorn/19.9.0
Access-Control-Allow-Origin: *
Access-Control-Allow-Credentials: true


{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "email": "hanseokwon@han.com", 
    "name": "\ud55c\uc11d\uc6d0", 
    "url": "https://docs.python.org/ko/3.10/library/urllib.request.html"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "137", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Date": "05 Feb 2021 18:52:34 GMT", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.8", 
    "X-Amzn-Trace-Id": "Root=1-601d9476-7a


### urllib.request 파싱 예제
- 특정 웹사이트에서 이미지만을 검색하여 그 리스트를 보여주는 코드
- HTMLParser 클래스 https://docs.python.org/ko/3/library/html.parser.html

In [3]:
import urllib.request
from html.parser import HTMLParser # HTMLParser 클래스는 HTML 문서를 파싱하는데 사용되는 클래스

# HTMLParser 클래스는 아래와 같이 상속받는 클래스를 정의하여 사용함

class Image_Parser(HTMLParser):
    def handle_starttag(self, tag, attrs): # HTML의 시작태그를 핸들링하는 메소드를 오버라이드
        # (입력 인자) 예: <img src='cat.jpg'>
        # tag : 소문자로 변환된 태그의 이름 / img
        # attrs : 태그의 (name, value) 쌍의 리스트 / [('src', 'cat.jpg')]
        if tag == 'img':
            if not hasattr(self, 'result'): # hasattr 'result'라는 변수가 있는지 확인하기; 파이썬 내장 함수
                self.result = []
            for name, value in attrs: # <img src> 속성을 찾으면 속성값을 self.result에 추가
                if name == 'src':
                    self.result.append(value)

def parse_image(data): # HTML 문장이 주어지면 HTMLParser 클래스를 사용하여 이미지를 찾고, 그 리스트를 출력해주는 함수
    # data는 HTML 문장
    parser = Image_Parser()
    parser.feed(data)
    data_set= [x for x in parser.result]
    return data_set

def Search_image(url):

    a= urllib.request.urlopen(url) # urlopen 함수로 해당 사이트의 페이지 내용을 가져옴
    # print(a.info())
    charset = a.info().get_param('charset') # 해당 사이트의 인코딩 방식을 찾음
    data = a.read().decode(charset) # 해당 사이트의 인코딩 방식으로 그것으로 디코딩


    data_set = parse_image(data) # 이미지 파싱


    img_num=1
    for i in data_set:
        print('IMAGE %d :'%(img_num),i)
        img_num+=1

# https://www.google.co.kr
url = input()
Search_image(url)


 https://www.google.co.kr


IMAGE 1 : /images/branding/googlelogo/1x/googlelogo_white_background_color_272x92dp.png
IMAGE 2 : /textinputassistant/tia.png


### beautifulSoup4를 사용해 위의 예제 구현
- beautifulSoup4가 더 간단함
- BeautifulSoup(HTML 내용, 파서)
    - 파서 종류 https://brownbears.tistory.com/414
    - html.parser : 얘가 무난함
    - lxml
    - lxml-xml
    - 등등
- https://wikidocs.net/85739
- ***- requests 모듈은 urllib.request와 유사하게 HTTP요청을 보냄***

In [5]:
import requests #
from bs4 import BeautifulSoup
import urllib.request

def parse_image(data):
    soup = BeautifulSoup(data, 'html.parser') # HTML 문장, Parser
    imgTaglist = soup.find_all('img') # 찾고자 하는 태그를 모두 가져옴; 그 태그 안에 있는 태그들도
    # x.attrs는 딕셔너리로 속성값을 반환함
    # 예: {'img' : 'cat.jpg, 'alt' : 'cat'}
    data_set = [x.attrs['src'] for x in imgTaglist]

    return  data_set


def Search_img(url):

    req = requests.get(url)
    # print(req.text) # 읽어온 HTML 코드
    charset = req.encoding # 해당 사이트의 인코딩 방식을 찾음
    data = req.content.decode(charset)# 해당 사이트의 인코딩 방식으로 그것으로 디코딩

    data_set = parse_image(data)
    img_num=1
    for i in data_set:
        print('IMAGE %d :'%(img_num),i)
        img_num+=1

url = 'https://www.google.co.kr'
Search_img(url)


IMAGE 1 : /images/branding/googlelogo/1x/googlelogo_white_background_color_272x92dp.png
IMAGE 2 : /textinputassistant/tia.png


## http.client
- urllib.request 모듈에서 처리하기 힘든 기능을 구현할 때 사용
     - HEAD, PUT 방식으로 요청도 가능
- urllib.request로 만든 기능을 http.client로 동일하게 만들 수 있음
- http.client 모듈 사용 순서
    - 1. conn = http.client.HTTPSConnection("www.python.org") # 연결객체생성
        - 인자는 url이 아닌 호스트 이름으로 해야함
    - 2. conn.request("요청방식", "/") # 요청방식: GET, POST, HEAD, PUT
    - 3. resp = conn.getresponse() # 응답 객체 생성
    - 4. resp.read() # 응답 데이터 읽기
    - 5. resp.close() # 연결 닫기

### 호스트
- 웹서버의 IP주소
- 호스트 명은 네트워크에 연결된 장치 또는 서버들에 부여되는 고유한 이름으로 호스트 명은 IP 주소나 MAC 주소와 같은 기계적인 이름을 대신하여 일반인이 쉽게 읽고 이해할 수 있는 이름으로 만들어집니다, http://www.codns.com/b/B05-195

#### http.client GET 방식 요청

In [10]:
from http.client import HTTPConnection

# 연결 객체 생성

conn = HTTPConnection('httpbin.org')

# GET 요청
conn.request('GET', '/')
# 응답 객체 생성
resp = conn.getresponse()
# 응답 결과
print('HTTP status:', resp.status , resp.reason)

# 응답 데이터를 읽음; 500까지만
data = resp.read(500)
print(data.decode())


conn.close() # 연결을 닫음

HTTP status: 200 OK
<!DOCTYPE html>
<html lang="en">

<head>
    <meta charset="UTF-8">
    <title>httpbin.org</title>
    <link href="https://fonts.googleapis.com/css?family=Open+Sans:400,700|Source+Code+Pro:300,600|Titillium+Web:400,600,700"
        rel="stylesheet">
    <link rel="stylesheet" type="text/css" href="/flasgger_static/swagger-ui.css">
    <link rel="icon" type="image/png" href="/static/favicon.ico" sizes="64x64 32x32 16x16" />
    <style>
        html {
            box-sizing: border-box;
          


#### http.client POST 방식 요청

In [39]:
from http.client import HTTPConnection
from urllib.parse import urlencode

# 연결 객체 생성
conn = HTTPConnection('httpbin.org')

# POST 요청으로 보낼 파라미터에 대해 URL 인코딩
params = urlencode({
    'language' : 'python',
    'name' : 'Han seokwon'
})
# POST 요청으로 보낼 헤더를 딕셔너리로 지정
headers = {
    'Content-Type' : 'application/',
    'Date': '05 Feb 2021 18:52:34 GMT'
}

# POST 요청
# request(method, url, body, headers); method와 url은 필수 인자
conn.request('POST', 'http://httpbin.org//post', params, headers)

# 응답 객체 생성
resp = conn.getresponse()
# 응답 결과
print('HTTP status:', resp.status , resp.reason)

#
data = resp.read()
print(data.decode('utf-8'))


conn.close() # 연결을 닫음



HTTP status: 200 OK
{
  "args": {}, 
  "data": "language=python&name=Han+seokwon", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "32", 
    "Content-Type": "application/", 
    "Date": "05 Feb 2021 18:52:34 GMT", 
    "Host": "httpbin.org", 
    "X-Amzn-Trace-Id": "Root=1-601d9705-18ce349106e77ca7785a1331"
  }, 
  "json": null, 
  "origin": "175.204.249.133", 
  "url": "http://httpbin.org/post"
}



#### http.client HEAD 방식 요청; 리소스의 헤더 취득

In [11]:
from http.client import HTTPConnection

# 연결 객체 생성

conn = HTTPConnection('httpbin.org')

# HEAD 요청
conn.request('HEAD', '/')
# 응답 객체 생성
resp = conn.getresponse()
# 응답 결과
print('HTTP status:', resp.status , resp.reason)

# 헤더만 가져왔으므로 응답에이터는 없음
data = resp.read(500)
print(data.decode())


conn.close() # 연결을 닫음



HTTP status: 200 OK



#### http.client PUT 방식 요청; 

In [40]:
from http.client import HTTPConnection
from urllib.parse import urlencode

# 연결 객체 생성
conn = HTTPConnection('httpbin.org')

# POST 요청으로 보낼 파라미터에 대해 URL 인코딩
params = urlencode({
    'language' : 'python',
    'name' : 'Han seokwon'
})
# POST 요청으로 보낼 헤더를 딕셔너리로 지정
headers = {
    'Content-Type' : 'application/',
    'Date': '05 Feb 2021 18:52:34 GMT'
}

# PUT 요청
# request(method, url, body, headers); method와 url은 필수 인자
conn.request('PUT', 'http://httpbin.org/put', params, headers)

# 응답 객체 생성
resp = conn.getresponse()
# 응답 결과
print('HTTP status:', resp.status , resp.reason)

#
data = resp.read()
print(data.decode('utf-8'))


conn.close() # 연결을 닫음



HTTP status: 200 OK
{
  "args": {}, 
  "data": "language=python&name=Han+seokwon", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "32", 
    "Content-Type": "application/", 
    "Date": "05 Feb 2021 18:52:34 GMT", 
    "Host": "httpbin.org", 
    "X-Amzn-Trace-Id": "Root=1-601d970a-35ace62715312e8f22aef2db"
  }, 
  "json": null, 
  "origin": "175.204.249.133", 
  "url": "http://httpbin.org/put"
}



### http.client 예제
- 특정 사이트에서 이미지만을 찾아 다운로드하는 프로그램

In [45]:
import os
from urllib.parse import urljoin, urlunparse
from urllib.request import urlretrieve
from http.client import HTTPConnection
from html.parser import HTMLParser


class Image_Parser(HTMLParser):
    def handle_starttag(self, tag, attrs): # HTML의 시작태그를 핸들링하는 메소드를 오버라이드
        # (입력 인자) 예: <img src='cat.jpg'>
        # tag : 소문자로 변환된 태그의 이름 / img
        # attrs : 태그의 (name, value) 쌍의 리스트 / [('src', 'cat.jpg')]
        if tag == 'img':
            if not hasattr(self, 'result'): # hasattr 'result'라는 변수가 있는지 확인하기; 파이썬 내장 함수
                self.result = []
            for name, value in attrs: # <img src> 속성을 찾으면 속성값을 self.result에 추가
                if name == 'src':
                    self.result.append(value)

def download_img(url, data):
    parser = Image_Parser()
    parser.feed(data)

    data_set = [x for x in parser.result]

    for i in data_set:
        img_url = urljoin(url, i) # URL + 이미지 src -> 이미지 소스

        # 해당 URL의 basename 예: D:\WEB_study\text.txt -(basename)-> test.txt
        basename = os.path.basename(img_url)

        # 이미지를 저장할 파일과 이미지의 basename을 연결
        target_file = os.path.join('python_web_library/image1', basename)

        print('Download: ',img_url)
        urlretrieve(img_url, target_file) #이미지 소스를 가져와 target_file로 저장

def Search_Download_img(host):

    # 연결 객체 생성
    conn = HTTPConnection(host)

    conn.request('GET','')

    # 응답 객체 생성
    resp = conn.getresponse()

    # 응답 데이터 읽기
    charset = resp.msg.get_param('charset')  # 해당 사이트의 인코딩 방식을 찾음
    data = resp.read().decode(charset)  # 해당 사이트의 인코딩 방식으로 그것으로 디코딩
    conn.close() # 연결을 닫음

    # urlunparse()는 6개의 URL 요소를 튜플로 받아 연결한 URL을 리턴함
    # urlparse()와 반대; URL을 6개로 분리하여 튜플로 반환
    url = urlunparse(('https', host, '','','',''))

    # 이미지 다운로드드
    download_img(url, data)

host = 'www.google.com'
Search_Download_img(host)



Download:  https://www.google.com/images/branding/googlelogo/1x/googlelogo_white_background_color_272x92dp.png
Download:  https://www.google.com/textinputassistant/tia.png


### beautifulSoup4를 사용해 위의 예제 구현

In [33]:
import os
from urllib.parse import urljoin
import requests
from bs4 import BeautifulSoup


def parse_image(data):
    soup = BeautifulSoup(data, 'html.parser') # HTML 문장, Parser
    imgTaglist = soup.find_all('img') # 찾고자 하는 태그를 모두 가져옴; 그 태그 안에 있는 태그들도
    # x.attrs는 딕셔너리로 속성값을 반환함
    # 예: {'img' : 'cat.jpg, 'alt' : 'cat'}
    data_set = [x.attrs['src'] for x in imgTaglist]

    return  data_set

def download_img(url, data_set):

    for i in data_set:
        img_url = urljoin(url, i) # URL + 이미지 src -> 이미지 소스

        # 해당 URL의 basename 예: D:\WEB_study\text.txt -(basename)-> test.txt
        basename = os.path.basename(img_url)

        # 이미지를 저장할 파일과 이미지의 basename을 연결
        target_file = os.path.join('python_web_library/image1', basename)

        print('Download: ',img_url)
        req = requests.get(img_url)
        # with as 구문으로 파일을 해당 구문에서만 실행시키고 바로 닫을 수 있음
        with open(target_file, 'wb') as file: # wb = write + binary(bytes 객체로 읽고 쓰기 수행)
            file.write(req.content) # req.content는 bytes로 되어 있음

def Search_Download_img(url):

    req = requests.get(url)
    charset = req.encoding  # 해당 사이트의 인코딩 방식을 찾음
    data = req.content.decode(charset)  # 해당 사이트의 인코딩 방식으로 그것으로 디코딩

    data_set = parse_image(data)

    download_img(url, data_set)

url = 'https://www.google.com/'
Search_Download_img(url)



Download:  https://www.google.com/images/branding/googlelogo/1x/googlelogo_white_background_color_272x92dp.png
Download:  https://www.google.com/textinputassistant/tia.png
