# urllib.parse 모듈 
### url 분해, 조립, 변경 및 url 문자 인코딩, 디코딩 처리 함수 제공

In [1]:
from urllib.parse import urlparse
result = urlparse('http://www.python.org:80/huido/python.html;philosophy?overall=3#n10')
# urlparse 함수를 이용한
result # url 파싱한 결과 출력, ParseResult 인스턴스 반환


ParseResult(scheme='http', netloc='www.python.org:80', path='/huido/python.html', params='philosophy', query='overall=3', fragment='n10')

# schema : url 에 사용한 프로토콜
### netloc : 네트워크 위치.user:password@hostname:port 형식 표현, http경우 host:post 형식
### path : 파일이나 애플리케이션 경로 의미
### params : 애플리케이션에 전달될 매개변수(현재 사용 x)
### query : 질이 문자열 또는 매개변수로, 앰퍼샌트(&)로 구분된 (이름 = 값) 쌍으로 표시됨
### fragment : 문자내의 앵커 등 조각을 지정

# urllib.request 모듈
### 주어진 url 에서 데이터를 가져오는 기본 기능을 제공
### 디폴트 요청 방식은 get 이고 웹서버에 전달할 파라미터가 있으면 질의 문자열을 url 인자에 포함해서 보냄
### 요청 방식을 post로 보내고 싶으면 data 인자에 질의 문자열을 지정함


In [2]:
# urlopen() 함수
# urlopen(url, data = None, [timeout])
# url로 get/post 방식의 간단한 요청 처리 -> urlopen()함수만으로 가능

# get 방식 요청 
from urllib.request import urlopen
f = urlopen('http://www.example.com')
print(f.read(500).decode('utf-8'))

<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin:


In [3]:
# post 방식 요청
from urllib.request import urlopen
data = 'language=python&framework=django'
f = urlopen('http://127.0.0.1:8000', bytes(data, encoding='utf-8'))
# data 인자는 urll에 허용된 문자열로 인코딩되어야 하고 바이트 스트링 
# bytes 타입이어야  함
print(f.read(500).decode('utf-8'))


<!DOCTYPE html>
<html lang="ko">



<head>

    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">

    <title>ch2-test-server</title>

    <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.6/css/bootstrap.min.css">
    <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.6/css/bootstrap-theme.min.css">

    <!-- my css -->
    <link rel="shortcut 


In [4]:
# put, head 메소드 등 헤더 조작이 필요한 경우 - Request 클래스 같이 사용

from urllib.request import urlopen, Request
from urllib.parse import urlencode

url = 'http://127.0.0.1:8000'
data = {
    'name' : '김석훈',
    'email' : 'shkim@naver.com',
    'url' : 'http://www.naver.com'
}
encData = urlencode(data)
postData = bytes(encData, encoding='utf-8')
req = Request(url, data=postData) # Request 객체 생성
# request 객체에 add_header()로 헤더  추가하여 웹 서버로 요청  보냄
# request객체에 post 방식 요청을 보내기 위해 data 인자 지정
req.add_header('Content=Type', 'application/x-www-form-urlencoded')
f = urlopen(req) # url 문자열 대신 req 객체 지정
print(f.info())
print(f.read(500).decode('utf-8'))


Date: Sat, 20 Jul 2019 07:55:22 GMT
Server: WSGIServer/0.2 CPython/3.7.2
Content-Type: text/html; charset=utf-8
X-Frame-Options: SAMEORIGIN
Content-Length: 1757


<!DOCTYPE html>
<html lang="ko">



<head>

    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">

    <title>ch2-test-server</title>

    <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.6/css/bootstrap.min.css">
    <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.3.6/css/bootstrap-theme.min.css">

    <!-- my css -->
    <link rel="shortcut 


In [5]:
# 인증, 쿠키, 프록시 등 복잡한 요청 처리 : 
# 인증/쿠키/프록시 해당 핸들러 클래스를 같이 사용

# urlopen() 함수 - HTTPBasicAuthHandler 클래스로 인증 요청
from urllib.request import HTTPBasicAuthHandler, build_opener

# 핸들러 객체 정의
auth_handler = HTTPBasicAuthHandler()
auth_handler.add_password(realm='ksh', user='shkim', passwd='shkimadmin', uri='http://127.0.0.1:8000/auth/')
# 핸들러 build_opener() 함수를 사용하여 오프너에 등록
opener = build_opener(auth_handler)
# 오프너의 open() 함수를 호출하면 서버로 요청 전송
resp = opener.open('http://127.0.0.1:8000/auth/')
print(resp.read().decode('utf-8'))


This is Basic Auth Success Response.


In [6]:
# urlopen() 함수 -> HTTPCookieProcessor 클래스로 쿠키 데이터 포함하여 요청

from urllib.request import Request, HTTPCookieProcessor, build_opener

url = 'http://127.0.0.1:8000/cookie/'

# first request (GET) with cookie handler
# 첫번째 요청에서 쿠키를 담을 준비를 하고 서버로 요청을 보냄
# 쿠키 핸들러 생성, 쿠키 데이터 저장은 디폴트로 CookieJar 객체를 사용함
cookie_handler = HTTPCookieProcessor()
opener = build_opener(cookie_handler)

req = Request(url)
res = opener.open(req)

print(res.info())
print(res.read().decode('utf-8'))

# second request (POST)
# 두번째 요청에 쿠키 데이터가 없다면 서버에서 에러로 응답
print('------------------------------------------')

data = 'language = python&framework=django'
encData = bytes(data, encoding='utf-8')

req = Request(url, encData)
res = opener.open(req)

print(res.info())
print(res.read().decode('utf-8'))






Date: Sat, 20 Jul 2019 07:55:23 GMT
Server: WSGIServer/0.2 CPython/3.7.2
Content-Type: text/html; charset=utf-8
X-Frame-Options: SAMEORIGIN
Content-Length: 59
Vary: Cookie
Set-Cookie: sessionid=hlgwj6t3avla8opyhu5r3iv484pp6mn7; expires=Sat, 03 Aug 2019 07:55:23 GMT; HttpOnly; Max-Age=1209600; Path=/; SameSite=Lax


GET Request&Response... This is set_test_cookie() Response.
------------------------------------------
Date: Sat, 20 Jul 2019 07:55:23 GMT
Server: WSGIServer/0.2 CPython/3.7.2
Content-Type: text/html; charset=utf-8
X-Frame-Options: SAMEORIGIN
Content-Length: 45
Vary: Cookie
Set-Cookie: sessionid=hlgwj6t3avla8opyhu5r3iv484pp6mn7; expires=Sat, 03 Aug 2019 07:55:23 GMT; HttpOnly; Max-Age=1209600; Path=/; SameSite=Lax


POST Request&Response... OK. Cookie received.


# urllib.request 모듈 예제
## 특정 웹 사이트에서 이미지만을 검색하여 그 리스트를 보여주는 코드
## HTMLParser 클래스 html.parser 모듈에 정의되고 있고, html 문서를 파싱하는 데 사용되는 클래스 

In [15]:
# 필요한 함수 및 클래스를 임포트
from urllib.request import urlopen
from html.parser import HTMLParser

# HTMLParser 클래스를 사용할 때는 이렇게 상속받는 클래스를 정의
# 하고, 필요한 내용은 오버라이드 함
class ImageParser(HTMLParser): 
    # <img> 태크를 찾기 위하여 handle_strattag() 함수를 오버라이드
    def handle_starttag(self, tag, attrs): # 태그 시작을 처리하기 위해 호출
    # tag : 태그 이름, attrs : 태그 속성, 깂 목록 -> a href='naver.com'
        if tag != 'img': # <img> 태그가 아니면
            return # 종료
        if not hasattr(self, 'result'):  # self 에 result 라는 문자열이 있으면?
            self.result = [] # 빈 리스트 생성 
        for name, value in attrs: # attrs[속성이름, 속성값] 에 속성이름과 속성값이
            if name == 'src': # 속성이름이 src 이
                self.result.append(value)
                
                    
def parse_image(data): # HTML 문장이 주어지면 HTMLParser 클래스를 사용해 
     # 이미지를 찾고  그 리스트를 출력해주는 함수
    parser = ImageParser()
    parser.feed(data) # HTML 문장을 feed() 함수에 주면 바로 파싱하고  
    # parser.result 리스트에 추가
    dataSet = set(x for x in parser.result) # 파싱 결과를 set 타입의 dataSet으로 모아줌
    # 만일 parser.result 리스트에 중복된 항목이 있다면 set() 기능에 의해 제거됨
    return dataSet # dataSet로 모은 파싱결과를 리턴 
    
def main(): 
    # 프로그램의 시작점인 메인 함수로, www.google.co.kr 사이트 검색하여
    # 이미지를 찾는 함수
    url = 'http://www.google.co.kr'
    with urlopen(url) as f: # urlopen() 함수를 사용하여 구글 사이트에 접속한
        # 후 첫 페이지 내용 가져옴
        # 사이트에서 가져오는 데이터는 인코딩 된 데이터이므로 인코딩 방식을 
        # 알아내어 그 방식으로 디코딩 해줌
        charset = f.info().get_param('charset')
        data = f.read().decode(charset)
        # 이미지를 찾기 위해 parse_image() 함수를 호출
    dataSet = parse_image(data)
    print('\n>>>> Fetch Images from', url)
    print('\n'.join(sorted(dataSet))) # 찾은 이미지들을 정렬하여 라인별로 출력
        
if __name__ == '__main__':
    main()
            
    
    
    


>>>> Fetch Images from http://www.google.co.kr
/logos/doodles/2019/50th-anniversary-of-the-moon-landing-6524862532157440.2-l.png
/textinputassistant/tia.png
