# urllib.parse

### Разбиение URL-адреса на компоненты

Модуль urllib.parse позволяет манипулировать строками URL-адресов, выделяя и объединяя их компоненты,
и может быть полезным как в клиентах, так и в серверах.

In [62]:
from urllib.parse import urlparse

url = 'http://netloc/path;param?query=arg#frag'
parsed = urlparse(url)
print(parsed)

ParseResult(scheme='http', netloc='netloc', path='/path', params='param', query='query=arg', fragment='frag')


In [63]:
from urllib.parse import urlsplit

url = "http://user:pwd@NetLoc:80/pl;para/p2;para?query=arg#frag"

parsed = urlsplit(url)
print(parsed)
print("scheme :", parsed.scheme)
print("netloc :", parsed.netloc)
print("path :", parsed.path)
print("query :", parsed.query)
print("fragment:", parsed.fragment)
print("username:", parsed.username)
print("password:", parsed.password)
print("hostname:", parsed.hostname)
print("port :", parsed.port)

SplitResult(scheme='http', netloc='user:pwd@NetLoc:80', path='/pl;para/p2;para', query='query=arg', fragment='frag')
scheme : http
netloc : user:pwd@NetLoc:80
path : /pl;para/p2;para
query : query=arg
fragment: frag
username: user
password: pwd
hostname: netloc
port : 80


In [64]:
from urllib.parse import urldefrag

original = 'http://netloc/path;param?query=arg#frag'
print('original:', original)
d = urldefrag(original)
print('url :', d.url)
print('fragment:', d.fragment)

original: http://netloc/path;param?query=arg#frag
url : http://netloc/path;param?query=arg
fragment: frag


Сборку отдельных компоенентов LTR-адреса в единую строку можно осуществить несколькими способами. Объект ParseResult имеет метод geturl ()

In [65]:
original = 'http://netloc/path;param?query=arg#frag'
print('ORIG :', original)
parsed = urlparse(original)
print('PARSED:', parsed.geturl())

ORIG : http://netloc/path;param?query=arg#frag
PARSED: http://netloc/path;param?query=arg#frag


### Cоздания URL-адреса из компонентов

In [66]:
import urllib.parse

def build_url(base_url, path, args_dict):
    # Возвращает список в структуре urlparse.ParseResult
    url_parts = list(urllib.parse.urlparse(base_url))
    url_parts[2] = path
    url_parts[4] = urllib.parse.urlencode(args_dict)
    return urllib.parse.urlunparse(url_parts)

In [67]:
args = {'arg1': 'value1', 'arg2': 'value2'}

print(build_url('http://www.example.com/', '/somepage/index.html', args))

print(build_url('http://www.example.com', 'somepage/index.html', args))

http://www.example.com/somepage/index.html?arg1=value1&arg2=value2
http://www.example.com/somepage/index.html?arg1=value1&arg2=value2


In [68]:
base_url = 'http://www.example.com/'
urllib.parse.urlparse(base_url)

ParseResult(scheme='http', netloc='www.example.com', path='/', params='', query='', fragment='')

### Добавление/изменение протокола URL-адреса

In [69]:
url = urlparse('//www.cwi.nl:80/%7Eguido/Python.html')
url

ParseResult(scheme='', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')

In [70]:
url._replace(scheme='http')

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')

# urllib.request: доступ к сетевым ресурсам

Модуль urllib.request предоставляет API для использования интернет-ресурсов, идентифицируемых своими URL-адресами. Он спроектирован таким образом, чтобы отдельные приложения могли расширять его для поддержки новых
протоколов или внесения изменений в существующие протоколы (например, для
поддержки базовой НТТР-аутентификации).

In [71]:
import urllib.request

response = urllib.request.urlopen('https://www.youtube.com/watch?v=dQw4w9WgXcQ')
print('RESPONSE:', response)
print('URL :', response.geturl())
headers = response.info()
print('DATE :', headers['date'])
print('HEADERS :')
print ('------- ' )
print(headers)
       
data = response.read().decode('utf-8')
data

RESPONSE: <http.client.HTTPResponse object at 0x00000253FADE74F0>
URL : https://www.youtube.com/watch?v=dQw4w9WgXcQ
DATE : Thu, 03 Dec 2020 22:03:56 GMT
HEADERS :
------- 
Cache-Control: no-cache
Strict-Transport-Security: max-age=31536000
P3P: CP="This is not a P3P policy! See http://support.google.com/accounts/answer/151657?hl=ru for more info."
X-Content-Type-Options: nosniff
Content-Type: text/html; charset=utf-8
Expires: Tue, 27 Apr 1971 19:44:06 GMT
X-Frame-Options: SAMEORIGIN
Date: Thu, 03 Dec 2020 22:03:56 GMT
Server: YouTube Frontend Proxy
X-XSS-Protection: 0
Set-Cookie: GPS=1; path=/; domain=.youtube.com; expires=Thu, 03-Dec-2020 22:33:56 GMT
Set-Cookie: VISITOR_INFO1_LIVE=ScX6hfon6ck; path=/; domain=.youtube.com; secure; expires=Tue, 01-Jun-2021 22:03:56 GMT; httponly; samesite=None
Set-Cookie: YSC=g8p_XfaVJ2o; path=/; domain=.youtube.com; secure; httponly; samesite=None
Alt-Svc: h3-29=":443"; ma=2592000,h3-T051=":443"; ma=2592000,h3-Q050=":443"; ma=2592000,h3-Q046=":443"; m



In [72]:
my_url = "https://www.youtube.com/watch?v=dQw4w9WgXcQ"
my_headers = { "Content-Type" : "text/html; charset=utf-8" }

req = request.Request(url=my_url, headers=my_headers)
response = urllib.request.urlopen(req)
html = response.read()
print(html)



In [73]:
response = request.urlopen('https://cs.fail/')
print('RESPONSE:', response)
print('URL :', response.geturl())

HTTPError: HTTP Error 403: Forbidden

# Base64

Base64 – способ кодирования произвольных двоичных данных в ASCII текст. По своей сути кодирование очень простое. Каждые шесть бит на входе кодируется в один из символов 64-буквенного алфавита.

Зачем это нужно?
Так исторически сложилось, что многие форматы передачи и хранения данных используют текст вместо бинарных кодов (html, url схемы, xml, email… и тп). Но что, если формат передачи данных текстовый, а передать необходимо бинарные данные (отдельно либо вместе с текстовыми данными). Вот тут на помощь и приходит base64.

Типовое применение в веб разработке

1. data: URL схемы для изображений (css, html) .. см. далее подробнее.
2. Получение base64 представления бинарных данных canvas битмапа .. см. далее подробнее.
3. Передача картинок и других данных в XML (не используя внешние файлы).
4. Хранение изображений в базе данных (только если вы знаете, что делаете и зачем).
5. Включение изображений в email.

In [74]:
import base64
encoded = base64.b64encode(html)
encoded

b'PCFkb2N0eXBlIGh0bWw+PGh0bWwgIHN0eWxlPSJmb250LXNpemU6IDEwcHg7Zm9udC1mYW1pbHk6IFJvYm90bywgQXJpYWwsIHNhbnMtc2VyaWY7IiBsYW5nPSJydS1SVSIgZGlyPSJsdHIiIGdsPSJSVSI+PGhlYWQ+PG1ldGEgaHR0cC1lcXVpdj0iWC1VQS1Db21wYXRpYmxlIiBjb250ZW50PSJJRT1lZGdlIiAvPjxzY3JpcHQgPnZhciB5dGNmZyA9IHtkOiBmdW5jdGlvbigpIHtyZXR1cm4gKHdpbmRvdy55dCAmJiB5dC5jb25maWdfKSB8fCB5dGNmZy5kYXRhXyB8fCAoeXRjZmcuZGF0YV8gPSB7fSk7fSxnZXQ6IGZ1bmN0aW9uKGssIG8pIHtyZXR1cm4gKGsgaW4geXRjZmcuZCgpKSA/IHl0Y2ZnLmQoKVtrXSA6IG87fSxzZXQ6IGZ1bmN0aW9uKCkge3ZhciBhID0gYXJndW1lbnRzO2lmIChhLmxlbmd0aCA+IDEpIHt5dGNmZy5kKClbYVswXV0gPSBhWzFdO30gZWxzZSB7Zm9yICh2YXIgayBpbiBhWzBdKSB7eXRjZmcuZCgpW2tdID0gYVswXVtrXTt9fX19O3dpbmRvdy55dGNmZy5zZXQoJ0VNRVJHRU5DWV9CQVNFX1VSTCcsICJcL2Vycm9yXzIwND9jbGllbnQubmFtZT0xXHUwMDI2Y2xpZW50LnZlcnNpb249Mi4yMDIwMTIwMi4wMS4wMFx1MDAyNmxldmVsPUVSUk9SXHUwMDI2dD1qc2Vycm9yIik7PC9zY3JpcHQ+ICAKPHNjcmlwdCA+dmFyICRqc2NvbXA9JGpzY29tcHx8e307JGpzY29tcC5zY29wZT17fTskanNjb21wLmFycmF5SXRlcmF0b3JJbXBsPWZ1bmN0aW9uKGEpe3ZhciBkPTA7cmV0dXJuIGZ1bmN0aW9uKC

In [75]:
data = base64.b64decode(encoded)
data



Кроме кодировки Base64 данный модуль предоставляет функции, позволяющие работать c кодировками Base85, Base32 и Basel6 (шестнадцатеричная).

In [76]:
original_data = b'This is the data, in the clear.'
print('Original:', original_data)
encoded_data = base64.b32encode(original_data)
print('Encoded :', encoded_data)
decoded_data = base64.b32decode(encoded_data)
print('Decoded :', decoded_data)

Original: b'This is the data, in the clear.'
Decoded : b'This is the data, in the clear.'


Задачи:
    1. Взять любой простой сайт
    2. Вывести его Headers
    3. Вывести его закодированный через base64 html код
    4. Используя закодированный код и модуль http.server, создайте локальный сервер, где будет выводиться заглавная страница этого сайта