# <font color=red>Лекция 5.1</font> <font color=blue>Разбор URL-адреса</font>

Интернет прочно вошел в нашу жизнь. Очень часто необходимо передать данные на Web-сервер или, наоборот, получить данные. Например, нужно получить котировку валют или прогноз погоды, проверить наличие писем в почтовом ящике. В состав стандартной библиотеке Python входит множество модулей, позволяющий работать практически со всеми протоколами Интернета.

### Модуль urllib.parse

Данный модуль определяет стандартный интерфейс для разбиения строк унифицированного указателя ресурсов (URL) на компоненты (схема адресации, сетевое расположение, путь и т. д.), чтобы объединить компоненты обратно в строку URL и преобразовать «относительный URL» в абсолютный URL-адрес с «базовым URL-адресом»

Модуль был разработан в соответствии с RFC Интернета по относительным унифицированным указателям ресурсов. Он поддерживает следующие URL схемы: file, ftp, gopher, hdl, http, https, imap, mailto, mms, news, nntp, prospero, rsync, rtsp, rtspu, sftp, shttp, sip, sips, snews, svn, svn+ssh , telnet, wais, ws, wss.

Модуль urllib.parse определяет функции, которые делятся на две большие категории: разбор (парсинг) URL и закавычивание URL. Подключение модуля осуществляется стандартным образом:

In [None]:
from urllib.parse import urlparse

#### Разбор (парсинг) URL-адреса

URL-адрес состоит из следующих элементов:

`<Протокол>://<Домен>:<Порт>/<Путь>;<Параметры>?<Запрос>#<Якорь>`

Схема URL-адрес для протокола FTP выглядит по-другому.

`<Протокол>://<Пользователь>:<Пароль>@<Домен>`

Функции парсинга URL-адресов сосредоточены на разделении строки URL-адреса на ее компоненты или на объединении компонентов URL-адреса в строку URL-адреса.

`urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)`¶

Функция `urlparse` разбирает URL-адрес на шесть компонентов, вернув именованный кортеж из 6 элементов. Соответствует общей структуре URL-адреса: scheme://netloc/path;parameters?query#fragment. Каждый элемент кортежа представляет собой строку, возможно, пустую. Компоненты не разбиваются на более мелкие части (например, местоположение в сети представляет собой одну строку). Указанные выше разделители не являются частью результата, за исключением ведущей косой черты в компоненте path, которая сохраняется, если присутствует. Например:

In [None]:
up = urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')

print(up)

print(up.scheme)
print(up.port)
up.geturl()

Функция возвращает объект ParserResult с результатами разбора URL-адреса. Получить значения можно с помощи атрибутов или индексов. Объект можно преобразовать в кортеж из следующих элементов: (scheme, netloc, path, params, query, fragment). Элементы соотвествуют схеме URL-адреса:

`<scheme>://<netloc>/<path>;<params?<query>#<fragment>`

Обратите внимание на то, что название домена может содержать номер порта. Кроме того, не ко всем атрибутам объекта можно получить доступ с помощью индексов.

Во втором параметре функции `urlparse()` можно указать название протокола, которое бу­дет использоваться, если протокола нет в составе URL-aдpeca. По умолчанию используется пустая строка. Пример:

In [None]:
print(urlparse('http://www.cwi.nl:80/%7Eguido/Python.html'))

Сравните

In [None]:
urlparse("//wwwadmin.ru/test.php", "http")

netloc — название домена вместе с номером порта. Значение доступно также по индексу 1. По умолчанию пустая строка.

#### Пример функции для создания URL-адреса из компонентов:

In [None]:
import urllib.parse
def build_url(base_url, path, args_dict):
    # Возвращает список в структуре urlparse.ParseResult
    url_parts = list(urllib.parse.urlparse(base_url))
    url_parts[2] = path
    url_parts[4] = urllib.parse.urlencode(args_dict)
    return urllib.parse.urlunparse(url_parts)
args = {'arg1': 'value1', 'arg2': 'value2'}
# работает со сценарием двойной косой черты
build_url('http://www.example.com/', '/somepage/index.html', args)
# http://www.example.com/somepage/index.html?arg1=value1&arg2=value2

# работает без косой черты
build_url('http://www.example.com', 'somepage/index.html', args)
# http://www.example.com/somepage/index.html?arg1=value1&arg2=value2

#### Добавление/изменение протокола URL-адреса: 

In [None]:
from urllib.parse import urlparse
url = urlparse('//www.cwi.nl:80/%7Eguido/Python.html')
print(url)

# Добавление протокола к URL-адресу 
url._replace(scheme='http')