# Модуль urllib.parse

Оффициальная документация: [здесь](https://docs.python.org/3/library/urllib.parse.html)

Модуль urllib.parse необходим для:
1. Разбиения URL-адреса на компоненты
2. Объединения компонентов в URL-адрес
3. Преобразования относительного URL-адреса в абсолютный

In [1]:
import urllib.parse

Данный модуль содержит функции, которые делятся на две большие категории: анализ-URL и цитирование-URL

## URL Parsing

### Метод urllib.parse.urlparse

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)

Общая структура URL-адреса: scheme://netloc/path;parameters?query#fragment.

| Attribute | Index |                Value               | Value if not present |                     
|:---------:|:-----:|:----------------------------------:|:--------------------:|
|   scheme  |   0   |        URL scheme specifier        |   scheme parameter   |
|   netloc  |   1   |        Network location part       |     empty string     |
|    path   |   2   |          Hierarchical path         |     empty string     |
|   params  |   3   |  Parameters for last path element  |     empty string     |
|   query   |   4   |           Query component          |     empty string     |
|  fragment |   5   |         Fragment identifier        |     empty string     |
|  username |       |              User name             |         None         |
|  password |       |              Password              |         None         |
|  hostname |       |       Host name (lower case)       |         None         |
|    port   |       | Port number as integer, if present |         None         |

Возвращаемое значение функции urlparse() - это объект ParseResult, который представляется в виде кортежа из шести элементов(название протокола, название домена, путь, параметры, запрос и якорь)

In [28]:
print(urlparse('https://ru.wikipedia.org/wiki/Python'))

ParseResult(scheme='https', netloc='ru.wikipedia.org', path='/wiki/Python', params='', query='', fragment='')


In [29]:
from urllib.parse import urlparse

url = 'https://ru.wikipedia.org/wiki/Python'

parsed = urlparse(url)

print('scheme  :', parsed.scheme)
print('netloc  :', parsed.netloc)
print('path    :', parsed.path)
print('params  :', parsed.params)
print('query   :', parsed.query)
print('fragment:', parsed.fragment)
print('username:', parsed.username)
print('password:', parsed.password)
print('hostname:', parsed.hostname)
print('port    :', parsed.port)

scheme  : https
netloc  : ru.wikipedia.org
path    : /wiki/Python
params  : 
query   : 
fragment: 
username: None
password: None
hostname: ru.wikipedia.org
port    : None


Имя пользователя и пароль доступны, если они присутствуют во входном URL-адресе, и установлены в значение None, если их нет. Имя хоста имеет то же значение, что и netloc, только в нижнем регистре и с удаленным значением порта.

In [30]:
from urllib.parse import urlparse

url = 'http://user:pwd@NetLoc:80/path;param?query=arg#frag'

parsed = urlparse(url)

print('scheme  :', parsed.scheme)
print('netloc  :', parsed.netloc)
print('path    :', parsed.path)
print('params  :', parsed.params)
print('query   :', parsed.query)
print('fragment:', parsed.fragment)
print('username:', parsed.username)
print('password:', parsed.password)
print('hostname:', parsed.hostname)
print('port    :', parsed.port)

scheme  : http
netloc  : user:pwd@NetLoc:80
path    : /path
params  : param
query   : query=arg
fragment: frag
username: user
password: pwd
hostname: netloc
port    : 80


In [31]:
from urllib.parse import urlparse

original = 'http://netloc/path;param?query=arg#frag'
print('ORIG  :', original)
parsed = urlparse(original)
print('PARSED:', parsed.geturl())

ORIG  : http://netloc/path;param?query=arg#frag
PARSED: http://netloc/path;param?query=arg#frag


### Метод urllib.parse.urlsplit

Функция urlsplit() является альтернативой функции urlparse (). Она ведет себя немного по-другому, не разделяя параметры из URL-адреса. Это полезно для URL-адресов, следующих за RFC 2396, которые поддерживают параметры для каждого сегмента пути.

Подробнее о RFC <a href ='https://tools.ietf.org/html/rfc3986.html'>здесь</a>

In [33]:
from urllib.parse import urlsplit

url = 'http://user:pwd@NetLoc:80/p1;para/p2;para?query=arg#frag'
parsed = urlsplit(url)
print(parsed)
print('scheme  :', parsed.scheme)
print('netloc  :', parsed.netloc)
print('path    :', parsed.path)
print('query   :', parsed.query)
print('fragment:', parsed.fragment)
print('username:', parsed.username)
print('password:', parsed.password)
print('hostname:', parsed.hostname)
print('port    :', parsed.port)

SplitResult(scheme='http', netloc='user:pwd@NetLoc:80', path='/p1;para/p2;para', query='query=arg', fragment='frag')
scheme  : http
netloc  : user:pwd@NetLoc:80
path    : /p1;para/p2;para
query   : query=arg
fragment: frag
username: user
password: pwd
hostname: netloc
port    : 80


## URL Unparsing

### Метод urllib.parse.geturl

Существует несколько способов собрать части разделенного URL-адреса обратно в одну строку. Анализируемый URL-объект имеет метод geturl(). Он работает только с объектом, возвращаемым urlparse() или urlsplit().

In [36]:
from urllib.parse import urlparse

original = 'http://netloc/path;param?query=arg#frag'
print('ORIG  :', original)
parsed = urlparse(original)
print('PARSED:', parsed.geturl())

ORIG  : http://netloc/path;param?query=arg#frag
PARSED: http://netloc/path;param?query=arg#frag


### Метод urllib.parse.urlunparse

Обычный кортеж, содержащий строки, можно объединить в URL-адрес с помощью функции urlunparse ().

In [37]:
from urllib.parse import urlparse, urlunparse

original = 'http://netloc/path;param?query=arg#frag'
print('ORIG  :', original)
parsed = urlparse(original)
print('PARSED:', type(parsed), parsed)
t = parsed[:]
print('TUPLE :', type(t), t)
print('NEW   :', urlunparse(t))

ORIG  : http://netloc/path;param?query=arg#frag
PARSED: <class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='netloc', path='/path', params='param', query='query=arg', fragment='frag')
TUPLE : <class 'tuple'> ('http', 'netloc', '/path', 'param', 'query=arg', 'frag')
NEW   : http://netloc/path;param?query=arg#frag


Если входной URL-адрес включал лишние части, они могут быть удалены из восстановленного URL-адреса.

In [38]:
from urllib.parse import urlparse, urlunparse

original = 'http://netloc/path;?#'
print('ORIG  :', original)
parsed = urlparse(original)
print('PARSED:', type(parsed), parsed)
t = parsed[:]
print('TUPLE :', type(t), t)
print('NEW   :', urlunparse(t))

ORIG  : http://netloc/path;?#
PARSED: <class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='netloc', path='/path', params='', query='', fragment='')
TUPLE : <class 'tuple'> ('http', 'netloc', '/path', '', '', '')
NEW   : http://netloc/path


В этом случае параметры, запрос и фрагмент отсутствуют в исходном URL-адресе. Новый URL-адрес не выглядит так же, как исходный, но эквивалентен в соответствии со стандартом.

## URL Joining

### Метод urllib.parse.urljoin

Помимо разбора URL-адресов, модуль urlparse включает в себя метод urljoin() для построения абсолютных ссылок из относительных фрагментов.

In [39]:
from urllib.parse import urljoin

print(urljoin('http://www.example.com/path/file.html',
              'anotherfile.html'))
print(urljoin('http://www.example.com/path/file.html',
              '../anotherfile.html'))

http://www.example.com/path/anotherfile.html
http://www.example.com/anotherfile.html


В этом примере относительная часть пути ( ".. / " ) учитывается при вычислении второго URL-адреса.

## URL Encoding Query Arguments

### Метод urllib.parse.urlencode

Прежде чем добавлять аргумены в URL-адрес, они должны быть закодированы.

In [41]:
from urllib.parse import urlencode

query_args = {
    'q': 'query string',
    'foo': 'bar2000',
}
encoded_args = urlencode(query_args)
print('Encoded:', encoded_args)

Encoded: q=query+string&foo=bar2000


Кодировка заменяет специальные символы, такие как пробелы, чтобы гарантировать, что они передадуться на сервер в формате, соответствующему стандарту.

## URL Decoding Query Arguments

### Методы urllib.parse.parse_qs и urllib.parse.parse_qsl

Для декодирования строки запроса используйте parse_qs() или parse_qsl()

In [44]:
from urllib.parse import parse_qs, parse_qsl

encoded = 'q=query+string&foo=bar2000'

print('parse_qs :', parse_qs(encoded))
print('parse_qsl:', parse_qsl(encoded))

parse_qs : {'q': ['query string'], 'foo': ['bar2000']}
parse_qsl: [('q', 'query string'), ('foo', 'bar2000')]


Возвращаемое значение parse_qs() представляет собой словарь, сопоставляющий имена значениям, в то время как parse_qsl() возвращает список кортежей, содержащих имя и значение.

# Задание

На основе методов, описанных выше, проанализируйте URL-адрес самого популярного поискового сайта в мире.