## El paquete urllib

El paquete urllib incluye modulos especificos para abrir y trabajar
con direcciones de internet (URLs)

Dentro de este paquete, se encuentran los siguiente módulos:

- ``urllib.request`` usado para abri y lerr URLs

- ``urllib.error`` contiene las exceprciones usadas por ``urllib.request``

- ``urllib.parse`` para analizar y descompones en partes las URLs

- ``urllib.robotparser`` para procesar ficheros de tipo `robots.txt`

La función más usada del módulo ``request`` es la siguiente::

    urllib.request.urlopen(url[, data][, timeout])

Que abre la url indicada, dandonos un objeto similar a un fichero.

En el parámetro opcional ``data`` podemos incluir información
adicional  que requieren ciertas peticiones web, especialmente
``POST``. Si se incluye, ``data`` debe estar formateada con el
estándar  ``application/x-www-form-urlencoded``, algo que podemos
conseguir usando la función ``urllib.parse.urlencode()``, que acepta como
parámetro un  diccionario o una secuencia de parejas (2-tuplas), y
deveulve una string en dicho formato.

El otro parámetro opcional, ``timeout``, indica el tiempo en segundos
que debemos esperar antes de descartar por imposible una conexión.

El objeto devuelto, además de comportarse como un archivo, dispone de
tres métodos adicionales:

- ``geturl()``

  Devuelve la URL del recurso recuperado. Esto se utiliza
  noprmalmente para determinar si ha habido alguna clase de
  recirección.

- ``info()``

  Devuelve la meta-información sobre el recurso solicitado, como
  las cabeceras, en forma de una instancia de la clase
  ``mimetools.Message``.

- ``getcode()``

  Devuelve el código de estado del protocolo HTTP de la
  respuesta.

In [15]:
import urllib
import urllib.request

url = 'http://www.python.org/'
with urllib.request.urlopen(url) as f:
    print(f"Codigo de estado: {f.getcode()}")
    print(f"URL de respuesta: {f.geturl()}")
    print("-- info ------------------")
    meta_info = f.info()
    for name in meta_info:
        print(f"{name}: {meta_info[name]}")
        

Codigo de estado: 200
URL de respuesta: https://www.python.org/
-- info ------------------
Connection: close
Content-Length: 50214
Server: nginx
Content-Type: text/html; charset=utf-8
X-Frame-Options: DENY
Via: 1.1 vegur, 1.1 varnish
Accept-Ranges: bytes
Date: Wed, 21 Oct 2020 16:22:32 GMT
Via: 1.1 vegur, 1.1 varnish
Age: 2078
X-Served-By: cache-bwi5141-BWI, cache-mad22075-MAD
X-Cache: MISS, HIT
X-Cache-Hits: 0, 4
X-Timer: S1603297353.796979,VS0,VE0
Vary: Cookie
Strict-Transport-Security: max-age=63072000; includeSubDomains


Ejemplo: Salvar una página de Internet en un fichero local::

In [8]:
import urllib
import urllib.request

url = 'http://www.python.org/'
with urllib.request.urlopen(url) as f:
    with open('python.html', 'wb') as salida:
        for linea in f.readlines():
            salida.write(linea)


In [9]:
!ls

python.html  urllib.ipynb  urllib.rst


In [10]:
!head python.html

<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

