## Obteniendo fotos de una página web

### Vamos a trabajar a partir de un ejemplo:

La url de la página que vamos a examinar es: <http://www.oldpicsarchive.com/giant-computers-of-the-past-photos/>

Si vemos la página, vemos que cada una de las fotos tiene una url, por ejemplo, la primera
es <http://www.oldpicsarchive.com/wp-content/uploads/2016/09/1.png>, 
la segunda es <http://www.oldpicsarchive.com/wp-content/uploads/2016/09/2.png>, ... etc
La  última es <http://www.oldpicsarchive.com/wp-content/uploads/2016/09/10.jpg>.

http://www.oldpicsarchive.com/wp-content/uploads/2016/09/2.png

### Vamos a generar cada una de esas direcciones

In [1]:
for i in range(1, 11):
    print('http://www.oldpicsarchive.com/wp-content/uploads/2016/09/{}.jpg'.format(i))

http://www.oldpicsarchive.com/wp-content/uploads/2016/09/1.jpg
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/2.jpg
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/3.jpg
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/4.jpg
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/5.jpg
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/6.jpg
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/7.jpg
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/8.jpg
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/9.jpg
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/10.jpg


Ahora, dada una url, ¿como podemos descargar dicha imagen a nuestro ordenador? En python una opción muy buena es el módulo [requests](http://docs.python-requests.org/en/master/). 

Podemos comprobar si requests está instalado simplemente intentado importar el módulo:

In [2]:
import requests

Si la línea anterior no da problemas, es que está instalado. Si mo, podemos instalarlo rápidamente desde la línea de comandos con **pip**:

In [3]:
!pip install requests



el módulo requests nos proporciona la forma de leer ficheros de internet como si fueran simples archivos normales. Para leer una página web, por ejemplo, podemos usar la funcion `get`. Está función des devuelve un objeto de tipo respuesta. este objeto se puede usar para muchas cosas, como por ejemplo ver el codigo del resultado de la petición, la codificación usada, si es texto, el tipo de respuesta, etc... El resultado de la petición está en el atributo `text` si estamos solicitando un archivo de texto o en el atributo `content` si estamos pidiendo un fichero binario (imágenes, películes, etc):

El siguiente ejemplo muestra los primeros 512 caracteres de la página <http://www.oldpicsarchive.com/giant-computers-of-the-past-photos/>:

In [4]:
import requests

url = 'http://www.oldpicsarchive.com/giant-computers-of-the-past-photos/'
resp = requests.get(url)
print(resp.text[0:512])

<!DOCTYPE html>
<html class="no-js" lang="en">
<head>
	<meta charset="UTF-8">
	<!-- Always force latest IE rendering engine (even in intranet) & Chrome Frame -->
	<!--[if IE ]>
	<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
	<![endif]-->
	<link rel="profile" href="http://gmpg.org/xfn/11" />
	<title>Giant Computers of the Past (11 photos) | Old Pics Archive</title>
	<!--iOS/android/handheld specific -->
<link rel="apple-touch-icon" href="http://www.oldpicsarchive.com/wp-content/the


Para guardar un recurso de Interent en nuestro disco duro, lo que hacemos es obtener el contenido del mismo apartir de su dirección o URL, abrir un fichero en modo escritura y almacenar en él el contenido: Por ejemplo, para la primera imagen, cuya url era `http://www.oldpicsarchive.com/wp-content/uploads/2016/09/1.jpg`, seria:


In [5]:
url

'http://www.oldpicsarchive.com/giant-computers-of-the-past-photos/'

In [6]:
url = 'http://www.oldpicsarchive.com/wp-content/uploads/2016/09/2.png'
resp = requests.get(url)
with open('ejemplo.png', 'wb') as f:
    f.write(resp.content)
    

![imagen descargada de Internet](./ejemplo.png)

In [7]:
!ls -la ejemplo.png

-rw-rw-r-- 1 jileon jileon 322468 mar 16 14:54 ejemplo.png


## Ejercicio: Hagamos un pequeño script que descargue las 10 imagenes de la página 

Recordemos que la url de la página original era http://www.oldpicsarchive.com/giant-computers-of-the-past-photos/

Podemos usar un bucle for para generar todas las urls de las imágenes, usando el método `format` de las cadenas de texto:

In [8]:
patron = 'http://www.oldpicsarchive.com/wp-content/uploads/2016/09/{}.png'
for i in range(1, 11):  # Recordemos que range omite el ultimo valor, ira de 1 a 10
    url = patron.format(i)
    print(url)

http://www.oldpicsarchive.com/wp-content/uploads/2016/09/1.png
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/2.png
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/3.png
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/4.png
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/5.png
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/6.png
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/7.png
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/8.png
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/9.png
http://www.oldpicsarchive.com/wp-content/uploads/2016/09/10.png


Añadimos el código para guardar las imagenes. Necesitamos un nombre distinto
para cada imagen. ¿De dónde podemos sacar una variable para que todas las
imágenes se almacenen en archivos diferentes?


In [9]:
patron = 'http://www.oldpicsarchive.com/wp-content/uploads/2016/09/{}.png'
for i in range(1, 11):  # Recordemos que range omite el ultimo valor, ira de 1 a 10
    url = patron.format(i)
    resp = requests.get(url)
    local_name = 'ejemplo_{}.png'.format(i)
    with open(local_name, 'wb') as f:
        f.write(resp.content)

![ejemplo 3](./ejemplo_3.png)