### Práctica de Web Scraping

Se va a considerar una página web de wikipedia donde se encuentra un recopilatorio de las pinturas realizadas por Velázquez: https://es.wikipedia.org/wiki/Anexo:Cuadros_de_Vel%C3%A1zquez

En la página aparecen varios apartados, de los cuales se va a procesar aquel denominado "Obras total o parcialmente de Velázquez". En este apartado aparecen un conjunto de tablas clasificadas por diferentes etapas artísticas del pintor. En cada tabla aparecen pinturas junto a información asociada a cada una de ellas.

In [None]:
from IPython.display import Image
Image(filename='Captura.png')

La tabla está formada por 6 columnas: Cuadro, Título, Fecha, Técnica, Localización, Observaciones y Número de catálogo.

Observa cómo es la estructura de una fila.

Los enlaces a las imágenes se encuentran en el atributo src del elemento __"</img/>"__.En el ejemplo anterior, el valor de src es:

__//upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Diego_Vel%C3%A1zquez_-_The_Three_Musicians_-_Google_Art_Project.jpg/150px-Diego_Vel%C3%A1zquez_-_The_Three_Musicians_-_Google_Art_Project.jpg__

Para acceder a la imagen se debe añadir https: delante del valor recuperado:

https://upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Diego_Vel%C3%A1zquez_-_The_Three_Musicians_-_Google_Art_Project.jpg/150px-Diego_Vel%C3%A1zquez_-_The_Three_Musicians_-_Google_Art_Project.jpg

Otra  característica que hay que tener en cuenta es que existe una tabla por cada uno de las etapas artísticas del pintor, con la siguiente estructura:

3 Obras total o parcialmente de Velázquez

    3.1 Etapa sevillana (hasta 1622
    
    3.2 Madrid (1622-1629)
    
    3.3 Primer viaje a Italia (1629-1630)
    
    3.4 Madrid (1631-1648)
    
    3.5 Segundo viaje a Italia (1649-1651)
    
    3.6 Madrid (1651-1660)
    
4 Autoría debatida e incorporaciones al catálogo

5 Dibujos

6 Taller, obras perdidas y antiguas atribuciones

Los títulos referidos a 3,4,5 y 6 aparecen en la página html en una etiqueta __"</h2/>"__, y los títulos referidos a 3.1, 3.2, 3.3, 3.4, 3.5 y 3.6 aparecen en una etiqueta __"</h3/>"__. Además pueden encontrarse también listados al principio de la página html 

Para recuperar el contenido de la página html de wikipedia, se puede hacer de la siguiente manera:

In [40]:
import requests
import os
from bs4 import BeautifulSoup
import urllib.request

url="https://es.wikipedia.org/wiki/Anexo:Cuadros_de_Vel%C3%A1zquez"
r = requests.get(url)
html = r.text
soup = BeautifulSoup(html, 'html.parser')
soup.prettify()
etiquetas = soup("span")

spans = soup.find_all("span", class_="mw-headline")

etapas = []
tablas = []
for a in spans:
    if "16" in a.text:
        etapas.append(a.text)
        tablas.append(a.parent.next_sibling.next_sibling)

tablaElements = []
for tabla in tablas:
    tablaElements.append(tabla.find_all("tr"))

i=0;
for etapa in etapas:
    print(i, ":", etapa)
    i+=1
opcion = int(input("Elige una etapa: "))

imageIndex = 0
for fila in tablaElements[opcion]:
    tedes = fila.find_all("td")
    for tede in tedes:
        if(tede.find("center")!=None):
            nomDirectorio = etapas[opcion].replace('\n', '')
            if not os.path.exists(nomDirectorio):
                os.makedirs(nomDirectorio)
    
            img = urllib.request.urlopen("https:" + tede.find("img")['src']).read()
            manf=open(nomDirectorio + '/' + str(imageIndex) + '.jpg',"wb")
            manf.write(img)
            manf.close()
            
            imageIndex+=1
        texto = tede.text
        print(texto)

0 : Etapa sevillana (hasta 1622)
1 : Madrid (1622-1629)
2 : Primer viaje a Italia (1629-1630)
3 : Madrid (1631-1648)
4 : Segundo viaje a Italia (1649-1651)
5 : Madrid (1651-1660)
Elige una etapa: 2


María de Austria, reina de Hungría

1630

Óleo sobre lienzo

59,5 × 45,5 cm

Museo del Prado, Madrid



40/48



La túnica de José

1630

Óleo sobre lienzo

223 × 250 cm

Monasterio de El Escorial, San Lorenzo de El Escorial



41/43



La fragua de Vulcano

1630

Óleo sobre lienzo

222 × 290 cm

Museo del Prado, Madrid



42/44



Cabeza de Apolo

1630

Óleo sobre lienzo

36 x 25 cm

Colección particular, Nueva York[27]​

Considerado estudio en color para La fragua de Vulcano[28]​ desde que lo diera a conocer en 1927 August L. Mayer, quien relacionó también esta cabeza con la del alma cristiana en el Cristo y el alma cristiana de Londres.[29]​

43/45



Vista del jardín de la Villa Medici en Roma (Pabellón de Ariadna)

1630

Óleo sobre lienzo

44,5 x 38,5 cm

Museo del Prado, Madrid

La d

In [39]:
import requests
import os
from bs4 import BeautifulSoup
import urllib.request

url="https://es.wikipedia.org/wiki/Anexo:Cuadros_de_Vel%C3%A1zquez"
r = requests.get(url)
html = r.text
soup = BeautifulSoup(html, 'html.parser')
soup.prettify()

tabs = soup.find_all("td")

tecnicas = []

i = 3
while(i<len(tabs)):
    if tabs[i].text not in tecnicas and tabs[i].text != '\n':
        tecnicas.append(tabs[i].text)
    i+=8

tecnicaIndex = 0
for tecnica in tecnicas:
    print(tecnicaIndex, ": ", tecnica)
    tecnicaIndex+=1
    
opcion = int(input("Elige una técnica: "))

filastecnica = soup.find_all("td", text = tecnicas[opcion])
print(filastecnica)
imageIndex = 0
for elem in filastecnica:
    texto = elem.parent.text
    
    nomDirectorio = tecnicas[opcion].replace('\n', '')
    if not os.path.exists(nomDirectorio):
        os.makedirs(nomDirectorio)
    
    img = urllib.request.urlopen("https:" + elem.parent.find("img")['src']).read()
    manf=open(nomDirectorio + '/' + str(imageIndex) + '.jpg',"wb")
    manf.write(img)
    manf.close()

    imageIndex+=1
    print(texto.replace(tecnicas[opcion] + '\n', ''))

0 :  Óleo sobre lienzo

1 :  Óleo sobre tabla

2 :  Óleo sobre cobre

3 :  Carboncillo sobre papel

4 :  Lápiz negro sobre papel

5 :  Lápiz negro sobre papel amarillento verjurado

6 :  Óleo sobre lienzo pegado a tabla

7 :  Óleo sobre tela

8 :  Aguafuerte

Elige una técnica: 0
[<td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo
</td>, <td>Óleo sobre lienzo






Retrato de caballero / Francisco Pacheco

hacia 1620-1622

40 x 36 cm

Museo del Prado, Madrid

La identificación del personaje retratado con el suegro del pintor, propuesta por Allende-Salazar en 1925 y cuestionada luego por algunos críticos,[14]​ es defendida de nuevo en el Museo.[15]​

21/23




Retrato de hombre

1623-1624

55,5 x 38 cm

Museo del Prado, Madrid

Allende-Salazar (1925), Mayer (1936) y Camón Aznar estiman que podría tratarse de un autorretrato de Velázquez. López-Rey y Brown piensan en su hermano Juan, también pintor y establecido en Madrid.[16]​

24/27




Felipe IV

1623-1624

61,6 x 48,2 cm

Meadows Museum, Dallas (Texas)

Brown cree que podría tratarse del primer retrato del rey, según Francisco Pacheco tomado del natural el 30 de agosto de 1623,[17]​ hipótesis rechazada por López-Rey.[18]​

25/28




Retrato de dama

hacia 1625

32 x 24 cm

Antes en Palacio Real, Madrid, robado en 1989. Paradero actual desconocido.

Es un fragmento de un retrato de mayores d




La reina Margarita de Austria a caballo

1634-1635

297 x 212 cm

Museo del Prado, Madrid

De Velázquez y taller. De Velázquez sería la remodelación de la cabeza de la reina y de los arreos del caballo, inicialmente muy detallistas, en tanto que en la crines del caballo y en alguna zona del paisaje se procedió de forma inversa, ocultándose en la remodelación final trazos de pintura de técnica más suelta y quizá del propio Velázquez.[48]​

65/69




La reina Isabel de Borbón, a caballo

1634-1635

304,5 x 317,5 cm

Museo del Prado, Madrid

De Velázquez con amplia participación del taller.[49]​

66/70




Felipe IV a caballo

1634-1635

305,5 x 317,5 cm

Museo del Prado, Madrid



67/71




El príncipe Baltasar Carlos a caballo

1634-1635

209,5 x 174 cm

Museo del Prado, Madrid



68/72




La rendición de Breda (Las lanzas)

1634-1635

307,5 x 370,5 cm

Museo del Prado, Madrid

Documentado junto con los cinco retratos ecuestres pintados para el Salón de Reinos por cartas de pago fec




Un caballero de la Orden de Santiago

hacia 1645-1650

67 × 56 cm

Gemäldegalerie Alte Meister, Dresde



103/110




Ferdinando Brandani (antes conocido como Retrato de hombre, el llamado barbero del Papa)[70]​

1650

50,5 x 47 cm

Museo del Prado, Madrid



105/113




Inocencio X

1650

140 x 120 cm

Galería Doria-Pamphili, Roma

Firma en el papel que el pontífice lleva en la mano: «Alla santa di Nro Sigre / Innocencio Xº / Per / Diego de Silva / Velázquez dela Ca / mera di S. Mte Cattca».

106/114




Inocencio X

1650

82 x 71,5 cm

Apsley House, Wellington Museum, Londres

Pudiera tratarse de la copia que, según los documentos, Velázquez hizo para sí y conservó hasta su muerte, utilizada quizá para las numerosas copias existentes. Para López-Rey, de Velázquez serían la cabeza y el esbozo general, siendo completado el retrato por mano ajena.[71]​

107/115




Camillo Massimi

1650

73,6 x 58,5 cm

Kingston Lacy, Dorset



108/116




Camillo Astalli

1650-1651

61 x 48,5 cm

Hi




El conde-duque de Olivares

hacia 1624-1625

209 x 111 cm

Colección Várez Fisa, Madrid

En mal estado de conservación, gravemente dañada la superficie exterior, a excepción de la cabeza. Excluido del catálogo velazqueño por López-Rey y Brown, entre otros, considerándolo copia del anterior, el estudio técnico realizado en el Museo del Prado revela la existencia de arrepentimientos que acreditan su carácter de obra original, y una técnica en la preparación y encaje de la figura propios del taller de Velázquez, sin que quepa confirmar que fuese acabado por el maestro.[110]​

30/-




Retrato de hombre

1626-1628

105 x 79,5 cm

Colección privada

De atribución problemática para López-Rey, a causa de su mal estado de conservación,[111]​ tras haberlo admitido en 1963, cuando se encontraba en la colección Contini-Bonacorsi de Florencia.[112]​ Brown, (n.º Q-6), «posiblemente de Velázquez».[113]​ Subastado en Sotheby's de Londres el 9 de julio de 2014 tras pasar por la colección Barbara Pi




Don Francisco Bandrés de Abarca

hacia 1638-1646

64 x 53 cm

Colección privada, Nueva York

Admitido por López-Rey, aun advirtiendo el mal estado de conservación (fragmento posiblemente de un retrato de medio cuerpo) y la escasa semejanza con otros retratos seguros de los mismos años.[139]​ Atribuido últimamente a Domingo Guerra Coronel, mal conocido pintor relacionado con Velázquez, que estuvo al servicio del retratado y su familia.[140]​

-/95




Retrato ecuestre de Felipe IV

hacia 1645

393 x 267 cm

Galleria degli Uffizi, Florencia

Copia presumiblemente de Mazo del desaparecido retrato alegórico hecho por Rubens durante su estancia en Madrid en 1628-1629, en el que Velázquez habría pintado la cabeza, conforme al modelo del Felipe IV en Fraga.[141]​

95/101




El bufón don Sebastián de Morra

hacia 1645

106 x 84,5 cm

Colección particular, Suiza

Para López-Rey, réplica del Sebastián de Morra del Museo del Prado ejecutada por Velázquez quizá con participación del taller.

-




Marqués de Castel-Rodrigo

hacia 1623-1651

124 x 97,5 cm

Antigua colección Príncipe Pío de Saboya, Madrid

La identificación del personaje retratado con el segundo marqués de Castel-Rodrigo, Manuel de Moura y Corte-Real (1590-1651), es problemática según señala López-Rey, atendiendo al modelo del cuello que viste el personaje, prohibido en 1623. Sin embargo, para Allende-Salazar, defensor de la autoría velazqueña, el retrato habría sido iniciado a finales de 1651, tras la vuelta del pintor de Italia, lo que entra en contradicción con la fecha de la muerte del marqués, fallecido en enero de 1651. Rechazaron la autoría velazqueña Mayer y López-Rey, que advierte exceso de trabajo en la cabeza y ausencia de profundad.[176]​

337/492




Felipe IV

1624

208,6 x 110,2 cm

Museum of Fine Arts, Boston

Copia del taller del retrato de Felipe IV del Metropolitan de Nueva York.[177]​[178]​

200/237




Felipe IV

1628

199 x 108 cm

Isabella Stewart Gardner Museum, Boston

Copia del taller 




Enano con un perro

hacia 1645

142 x 107 cm

Museo del Prado, Madrid

Procedente de la colección real, durante mucho tiempo estuvo catalogado en el museo como obra de Velázquez. Obra de calidad y problemática atribución, se ha asignado también a Juan Bautista Martínez del Mazo o a Juan Carreño de Miranda.[215]​[216]​[217]​

454/437




Autorretrato

hacia 1644-1659

103,5 x 85,5 cm

Galleria degli Uffizi, Florencia

Expuesto en París, 2015, como obra atribuida a Velázquez con participación de Martínez del Mazo.[218]​

174/178




Felipe IV en Fraga

hacia 1644-1648

130,2 x 97,8 cm

Dulwich Picture Gallery, Londres

Réplica de taller del Felipe IV en Fraga de la Frick Collection.[219]​

229/256




Reunión de trece (catorce) personajes o Los pequeños caballeros

hacia 1645-1650

47,7 x 78 cm

Musée du Louvre, París

Considerado en el siglo XIX como «el» Velázquez del Louvre, admirado e imitado por artistas como Édouard Manet, Pierre-Auguste Renoir[220]​ o James McNeill Whistler,[22




La fuente de los Tritones en el jardín de la Isla de Aranjuez

1657

248 x 223 cm

Museo del Prado, Madrid

Ingresó en el museo en 1819, procedente de la colección real, como obra de Velázquez. Para Allende-Salazar, como luego para Mayer, pudiera tratarse de la última e inacabada obra de Velázquez completada por Mazo, a cuyo nombre figuraba en el inventario del palacio de Aranjuez de 1794.[271]​[272]​[273]​

161/157



In [66]:
import requests
import os
from bs4 import BeautifulSoup
import urllib.request

url="https://es.wikipedia.org/wiki/Anexo:Cuadros_de_Vel%C3%A1zquez"
r = requests.get(url)
html = r.text
soup = BeautifulSoup(html, 'html.parser')
soup.prettify()

tabs = soup.find_all("td")

museos = []

i = 5
while(i<len(tabs)):
    nomMuseo = tabs[i]
    if nomMuseo not in museos and nomMuseo != '\n':
        museos.append(nomMuseo)
    i+=8

museoIndex = 0
for museo in museos:
    print(museoIndex, ": ", museo.text)
    museoIndex+=1
    
opcion = int(input("Elige un museo: "))

filasmuseo = []
for fila in tabs:
    texto = fila.find_all("td", text = museos[opcion])
    if texto != None:
        filasmuseo.append(texto)
print(filasmuseo)

imageIndex = 0
for elem in filasmuseo:
    texto = elem.parent.parent.text
    
    nomDirectorio = museos[opcion].replace('\n', '')
    if not os.path.exists(nomDirectorio):
        os.makedirs(nomDirectorio)
    
    img = urllib.request.urlopen("https:" + elem.parent.parent.find("img")['src']).read()
    manf=open(nomDirectorio + '/' + str(imageIndex) + '.jpg',"wb")
    manf.write(img)
    manf.close()
    
    imageIndex+=1
    
    print(texto.replace(tecnicas[opcion] + '\n', ''))

0 :  Staatliche Museen, Berlín

1 :  Museo del Ermitage, San Petersburgo

2 :  National Gallery of Ireland, Dublín

3 :  National Gallery of Scotland, Edimburgo

4 :  National Gallery, Londres

5 :  Apsley House, Londres

6 :  Musée des beaux-arts, Orleans

7 :  Museo del Prado, Madrid

8 :  Museo Nacional de Arte de Cataluña, Barcelona

9 :  Museo de Bellas Artes, Sevilla

10 :  Colección Fernández Araoz, Madrid

11 :  Ayuntamiento de Sevilla, Sevilla

12 :  Museum of Fine Arts, Boston

13 :  Meadows Museum, Dallas (Texas)

14 :  Antes en Palacio Real, Madrid, robado en 1989. Paradero actual desconocido.

15 :  Musée des Beaux-Arts, Rouen

16 :  Metropolitan Museum of Art, Nueva York

17 :  Monasterio de El Escorial, San Lorenzo de El Escorial

18 :  Colección particular, Nueva York[27]​

19 :  Alte Pinakothek, Múnich

20 :  Museo Diocesano, Orihuela

21 :  Colección particular, Nueva York

22 :  Palacio Real, Madrid. Robado en 1989 y paradero desconocido ahora.

23 :  Kimbell Art Mus

AttributeError: ResultSet object has no attribute 'parent'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

Se pide hacer un buscador que permita recuperar información de la página. Para ello se le mostrará al usuario tres opciones entre las que tiene que elegir: Buscar por etapa pictórica, Buscar por técnica o Buscar por museo.

__Buscar por etapa pictórica[2,5 puntos]__
 
Si elige esta opción se le mostrará un listado de todas las etapas que aparecen en wikipedia antes mencionadas. Para facilitar la selección se asignará un número a cada etapa, de manera que el usuario elija por número.Las etapas pueden recuperarse de acuerdo a la caracterización antes indicada (bien usando las etiquetas h2 y h3 o bien por el listado que aparece al comienzo de la página). Una vez elegido una etapa, el programa mostrará una lista de todas las pinturas que cumplen ese requisito. De cada pintura se mostrará la información que aparece en las columnas:  Título, Fecha, Técnica, Dimensiones, y observaciones. Así mismo, se creará una carpeta en el sistema de archivos, y se guardarán todas las imagenes de las pinturas que cumplen la condición de búsqueda sobre etapa pictórica.

__Buscar por técnica[2,5 puntos]__
 
Si elige esta opción se le mostrará un listado de todas las técnicas usadas por Velázques para pintar sus cuadros. Para facilitar la selección se asignará un número a cada técnica, de manera que el usuario elija por número.Las técnicas se pueden recuperar de la  columna Técnica de cada tabla de la página de wikipedia. Una vez elegida una técnica, el programa mostrará una lista de todas las pinturas que cumplen ese requisito. De cada pintura se mostrará la información que aparece en las columnas:  Título, Fecha,  Dimensiones,Localización y observaciones. Así mismo, se creará una carpeta en el sistema de archivos, y se guardarán todas las imagenes de las pinturas que cumplen la condición de búsqueda sobre técnica.

__Buscar por museo[5 puntos]__
 
Si elige esta opción se le mostrará un listado de todos los museos en los que existe una pintura de Velázquez. Para facilitar la selección se asignará un número a cada museo, de manera que el usuario elija por número. Los museos se pueden recuperar de la  columna Localización de cada tabla de la página de wikipedia. Una vez elegido el museo, el programa mostrará una lista de todas las pinturas que cumplen ese requisito. De cada pintura se mostrará la información que aparece en las columnas: Título, Fecha, Técnica, Dimensiones, y observaciones. Así mismo, se creará una carpeta en el sistema de archivos, y se guardarán todas las imagenes de las pinturas que cumplen la condición de búsqueda sobre museo.

__Nota: Para procesar la página html es obligatorio utilizar la libreria BeautifulSoup. No se pueden usar otras librerías no vistas en clase__

# Normas de entrega

* Fecha tope de entrega: 12/11/2020
* La entrega se realizará subiendo al campus virtual un notebook de Jupyter con la solución. El archivo tendrá como nombre WebScraping_GrupoX donde X será el número de grupo correspondiente.
