### Práctica de Web Scraping

Se va a considerar una página web de wikipedia donde se encuentra un recopilatorio de las pinturas realizadas por Pedro Pablo Rubens: https://es.wikipedia.org/wiki/Anexo:Cuadros_de_Pedro_Pablo_Rubens

En la página aparecen varios apartados, de los cuales se va a procesar aquel denominado "Pintura". En este apartado aparecen un conjunto de tablas clasificadas por diferentes etapas artísticas del pintor. En cada tabla aparecen pinturas junto a información asociada a cada una de ellas.

In [None]:
from IPython.display import Image
Image(filename='Captura.png')

La tabla está formada por 6 columnas: Imagen, Título,Dimensiones, Fechad de creación, Referencia, Colección/localización.

Observa cómo es la estructura de una fila.

Los enlaces a las imágenes se encuentran en el atributo src del elemento __"</img/>"__.En el ejemplo anterior, el valor de src es:

//upload.wikimedia.org/wikipedia/commons/thumb/7/74/Peter_Paul_Rubens_-_Portrait_of_a_Young_Scholar_-_WGA20349.jpg/150px-Peter_Paul_Rubens_-_Portrait_of_a_Young_Scholar_-_WGA20349.jpg

Para acceder a la imagen se debe añadir https: delante del valor recuperado:

https://upload.wikimedia.org/wikipedia/commons/thumb/7/74/Peter_Paul_Rubens_-_Portrait_of_a_Young_Scholar_-_WGA20349.jpg/150px-Peter_Paul_Rubens_-_Portrait_of_a_Young_Scholar_-_WGA20349.jpg

Otra  característica que hay que tener en cuenta es cómo aparecen delimitados las etapas pictóricas:

1 Pintura

        1.1 Viaje a Italia 1600-1608
        
        1.2 Retorno a Amberes en 1608
        
        1.3 Creación de su taller en 1615
        
        1.4 Départ de Van Dyck en Angleterre en 1620
        
        1.5 Pinturas de los últimos años


El título referido a 1 aparece en la página html en una etiqueta __"</h2/>"__, y los títulos referidos a 1.1, 1.2, 1.3, 1.4, y 1.5  aparecen en una etiqueta __"</h3/>"__. Además pueden encontrarse también listados al principio de la página html 

Para recuperar el contenido de la página html de wikipedia, se puede hacer de la siguiente manera:

In [None]:
import requests
url="https://es.wikipedia.org/wiki/Anexo:Cuadros_de_Pedro_Pablo_Rubens"
r = requests.get(url)
html = r.text
print(html)

Se pide hacer un buscador que permita recuperar información de la página. Para ello se le mostrará al usuario tres opciones entre las que tiene que elegir: Buscar por etapa pictórica, Buscar por material o Buscar por museo.

__Buscar por etapa pictórica[2,5 puntos]__
 
Si elige esta opción se le mostrará un listado de todas las etapas que aparecen en wikipedia antes mencionadas. Para facilitar la selección se asignará un número a cada etapa, de manera que el usuario elija por número.Las etapas pueden recuperarse de acuerdo a la caracterización antes indicada (bien usando las etiquetas h2 y h3 o bien por el listado que aparece al comienzo de la página). Una vez elegido una etapa, el programa mostrará una lista de todas las pinturas que cumplen ese requisito. De cada pintura se mostrará la información que aparece en las columnas: Título,Dimensiones, Fecha de creación, Referencia, Colección/localización. Así mismo, se creará una carpeta en el sistema de archivos, y se guardarán todas las imagenes de las pinturas que cumplen la condición de búsqueda sobre etapa pictórica.

__Buscar por material[2,5 puntos]__
 
Si elige esta opción se le mostrará un listado de todos los tipos de materiales usados por Rubens para pintar sus cuadros. Para facilitar la selección se asignará un número a cada tipo de material, de manera que el usuario elija por número.Los materiales se pueden recuperar de la  columna Material de cada tabla de la página de wikipedia. Una vez elegida una técnica, el programa mostrará una lista de todas las pinturas que cumplen ese requisito. De cada pintura se mostrará la información que aparece en las columnas:  Título,Dimensiones, Fecha de creación, Referencia, Colección/localización. Así mismo, se creará una carpeta en el sistema de archivos, y se guardarán todas las imagenes de las pinturas que cumplen la condición de búsqueda sobre ese material.

__Buscar por museo[5 puntos]__
 
Si elige esta opción se le mostrará un listado de todos los museos en los que existe una pintura de Rubens. Para facilitar la selección se asignará un número a cada museo, de manera que el usuario elija por número. Los museos se pueden recuperar de la  columna Colección/Localización de cada tabla de la página de wikipedia. Una vez elegido el museo, el programa mostrará una lista de todas las pinturas que cumplen ese requisito. De cada pintura se mostrará la información que aparece en las columnas: Título,Dimensiones, Fecha de creación, Referencia, Colección/localización. Así mismo, se creará una carpeta en el sistema de archivos, y se guardarán todas las imagenes de las pinturas que cumplen la condición de búsqueda sobre museo.

Después de hacer uso de cualquier búsqueda, se le preguntará al usuario si quiere volver a buscar. En tal caso, se le mostrará otra vez el menú, y en caso contrario, se saldrá de la ejecución del mismo.

__Nota: Para procesar la página html es obligatorio utilizar la libreria BeautifulSoup. No se pueden usar otras librerías no vistas en clase__

# Normas de entrega

* Fecha tope de entrega: 28/10/2021
* La entrega se realizará subiendo al campus virtual un notebook de Jupyter con la solución. El archivo tendrá como nombre WebScraping_GrupoX donde X será el número de grupo correspondiente.


__MENÚ Y FUNCIÓN PRINCIPAL__

In [None]:
import urllib
import re
import requests
from pathlib import Path
from bs4 import BeautifulSoup
url="https://es.wikipedia.org/wiki/Anexo:Cuadros_de_Pedro_Pablo_Rubens"
r = requests.get(url)
html = r.text
soup = BeautifulSoup(html, 'lxml')

CLEANR = re.compile('<.*?>')
def _cleanhtml(raw_html):
  cleantext = re.sub(CLEANR, '', raw_html)
  return cleantext


In [None]:
tablas = soup("table")
num_pinturas = 0
lista_pinturas = list()

CLEANR = re.compile('<.*?>')
def _cleanhtml(raw_html):
    cleantext = re.sub(CLEANR, '', raw_html)
    return cleantext

for i in range(1, 7):

    filas_tabla = tablas[i]("tr")

    for j in range(1, len(filas_tabla)):
        try:
            fila_contents = filas_tabla[j].contents
            lista_pinturas.append(dict())
            try:
                lista_pinturas[num_pinturas]["image"] = fila_contents[1].contents[0].contents[0].get("src", None) #hecho
            except:
                lista_pinturas[num_pinturas]["image"] = None
            try:
                lista_pinturas[num_pinturas]["title"] = _cleanhtml(str(fila_contents[3]))
            except:
                lista_pinturas[num_pinturas]["title"] = None               
            try: 
                lista_pinturas[num_pinturas]["dimensions"] = _cleanhtml(str(fila_contents[5])) #hecho
            except:
                lista_pinturas[num_pinturas]["dimensions"] = None
            try:
                lista_pinturas[num_pinturas]["date"] = _cleanhtml(str(fila_contents[7])) #hecho
            except:
                lista_pinturas[num_pinturas]["date"] = None
            try:
                lista_pinturas[num_pinturas]["material"] = _cleanhtml(str(fila_contents[9])) #hecho
                if lista_pinturas[num_pinturas]["material"] == "\n":
                    lista_pinturas[num_pinturas]["material"] = None
            except:
                lista_pinturas[num_pinturas]["material"] = None
            try:
                lista_pinturas[num_pinturas]["references"] = fila_contents[11].contents[0].get("href", None) #hecho
            except:
                lista_pinturas[num_pinturas]["references"] = None
            try:
                try:
                    lista_pinturas[num_pinturas]["localization"] = _cleanhtml(str(fila_contents[13])) #hecho
                except:
                    lista_pinturas[num_pinturas]["localization"] = None
            except:
                lista_pinturas[num_pinturas]["localization"] = None
            num_pinturas += 1
        except:
            num_pinturas += 1

In [None]:
lista_museos = list()

for pintura in lista_pinturas:
    localization = pintura.setdefault("localization", None)
    if  pintura["localization"] != None:
        if pintura["localization"] not in lista_museos:
            print(pintura["localization"])
            lista_museos.append(pintura["localization"])

Metropolitan Museum of Art
National Gallery de Londres
Musée des beaux-arts de Houston
Rubenshuis
Museo Real de Bellas Artes de Amberes
Galerie Borghèse
Wallraf-Richartz Museum
Museo Nacional de Escultura
collection particulière
Museo del Prado
Palazzo Ducale
National Gallery of Art
Église du Gesù (Gênes)
Palazzo Spinola di Pellicceria
Académie des beaux-arts de Vienne
département des peintures du musée du Louvre
Musée de Grenoble
Museo Thyssen-Bornemisza
National Trust
Chiesa Nuova
Real Academia de Bellas Artes de San Fernando
Museo del Hermitage
Institut Courtauld
Musée des beaux-arts de Boston
Palazzo Corsini
Musée d'art du comté de Los Angeles
Pinacoteca Antigua de Múnich
Institut d'art de Chicago
Musée Boijmans Van Beuningen
J. Paul Getty Museum
Musée de l'Ermitage
Courtauld Gallery
Musée des beaux-arts de San Francisco
Palais Schwarzenberg
Galerie Palatine
Catedral de Amberes
Musée des beaux-arts de l'Ontario
Musée des Beaux-Arts de Marseille
Musées du Capitole
Musée des Beaux-Ar

In [None]:
# Celda de funciones opcion 2
def _get_materiales_pinturas(dict_pinturas: list)-> list:
    list_materials = list()
    pinturas_material = dict()
    pinturas_material["none"] = []

    for pintura in dict_pinturas:
        try:
            aux = str(pintura["material"])
            mat = str(aux.replace("\n", "")).lower()
            if mat == None:
                pinturas_material["none"].append(pintura) # Group by unknow material
            if mat != None and mat not in list_materials: # Check if material exist
                list_materials.append(mat) # Add material to the list
                pinturas_material[mat] = [pintura]
            elif mat != None:
                pinturas_material[mat].append(pintura)
        except:
            pinturas_material["none"].append(pintura) # Group by unknow material

    return [list_materials, pinturas_material]

def _print_materiales(list_materials: list):
    i = 1
    for mat in list_materials:
        print(str(i)+"-"+mat)
        i += 1

# Título,Dimensiones, Fecha de creación, Referencia, Colección/localización
def _print_pintura_op2(pintura):
    try:
        titulo = pintura["title"]
    except:
        titulo = "desconocido"
    try:
        dimensiones = pintura["dimensions"]
    except:
        dimensiones = "desconocidas"
    try:
        creacion = pintura["creation"]
    except:
        creacion = "desconocida"
    try:
        referencia = pintura["reference"]
    except:
        referencia = "none"
    try:
        localizacion = pintura["location"]
    except:
        localizacion = "desconocida"

    print("-----------------------------------------------------------------------------------")
    print("Título: " + titulo)
    print("Dimensiones: " + dimensiones)
    print("Fecha: " + creacion)
    print("Localización/Colección: " + localizacion)
    print("Referencias: " + referencia)
    print("-----------------------------------------------------------------------------------")    

def _print_pinturas_materials(pinturas_material: list):    
    for pintura in pinturas_material:
        _print_pintura_op2(pintura)

def _save_pictures_material(name_folder: str, list_pinturas: list):
    folder = Path(".") / "materiales"
    sub_folder = Path(folder) / name_folder
    folder.mkdir(parents=True, exist_ok=True)
    sub_folder.mkdir(parents=True, exist_ok=True)

    for pintura in list_pinturas:
        if pintura['image'] != None:
            img = urllib.request.urlopen(str("https:" + pintura["image"])).read()
            manf=open(Path(sub_folder) / str(pintura['title'] + ".jpg"),"wb")
            manf.write(img)
            manf.close()

def _save_all_pictures_material(list_materials: list):
    for material in lista_pinturas:
      _save_pictures_material(material)

def func2(dict_pinturas: list):
    [list_materials, pinturas_material] = _get_materiales_pinturas(dict_pinturas)
    _print_materiales(list_materials)
    m = int(input("Seleccione el tipo del material (0 -> Salir): "))
    if m > 0:
      print("\n", list_materials[m-1])
      _print_pinturas_materials(pinturas_material[list_materials[m-1]])
      _save_pictures_material(list_materials[m-1], pinturas_material[list_materials[m-1]])

In [None]:
func2(lista_pinturas)

1-óleo sobre cuero
2-huile chêne
3-óleo sobre madera
4-none
5-óleo sobre lienzo
6-óleo sobre panel
7-óleo sobre tabla
8-huile sur ardoise
9-óleo sobre lienzo transferido a madera
10-óleo sobre panel,
11-transféré de toile sur bois
12-óleo sobre panel de bois
13-óleo sobre castaño
14-óleo sobre panel de chêne
15-huille sur bois
16-óleo sobre madera de chêne
17-óleo sobre lienzo collée sur du bois
18-transferé de la toile sur bois
19-óleo sobre madera transposée sur toile
20-peinture à l'óleo sobre lienzo
21-huile transferrée du bois sur toile
22-transposé sur toile
23-óleo sobre tela
24-transposé de bois sur toile
25-óleo sobre lienzo transferrée du bois
26-óleo sobre panel de bois, 
27-huile sur papier, sur panneau de bois
28-óleo sobre lienzo transferée du bois
29-laine et soie et fils d'or et d'argent
30-peinture sur toile
31-huie sur bois
32-óleo sobre lienzo transferée sur bois
33-óleo sobre lienzo marouflée sur panneau
34-óleo sobre lienzo,
35-peinture à l'óleo sobre panel
36-huil

In [None]:
def menu():
    print("MENU")
    print("1.- Buscar por etapa pictórica")
    print("2.- Buscar por material")
    print("3.- Buscar por museo")
    print("4.- Salir")

    option = int(input())
    return option

def funcPrincipal():
    op = menu()
    while op < 1 or op > 4:
        print("Opción inválida, introduzca de nuevo la opción")
        op = menu()

    if op == 1:
        func1()
        option = input("¿Quiere realizar una nueva búsqueda? (s/n)").lower()
        while option == 's':
          func1()
          option = input("¿Quiere realizar una nueva búsqueda? (s/n)").lower()
    elif op == 2:
        func2()
        option = input("¿Quiere realizar una nueva búsqueda? (s/n)").lower()
        while option == 's':
          func2()
          option = input("¿Quiere realizar una nueva búsqueda? (s/n)").lower()
    elif op == 3:
        func3()
        option = input("¿Quiere realizar una nueva búsqueda? (s/n)").lower()
        while option == 's':
            func3()
            option = input("¿Quiere realizar una nueva búsqueda? (s/n)").lower()

    if op != 4:
      funcPrincipal()

funcPrincipal()
