# Extraer datos de WEB

Este Script se concentra en extraer la informacion y datos de la galeria del museo Van Gogh y las cartas escritas por el mismo artista para guardar los archivos de texto, png y otros datos necesarios para crear el set de datos de entrenamiento para un modelo de Machine Larning. Se utiliza BeautifulSoup para extraer la informacion desde los portales WEB de interes

## Objetivos

Extraer las imagenes, datos y metadatos de cada elemento dentro de la coleccion del museoVan Gogh.

## Fuente de Datos

Las fuentes de datos para el conjunto de datos son:

* Galeria de obras y trabajo de Van Gogh: https://vangoghmuseum.nl/en/search/collection?q=&artist=Vincent%20van%20Gogh
* Archivo de cartas escritas por Van Gogh: http://vangoghletters.org/vg/search/simple?term=
* Ruta de carpetas de recursos de las cartas escritas por Van Gogh: http://vangoghletters.org/vg/letters/


In [2]:
# importar librerias necesarias
# %matplotlib inline
import numpy as np
import pandas as pd
import re
import os
import urllib
import requests
from urllib.parse import urlparse
from bs4 import BeautifulSoup

# import os
# import urllib.request, urllib.error, urllib.parse
# from os import remove
# import os.path
# from os import remove
# from numpy import array
# from bs4 import BeautifulSoup
# import requests
# import requests, pandas, numpy, matplotlib.pyplot
# from bs4 import BeautifulSoup
# import re
# import urllib
# import wget

### Pagina Fuente (Root Page)

desde la pagina fuente recupero todos los enlaces a las obras de Vangohg y despues con la lista de enlaces recupero la informacion necesaria

Enlaces de interes:
- Extract links from webpage (BeautifulSoup): https://pythonspot.com/extract-links-from-webpage-beautifulsoup/
- How to: Find all tags with some given name and attributes: https://kite.com/python/examples/1734/beautifulsoup-find-all-tags-with-some-given-name-and-attributes
- Beautiful Soup can't find the part of the HTML I want: https://stackoverflow.com/questions/51982930/beautiful-soup-cant-find-the-part-of-the-html-i-want


## Galeria de Obras de vangoghmuseum.nl

In [58]:
# Se recorre la pagina principal y recuperan los enlaces de l 
# numero de paginas/obras/enlaces a iterar

paints = 100
defaultPaints = 50

# maximo numero de pinturas conocidas
maxPaints = 1443

# busqueda base en la coleccion de Vangogh
paintsSearch = "https://vangoghmuseum.nl/en/search/collection?q=&artist=Vincent%20van%20Gogh&pagesize="
paintsRoot = "https://vangoghmuseum.nl"

# por defecto pruebo 50 elementos de la coleccion
paintsPage = paintsSearch + str(defaultPaints)

# si el numero de enlaces abuscar es menor al maximo de la coleccion conocida
if paints <= maxPaints:
    paintsPage = paintsSearch + str(paints)

# si hay algo raro
else:
    paintsPage = paintsSearch + str(defaultPaints)

# reviso que cargue bien la pagina base
print("--- Search URL ---")
print(paintsPage)

--- Search URL ---
https://vangoghmuseum.nl/en/search/collection?q=&artist=Vincent%20van%20Gogh&pagesize=30


In [59]:
# pido el HTML
paintsPage = urllib.request.urlopen(paintsPage)

# uso beautifulSoup
soup = BeautifulSoup(paintsPage, "html.parser")

# lista de enlaces a elementos de la coleccion
links = list()

# esta es la seccion del HTML donde estan los resultados de la coleccion NO LA NECESITO POR AHORA
# collectionSoup = soup.body.findAll("ul", attrs = {"class":"cols cols-3up list-plain"})
linkSoup = soup.body.findAll('a', attrs = {"class":"link-teaser triggers-slideshow-effect", "href":re.compile("^/en/collection/")})

# saco los links a las paginas que quiero dentro de la busqueda de coleccion
# estan los elementos de tipo link-teaser y la expresion regular del href
for link in linkSoup:
    
    # reconstruyo el enlace completo
    # tempLink = paintsRoot + link.get('href')
    tempLink = urllib.parse.urljoin(paintsRoot, link.get('href'))
    links.append(tempLink)

In [61]:
#chequeo los links de la busqueda
print("Extracted links in search: " + str(len(links)))
for link in links:
    pass
#     print(link)
    

Extracted links in search: 30


### Directorio y Carpetas para persistencia

In [62]:
# defino los directorios locales donde se va a persistir la informacion
# no olvidarse del cambiar "\" a "\\" en los filepath de windows por que si no no sirve nada
# dir de santiago
SFAM_ROOT = "C:\\Users\\Felipe\\OneDrive - Universidad de Los Andes\\03 - PhD\\04 - Clases\\05 - IA en Arte y Disenho\\03 - Proyecto\\01 - Data\\01 - Raw"
# dir de daniela
DCP_ROOT = ""
# variable intermedia para independizar, se comenta uno u otro segun donde se corra
WORK_ROOT = SFAM_ROOT
# WORK_ROOT = DCP_ROOT

# nombres de carpetas utiles donde se guarda la informacion
rawFolder = "01 - Raw"
paintsFolder = "01 - Paints"
lettersFolder = "02 - Letters"

#La ruta se obtiene con el dirpath y el filename y el dirpath.split(os.path.sep)[-1] agrega la clase
DATA_ROOT = os.path.dirname(WORK_ROOT)
print(DATA_ROOT)

C:\Users\Felipe\OneDrive - Universidad de Los Andes\03 - PhD\04 - Clases\05 - IA en Arte y Disenho\03 - Proyecto\01 - Data


### Definicion de funciones para extraer Informacion

### Procesamiento de las pinturas en la galeria

el proceso sigue los siguientes pasos, para facilidad de la estructura se propone un formato JSON por cada uno de los frames que se desean guardar en formato TXT, al final cada carpeta debe tener 4 archivos TXT mas una image en formato PNG. Los pasos a seguir son los siguientes:

* Chequeo que los enlaces existan y creo las carpetas necesarias.
* Extraigo las anotaciones de busqueda cada uno de los elementos de la galeria desde el objeto "Search in the collection:".
* Extraigo los datos archivisticos de cada elemento de la galeria desde el objeto "OBJECT DATA".
* Extraigo los trabajos relacionados si existen de cada elemento de la galeria desde el objeto "Related work".
* Extraigo la imagen en formato PNG de cada elemento de la galeria en el desde el objeto "DOWNLOAD IMAGE"


 #### Enlaces utiles para el proceso
 
- Como chequear que un enlace esta vivo: https://stackoverflow.com/questions/51639585/checking-if-a-website-exist-with-python3
- Como utilizar libreria Request y el metodo GET: https://realpython.com/python-requests/
- Manejo de errores en Python 3 URL 1: https://www.python-course.eu/python3_exception_handling.php
- Manejo de errores en Python 3 URL 2: https://www.tutorialspoint.com/python3/python_exceptions.htm
- descargar una imagen desde un URL: https://stackabuse.com/download-files-with-python/

In [65]:
# recorro el arreglo de enlaces habilitados para extraer la informacion
# variables de conteo del proceso
folderCount = 0
downloadCount = 0
linkCount = 0
repeatCount = 0

#inicio del ciclo para los enlaces
for link in links:
    
    # recojo la informacion necesaria para crear las carpetas y guarar los datos
    linkPar = urlparse(link)
    linkLen = len(linkPar.path.split("/"))
    linkFolder = linkPar.path.split("/")[linkLen-1]
        
    # chequeo si el enlace sirve para sacar la informacion
    try:
        # GET del URL
        linkReq = requests.get(link)
        
        # si el GET me responde bien con codigo 200
        if linkReq.status_code == 200:
            
            linkCount = linkCount + 1
            
            # si la ruta de trabajo local esta definida
            if os.path.exists(WORK_ROOT):
                
                # concateno los folders para la nueva carpeta de trabajo
                workPath = os.path.join(DATA_ROOT, rawFolder, paintsFolder)
                
                # si todo va bien en el nuevo folder de trabajo
                if os.path.exists(workPath):
                    
                    # creo path para cada elemento en la coleccion
                    tempPaintFolder = os.path.join(workPath, linkFolder)
                    
                    # creo la carpeta del nuevo elemento de la coleccion si no existe
                    if not os.path.exists(tempPaintFolder):
                        
                        os.makedirs(tempPaintFolder)
                        # cuento cuantos folderes nuevos creo
                        folderCount = folderCount + 1
                    
                    # si existe la carpeta, descargo la imagen de la obra dentro de la coleccion de una vez
                    if os.path.exists(tempPaintFolder):
                        
                        # parse del cuerpo del elemento de la coleccion
                        linkSoup = BeautifulSoup(linkReq.content, "html.parser")
                        
                        # busco todos los elementos de tipo class="button dark-hover"
                        soupDict = {"class":"button dark-hover", "href":re.compile("^/download/")}
                        downloadSoup = linkSoup.find('a', attrs = soupDict)
#                         print(downloadSoup)
                        
                        # creo el enlace para descargar la imagen
                        tempLink = urllib.parse.urljoin(paintsRoot, downloadSoup.get("href"))
#                         print(tempLink)
                        
                        # pido el enlace de la imagen
                        downReq = requests.get(tempLink)
                        
                        # creo el nombre y la direccion del archivo que quiero guardar en la carpeta
                        fileName = urlparse(tempLink)
                        fileName = fileName.path.split("/")[len(fileName.path.split("/"))-1]
                        filePath = os.path.join(tempPaintFolder, fileName)
                        
                        # si el archivo no existe lo guardo
                        if not os.path.exists(filePath):
                            
                            print("Downloding img from: " + str(filePath))
                            
                            with open(filePath, "wb") as file:
                                file.write(downReq.content)
                                file.close()
                                downloadCount = downloadCount + 1
                                
                        elif os.path.exists(filePath):
                            repeatCount = repeatCount + 1
            
    except Exception as e:
        print("Error in request: " + str(e))
        print("Status Code: " + str(linkReq.status_code))

print("Explored collection links: " + str(linkCount))
print("New folders created: " + str(folderCount))
print("Downloaded images: " + str(downloadCount))
print("Repeated images: " + str(repeatCount))

Explored collection links: 30
New folders created: 0
Downloaded images: 0
Repeated images: 30


## Archivo de Cartas de vangoghletters.org

In [None]:

totalpinturas=1443
temporal=199
pagina='https://vangoghmuseum.nl/en/collection/s'
a=np.arange(temporal)
lista=[]
for i in a:
    lista.append(pagina+str((i+1)).zfill(4)+'V1962')
    URL = lista[i]


    def iterate_over_children(soup, texts):
        for child in soup:
            if child.string == None:
                iterate_over_children(child, texts)
            else:
                if child.string != '\n':
                    texts.append(child.string)

    # Realizamos la petición a la web
    req = requests.get(URL)

    # Comprobamos que la petición nos devuelve un Status Code = 200
    status_code = req.status_code
    if status_code == 200:

        # Pasamos el contenido HTML de la web a un objeto BeautifulSoup()
        html = BeautifulSoup(req.text, "html.parser")

        # Obtenemos todos los divs donde están las entradas
        #entradas = html.find_all('div', {'class': 'page-unit'})
        article = html.find('section')
        texts = []
        iterate_over_children(article, texts)
        texts_cleaned = [] 
        for text in texts:
            cleaned_text = text.replace("\n", "").strip()
            texts_cleaned.append(cleaned_text)

    #Daniela Oject Data
        # Obtenemos todos los divs donde están las entradas
        entradas = html.find_all('div', {'class': 'download-buttons-container'})


        # Recorremos todas las entradas para extraer el título, autor y fecha
        for i, entrada in enumerate(entradas):
            # Con el método "getText()" no nos devuelve el HTML
            hola= entrada.find('a').get('href') 
            texts_cleaned.append(hola)
            
        #links del parrafo (puede ir a las cartas)
        link_p=[tag['href'] for tag in html.select('p a[href]')]
        #links de search in the collection
        link_c=[tag['href'] for tag in html.select('aside a[href]')]
            
        
        #print(texts_cleaned)
        os.mkdir(texts_cleaned[0])
        #print (texts_cleaned)
        # Recorremos todas las entradas para extraer el título, autor y fecha
        save_path =texts_cleaned[0]

        f=open(texts_cleaned[0]+'.txt', 'w')

        completeName = os.path.join(save_path,texts_cleaned[0]+'.txt')    
        
        f.close()
        remove(texts_cleaned[0]+'.txt')

        file1 = open(completeName, "w")
        
        tamanio = len(texts_cleaned)
        for i in range(0,len(texts_cleaned)):
            file1.write(texts_cleaned[i]+'\n')
            
        for i in range(0,len(link_p)):
            file1.write(link_p[i]+'\n')
        for i in range(0,len(link_c)):
            file1.write(link_c[i]+'\n')
        file1.close()
      
        print('Beginning file download with wget module')

        url = 'https://vangoghmuseum.nl'+texts_cleaned[tamanio-1]
        wget.download(url, texts_cleaned[0]+'\ ' +texts_cleaned[0]+'.jpg')

        # guardar-paginaweb.py

        respuesta = urllib.request.urlopen(URL)
        contenidoWeb = respuesta.read()

        pag = open(texts_cleaned[0]+'.html', 'wb')
        completeName2 = os.path.join(save_path,texts_cleaned[0]+'.html')    
        pag.close()
        file2 = open(completeName2, "wb")
        file2.write(contenidoWeb)
        file2.close()
        
        remove(texts_cleaned[0]+'.html')
    else:
        print ("Status Code %d" % status_code)


In [None]:
pag.close()

In [None]:
page = html.find('p').getText()
print(page)

In [None]:

print('Beginning file download with wget module')

url = 'https://vangoghmuseum.nl/download/45214344-2680-447a-92d3-e34667866f59.jpg'
wget.download(url, 'Congregation Leaving the Reformed Church in Nuenen\daniela.jpg')


In [None]:
file1.close()

In [None]:


URL = "https://vangoghmuseum.nl/en/collection/s0199V1962"

def iterate_over_children(soup, texts):
    for child in soup:
        if child.string == None:
            iterate_over_children(child, texts)
        else:
            if child.string != '\n':
                texts.append(child.string)

# Realizamos la petición a la web
req = requests.get(URL)

# Comprobamos que la petición nos devuelve un Status Code = 200
status_code = req.status_code
if status_code == 200:

    # Pasamos el contenido HTML de la web a un objeto BeautifulSoup()
    html = BeautifulSoup(req.text, "html.parser")

    # Obtenemos todos los divs donde están las entradas
    #entradas = html.find_all('div', {'class': 'page-unit'})
    article = html.find('section')
    texts = []
    iterate_over_children(article, texts)
    texts_cleaned = [] 
    for text in texts:
        cleaned_text = text.replace("\n", "").strip()
        texts_cleaned.append(cleaned_text)
  #  print(texts_cleaned)
       
#Daniela Oject Data
    # Obtenemos todos los divs donde están las entradas
    entradas = html.find_all('div', {'class': 'download-buttons-container'})
    

    # Recorremos todas las entradas para extraer el título, autor y fecha
    for i, entrada in enumerate(entradas):
        # Con el método "getText()" no nos devuelve el HTML
        hola= entrada.find('a').get('href') 
        texts_cleaned.append(hola)
    print (texts_cleaned)
    # Recorremos todas las entradas para extraer el título, autor y fecha

#url_imagen = "https://golang.org/doc/gopher/appenginegophercolor.jpg" # El link de la imagen
#nombre_local_imagen = "go.jpg" # El nombre con el que queremos guardarla
#imagen = requests.get(url_imagen).content
#with open(nombre_local_imagen, 'wb') as handler:
#	handler.write(imagen)

else:
    print ("Status Code %d" % status_code)
    



In [None]:
os.mkdir('Comedores de Patatas')

In [None]:

save_path ='Comedores de Patatas'

f = open('daniela6.txt', 'w')

completeName = os.path.join(save_path,'daniela6.txt')         

file1 = open(completeName, "w")

file1.write("daniela carcamo")
file1.close()

# remove(completeName)


In [None]:
# abre-paginaweb.py
url = 'https://www.vangoghmuseum.nl/en/collection/s0005V1962?v=1'

respuesta = urllib.request.urlopen(url)
contenidoWeb = respuesta.read()

print(contenidoWeb[0:300])

In [None]:
# guardar-paginaweb.py

url = 'https://www.vangoghmuseum.nl/en/collection/s0005V1962?v=1'

respuesta = urllib.request.urlopen(url)
contenidoWeb = respuesta.read()

f = open('patatas.html', 'wb')
f.write(contenidoWeb)
f.close

In [None]:
print (respuesta)