# Web Scraping con Python

Este script muestra algunas posibilidades de la biblioteca *Selenium* que nos permite obtener, automáticamente, datos de páginas web dinámicas, es decir que necesitan pulsar botones, etc, etc.

Selenium está pensado realmente para automatizar pruebas de entornos web, pero a nosotros nos servirá para nuestro propósito de hacer web scraping.

En particular, lo que vamos a hacer es arrancar google Chrome y manejarlo automáticamente desde Python.

Para ello necesitamos 3 cosas:

1.- Tener google Chrome

2.- Instalar la biblioteca selenium

3.- Tener un fichero controlador, un driver, de nombre *chromedriver.exe*. En nuestro caso supondremos que se encuentra en la carpeta c:/hlocal/tdm.

Podemos obtener el fichero Chromedriver, desde http://chromedriver.storage.googleapis.com/index.html

Debemos descargar un driver suficientemente moderno, según nuestra versión de Chrome.

Para encontrar la versión de Chrome, desde dentro del navegador :
-	Abrir el menú de arriba a la derecha (icono 3 puntitos verticales, o una “i”)
-	Selecciones “Ayuda” y a continuación “Información de Google Chrome”
-	Allí debemos ver algo como “Versión 76.0.3809.132 (Build oficial) (64 bits)”


In [1]:
# Ahora arrancamos una instancia de google Chrome. 
import os
from selenium import webdriver  # si da error, desde anaconda prompt sobre python 3.x hacer pip install --user  selenium
chromedriver = "c:/hlocal/sgdi/chromedriver.exe"
os.environ["webdriver.chrome.driver"] = chromedriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--no-sandbox')
driver = webdriver.Chrome(executable_path=chromedriver,options=chrome_options)

In [2]:
url = 'https://www1.sedecatastro.gob.es/CYCBienInmueble/OVCBusqueda.aspx'
driver.get(url)

Simulamos un click en la página


In [15]:
coord   = driver.find_element_by_link_text("COORDENADAS")
coord.click()

In [4]:
from selenium.webdriver.common.keys import Keys
# forma alternativa y a veces necesaria
coord   = driver.find_element_by_link_text("COORDENADAS")
coord.send_keys(Keys.SPACE)

Texto de la página

In [7]:
html = driver.find_element_by_xpath("/html")
print(html.text)

Formulario master
Castellano
ICONO CORREO ELECTRÓNICO
CONTÁCTENOS
Icono página de inicio
Buscador de inmuebles
icono ayuda
¿Cómo funciona este servicio?
El buscador de inmuebles de la SEC permite los siguientes tipos de búsquedas: por referencia catastral, por calle/número, por polígono/parcela, por coordenadas o por código registral único (CRU). Pulse en la opción correspondiente.
Los campos Provincia y Municipio despliegan los valores correspondientes al pulsar en el campo. El campo Vía requiere introducir al menos tres caracteres.
Los campos marcados con * son obligatorios
RC
CALLE/NÚMERO
POLÍGONO/PARCELA
COORDENADAS
CRU
Referencia Catastral
* Referencia Catastral
icono ayuda
  Normativa reguladora
Política de privacidad
Accesibilidad
Mapa web


Caminos absolutos

In [8]:
head = driver.find_element_by_xpath("/html/head")
body = driver.find_element_by_xpath("/html/body")
html2 = body.find_element_by_xpath("/html")

In [10]:
print(body.text)

Formulario master
Castellano
ICONO CORREO ELECTRÓNICO
CONTÁCTENOS
Icono página de inicio
Buscador de inmuebles
icono ayuda
¿Cómo funciona este servicio?
El buscador de inmuebles de la SEC permite los siguientes tipos de búsquedas: por referencia catastral, por calle/número, por polígono/parcela, por coordenadas o por código registral único (CRU). Pulse en la opción correspondiente.
Los campos Provincia y Municipio despliegan los valores correspondientes al pulsar en el campo. El campo Vía requiere introducir al menos tres caracteres.
Los campos marcados con * son obligatorios
RC
CALLE/NÚMERO
POLÍGONO/PARCELA
COORDENADAS
CRU
Referencia Catastral
* Referencia Catastral
icono ayuda
  Normativa reguladora
Política de privacidad
Accesibilidad
Mapa web


Hijos de un elemento

In [7]:
hijos = driver.find_elements_by_xpath("/html/body/*")
for element in hijos:
  print(element.tag_name)

form
div
script
a
script
ul
span
ul
span
ul
span
ul
span
ul
span
ul
span
div
div


Camino relativo

In [8]:
divs = driver.find_elements_by_xpath("/html/body/*/div")
print(len(divs))

2


In [9]:
divs = body.find_elements_by_xpath("./*/div")
print(len(divs))

2


Saltar pasos intermedios

In [10]:
divs = driver.find_elements_by_xpath("/html/body//div")
print(len(divs))

139


In [11]:
labels = driver.find_elements_by_xpath("//label")
print(len(labels))

32


Insertar texto

In [16]:
lat = driver.find_element_by_id("ctl00_Contenido_txtLatitud")
lon = driver.find_element_by_id("ctl00_Contenido_txtLongitud")
latitud  = "28.2723368"
longitud = "-16.64268"
lat.send_keys(latitud)
lon.send_keys(longitud)



Recuperar texto

In [None]:
lat.get_property("value")

In [17]:
datos = driver.find_element_by_id("ctl00_Contenido_btnDatos")
datos.click()

# forma alternativa, en ocasiones la anterior no funciona
#from selenium.webdriver.common.keys import Keys
#datos.send_keys(Keys.SPACE)

In [13]:
id = "ctl00_Contenido_tblInmueble"
div = driver.find_element_by_id(id)
label = div.find_element_by_xpath("//label")
print(label.text)

38026A035000010000EI    


Otra forma, por texto

In [14]:
xpath = "//*[./span/text()='Referencia catastral']//label"
etiqs = driver.find_element_by_xpath(xpath)
print(etiqs.text)

38026A035000010000EI    


Algunos ejemplos más....

In [27]:
clase = driver.find_elements_by_xpath("(//label)[position()=3]")
print(clase[0].text)

etiqs = driver.find_elements_by_xpath("//label")
print(etiqs[2].text)

ulti = driver.find_elements_by_xpath("(//label)[last()]")
print(ulti[0].text)







Un pequeño ejemplo adicional, información metereológica en Madrid

In [18]:
url = 'http://www.aemet.es/es/eltiempo/prediccion/municipios/madrid-id28079'
driver.get(url)


In [17]:
th = driver.find_elements_by_xpath("/html/body//*/th")
print(len(th))
th = driver.find_elements_by_xpath("/html/body//*/th[@class='borde_izq_dcha_estado_cielo no_wrap']")
print(len(th))
for e in th:
    print(e.text)

31
13
12–18 h
22°C
18–24 h
17°C
00–06 h
13°C
06–12 h
22°C
12–18 h
19°C
18–24 h
16°C
00–12 h
12–24 h
00–12 h
12–24 h
 
 
 


In [19]:
driver.close()

Por Rafael Caballero. Del libro "Big data con Python"