## Dragonboat web scraping.
---

**ATENCIÓN ALMIRANTES:**

PRIMERO Y MÁS IMPORTANTE, no tomar ejemplo del código de este programa. Todas las órdenes tienen que ir en funciones y/o clases, la documentación mucho más cuidada, etc.

No tengas prisa a la hora de ejecutar el código. Espera un poco a que todo esté listo. Es un web scraping poco ambicioso y por eso no me he ocupado demasiado de programar las esperas.

---

¡Importaciones las justas! 

Es una página sencilla de scrapear. La url de acceso a los datos es única, no hay que andar saltando entre webs y quemando el servidor a peticiones. Lo único que hay que hacer es localizar los elementos (con sus etiquetas CSS) y almacenar su contenido. No he tenido que gestionar ningún error en tiempo de ejecución (excepciones).

Recordar:

- El webdriver es el objeto navegador. Simula el comportamiento del usuario en la web.
- El By es una cómoda herramienta de localización de elementos en la web.
- El Keys permite introducir teclas del teclado.
- El WebDriverWait y las EC vienen en pack y definen las esperas explícitas.

La parte de esperas explícitas te la he dejado más por motivos académicos. En este caso casi que ni hace falta programar esperas.

In [1]:
# Importaciones

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

**MUY IMPORTANTE**

Selenium es una librería de automatización de pruebas para verificar el correcto funcionamiento de una web. Para poder trabajar con Selenium necesitamos descargar un elemento que haga las funciones de NAVEGADOR. Este elemento es único para cada navegador web (valga la redundancia).

Por ejemplo, yo utilizo Google Chrome como navegador, necesito descargar el *Google Chrome Webdriver*. Se puede acceder desde el siguiente enlace:

https://chromedriver.chromium.org/downloads

Por ejemplo, yo utilizo la versión 83 de Chrome, así que me bajo el ChromeDriver 83.0.4103.39.

Cuando te bajes la versión correspondiente a tu navegador tendrá el formato de carpeta comprimida. Descomprime esa carpeta en el mismo directorio (carpeta) donde tengas este archivo, es lo más cómodo para no tener que andar modificando paths. También puedes no hacerlo y modificar la dirección de la variable PATH para encontrar tu archivo. 

Después de descomprimirlo obtendrás un archivo llamado 'chromedriver'. No sé si hace falta ejecutarlo o no. Prueba. La cosa es que si lo has hecho bien debería funcionarte la orden siguiente donde se crea el objeto navegador y se define su espera explícita.

In [2]:
# Inicialización del elemento navegador.

PATH = "./chromedriver"
driver = webdriver.Chrome(PATH)

# Definición de las esperas explícitas.

wait = WebDriverWait(driver, 10)

In [3]:
# Ir a la dirección de los datos de Dragonboat.

url = "https://idbfchamps.org/2019tha"
driver.get(url)

El esquema a partir de aquí es siempre el mismo:

- Espera hasta la disponibilidad de los elementos con los que vamos a interactuar.
- Localización de elementos a través del código fuente de la página (CSS).
- Interacción con los elementos localizados.

Los elementos han sido localizados mediante la herramienta By y por su código CSS.
Las interacciones en la mayoría de los casos (en este scraping en particular) se han basado en almacenar información envariables.

In [4]:
# Desde la página principal, direccionamiento a 'ALL RESULTS'.

wait.until(EC.presence_of_element_located((By.NAME, "all_results")))
button = driver.find_element(By.NAME, "all_results")
button.send_keys(Keys.RETURN)

In [5]:
# Localización de la tabla de resultados con el contenido: títulos e información (datos).

wait.until(EC.presence_of_element_located((By.ID, "results")))
results = driver.find_element(By.ID, "results")

In [6]:
# Localización de títulos. Almacenamiento en la lista 'categories'.

titles = results.find_elements(By.TAG_NAME, "th")
categories = [title.text for title in titles]

La localización de datos tarda bastante en ejecutarse. Por este motivo te paso el .csv directamente (pero debería funcionar). Prueba.

In [7]:
# Localización de datos. Almacenamiento en la lista 'all_data'

data = results.find_elements(By.TAG_NAME, "tr[lane]")
all_data = []
for element in data:
    values = element.find_elements(By.TAG_NAME, "td")
    all_data.append([value.text for value in values])

In [8]:
# Comprobación (deben ser 1830 entradas).

len(all_data)

1830

In [10]:
# Escritura de los datos en el archivo con formato '.csv'.

with open("dragonboat.csv", "w") as file:
    file.write(",".join(categories))
    file.write("\n")
    for line in all_data:
        file.write(",".join(line))
        file.write("\n")

Por último, no me atrevo a asegurártelo a ciencia cierta pero es posible que este código te sirva para escrapear algunas de las competiciones de otros años. He visto que tienen una estructura similar. Lo único que tendrías que hacer es cambiar la url original. Prueba.