# Web Scraping con Python sobre Selenium para páginas dinámicas 

**Selenium** es un entorno de pruebas de software para aplicaciones basadas en la web. Selenium provee una herramienta de grabar/reproducir para crear pruebas sin usar un lenguaje de scripting para pruebas (Selenium IDE). Selenium permite escribir pruebas en un amplio número de lenguajes de programación populares como **Java**,**C#**,**Ruby**,**Groovy**,**Perl**,**PHP**, **Python** y **R**. Las pruebas pueden ejecutarse entonces usando la mayoría de los **navegadores web** modernos en diferentes sistemas operativos como **Windows**, **Linux** y **OSX**.   

Para instalar selenium en Python existe una manual para ver [aquí](https://media.readthedocs.org/pdf/selenium-python/latest/selenium-python.pdf)

## Manual de selenium con Python sobre Firefox 

Pasos para instalar el driver para **Firefox:**

1. Paso 1: descargar e instalar **Python** del siguiente [link](https://www.python.org/). 
2. Paso 2: descargar e instalar **Firefox** en el siguiente [link](https://www.mozilla.org/es-ES/firefox/new/).
3. Paso 3: descargar el driver de **Firefox** se puede descargar en el siguiente [link](https://github.com/mozilla/geckodriver/releases).
4. Paso 4: configurar la variable de entorno con el directorio donde tenga el driver descargado del punto anterior.

Funciones:
- La función $webdriver.Firefox()$, $webdriver.Chrome()$, sirven para generar la conexión con el navegador.
- Llamemos $driver = webdriver.Firefox()$.
- $driver.get()$: Para navegar a un enlace.
- $driver.get\_cookie()$: Trae solo la ventana vacía sin dirección.
- $driver.get\_cookies()$: Trae solo la ventana vacía sin dirección.
- $driver.get\_log()$: Trae solo la ventana vinculada con python
- $driver.close()$: Para cerrar un enlace.
- $driver.current\_url$: Sirve para ver el directorio actual.
- $driver.forward()$: Para retroceder en el historial del navegador.
- $driver.back()$: Para avanzar en el historial del navegador.
- $find\_element\_by\_id$: Encuentra un elemente en HTML por el id.
- $find\_element\_by\_name$: Encuentra un elemento en HTML por el nombre.
- $find\_element\_by\_xpath$: Encuentra un elemento en HTML por el path.
- $find\_element\_by\_link\_text$: Encuentra un link
- $find\_element\_by\_partial\_link\_text$: Encuentra un link
- $find\_element\_by\_tag\_name$: Encuentra etiquetas.
- $find\_element\_by\_class\_name$: Encuentras una clases en un HTML
- $find\_element\_by\_css\_selector$: Encuentra un css selector en un HTML.

## Manual para Firefox

In [8]:
# Importamos las librerías necesarias para realizar Web Scraping
#-*- coding: utf-8 -*-
# Se importa lo necesario para abrir el driver para Firefox
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import bs4
import requests

driver = webdriver.Firefox() # Se crea el enlace con el driver de Firefox

In [9]:
# Se llama a una página con la URL
driver.get("https://www.mismarcadores.com/partido/M368NbL8/#resumen-del-partido")

In [10]:
# Para ver el dirección actual de la url
driver.current_url

'https://www.mismarcadores.com/partido/M368NbL8/#resumen-del-partido'

In [11]:
# Realizamos la petición a la web
req = requests.get(driver.current_url)
req

<Response [200]>

In [12]:
# Vemos el árbol del HTML
bs4.BeautifulSoup(req.text, "html.parser")

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html lang="es" xml:lang="es" xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="IE10;IE=11" http-equiv="X-UA-Compatible"/>
<title>ANY 2-2 BUS | Anyang - Busan</title>
<meta content="NOODP,index,follow" name="robots"/>
<meta content="app-id=766477515" name="apple-itunes-app"/>
<meta content="app-id=eu.livesport.MisMarcadores_com" name="google-play-app"/>
<meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no, minimal-ui" name="viewport"/>
<meta content="Anyang - Busan 2:2" property="og:title"/>
<meta content="http://www.mismarcadores.com/res/image/data/O2H46zAr-zubpoEGP-bNsC7kQS.png" property="og:image"/>
<meta content="COREA DEL SUR: K League 2 - Jornada 15" property="og:description"/>
<meta content="yes" name="apple-mobile-web-app-capable"/>
<link href="/r

In [7]:
# Devuelve el identificador de la ventana dentro de la sesión actual
driver.current_window_handle

'4294967297'

In [28]:
# Buscamos un elemento por el id: id = "utime"
# Método 'privado' utilizado por los métodos find_element_by_ *.
driver.find_element(by = "id", value="utime")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="86db8483-ef3c-4cd0-9baf-0915058f0bbd")>

In [26]:
# Buscamos un elemento por el nombre de la clase: class = "tname__text"
# Encuentra un elemento dentro de los elementos de este elemento por nombre de clase.
driver.find_element_by_class_name("tname__text")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="9b155e5a-6c37-4ba0-ab79-acb82a16d035")>

In [30]:
# Buscamos un elemente por el id con css: id = "utime" entonces se pone "#utime"
driver.find_element_by_css_selector("#utime")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="86db8483-ef3c-4cd0-9baf-0915058f0bbd")>

In [33]:
# Buscamos un elemente por el id con css: id = "utime" entonces se pone "#utime"
# Encuentra el elemento dentro de los elementos de este elemento mediante el selector de CSS.
driver.find_element_by_css_selector(".tname__text")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="9b155e5a-6c37-4ba0-ab79-acb82a16d035")>

In [15]:
# Buscamos por id = "utime"
# Encuentra elementos dentro de los elementos de este elemento por ID.
driver.find_element_by_id("utime")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="86db8483-ef3c-4cd0-9baf-0915058f0bbd")>

In [37]:
# Encuentra elementos dentro de los elementos de este elemento mediante texto de enlace visible.
driver.find_element_by_link_text("Resumen")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="68bd1907-cb08-4c0a-8669-cb7fb0a21974")>

In [38]:
# Encuentra elementos dentro de los elementos de este elemento mediante texto de enlace visible.
driver.find_element_by_link_text("Alineaciones")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="d60c98cd-54a5-4122-bb52-e5d6b09ddacc")>

In [55]:
# Busca un elemento dentro de los elementos de este elemento por nombre.
driver.find_element_by_name("viewport")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="d7c6c42b-c3f1-49e3-9b86-d784fcd5bed9")>

In [43]:
# Encuentra elementos dentro de los elementos de este elemento mediante texto de enlace parcialmente visible
driver.find_element_by_partial_link_text("Resum")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="68bd1907-cb08-4c0a-8669-cb7fb0a21974")>

In [48]:
# Busca elementos dentro de los elementos de este elemento por nombre de etiqueta.
driver.find_element_by_tag_name("title")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="a90abd50-25c9-4633-a6d9-be9f9ea0e2c2")>

In [56]:
# Busca elementos dentro de los elementos de este elemento por nombre de etiqueta.
driver.find_element_by_name("google-play-app")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="38831e05-e9ca-4b5e-9ccf-357971e30eaa")>

In [49]:
# Encuentra elementos por xpath.
driver.find_element_by_xpath("/html/body//div")

<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="f1d38165-9ab3-4f98-8337-975ae0b65500")>

In [59]:
# Encuentra el título
driver.title

'ANY 2-2 BUS | Anyang - Busan | Resumen'

In [None]:
# Para cerrar la conexión
driver.close()

In [62]:
# Para buscar un elemento por el nombre de la clase
(driver.find_element_by_class_name("substitution-in-name")).text

'Kim Young-Do'

In [63]:
# Por medio de XPATH se busca los nodos div
driver.find_elements(By.XPATH, "/html/body/div")

[<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="f1d38165-9ab3-4f98-8337-975ae0b65500")>,
 <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="31cf1077-99c5-46bb-a9ef-873b5542ede8")>,
 <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="7ab0d4ca-9b54-4bcd-b14f-9060169e4386")>,
 <selenium.webdriver.firefox.webelement.FirefoxWebElement (session="e7d4efbc-dace-4b2e-b4b0-038680545653", element="9d757960-04f5-4406-8eb4-bf9c10db6762")>]

## Manual para Chrome

In [64]:
# Crear una conexión con Chrome
driver_chrome = webdriver.Chrome()

In [65]:
# Para obtener la URL
driver_chrome.get("https://www.python.org/")

In [None]:
# Lectura de la URL
url = "https://www.mismarcadores.com/partido/M368NbL8/#resumen-del-partido"
driver = webdriver.Chrome()
driver.get(url)

In [66]:
# Realizamos la petición a la web
req_chrome = requests.get(driver_chrome.current_url)
req_chrome

<Response [200]>

In [67]:
# Obtenemos el árbol de la página en HTML
bs4.BeautifulSoup(req_chrome.text, "html.parser")

<!DOCTYPE doctype html>

<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" dir="ltr" lang="en"> <!--<![endif]-->
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<link href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js" rel="prefetch"/>
<meta content="Python.org" name="application-name"/>
<meta content="The official home of the Python Programming Language" name="msapplication-tooltip"/>
<meta content="Python.org" name="apple-mobile-web-app-title"/>
<meta content="yes" name="apple-mobile-web-app-capable"/>
<meta content="black" name="apple-mobile-web-app-status-bar-style"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="True" name="HandheldFriendly"/>
<meta content="