# Web Scraping con R sobre Selenium para páginas dinámicas 

**Selenium** es un entorno de pruebas de software para aplicaciones basadas en la web. Selenium provee una herramienta de grabar/reproducir para crear pruebas sin usar un lenguaje de scripting para pruebas (Selenium IDE). Selenium permite escribir pruebas en un amplio número de lenguajes de programación populares como **Java**,**C#**,**Ruby**,**Groovy**,**Perl**,**PHP**, **Python** y **R**. Las pruebas pueden ejecutarse entonces usando la mayoría de los **navegadores web** modernos en diferentes sistemas operativos como **Windows**, **Linux** y **OSX**.   

Para instalar [selenium](https://docs.seleniumhq.org/) sigue los siguientes paso:
1. Ir a [selenium](https://docs.seleniumhq.org/).
2. Luego ir a Download y descargar.
3. Luego descargar el Servidor de Selenium Standalone donde dice (Download version [3.12.0](https://goo.gl/tbd1NS))
4. Luego de descagar el Servidor, ir abajo a los lenguajes de programación donde dice ([R](https://github.com/ropensci/RSelenium) by John Harrison)
5. Por último instalar y configurar las herramientas.
6. Recordar que Selenium es básicamente para Firefox, aunque también sirve para Chrome.

## Instalación de RSelenium en R

Seguir los paso del siguiente enlace para instalar [RSelenium](https://github.com/ropensci/RSelenium).

## RSelenium: Básico

Seguir los pasos del siguiente enlace para correr el servidor [link](https://ropensci.github.io/RSelenium/articles/RSelenium-basics.html#how-do-i-get-the-selenium-server-stand-alone-binary).

## Prueba básica de RSelenium con R 

In [3]:
# Paquetes necesarios para correr 
library(RSelenium)
library(seleniumPipes)
library(jsonlite)
library(xml2)
library(magrittr)
library(webdriver)
library(httr)
library(rvest)
library(XML)
library(xml2)
library(XML2R)

Para correr el servidor Standalone de Selenium poner en el promt de comandos (cmd) la siguiente línea apuntando al directorio donde este guardado el selenium-server-standalone-3.12.0.jar

1. Mirar el directorio donde este guardado el selenium-server-standalone-3.12.0
2. Luego abrir el promt de comandos (cmd).
3. copiar: java -jar selenium-server-standalone-3.12.0.jar
4. Luego ir al R y establecer la conexión con el servidor.

In [None]:
# para correr el servidor Standalone de Selenium poner en el promt de comandos la siguiente línea apuntando al 
# directorio donde este guardado el selenium-server-standalone-3.12.0.jar
# java -jar selenium-server-standalone-3.12.0.jar
# shell('java -jar selenium-server-standalone-3.12.0.jar')

Luego para establecer la conexión desde R con el servidor debemos utilizar la función de $remoteDriver$ del paquete $RSelenium$.

$RSelenium::remoteDriver$ cuenta con los siguiente parámetros:

- $remoteServerAddr:$ Es un objeto $"character"$ que sirve para conectarse con un servidor remoto por medio de la $ip$, ya que por defecto es $"localhost"$.
- $port:$ Es un objeto $"numeric"$ con el puerto del servidor remoto para la conexión.
- $browserName:$ Es un objeto $"character"$. Con el nombre del navegador a usar podría ser uno de: **chrome, firefox, htmlunit, internet explorer, iphone**.
- $path:$ Camino base URL para comando sobre el servidor remoto. Por defecto **"/wd/hub"**.
- $version:$ Es un objeto $"character"$. La versión del navegador, o la cadena vacía si es desconocido.
- $platform:$ Es un objeto $"character"$. Una clave que especifica en qué plataforma se está ejecutando el navegador. Este valor debe ser uno de WINDOWS | XP | VISTA | MAC | LINUX | UNIX. Al solicitar una nueva sesión, el cliente puede especificar CUALQUIERA para indicar que se puede usar cualquier plataforma disponible.
- $javascript:$ Es un objeto $"logical"$. Si la sesión admite la ejecución de JavaScript proporcionado por el usuario en el contexto de la página actual.
- $nativeEvents:$ Es un objeto $"logical"$. Si la sesión admite eventos nativos. $n$ Las interacciones de usuario avanzado de WebDriver se proporcionan simulando los eventos de Javascript directamente (es decir, eventos sintéticos) o permitiendo que el navegador genere los eventos de Javascript (es decir, eventos nativos). Los eventos nativos simulan mejor las interacciones del usuario.
- $serverURL:$ Es un objeto $"character"$. URL del servidor remoto al que se envían las solicitudes JSON.
- $sessionInfo$ Es un objeto $"list"$. Una lista que contiene información sobre las sesiones.

Para mayor información puedes visitar las siguientes páginas: [Descarga](https://cran.r-project.org/src/contrib/Archive/RSelenium/), [Manual1](https://ropensci.github.io/RSelenium/articles/RSelenium-basics.html), [Manual2](https://github.com/ropensci/RSelenium), [Manual3](https://ropensci.org/tutorials/rselenium_tutorial/), [Manual4](https://www.r-bloggers.com/rselenium-a-wonderful-tool-for-web-scraping/).

Existen unos métodos para la ejecutar con la función $remoteDriver$.

- $navigate(url):$ Navega a una url determinada.
- $open(silent = FALSE):$ Envíe una solicitud al servidor remoto para crear una instancia del navegador.
- $refresh():$ Recarga la página actual.

## Ejemplo básico con firefox con selenium

In [4]:
###### Con Firefox #############
# Sirve para conectarse al servidor con firefox
remDr <- remoteDriver(remoteServerAddr = "localhost", browserName="firefox", port= 4444)
remDr$open() # open web browser

[1] "Connecting to remote server"
$acceptInsecureCerts
[1] FALSE

$browserName
[1] "firefox"

$browserVersion
[1] "60.0.2"

$`moz:accessibilityChecks`
[1] FALSE

$`moz:headless`
[1] FALSE

$`moz:processID`
[1] 16652

$`moz:profile`
[1] "C:\\Users\\Johan Ruiz\\AppData\\Local\\Temp\\rust_mozprofile.0ZBas0rreB2f"

$`moz:useNonSpecCompliantPointerOrigin`
[1] FALSE

$`moz:webdriverClick`
[1] TRUE

$pageLoadStrategy
[1] "normal"

$platformName
[1] "windows_nt"

$platformVersion
[1] "10.0"

$rotatable
[1] FALSE

$timeouts
$timeouts$implicit
[1] 0

$timeouts$pageLoad
[1] 300000

$timeouts$script
[1] 30000


$webdriver.remote.sessionid
[1] "d4eb0c3f-65d7-4a89-8704-b2745efd4a22"

$id
[1] "d4eb0c3f-65d7-4a89-8704-b2745efd4a22"



In [5]:
# Vamos ha realizar un llamado a la Firefox de Mis Marcadores Colombia liga aguila 
url = 'https://www.mismarcadores.com/futbol/colombia/liga-aguila/'
remDr$navigate(url)

In [20]:
# Vamos ha realizar un llamado a la Firefox de Mis Marcadores Colombia liga aguila 
url = 'https://www.mismarcadores.com/futbol/colombia/'
remDr$navigate(url)

In [None]:
# Sirve para abrir el navegador
remDr$open()

In [14]:
# Sirve para refrescar la página
remDr$refresh()

In [None]:
# Sirve para ir a la página anterior
remDr$goBack()

In [None]:
# Sirve para ir a la página siguiente
remDr$goForward()

In [6]:
# Sirve para ver la URL actual
remDr$getCurrentUrl()

In [7]:
# Obtiene el título de la página
remDr$getTitle()

In [29]:
# Sirve para obtener los cookies
# Recupere todas las cookies visibles para la página actual. 
# Cada cookie se devolverá como una lista con los siguientes nombres y tipos de valores:
# name:character
# value:character
# path:character
# domain:character
# secure:logical
remDr$getAllCookies()

In [8]:
# Obtiene la possición de la página en el computador
remDr$getWindowPosition()

In [9]:
# Recuperar el identificador de ventana actual.
remDr$getWindowHandles()

In [10]:
# Consulta el estado actual del servidor. Todas las implementaciones del servidor deben devolver dos objetos 
# básicos que describen la plataforma actual del servidor y cuándo se creó el servidor.
remDr$getStatus()

In [None]:
# Elimine la sesión y cierre los navegadores abiertos.
remDr$quit()

### Exploración de las funciones de RSelenium

Para buscar elementos sobre una página iniciando desde la raíz. El elemento localizado podría ser retornado como la un objeto de la clase $webElement$. Las entradas son:

**findElement(using = c("xpath", "css selector", "id", "name", "tag name", "class name", "link text", "partial link text"), value)**

#### xpath

Si desea un manual de **xpath** en el siguiente [link](https://www.w3schools.com/xml/xpath_intro.asp)

In [11]:
# xpath
link = remDr$findElements(using = 'xpath', value = 'html/body//a')

In [12]:
# Longitu de la lista
length(link)

In [13]:
# Mostramos todos los link con un for que recorra las listas
vector = c()
contador = 0
for(i in 1:length(link)){
        #print(link[[i]]$getElementAttribute("href")[[1]])
        contador = contador + 1 
       vector[contador] = link[[i]]$getElementAttribute("href")[1]
        
    }
vector

In [14]:
# Si queremos dar click a uno de los enlaces anteriores
webElement = remDr$findElement(using = 'xpath', value = '//a[@href="/futbol/colombia/liga-aguila/resultados/"]')
webElement
webElement$clickElement()

[1] "remoteDriver fields"
$remoteServerAddr
[1] "localhost"

$port
[1] 4444

$browserName
[1] "firefox"

$version
[1] ""

$platform
[1] "ANY"

$javascript
[1] TRUE

$nativeEvents
[1] TRUE

$extraCapabilities
list()

[1] "webElement fields"
$elementId
[1] "3a7dac21-8860-47a6-8004-224623dcdac7"


#### css selector

Si desea un manual de **css selector** en el siguiente [link](https://www.w3schools.com/CSSref/css_selectors.asp)

In [15]:
# Seleccionamos el nodo 'a'
remDr$findElements(using = 'css selector', value = 'a')

[[1]]
[1] "remoteDriver fields"
$remoteServerAddr
[1] "localhost"

$port
[1] 4444

$browserName
[1] "firefox"

$version
[1] ""

$platform
[1] "ANY"

$javascript
[1] TRUE

$nativeEvents
[1] TRUE

$extraCapabilities
list()

[1] "webElement fields"
$elementId
[1] "749759e1-b0fc-48f8-844c-86f666948414"


[[2]]
[1] "remoteDriver fields"
$remoteServerAddr
[1] "localhost"

$port
[1] 4444

$browserName
[1] "firefox"

$version
[1] ""

$platform
[1] "ANY"

$javascript
[1] TRUE

$nativeEvents
[1] TRUE

$extraCapabilities
list()

[1] "webElement fields"
$elementId
[1] "c8129353-5b20-431f-8254-9a34a680e18f"


[[3]]
[1] "remoteDriver fields"
$remoteServerAddr
[1] "localhost"

$port
[1] 4444

$browserName
[1] "firefox"

$version
[1] ""

$platform
[1] "ANY"

$javascript
[1] TRUE

$nativeEvents
[1] TRUE

$extraCapabilities
list()

[1] "webElement fields"
$elementId
[1] "48aea9cd-c240-4adf-9bca-d081d3685307"


[[4]]
[1] "remoteDriver fields"
$remoteServerAddr
[1] "localhost"

$port
[1] 4444

$browserNam

In [16]:
# Seleccionamos el nodo 'p'
remDr$findElements(using = "css selector", value = "p")

In [17]:
# Selecciona el id = mt
remDr$findElements(using = "css selector", value = "#mt")

[[1]]
[1] "remoteDriver fields"
$remoteServerAddr
[1] "localhost"

$port
[1] 4444

$browserName
[1] "firefox"

$version
[1] ""

$platform
[1] "ANY"

$javascript
[1] TRUE

$nativeEvents
[1] TRUE

$extraCapabilities
list()

[1] "webElement fields"
$elementId
[1] "ad52c933-ce4e-4f83-bb52-1088b5a48158"

