# Recolección de datos ![](https://www.r-project.org/Rlogo.png)



La mayor fuente de información actual es Internet.

El proceso de extracción de datos de la misma se puede definir de manera general como **scraping**.

# Scraping

El concepto de *scraping* es muy general. Hay diferentes manera de extraer los datos de la red:

+ **Copy-Paste** por la via tradicional.

+ Búsqueda de patrones de texto usando **expresiones regulares**.

+ **Interfaces API**: Muchos sitios web como Facebook, Twitter, LinkedIn proporcionan APIs públicas o privadas que pueden ser llamadas utilizando código estándar y devuelven datos en un format preestablecido.

+ **Web Scraping o DOM Parsing**: Utilizando los navegadores Web los programas pueden obtener el contenido dinámico utilizando scripts.

# Web Scraping

En ocasiones los datos "públicos" se encontrarán accesibles directamente en páginas web (en formato HTML).

A esta técnica para extraer el contenido de un sitio web se le conoce con el nombre de **web scraping**.

Muy empleadas por buscadores para indexar el contenido web, webs de comparación de precios… o mediante una petición HTTP (como si fuera realizar por un navegador web) conseguiremos extraer el contenido HTML de toda la página, para su posterior procesamiento.

Normalmente este procesamiento convertirá el contenido HTML en datos con el formato necesario para nuestro propósito (tablas…).

Existen paquetes en R y Python dedicados a facilitar este procesamiento. 

+ **R**: `rvest`, `XML`
+ **Python**: `scrapy`, `requests`, `BeautifulSoup`, `lxml`

Hay que prestar especial atención a los términos legales de la web sobre la que se hará el web scraping. Algunas veces prohibirán o limitarán esta técnicas. En el caso de no cumplir dichos términos legales podríamos ser baneados

Este procedimiento requiere tener cierto conocimiento de lenguajes de programación Web (HTML, CSS, JS) pero hay herramientas, como el [Gadget Selector](https://selectorgadget.com/) de Chrome que facilitan la labor a los profanos. 

Estas herramientas son muy útiles para identificar las etiquetas que definen los objetos dentro de una página web y encontrar donde están los datos.

![html_css_js](imgs/about-best-friends-html-css.jpg)

### Ejemplo de Web Scraping: Scraping de El País. Caso de las Tarjetas Black

In [14]:
############################## 
# Ejemplos de Web Scraping ###
##############################

###############################################################
# Scraping de El País. Datos del caso de las Tarjetas Black ###
###############################################################

# install.packages('rvest', repos ="https://cloud.r-project.org")
# install.packages('magrittr', repos ="https://cloud.r-project.org")
library(rvest)
library(magrittr)

url.root <- "http://elpais.com/especiales/2014/tarjetas-opacas-caja-madrid/apuntes/"
url.names <- c('sanchezbarcojildefonsojose/', 'moralsantinjoseantonio/',
               'moradoiglesiasricardo/', 'blesadelaparramiguel/',
               'amatrocamatias/', 'ferrazricarteramon/',
               'perezclavermariano/', 'torremartinezenriquedela/',
               'astorquiporterajuanmanuel/', 'delamercedmongemariamercedes/')

abbr.names <- substr(url.names, 1,5)

bnames <- c('Sánchez', 'Moral', 'Morado', 'Blesa', 'Amat', 
            'Ferraz', 'Pérez', 'Torre', 'Astorqui', 'DeLaMerced')

urls <- paste(url.root, url.names, sep = '')

# Tip.act <- read.csv('dat/Tipo.act.csv', sep = ';')

black <- c()
for (i in 1:10){
    tmp <- urls[i]
    tmp <- read_html(tmp)
    tmp <- html_nodes(tmp,"#tabla_datos")
    tmp <- html_table(tmp)
    tmp <- tmp[[1]]  
    black <- rbind(black, cbind(bnames[i],tmp))
}
colnames(black)[1] <- 'Implicado'
colnames(black)[5] <- 'comercio'
str(black)

'data.frame':	11931 obs. of  7 variables:
 $ Implicado          : Factor w/ 10 levels "Sánchez","Moral",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ Fecha              : chr  "2011-01-04" "2011-01-04" "2011-01-04" "2011-01-05" ...
 $ Hora               : chr  "21:33:26" "21:33:24" "21:33:26" "20:44:51" ...
 $ Nombre del Comercio: chr  "VIAJES ECI" "VIAJES ECI" "VIAJES ECI" "IDEAL PLAZA" ...
 $ comercio           : chr  "EL CORTE INGLES" "EL CORTE INGLES" "EL CORTE INGLES" "JOYERIAS Y RELOJERIAS" ...
 $ Importe (€)        : num  44 44 4823.4 2395 67.2 ...
 $ Operación          : chr  "COMPRA" "COMPRA" "COMPRA" "COMPRA" ...


In [15]:
head(black)

Implicado,Fecha,Hora,Nombre del Comercio,comercio,Importe (€),Operación
Sánchez,2011-01-04,21:33:26,VIAJES ECI,EL CORTE INGLES,44.0,COMPRA
Sánchez,2011-01-04,21:33:24,VIAJES ECI,EL CORTE INGLES,44.0,COMPRA
Sánchez,2011-01-04,21:33:26,VIAJES ECI,EL CORTE INGLES,4823.4,COMPRA
Sánchez,2011-01-05,20:44:51,IDEAL PLAZA,JOYERIAS Y RELOJERIAS,2395.0,COMPRA
Sánchez,2011-01-05,23:47:45,RESTAURANTE LA VIEJA,RESTAURANTES RESTO,67.2,COMPRA
Sánchez,2011-01-07,15:23:39,AIR EUROPA LINEAS AEREAS,AIR EUROPA,1237.16,COMPRA


## Ejercicio

Utilizando como referencia el codigo anterior:

1. Elige un implicado en el caso Black y la url asociada que tabula sus movimientos black.

2. Scrapea la Fecha de la tabla de la Web y asignalo a un vector. Puedes utilizar el [Gadget Selector](https://selectorgadget.com/) para identificar las etiquetas CSS de la columna en cuestión.

3. Scrapea la tabla entera (No es inmediato desde [Gadget Selector](https://selectorgadget.com/) encontrar su selector CSS) y conviertela en Data Frame.

In [11]:
url_blesa <- 'https://elpais.com/especiales/2014/tarjetas-opacas-caja-madrid/apuntes/blesadelaparramiguel/'

In [13]:
web_blesa <- read_html('https://elpais.com/especiales/2014/tarjetas-opacas-caja-madrid/apuntes/blesadelaparramiguel/')

In [21]:
Fecha_v <- html_nodes(web_blesa,'#tabla_datos .fecha')
Fecha_v <- html_text(Fecha_v)
Fecha_v

In [22]:
Tabla_blesa <- html_table(html_nodes(web_blesa,'#tabla_datos'))[[1]]
Tabla_blesa

Fecha,Hora,Nombre del Comercio,Actividad,Importe (€),Operación
2003-01-01,11:02:19,E.S. ARTURO SORIA,GASOLINERAS,64.25,COMPRA
2003-01-02,18:32:19,LAVINIA ESPANA SELECCION S.L.,"SUPERMERCADOS,ULTRAMARINOS, ECONOMATOS",122.03,COMPRA
2003-01-05,18:55:09,GASOLI SA,GASOLINERAS,75.00,COMPRA
2003-01-06,09:23:23,TIENDA VIPS CIUDAD LINEAL,VIPS,9.30,COMPRA
2003-01-06,15:55:51,RESTAURANTE DE MARIA,RESTAURANTE RESTO NIVEL 4,115.97,COMPRA
2003-01-07,13:49:08,LAVINIA ESPANA SELECCION S.L.,"SUPERMERCADOS,ULTRAMARINOS, ECONOMATOS",104.38,COMPRA
2003-01-08,15:36:04,E.S. ARTURO SORIA,GASOLINERAS,61.38,COMPRA
2003-01-08,23:44:41,RESTAURANTE ZALACAIN,RESTAURANTE 4/5 TENEDORES NIVEL 2,721.93,COMPRA
2003-01-11,10:02:53,ES GUAJARAZ,GASOLINERAS,41.00,COMPRA
2003-01-14,15:33:50,E.S. ARTURO SORIA,GASOLINERAS,56.94,COMPRA


In [24]:
class(Tabla_blesa)

## Ejercicio

Utilizar el paquete rvest para extraer la tabla de los componentes del Eurostoxx 50, que expresa su valor, cambios en el mismo y algunos fundamentals de la web de Expansión: http://www.expansion.com/mercados/cotizaciones/indices/eurostoxx_I.5E.html

In [None]:
#############################################
#  Web Scraping de Expansión              ###
#############################################
library(rvest)
library(lubridate) # install.packages("lubridate", repos ="https://cloud.r-project.org")
library(stringr)

# URL a importar
url.expansion <- ""

# Para descubrir el encoding del HTML
guess_encoding(url.expansion)

# Lectura de la página
# SUGERENCIA: Prueba la función read_html
expansion.web <- read_html()

# Sacamos las tablas, objetos "table" de HTML
# SUGERENCIA: Prueba la función html_nodes
expansion.tables <- html_nodes()

# Las convertimos a data.frames
# SUGERENCIA: Prueba la función html_table
eurostoxx.table <- html_table()

# Contenido de la tabla
head(eurostoxx.table)

# Quitamos la última columna (está vacía)
eurostoxx.table <- eurostoxx.table[, 1:ncol(eurostoxx.table) - 1]

# Cambiamos el nombre de las columnas: stock, last, var.perc, var, ytd, max, min, volume, capitalization, timestamp
colnames(eurostoxx.table) <- c("stock", "last", "var.perc", "var", "ytd", "max", "min", "volume", "capitalization", "timestamp")

# Obtenemos las clases de cada columna: hay mezcla de character, integer y numeric
sapply(eurostoxx.table, class)

character.cols <- c("stock")
numeric.cols <- c("last", "var", "max", "min")
numeric.perc.cols <- c("var.perc", "ytd")
integer.cols <- c("volume", "capitalization")
date.cols <- c("timestamp")

# Arreglamos las columnas con porcentajes pasandolas a tanto por uno
eurostoxx.table[, numeric.perc.cols] <- 

# Arreglamos las columnas con tipo entero
#  1. Eliminamos .
#  2. Convertimos en entero
eurostoxx.table[, integer.cols] <- sapply(eurostoxx.table[, integer.cols],
                                          function (element) {
                                              element <- str_replace_all()
                                              element <- as.integer()
                                              return(element)
                                              }
                                         )

# Arreglamos la columna timestamp
#  1. Si es una fecha (dd/mm) parseamos como fecha
#  2. Si es una hora (hh:mm) parseamos como hora

eurostoxx.table$timestamp <- dmy_hm(sapply(eurostoxx.table$time, 
                                           function (element) {
                                               # Parseamos de manera diferente si es una fecha o una hora
                                               if (str_detect(element, "^[0-9]{1,2}/[0-9]{1,2}$")) {
                                                   element <- paste(paste(element,
                                                                          as.character(year(Sys.Date())),
                                                                          sep = "/"), "00:00")
                                                   }
                                               else if (str_detect(element, "^[0-9]{1,2}:[0-9]{1,2}$")) {
                                                   element <- paste(format(Sys.Date(), "%d/%m/%Y"), element)
                                                   }
                                               else {
                                                   return(format(Sys.time(), "%d/%m/%Y %H:%M"))
                                                   }
                                               return(element)
                                               }
                                          )
                                   )

# Obtenemos las clases de cada columna: ahora cada una tiene el tipo que le corresponde
sapply(eurostoxx.table, class)

eurostoxx.table

#  APIs web

+ Un **API (Application Programming Interface)** es un conjunto de funciones (o métodos) y procedimientos que ofrece un componente software, mostrando tanto las entradas y salidas que emplea como las operaciones que realiza.


+ Hablamos de **APIs web** cuando aplicamos este concepto a la web. Es decir, la interfaz de programación es expuesta al exterior para que pueda ser empleada mediante peticiones y respuestas web (peticiones HTTP como las que hace un navegador web).


+ Este intercambio de información se hace normalmente en formato XML o JSON.
 
 
+ Las APIs web pueden servir para: 
    + Realizar una determinada operación o cálculo.
    + Exponer un set de datos al mundo. Si el set de datos es muy grande, normalmente podremos pasar unos parámetros (a modo de filtro) en la llamada, para limitar el tamaño de los datos a descargar.

## Formato XML

**XML (eXtensible Markup Language)** es un lenguaje de marcas empleado para almacenar datos de forma legible. 

+ Tiene una estructura jerárquica. 

+ Similar a HTML.

+ Sirve para intercambio de información. 

Partes del documento XML:

- Declaración: donde se establece la versión y la codificación del documento. También es posible declarar el tipo de documento (DTD y XML Schema).

- Tags: aparecen entre los símbolos < y >. 
    - start-tags: `<section>` 
    - end-tags: `</section>` 
    - empty-element-tags: `<section />` 
- Elementos: componentes del documento XML. Comienzan por un start-tag y terminan por un endtag. Entre los tags aparece el contenido del elemento (puede contener otros elementos a su vez).

- Atributos: características o propiedades de los elementos (pares clave/valor). Los valores van entrecomillados (con comillas dobles).

Existen paquetes en R y Python para manejar información en formato XML. Ambos paquetes permiten utilizar xPath para navegar y seleccionar elementos de un documento XML. 

R: `XML`
Python: `lxml`

![image.png](attachment:image.png)

## Formato JSON

**JSON (JavaScript Object Notation)** es un formato de intercambio de datos.

+ Alternativa a XML gracias a su perfecta integración con JavaScript.

+ Muy empleado en el desarrollo de páginas web AJAX.

+ Normalmente los documentos JSON se codifican en UTF-8. Aunque también se puede emplear UTF-16 y UTF-32.

Existen paquetes en R y Python para manejar información en formato JSON. 
R: `rjson` Python: `json`

Tipos básicos en JSON: 
+ Números: usando punto como separador decimal.
+ Cadenas (String): entrecomilladas con comillas dobles.
+ Boolean: true o false. 
+ Array: entre corchetes y con los valores separados por comas.
+ `null`: para representar el valor nulo.
+ Objetos: colecciones de pares clave/valor, separados por comas y entre llaves.

![image.png](attachment:image.png)

### Ejemplo de APIs Web: Continuación del Caso de las Tarjetas Black

El siguiente paso consiste en obtener las geolocalizaciones de los establecimientos en los que se realizaron las transacciones.
En particular nos interesan las coordenadas de las categorías de tipo de
actividad relacionadas con el consumo y los viajes, las cuales tienen valores de `comercio` especialmente descriptivos.

Usando esta última variable como cadena de búsqueda en *Google Places*, podemos obtener las coordenadas GPS y la dirección
desde el primer resultado que nos devuelve su API.

In [None]:
############################## 
# Ejemplos de API Web      ###
##############################

# install.packages('jsonlite', repos = "https://cloud.r-project.org"))
library(jsonlite)

In [25]:
plcUrl <- "https://maps.googleapis.com/maps/api/place/textsearch/json?query= "
key <- 'INSERT KEY HERE' #

black.comercios <- data.frame(comercio = unique(black$comercio))
black.comercios$location.lat <-0
black.comercios$location.lng <-0
black.comercios$address <- ""

for(i in 1:nrow(black.comercios)){
  query <- paste(black.comercios$comercio[i], 'Spain', sep = '+')
  strurl <- as.character(paste(plcUrl ,query,"&key=",key,sep=""))
  rd <- fromJSON(URLencode(strurl))
  if(rd$status == "OK")
  {
    black.comercios$location.lat[i] <- rd$results$geometry$location$lat
    black.comercios$location.lng[i] <- rd$results$geometry$location$lng
    black.comercios$address[i] <- rd$results$formatted_address
  }
}

ERROR: Error in fromJSON(URLencode(strurl)): could not find function "fromJSON"


In [26]:
black.comercios

comercio,location.lat,location.lng,address
EL CORTE INGLES,0,0,
JOYERIAS Y RELOJERIAS,0,0,
RESTAURANTES RESTO,0,0,
AIR EUROPA,0,0,
CLUBS DEPORTIVOS,0,0,
BAZARES MAYA,0,0,
"HOTELES 4 Y 5 ESTRELLAS,BALNEARIOS,CAMPI",0,0,
IBERIA,0,0,
RESTAURANTES DE 4 Y 5 TENEDORES,0,0,
ESPECTACULOS Y DEPORTES,0,0,


## Ejercicio

Pon en marcha el anterior código, muy probablemente te de error.

En principio solo hay que añadir una key válida desde Google APIs (https://console.developers.google.com/apis).

Intenta entender el código y desentrañarlo línea a línea.

Crees que se ha cumplido el objetivo final de geolocalizar los comercios. ¿En qué terminos? ¿Habría que incluir más información para conseguir el propósito planteado a priori?

Referencias:

+ Manual de lenguajes Web (HTML, CSS, XML, JS): https://www.w3schools.com/default.asp

+ Ayuda sobre el paquete rvest: https://cran.r-project.org/web/packages/rvest/rvest.pdf

+ Tutorial sobre rvest: http://www.r-bloggers.com/rvest-easy-web-scraping-with-r/