[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/efviodo/idatha-data-science-course/blob/master/notebooks/03%20-%20DS%20-%20Adquisicion%20de%20Datos%20-%20R.ipynb)

<img src="https://github.com/efviodo/idatha-data-science-course/raw/master/notebooks/figures/idatha-logo.jpeg" width="100px" height="100px" style="float:left"/>

# Adquisición de Datos

## Objetivos
- Entender que es la etapa de adquisición de datos
- Familiarizarse con las fuentes de datos más comunes
- Introducir algunas facilidades en R para adquisición de datos
- Enumerar los principales desafíos y riesgos

<a id='Indice'></a>
## Índice
[Inicio ▲](#Indice)

1. [¿Qué es la adquisición de datos?](#Adquisicion-Datos)
1. [Fuentes de Datos](#Fuentes-Datos)
    1. [Definición](#Definicion)
    1. [Tipos](#Tipos)
1. [Herramientas](#Herramientas)
    1. [Bases de Datos (BDs)](#Bases-Datos)
    1. [Sitios Web](#Sitios-Web)
    1. [Datos Abiertos](#Datos-Abiertos)
    1. [APIs REST](#Rest-Apis)
1. [Fuentes de Datos Abiertas](#Fuentes-Datos-Abiertas)
1. [Desafíos](#Desafios)
1. [Bibliografía](#Bibliografia)

<a id='Adquisicion-Datos'></a>
## ¿Qué es la adquisición de datos?
[Inicio ▲](#Indice)

La adquisición de datos o también conocido como ingesta de datos, es el proceso de obtener o importar los datos
que se pretenden analizar, desde su **fuente**, y almacenarlos temporal o permanentemente para su posterior análisis.

Como resultado de esta operación, el científico de datos tiene a su dispocición uno o varios set de datos en un formato comprendido y manejado por este (archivos CSV, resultado de consultas SQL, data frames, etc), listo para comenzar con el análisis y el entendimiento de los datos.

<a id='Fuentes-Datos'></a>
## Fuentes de Datos
[Inicio ▲](#Indice)

<a id='Definicion'></a>
### Definición
La fuente de un dato, es el lugar donde se encuentra el dato, desde la perspectiva de quien diseña el proceso de análisis. Por ejemplo, puede ser un sensor IoT (Internet de las Cosas) al cual puedo conectarme para leer información, Redes Sociales (Twtter, Facebook), un sistema [ERP](https://es.wikipedia.org/wiki/Sistema_de_planificaci%C3%B3n_de_recursos_empresariales), base de datos de un cliente, sistemas de almacenamiento legados, fuentes de datos abiertas, sitios web, etc.

Cada vez son más y más los lugares donde se originan datos y a los cuales podemos acceder y explotar. Conforme crecen las fuentes de datos, también crecen y se originan nuevas tecnologías para acceder a ellos.

### Tipos
Dependiendo de donde se encuentren los datos, como accederemos a ellos, es decir como nos conectamos y que tecnología utilizamos. De esta forma, resulta útil agrupar las fuentes de datos en diferentes tipos:

- Bases de datos de clientes: Relacionales/No Relacionales, archivos PDF, fotos (PNG, JPG...), Big Data, etc.
- Sitios Web: Técnicas de web crawling y web scraping
- Redes sociales: Integración via APIs REST
- Datos Abiertos: Carga de archivos con formato (CSV, TXT, PDF, etc), integración mediante APIs.

<a id='Herramientas'></a>
## Herramientas
[Inicio ▲](#Indice)

Cada lenguaje de programación tiene su oferta de herramientas que facilitan la integración con otros sistemas, y así la adquisición de datos. A continuación se enumeran algunos ejemplos de herramientas que podrás encontrar en **R**, y que te ayudaran en la adiquisición de datos. 

<a id='Bases-Datos'></a>
### Bases de Datos (BDs)
Dentro de **R**, podemos encontrar variedad de librerias para acceder a distintos motores de base de datos, MySQL, Oracle, PostgreSQL, MongoDB, etc. En particular podrás encontrar toda la información que necesitas para conectarte a una BD y hacer consultas [aquí](https://db.rstudio.com/getting-started/).

<a id='Sitios-Web'></a>
### Sitios Web

Es bastante común, la necesidad de extraer información de un sitio web y de a su vez de forma automática. Para ello existen dos técnicas bien conocidas que son: (i) Web Scarping y (ii) Web Crawling.

#### ¿Qué es web Scraping?
Es el acto de procesar un documento web y extraer información del mismo. 

#### ¿Qué es web Crawling?
Es el proceso de encontrar y recuperar "web links", desde una lista inicial de URLs, navegando el contenido de la lista inicial y aplicando técnicas de web scraping para encontrar nuevos links.

Existen varias herramientas que implementan estas técnicas, una de las más populares es la libreria de Python [Scrapy](https://scrapy.org/), pero también existen herramientas para el lenguaje R.

#### Ejemplo

A continuación vamos a ver un ejemplo de como extraer información del popular sitio web de reseñas de peliculas, [IMDb](https://www.imdb.com). Para ello vamos a usar **R** y la libreria de Scraping [rvest](https://github.com/tidyverse/rvest), para recuperar los primeros resultados de búsqueda de peliculas cuya fecha de lanzamiento se encuentra entre el año 2018 y 2019.

Si te sientes curioso acerca de como hacer el scrapping completo de un sitio web con esta libreria, puedes ver un tutorial completo [aquí](https://www.analyticsvidhya.com/blog/2017/03/beginners-guide-on-web-scraping-in-r-using-rvest-with-hands-on-knowledge/).

In [1]:
# Importar libreria rvest
library('rvest')

# Defino url de la página que quiero hacer scraping. En este caso es el buscador del sitio y los primeros 100 
# resultados de peliculas cuya fecha de lanzamiento es entre 2018 y 2019
url <- 'http://www.imdb.com/search/title?count=100&release_date=2018,2019&title_type=feature'

# Leer el HTML desde la URL el sitio web
webpage <- read_html(url)

# Utilizando un selector CSS hago scraping de la sección título
title_data_html <- html_nodes(webpage,'.lister-item-header a')

# Convertir title_data_html a texto
title_data <- html_text(title_data_html)

# Imprimo primeros resultados obtenidos
head(title_data)

Loading required package: xml2


Notar, la comlejidad que implica hacer web scarping para un data scientist
- Necesitamos conocer la estructura de la página web.
- Conocer las básicas de HTML, CSS, entre otros.
- Si la estructura de la página cambia, necesito cambiar el programa que hace scraping.

<a id='Datos-Abiertos'></a>
### Datos abiertos
Los datos abiertos suelen encontrarse en diferentes formatos, pero los principales son: CSV, XML, JSON, TXT y PDF. A su vez, dependiendo de la naturaleza del dato, puede que encuentres otros formatos como PNG (usualmente en datasets de imagenes en el área Computer Vision) o Shapefile (datos espaciales).

Afortunadamente, existen librerias que implementan el acceso a estos formatos de archivos y manejan toda la complejidad de leerlos y extraer la información que necesitamos.

Para fijar ideas, vamos a ver como descargar un archivo CSV de datos, cargarlo y recuperar un poco de información del mismo. Para ello vamos a usar las librerias ```downloader``` y ```dyplr``` de R.

In [2]:
# Importar libreria downloader para descargar CSV
library(downloader)

# Defino url a archivo CSV 
url <- "https://github.com/efviodo/idatha-data-science-course/raw/master/notebooks/datasets/world-bank-data/country_population.csv"

# Descargo archivo CSV 
filename <- "datos_poblacion_por_pais.csv"
if (!file.exists(filename)) download(url,filename)

# Cargo datos del archivo
datos <- read.csv(filename, encoding="latin1")

# Imprimo primeras filas del CSV
head(datos)

“cannot open URL 'https://github.com/efviodo/idatha-data-science-course/raw/master/notebooks/datasets/world-bank-data/country_population.csv': HTTP status was '404 Not Found'”

ERROR: Error in download.file(url, method = method, ...): no fue posible abrir la URL 'https://github.com/efviodo/idatha-data-science-course/raw/master/notebooks/datasets/world-bank-data/country_population.csv'


En este caso, acabamos de leer los datos de senso de población de diferentes países para distintos años.

In [3]:
# Puedo analizar las dimensiones del dataset como cantidad de columnas o filas de datos.
dim(datos)

In [4]:
# Importar libreria dplyr
library(dplyr)

# Selecciona solamente las columnas Nombre de Pais y población en el año 2016
sub_set <- select(datos, Country.Name, X2016);

# Ordena de forma ascendente (para ordenar de forma descendente usar desc())
sub_set <- sub_set %>% arrange(X2016);

# Obtiene primeros 5 resultados
head(sub_set, 5)


Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union



Country.Name,X2016
<fct>,<dbl>
Tuvalu,11097
Nauru,13049
Palau,21503
British Virgin Islands,30661
St. Martin (French part),31949


El lenguaje R tiene una variedad interesante de operadores para trabajar con data frames, más adelante en este taller vamos a ir viendo algunos otros. Por más información sobre dpylr puedes profuindizar [aquí](https://dplyr.tidyverse.org/index.html).

<a id='Rest-Apis'></a>
### APIs REST
Muchas veces en un proyecto de ciencia de datos, tenemos el requerimiento de acceder a los datos a través de una API REST. Naturalmente no vamos a re-implementar la rueda y desarrollar un programa que establezca una conexión HTTP, parse la respuesta, etc. Existen librerias que implementan clientes rest y también librerías que nos ayudan a parsear respuestas en formato JSON, XML, etc. Veamos un ejemplo en el que utilizamos las librerias ```httr``` y ```jsonlite``` para invocar la API de la popular plataforma de compra venta de bienes y servicios [Mercado Libre](https://developers.mercadolibre.com.uy/es_ar). En el mismo, vamos a recuperar y mostrar información de las categorías de productos que se ofrecen a través de la plataforma.

**Consumiendo servicio REST**

In [3]:
# Importo librerias 
library(httr); library(jsonlite)

# Dirección del servicio en la API REST
path <- "https://api.mercadolibre.com/sites/MLU"

# Invocación al método
request <- GET(url = path)

# Obtenemos el status code de la respuesta con el operador '$'
request$status_code

**Parseando contenido de la respuesta**

In [4]:
# Extraigo el contenido de la respuesta como texto
response <- content(request, as = "text", encoding = "UTF-8")

# Utilizando jsonlite convierto el texto de la respuesta de JSON a un objeto R
response_data <- fromJSON(response, flatten = FALSE)

# Voy a quedarme solo con el valor del atributo 'categories' de la respuesta y creo un dataframe a partir de ello
df <- response_data$categories %>% data.frame()

# Muestro primeros resultados
head(df)

id,name
<chr>,<chr>
MLU5725,Accesorios para Vehículos
MLU1403,Alimentos y Bebidas
MLU1071,Animales y Mascotas
MLU1367,Arte y Antigüedades
MLU1743,"Autos, Motos y Otros"
MLU1384,Bebés


**Parseando como JSON**

In [7]:
# Obtengo identificador de la primera categoria en el resultado
category_id <- df[1,]$id

# Dirección de servicio para recuperar info de una categoria en API REST
path <- paste("https://api.mercadolibre.com/categories", "/", category_id, sep="")

# Invoco al servicio, obtengo la respuesta y la covierto a JSON
request <- GET(url = path)
response <- content(request, as = "parsed", encoding = "UTF-8")
response_json <- toJSON(response, flatten = FALSE)

# Imprimo con formato
prettify(response_json)

{
    "id": [
        "MLU5725"
    ],
    "name": [
        "Accesorios para Vehículos"
    ],
    "picture": [
        "http://resources.mlstatic.com/category/images/a0572646-bbf9-4b24-81c8-603723a015ba.png"
    ],
    "permalink": [
        "http://home.mercadolibre.com.uy/vehiculos-accesorios/"
    ],
    "total_items_in_this_category": [
        450108
    ],
    "path_from_root": [
        {
            "id": [
                "MLU5725"
            ],
            "name": [
                "Accesorios para Vehículos"
            ]
        }
    ],
    "children_categories": [
        {
            "id": [
                "MLU417044"
            ],
            "name": [
                "Acc. y Repuestos Náuticos"
            ],
            "total_items_in_this_category": [
                32
            ]
        },
        {
            "id": [
                "MLU1747"
            ],
            "name": [
                "Accesorios Autos y Camionetas"
            ],
            

<a id='Fuentes-Datos-Abiertas'></a>
## Fuentes de datos abiertas
[Inicio ▲](#Indice)

Son uno de los insumos más ricos e importantes en ciencia de datos, y de las cuales podemos extraer muchisimo valor para agregar a nuestros análisis y aplicaciones. Desde un dataset de nombres de paises unificado, el mapa completo de paradas STM de Montevideo, hasta todas las colisiones de asteroides en la Tierra. Existen cientos de iniciativas que ponen a disposición datos y conocerlas es un paso importante en la carrera de todo científico de datos.

A continaución vamos a ver algunos ejemplos:

- **Datos abiertos estatales**: Son varios los paises que ponen a disposiciíon de la comunidad conjuntos de datos abiertos para su explotación y Uruguay no es la excepción!
  - Catalogo datos abiertos Uruguay 🇺🇾 &rarr; https://catalogodatos.gub.uy/
  - Datos abiertos Argentina 🇦🇷 &rarr; https://datos.gob.ar/
  - Datos abiertos USA 🇺🇸 &rarr; https://www.data.gov/
- **Kaggle**: Comunidad de data scientist dónde podrás encontrar data sets, corpus armados para algorítmos de AI, entre otros &rarr; https://www.kaggle.com/
- **UCI**: Repositorio de data sets para Machine Learning &rarr; https://archive.ics.uci.edu/ml/index.php
- **DBpedia**: Información de Wikipedia estructurada de forma semántica &rarr; https://wiki.dbpedia.org/
- **Yelp**: Daots abiertos de la aplicación Yelp, Reviews de usuarios, Fotos, etc. &rarr; https://www.yelp.com/dataset
- **Unicef**: Datos abiertos Unicef &rarr; https://data.unicef.org/resources/resource-type/datasets/
- **NASA**: Catalogo de datos abiertos de la NASA &rarr; https://data.nasa.gov/

**Yapa**

[Google DataSets Search](https://toolbox.google.com/datasetsearch): Herramienta de Google, que busca datasets en la Web. En particular, indexa resultados de otras plataformas, como Kaggle, Datos Abiertos Estatales, etc.

<img src="https://github.com/efviodo/data-science/raw/master/courses/utec/figures/google_datasearch.png" width="700"/>


<a id='Desafios'></a>
## Desafíos
[Inicio ▲](#Indice)

Existen ciertos desafíos que siempre estan presentes en la etapa de adquisición de datos, los principales son:

- **Acceso a los datos**: Aveces los requerimientos estan pero el cliente demora en darnos acceso a sus datos.
- **Formato de los datos**: Los datos están en un formato que no comprendemos o no entendemos.
- **Problemas de encoding, escapeo de caracteres**: Que pasa si el encoding de un CSV no es UTF-8, si tiene columnas sin escapeo y algunos valores contienen el caracter separador. Aveces gastamos una cantidad considerable de tiempo pre-procesando los datos para poder ingerirlos y empezar la etapa de comprensión y análisis.

## ¿Qué pasa si necesitamos generar datos?

Aveces la fuente de datos del cliente, NO contiene todos los datos que necesitamos y tampoco encontramos un dataset abierto que tenga la información que necesitamos. En estos casos debemos generar nosotros mismos el dataset.

**Ejemplo**
Queremos armar un dataset con las asistencias de estudiantes en distintos centros de educación terciaria del páis, para luego analizar si hay alguna correlación entre las inasistencias y por ejemplo alguna otra variable como la ubicación del centro de estudios (Montevideo/Interior), la cercanía del estudiante al centro, la fecha del año, el clima, etc. 

En este caso, debemos preguntarnos:

- ¿Que formato vamos a utilizar? ¿Arhivos CSV, TXT, una BD?
- ¿Qué datos queremos incluír? Y para cada uno
    - Qué tipo de datos vamos a utilizar para representar cada atributo, si vamos a usar codigeras...
- ¿Cómo vamos a recuperar los datos?
- ¿Cómo me aceguro que este dataset sea re-utilizable?

<a id='Bibliografia'></a>
## Bibliografía
[Inicio ▲](#Indice)

<ol>
    <li>Comparación entre Pandas Data Frame y R Data Frames <br />
        <a href="https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_r.html">https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_r.html</a>
    </li>
    <li>
        Referencia R dpylr tidyverse
        <br /><a href="https://dplyr.tidyverse.org/index.html">https://dplyr.tidyverse.org/index.html</a>
    </li>
</ol>