[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/efviodo/idatha-data-science-course/blob/master/notebooks/03%20-%20DS%20-%20Adquisicion%20de%20Datos%20-%20R.ipynb)

<img src="https://github.com/efviodo/idatha-data-science-course/raw/master/notebooks/figures/idatha-logo.jpeg" width="100px" height="100px" style="float:left"/>

# Adquisici√≥n de Datos

## Objetivos
- Entender que es la etapa de adquisici√≥n de datos
- Familiarizarse con las fuentes de datos m√°s comunes
- Introducir algunas facilidades en R para adquisici√≥n de datos
- Enumerar los principales desaf√≠os y riesgos

<a id='Indice'></a>
## √çndice
[Inicio ‚ñ≤](#Indice)

1. [¬øQu√© es la adquisici√≥n de datos?](#Adquisicion-Datos)
1. [Fuentes de Datos](#Fuentes-Datos)
    1. [Definici√≥n](#Definicion)
    1. [Tipos](#Tipos)
1. [Herramientas](#Herramientas)
    1. [Bases de Datos (BDs)](#Bases-Datos)
    1. [Sitios Web](#Sitios-Web)
    1. [Datos Abiertos](#Datos-Abiertos)
    1. [APIs REST](#Rest-Apis)
1. [Fuentes de Datos Abiertas](#Fuentes-Datos-Abiertas)
1. [Desaf√≠os](#Desafios)
1. [Bibliograf√≠a](#Bibliografia)

<a id='Adquisicion-Datos'></a>
## ¬øQu√© es la adquisici√≥n de datos?
[Inicio ‚ñ≤](#Indice)

La adquisici√≥n de datos o tambi√©n conocido como ingesta de datos, es el proceso de obtener o importar los datos
que se pretenden analizar, desde su **fuente**, y almacenarlos temporal o permanentemente para su posterior an√°lisis.

Como resultado de esta operaci√≥n, el cient√≠fico de datos tiene a su dispocici√≥n uno o varios set de datos en un formato comprendido y manejado por este (archivos CSV, resultado de consultas SQL, data frames, etc), listo para comenzar con el an√°lisis y el entendimiento de los datos.

<a id='Fuentes-Datos'></a>
## Fuentes de Datos
[Inicio ‚ñ≤](#Indice)

<a id='Definicion'></a>
### Definici√≥n
La fuente de un dato, es el lugar donde se encuentra el dato, desde la perspectiva de quien dise√±a el proceso de an√°lisis. Por ejemplo, puede ser un sensor IoT (Internet de las Cosas) al cual puedo conectarme para leer informaci√≥n, Redes Sociales (Twtter, Facebook), un sistema [ERP](https://es.wikipedia.org/wiki/Sistema_de_planificaci%C3%B3n_de_recursos_empresariales), base de datos de un cliente, sistemas de almacenamiento legados, fuentes de datos abiertas, sitios web, etc.

Cada vez son m√°s y m√°s los lugares donde se originan datos y a los cuales podemos acceder y explotar. Conforme crecen las fuentes de datos, tambi√©n crecen y se originan nuevas tecnolog√≠as para acceder a ellos.

### Tipos
Dependiendo de donde se encuentren los datos, como accederemos a ellos, es decir como nos conectamos y que tecnolog√≠a utilizamos. De esta forma, resulta √∫til agrupar las fuentes de datos en diferentes tipos:

- Bases de datos de clientes: Relacionales/No Relacionales, archivos PDF, fotos (PNG, JPG...), Big Data, etc.
- Sitios Web: T√©cnicas de web crawling y web scraping
- Redes sociales: Integraci√≥n via APIs REST
- Datos Abiertos: Carga de archivos con formato (CSV, TXT, PDF, etc), integraci√≥n mediante APIs.

<a id='Herramientas'></a>
## Herramientas
[Inicio ‚ñ≤](#Indice)

Cada lenguaje de programaci√≥n tiene su oferta de herramientas que facilitan la integraci√≥n con otros sistemas, y as√≠ la adquisici√≥n de datos. A continuaci√≥n se enumeran algunos ejemplos de herramientas que podr√°s encontrar en **R**, y que te ayudaran en la adiquisici√≥n de datos. 

<a id='Bases-Datos'></a>
### Bases de Datos (BDs)
Dentro de **R**, podemos encontrar variedad de librerias para acceder a distintos motores de base de datos, MySQL, Oracle, PostgreSQL, MongoDB, etc. En particular podr√°s encontrar toda la informaci√≥n que necesitas para conectarte a una BD y hacer consultas [aqu√≠](https://db.rstudio.com/getting-started/).

<a id='Sitios-Web'></a>
### Sitios Web

Es bastante com√∫n, la necesidad de extraer informaci√≥n de un sitio web y de a su vez de forma autom√°tica. Para ello existen dos t√©cnicas bien conocidas que son: (i) Web Scarping y (ii) Web Crawling.

#### ¬øQu√© es web Scraping?
Es el acto de procesar un documento web y extraer informaci√≥n del mismo. 

#### ¬øQu√© es web Crawling?
Es el proceso de encontrar y recuperar "web links", desde una lista inicial de URLs, navegando el contenido de la lista inicial y aplicando t√©cnicas de web scraping para encontrar nuevos links.

Existen varias herramientas que implementan estas t√©cnicas, una de las m√°s populares es la libreria de Python [Scrapy](https://scrapy.org/), pero tambi√©n existen herramientas para el lenguaje R.

#### Ejemplo

A continuaci√≥n vamos a ver un ejemplo de como extraer informaci√≥n del popular sitio web de rese√±as de peliculas, [IMDb](https://www.imdb.com). Para ello vamos a usar **R** y la libreria de Scraping [rvest](https://github.com/tidyverse/rvest), para recuperar los primeros resultados de b√∫squeda de peliculas cuya fecha de lanzamiento se encuentra entre el a√±o 2018 y 2019.

Si te sientes curioso acerca de como hacer el scrapping completo de un sitio web con esta libreria, puedes ver un tutorial completo [aqu√≠](https://www.analyticsvidhya.com/blog/2017/03/beginners-guide-on-web-scraping-in-r-using-rvest-with-hands-on-knowledge/).

In [1]:
# Importar libreria rvest
library('rvest')

# Defino url de la p√°gina que quiero hacer scraping. En este caso es el buscador del sitio y los primeros 100 
# resultados de peliculas cuya fecha de lanzamiento es entre 2018 y 2019
url <- 'http://www.imdb.com/search/title?count=100&release_date=2018,2019&title_type=feature'

# Leer el HTML desde la URL el sitio web
webpage <- read_html(url)

# Utilizando un selector CSS hago scraping de la secci√≥n t√≠tulo
title_data_html <- html_nodes(webpage,'.lister-item-header a')

# Convertir title_data_html a texto
title_data <- html_text(title_data_html)

# Imprimo primeros resultados obtenidos
head(title_data)

Loading required package: xml2


Notar, la comlejidad que implica hacer web scarping para un data scientist
- Necesitamos conocer la estructura de la p√°gina web.
- Conocer las b√°sicas de HTML, CSS, entre otros.
- Si la estructura de la p√°gina cambia, necesito cambiar el programa que hace scraping.

<a id='Datos-Abiertos'></a>
### Datos abiertos
Los datos abiertos suelen encontrarse en diferentes formatos, pero los principales son: CSV, XML, JSON, TXT y PDF. A su vez, dependiendo de la naturaleza del dato, puede que encuentres otros formatos como PNG (usualmente en datasets de imagenes en el √°rea Computer Vision) o Shapefile (datos espaciales).

Afortunadamente, existen librerias que implementan el acceso a estos formatos de archivos y manejan toda la complejidad de leerlos y extraer la informaci√≥n que necesitamos.

Para fijar ideas, vamos a ver como descargar un archivo CSV de datos, cargarlo y recuperar un poco de informaci√≥n del mismo. Para ello vamos a usar las librerias ```downloader``` y ```dyplr``` de R.

In [4]:
# Importar libreria downloader para descargar CSV
library(downloader)

# Defino url a archivo CSV 
url <- "https://github.com/efviodo/idatha-data-science-course/raw/master/notebooks/datasets/world-bank-data/country_population.csv"

# Descargo archivo CSV 
filename <- "datos_poblacion_por_pais.csv"
if (!file.exists(filename)) download(url,filename)

# Cargo datos del archivo
datos <- read.csv(filename, encoding="latin1")

# Imprimo primeras filas del CSV
head(datos)

Country.Name,Country.Code,Indicator.Name,Indicator.Code,X1960,X1961,X1962,X1963,X1964,X1965,‚ãØ,X2007,X2008,X2009,X2010,X2011,X2012,X2013,X2014,X2015,X2016
<fct>,<fct>,<fct>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,‚ãØ,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
Aruba,ABW,"Population, total",SP.POP.TOTL,54211,55438,56225,56695,57032,57360,‚ãØ,101220,101353,101453,101669,102053,102577,103187,103795,104341,104822
Afghanistan,AFG,"Population, total",SP.POP.TOTL,8996351,9166764,9345868,9533954,9731361,9938414,‚ãØ,26616792,27294031,28004331,28803167,29708599,30696958,31731688,32758020,33736494,34656032
Angola,AGO,"Population, total",SP.POP.TOTL,5643182,5753024,5866061,5980417,6093321,6203299,‚ãØ,20997687,21759420,22549547,23369131,24218565,25096150,25998340,26920466,27859305,28813463
Albania,ALB,"Population, total",SP.POP.TOTL,1608800,1659800,1711319,1762621,1814135,1864791,‚ãØ,2970017,2947314,2927519,2913021,2905195,2900401,2895092,2889104,2880703,2876101
Andorra,AND,"Population, total",SP.POP.TOTL,13411,14375,15370,16412,17469,18549,‚ãØ,82683,83861,84462,84449,83751,82431,80788,79223,78014,77281
Arab World,ARB,"Population, total",SP.POP.TOTL,92490932,95044497,97682294,100411076,103239902,106174988,‚ãØ,331653797,339825483,348145094,356508908,364895878,373306993,381702086,390043028,398304960,406452690


En este caso, acabamos de leer los datos de senso de poblaci√≥n de diferentes pa√≠ses para distintos a√±os.

In [3]:
# Puedo analizar las dimensiones del dataset como cantidad de columnas o filas de datos.
dim(datos)

In [4]:
# Importar libreria dplyr
library(dplyr)

# Selecciona solamente las columnas Nombre de Pais y poblaci√≥n en el a√±o 2016
sub_set <- select(datos, Country.Name, X2016);

# Ordena de forma ascendente (para ordenar de forma descendente usar desc())
sub_set <- sub_set %>% arrange(X2016);

# Obtiene primeros 5 resultados
head(sub_set, 5)


Attaching package: ‚Äòdplyr‚Äô

The following objects are masked from ‚Äòpackage:stats‚Äô:

    filter, lag

The following objects are masked from ‚Äòpackage:base‚Äô:

    intersect, setdiff, setequal, union



Country.Name,X2016
<fct>,<dbl>
Tuvalu,11097
Nauru,13049
Palau,21503
British Virgin Islands,30661
St. Martin (French part),31949


El lenguaje R tiene una variedad interesante de operadores para trabajar con data frames, m√°s adelante en este taller vamos a ir viendo algunos otros. Por m√°s informaci√≥n sobre dpylr puedes profuindizar [aqu√≠](https://dplyr.tidyverse.org/index.html).

<a id='Rest-Apis'></a>
### APIs REST
Muchas veces en un proyecto de ciencia de datos, tenemos el requerimiento de acceder a los datos a trav√©s de una API REST. Naturalmente no vamos a re-implementar la rueda y desarrollar un programa que establezca una conexi√≥n HTTP, parse la respuesta, etc. Existen librerias que implementan clientes rest y tambi√©n librer√≠as que nos ayudan a parsear respuestas en formato JSON, XML, etc. Veamos un ejemplo en el que utilizamos las librerias ```httr``` y ```jsonlite``` para invocar la API de la popular plataforma de compra venta de bienes y servicios [Mercado Libre](https://developers.mercadolibre.com.uy/es_ar). En el mismo, vamos a recuperar y mostrar informaci√≥n de las categor√≠as de productos que se ofrecen a trav√©s de la plataforma.

**Consumiendo servicio REST**

In [3]:
# Importo librerias 
library(httr); library(jsonlite)

# Direcci√≥n del servicio en la API REST
path <- "https://api.mercadolibre.com/sites/MLU"

# Invocaci√≥n al m√©todo
request <- GET(url = path)

# Obtenemos el status code de la respuesta con el operador '$'
request$status_code

**Parseando contenido de la respuesta**

In [4]:
# Extraigo el contenido de la respuesta como texto
response <- content(request, as = "text", encoding = "UTF-8")

# Utilizando jsonlite convierto el texto de la respuesta de JSON a un objeto R
response_data <- fromJSON(response, flatten = FALSE)

# Voy a quedarme solo con el valor del atributo 'categories' de la respuesta y creo un dataframe a partir de ello
df <- response_data$categories %>% data.frame()

# Muestro primeros resultados
head(df)

id,name
<chr>,<chr>
MLU5725,Accesorios para Veh√≠culos
MLU1403,Alimentos y Bebidas
MLU1071,Animales y Mascotas
MLU1367,Arte y Antig√ºedades
MLU1743,"Autos, Motos y Otros"
MLU1384,Beb√©s


**Parseando como JSON**

In [7]:
# Obtengo identificador de la primera categoria en el resultado
category_id <- df[1,]$id

# Direcci√≥n de servicio para recuperar info de una categoria en API REST
path <- paste("https://api.mercadolibre.com/categories", "/", category_id, sep="")

# Invoco al servicio, obtengo la respuesta y la covierto a JSON
request <- GET(url = path)
response <- content(request, as = "parsed", encoding = "UTF-8")
response_json <- toJSON(response, flatten = FALSE)

# Imprimo con formato
prettify(response_json)

{
    "id": [
        "MLU5725"
    ],
    "name": [
        "Accesorios para Veh√≠culos"
    ],
    "picture": [
        "http://resources.mlstatic.com/category/images/a0572646-bbf9-4b24-81c8-603723a015ba.png"
    ],
    "permalink": [
        "http://home.mercadolibre.com.uy/vehiculos-accesorios/"
    ],
    "total_items_in_this_category": [
        450108
    ],
    "path_from_root": [
        {
            "id": [
                "MLU5725"
            ],
            "name": [
                "Accesorios para Veh√≠culos"
            ]
        }
    ],
    "children_categories": [
        {
            "id": [
                "MLU417044"
            ],
            "name": [
                "Acc. y Repuestos N√°uticos"
            ],
            "total_items_in_this_category": [
                32
            ]
        },
        {
            "id": [
                "MLU1747"
            ],
            "name": [
                "Accesorios Autos y Camionetas"
            ],
         

<a id='Fuentes-Datos-Abiertas'></a>
## Fuentes de datos abiertas
[Inicio ‚ñ≤](#Indice)

Son uno de los insumos m√°s ricos e importantes en ciencia de datos, y de las cuales podemos extraer muchisimo valor para agregar a nuestros an√°lisis y aplicaciones. Desde un dataset de nombres de paises unificado, el mapa completo de paradas STM de Montevideo, hasta todas las colisiones de asteroides en la Tierra. Existen cientos de iniciativas que ponen a disposici√≥n datos y conocerlas es un paso importante en la carrera de todo cient√≠fico de datos.

A continauci√≥n vamos a ver algunos ejemplos:

- **Datos abiertos estatales**: Son varios los paises que ponen a disposici√≠on de la comunidad conjuntos de datos abiertos para su explotaci√≥n y Uruguay no es la excepci√≥n!
  - Catalogo datos abiertos Uruguay üá∫üáæ &rarr; https://catalogodatos.gub.uy/
  - Datos abiertos Argentina üá¶üá∑ &rarr; https://datos.gob.ar/
  - Datos abiertos USA üá∫üá∏ &rarr; https://www.data.gov/
- **Kaggle**: Comunidad de data scientist d√≥nde podr√°s encontrar data sets, corpus armados para algor√≠tmos de AI, entre otros &rarr; https://www.kaggle.com/
- **UCI**: Repositorio de data sets para Machine Learning &rarr; https://archive.ics.uci.edu/ml/index.php
- **DBpedia**: Informaci√≥n de Wikipedia estructurada de forma sem√°ntica &rarr; https://wiki.dbpedia.org/
- **Yelp**: Daots abiertos de la aplicaci√≥n Yelp, Reviews de usuarios, Fotos, etc. &rarr; https://www.yelp.com/dataset
- **Unicef**: Datos abiertos Unicef &rarr; https://data.unicef.org/resources/resource-type/datasets/
- **NASA**: Catalogo de datos abiertos de la NASA &rarr; https://data.nasa.gov/

**Yapa**

[Google DataSets Search](https://toolbox.google.com/datasetsearch): Herramienta de Google, que busca datasets en la Web. En particular, indexa resultados de otras plataformas, como Kaggle, Datos Abiertos Estatales, etc.

<img src="https://github.com/efviodo/data-science/raw/master/courses/utec/figures/google_datasearch.png" width="700"/>


<a id='Desafios'></a>
## Desaf√≠os
[Inicio ‚ñ≤](#Indice)

Existen ciertos desaf√≠os que siempre estan presentes en la etapa de adquisici√≥n de datos, los principales son:

- **Acceso a los datos**: Aveces los requerimientos estan pero el cliente demora en darnos acceso a sus datos.
- **Formato de los datos**: Los datos est√°n en un formato que no comprendemos o no entendemos.
- **Problemas de encoding, escapeo de caracteres**: Que pasa si el encoding de un CSV no es UTF-8, si tiene columnas sin escapeo y algunos valores contienen el caracter separador. Aveces gastamos una cantidad considerable de tiempo pre-procesando los datos para poder ingerirlos y empezar la etapa de comprensi√≥n y an√°lisis.

## ¬øQu√© pasa si necesitamos generar datos?

Aveces la fuente de datos del cliente, NO contiene todos los datos que necesitamos y tampoco encontramos un dataset abierto que tenga la informaci√≥n que necesitamos. En estos casos debemos generar nosotros mismos el dataset.

**Ejemplo**
Queremos armar un dataset con las asistencias de estudiantes en distintos centros de educaci√≥n terciaria del p√°is, para luego analizar si hay alguna correlaci√≥n entre las inasistencias y por ejemplo alguna otra variable como la ubicaci√≥n del centro de estudios (Montevideo/Interior), la cercan√≠a del estudiante al centro, la fecha del a√±o, el clima, etc. 

En este caso, debemos preguntarnos:

- ¬øQue formato vamos a utilizar? ¬øArhivos CSV, TXT, una BD?
- ¬øQu√© datos queremos inclu√≠r? Y para cada uno
    - Qu√© tipo de datos vamos a utilizar para representar cada atributo, si vamos a usar codigeras...
- ¬øC√≥mo vamos a recuperar los datos?
- ¬øC√≥mo me aceguro que este dataset sea re-utilizable?

<a id='Bibliografia'></a>
## Bibliograf√≠a
[Inicio ‚ñ≤](#Indice)

<ol>
    <li>Comparaci√≥n entre Pandas Data Frame y R Data Frames <br />
        <a href="https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_r.html">https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_r.html</a>
    </li>
    <li>
        Referencia R dpylr tidyverse
        <br /><a href="https://dplyr.tidyverse.org/index.html">https://dplyr.tidyverse.org/index.html</a>
    </li>
</ol>