[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/efviodo/idatha-data-science-course/blob/master/notebooks/03%20-%20DS%20-%20Adquisicion%20de%20Datos%20-%20Python.ipynb)

<img src="https://github.com/efviodo/idatha-data-science-course/raw/master/notebooks/figures/idatha-logo.jpeg" width="100px" height="100px" style="float:left"/>

# Adquisici√≥n de Datos

## Objetivos
- Entender que es la etapa de adquisici√≥n de datos
- Familiarizarse con las fuentes de datos m√°s comunes
- Introducir algunas facilidades en Python para adquisici√≥n de datos
- Enumerar los principales desaf√≠os y riesgos

<a id='Indice'></a>
## √çndice
[Inicio ‚ñ≤](#Indice)

1. [¬øQu√© es la adquisici√≥n de datos?](#Adquisicion-Datos)
1. [Fuentes de Datos](#Fuentes-Datos)
    1. [Definici√≥n](#Definicion)
    1. [Tipos](#Tipos)
1. [Herramientas](#Herramientas)
    1. [Bases de Datos (BDs)](#Bases-Datos)
    1. [Sitios Web](#Sitios-Web)
    1. [Datos Abiertos](#Datos-Abiertos)
    1. [APIs REST](#Rest-Apis)
1. [Fuentes de Datos Abiertas](#Fuentes-Datos-Abiertas)
1. [Desaf√≠os](#Desafios)
1. [Bibliograf√≠a](#Bibliografia)

<a id='Adquisicion-Datos'></a>
## ¬øQu√© es la adquisici√≥n de datos?
[Inicio ‚ñ≤](#Indice)

La adquisici√≥n de datos o tambi√©n conocido como ingesta de datos, es el proceso de obtener o importar los datos
que se pretenden analizar, desde su **fuente**, y almacenarlos temporal o permanentemente para su posterior an√°lisis.

Como resultado de esta operaci√≥n, el cient√≠fico de datos tiene a su dispocici√≥n uno o varios set de datos en un formato comprendido y manejado por este (archivos CSV, resultado de consultas SQL, data frames, etc), listo para comenzar con el an√°lisis y el entendimiento de los datos.

<a id='Fuentes-Datos'></a>
## Fuentes de Datos
[Inicio ‚ñ≤](#Indice)

<a id='Definicion'></a>
### Definici√≥n
La fuente de un dato, es el lugar donde se encuentra el dato, desde la perspectiva de quien dise√±a el proceso de an√°lisis. Por ejemplo, puede ser un sensor IoT (Internet de las Cosas) al cual puedo conectarme para leer informaci√≥n, Redes Sociales (Twtter, Facebook), un sistema [ERP](https://es.wikipedia.org/wiki/Sistema_de_planificaci%C3%B3n_de_recursos_empresariales), base de datos de un cliente, sistemas de almacenamiento legados, fuentes de datos abiertas, sitios web, etc.

Cada vez son m√°s y m√°s los lugares donde se originan datos y a los cuales podemos acceder y explotar. Conforme crecen las fuentes de datos, tambi√©n crecen y se originan nuevas tecnolog√≠as para acceder a ellos.

### Tipos
Dependiendo de donde se encuentren los datos, como accederemos a ellos, es decir como nos conectamos y que tecnolog√≠a utilizamos. De esta forma, resulta √∫til agrupar las fuentes de datos en diferentes tipos:

- Bases de datos de clientes: Relacionales/No Relacionales, archivos PDF, fotos (PNG, JPG...), Big Data, etc.
- Sitios Web: T√©cnicas de web crawling y web scraping
- Redes sociales: Integraci√≥n via APIs REST
- Datos Abiertos: Carga de archivos con formato (CSV, TXT, PDF, etc), integraci√≥n mediante APIs.

<a id='Herramientas'></a>
## Herramientas
[Inicio ‚ñ≤](#Indice)

Cada lenguaje de programaci√≥n tiene su oferta de herramientas que facilitan la integraci√≥n con otros sistemas, y as√≠ la adquisici√≥n de datos. A continuaci√≥n se enumeran algunos ejemplos de herramientas que podr√°s encontrar en **Python**, y que te ayudaran en la adiquisici√≥n de datos. 

<a id='Bases-Datos'></a>
### Bases de Datos (BDs)
Dentro de **Python**, podemos encontrar variedad de librerias para acceder a distintos motores de base de datos, MySQL, Oracle, PostgreSQL, MongoDB, etc. Algunos ejemplos de librer√≠as para conectarse a bases de datos:

* MongoDB &rarr; [PyMongo](https://pypi.org/project/pymongo/)
* PostgreSQL &rarr; [Psycopg2](https://pypi.org/project/psycopg2/)
* MySQL &rarr; [mysql-connector](https://www.w3schools.com/python/python_mysql_getstarted.asp)

<a id='Sitios-Web'></a>
### Sitios Web

Es bastante com√∫n, la necesidad de extraer informaci√≥n de un sitio web y de a su vez de forma autom√°tica. Para ello existen dos t√©cnicas bien conocidas que son: (i) Web Scarping y (ii) Web Crawling.

#### ¬øQu√© es web Scraping?
Es el acto de procesar un documento web y extraer informaci√≥n del mismo. 

#### ¬øQu√© es web Crawling?
Es el proceso de encontrar y recuperar "web links", desde una lista inicial de URLs, navegando el contenido de la lista inicial y aplicando t√©cnicas de web scraping para encontrar nuevos links.

Existen varias herramientas que implementan estas t√©cnicas, una de las m√°s populares es la libreria de Python [Scrapy](https://scrapy.org/).

#### Ejemplo

A continuaci√≥n vamos a ver un ejemplo de como extraer informaci√≥n del popular sitio web de rese√±as de peliculas, [IMDb](https://www.imdb.com). Para ello vamos a usar **Python** y las librerias [Requests](https://pypi.org/project/requests/) y [BeautifulSoup](https://pypi.org/project/beautifulsoup4/), para recuperar los primeros resultados de b√∫squeda de peliculas cuya fecha de lanzamiento se encuentra entre el a√±o 2018 y 2019.

Si te sientes curioso, hacer el scrapping completo de un sitio web puede ser bastante m√°s complicado que esto, incluso si queremos navegar en paginas hijas y descargar un sitio completo. Para ello suelen utilizarse librer√≠as m√°s elaboradas como [Scrapy](https://docs.scrapy.org/en/latest/intro/tutorial.html).

In [2]:
# Instalacion de librerias
!pip install requests
!pip install bs4

Collecting bs4
  Downloading https://files.pythonhosted.org/packages/10/ed/7e8b97591f6f456174139ec089c769f89a94a1a4025fe967691de971f314/bs4-0.0.1.tar.gz
Collecting beautifulsoup4 (from bs4)
[?25l  Downloading https://files.pythonhosted.org/packages/1a/b7/34eec2fe5a49718944e215fde81288eec1fa04638aa3fb57c1c6cd0f98c3/beautifulsoup4-4.8.0-py3-none-any.whl (97kB)
[K    100% |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 102kB 2.8MB/s a 0:00:01
[?25hCollecting soupsieve>=1.2 (from beautifulsoup4->bs4)
  Downloading https://files.pythonhosted.org/packages/5d/42/d821581cf568e9b7dfc5b415aa61952b0f5e3dede4f3cbd650e3a1082992/soupsieve-1.9.4-py2.py3-none-any.whl
Building wheels for collected packages: bs4
  Building wheel for bs4 (setup.py) ... [?25ldone
[?25h  Stored in directory: /home/emiliano/.cache/pip/wheels/a0/b0/b2/4f80b9456b87abedbc0bf2d52235414c3467d8889be38dd472
Successfully built bs4
Installing collected packages: soupsieve, beau

In [17]:
import requests
import urllib.request
import time
from bs4 import BeautifulSoup

# Define URL a descargar y hace la petici√≥n HTTP
url = 'http://www.imdb.com/search/title?count=100&release_date=2018,2019&title_type=feature'
response = requests.get(url)

# Crea objeto BeautifulSoup para procesar HTML
soup = BeautifulSoup(response.text, 'html.parser')

# Obtengo todos los elementos H3 con clase de estilos lister-item-header (yo se que all√≠ estan los t√≠tulos)
elements = soup.findAll('h3', {'class': 'lister-item-header'})

# El resultado es una lista, itero para cada uno
for element in elements:
    # El titulo est√° dentro de un link
    title = element.find("a", recursive=False).next
    print(title)

Joker
Ad Astra
Rambo: Last Blood
Downton Abbey
Hustlers
It Chapter Two
Midsommar
The Irishman
Doom: Annihilation
El Camino: A Breaking Bad Movie
Once Upon a Time... in Hollywood
Between Two Ferns: The Movie
Spider-Man: Far from Home
Fast & Furious Presents: Hobbs & Shaw
Tall Girl
Crawl
Judy
Aladdin
In the Shadow of the Moon
Anna
Avengers: Endgame
Uncut Gems
Frozen II
Dark Phoenix
Star Wars: The Rise of Skywalker
Yesterday
John Wick: Chapter 3 - Parabellum
Toy Story 4
Three from Hell
Abominable
The Goldfinch
Zombieland: Double Tap
Ready or Not
Terminator: Dark Fate
Bohemian Rhapsody
Running with the Devil
Gemini Man
Bloodline
Rocketman
Child's Play
Gisaengchung
Angel Has Fallen
The Peanut Butter Falcon
Annabelle Comes Home
Maleficent: Mistress of Evil
Charlie's Angels
War
The Lion King
Knives Out
Good Boys
Men in Black: International
Kabir Singh
The Dead Don't Die
Booksmart
Godzilla: King of the Monsters
The Lighthouse
Haunt
Alita: Battle Angel
Ford v Ferrari
Aquaman
Robin Hood
Inside M

Notar, la comlejidad que implica hacer web scarping para un data scientist
- Necesitamos conocer la estructura de la p√°gina web.
- Conocer las b√°sicas de HTML, CSS, entre otros.
- Si la estructura de la p√°gina cambia, necesito cambiar el programa que hace scraping.

<a id='Datos-Abiertos'></a>
### Datos abiertos
Los datos abiertos suelen encontrarse en diferentes formatos, pero los principales son: CSV, XML, JSON, TXT y PDF. A su vez, dependiendo de la naturaleza del dato, puede que encuentres otros formatos como PNG (usualmente en datasets de imagenes en el √°rea Computer Vision) o Shapefile (datos espaciales).

Afortunadamente, existen librerias que implementan el acceso a estos formatos de archivos y manejan toda la complejidad de leerlos y extraer la informaci√≥n que necesitamos.

Para fijar ideas, vamos a ver como descargar un archivo CSV de datos, cargarlo y recuperar un poco de informaci√≥n del mismo. Para ello vamos a usar nuevamente la liber√≠a [Requests](https://pypi.org/project/requests/) las librerias y adem√°s utilizaremos la libref√≠a [Pandas](https://pandas.pydata.org/) para facilitar la carga de los datos como una tabla y manipularlos mejor.

In [60]:
import requests
import io
import pandas as pd

url = "https://github.com/efviodo/idatha-data-science-course/raw/master/notebooks/datasets/world-bank-data/country_population.csv"

response = requests.get(url)
data = requests.get(url).content

df = pd.read_csv(io.StringIO(data.decode('utf-8')))

df.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,1965,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,Aruba,ABW,"Population, total",SP.POP.TOTL,54211.0,55438.0,56225.0,56695.0,57032.0,57360.0,...,101220.0,101353.0,101453.0,101669.0,102053.0,102577.0,103187.0,103795.0,104341.0,104822.0
1,Afghanistan,AFG,"Population, total",SP.POP.TOTL,8996351.0,9166764.0,9345868.0,9533954.0,9731361.0,9938414.0,...,26616792.0,27294031.0,28004331.0,28803167.0,29708599.0,30696958.0,31731688.0,32758020.0,33736494.0,34656032.0
2,Angola,AGO,"Population, total",SP.POP.TOTL,5643182.0,5753024.0,5866061.0,5980417.0,6093321.0,6203299.0,...,20997687.0,21759420.0,22549547.0,23369131.0,24218565.0,25096150.0,25998340.0,26920466.0,27859305.0,28813463.0
3,Albania,ALB,"Population, total",SP.POP.TOTL,1608800.0,1659800.0,1711319.0,1762621.0,1814135.0,1864791.0,...,2970017.0,2947314.0,2927519.0,2913021.0,2905195.0,2900401.0,2895092.0,2889104.0,2880703.0,2876101.0
4,Andorra,AND,"Population, total",SP.POP.TOTL,13411.0,14375.0,15370.0,16412.0,17469.0,18549.0,...,82683.0,83861.0,84462.0,84449.0,83751.0,82431.0,80788.0,79223.0,78014.0,77281.0


En este caso, acabamos de leer los datos de senso de poblaci√≥n de diferentes pa√≠ses para distintos a√±os.

In [26]:
# Puedo analizar las dimensiones del dataset como cantidad de columnas o filas de datos.
df.shape

(264, 61)

In [30]:
# Podemos ver que columnas tiene nuestro data frame
df.columns

Index(['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code',
       '1960', '1961', '1962', '1963', '1964', '1965', '1966', '1967', '1968',
       '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986',
       '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995',
       '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004',
       '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013',
       '2014', '2015', '2016'],
      dtype='object')

In [34]:
# Selecciona solamente las columnas Nombre de Pais y poblaci√≥n en el a√±o 2016
df2 = df[['Country Name', '2016']];

# Ordena de forma ascendente (para ordenar de forma descendente usar desc())
df2.sort_values(by=['2016'])

# Obtiene primeros 5 resultados
df2.head(5)

Unnamed: 0,Country Name,2016
0,Aruba,104822.0
1,Afghanistan,34656032.0
2,Angola,28813463.0
3,Albania,2876101.0
4,Andorra,77281.0


Python tiene una gran variedad de librer√≠as para trabajar con datos. En particulr la librer√≠a pandas es bastante utilizada por su uso eficiente de memoria y optimizaciones sobre matrices utilizando [numpy](https://numpy.org/) para operaciones. M√°s adelante en este taller vamos a ir viendo m√°s ejemplos de operaciones y transformaciones utilizando Pandas.

<a id='Rest-Apis'></a>
### APIs REST
Muchas veces en un proyecto de ciencia de datos, tenemos el requerimiento de acceder a los datos a trav√©s de una API REST. Naturalmente no vamos a re-implementar la rueda y desarrollar un programa que establezca una conexi√≥n HTTP, parse la respuesta, etc. Existen librerias que implementan clientes rest y tambi√©n librer√≠as que nos ayudan a parsear respuestas en formato JSON, XML, etc. Veamos un ejemplo en el que utilizamos las librerias ```httr``` y ```jsonlite``` para invocar la API de la popular plataforma de compra venta de bienes y servicios [Mercado Libre](https://developers.mercadolibre.com.uy/es_ar). En el mismo, vamos a recuperar y mostrar informaci√≥n de las categor√≠as de productos que se ofrecen a trav√©s de la plataforma.

**Consumiendo servicio REST**

In [55]:
# Importo librerias 
import requests
import pandas as pd
import json

# Direcci√≥n del servicio en la API REST
url = "https://api.mercadolibre.com/sites/MLU"

# Invocaci√≥n al m√©todo
response = requests.get(url)

# Obtenemos el status code de la respuesta con el operador '$'
response.status_code

200

**Parseando contenido de la respuesta**

In [56]:
# Extraigo el contenido de la respuesta como JSON
content = response.json()

# El resultado tiene varios atributos, me quedo solo con el atributo categorias
categories = content['categories']

# Construyo un data frame a partir del la lista de categorias
df = pd.DataFrame.from_dict(categories)

# Veamos el resultado
df.head(5)

Unnamed: 0,id,name
0,MLU5725,Accesorios para Veh√≠culos
1,MLU1403,Alimentos y Bebidas
2,MLU1071,Animales y Mascotas
3,MLU1367,Arte y Antig√ºedades
4,MLU1743,"Autos, Motos y Otros"


**Parseando como JSON**

In [59]:
# Obtengo el identificador de la categoria en el resultado, para ello selecciona la primer fila usando el
# operador iloc (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)
category_id = df.iloc[0]['id']

# Direcci√≥n del servicio en la API REST
url = "https://api.mercadolibre.com/categories/" + category_id

# Invocaci√≥n al m√©todo
response = requests.get(url)

# Obtengo el resultado de la respuesta como JSON
content = response.json()

print(json.dumps(content, indent=4))

{
    "id": "MLU5725",
    "name": "Accesorios para Veh\u00edculos",
    "picture": "http://resources.mlstatic.com/category/images/a0572646-bbf9-4b24-81c8-603723a015ba.png",
    "permalink": "http://home.mercadolibre.com.uy/vehiculos-accesorios/",
    "total_items_in_this_category": 456475,
    "path_from_root": [
        {
            "id": "MLU5725",
            "name": "Accesorios para Veh\u00edculos"
        }
    ],
    "children_categories": [
        {
            "id": "MLU417044",
            "name": "Acc. y Repuestos N\u00e1uticos",
            "total_items_in_this_category": 68
        },
        {
            "id": "MLU1747",
            "name": "Accesorios Autos y Camionetas",
            "total_items_in_this_category": 70470
        },
        {
            "id": "MLU1772",
            "name": "Accesorios para Motos",
            "total_items_in_this_category": 23218
        },
        {
            "id": "MLU1023",
            "name": "Audio para Autos",
            "tot

<a id='Fuentes-Datos-Abiertas'></a>
## Fuentes de datos abiertas
[Inicio ‚ñ≤](#Indice)

Son uno de los insumos m√°s ricos e importantes en ciencia de datos, y de las cuales podemos extraer muchisimo valor para agregar a nuestros an√°lisis y aplicaciones. Desde un dataset de nombres de paises unificado, el mapa completo de paradas STM de Montevideo, hasta todas las colisiones de asteroides en la Tierra. Existen cientos de iniciativas que ponen a disposici√≥n datos y conocerlas es un paso importante en la carrera de todo cient√≠fico de datos.

A continauci√≥n vamos a ver algunos ejemplos:

- **Datos abiertos estatales**: Son varios los paises que ponen a disposici√≠on de la comunidad conjuntos de datos abiertos para su explotaci√≥n y Uruguay no es la excepci√≥n!
  - Catalogo datos abiertos Uruguay üá∫üáæ &rarr; https://catalogodatos.gub.uy/
  - Datos abiertos Argentina üá¶üá∑ &rarr; https://datos.gob.ar/
  - Datos abiertos USA üá∫üá∏ &rarr; https://www.data.gov/
- **Kaggle**: Comunidad de data scientist d√≥nde podr√°s encontrar data sets, corpus armados para algor√≠tmos de AI, entre otros &rarr; https://www.kaggle.com/
- **UCI**: Repositorio de data sets para Machine Learning &rarr; https://archive.ics.uci.edu/ml/index.php
- **DBpedia**: Informaci√≥n de Wikipedia estructurada de forma sem√°ntica &rarr; https://wiki.dbpedia.org/
- **Yelp**: Daots abiertos de la aplicaci√≥n Yelp, Reviews de usuarios, Fotos, etc. &rarr; https://www.yelp.com/dataset
- **Unicef**: Datos abiertos Unicef &rarr; https://data.unicef.org/resources/resource-type/datasets/
- **NASA**: Catalogo de datos abiertos de la NASA &rarr; https://data.nasa.gov/

**Yapa**

[Google DataSets Search](https://toolbox.google.com/datasetsearch): Herramienta de Google, que busca datasets en la Web. En particular, indexa resultados de otras plataformas, como Kaggle, Datos Abiertos Estatales, etc.

<img src="https://github.com/efviodo/data-science/raw/master/courses/utec/figures/google_datasearch.png" width="700"/>


<a id='Desafios'></a>
## Desaf√≠os
[Inicio ‚ñ≤](#Indice)

Existen ciertos desaf√≠os que siempre estan presentes en la etapa de adquisici√≥n de datos, los principales son:

- **Acceso a los datos**: Aveces los requerimientos estan pero el cliente demora en darnos acceso a sus datos.
- **Formato de los datos**: Los datos est√°n en un formato que no comprendemos o no entendemos.
- **Problemas de encoding, escapeo de caracteres**: Que pasa si el encoding de un CSV no es UTF-8, si tiene columnas sin escapeo y algunos valores contienen el caracter separador. Aveces gastamos una cantidad considerable de tiempo pre-procesando los datos para poder ingerirlos y empezar la etapa de comprensi√≥n y an√°lisis.

## ¬øQu√© pasa si necesitamos generar datos?

Aveces la fuente de datos del cliente, NO contiene todos los datos que necesitamos y tampoco encontramos un dataset abierto que tenga la informaci√≥n que necesitamos. En estos casos debemos generar nosotros mismos el dataset.

**Ejemplo**
Queremos armar un dataset con las asistencias de estudiantes en distintos centros de educaci√≥n terciaria del p√°is, para luego analizar si hay alguna correlaci√≥n entre las inasistencias y por ejemplo alguna otra variable como la ubicaci√≥n del centro de estudios (Montevideo/Interior), la cercan√≠a del estudiante al centro, la fecha del a√±o, el clima, etc. 

En este caso, debemos preguntarnos:

- ¬øQue formato vamos a utilizar? ¬øArhivos CSV, TXT, una BD?
- ¬øQu√© datos queremos inclu√≠r? Y para cada uno
    - Qu√© tipo de datos vamos a utilizar para representar cada atributo, si vamos a usar codigeras...
- ¬øC√≥mo vamos a recuperar los datos?
- ¬øC√≥mo me aceguro que este dataset sea re-utilizable?

<a id='Bibliografia'></a>
## Bibliograf√≠a
[Inicio ‚ñ≤](#Indice)

<ol>
    <li>Comparaci√≥n entre Pandas Data Frame y R Data Frames <br />
        <a href="https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_r.html">https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_r.html</a>
    </li>
    <li>
        Referencia Python Pandas
        <br /><a href="https://pandas.pydata.org/pandas-docs/stable/reference/index.html">https://pandas.pydata.org/pandas-docs/stable/reference/index.html</a>
    </li>
</ol>