# Sobre los datos y su extracción


El desarrollo de la tecnología ha propiciado el hecho de que se generen grandes cantidades de datos, y que en muchos casos, estos puedan ser utilizados como materia prima en muchos contextos. El objetivo es obtener `Valor` de ellos. 




## Tipos de datos

Los datos admiten muchas clasificaciones, dependiendo de cuál es la fuente que genera los datos, según su formato, etc.


__Datos públicos__. Normalmente publicados en portales de datos abiertos. 

* Pueden ser datos de los gobiernos, datos de las administraciones, datos de sensores (tráfico, medio ambiente, clima, energía, cámaras), de patrimonio cultural (museos, archivos, bibliotecas), etc. 
* Normalmente estos datos están disponibles de forma libre para todo el mundo, sin restricciones de derechos de autor, o de otros mecanismos de control de acceso.

__Datos privados__. Aquellos que pertenecen al sector privado, como por ejemplo centros científicos, redes sociales como Facebook o Twitter. 
* En este caso, la disponibilidad de los datos puede estar restringida; por ejemplo, a la cantidad de datos, al tipo de datos. Pueden tener un coste. 



# Accesibilidad de los datos

Los datos publicados en portales que cumplen las directivas Open Data, suelen ser datos __fáciles de buscar__ y a los que __se puede acceder y descargar__ sin muchos problemas. 

Suelen ser datos en __formatos digitales__ lo más __estándares y reutilizables__ posible (aunque no siempre ha sido así). 

Unos ejemplos:

* [Gobierno EEUU](https://www.data.gov/)
* [Ayuntamiento de Madrid](https://datos.madrid.es/portal/site/egob)
* [Civio datos](https://datos.civio.es/colecciones/)
* [Banco Mundial](https://datacatalog.worldbank.org/home)
* [Unión Europea](https://data.europa.eu/es)



# Accesibilidad de los datos

A veces puede ser interesante disponer de datos que no se encuentran disponibles de forma pública para ser descargados de forma automática.

__Twitter__ 

   La información es pública, pero no está disponible para su utilización (al menos de forma masiva y gratuita).

__Portal de ventas de Amazon__

   Es posible consultar información de sus productos navegando por su sitio web, pero no es posible la descarga masiva de las valoraciones de todos sus productos.
   
   
   
En ambos casos, nos encontramos con que pueden ser datos interesantes que pueden aportar valor y conocimiento cuando se estudian de forma masiva, en grandes cantidades.

<h3 style="text-align:center" color="blue">¿Podemos acceder a ellos?</p>


## Acceso a los datos

### __Web scraping__

Se trata de procesos automáticos (__robots__) que hacen peticiones a un sitio web para extraer contenido e información. Por ejemplo, para consultar los precios de productos. 

El proceso implica enviar solicitudes HTTP al servidor web para __obtener el contenido de la página web__ y luego __extraer la información específica__ deseada de este contenido.



## Acceso a los datos

### __Web scraping__

* Esto no siempre es legal, y no siempre es posible. El scraping puede violar las leyes de propiedad intelectual, ya que puede implicar la recopilación de datos protegidos por derechos de autor o propiedad del sitio web. 

### Antes de hacer scraping ...

Es importante tener en cuenta que algunos sitios web tienen políticas específicas sobre el scraping y pueden tomar medidas legales si se detecta actividad de scraping en su sitio. Por lo tanto, es fundamental tener cuidado al realizar scraping y cumplir con todas las políticas y regulaciones aplicables.

El fichero de texto `robots.txt` se encuentra en el directorio raíz de un sitio web e indica a los robots qué páginas o secciones del sitio deben ser rastreadas y cuáles no.

Ejemplo: https://www.amazon.es/robots.txt

## Acceso a los datos

### __Uso de API's__

Se trata de __aplicaciones__ proporcionadas por algunos sitios web para permitir el acceso a sus datos de manera automática y en línea con sus políticas de uso.

* Por ejemplo, Twitter dispone de una API para compartir algunos de sus datos (tweets, seguidores, re-tweeets). En este caso, el uso de API se puede realizar bajo varias licencias que se diferencian en su coste y la cantidad de datos disponibles. Por tanto, se requiere la solicitud de permisos y credenciales.

* El caso de Twitter es solo un ejemplo. También existen sitios web que permiten la descarga de datos mediante APIs que pueden ser utilizadas de forma gratuita y sin ninguna restricción en cuanto al número de descargas. 

* En otros casos, el único control para su uso es el de registrase (login).

# Extracción de datos a través de APIs


## Extracción de datos a través de APIs


### ¿Qué es una API?

API es el acrónimo de __Interfaz de Programación de Aplicaciones__. 

*  Una API define una serie de __reglas y protocolos__ que especifican cómo se pueden solicitar y entregar datos desde una aplicación o servicio a otra.

* Será posible el acceso a los datos de un sitio web a través de su API. 
* Lo más normal es que los sitios web dispongan de APIs desarrolladas en varios lenguajes de programación, por tanto, podrán ser utilizadas usando distintos lenguajes de programación (Java, Python, C++, R, Ruby, etc. ).

* Una de las ventajas de usar APIs es que se pueden __automatizar los procesos__ y repetir la tarea periódicamente si el contexto de aplicación lo requiere.



## Ejemplos de sitios web que proporcionan APIs para la descarga de datos

* [Opendatasoft](https://public.opendatasoft.com/api/v2/console)
* [INE](https://www.ine.es/dyngs/DataLab/manual.html?cid=45)
* [Servicio de datos abiertos del Ajuntament de Barcelona](https://opendata-ajuntament.barcelona.cat/es/open-data-bcn)
* [Idealista](https://developers.idealista.com/access-request)
* [Ayuntamiento de Madrid](https://datos.madrid.es/portal/site/egob/menuitem.9e1e2f6404558187cf35cf3584f1a5a0/?vgnextoid=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)

* [API de Reddit](https://www.reddit.com/dev/api/): La API de Reddit permite a los desarrolladores extraer datos de publicaciones, comentarios y subreddits de Reddit.
* [API de IMDb](https://developer.imdb.com/): La API de IMDb permite a los desarrolladores extraer datos de películas, programas de televisión y celebridades de IMDb.
* ...



## Ejemplos de sitios web que proporcionan APIs para la descarga de datos

* ...
* [API de IMDb](https://developer.imdb.com/): La API de IMDb permite a los desarrolladores extraer datos de películas, programas de televisión y celebridades de IMDb.
* [Flickr](https://www.flickr.com/services/api/)
* [Banco Mundial](https://datahelpdesk.worldbank.org/knowledgebase/articles/889392-api-documentation)
* [Oxford Dictionaries API](https://developer.oxforddictionaries.com/)
* [API de Twitter](https://developer.twitter.com/en/docs/twitter-api) La API de Twitter permite a los desarrolladores extraer datos de Twitter, como tweets, usuarios y tendencias.
* [API de Spotify](https://developer.spotify.com/documentation/web-api): La API de Spotify permite a los desarrolladores extraer datos de canciones, artistas y álbumes de Spotify.



## Uso de API´s

* Las APIs son proporcionadas y diseñadas por las empresas. __No todas las  APIs son iguales__. Cada una de ellas establece unos criterios para el acceso a los datos. 

* En general, las empresas que proporcionan APIs permiten iniciar sesión en su base de datos interna, así como una forma más fácil de acceder a ella y a sus datos.

* Los criterios o __requisitos de acceso__ van desde muy restrictivos a muy poco restrictivos. 
    
  * Algunas APIs tienen limitaciones en la cantidad de veces que se puede utilizar,
  * Otras requieren registrarse para recibir una clave de API privada,
  * y algunos requieren configurar mecanismos de autorización (OAuth) para que los usuarios usen la API de forma segura.



###  Cómo proporcionan los datos las APIs

* Las APIs proporcionan datos en varios formatos, pero `JSON` es el más popular. 

* Por suerte, Python dispone de  bibliotecas que hacen que la manipulación de datos JSON sea intuitiva. 

* Otros formatos de datos proporcionados por las APIs son `csv` y `excel`.





### Preguntas

* ¿Se pueden usar siempre APIs como mecanismos de adquisición de datos?
* ¿Qué ventajas ofrece el uso de APIs?

### Tipos de solicitudes a una API

Existen una serie de comandos para realizar cierto tipo de acciones mientras trabajamos con una API. 

El comando `GET` permite a los usuarios obtener datos usando la API en un formato específico. Para la extracción de datos usaremos este comando.

Otros comandos son `POST`, `DELETE` y `PUT` para agregar, eliminar y actualizar datos existentes en el servicio web respectivamente.




### Códigos de estado/respuesta de una API

En general, para usar una API, el primer paso es realizar una petición mediante una __url__. 

La petición devuelve cierto __código de respuesta__ que determina el estado de la petición. 

Entre los códigos de respuesta nos podemos encontrar con los siguientes: 

* `200` : Bien. Significa que tenemos una conexión saludable con la API en la web.
* `204`: Representa que podemos establecer una conexión con la API con éxito, pero no devuelve ningún dato del servicio.
* `401`: ¡Falló la autenticación!
* `403` : Acceso prohibido por el servicio API.
* `404` : El servicio API solicitado no se encuentra en el servidor/web.
* `500` : Se ha producido un error interno del servidor.



### Pasos para conectarse y llamar a las API mediante Python

Analicemos ahora los pasos para establecer una conexión  con una API utilizando Python.

1. Importar la librería necesaria para hacer peticiones `http`: `request`. Esta librertía permite mandar headers para que el servidor piense que te conectas con un navegador normal.


In [4]:
import requests

2. Realizar una acción para conectarse a la API. Aquí, hemos usado el comando GET para conectarnos a la API como se muestra:

In [None]:
respuesta_API = request.get(url_de_ejemplo)

Hemos pasado la url a la que se debe realizar la conexión en la función `get()`.


3. Imprime el código de respuesta. La variable `status_code` nos permite consultar al estado de nuestra conexión a la API.

In [None]:
print(respuesta_API.status_code)

## Ejemplo

Ejemplo con la API del ayuntamiento de Madrid: [`https://datos.madrid.es`](https://datos.madrid.es/portal/site/egob/menuitem.9e1e2f6404558187cf35cf3584f1a5a0/?vgnextoid=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)

La documentación de la API me dice cómo se debe construir la `url` para la descarga de datos.

Por ejemplo, buscar la url que permite la descarga de los __datos de los aparcamientos de residentes en el distrito de Retiro__ 


'https://datos.madrid.es/egob/catalogo/202584-0-aparcamientos-residentes.json?distrito_nombre=RETIRO'


## Ejemplo

Ejemplo con la API del ayuntamiento de Madrid: [`https://datos.madrid.es`](https://datos.madrid.es/portal/site/egob/menuitem.9e1e2f6404558187cf35cf3584f1a5a0/?vgnextoid=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)

La documentación de la API me dice cómo se debe construir la `url` para la descarga de datos.

Por ejemplo, buscar la url que permite la descarga de los __datos de los aparcamientos de residentes en el distrito de Retiro__ 

In [6]:
import requests

url = 'https://datos.madrid.es/egob/catalogo/202584-0-aparcamientos-residentes.json?distrito_nombre=RETIRO'

response_API = requests.get(url)
response_API.status_code

200

## Ejemplo

Por ejemplo, buscar la url que permite la descarga de los __datos de los aparcamientos de residentes en el distrito de Retiro__ 

En este caso, la API solo permite descargar los datos en formato JSON. Para ver su contenido:

In [7]:
data = response_API.json()    # transformar los datos devueltos en json
data

{'@context': {'c': 'http://www.w3.org/2002/12/cal#',
  'dcterms': 'http://purl.org/dc/terms/',
  'geo': 'http://www.w3.org/2003/01/geo/wgs84_pos#',
  'loc': 'http://purl.org/ctic/infraestructuras/localizacion#',
  'org': 'http://purl.org/ctic/infraestructuras/organizacion#',
  'vcard': 'http://www.w3.org/2006/vcard/ns#',
  'schema': 'https://schema.org/',
  'title': 'vcard:fn',
  'id': 'dcterms:identifier',
  'relation': 'dcterms:relation',
  'references': 'dcterms:references',
  'address': 'vcard:adr',
  'area': 'loc:barrio',
  'district': 'loc:distrito',
  'locality': 'vcard:locality',
  'postal-code': 'vcard:postal-code',
  'street-address': 'vcard:street-address',
  'location': 'vcard:geo',
  'latitude': 'geo:lat',
  'longitude': 'geo:long',
  'organization': 'vcard:org',
  'organization-desc': 'dcterms:description',
  'accesibility': 'org:accesibilidad',
  'services': 'org:servicios',
  'schedule': 'org:horario',
  'organization-name': 'vcard:organization-name',
  'description': '

In [8]:
# cuántas claves hay en este diccionario
len(data)

2

In [9]:
data.keys()

dict_keys(['@context', '@graph'])

In [10]:
data['@graph'][0]

{'@id': 'https://datos.madrid.es/egob/catalogo/tipo/entidadesyorganismos/183748-aparcamiento-mixto-daoiz-velarde.json',
 'title': 'Aparcamiento mixto. Daoíz y Velarde',
 'location': {'latitude': 40.40255344121901, 'longitude': -3.67763144165245}}

In [11]:
ap1 = data['@graph'][0]['title']
ap1

'Aparcamiento mixto. Daoíz y Velarde'

In [12]:
ap1_lon = data['@graph'][0]['location']['longitude']
ap1_lon

-3.67763144165245

### Podemos crear un dataframe con los datos

In [13]:
import pandas as pd
datos = pd.DataFrame(data['@graph'])
datos.head()

Unnamed: 0,@id,title,location
0,https://datos.madrid.es/egob/catalogo/tipo/ent...,Aparcamiento mixto. Daoíz y Velarde,"{'latitude': 40.40255344121901, 'longitude': -..."
1,https://datos.madrid.es/egob/catalogo/tipo/ent...,Aparcamiento mixto. Fernández Shaw,"{'latitude': 40.40489977502076, 'longitude': -..."
2,https://datos.madrid.es/egob/catalogo/tipo/ent...,Aparcamiento mixto. Montalbán,"{'latitude': 40.4181859174944, 'longitude': -3..."
3,https://datos.madrid.es/egob/catalogo/tipo/ent...,Aparcamiento mixto. Reyes Magos,"{'latitude': 40.408797321706984, 'longitude': ..."
4,https://datos.madrid.es/egob/catalogo/tipo/ent...,Aparcamiento para residentes. Alcalde Sáinz de...,"{'latitude': 40.4169949224885, 'longitude': -3..."


### Podemos crear un dataframe con los datos

La función  `json_normalize` de pandas, me ofrece mejores resultados cuando el dato de origen es un JSON.

In [14]:

datos = pd.json_normalize(data['@graph'])
datos.head()

Unnamed: 0,@id,title,location.latitude,location.longitude
0,https://datos.madrid.es/egob/catalogo/tipo/ent...,Aparcamiento mixto. Daoíz y Velarde,40.402553,-3.677631
1,https://datos.madrid.es/egob/catalogo/tipo/ent...,Aparcamiento mixto. Fernández Shaw,40.4049,-3.668851
2,https://datos.madrid.es/egob/catalogo/tipo/ent...,Aparcamiento mixto. Montalbán,40.418186,-3.690958
3,https://datos.madrid.es/egob/catalogo/tipo/ent...,Aparcamiento mixto. Reyes Magos,40.408797,-3.676322
4,https://datos.madrid.es/egob/catalogo/tipo/ent...,Aparcamiento para residentes. Alcalde Sáinz de...,40.416995,-3.668449


## Ejemplo

Ejemplo con la API del ayuntamiento de Madrid: [`https://datos.madrid.es`](https://datos.madrid.es/portal/site/egob/menuitem.9e1e2f6404558187cf35cf3584f1a5a0/?vgnextoid=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default)



* No parece que la API imponga restricciones en cuanto al número de peticiones diarias que se pueda realizar.

* Una vez descargados los datos es posible limpiarlos, filtrar, guardarlos, analizarlos, etc.

## Ejercicio:

Se desea conocer los parques de Bomberos situados en un radio de 10 km de la posición:
* Latitud: 40.39
* Longitud : -3.70

In [21]:
url = 'https://datos.madrid.es/egob/catalogo/211642-0-bomberos-parques.json?latitud=40.39&longitud=-3.70&distancia=10000'
response_API = requests.get(url)
print(response_API.status_code)
data = response_API.json()    # transformar los datos devueltos en json
datos = pd.json_normalize(data['@graph'])
datos

200


Unnamed: 0,@id,title,location.latitude,location.longitude
0,https://datos.madrid.es/egob/catalogo/tipo/ent...,Parque de Bomberos 01. Chamberí,40.440221,-3.700819
1,https://datos.madrid.es/egob/catalogo/tipo/ent...,Parque de Bomberos 02. Salamanca,40.428511,-3.66711
2,https://datos.madrid.es/egob/catalogo/tipo/ent...,Parque de Bomberos 03. Centro,40.40698,-3.712283
3,https://datos.madrid.es/egob/catalogo/tipo/ent...,Parque de Bomberos 04. Tetuán,40.470736,-3.696052
4,https://datos.madrid.es/egob/catalogo/tipo/ent...,Parque de Bomberos 05. Usera,40.392031,-3.706823
5,https://datos.madrid.es/egob/catalogo/tipo/ent...,Parque de Bomberos 06. Centro,40.426736,-3.70655
6,https://datos.madrid.es/egob/catalogo/tipo/ent...,Parque de Bomberos 07. San Blas,40.428329,-3.615437
7,https://datos.madrid.es/egob/catalogo/tipo/ent...,Parque de Bomberos 08. Puente de Vallecas,40.394617,-3.653131
8,https://datos.madrid.es/egob/catalogo/tipo/ent...,Parque de Bomberos 10. Villaverde,40.339867,-3.707008
9,https://datos.madrid.es/egob/catalogo/tipo/ent...,Parque de Bomberos 11. Hortaleza,40.474099,-3.665084
