Adquisición de datos en Python
--------------------------------------


En este Notebook encontraréis dos conjuntos de ejercicios: un primer conjunto de **ejercicios para practicar** y un segundo conjunto de **actividades evaluables** como PRÁCTICAS de la asignatura.

---

## Ejercicios y preguntas teóricas

A continuación, encontraréis los **ejercicios y preguntas teóricas que debéis completar en esta PRA** y que forman parte de la evaluación de esta unidad.

## Pregunta 1

La respuesta recibida después de realizar una petición a una web API http es un objeto que contiene, entre otros, los siguientes atributos: **status.code**, **content** y **headers**.  Describe qué información contiene cada uno de los atributos anteriormente enumerados y pon un ejemplo de cada uno.  Recordad que hay que citar las referencias consultadas para responder la pregunta, y que la respuesta que proporcionéis debe ser original (redactada por vosotros mismos, después de haber leído y entendido las referencias que consideréis oportunas).

**Respuesta**

- **status.code:** Al acceder a una página web, se manda una petición al servidor de la misma, dicha petición devuelve un número estandarizado de tres cifras con la resolución de la petición, que puede haber sido satisfactoria o no. En función del valor del número que devuelva la petición sabremos el resultado de nuestra petición, existen muchas opciones, entre las más comunes, el error 404 (página inexistente), el error 500 (error interno del servidor) o 200 (resolución satisfactoria de la petición). Como ejemplo tendríamos cualquiera de los tres anteriormente nombrados.
- **content:** También conocido como "body" o "cuerpo", el cuerpo de una respuesta es la información en sí misma que nos responde el servidor, no todas las respuestas tienen que incluir un cuerpo. Por ejemplo, cuando utilizamos un navegador para entrar en una web, el cuerpo de la respuesta del servidor será el código html de la propia página.
- **headers:** Son información adicional en forma de clave-valor que se envía junto a una petición o respuesta. Hay distintos tipos de cabecera (de petición, de respuesta, generales,  y entidad) y pueden ser predefinidas o personalizadas por el usuario.  Un ejemplo podría ser la cabecera "content-type" que se utiliza para indicar al cliente qué formato tiene el cuerpo de la respuesta (html, json...). Un ejemplo de su uso:
```
content-type: text/html; charset=utf-8
```


**Referencias:**   
[Referencia 1](https://developer.mozilla.org/es/docs/Web/HTTP/Status)    
[Referencia 2](https://www.sololinux.es/http-status-codes-y-su-explicacion/)   
[Referencia 3](https://developer.mozilla.org/es/docs/Web/HTTP/Messages)   

## Pregunta 2

Enumera tres librerías de Python para acceder a una API y especifica la API a la cual se accede. Para cada una de las librerías anteriormente enumeradas, pon un ejemplo de **endpoint** de la API que permite obtener una determinada información y de la función que permite obtenerla.  Recordad que hay que citar las referencias consultadas para responder la pregunta. 

**Nota**. Un ejemplo sería la librería de Python [Tweepy](http://www.tweepy.org/) que accede a la API de Twitter. Un posible endpoint sería *https://api.twitter.com/1.1/search/tweets.json* y la función *api.get_user()* permitiriá obtener información de un determinado usuario. 

**Respuesta**

- **Librería [python-countries](https://github.com/leonkozlowski/python-countries):** esta librería accede a la API [restcountries](https://restcountries.eu/), una API para obtener información de países. Un posible endpoint sería https://restcountries.eu/rest/v2/name/aruba, permitiría obtener información de un país concreto, en este caso Aruba, y el código python para hacer la misma petición sería:
```
client = CountriesApi()
client.country_name("aruba")
```
- **Librería [github3.py](https://github3py.readthedocs.io/en/latest/):** esta librería accede a la [API de GitHub](https://docs.github.com/en/free-pro-team@latest/rest/overview), la API oficial para interactuar con GitHub. Un posible endpoint sería https://api.github.com/user/followers, que nos indica los seguidores del usuario, y el código python para hacer la misma petición sería:
```
gh = login('sigmavirus24', password='<password>')
followers = gh.followers()
```
- **Librería [PRAW](https://github.com/praw-dev/praw/):** esta librería accede a la [API de Reddit](https://www.reddit.com/dev/api), la API oficial para interactuar con Reddit. Un posible endpoint sería https://www.reddit.com/r/Python.json, que nos proporciona los últimos posts del subreddit de Python, y el código python para hacer la misma petición sería:
```
subreddit = reddit.subreddit("Python")
```


## Ejercicio 1

Implementad una función que devuelva una lista con el nombre de las personas actualmente en el espacio consultando alguna de las APIs que se detallan en la siguiente [url](http://api.open-notify.org).

**Respuesta**

In [1]:
# Importamos la librería requests y json.
import requests
import json

In [2]:
# Creamos la función.
def get_people_space():
    # Realizamos una petición GET a la API People in Space.
    response = requests.get('http://api.open-notify.org/astros.json')
    # Deserializamos el objeto json.
    dict_response = json.loads(response.text)
    
    # Obtenemos los nombres mediante una list comprehension.
    space_names_list = [person["name"] for person in dict_response["people"]]
    
    return space_names_list

In [3]:
# Ejecutamos la función.
get_people_space()

['Sergey Ryzhikov',
 'Kate Rubins',
 'Sergey Kud-Sverchkov',
 'Mike Hopkins',
 'Victor Glover',
 'Shannon Walker',
 'Soichi Noguchi']

## Ejercicio 2
Queremos saber el número de crímenes violentos que se han producido en Reino Unido en una localización (latitud, longitud) y fecha concretas mediante la seguiente [url](https://data.police.uk/docs/method/crimes-at-location/). Implementad un conjunto de funciones para obtener el número de crimenes producidos en una determinada fecha en una determinada localización. 

- La primera función devolverá la latitud y longitud de una determinada dirección postal mediante la API de geolocalización de [google maps](https://pypi.org/project/googlemaps/1.0.2/). 

- La segunda función devolverá el número de crimenes producidos en una determinada fecha y en una determinada localización (latitud, longitud).  

Usa ambas funciones para obtener el número de crimenes violentos en la dirección **Adelaide St, WC2N 4HZ, London, United Kingdom** en abril del 2018. 

**Nota**: Deberéis registraros a [Google Cloud Platform](https://developers.google.com/maps/documentation/javascript/get-api-key) para obtener las credenciales de la API de googlemaps.

**Respuesta**


In [4]:
# Creamos la función que nos devuelva las coordenadas.
def coords(address):
    payload = {"q": address, "format": "json"}
    # Realizamos una petición GET a la API Nominating de OpenStreetMap.
    response = requests.get('http://nominatim.openstreetmap.org/search', params = payload)
    # Deserializamos el objeto json.
    dict_response = json.loads(response.text)
    
    # Obtenemos la latitud y la longitud.
    try:
        lat = dict_response[0]["lat"]
        lon = dict_response[0]["lon"]
    except:
        print("No se han podido obtener las coordenadas")

    return lat, lon


# Creamos la función que nos devuelva el número de crímenes.
def get_num_crimes(lat, lon, date):
    payload = {"lat": lat, "lng": lon, "date": date}
    # Realizamos una petición GET a la API de la policia de UK.
    response = requests.get('https://data.police.uk/api/crimes-at-location', params = payload)
    # Deserializamos el objeto json.
    dict_response = json.loads(response.text)
    
    # Obtenemos el número de crímenes.
    num_crimes = len(dict_response)
    
    return num_crimes

In [5]:
# Probamos la función que obtiene las coordenadas.
lat, lon = coords("Adelaide St, WC2N 4HZ, London, United Kingdom")

# Guardamos la fecha en una variable.
date = '2018-11'

# Probamos la función que nos devuelve el número de crímenes y guardamos el resultado en una variable para mostrarlo por pantalla.
num_crimes = get_num_crimes(lat, lon, date)
print(f"El número de crímenes en las coordenadas ({lat}, {lon}) a fecha de {date} es de {num_crimes}")

El número de crímenes en las coordenadas (51.5091724, -0.1258542) a fecha de 2018-11 es de 19


## Ejercicio 3

Queremos conocer los nombres más frecuentes de los recién nacidos en Barcelona por sexo entre los años 1996 y 2018. Implementad una función de dos parámetros (id: identificador del recurso, año: año de consulta), que devuelva una lista con el nombre más frecuente para niña y para niño en dicho año.  Usa la función para obtener lo siguiente: 

a) Una lista con el nombre más frecuente de los recién nacidos en Barcelona por sexo para cada uno de los años entre 1996 y 2018 (incluidos). 

b) Crear una lista ordenada de mayor a menor, a partir de la lista obtenida en el apartado a), según el número de veces que dicho nombre ha sido utilizado.


Para realizar el ejercicio consultad el portal de datos abiertos del Ayuntamiento de Barcelona mediante la siguiente [url](https://opendata-ajuntament.barcelona.cat/es/). 

**Nota 1**: Consultad como realizar las consultas mediante la API en [la pestaña de Desarrolladores](https://opendata-ajuntament.barcelona.cat/es/desenvolupadors)

**Nota 2**: Algunos nombres pueden contener espacios.  Deberéis eliminar dicho espacio para realizar el contaje correctamente.


**Respuesta**

In [6]:
# Creamos la función que dado dos parámetros(el id y el año) devuelva una lista con el nombre más popular para niña y para niño
# de dicho año.
def get_popular_names(resource_id, year):
    # Serializamos el filtro para el año y el orden de popularidad como objeto json.
    filter_year = json.dumps({"Any": year, "Ordre": 1})
    # Creamos los parámetros de la petición.
    payload = {"resource_id": resource_id, "filters": filter_year}
    # Realizamos una petición GET a la API Nominating de OpenStreetMap.
    response = requests.get('https://opendata-ajuntament.barcelona.cat/data/api/action/datastore_search', params = payload)
    # Deserializamos el objeto json.
    dict_response = json.loads(response.text)

    # Obtenemos los nombres más populares utilizando una list comprehension.
    popular_names = [name["Nom"] for name in dict_response["result"]["records"]]
    
    return popular_names

In [7]:
# Guardamos en una variable el id del dataset de nombres de bebés.
resource_id = "e1b5dd1f-a88e-43eb-86d1-d3880d9a6718"

In [8]:
# Probamos la función.
get_popular_names(resource_id, 2018)

['EMMA', 'MARC']

In [9]:
# Creamos una variable donde guardar el resultado de los nombres más frecuentes para cada sexo de todos los años requeridos.
names_list_girls = []
names_list_boys = []

# Iteramos sobre los años y agregamos los nombres más populares llamando a la función a la lista anteriormente creada.
for year in range(1996, 2019):
    names_for_year = get_popular_names(resource_id, year)
    names_list_girls.append(names_for_year[0])
    names_list_boys.append(names_for_year[1])
    
# Mostramos el resultado.
print(f"Los nombres más populares de niña entre 1996 y 2018 son: \n {names_list_girls}")
print(f"Los nombres más populares de niño entre 1996 y 2018 son: \n {names_list_boys}")

Los nombres más populares de niña entre 1996 y 2018 son: 
 ['LAURA', 'MARIA', 'MARIA', 'MARIA', 'MARIA', 'MARIA', 'MARIA', 'MARIA', 'MARIA', 'LAIA', 'MARIA', 'LUCIA', 'MARTINA', 'MARTINA', 'MARTINA', 'MARTINA', 'JULIA', 'JULIA', 'LAIA', 'EMMA', 'JULIA', 'JULIA', 'EMMA']
Los nombres más populares de niño entre 1996 y 2018 son: 
 ['MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'POL', 'MARC']


In [10]:
# Importamos la librería pandas.
import pandas as pd

# Convertimos la lista de nombres en una serie y utilizamos la función `value_counts` para ordenar y contar la frecuencia.
pd.Series(names_list_girls).value_counts(sort = True)

MARIA      9
JULIA      4
MARTINA    4
LAIA       2
EMMA       2
LUCIA      1
LAURA      1
dtype: int64

In [11]:
# Convertimos a lista y guardamos el resultado en una variable.
list_popular_names_girls = pd.Series(names_list_girls).value_counts(sort = True).index.tolist()

# Hacemos lo mismo con la lista de nombres de niño.
list_popular_names_boys = pd.Series(names_list_boys).value_counts(sort = True).index.tolist()

# Mostramos ambas listas.
print(f"Los nombres más populares para niña entre 1996 y 2018 ordenados de mayor a menor son: \n {list_popular_names_girls}")
print(f"Los nombres más populares para niño entre 1996 y 2018 ordenados de mayor a menor son: \n {list_popular_names_boys}")

Los nombres más populares para niña entre 1996 y 2018 ordenados de mayor a menor son: 
 ['MARIA', 'JULIA', 'MARTINA', 'LAIA', 'EMMA', 'LUCIA', 'LAURA']
Los nombres más populares para niño entre 1996 y 2018 ordenados de mayor a menor son: 
 ['MARC', 'POL']


## Ejercicio opcional

Programad una función que devuelva la fecha y hora de los 10 próximos pases de la estación espacial internacional ([ISS](http://api.open-notify.org)) sobre la Torre Eiffel  (especificada por su **longitud** y **latitud**). La función debe devolver una lista de 10 elementos, cada uno de los cuales debe ser una cadena de caracteres con la fecha y la hora de los pases.

**Respuesta**

In [12]:
# Importamos la librería datetime para parsear el timestamp.
from datetime import datetime

In [13]:
# Creamos la función para obtener las pasadas de la ISS.
def get_ISS_over_eiffel():
    # Creamos variables con las coordenadas de la Torre Eiffel.
    lat, lon = 48.858296, 2.294479
    # Creamos los parámetros de la petición.
    payload = {"lat": lat, "lon": lon, "n": 10}
    # Realizamos una petición GET a la API International Space Station Pass Times.
    response = requests.get('http://api.open-notify.org/iss-pass.json', params = payload)
    # Deserializamos el objeto json.
    dict_response = json.loads(response.text)
    
    # Obtenemos las fechas y las horas de los momentos en los que pasa la ISS sobre la Torre Eiffel.
    dates_list = [datetime.fromtimestamp(iss_pass["risetime"]).strftime("%d/%m/%Y, %H:%M:%S") for iss_pass in dict_response["response"]]
    
    return dates_list

In [14]:
# Probamos la función con su resultado final.
get_ISS_over_eiffel()

['10/01/2021, 21:47:13',
 '10/01/2021, 23:21:45',
 '11/01/2021, 00:58:20',
 '11/01/2021, 02:35:24',
 '11/01/2021, 04:12:17',
 '11/01/2021, 05:49:23',
 '11/01/2021, 21:00:53',
 '11/01/2021, 22:34:20',
 '12/01/2021, 00:10:35',
 '12/01/2021, 01:47:38']