Adquisición de datos en Python
--------------------------------------


En este Notebook encontraréis dos conjuntos de ejercicios: un primer conjunto de **ejercicios para practicar** y un segundo conjunto de **actividades evaluables** como PRÁCTICAS de la asignatura.

---

## Ejercicios y preguntas teóricas

A continuación, encontraréis los **ejercicios y preguntas teóricas que debéis completar en esta PRA** y que forman parte de la evaluación de esta unidad.

## Pregunta 1

La respuesta recibida después de realizar una petición a una web API http es un objeto que contiene, entre otros, los siguientes atributos: **status.code**, **content** y **headers**.  Describe qué información contiene cada uno de los atributos anteriormente enumerados y pon un ejemplo de cada uno.  Recordad que hay que citar las referencias consultadas para responder la pregunta, y que la respuesta que proporcionéis debe ser original (redactada por vosotros mismos, después de haber leído y entendido las referencias que consideréis oportunas).

**Respuesta**

Normalmente se hace una petición **Get** para obtener tanto información del contenido de una `web` como para realizar una petición a una `API`, esta petición devuelve un objeto **response** que contiene una respuesta.

Es importante comentar que tras realizar la solicitud o la petición, existen varios métodos, y los mismos indicarán de cierta manera lo que haremos con la información obtenida, por ejemplo con el método **Get** leeremos los datos sin realizar modificación alguna, por el contrario al utilizar los métodos **Post** y **Put** podríamos modificar los datos en el servidor.

Ahora bien, este objeto **response** contiene varios atributos: 

**`status.code`** viene representado por una serie de códigos de tres cifras, que nos indican si la solicitud a la `web`o a la `API` se ha completado de manera satisfactoria, las mismas se encuentran agrupadas en cinco clases:

 - Respuestas informativas (100–199)
 - Respuestas satisfactorias (200–299)
 - Redirecciones (300–399)
 - Errores de los clientes (400–499)
 - Errores de los servidores (500–599)

[más información acerca del status.code](https://developer.mozilla.org/es/docs/Web/HTTP/Status)

**`content`** hará referencia al contenido de la respuesta del servidor. En este caso `Request` procederá a decodificar la información que venga del servidor, podremos acceder a la codificación del texto con `r.text` y si quisieramos modificarla podríamos usar la propiedad `r.enconding`, normalmente tanto Http como Xml tienen la habilidad de especificar su codificación en su cuerpo, si quisieramos encontrar la codificación podríamos usar `r.content`y ya luego configurarla con `r.enconding`; Adicionalmente podremos acceder al cuerpo de la respuesta en bytes o si estuvieramos trabajando en formato Json también disponemos de un decodificador, de requerir la respuesta en crudo `r.raw`nos ayudará siempre que en la petición inicial pasemos *stream=True*

[más información acerca de content](https://es.python-requests.org/es/latest/user/quickstart.html#contenido-de-respuesta)

**`headers`** Los encabezados serán de utilidad para que tanto el cliente como el servidor puedan interpretar los datos que se envían y se reciben. Los mismos suelen enviarse junto con la solicitud y aparecerán a su vez en la respuesta recibida.

[más información acerca de headers](https://www.digitalocean.com/community/tutorials/how-to-get-started-with-the-requests-library-in-python-es)


**Ejemplos**: 

        *importr requests*
        x = request.get('https://.....') 
Si quisieramos conocer el estatus en el que se encuentra nuestra solicitud:

        x.status_code
        
Nos informará si existe una respuesta satisfactoria por ejemplo al devolver *200* o en caso de que la solicitud tenga más de una posible respuesta *300* o *404 Not Found* en caso de que el servidor no pudo encontrar el contenido solicitado, entre otros `status`

        x.headers
        
Para consultar los encabezados

        r.content (para acceder al cuerpo de la respueta)
        r.text (para leer el contenido de la respuesta)
        r.enconding (para obtener la codificación de la respuesta)
        r.json() (existe un decodificado de Json incorporadon en Request, si estamos trabajando con un archivo de ese tipo)
        r.raw (para obtener la respuesta en crudo)

        

## Pregunta 2

Enumera tres librerías de Python para acceder a una API y especifica la API a la cual se accede. Para cada una de las librerías anteriormente enumeradas, pon un ejemplo de **endpoint** de la API que permite obtener una determinada información y de la función que permite obtenerla.  Recordad que hay que citar las referencias consultadas para responder la pregunta. 

**Nota**. Un ejemplo sería la librería de Python [Tweepy](http://www.tweepy.org/) que accede a la API de Twitter. Un posible endpoint sería *https://api.twitter.com/1.1/search/tweets.json* y la función *api.get_user()* permitiriá obtener información de un determinado usuario. 

**Respuesta**

 - **spotipy** accede a la API de [Spotify](https://developer.spotify.com/documentation/web-api/libraries/), obtienes acceso completo a todos los datos de música proporcionados por la plataforma. [endpoint](https://spotipy.readthedocs.io/en/2.16.1/) artist_top_tracks(artist_id, country='US') podremos obtener información del catálogo de Spotify sobre las 10 mejores canciones de un artista por país.
 
 - **instagram** accede a la API de [Instagram](https://www.instagram.com/developer/). [endpoint](https://developers.facebook.com/docs/instagram-api/guides) GET /ig_hashtag_search , para obtener un identificador de nodo de hashtag específico.
 - **PyGithub** accede a la API de [GitHub](https://docs.github.com/en/free-pro-team@latest/rest).[endpoint](https://pygithub.readthedocs.io/en/latest/introduction.html)

**Carga de librerías**

In [1]:
import requests
import json
import pandas as pd

## Ejercicio 1

Implementad una función que devuelva una lista con el nombre de las personas actualmente en el espacio consultando alguna de las APIs que se detallan en la siguiente [url](http://api.open-notify.org).

**Respuesta**

In [2]:
# Definimos una función en donde lanzamos el Get para obtener la información del contenido de la web
# el mismo devolvera un objeto response que devuelve una respuesta
def edo_resp_api():
    response = requests.get('http://api.open-notify.org/')
# Si el código es igual a 200 entonces la solicitud se ha completado de manera satisfactoria
    try:
        response.status_code == 200
        print (u"El código de estado de la respuesta es: ",response.status_code, "\n")   
    except requests.ConnectionError:
        #En el caso de un problema de red (falla de DNS, conexión rechazada, etc), Requests levantará una excepción tipo ConnectionError.
        print("No se pudo establecer la conexión")
edo_resp_api()

El código de estado de la respuesta es:  200 



In [3]:
def info_print(url):
    # Obtenemos información de la Web:
    pax_space = requests.get(url)
    #las requests tienen un metodo de decodificación Json
    pax_space = pax_space.json()
    # Observamos los datos almacenados en pax_space:
    print(f"Datos obtenidos: {pax_space}")
    # Podemos acceder al numero de personas en el espacio con la clave number
    print(f"\nActualmente hay en el espacio {pax_space['number']} personas")
    # para obtener el nombre debemos hace un loop que recorra 'people' y así obtener la variable nombre
    print("A continuación sus nombres:")
    for astros in pax_space['people']:
        print(astros['name'])
        
info_print('http://api.open-notify.org/astros.json')

Datos obtenidos: {'message': 'success', 'number': 7, 'people': [{'craft': 'ISS', 'name': 'Sergey Ryzhikov'}, {'craft': 'ISS', 'name': 'Kate Rubins'}, {'craft': 'ISS', 'name': 'Sergey Kud-Sverchkov'}, {'craft': 'ISS', 'name': 'Mike Hopkins'}, {'craft': 'ISS', 'name': 'Victor Glover'}, {'craft': 'ISS', 'name': 'Shannon Walker'}, {'craft': 'ISS', 'name': 'Soichi Noguchi'}]}

Actualmente hay en el espacio 7 personas
A continuación sus nombres:
Sergey Ryzhikov
Kate Rubins
Sergey Kud-Sverchkov
Mike Hopkins
Victor Glover
Shannon Walker
Soichi Noguchi


## Ejercicio 2
Queremos saber el número de crímenes violentos que se han producido en Reino Unido en una localización (latitud, longitud) y fecha concretas mediante la seguiente [url](https://data.police.uk/docs/method/crimes-at-location/). Implementad un conjunto de funciones para obtener el número de crimenes producidos en una determinada fecha en una determinada localización. 

- La primera función devolverá la latitud y longitud de una determinada dirección postal mediante la API de geolocalización de [google maps](https://pypi.org/project/googlemaps/1.0.2/). 

- La segunda función devolverá el número de crimenes producidos en una determinada fecha y en una determinada localización (latitud, longitud).  

Usa ambas funciones para obtener el número de crimenes violentos en la dirección **Adelaide St, WC2N 4HZ, London, United Kingdom** en abril del 2018. 

**Nota**: Deberéis registraros a [Google Cloud Platform](https://developers.google.com/maps/documentation/javascript/get-api-key) para obtener las credenciales de la API de googlemaps.

**Respuesta**


In [4]:
from geopy.geocoders import Nominatim

# Función con la cual podremos obtener la geolocalizacion de la dirección que ingresemos 
def search_coords(address):
    geolocator = Nominatim(user_agent="test")
    # nos devolverá la dirección exacta
    loc = geolocator.geocode(address)
    # pedimos que nos devuelva la latitud y longitud
    return(loc.latitude, loc.longitude)
search_coords('Adelaide St, WC2N 4HZ, London, United Kingdom')

(51.5091724, -0.1258542)

In [5]:
# Método 1:
# Utilizaremos la función presentada anteriormente para obtener las coordenadas,

# La función deberá devolver el numero de crímenes cometidos en una fecha y dirección determinada
def get_number_of_crimes(address):
    # Obtendremos en primer lugar latitud y longitud de la dirección
    lat = search_coords(address)[0]
    lng = search_coords(address)[1]
    # Añadimos los parámetros anyo y mes 
    anyo, mes = input(f'Introduce el año y el mes "yyyy-mm" a consultar: ').split("-")
    # Obtenemos la url para realizar el requests   
    url = ("https://data.police.uk/api/crimes-at-location?date={}-{}&lat={}&lng={}").format(anyo,mes,lat,lng)
    r = requests.get(url)
    info_crimenes = r.json() # formato json
    # realizamos la cuenta:
    count = 0
    for element in info_crimenes:
        count += 1
    return count

print("El numero de crimenes cometidos es : ", get_number_of_crimes('Adelaide St, WC2N 4HZ, London, United Kingdom'))


Introduce el año y el mes "yyyy-mm" a consultar: 2018-04
El numero de crimenes cometidos es :  23


In [6]:
# Método 2:
# Pasamos los parámetros directamente en la url

def get_number_of_crimes2(address):
    parametros = {'date': '2018-04', 'lat': '51.5091724', 'lng': '-0.1258542'}
    url = ('https://data.police.uk/api/crimes-at-location')
    r1 = requests.get(url,params=parametros)
    print("Todo marcha bien?", r1.ok)
    info1 = r1.json()
    count = 0
    for element in info1:
        count += 1
    return count

print("El numero de crimenes cometidos es : ", get_number_of_crimes2('Adelaide St, WC2N 4HZ, London, United Kingdom'))


Todo marcha bien? True
El numero de crimenes cometidos es :  23


## Ejercicio 3

Queremos conocer los nombres más frecuentes de los recién nacidos en Barcelona por sexo entre los años 1996 y 2018. Implementad una función de dos parámetros (id: identificador del recurso, año: año de consulta), que devuelva una lista con el nombre más frecuente para niña y para niño en dicho año.  Usa la función para obtener lo siguiente: 

a) Una lista con el nombre más frecuente de los recién nacidos en Barcelona por sexo para cada uno de los años entre 1996 y 2018 (incluidos). 

b) Crear una lista ordenada de mayor a menor, a partir de la lista obtenida en el apartado a), según el número de veces que dicho nombre ha sido utilizado.


Para realizar el ejercicio consultad el portal de datos abiertos del Ayuntamiento de Barcelona mediante la siguiente [url](https://opendata-ajuntament.barcelona.cat/es/). 

**Nota 1**: Consultad como realizar las consultas mediante la API en [la pestaña de Desarrolladores](https://opendata-ajuntament.barcelona.cat/es/desenvolupadors)

**Nota 2**: Algunos nombres pueden contener espacios.  Deberéis eliminar dicho espacio para realizar el contaje correctamente.


**Respuesta**

En primer lugar consulto la sección de [desarrolladores](https://opendata-ajuntament.barcelona.cat/es/desenvolupadors#221) para conocer como acceder a la data

En **APIs de gestión del catálogo** nos indican lo siguiente 
" Se trata de la API que ofrece la tecnología CKAN para gestionar el catálogo de datasets. Se puede acceder a esta API a través de la URL https://opendata-ajuntament.barcelona.cat/data/api/action/ a la que se ha de añadir el nombre del método al que queremos acceder."

El método con el cual accederemos a la data es: 

**"datastore_search: devuelve la información de cada recurso.**"

Para poder realizar una consulta sobre un recurso concreto, lo primero que debemos hacer es definir como parámetro de la consulta el *ID* del recurso


In [7]:
# Nombres mas frecuentes recien nacidos en Barcelona por sexo entre 1996 y 2018
# dos parametros (id: identificador del recurso, año: año de consulta)

def nombres_mas_frecuentes(id_recurso, anyo):
    id_recurso = id_recurso
    r = requests.get(f'https://opendata-ajuntament.barcelona.cat/data/api/action/datastore_search?resource_id={id_recurso}&q=Any:{anyo}')
    info_nombres = r.json()
    # Eliminación espacios en blanco
    info_nombres = {k.strip(" "): v for (k, v) in info_nombres.items()}
    #print(info_nombres['result']['records'])
    Nombres = []
    for i in info_nombres['result']['records']:
        # Deberían ser Marc y Emma
        if i['Ordre'] == '1':
            Nombres.append(i['Nom'])
    return Nombres
    
nombres_mas_frecuentes('e1b5dd1f-a88e-43eb-86d1-d3880d9a6718','2018')

['EMMA', 'MARC']

In [8]:
# a) Una lista con el nombre más frecuente de los recién nacidos en Barcelona por sexo 
#    para cada uno de los años entre 1996 y 2018 (incluidos)

# creamos una lista vacías para cada sexo 
Dona=[]
Home=[]
id_recurso = 'e1b5dd1f-a88e-43eb-86d1-d3880d9a6718'
for i in range(1996,2019):
    #recogere los nombres de mujeres mas populares por anyo (primera posicion)
    nombres_dona = nombres_mas_frecuentes(id_recurso,i)[0]
    # los anexo a mi lista vacía
    Dona.append(nombres_dona)
    #recogere los nombres de hombres mas populares por anyo
    nombres_home = nombres_mas_frecuentes(id_recurso,i)[1]
    # los anexo a mi lista vacía
    Home.append(nombres_home)

print(Dona)

print(Home)

['LAURA', 'MARIA', 'MARIA', 'MARIA', 'MARIA', 'MARIA', 'MARIA', 'MARIA', 'MARIA', 'LAIA', 'MARIA', 'LUCIA', 'MARTINA', 'MARTINA', 'MARTINA', 'MARTINA', 'JULIA', 'JULIA', 'LAIA', 'EMMA', 'JULIA', 'JULIA', 'EMMA']
['MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'MARC', 'POL', 'MARC']


In [9]:

dict_n = {'Done': pd.Series(Dona), 
         'Home': pd.Series(Home)}
# trabajamos con un diccionario y creamos un DF con la info contenida en el
df_n = pd.DataFrame(dict_n)
# Observamos los valores contenidos en cada una de las columnas
print(df_n['Done'].value_counts())
print(df_n['Home'].value_counts())

# Convertimos en lista los valores contenidos en el DF
Lista_Done = df_n['Done'].values.tolist()
Lista_Home = df_n['Home'].values.tolist()

MARIA      9
MARTINA    4
JULIA      4
LAIA       2
EMMA       2
LUCIA      1
LAURA      1
Name: Done, dtype: int64
MARC    22
POL      1
Name: Home, dtype: int64


## Ejercicio opcional

Programad una función que devuelva la fecha y hora de los 10 próximos pases de la estación espacial internacional ([ISS](http://api.open-notify.org)) sobre la Torre Eiffel  (especificada por su **longitud** y **latitud**). La función debe devolver una lista de 10 elementos, cada uno de los cuales debe ser una cadena de caracteres con la fecha y la hora de los pases.

**Respuesta**

In [10]:
from datetime import datetime

#def jprint(obj):
    # create a formatted string of the Python JSON object
    #text = json.dumps(obj, sort_keys=True, indent=4)
    #print(text)

def pases_iss(place):
    # Obtendremos en primer lugar latitud y longitud de la dirección
    lat = search_coords(place)[0]
    lng = search_coords(place)[1]
    parametros2 = {'lat': lat,
                   'lon': lng,
                  'n': 10}
    respuesta = requests.get("http://api.open-notify.org/iss-pass.json", params= parametros2)
    # Reviso si la url es correcta, tras haber indicado los parámetros
    print("Url: {}".format(respuesta.url))
    info_pases = respuesta.json()['response']
    #print(info_pases)
    # creamos una lista vacía en la cual almacenaremos los valores contenidos en 'risetime'
    # estos datos vienen en formato EPOCH es decir las fechas del ordenador vienen expresadas
    # en un valor numérico expresado en segundos
    risetimes = []
    for pases in info_pases:
        tiempo = pases['risetime']
        risetimes.append(tiempo)
        #print(risetimes)
    # vamos a transformar dichos valores (segundos) con 'fromtimestamp' de la librería 'datetime'
    tiempos = []
    for i in risetimes:
        tiempo = datetime.fromtimestamp(i)
        tiempos.append(tiempo)
        print(tiempo)
        
pases_iss('Torre Eiffel')    

Url: http://api.open-notify.org/iss-pass.json?lat=48.858260200000004&lon=2.2944990543196795&n=10
2021-01-15 19:26:52
2021-01-15 21:00:17
2021-01-15 22:36:31
2021-01-16 00:13:34
2021-01-16 01:50:30
2021-01-16 03:27:26
2021-01-16 05:06:47
2021-01-16 20:13:00
2021-01-16 21:48:48
2021-01-16 23:25:46
