# APIs, automatización y concatenación de DataFrames


## **APIs**

Hoy vamos a aprender a adquirir datos de una manera que difiere mucho de las que hemos visto hasta ahora. No vamos a obtener los datos directamente de un archivo que descargamos o que obtenemos directamente de alguien más, sino que vamos a usar una API para obtener nuestros datos programáticamente y convertirlos en un DataFrame que podamos utilizar.

Para hacer una petición a una API, tenemos que tomar en cuenta las siguientes cosas:

* URL: la "dirección" a donde vamos a realizar nuestra petición
* Verbo HTTP: El tipo de acción que vamos a realizar (i.e. GET, POST, PUT, PATCH, DELETE, etc.)
* Parámetros: Valores que agregamos a nuestra petición para enviar información relevante a la API (datos de acceso, filtros, etc)
* Estatus de la respuesta: Un código que nos dice si nuestra petición fue realizada exitosamente o no (i.e. 200, 201, 400, 404, 500, etc.)
* Cuerpo de la respuesta: Los datos que nos fueron enviados de regreso al finalizar la petición.

In [None]:
!pip install requests

In [None]:
import requests
import pandas as pd

Vamos a hacer peticiones a una api de la NASA que ofrece datos sobre objetos que orbitan cerca de la Tierra. Pueden ver la documentación [aquí](https://api.nasa.gov/). Ahí podemos ver los endpoints y la manera en la que se usa la Api Key. Ve a la página y consigue tu propia Api Key para que puedas realizar los ejercicios.

Ahora, para empezar, necesitamos nuestro endpoint y nuestro diccionario de parámetros.

In [None]:
endpoint = 'https://api.nasa.gov/neo/rest/v1/neo/browse/'
payload = {'api_key': 'tu_api_key_va_aqui'}

Ambos se los pasamos al método GET de requests para realizar la petición a ese endpoint y enviar los parámetros como información extra que el API necesita para validar nuestra petición:

In [None]:
r = requests.get(endpoint, params=payload)


Ahora, podemos leer lo siguiente de nuestro objeto de respuesta:



In [None]:
r.status_code


In [None]:
r.json()

In [None]:
json = r.json()


In [None]:
json.keys()


In [None]:
json['links']


In [None]:
json['page']


In [None]:
data = json['near_earth_objects']


In [None]:
data[0]


In [None]:
json['page']


In [None]:
data = json['near_earth_objects']


In [None]:
normalized = pd.json_normalize(data)

df = pd.DataFrame.from_dict(normalized)

df.head()

¡Listo! Ahora tenemos un DataFrame con los datos de nuestra primera petición. En esta sesión vamos a aprender a automatizar este proceso. Pero antes, practiquemos un poco el uso de la librería requests.

**EJEMPLO 2**

In [None]:
respuesta = requests.get('https://api.stackexchange.com/2.3/questions?order=desc&sort=activity&site=stackoverflow')

In [None]:
respuesta.status_code

200

In [None]:
json = respuesta.json()

In [None]:
json

In [None]:
json['items'][0]

{'tags': ['visual-studio-code', 'python-3.7'],
 'owner': {'account_id': 14200891,
  'reputation': 9,
  'user_id': 10258829,
  'user_type': 'registered',
  'profile_image': 'https://www.gravatar.com/avatar/10c61e8a0f17b6270edbbeed797f7156?s=256&d=identicon&r=PG&f=1',
  'display_name': 'hit701',
  'link': 'https://stackoverflow.com/users/10258829/hit701'},
 'is_answered': False,
 'view_count': 21,
 'answer_count': 0,
 'score': 0,
 'last_activity_date': 1667848373,
 'creation_date': 1667813796,
 'last_edit_date': 1667848373,
 'question_id': 74344482,
 'content_license': 'CC BY-SA 4.0',
 'link': 'https://stackoverflow.com/questions/74344482/finddecoder-imread-cat-jpg-cant-open-read-file-check-file-path-integrity',
 'title': 'findDecoder imread_(&#39;cat.jpg&#39;): can&#39;t open/read file: check file path/integrity'}

In [None]:
for data in json['items']:
  print(data)

In [None]:
for data in json['items']:
  print(data['link'])
  print(data['title'])
  print()

In [None]:
for data in json['items']:
  if data['answer_count']== 0 :
    print(data['link'])
    print(data['title'])
    print()
  else:
    print("No nos interesa por el momento")

## TRY EXCEPT

Cuando automatizamos cosas, no queremos tener que estar revisando todo el proceso continuamente. Si tuviéramos que hacer eso, el proceso no estaría muy automatizado que digamos. Durante la ejecución de nuestro programa pueden suceder errores que hagan que nuestro programa deje de correr.

Para evitar que estos errores detengan nuestro programa, podemos usar estructuras try except para indicarle a Python qué hacer cuando un error suceda:

In [None]:
lista_1 = [1, 2, 3, 4, 5]

lista_1[10]

In [None]:
dict_1 = {
    'a': 1,
    'b': 2,
    'c': 3,
    'd': 4
}

dict_1['z']

In [None]:
int("Holi")

In [None]:
lista_2 = [1, 2, 3, 4, 5]

try:
    print(lista_2[10])
except:
    print("Ese numero esta fuera de rango")
    print("Mejor leamos este número")
    print(lista_2[2])

In [None]:
dict_2 = {
    'a': 1,
    'b': 2,
    'c': 3,
    'd': 4
}

try:
    print(dict_2['z'])
except:
    print("Esa llave no existe")
    print("Mejor leamos esta llave")
    print(dict_2['b'])

In [None]:
try:
    print(int("Holi"))
except:
    print("Ese no es un número")
    print("Mejor vamos a imprimirlo convirtiéndolo en una lista")
    print(list("Holi"))

In [4]:
def division(x, y):
    try:
        # Floor Division : Gives only Fractional Part as Answer
        result = x / y
        print("El resultado de tu divisón es ", result)
    except ZeroDivisionError:
        print("No existe la divisón entre 0 ")
 
# Look at parameters and note the working of Program
division(3, 0)

No existe la divisón entre 0 


## Concatenación de Series



Cuando obtenemos nuestros datos en "cachitos", como cuando hacemos peticiones a una API, necesitamos luego unir todos nuestros datos en un solo DataFrame. Para eso podemos usar la función pd.concat de pandas. Primero vamos a aprender los principios básicos usando Series, para luego poder aplicar esos mismos principios a los DataFrames.

In [None]:
import pandas as pd


In [None]:
serie_1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
serie_2 = pd.Series([4, 5, 6], index=['d', 'f', 'e'])

In [None]:
pd.concat([serie_1, serie_2], axis=0)


También podemos concatenar horizontalmente:



In [None]:
pd.concat([serie_1, serie_2], axis=1)


Podemos nombrar nuestras columnas para saber cuál era cuál:



In [None]:
pd.concat([serie_1, serie_2], axis=1, keys=['serie_1', 'serie_2'])


Esto pasa si concatenamos horizontalmente usando el mismo índice:



In [None]:
serie_3 = pd.Series([7, 8, 9], index=['a', 'b', 'c'])

pd.concat([serie_1, serie_3], axis=1, keys=['serie_1', 'serie_3'])

Si concatenamos verticalmente dos Series que comparten el índice, tenemos el problema de no poder diferenciar los índices:



In [None]:
pd.concat([serie_1, serie_3], axis=0)


A veces queremos esto, pero cuando no, podemos agregar un segundo nivel de índice para hacer la diferencia:



In [None]:
pd.concat([serie_1, serie_3], axis=0, keys=['serie_1', 'serie_3'])


Esto se llama un Multiíndice. Podemos acceder a un multiíndice en un solo nivel o en ambos:



In [None]:
series_concat = pd.concat([serie_1, serie_3], axis=0, keys=['serie_1', 'serie_3'])


In [None]:
series_concat.loc['serie_1']


In [None]:
series_concat.loc[('serie_1', 'b')]


## Concatenación de DataFrames

Los mismos principios de concatenación aplican tanto a Series como a DataFrames. Vamos a verlos en acción y realizar una práctica para que nos quede todo súper claro.

In [None]:
data_1 = {
    'column_1': [1, 2, 3],
    'column_2': [4, 5, 6]
}

df_1 = pd.DataFrame(data_1, index=['a', 'b', 'c'])

df_1

In [None]:
data_2 = {
    'column_1': [7, 8, 9],
    'column_2': [10, 11, 12]
}

df_2 = pd.DataFrame(data_1, index=['d', 'e', 'f'])

df_2

In [None]:
pd.concat([df_1, df_2], axis=0)


In [None]:
pd.concat([df_1, df_2], axis=1)


In [None]:
data_3 = {
    'column_3': [7, 8, 9],
    'column_4': [10, 11, 12]
}

df_3 = pd.DataFrame(data_3, index=['a', 'b', 'c'])

df_3

In [None]:
pd.concat([df_1, df_3], axis=1)


Si concatenamos verticalmente con el mismo índice, no podemos diferenciarlos:



In [None]:
data_4 = {
    'column_1': [7, 8, 9],
    'column_2': [10, 11, 12]
}

df_4 = pd.DataFrame(data_4, index=['a', 'b', 'c'])

df_4

In [None]:
pd.concat([df_1, df_4], axis=0)


In [None]:
df_concat = pd.concat([df_1, df_4], axis=0, keys=['df_1', 'df_4'])

df_concat

In [None]:
df_concat.loc['df_1']


In [None]:
df_concat.loc[('df_1', 'b')]


## Automatizando peticiones

In [None]:
import pandas as pd
import requests
import time

Veamos cómo usar todo lo que aprendimos para automatizar el proceso de realizar múltiples peticiones a la API, reunirlas en un DataFrame

In [None]:
endpoint = 'https://api.nasa.gov/neo/rest/v1/neo/browse/'
payload = {'api_key': 'tu_api_key_va_aqui'}

In [None]:
dict_datos = {}

for i in range(0, 10):
    
    try:
        time.sleep(5)
        r = requests.get(endpoint, params=payload, timeout=5)

        if r.status_code == 200:
            json = r.json()

            data = json['near_earth_objects']
            dict_datos[i] = data

            new_link = json['links']['next']
            endpoint = new_link
    except:
        continue

In [None]:
for key in dict_datos:
    normalized = pd.json_normalize(dict_datos[key])
    df = pd.DataFrame.from_dict(normalized)
    dict_datos[key] = df

In [None]:
lista_de_dataframes = []

for key in dict_datos:
    lista_de_dataframes.append(dict_datos[key])

In [None]:
df_completo = pd.concat(lista_de_dataframes, axis=0).reset_index(drop=True)


In [None]:
df_completo
