# Extracción de datos desde APIs con Python


## Conceptos básicos de APIs REST y consumo de APIs en Python

### ¿Qué son las API?

- Son un conjuntos de reglas y protocolos que permiten a diferentes aplicaciones comunicarse entre sí. 
- Se utilizan para acceder a datos de servicios web, aplicaciones en la nube, redes sociales, entre otros. 
- Proporcionan una forma estructurada y segura de obtener datos de sistemas externos.

![API](../Images/API.png)

## Extracción de datos JSON desde APIs públicas y privadas

![API_Spotify](../Images/API_Spotify.png)

In [2]:
import pandas as pd
import os
import json
import requests
import re
import base64

In [11]:
# Ruta al archivo de credenciales
path = os.getcwd()
path_credenciales = os.path.join(path, 'secretos', 'credentials_spoty.json')

# Cargar credenciales
with open(path_credenciales) as f:
    credenciales = json.load(f)
    client_id = credenciales['client_id']
    client_secret = credenciales['client_secret']

# Codificar client_id y client_secret en base64
auth_str = f"{client_id}:{client_secret}"
b64_auth_str = base64.b64encode(auth_str.encode()).decode()

# Headers con autenticación
headers = {
    "Authorization": f"Basic {b64_auth_str}",
    "Content-Type": "application/x-www-form-urlencoded"
}

# Cuerpo de la solicitud
data = {
    "grant_type": "client_credentials"
}

# Solicitar el token
token_url = "https://accounts.spotify.com/api/token"
response = requests.post(token_url, headers=headers, data=data)


NameError: name 'base64' is not defined

In [6]:
id_track = '2plbrEY59IikOBgBGLjaoe'
url = f'https://api.spotify.com/v1/audio-features/{id_track}'
headers = {
    'Authorization': f'Bearer {token}'
}
response = requests.get(url, headers=headers)
response.json()

{'danceability': 0.521,
 'energy': 0.592,
 'key': 6,
 'loudness': -7.777,
 'mode': 0,
 'speechiness': 0.0304,
 'acousticness': 0.308,
 'instrumentalness': 0,
 'liveness': 0.122,
 'valence': 0.535,
 'tempo': 157.969,
 'type': 'audio_features',
 'id': '2plbrEY59IikOBgBGLjaoe',
 'uri': 'spotify:track:2plbrEY59IikOBgBGLjaoe',
 'track_href': 'https://api.spotify.com/v1/tracks/2plbrEY59IikOBgBGLjaoe',
 'analysis_url': 'https://api.spotify.com/v1/audio-analysis/2plbrEY59IikOBgBGLjaoe',
 'duration_ms': 251668,
 'time_signature': 3}

Consumo de la API de [mockaroo](https://www.mockaroo.com/), que es una herramienta que permite generar datos de prueba en diferentes formatos, como JSON, CSV, SQL y Excel.

In [7]:
import requests
headers = {'X-Api-Key': 'd67d54e0'}
response = requests.get('https://my.api.mockaroo.com/mkt_data_cf.json', headers=headers)

In [8]:
response.json()

[{'Fecha': '3/13/2020',
  'Nombre de la Campaña': 'Mr',
  'Region': 'North America',
  'Clicks': 5623,
  'Impresiones': 4025,
  'Views': 100469,
  'Costo': 714},
 {'Fecha': '6/19/2021',
  'Nombre de la Campaña': 'Ms',
  'Region': 'North America',
  'Clicks': 5329,
  'Impresiones': 68244,
  'Views': 928762,
  'Costo': 669},
 {'Fecha': '5/12/2021',
  'Nombre de la Campaña': 'Mr',
  'Region': 'Australia',
  'Clicks': 5621,
  'Impresiones': 5431,
  'Views': 349944,
  'Costo': 902},
 {'Fecha': '6/20/2021',
  'Nombre de la Campaña': 'Dr',
  'Region': 'North America',
  'Clicks': 577,
  'Impresiones': 40423,
  'Views': 91480,
  'Costo': 258},
 {'Fecha': '4/20/2022',
  'Nombre de la Campaña': 'Rev',
  'Region': 'South America',
  'Clicks': 3126,
  'Impresiones': 58381,
  'Views': 219647,
  'Costo': 884},
 {'Fecha': '12/13/2021',
  'Nombre de la Campaña': 'Mrs',
  'Region': 'Australia',
  'Clicks': 8938,
  'Impresiones': 81797,
  'Views': 26307,
  'Costo': 148},
 {'Fecha': '10/9/2022',
  'Nombr

### Pandas JSON

In [9]:
import pandas as pd
from io import StringIO

In [10]:
pd.read_json(StringIO(response.text))

Unnamed: 0,Fecha,Nombre de la Campaña,Region,Clicks,Impresiones,Views,Costo
0,3/13/2020,Mr,North America,5623,4025,100469,714
1,6/19/2021,Ms,North America,5329,68244,928762,669
2,5/12/2021,Mr,Australia,5621,5431,349944,902
3,6/20/2021,Dr,North America,577,40423,91480,258
4,4/20/2022,Rev,South America,3126,58381,219647,884
...,...,...,...,...,...,...,...
995,10/10/2022,Honorable,Europe,4971,82386,463436,157
996,6/27/2022,Honorable,Africa,5448,65640,566439,188
997,3/10/2020,Rev,Asia,3005,10517,178341,877
998,10/15/2020,Dr,Africa,6996,14227,277577,553


In [11]:
path_data = os.path.join(os.getcwd(), 'data')

ejemplo1 = os.path.join(path_data, 'ejemplo1.json')
ejemplo2 = os.path.join(path_data, 'ejemplo2.json')
ejemplo3 = os.path.join(path_data, 'ejemplo3.json')

#### Ejemplo 1

In [12]:
pd.read_json(ejemplo1)

Unnamed: 0,nombre,productos
0,Tienda de Electrónica,"{'nombre_prod': 'Laptop', 'precio': 800, 'marc..."
1,Tienda de Electrónica,"{'nombre_prod': 'Teléfono', 'precio': 500, 'ma..."


#### json_normalize

**¿Qué hace `pd.json_normalize`?**

En esencia, esta función de Pandas toma datos JSON potencialmente complejos y anidados, y los transforma en un DataFrame plano y estructurado, que es mucho más fácil de manipular y analizar.

**Desglose de los parámetros:**

* `data`: Este es el JSON que contiene tus datos.

* `record_path='productos'`: Aquí le estás diciendo a Pandas: "Dentro de mi diccionario `data`, busca una lista llamada 'productos'. Cada elemento dentro de esa lista representa una fila en mi DataFrame final".

* `meta=['nombre']`:  Con esto indicas: "Además de los datos dentro de 'productos', quiero incluir una columna adicional llamada 'nombre' en mi DataFrame. El valor de esta columna será el valor asociado a la clave 'nombre' en el nivel superior de mi diccionario `data`".  En nuestro ejemplo, esto significa que cada fila tendrá el nombre de la tienda ("Tienda de Electrónica") junto con los detalles del producto.


In [13]:
data = json.load(open(ejemplo1))
pd.json_normalize(
    data,
    record_path='productos',
    meta=['nombre']
)

Unnamed: 0,nombre_prod,precio,marca,nombre
0,Laptop,800,Marca A,Tienda de Electrónica
1,Teléfono,500,Marca B,Tienda de Electrónica


#### Ejemplo 2

In [14]:
pd.read_json(ejemplo2)

Unnamed: 0,usuario
compras,"[{'producto': 'Libro', 'precio': 20, 'fecha': ..."
direcciones,"[{'calle': 'Calle Principal 123', 'ciudad': 'C..."
edad,30
nombre,Juan


In [15]:
data2 = json.load(open(ejemplo2))
pd.json_normalize(
    data2
)

Unnamed: 0,usuario.nombre,usuario.edad,usuario.direcciones,usuario.compras
0,Juan,30,"[{'calle': 'Calle Principal 123', 'ciudad': 'C...","[{'producto': 'Libro', 'precio': 20, 'fecha': ..."


In [18]:
pd.json_normalize(
    data2['usuario'],
    record_path=['direcciones'],
    meta=['nombre', 'edad',]
)

Unnamed: 0,calle,ciudad,id,nombre,edad
0,Calle Principal 123,Ciudad A,1,Juan,30
1,Avenida Secundaria 456,Ciudad B,2,Juan,30


In [19]:
pd.json_normalize(
        data2['usuario'],
    record_path=['compras'],
    meta=['nombre', 'edad',]
)

Unnamed: 0,producto,precio,fecha,id,nombre,edad
0,Libro,20,2020-01-01,1,Juan,30
1,Película,15,2020-01-02,2,Juan,30


#### Ejemplo 3

In [20]:
pd.read_json(ejemplo3)

Unnamed: 0,escuela
grados,"[{'nombre': 'Primer Grado', 'alumnos': [{'nomb..."
nombre,Escuela Primaria


In [21]:
data3 = json.load(open(ejemplo3))
pd.json_normalize(
    data3
)

Unnamed: 0,escuela.nombre,escuela.grados
0,Escuela Primaria,"[{'nombre': 'Primer Grado', 'alumnos': [{'nomb..."


In [22]:
pd.json_normalize(
    data3['escuela']['grados'],
    record_path='alumnos',
    meta=['nombre'],
    meta_prefix='grado_'
)

Unnamed: 0,nombre,edad,grado_nombre
0,Ana,6,Primer Grado
1,Pedro,7,Primer Grado
2,María,7,Segundo Grado
3,Luis,8,Segundo Grado
