# Tutorial - Big Data
## Tutorial 2

- Conocer qué son y cómo trabajar con APIs

¿Qué es una API? Los sistemas tienen distintos tipos de interfaces que permiten interactuar con ellos.

* **GUI (Graphical User Interface o interfaz gráfica)**: El usuario clickea e interactúa con distintos objetos para ejecutar acciones y lograr sus objetivos. Las páginas web tienen interfaces gráficas.
* **API (Application Programming Interface o interfaz de programación)**: El usuario escribe líneas de código para interactuar con el sistema, ejecutar acciones y lograr sus objetivos.

Todos los sitios web tienen una interfaz gráfica con la que estamos acostumbrados a interactuar, y también tienen una interfaz de programación más o menos desarrollada, o más o menos expuesta, con la cual tal vez no estemos tan acostumbrados a interactuar.

Ejemplo:

En https://finance.yahoo.com/ podemos escribir en el buscador el identificador de alguna acción, como por ejemplo TESLA, apretar "Enter" y el sistema devuelve una página con el resultado de la búsqueda. Si, en cambio, escribimos otra acción y apretamos "Enter" de nuevo, cambiará el resultado de la búsqueda. Esta es la **interfaz gráfica del sitio**.

En algunos casos, también podríamos lograr el mismo objetivo sólo escribiendo distintas URLs en el navegador:

* https://finance.yahoo.com/quote/TSLA/
* https://finance.yahoo.com/compare/TSLA?comps=AAPL

Esto es más parecido a lo que llamaríamos una **interfaz de programación**.


Las APIs son mecanismos que permiten que una aplicación o servicio acceda a un recurso en otra aplicación o servicio (un cliente accede a recurso en un servidor).

En la web, las interfaces de programación de uso más difundido son las APIs REST ([Representational state transfer](https://es.wikipedia.org/wiki/Transferencia_de_Estado_Representacional)). REST es un estilo para diseñar aplicaciones que especifica un conjunto de protocolos y métodos para interactuar con los recursos de internet escribiendo líneas de código.

Estas APIs se comunican mediante el protocolo HTTP para interactuar con los recursos (es el medio de comunicación comunicación entre el usuario y el servidor). HTTP es el mismo protocolo que se utiliza para cargar páginas web en un navegador.
Este protocolo indica cómo estructurar un mensaje de texto que describa la petición (**request**) del usuario o cliente a un servidor. Hay distintos tipos de peticiones que un usuario puede realizar, algunas de ellas son:

* **POST**: Envía datos al servidor para crear un recurso nuevo.
* **GET**: Se utiliza para obtener información de un recurso alojado en el servidor.
* **PUT**: Actualiza (crea o modifica) un recurso del servidor.
* **DELETE**: Elimina un recurso del servidor.

El cliente manda una petición (**request**) y el servidor devuelve una respuesta (**response**).

<font color="gray">
Fuente: Curso de Instituto Humai - APIs
<font>

Cada vez que vamos al navegador y escribimos la dirección de una página web, **estamos haciendo un GET request** a un servidor. Esto es una petición para adquirir el código de un recurso que queremos visualizar en el navegador.

La URL es la parte más importante de la definición de un GET request (aunque el navegador agrega otras cosas también, que no vemos) y nos permite cambiar la representación deseada de un mismo recurso de distintas maneras:

* https://finance.yahoo.com/quote/TSLA/ pide al servidor el valor de Tesla.
* https://finance.yahoo.com/compare/TSLA?comps=AAPL pide al servidor la comparación entre Tesla y Apple.

Cuando escribimos una URL en un navegador, la mayoría de las veces hacemos GET requests que devuelven código HTML (el código que da una estructura a una página web, tal como vimos en el video anterior cuando obteníamos el código HTML al hacer web scraping). Pero los GET requests pueden devolver datos en otros formatos (por ejemplo en JSON y en CSV).

Las APIs REST que definen GET requests capaces de devolver datos en formato JSON y CSV, son particularmente útiles cuando queremos analizar datos.

Ahora vamos a conocer algunas APIs.

### Vamos a usar la API de Yahoo Finance

En particular, vamos a:
- ver los resultados de una búsqueda
- obtener la cotización y moneda de la acción

Nota: La API no está desarrollada por Yahoo, pero es útil

In [1]:
import requests
from urllib.parse import quote_plus

#### Obtener valores desde la API

- https://query1.finance.yahoo.com/v1/finance/search?q=BUSCAR

Con el parámetro “q” especificamos el ticker de la acción que nos interesa.


In [7]:
# Así se ve la búsqueda en el navegador:
# https://finance.yahoo.com/quote/TSLA/

# Al usar la API tenemos que seguir este formato:
# https://query1.finance.yahoo.com/v1/finance/search?q=BUSCAR

# BUSCAR: ticker a buscar

buscar = "Apple" # Podría ser cualquier ticker, por ejemplo YPF, MSFT, IBM, etc.
url = "https://query1.finance.yahoo.com/v1/finance/search?q={}".format(quote_plus(buscar))
# Quote plus reemplaza los espacios por + y se asegura de que el input pueda ser una url
# Con format estamos dandole el input para las llaves, si es más de uno separamos con comas

# Agregamos encabezado para parecer más "humanos" y evitar bloqueos
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36",
    "Accept-Language": "en-US,en;q=0.9",
}

# Hacemos el pedido o request y obtenemos la response
response = requests.request("GET", url, headers=headers)
#response = requests.request("GET", url) # Vemos que sin header devuelve error de muchos requests
print(response) # correcto

# Vemos el texto
response.text[:] # Imprimimos solo los primeros caracteres

<Response [200]>


'{"explains":[],"count":15,"quotes":[{"exchange":"NMS","shortname":"Apple Inc.","quoteType":"EQUITY","symbol":"AAPL","index":"quotes","score":35870.0,"typeDisp":"Equity","longname":"Apple Inc.","exchDisp":"NASDAQ","sector":"Technology","industry":"Consumer Electronics","dispSecIndFlag":true,"isYahooFinance":true},{"exchange":"NYQ","shortname":"Apple Hospitality REIT, Inc.","quoteType":"EQUITY","symbol":"APLE","index":"quotes","score":20049.0,"typeDisp":"Equity","longname":"Apple Hospitality REIT, Inc.","exchDisp":"NYSE","sector":"Real Estate","industry":"REIT—Hotel & Motel","isYahooFinance":true},{"exchange":"GER","shortname":"Apple Inc.                    R","quoteType":"EQUITY","symbol":"APC.DE","index":"quotes","score":20008.0,"typeDisp":"Equity","longname":"Apple Inc.","exchDisp":"XETRA","sector":"Technology","industry":"Consumer Electronics","isYahooFinance":true},{"exchange":"BUE","shortname":"APPLE INC CEDEAR(REPR 1/20 SHR)","quoteType":"EQUITY","symbol":"AAPL.BA","index":"quote

In [5]:
url

# Abrimos el link y vemos qué contiene

'https://query1.finance.yahoo.com/v1/finance/search?q=Apple'

In [10]:
# Pero podríamos guardar el resultado en un diccionario (json)
data = response.json()
#type(data) # dict
data

# Vemos que no nos dio solo los resultados de la acción de apple sino
# que también hay información relacionada, porque es la respuesta a la búsqueda de "Apple"

{'explains': [],
 'count': 15,
 'quotes': [{'exchange': 'NMS',
   'shortname': 'Apple Inc.',
   'quoteType': 'EQUITY',
   'symbol': 'AAPL',
   'index': 'quotes',
   'score': 35870.0,
   'typeDisp': 'Equity',
   'longname': 'Apple Inc.',
   'exchDisp': 'NASDAQ',
   'sector': 'Technology',
   'industry': 'Consumer Electronics',
   'dispSecIndFlag': True,
   'isYahooFinance': True},
  {'exchange': 'NYQ',
   'shortname': 'Apple Hospitality REIT, Inc.',
   'quoteType': 'EQUITY',
   'symbol': 'APLE',
   'index': 'quotes',
   'score': 20049.0,
   'typeDisp': 'Equity',
   'longname': 'Apple Hospitality REIT, Inc.',
   'exchDisp': 'NYSE',
   'sector': 'Real Estate',
   'industry': 'REIT—Hotel & Motel',
   'isYahooFinance': True},
  {'exchange': 'GER',
   'shortname': 'Apple Inc.                    R',
   'quoteType': 'EQUITY',
   'symbol': 'APC.DE',
   'index': 'quotes',
   'score': 20008.0,
   'typeDisp': 'Equity',
   'longname': 'Apple Inc.',
   'exchDisp': 'XETRA',
   'sector': 'Technology',

La estructura que vamos a seguir:
- Para rangos
https://query1.finance.yahoo.com/v8/finance/chart/{symbol}?range={range}&interval={interval}
- Para fechas exactas
https://query1.finance.yahoo.com/v8/finance/chart/{symbol}?period1={period1}&period2={period2}&interval={interval}

Symbol es el nombre de la acción, range es la longitud del período, interval es la frecuencia. Period 1 y 2 son las fechas de inicio y fin.


In [11]:
# Ajustamos la busqueda para ver solo las series de la acción

symbol = "TSLA" # Esto tiene que ser el ticker de la acción
range = "1y" # Podría ser mo, d
interval = "1mo"

# Ahora usamos v8 y chart, que devuelve series
url = f" https://query1.finance.yahoo.com/v8/finance/chart/{symbol}?range={range}&interval={interval}"

response = requests.request("GET", url, headers=headers)

print(response)

data = response.json()

# Vemos el json
data

<Response [200]>


{'chart': {'result': [{'meta': {'currency': 'USD',
     'symbol': 'TSLA',
     'exchangeName': 'NMS',
     'fullExchangeName': 'NasdaqGS',
     'instrumentType': 'EQUITY',
     'firstTradeDate': 1277818200,
     'regularMarketTime': 1760472000,
     'hasPrePostMarketData': True,
     'gmtoffset': -14400,
     'timezone': 'EDT',
     'exchangeTimezoneName': 'America/New_York',
     'regularMarketPrice': 429.24,
     'fiftyTwoWeekHigh': 488.54,
     'fiftyTwoWeekLow': 212.11,
     'regularMarketDayHigh': 434.2,
     'regularMarketDayLow': 417.86,
     'regularMarketVolume': 71541278,
     'longName': 'Tesla, Inc.',
     'shortName': 'Tesla, Inc.',
     'chartPreviousClose': 219.16,
     'priceHint': 2,
     'currentTradingPeriod': {'pre': {'timezone': 'EDT',
       'end': 1760535000,
       'start': 1760515200,
       'gmtoffset': -14400},
      'regular': {'timezone': 'EDT',
       'end': 1760558400,
       'start': 1760535000,
       'gmtoffset': -14400},
      'post': {'timezone': 'ED

In [12]:
# Ahora podemos acceder a los distintos resultados (usando las keys del diccionario), por ejemplo:

chart = data["chart"]["result"][0]
timestamps = chart["timestamp"]
closes = chart["indicators"]["quote"][0]["close"]

print("Datos mensuales:", len(closes)) # Longitud del resultado
print("Último cierre:", closes[-1])

Datos mensuales: 13
Último cierre: 429.239990234375


In [14]:
# Convertimos los datos a un df

import pandas as pd
from datetime import datetime

# Cambiamos el formato de la fecha
dates = [datetime.fromtimestamp(ts) for ts in timestamps]

# Armamos el DF
df = pd.DataFrame({
    "Date": dates,
    "Close": closes
})

df.set_index("Date", inplace=True)

df

Unnamed: 0_level_0,Close
Date,Unnamed: 1_level_1
2024-11-01 01:00:00,345.160004
2024-12-01 02:00:00,403.839996
2025-01-01 02:00:00,404.600006
2025-02-01 02:00:00,292.980011
2025-03-01 02:00:00,259.160004
2025-04-01 01:00:00,282.160004
2025-05-01 01:00:00,346.459991
2025-06-01 01:00:00,317.660004
2025-07-01 01:00:00,308.269989
2025-08-01 01:00:00,333.869995


In [None]:
# Ejercicio: Hacer una búsqueda con el otro formato, especificando fecha de inicio y fin.

### API Series de Tiempo

La **[API Series de Tiempo de la Republica Argentina](https://apis.datos.gob.ar/series)** es una API REST desarrollada y mantenida por el Estado Nacional de Argentina para la consulta de estadísticas en formato de series de tiempo. Contiene series publicadas por organismos de la Administración Pública Nacional.

La API permite:

* [Buscar series](https://datosgobar.github.io/series-tiempo-ar-api/reference/search-reference/) por texto. También se pueden buscar en el sitio web de datos.gob.ar: https://datos.gob.ar/series
* Cambiar la frecuencia (por ejemplo: convertir series diarias en mensuales)
* Elegir la función de agregacion de valores, usada en el cambio de frecuencia (una serie se puede convertir de diaria a mensual promediando, sumando, sacando el maximo, el minimo, el ultimo valor del periodo, etc)
* Filtrar por rango de fechas
* Elegir el formato (CSV o JSON)
* Cambiar configuracion del CSV (caracter separador, caracter decimal)

En https://datos.gob.ar/series podés buscar series de tiempo publicadas por distintos organismos de la Administración Pública Nacional en Argentina y usar el link al CSV para leerlos directamente desde python con pandas.

También podes **buscar los ids de las series de interés** y juntarlos en la misma consulta para armar una tabla de hasta 40 series.

In [None]:
# Un ejemplo

url_arg = "https://apis.datos.gob.ar/series/api/series?ids=168.1_T_CAMBIOR_D_0_0_26&format=json"
# Podemos pedir varios indicadores a la vez separando con comas

response = requests.get(url_arg) # En esta api no hace falta agregar headers
print(response)

datos = response.json()
datos