# ¿Qué es una **API**?

**API:** Aplication Programming Interface

Una **API** o **interfaz de programación de aplicaciones** es un conjunto de **definiciones y protocolos** que se usa para diseñar e **integrar** el **software** de las aplicaciones.

## ¿Cómo funciona?

Permite que los programas de software s**e comuniquen entre sí enviando y recibiendo llamadas API o solicitudes de información**. Estas solicitudes son iniciadas por un **cliente de API** (API Client) y aceptadas por un **punto final** (endpoint) de la API.

Para **intercambiar información entre las AP**I, los desarrolladores deben proporcionar **documentación de la API** que describa los **tipos de solicitudes** que una API puede aceptar, los casos de uso para los que está diseñada y cualquier otra condición (Por ejemplo, protocolos, esquemas y requisitos de seguridad) que los terceros deben cumplir.

Las **llamadas a la API** permiten que las API compartan funcionalidades sin que los desarrolladores tengan que volver a escribir funciones desde cero para cada aplicación individual. Sin estas, los desarrolladores no podrían replicar fácilmente funciones en varias aplicaciones ni solicitar datos a otras aplicaciones, servicios y proveedores.

Veamos algunos ejemplos ->


*   https://pokeapi.co/
*   https://open-meteo.com/



## ¿Qué es un **API** Client?

Un **cliente API**, o "usuario", es el **software** que **inicia una llamada** a la API.

Antes de poder interactuar con un punto final de la API, un cliente de API necesita **verificar su identidad**. Esto ayuda a evitar que los atacantes exploten las API para realizar ataques de denegación de servicio distribuido (DDoS) u otras acciones maliciosas.

Normalmente, la **autenticación** se lleva a cabo mediante uno de estos cuatro métodos: una **cadena de caracteres única (Clave API)**, una **combinación de nombre de usuario y contraseña**, un **token OAuth** o un **mutual TLS**. El uso de un método de autenticación sólido es una de las formas en que los desarrolladores pueden proteger las API de los ataques.

## ¿Qué es un **API** Endpoint?

Un **punto final de la API** **acepta la llamada API** y **devuelve la información** solicitada.

Tanto los clientes como los puntos finales de API se refieren a programas de software. Los **servidores API** pueden alojar varios **puntos finales**—a cada uno de los cuales se le asigna un **Uniform Resource Identifier (URI)** que permite ser localizado por un **cliente API**. En la mayoría de los casos, este **URI** es un **Uniform Resource Locator (URL)**, que apunta a ubicaciones basadas en Internet (por ejemplo, un sitio web o un recurso para descarga).

![API](https://phpenthusiast.com/theme/assets/images/blog/what_is_rest_api.png)

Pero... Esta comunicación entre cliente y endpoint... debería seguir algún protocolo o estructura, ¿no?

Pues sí, principalmente existen dos: **REST y SOAP**

Se trata de dos enfoques distintos para la transmisión de datos.
Ambas definen cómo diseñar APIs.
**REST** (Representational State Transfer) es un conjunto de principios arquitectónicos, mientras que **SOAP** (Simple Object Access Protocol), es un protocolo.

# Hablemos de REST:

![REST](https://phauer.com/blog/2015/0304-restful-api-design-best-practices/POST-for-Creation-eo.svg)

**REST** no es un protocolo ni un estándar, sino más bien un **conjunto de límites de arquitectura**. Los desarrolladores de las API pueden implementarlo de distintas maneras.

Cuando el **cliente envía una solicitud** a través de una **API REST**, esta transfiere una representación del estado del recurso requerido a quien lo haya solicitado o al endpoint. La **información se entrega por medio de HTTP** en uno de estos formatos: **JSON**, HTML, XLT, Python, PHP o texto sin formato. **JSON** es el más popular, ya que por lo general es el más comprensible y agnóstico a cualquier lenguaje.


# Bueno, entonces... ¿Podemos **scrapear una API**?

Repo de **APIs públicas**: https://github.com/public-apis/public-apis



In [1]:
# Una API de perros...

import json
import requests

dog_api = requests.get("https://dog.ceo/api/breeds/list/all")

result = dog_api.json()

print(result['message'])

for breed, sub_breeds in result['message'].items():
   print(f"{breed}: {sub_breeds}")

{'affenpinscher': [], 'african': [], 'airedale': [], 'akita': [], 'appenzeller': [], 'australian': ['kelpie', 'shepherd'], 'bakharwal': ['indian'], 'basenji': [], 'beagle': [], 'bluetick': [], 'borzoi': [], 'bouvier': [], 'boxer': [], 'brabancon': [], 'briard': [], 'buhund': ['norwegian'], 'bulldog': ['boston', 'english', 'french'], 'bullterrier': ['staffordshire'], 'cattledog': ['australian'], 'cavapoo': [], 'chihuahua': [], 'chippiparai': ['indian'], 'chow': [], 'clumber': [], 'cockapoo': [], 'collie': ['border'], 'coonhound': [], 'corgi': ['cardigan'], 'cotondetulear': [], 'dachshund': [], 'dalmatian': [], 'dane': ['great'], 'danish': ['swedish'], 'deerhound': ['scottish'], 'dhole': [], 'dingo': [], 'doberman': [], 'elkhound': ['norwegian'], 'entlebucher': [], 'eskimo': [], 'finnish': ['lapphund'], 'frise': ['bichon'], 'gaddi': ['indian'], 'germanshepherd': [], 'greyhound': ['indian', 'italian'], 'groenendael': [], 'havanese': [], 'hound': ['afghan', 'basset', 'blood', 'english', 'i

In [2]:
# O algo más útil, una API de ciudades con servicio de bicis públicas:

import json
import requests

bikes_request = requests.get("http://api.citybik.es/v2/networks")

result = bikes_request.json()

print(result['networks'])

for network in result['networks']:
    print(f"{network['name']} ({network['location']['city']}): {network['href']}")

[{'id': 'abu-dhabi-careem-bike', 'name': 'Abu Dhabi Careem BIKE', 'location': {'latitude': 24.4866, 'longitude': 54.3728, 'city': 'Abu Dhabi', 'country': 'AE'}, 'href': '/v2/networks/abu-dhabi-careem-bike', 'company': ['Careem'], 'gbfs_href': 'https://dubai.publicbikesystem.net/customer/gbfs/v2/en/gbfs.json'}, {'id': 'acces-velo-saguenay', 'name': 'Accès Vélo', 'location': {'latitude': 48.433333, 'longitude': -71.083333, 'city': 'Saguenay', 'country': 'CA'}, 'href': '/v2/networks/acces-velo-saguenay', 'company': ['PBSC Urban Solutions'], 'gbfs_href': 'https://saguenay.publicbikesystem.net/customer/gbfs/v2/gbfs.json'}, {'id': 'aksu', 'name': 'Aksu', 'location': {'latitude': 41.1664, 'longitude': 80.2617, 'city': '阿克苏市 (Aksu City)', 'country': 'CN'}, 'href': '/v2/networks/aksu', 'company': ['阿克苏公共服务']}, {'id': 'alba', 'name': 'Alba', 'location': {'latitude': 44.716667, 'longitude': 8.083333, 'city': 'Alba', 'country': 'IT'}, 'href': '/v2/networks/alba', 'company': ['Comunicare S.r.l.'], 

In [None]:
# U obtener los threads de un foro como 4chan:

import json
import requests

for i in range(570360, 570400):

    #Controlar con try except para evitar errores IMPORTANTE 
    try:
        website_request = requests.get(f"https://a.4cdn.org/po/thread/{i}.json")
        website_request.raise_for_status()  # Lanza una excepción si la solicitud falla
        result = website_request.json()

        if result:
            print(result["posts"])

            for post in result["posts"]:
                print(f"post: {post}")
    except requests.HTTPError:
        print(f"No se pudo obtener el hilo {i}")
    except json.JSONDecodeError:
        print(f"La respuesta para el hilo {i} no es un JSON válido")

Todo esto son **APIs públicas**, a las que se puede acceder para obtener información. Algunas **abiertas**, otras requieren **autenticación** de algún tipo, como APIKey o OAuth.

También existen algunas **APIs que tienen su propia librería en Python**.

El proceso casi siempre sera igual, **la idea es entender la API** con ingenieria inversa o leyendo los docs...


Pero podriamos montar un script que saca de una API el precio de diferentes acciones; u obtener el precio del BTC y ETH en USD cada 5 segundos.

In [None]:
! pip install yfinance 
#Api de yahoo finance

Collecting yfinance
  Downloading yfinance-0.2.54-py2.py3-none-any.whl.metadata (5.8 kB)
Collecting pandas>=1.3.0 (from yfinance)
  Using cached pandas-2.2.3-cp313-cp313-macosx_11_0_arm64.whl.metadata (89 kB)
Collecting numpy>=1.16.5 (from yfinance)
  Using cached numpy-2.2.3-cp313-cp313-macosx_14_0_arm64.whl.metadata (62 kB)
Collecting multitasking>=0.0.7 (from yfinance)
  Downloading multitasking-0.0.11-py3-none-any.whl.metadata (5.5 kB)
Collecting pytz>=2022.5 (from yfinance)
  Using cached pytz-2025.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting frozendict>=2.3.4 (from yfinance)
  Downloading frozendict-2.4.6-py313-none-any.whl.metadata (23 kB)
Collecting peewee>=3.16.2 (from yfinance)
  Downloading peewee-3.17.9.tar.gz (3.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.0/3.0 MB[0m [31m12.4 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?2

In [4]:
import yfinance as yf
import json
ticker_list = ['TSLA', 'AMZN', 'AAPL', 'GOOGL', 'MSFT', 'PLTR', 'FOUR', 'DBX']
for ticker in ticker_list:
    t = yf.Ticker(ticker).info
    market_price = t['bid']
    previous_close_price = t['regularMarketPreviousClose']
    city = t['city']
    print('Ticker: ', ticker)
    print('Market Price:', market_price)
    print('Previous Close Price:', previous_close_price)
    print(f"City: {city}")
    print(t)
    print("-----")

Ticker:  TSLA
Market Price: 279.18
Previous Close Price: 284.65
City: Austin
{'address1': '1 Tesla Road', 'city': 'Austin', 'state': 'TX', 'zip': '78725', 'country': 'United States', 'phone': '512 516 8177', 'website': 'https://www.tesla.com', 'industry': 'Auto Manufacturers', 'industryKey': 'auto-manufacturers', 'industryDisp': 'Auto Manufacturers', 'sector': 'Consumer Cyclical', 'sectorKey': 'consumer-cyclical', 'sectorDisp': 'Consumer Cyclical', 'longBusinessSummary': 'Tesla, Inc. designs, develops, manufactures, leases, and sells electric vehicles, and energy generation and storage systems in the United States, China, and internationally. The company operates in two segments, Automotive; and Energy Generation and Storage. The Automotive segment offers electric vehicles, as well as sells automotive regulatory credits; and non-warranty after-sales vehicle, used vehicles, body shop and parts, supercharging, retail merchandise, and vehicle insurance services. This segment also provides

In [5]:
!pip install cryptocompare

Collecting cryptocompare
  Downloading cryptocompare-0.7.6.tar.gz (6.0 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
Building wheels for collected packages: cryptocompare
  Building wheel for cryptocompare (pyproject.toml) ... [?25ldone
[?25h  Created wheel for cryptocompare: filename=cryptocompare-0.7.6-py3-none-any.whl size=6351 sha256=7daf0a4061055f718f744df3d5c26f68dc1bdcb701721085c6b8ca7de3ba29fb
  Stored in directory: /Users/davidsoteloseguin/Library/Caches/pip/wheels/38/ce/74/78c9547b85a3c71687837b3788c03f0dcd659434c446bbc9d4
Successfully built cryptocompare
Installing collected packages: cryptocompare
Successfully installed cryptocompare-0.7.6


In [6]:
import cryptocompare
import time

counter = 0

while True:
    print("Bitcoin Kraken Price: {} USD".format(cryptocompare.get_avg('BTC', currency='USD', exchange='Kraken')['PRICE']))
    print("Bitcoin Binance Price: {} USDT".format(cryptocompare.get_avg('BTC', currency='USDT', exchange='Binance')['PRICE']))
    print("Ethereum Kraken Price: {} BTC".format(cryptocompare.get_avg('ETH', currency='USDT', exchange='Kraken')['PRICE']))
    print("Ethereum Binance Price: {} ETH".format(cryptocompare.get_avg('ETH', currency='USDT', exchange='Binance')['PRICE']))
    print("---------------------")
    counter += 1
    if counter > 10:
        break
    time.sleep(5)

Bitcoin Kraken Price: 88000 USD
Bitcoin Binance Price: 87981.15 USDT
Ethereum Kraken Price: 2152.94 BTC
Ethereum Binance Price: 2155.6 ETH
---------------------
Bitcoin Kraken Price: 87959.3 USD
Bitcoin Binance Price: 87961.31 USDT
Ethereum Kraken Price: 2152.94 BTC
Ethereum Binance Price: 2154.77 ETH
---------------------
Bitcoin Kraken Price: 87874.9 USD
Bitcoin Binance Price: 87930.24 USDT
Ethereum Kraken Price: 2152.94 BTC
Ethereum Binance Price: 2152.47 ETH
---------------------
Bitcoin Kraken Price: 87858.1 USD
Bitcoin Binance Price: 87841.64 USDT
Ethereum Kraken Price: 2152.94 BTC
Ethereum Binance Price: 2152.24 ETH
---------------------
Bitcoin Kraken Price: 87858.1 USD
Bitcoin Binance Price: 87884 USDT
Ethereum Kraken Price: 2152.94 BTC
Ethereum Binance Price: 2152.47 ETH
---------------------
Bitcoin Kraken Price: 87902.6 USD
Bitcoin Binance Price: 87926.47 USDT
Ethereum Kraken Price: 2152.94 BTC
Ethereum Binance Price: 2154.01 ETH
---------------------
Bitcoin Kraken Price: 

KeyboardInterrupt: 

## Ejemplo con la **API de Facebook**

Guía de tokens de Meta: https://developers.facebook.com/docs/facebook-login/guides/access-tokens?locale=es_LA

En el caso de Facebook, como desarrolladores podemos crear aps o, tener acceso a las aps de otros desarrolladores. Para ello, necesitamos un token que el desarrollador debe entregarnos (este es un caso de APIs con token):

In [None]:
import requests

# Set up the API endpoint and access token
graph_api_endpoint = 'https://graph.facebook.com/v19.0'
access_token = 'EAAVGTP5XL1EBO2teZA7R7DqENk0lvTTOduniq9VJYtjRWBKpZBqIWLlQg2o8oPwAgXoiCAMQvQ6WvsTjrW8uzyZCIUn3F5RZAEA7A9M9XiwnZADjR60pbBRnqYhlZCXVZCM5qNRVxtZBqqkc1KAZAjeRjXptXyZB9rwIKsIe9EbpGERpvcDJby6CaKbJAD23jbPVBrjcY0ZBrXbvHHjLOR8g4qPsPNRbg9WLZBZBicP0S4Xpjl6ciCET8lsfObGHtf7MQhZCJgx02WeJ6N'

# Set up the group ID and search parameters
group_id = '122204624120003807'
search_fields = 'author,message,created_time'

# Build the API request URL
group_url = f'{graph_api_endpoint}/{group_id}/feed?fields={search_fields}&access_token={access_token}'

# Send the API request and get the response
response = requests.get(group_url)

# Check if the request was successful
if response.status_code != 200:
    print(f'Error: {response.status_code} {response.text}')
    exit()

# Parse the response as JSON
data = response.json()

# Extract the list of posts from the response
posts = data.get('data', [])

# Print the message and creation time of each post
for post in posts:
    message = post.get('message', '')
    created_time = post.get('created_time', '')
    print(f'{created_time}: {message}')

Error: 400 {"error":{"message":"Error validating access token: The session is invalid because the user logged out.","type":"OAuthException","code":190,"error_subcode":467,"fbtrace_id":"AvJZiQ3NDGMbgUsb8Xej0Bi"}}


: 

# Veamos ahora qué son las **API Streaming**

![Streaming](https://nordicapis.com/wp-content/uploads/REST-vs-Streaming-APIs-How-They-Differ-DIAGRAM.png)

A diferencia de una API REST clásica, que a cada solicitud espera una respuesta, una Streaming API realiza un request y recibe eventos o múltiples respuestas de forma continua hasta que la conexión se cierre.

¿Se os ocurre algún ejemplo de API que funcione de esta manera? 🤔

El viejo Twitter era un caso, al parecer, ahora ya no permite este tipo de conexiones (podéis investigar para ver si encontráis algo).
Tiwtch es otro caso, pero hay muchos más!

https://python-twitch-client.readthedocs.io/en/latest/basic_usage.html

In [1]:
# Veamos el caso de Twitch:

!pip install python-twitch-client

Collecting python-twitch-client
  Downloading python_twitch_client-0.7.1-py3-none-any.whl.metadata (1.4 kB)
Downloading python_twitch_client-0.7.1-py3-none-any.whl (20 kB)
Installing collected packages: python-twitch-client
Successfully installed python-twitch-client-0.7.1


In [2]:
# Esta API por ejemplo permite este tipo de conexiones.
# Además, en este caso nos pide identificación mediante hash y oAuth

# Obtenemos el oauth según nos indica la API
import requests

client_id = 'r2b5305872r5nszd1hqcpj5v24eo5t'
client_secret = 'r8r89l1iy5k59tazxnkif9dm47afht'

url = "https://id.twitch.tv/oauth2/token"
payload = {
    "client_id" : client_id,
    "client_secret": client_secret,
    "grant_type": "client_credentials"
}

response = requests.post(url, payload)

# El token de autenticación OAuth está en el campo 'access_token' de la respuesta
oauth_token = response.json()['access_token']
print(oauth_token)

35poz62a4b3xu0zz3mq1pmd84gs1ts


In [3]:
import twitch
import pprint

client = twitch.TwitchHelix(client_id=client_id, oauth_token=oauth_token)
streams = client.get_streams()

print("Streams:")
pprint.pprint(streams)


HTTPError: 401 Client Error: Unauthorized for url: https://api.twitch.tv/helix/streams?first=20

Dificil de leer! Pero acabamos de obtener un listado muuuuy largo de streamers. Printeemos alguno:

In [4]:
import twitch
import pprint

client = twitch.TwitchHelix(# TU CÓDIGO)
streams = client.get_streams()

pp = pprint.PrettyPrinter(indent=4)
i = 0
for streamer in streams:
    pp.pprint(# TU CÓDIGO)
    i += 1
    if i > 2:
        break

SyntaxError: invalid syntax. Perhaps you forgot a comma? (283237441.py, line 5)

Veamos algunos de los videos de Shroud:

In [None]:
from twitch import TwitchHelix

# Broadcaster id es el user id
broadcaster_id = '37402112'
clips = client.get_clips(broadcaster_id=broadcaster_id, page_size=10)

i = 0
for clip in clips:
    print(f"clip: {clip['id']}")
    print(f"url: {clip['thumbnail_url']}")
    print(f"broadcaster_id: {clip['broadcaster_id']}")
    print(f"game_id: {clip['game_id']}")
    print(f"title: {clip['title']}")
    print(f"view_count: {clip['view_count']}")
    print("---------------------------------")
    i += 1
    if i > 10:
        break


# Que no te pillen o bloqueen!

Algunas APIs, permiten hacer un número limitado de requests.

Por ejemplo, openweather permite hacer 10k solicitudes mensuales de forma gratuita. Después, debes pasar a una versión de pago:

In [6]:
import requests
import json

def get_weather(request):
    api_key = "dfc3d5f8b0bfbb74629c1727e2bc855f"
    url = f"http://api.openweathermap.org/data/2.5/weather?q=Madrid&appid={api_key}&units=metric"

    response = requests.get(url)

    data = json.loads(response.text)

    temperature = data["main"]["temp"]
    description = data["weather"][0]["description"]

    print(f"The current temperature in Madrid is {temperature}°C and the weather is {description}.")
    return(f"The current temperature in Madrid is {temperature}°C and the weather is {description}.")

get_weather(None)

The current temperature in Madrid is 9.46°C and the weather is overcast clouds.


'The current temperature in Madrid is 9.46°C and the weather is overcast clouds.'

Es importante estar atento a las tecnicas que existen para bloquear ataques generados por crawlers.

Lo mas importante en este caso es obviamente tener **ética**.

**Para evitar (o reducir) estos bloqueos**, hay que tener en cuenta lo siguiente:

**Cambiar el user agent!**
La mayoria de controles hechos a nivel de chequeos de acceso en balanceadores consisten en controlar 2 cosas, la IP y el **User-Agent**.

El **user agent** es una cabecera que podemos o no enviar en cada request, hay listas de user-agents en internet:

https://udger.com/resources/ua-list#Browser

https://deviceatlas.com/blog/list-of-user-agent-strings

Una rotacion efectiva de user agents puede resolver este posible bloqueo.

In [None]:
response = requests.get("https://www.skyscanner.net/transport/flights/mad/del", data={'data': 'asdlkhsdoyaidgousvasdlhjadjkhlvsalk'})

print(response.text)

### Nos han pillado!!!

Error 403 😯

No tenemos permiso para acceder a este recurso.

Skyscanner no permite el web scrapping y bloquea de forma activa este tipo de requests.

In [7]:
import requests
import pprint

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}
response = requests.get("https://www.skyscanner.net/transport/flights/mad/del", headers=headers)
pprint.pprint(response.text)

('<!doctype html><html lang="en"><head><meta charset="utf-8"><meta '
 'http-equiv="x-ua-compatible" content="ie=edge"><meta name="viewport" '
 'content="width=device-width,initial-scale=1,shrink-to-fit=no"><meta '
 'name="theme-color" content="#000000"><link rel="manifest" '
 'href="./manifest.json"><link rel="shortcut icon" '
 'href="./favicon.ico"><title>Skyscanner</title><link rel="icon" '
 'href="/favicon.ico"><script '
 'type="text/javascript">window.__pageLoadedTime=Date.now()</script><script '
 'defer="defer" src="./static/js/main.363e0b8b.js"></script><link '
 'href="./static/css/main.5973598b.css" '
 'rel="stylesheet"></head><body><noscript>You need to enable JavaScript to run '
 'this app.</noscript><div id="root"></div></body></html>')


Con un User-Agent, sí hemos podido obtener la información.

Pero **requests** es una librería **HTTP**, no utiliza JS, por lo que no vamos a ver más información solo con esto.

En estos casos lo único es subir de nivel a un **scrapper de tipo headless** (**Phantomjs**, **Selenium**) y probar suerte.

Otra opcion es obviamente pasar a **usar el API** de la web que queremos scrappear (no siempre rentable/posible).

In [None]:
# TODO: Update apikey
apikey = 'fl615316188794647941972788886631'

response = requests.get(f'http://partners.api.skyscanner.net/apiservices/browseroutes/v1.0/CN/CNY/zh-CN/PVG-sky/MAD-sky/210114?apikey={apikey}')

if response.status_code == 200:
    #Aquí tu código#
else:
    print("Error: ", response.status_code)

Para terminar, aquí os algunas ideas más con las que practicar (además de todas las que ya hemos visto)

## Más APIs / Paginas interesantes para hacer crawling

- https://developer.twitter.com/en/docs/tweets/filter-realtime/overview
- https://www.boe.es/boe/dias/2018/06/06/
- https://github.com/toddmotto/public-apis