In [1]:
# Primera prueba de request a API
import requests

endpoint = "https://httpbin.org/get"
response = requests.get(endpoint)
print("Response status: ", response)

Response status:  <Response [200]>


Cuando se obtiene una respuesta HTML esta suele contener información o payload en formato JSON o XML. Podemos ver esa infromación y la podemos tratar para su analisis

In [4]:
# Mandamos la request GET
ep = "https://httpbin.org/get"
response = requests.get(ep)

# Vemos la respuesta JSON
print("Payload de respuesta: ", response.json())

Payload de respuesta:  {'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.28.1', 'X-Amzn-Trace-Id': 'Root=1-65abfed2-3cca1f410dd7c68e49daa6a3'}, 'origin': '213.94.59.240', 'url': 'https://httpbin.org/get'}


Algunos servicios API necesitan de una KEY para autenticar su acceso y uso, normalmente a información sensible o privada. Para poder hacer request a este tipo de servicio se tiene que disponer de una API KEY y se debe enviar en la cabecera de request, autenticando en el servidor y para poder hacer la consulta y obtener el payload

In [None]:
# EJEMPLO
api_key = 'MI_API_KEY'
url = 'https://api.example.com/data'
headers = {'Authorization': 'Bearer ' + api_key}

response = requests.get(url, headers=headers)
print(response.json())

Algunas API tienen un sistema para evitar la sobrecarga de peticiones a sus servidores, si este límite se sobrepasa, el servidor puede denegar el acceso de forma temporal o permanete a su servidor. Una buena práctica es establecer un control a la hora de hacer peticiones

In [6]:
import time

url = "https://httpbin.org/get"

# Definimos el número de peticiones por segundo a la API
req_second = 5
req_count = 0
max_req = 3

# Función para lanzar las request
def lanza_req():
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        print(data)
    else:
        print("Error: ", response.status_code)


# Bucle para hacer request que queremos
while req_count < max_req:
    start_time = time.time()
    lanza_req()
    req_count = req_count + 1
    tiempo = time.time() - start_time


# Cálculo antes de hacer otra request
tiempo_espera = 1 / req_second - tiempo
if tiempo_espera > 0:
    time.sleep(tiempo_espera)

{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.28.1', 'X-Amzn-Trace-Id': 'Root=1-65ac045d-7a52e6075ed033bc6a225771'}, 'origin': '213.94.59.240', 'url': 'https://httpbin.org/get'}
{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.28.1', 'X-Amzn-Trace-Id': 'Root=1-65ac045d-710afa890e28c04b727687ea'}, 'origin': '213.94.59.240', 'url': 'https://httpbin.org/get'}
{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.28.1', 'X-Amzn-Trace-Id': 'Root=1-65ac045e-6bf89b7809af0ac462e020ac'}, 'origin': '213.94.59.240', 'url': 'https://httpbin.org/get'}


Web Scraping es el método para extrer data desde webs usando aplicaciones de software de forma automática. Es muy útil para conseguir grandes cantidades de datos de diferentes fuentes y poder usar esos datos para analizarlos.

Con la librería de python "BeautifulSoup" se puede parsear (buscar en el DOM HTML y en las etiquetas de estas) la información que nos interesa y la extrae

In [9]:
from urllib.request import urlopen as uReq, Request
from bs4 import BeautifulSoup as soup 

try:
    # Abre conexión a Wikipedia y descarga el HTML
    url = "https://es.wikipedia.org/wiki/Wikipedia:Bienvenidos"
    uClient = uReq(Request(url))

    # El HTML es parseado y guardado en BEAUTIFULSOUP
    web_page = soup(uClient.read(), "html.parser")
    uClient.close()
    print(web_page)
except:
    print(f"la página {url} da error")

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-0 vector-feature-client-preferences-disabled vector-feature-client-prefs-pinned-disabled vector-toc-available" dir="ltr" lang="es">
<head>
<meta charset="utf-8"/>
<title>Wikipedia:Bienvenidos - Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpre

Una vez descargado el HTML podemos sacar información a través de los diferentes TAGS como: p span class

In [21]:
from urllib.request import urlopen as uReq, Request
from bs4 import BeautifulSoup as soup 

url = "https://es.wikipedia.org/wiki/Wikipedia:Bienvenidos"

try:

    uClient = uReq(Request(url))

    web_page = soup(uClient.read(), "html.parser")
    uClient.close()
except:
    print(f"The page {url} returned an error, the site might not be available")

 # Buscamos en el contenido las partes con la etiqueta P
content = web_page.find_all("p")
print(content[1])

<p>Wikipedia crece cada día gracias a la participación de <a href="/wiki/Wikipedia:Wikipedistas" title="Wikipedia:Wikipedistas">voluntarios</a> de todo el mundo. Es el mayor proyecto de recopilación de conocimiento jamás realizado en la historia de la humanidad. Nuestros artículos presentan la información desde un <a href="/wiki/Wikipedia:Punto_de_vista_neutral" title="Wikipedia:Punto de vista neutral">punto de vista neutral</a> y tienen <a href="/wiki/Wikipedia:Verificabilidad" title="Wikipedia:Verificabilidad">referencias para verificar</a> cada dato.
</p>
