<a href="https://colab.research.google.com/github/macodebcn/datascience_samples/blob/main/%231_web%20%26%20more.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Algunos ejercicios

Al hacer una petición HTTP, el servidor web responde con distintos códigos de estado, contenidos y encabezados según la petición que reciba.

Realiza al menos cuatro peticiones diferentes utilizando la librería *requests* de Python a la URL que quieras. Asegúrate de que al menos una de estas peticiones resulte en cada uno de los escenarios siguientes:

* Un código de estado de éxito con un tipo de contenido "text/html".
* Un código de estado de éxito con un tipo de contenido "application/json".
* Un código de estado de error con un tipo de contenido "text/html".
* Un código de estado de error con un tipo de contenido "application/json".

**(1 punto)** $\color{green}{\text{NM}}$


In [None]:
import requests

# En primer lugar, creamos una lista de direcciones para el ejercicio
# en este caso: "wikipedia", "pokemon" (aprovechando el ejercicio 2),
# la página de la UOC que no funciona y una página de apis falsas
# https://jsonplaceholder.typicode.com/ que al parecer es bastante conocida
# a continuación, el código es bastante sencillo, se trata de un bucle
# como los que ya hemos trabajado anteriormente, con el que en cada
# iteración, realizamos una solicitud con <requests.get>

urls = ["https://www.wikipedia.org/", "https://pokeapi.co/api/v2/pokemon/ditto",
        "https://www.uoc.edu/no", "https://jsonplaceholder.typicode.com/posts/inventado/funciona"]

# nótese que en la última dirección de la lista agregamos un fragmento a la "url"
# ("endpoint") para que devuelva error

for url in urls:
    response = requests.get(url)
    print("URL:", url)
    print("Código de estado:", response.status_code)
    print("Tipo de contenido:", response.headers.get("Content-Type"))
    print("------------------------")


URL: https://www.wikipedia.org/
Código de estado: 200
Tipo de contenido: text/html
------------------------
URL: https://pokeapi.co/api/v2/pokemon/ditto
Código de estado: 200
Tipo de contenido: application/json; charset=utf-8
------------------------
URL: https://www.uoc.edu/no
Código de estado: 404
Tipo de contenido: text/html
------------------------
URL: https://jsonplaceholder.typicode.com/posts/inventado/funciona
Código de estado: 404
Tipo de contenido: application/json; charset=utf-8
------------------------


### Ejercicio 2

$\color{green}{\text{NM}}$

Utilizando la API v2 de Pokemon (https://pokeapi.co/), crea dos funciones que hagan lo siguiente:

* Una función que dado un Pokemon **por nombre**, imprima en pantalla su peso y su altura.
* Una función que dado un Pokemon **por nombre**, liste todas sus habilidades.

**(1.5 puntos)** $\color{green}{\text{NM}}$

In [None]:
# Respuesta

import requests

# antes de nada, vamos a imprimir un mensaje que permita al usuario consultar
# los nombres de los "pokemon" (también se podría hacer una lista)

print("¡¡¡ Aquí tienes la lista de Pokemons que puedes consultar !!!: \n" + "https://pokeapi.co/api/v2/pokemon/\n")


def peso_altura(nombre):
  # Hacemos la petición a la API incluyendo el nombre del Pokemon que más tarde
  # será llamado...en realidad lo que hacemos es solicitar en minúsculas
  # el nombre a la "API" quedando algo así como "https:.../pokemon/nombredelpokemon"
  # de hecho, se puede probar que si copiamos en la barra de direcciones algo como:
  # https://pokeapi.co/api/v2/pokemon/metapod, obtenemos la información del "pokemon"

  url = "https://pokeapi.co/api/v2/pokemon/" + nombre.lower()
  response = requests.get(url)

  # Convertimos la respuesta en un diccionario de Python
  # https://docs.python-requests.org/en/latest/user/quickstart/#:~:text=import%20requests%0A%0A%3E%3E%3E%20r%20%3D%20requests.get(%27https%3A//api.github.com/events%27)%0A%3E%3E%3E%20r.json()%0A%5B%7B%27repository%27%3A%20%7B%27open_issues%27%3A%200%2C%20%27url%27%3A%20%27https%3A//github.com/...
  # en esa dirección tan larga se habla de la función json() de requests, que
  # lo que hace es convertir un objeto JSON en un objeto Python (diccionario)
  # la variable <data1> captura la respuesta y la convierte en un diccionario

  datos1 = response.json()

  # imprimimos el peso y la altura del "pokemon" que se solicite

  print("El peso de", nombre, "es", datos1["weight"], "hectogramos")
  print("La altura de", nombre, "es", datos1["height"], "decímetros")

 # ahora vamos a repetir el proceso de crear una función para las habilidades
 # en esencia es una repetición de lo que hemos hecho más arriba con <peso_altura>
 # pero, en este caso, para conocer las "habilidades" de los personajes

def habilidades(nombre):
  url = "https://pokeapi.co/api/v2/pokemon/" + nombre.lower()
  response = requests.get(url)

  # Convertimos la respuesta en un diccionario de Python, tal y como hemos hecho
  # arriba con <data1>

  datos2 = response.json()

  # Mostramos las habilidades del Pokemon, pero ahora, en vez de utilizar
  # como arriba la fórmula "print[variable]", en donde la variable era la solicitud
  # a la "API", utilizaremos un bucle
  # esto lo hacemos porque arriba solicitamos el peso y la altura, dos datos diferentes,
  # pero aquí estamos pidiendo una serie de datos que vienen listados en diccionarios
  # de manera que tenemos que iterar sobre esta lista
  # la variable <habilidad> itera por <datos2>, que contiene la respuesta de la "API"
  # e imprimimos de esa respuesta la clave <ability> junto al nombre del "pokemon"

  print(nombre, "tiene las siguientes habilidades:")

  for habilidad in datos2["abilities"]:
    print("-", habilidad["ability"]["name"])

peso_altura("metapod")

print("----------------")

habilidades("pikachu")

# aquí se describen las características de cada "pokemon"
# https://pokeapi.co/docs/v2#characteristics:~:text=kB%2C%20278%20lines)-,Pokemon%20(type),-Name

¡¡¡ Aquí tienes la lista de Pokemons que puedes consultar !!!: 
https://pokeapi.co/api/v2/pokemon/

El peso de metapod es 99 hectogramos
La altura de metapod es 7 decímetros
----------------
pikachu tiene las siguientes habilidades:
- static
- lightning-rod


### Ejercicio 3  

$\color{orange}{\text{EG}}$

Vamos a hacer un ejercicio que nos devuelva la imagen de un perro en pantalla utilizando la **Dog API**, a la cual puedes acceder desde este link: https://dog.ceo/dog-api/.

Tu ejercicio debe cumplir las siguientes características:

* Debes crear **una función** que tome como parámetros la raza del perro que quieres mostrar y el número de fotos a mostrar.
* Debes investigar en la documentación de la API cómo obtener la imagen de un perro de cierta raza, y utilizarla. Notarás que hay razas y subrazas, como por ejemplo "Bulldog" como raza y "French Bulldog" y "English Bulldog" como subrazas. Tu función debe lidiar bien con esos casos y las distintas maneras en las que un usuario podría introducir la información, de manera que no se produzca nunca un error inesperado, siempre gestionado.

* Si la raza del perro no se encuentra en la base de datos de la API, debes gestionar ese error para que la función no falle, sino que muestre un mensaje de error en pantalla. **Nota:** no puedes escribir a mano la lista de todas las razas disponibles en la API (¡que son muchas!), sino que debes gestionarlo con la API en sí.
* Igualmente, tu función debe tener un límite de 5 imágenes a mostrar en pantalla. Si el usuario pide más imágenes, debes gestionarlo ya sea rechazando la petición o avisando de que sólo se mostrará el máximo de 5.

* La función debe mostrar en pantalla las imágenes indicadas.

Para ayudarte a mostrar la imagen del perro en pantalla, puedes utilizar el código que proporcionamos justo debajo como ayuda.


In [None]:
import requests
from IPython.display import display, Image

# definimos la función con los parámetros <raza> e <imag>
# limitararemos el número de resultados a 5 mostrando un mensaje de advertencia
# manejaremos el asunto de las subrazas iterando por el diccionario
# de razas/subrazas, es decir, seleccionando el "key:value" de forma similar
# a como hicimos en otras prácticas, dado que lo que aquí nos interesa
# es seleccionar para cada raza (la "key") una subraza ("value")

# <num_image>: limita el número a 5,
# <raza_minus>: convierte el parámetro raza a minúsculas

def perros(raza, imag):
    if imag > 5:
        print("Si la raza existe, sólo aparecerán cinco imágenes!", "\n")
    num_image = min(imag, 5)
    raza_minus = raza.lower()

    # a continuación obtendremos la lista completa de razas y subrazas
    # supongo que existe alguna forma de manejar, por un lado, la lista de razas,
    # por otra la de subrazas, pero todos los intentos han sido infructuosos...
    # así que ¡vamos a llamar a todos los perros!
    # con <response.json()> de "requests" estamos conviertiendo esa respuesta en
    # un objeto Python, es decir, un diccionario en este caso

    response = requests.get("https://dog.ceo/api/breeds/list/all")
    razas = response.json()["message"]

    # en el siguiente bucle es donde comprobamos si la raza es una subraza
    # si es así, lo que estamos diciendo a Python es que lo agregue a
    # <raza_minus>, que no es sino la variable <raza> a la que forzamos a salir
    # en minúsculas para que el usuario no obtenga error, que en mi caso, sucedía
    # cuando intentaba acceder a la raza en mayúsculas

    # en esta parte comprobamos si es una raza o una subraza
    # en el momento que se topa con una subraza, detiene el bucle
    # esto lo hemos visto con anterioridad, aunque en mis pruebas con VSC
    # ha funcionado sin "break" también con normalidad
    # lo que hacemos es iterar por el par de claves con <items>

    for raza_principal, subrazas in razas.items():
        if raza_minus in subrazas:
            raza_minus = raza_principal + "/" + raza_minus
            break

    # en este siguiente bucle establecemos una condición que compruebe
    # si el mensaje ("message") es correcto
    # en ese caso, mostrará las imágenes (máx. 5),o bien que la raza/subraza
    # no existe en nuestros datos (si existe mostrará imágenes aleatorias de esa raza)
    # agregamos un "break" para que no imprima 5 veces el mensaje de erro
    # que hemos creado para la ocasión...
    # es importante colocar el "break" bien indentado porque de lo contrario
    # se muestra una imagen solamente


    for image in range(num_image):
        response = requests.get("https://dog.ceo/api/breed/{}/images/random".format(raza_minus))
        respuesta = response.json()
        if respuesta["status"] == "success":
            display(Image(url=respuesta["message"]))
        else:
            print("!!Vaya, parece que la raza {} no está en mi base de datos o no existe!!".format(raza))
            break


# llamamos a la función <perros> con un número < 5
# comprobamos que sí funciona 🤞🏻




perros("Bulldog/french",7)


Si la raza existe, sólo aparecerán cinco imágenes! 



In [None]:
# un ejemplo de raza que no existe para que se vea que funciona bien todo

perros("esquimal/azul",8)

Si la raza existe, sólo aparecerán cinco imágenes! 

!!Vaya, parece que la raza esquimal/azul no está en mi base de datos o no existe!!


### Ejercicio 4

$\color{green}{\text{NM}}$

Para cada una de las siguientes direcciones:

1. https://zombo.com
1. https://www.pixelsfighting.com
1. https://api.fbi.gov/wanted/v1/list
1. https://www.isitchristmas.com

Llama a cada dirección con `query.get()`, y muestra:

- El código de `status.code`.
- El encabezado de la respuesta.
- Utilizando el encabezado, encuentra una manera de escribir en pantalla el "tipo de contenido", es decir, si es una API o una página web HTML.
- Si es una página web (utilizando una estructura de control), muestra el contenido de la dirección web, limitando la salida hasta 500 caracteres.




In [None]:
import requests
import json

# el código consta de tres partes principalmente:
# 1. definimos una función para que sea legible el resultado, y que hemos copiado
# de la lección de esta pec
# 2. una segunda parte en la que hacemos las peticiones e imprimimos los encabezados, etc.
# 3. una tercera parte en la que comprobamos el tipo de contenido (API o "web")
# y limitamos este contenido si se trata de una "web" a los primeros 500 caracteres

def json_pec(json_data, limit=None):
    if isinstance(json_data, (str)):
        json_data = json.loads(json_data)
    nice = json.dumps(json_data, sort_keys=True, indent=3, separators=(",", ":"))
    print("\n".join(nice.split("\n")[0:limit]))
    if limit is not None:
        print("[...]")

# creamos una lista de direcciones

urls = ["https://zombo.com", "https://www.pixelsfighting.com",
        "https://api.fbi.gov/wanted/v1/list", "https://www.isitchristmas.com"]

# a continuación un sencillo bucle para las peticiones con "requests"
# y luego se trata de imprimir lo que se nos pide: "status_code", etc.

for url in urls:
    response = requests.get(url)

    print("URL: " + url)
    print("Código de estado: ",response.status_code, "\n")
    print("Encabezado de la respuesta: ")

# Utilizamos la función de arriba <json_pec> para imprimir los encabezados
# lo que hacemos es colocar el nombre de la función en el lugar de "print"
# utilizamos "dict" porque los headers vienen en formato diccionario

    json_pec(dict(response.headers))

    # ahora creamos <contenido> para revisar si lo que se nos devuelve es
    # una página "web" o una "API", en otras palabras, nos dice el tipo de contenido
    # para que podamos establecer las condiciones que siguen a continuación

    contenido = response.headers.get("Content-Type")

    if "application/json" in contenido:
        print("Tipo de contenido: API")
        # Utilizamos <json_pec> para imprimir el contenido JSON
        json_pec(response.text)
    elif "text/html" in contenido:
        print("Tipo de contenido: Página web HTML")
        print("Contenido (primeros 500 caracteres): ", response.text[:500], "\n")

    print("\n")


URL: https://zombo.com
Código de estado:  200 

Encabezado de la respuesta: 
{
   "Accept-Ranges":"bytes",
   "Connection":"Upgrade, Keep-Alive",
   "Content-Length":"1714",
   "Content-Type":"text/html; charset=UTF-8",
   "Date":"Tue, 12 Dec 2023 16:23:13 GMT",
   "Keep-Alive":"timeout=2, max=500",
   "Last-Modified":"Fri, 08 Jan 2021 04:03:39 GMT",
   "Server":"Apache",
   "Upgrade":"h2"
}
Tipo de contenido: Página web HTML
Contenido (primeros 500 caracteres):  <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>ZOMBO</title>
<link href="zombo.css" rel="stylesheet" type="text/css" />

<link href="https://maxcdn.bootstrapcdn.com/font-awesome/4.2.0/css/font-awesome.min.css" rel="stylesheet">


<!--responsive stuff added here-->

<meta name="viewport" content=" 



URL: https://www.pixelsfigh

### Ejercicio 5


En este ejercicio vamos a realizar *web scraping* utilizando una nueva librería, llamada BeautifulSoup. **Nota:** si al cargar la librería os da un error, tendréis que instalarla ejectuando en una celda lo siguiente: `!pip install beautifulsoup4`. En teoría, tendríais que tenerla instalada por defecto en Google Colab.

Vamos a utilizar esta librería para extraer datos de una página web de venta de libros falsa llamada https://books.toscrape.com/. Antes de nada, familiarízate con la documentación de la librería de BeautifulSoup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/. A continuación, realiza lo siguiente:

a)

* Crea una función que extraiga todo el contenido de la página web utilizando el contenido de la llamada con *requests* y la función `BeautifulSoup()`, que es la función central de la librería. Muestra la "sopa" que recibes en pantalla y verás que es todo el contenido HTML de la web.
* Extrae el título de la página web siguiendo los ejemplos de la documentación. Para ello, tienes que acceder a la etiqueta `<title>`, que es la que se utiliza en HTML para indicar el título de la página web.



In [None]:
from bs4 import BeautifulSoup
import requests

def contenido_titulo(url):
    response = requests.get(url)
    contenido_resp = BeautifulSoup(response.content, "html.parser")
    print(contenido_resp.prettify())
    print()
    # según la documentación oficial, esta es la forma de hacerlo
    # https://www.crummy.com/software/BeautifulSoup/bs4/doc/#:~:text=story%3C/title%3E%3C/head%3E-,soup.title,-%23%20%3Ctitle%3EThe%20Dormouse%27s
    print(contenido_resp.title)

url = "https://books.toscrape.com/"

contenido_titulo(url)

<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!-->
<html class="no-js" lang="en-us">
 <!--<![endif]-->
 <head>
  <title>
   All products | Books to Scrape - Sandbox
  </title>
  <meta content="text/html; charset=utf-8" http-equiv="content-type"/>
  <meta content="24th Jun 2016 09:29" name="created"/>
  <meta content="" name="description"/>
  <meta content="width=device-width" name="viewport"/>
  <meta content="NOARCHIVE,NOCACHE" name="robots"/>
  <!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
  <!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->
  <link href="static/oscar/favicon.ico" rel="shortcut icon"/>
  <link href="static/oscar/css/styles.css" rel="stylesheet" type="tex

b) Dentro de la página web, utiliza la herramienta "inspect" en Google Chrome (botón derecho) para encontrar el tipo de estructura que contiene los géneros y su clase. Por ejemplo, verás que los géneros están entro de una etiqueta

```
<ul class = "nav nav-list"> GÉNEROS </ul>
```

Igualmente, podrás ver hay subestructuras debajo. Los géneros se encuentran dentro de otra etiqueta `<ul> </ul>`, y cada uno de ellos, individualmente, dentro de una etiqueta `<li> </li>`.

Por tanto, podemos utilizar la función `find()` de BeautifulSoup para obtener la lista de géneros tal que así:

```
generos = soup.find('ul', class_='nav nav-list').find('ul').find_all('li')
```

Utiliza este trozo de código para mostrar en pantalla todos los géneros que aparecen en la parte izquierda de la pantalla.

**(1  punto)**


In [None]:
# Respuesta

from bs4 import BeautifulSoup
import requests

# para obtener la lista de géneros vamos a crear la función <gen> y le vamos a
# pedir que nos muestre (gracias por la ayuda )la lista de géneros
# de la parte izquierda de la pantalla de la dirección
# "https://books.toscrape.com/"


url = "https://books.toscrape.com/"

def gen(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")

# copiamos la ayuda para el ejercicio
    generos = soup.find('ul', class_='nav nav-list').find('ul').find_all('li')

# ahora, un bucle como el que hemos visto anteriormente que recorre la variable
# <generos> con al agregado <strip> que ya conocemos para los espacios en blanco

    for genre in generos:
        print(genre.text.strip())

gen(url)

Travel
Mystery
Historical Fiction
Sequential Art
Classics
Philosophy
Romance
Womens Fiction
Fiction
Childrens
Religion
Nonfiction
Music
Default
Science Fiction
Sports and Games
Add a comment
Fantasy
New Adult
Young Adult
Science
Poetry
Paranormal
Art
Psychology
Autobiography
Parenting
Adult Fiction
Humor
Horror
History
Food and Drink
Christian Fiction
Business
Biography
Thriller
Contemporary
Spirituality
Academic
Self Help
Historical
Christian
Suspense
Short Stories
Novels
Health
Politics
Cultural
Erotica
Crime


c) Ahora vamos a extraer los libros que aparecen en la página principal. Para ello, de manera independiente, encuentra las etiquetas y clases necesarias para extrear sólo los títulos de los libros, utilizando las funciones `find()` o `find_all()` de BeautifulSoup.

**(1.5  puntos)** $\color{red}{\text{EI}}$

In [None]:
# Respuesta

# creamos, de nuevo, la variable <url> por cuestiones de claridad para el ejercicio

url = "https://books.toscrape.com/"

def titulos(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")

# buscamos todas las "tags" con la etiqueta "title"
# dejamos un ejemplo para que se vea más claro, directo del inspector
# "<a href="catalogue/the-requiem-red_995/index.html"
# title="The Requiem Red">The Requiem Red</a>""

    libros = soup.find_all("a", title=True)

# mostramos todos los títulos de la página principal utilizando un bucle

    for lib in libros:
        print(lib["title"])

# imprimimos la variable <titulos>

titulos(url)



A Light in the Attic
Tipping the Velvet
Soumission
Sharp Objects
Sapiens: A Brief History of Humankind
The Requiem Red
The Dirty Little Secrets of Getting Your Dream Job
The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
The Black Maria
Starving Hearts (Triangular Trade Trilogy, #1)
Shakespeare's Sonnets
Set Me Free
Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)
Rip it Up and Start Again
Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991
Olio
Mesaerion: The Best Science Fiction Stories 1800-1849
Libertarianism for Beginners
It's Only the Himalayas
