## Trabajando con HTML en Python

HTML es el lenguaje que usan las páginas web. Aunque no está diseñado para datos, muchas veces necesitamos **leer información desde HTML**.

Ejemplo típico: queremos extraer noticias, productos, precios, etc.

Usamos la librería `BeautifulSoup` para parsear HTML como si fuera XML, pero con funciones más robustas para navegar etiquetas.


In [1]:
from bs4 import BeautifulSoup # es lo que utilizamos para leer HTML.

In [2]:
# HTML simple de ejemplo
ejemplo_html = '''
<html>
  <head><title>Mi página</title></head>
  <body>
    <h1>Bienvenidos</h1>
    <p class="intro">Este es un ejemplo de HTML.</p>
    <ul>
      <li>Elemento 1</li>
      <li>Elemento 2</li>
    </ul>
  </body>
</html>
'''
#ul es unordered list

In [None]:
type(ejemplo_html)

str

In [None]:
# Parseamos el HTML // Convertir de texto a un elemento con forma de html.
soup = BeautifulSoup(ejemplo_html, 'html.parser')

In [None]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [None]:
print(soup)


<html>
<head><title>Mi página</title></head>
<body>
<h1>Bienvenidos</h1>
<p class="intro">Este es un ejemplo de HTML.</p>
<ul>
<li>Elemento 1</li>
<li>Elemento 2</li>
</ul>
</body>
</html>



In [None]:
# Accedemos a etiquetas específicas
print(soup.title.text)          # → Mi página


Mi página


In [None]:
print(soup.h1.text)             # → Bienvenidos

Bienvenidos


In [None]:
print(soup.find('p').text)      # → Este es un ejemplo de HTML

Este es un ejemplo de HTML.


In [None]:
from bs4 import BeautifulSoup # importamos la libreria

html = '''
<p>El libro <span class="titulo">Rayuela</span> fue escrito por <span class="autor">Julio Cortázar</span>.</p>
'''
## Declarando cual es el html que voy a parsear

soup = BeautifulSoup(html, 'html.parser') # aca lo parseo

In [None]:
print(soup)


<p>El libro <span class="titulo">Rayuela</span> fue escrito por <span class="autor">Julio Cortázar</span>.</p>



In [None]:
print(soup.find('span').text)

Rayuela


In [None]:
print(soup.span.text)

Rayuela


In [None]:
titulo = soup.find('span', class_='titulo').text # le llamamos titulo a aquellos elementos que esta en la etiqueta span (Buscá span), pero de la clase titulo
autor = soup.find('span', class_='autor').text # le llamamos autor a aquellos elementos que esta en la etiqueta span (Buscá span), pero de la clase autor

print("Título:", titulo)
print("Autor:", autor)


Título: Rayuela
Autor: Julio Cortázar


In [None]:
# Ejemplo
import requests
from bs4 import BeautifulSoup

In [None]:
# 1. Hacer la solicitud a la página
url = "https://books.toscrape.com/"
resp = requests.get(url)
resp.raise_for_status()

In [None]:
print(resp.text)

<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html lang="en-us" class="no-js"> <!--<![endif]-->
    <head>
        <title>
    All products | Books to Scrape - Sandbox
</title>

        <meta http-equiv="content-type" content="text/html; charset=UTF-8" />
        <meta name="created" content="24th Jun 2016 09:29" />
        <meta name="description" content="" />
        <meta name="viewport" content="width=device-width" />
        <meta name="robots" content="NOARCHIVE,NOCACHE" />

        <!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
        <!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->

        
            <link rel="shortcut icon" href="static/oscar/favicon.

In [None]:
type(resp.text)

str

In [None]:
# 2. Parsear el contenido HTML
soup = BeautifulSoup(resp.text, "html.parser")

In [None]:
print(soup)

<!DOCTYPE html>

<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![endif]-->
<!--[if IE 7]>         <html lang="en-us" class="no-js lt-ie9 lt-ie8"> <![endif]-->
<!--[if IE 8]>         <html lang="en-us" class="no-js lt-ie9"> <![endif]-->
<!--[if gt IE 8]><!--> <html class="no-js" lang="en-us"> <!--<![endif]-->
<head>
<title>
    All products | Books to Scrape - Sandbox
</title>
<meta content="text/html; charset=utf-8" http-equiv="content-type"/>
<meta content="24th Jun 2016 09:29" name="created"/>
<meta content="" name="description"/>
<meta content="width=device-width" name="viewport"/>
<meta content="NOARCHIVE,NOCACHE" name="robots"/>
<!-- Le HTML5 shim, for IE6-8 support of HTML elements -->
<!--[if lt IE 9]>
        <script src="//html5shim.googlecode.com/svn/trunk/html5.js"></script>
        <![endif]-->
<link href="static/oscar/favicon.ico" rel="shortcut icon"/>
<link href="static/oscar/css/styles.css" rel="stylesheet" type="text/css"/>
<link href="s

In [None]:
type(soup)

In [None]:
# 3. Extraer libros (cada uno está dentro de un <article class="product_pod">)
libros = soup.find_all("article", class_="product_pod") # Crear una lista con todos los resultados de la busqueda de elementos article con class='product_pod'
# tengo un elemento que se llama soup. En ese elemento, buscá todos los elementos con etiqueta "article", y con atributo de class="produc_pod". Y a lo que esto genere, le llamo libros.
# Por que buscamos estos? Porque de la inspeccion visual, surge que cada uno de esos elementos son los que contiene la informacion de cada libro (entre ellos el titulo, precio, rating).

In [None]:
type(libros)

In [None]:
print(libros)

[<article class="product_pod">
<div class="image_container">
<a href="catalogue/a-light-in-the-attic_1000/index.html"><img alt="A Light in the Attic" class="thumbnail" src="media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg"/></a>
</div>
<p class="star-rating Three">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>
<h3><a href="catalogue/a-light-in-the-attic_1000/index.html" title="A Light in the Attic">A Light in the ...</a></h3>
<div class="product_price">
<p class="price_color">Â£51.77</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>
</article>, <article class="product_pod">
<div class="image_container">
<a href="catalogue/tipping-the-velvet_999/index.html"><img alt="Tipping the Velvet" class="thumbnail" src="media/cache/2

In [None]:
print(libros[-1])

<article class="product_pod">
<div class="image_container">
<a href="catalogue/its-only-the-himalayas_981/index.html"><img alt="It's Only the Himalayas" class="thumbnail" src="media/cache/27/a5/27a53d0bb95bdd88288eaf66c9230d7e.jpg"/></a>
</div>
<p class="star-rating Two">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>
<h3><a href="catalogue/its-only-the-himalayas_981/index.html" title="It's Only the Himalayas">It's Only the Himalayas</a></h3>
<div class="product_price">
<p class="price_color">Â£45.17</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>
</article>


In [None]:
print(libros[0])

<article class="product_pod">
<div class="image_container">
<a href="catalogue/a-light-in-the-attic_1000/index.html"><img alt="A Light in the Attic" class="thumbnail" src="media/cache/2c/da/2cdad67c44b002e7ead0cc35693c0e8b.jpg"/></a>
</div>
<p class="star-rating Three">
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
<i class="icon-star"></i>
</p>
<h3><a href="catalogue/a-light-in-the-attic_1000/index.html" title="A Light in the Attic">A Light in the ...</a></h3>
<div class="product_price">
<p class="price_color">Â£51.77</p>
<p class="instock availability">
<i class="icon-ok"></i>
    
        In stock
    
</p>
<form>
<button class="btn btn-primary btn-block" data-loading-text="Adding..." type="submit">Add to basket</button>
</form>
</div>
</article>


In [None]:
libros[0].h3.a['title']
# Cuál es la diferencia con el caso anterior?
# Cuando usamos puntos? Cuando estamos navegando etiquetas y seleccionar una
# Cuando usamos parentesis rectos? Ya sea para acceder al elemento de una lista (ej, [0]), o para acceder al valor de un atributo (ej. ['title'])
# Objetivo: Imprimir "A Light in the Attic"

'A Light in the Attic'

In [None]:
libros[0].h3.a.get('title')

'A Light in the Attic'

In [None]:
libros[0].find_all('a')[1].get('title') # get sirve para obtener los valores de los atributos
# buscar todos los 'a', ver cual me sirve (en este caso era el segundo elemento, y por eso escribi [1], y ahi buscar el titulo)

'A Light in the Attic'

### Tarea

In [None]:
# Tarea 1: Mostrar los títulos y precios de los primeros 5 libros

# Extraer los primeros 5 libros
libros = libros[:5]

# Mostrar títulos y precios
print("Títulos y precios de los primeros 5 libros:")
for libro in libros:
    titulo = libro.h3.a['title']
    precio = libro.find('p', class_='price_color').text
    print(f"- {titulo}: {precio}")


Títulos y precios de los primeros 5 libros:
- A Light in the Attic: Â£51.77
- Tipping the Velvet: Â£53.74
- Soumission: Â£50.10
- Sharp Objects: Â£47.82
- Sapiens: A Brief History of Humankind: Â£54.23


# API (queda para ustedes)

Vamos a bajar una imagen random de un perro

In [None]:
import requests
resp = requests.get("https://dog.ceo/api/breeds/image/random")
datos = resp.json()
print(datos["message"])

https://images.dog.ceo/breeds/labradoodle/labradoodle-forrest.jpg


In [None]:
# Tarea 2: importar un hecho random sobre gatos utilizando esta web: https://catfact.ninja/fact y transformarlo a JSON

import requests
import json

# URL de la API que devuelve hechos sobre gatos
url = 'https://catfact.ninja/fact'

# Realizar la solicitud GET
respuesta = requests.get(url)

# Convertir la respuesta a JSON
hecho_gato = respuesta.json()

# Mostrar resultado
print(json.dumps(hecho_gato, indent=2, ensure_ascii=False))

{
  "fact": "The cat who holds the record for the longest non-fatal fall is Andy. He fell from the 16th floor of an apartment building (about 200 ft/.06 km) and survived.",
  "length": 157
}


In [None]:
# Tarea 3: importar todas las razas (breeds) de gatos que haya.
# Solicitud a la primera página de razas de gatos (Esto es lo que esperaba que hagan, más abajo está la versión dificil que baja todas las paginas)
respuesta = requests.get('https://catfact.ninja/breeds').json()

# Extraer solo los nombres de las razas
razas_gatos = [breed['breed'] for breed in respuesta['data']]

# Mostrar resultado
print("Razas de gatos (primera página):")
for raza in razas_gatos:
    print(raza)

Razas de gatos (primera página):
Abyssinian
Aegean
American Curl
American Bobtail
American Shorthair
American Wirehair
Arabian Mau
Australian Mist
Asian
Asian Semi-longhair
Balinese
Bambino
Bengal
Birman
Bombay
Brazilian Shorthair
British Semi-longhair
British Shorthair
British Longhair
Burmese
Burmilla
California Spangled
Chantilly-Tiffany
Chartreux
Chausie


In [None]:
# URL de la API que devuelve razas de gatos
url = 'https://catfact.ninja/breeds'

razas_gatos = []

# La API devuelve resultados paginados, iteramos por todas las páginas
while url:
    respuesta = requests.get(url)

    # Verificamos que la solicitud fue exitosa
    datos = respuesta.json()

    # Añadimos las razas de esta página a la lista general
    for breed in datos['data']:
        razas_gatos.append(breed['breed'])

    # Pasamos a la siguiente página (si existe)
    url = datos['next_page_url']

# Mostrar las razas obtenidas
print("Razas de gatos obtenidas:")
for raza in razas_gatos:
    print(raza)

Razas de gatos obtenidas:
Abyssinian
Aegean
American Curl
American Bobtail
American Shorthair
American Wirehair
Arabian Mau
Australian Mist
Asian
Asian Semi-longhair
Balinese
Bambino
Bengal
Birman
Bombay
Brazilian Shorthair
British Semi-longhair
British Shorthair
British Longhair
Burmese
Burmilla
California Spangled
Chantilly-Tiffany
Chartreux
Chausie
Cheetoh
Colorpoint Shorthair
Cornish Rex
Cymric or Manx Longhair
Cyprus
Devon Rex
Donskoy, or Don Sphynx
Dragon Li
Dwarf cat, or Dwelf
Egyptian Mau
European Shorthair
Exotic Shorthair
Foldex[4]
German Rex
Havana Brown
Highlander
Himalayan, or Colorpoint Persian
Japanese Bobtail
Javanese
Karelian Bobtail
Khao Manee
Korat
Korean Bobtail
Korn Ja
Kurilian Bobtail, or Kuril Islands Bobtail
LaPerm
Lykoi
Maine Coon
Manx
Mekong Bobtail
Minskin
Munchkin
Nebelung
Napoleon
Norwegian Forest cat
Ocicat
Ojos Azules
Oregon Rex
Oriental Bicolor
Oriental Shorthair
Oriental Longhair
PerFoldæ(Experimental Breed - WCF)
Persian (Modern Persian Cat)
Persian (T