## Trabajando con HTML en Python

HTML es el lenguaje que usan las páginas web. Aunque no está diseñado para datos, muchas veces necesitamos **leer información desde HTML**.

Ejemplo típico: queremos extraer noticias, productos, precios, etc.

Usamos la librería `BeautifulSoup` para parsear HTML como si fuera XML, pero con funciones más robustas para navegar etiquetas.


In [None]:
from bs4 import BeautifulSoup

In [None]:

# HTML simple de ejemplo
html = '''
<html>
  <head><title>Mi página</title></head>
  <body>
    <h1>Bienvenidos</h1>
    <p class="intro">Este es un ejemplo de HTML.</p>
    <ul>
      <li>Elemento 1</li>
      <li>Elemento 2</li>
    </ul>
  </body>
</html>
'''


In [None]:
# Parseamos el HTML
soup = BeautifulSoup(html, 'html.parser')

In [None]:
print(type(html))

In [None]:
print(type(soup))

In [None]:
print(soup)

In [None]:
# Accedemos a etiquetas específicas
print(soup.title.text)          # → Mi página
print(soup.h1.text)             # → Bienvenidos
print(soup.find('p').text)      # → Este es un ejemplo de HTML

In [None]:
from bs4 import BeautifulSoup

html = '''
<p>El libro <span class="titulo">Rayuela</span> fue escrito por <span class="autor">Julio Cortázar</span>.</p>
'''

soup = BeautifulSoup(html, 'html.parser')

titulo = soup.find('span', class_='titulo').text
autor = soup.find('span', class_='autor').text

print("Título:", titulo)
print("Autor:", autor)


In [None]:
# Tarea
import requests
from bs4 import BeautifulSoup



In [None]:
# 1. Hacer la solicitud a la página
url = "https://books.toscrape.com/"
resp = requests.get(url)
resp.raise_for_status()




In [None]:
# 2. Parsear el contenido HTML
soup = BeautifulSoup(resp.content, "html.parser")



In [None]:
print(soup)

In [None]:
# 3. Extraer libros (cada uno está dentro de un <article class="product_pod">)
libros = soup.find_all("article", class_="product_pod")




In [None]:
print(libros)

In [None]:
print(libros[0])

In [None]:
# Tarea 1: Mostrar los títulos y precios de los primeros 5 libros

# API

Vamos a bajar una imagen random de un perro

In [None]:
import requests
resp = requests.get("https://dog.ceo/api/breeds/image/random")
datos = resp.json()
print(datos["message"])

In [None]:
# Tarea 2: importar un hecho random sobre gatos utilizando esta web: https://catfact.ninja/fact y transformarlo a JSON


In [None]:
# Tarea 3: importar todas las razas (breeds) de gatos que haya.


# Texto

In [None]:
# Texto de ejemplo
texto = """
Seguramente luzca bien si me pongo traje negro con corbata
Seguramente luzca bien si me pongo bombacha de gaucho, alpargata
Pero yo tengo un conjunto que me lo pongo y siempre me queda pintado
Lo representa Nike y Jordan, y en el escudo tiene la Torre Eiffel

Mi debilidad es el conjunto 'el París Saint-Germain
Hey, del París Saint-Germain
Salgo pa' la calle y las guachas me ven
Hey, y las guachas me ven

No sabés cómo me queda el traje 'el París Saint-Germain
Hey, del París Saint-Germain
Salgo pa' la calle y las guachas me ven
Hey, y las guachas me ven, 'cucha, dice, hey

Me encanta empilcharme cuando salgo pa' la clande'
Y no me importa lo que diga el guardia de seguridad
Tu guacha me llama cuando está aprontá' pa'l after
Caigo rápido, flow delivery de Pedidos Ya

Mi debilidad es el conjunto 'el París Saint-Germain
Las guachas se babean si me ven
Con el traje del París Saint-Germain
Esta noche quiero rezarte, amén

A menos que te pongas pilla y quieras rezarme también (también)
A menos que te pongas pilla y quieras rezarme también (mi de—, mi de—, mi de—, mi de—)

Mi debilidad es el conjunto 'el París Saint-Germain
Hey, del París Saint-Germain
Salgo pa' la calle y las guachas me ven
Hey, y las guachas me ven

No sabés cómo me queda el traje 'el París Saint-Germain
Hey, del París Saint-Germain
Salgo pa' la calle y las guachas me ven
Hey, y las guachas me ve—

Seguramente luzca bien si me pongo traje negro con corbata
Seguramente luzca bien si me pongo bombacha de gaucho, alpargata
Pero yo tengo un conjunto que me lo pongo y siempre me queda pintado
Lo representa Nike y Jordan, y en el escudo tiene la Torre Eiffel

Mi debilidad es el conjunto 'el París Saint-Germain
Hey, del París Saint-Germain
Salgo pa' la calle y las guachas me ven
Hey, y las guachas me ven

No sabés cómo me queda el traje 'el París Saint-Germain
Hey, del París Saint-Germain
Salgo pa' la calle y las guachas me ven
Hey, y las guachas me ve—

El Joaco de París por si no me conocía'
Haciendo bailar a la letra en la melodía
Raian on the Beat, Espectro produciendo
"""

print(texto)



Seguramente luzca bien si me pongo traje negro con corbata
Seguramente luzca bien si me pongo bombacha de gaucho, alpargata
Pero yo tengo un conjunto que me lo pongo y siempre me queda pintado
Lo representa Nike y Jordan, y en el escudo tiene la Torre Eiffel

Mi debilidad es el conjunto 'el París Saint-Germain
Hey, del París Saint-Germain
Salgo pa' la calle y las guachas me ven
Hey, y las guachas me ven

No sabés cómo me queda el traje 'el París Saint-Germain
Hey, del París Saint-Germain
Salgo pa' la calle y las guachas me ven
Hey, y las guachas me ven, 'cucha, dice, hey

Me encanta empilcharme cuando salgo pa' la clande'
Y no me importa lo que diga el guardia de seguridad
Tu guacha me llama cuando está aprontá' pa'l after
Caigo rápido, flow delivery de Pedidos Ya

Mi debilidad es el conjunto 'el París Saint-Germain
Las guachas se babean si me ven
Con el traje del París Saint-Germain
Esta noche quiero rezarte, amén

A menos que te pongas pilla y quieras rezarme también (también)
A men

In [None]:
# Convertir a minúsculas
texto_minus = texto.lower()

# Reemplazar puntos
texto_limpio = texto_minus.replace('.', '')

# Dividir en palabras
palabras = texto_limpio.split()

# Mostrar resultado
print(palabras)


['seguramente', 'luzca', 'bien', 'si', 'me', 'pongo', 'traje', 'negro', 'con', 'corbata', 'seguramente', 'luzca', 'bien', 'si', 'me', 'pongo', 'bombacha', 'de', 'gaucho,', 'alpargata', 'pero', 'yo', 'tengo', 'un', 'conjunto', 'que', 'me', 'lo', 'pongo', 'y', 'siempre', 'me', 'queda', 'pintado', 'lo', 'representa', 'nike', 'y', 'jordan,', 'y', 'en', 'el', 'escudo', 'tiene', 'la', 'torre', 'eiffel', 'mi', 'debilidad', 'es', 'el', 'conjunto', "'el", 'parís', 'saint-germain', 'hey,', 'del', 'parís', 'saint-germain', 'salgo', "pa'", 'la', 'calle', 'y', 'las', 'guachas', 'me', 'ven', 'hey,', 'y', 'las', 'guachas', 'me', 'ven', 'no', 'sabés', 'cómo', 'me', 'queda', 'el', 'traje', "'el", 'parís', 'saint-germain', 'hey,', 'del', 'parís', 'saint-germain', 'salgo', "pa'", 'la', 'calle', 'y', 'las', 'guachas', 'me', 'ven', 'hey,', 'y', 'las', 'guachas', 'me', 'ven,', "'cucha,", 'dice,', 'hey', 'me', 'encanta', 'empilcharme', 'cuando', 'salgo', "pa'", 'la', "clande'", 'y', 'no', 'me', 'importa', 'l

In [None]:
from collections import Counter

# Contar ocurrencias de cada palabra
conteo = Counter(palabras)

# Mostrar palabras más frecuentes
print("Conteo de palabras:")
for palabra, frecuencia in conteo.items():
    print(f"{palabra}: {frecuencia}")


Conteo de palabras:
seguramente: 4
luzca: 4
bien: 4
si: 6
me: 28
pongo: 6
traje: 6
negro: 2
con: 3
corbata: 2
bombacha: 2
de: 5
gaucho,: 2
alpargata: 2
pero: 2
yo: 2
tengo: 2
un: 2
conjunto: 6
que: 5
lo: 5
y: 21
siempre: 2
queda: 5
pintado: 2
representa: 2
nike: 2
jordan,: 2
en: 3
el: 12
escudo: 2
tiene: 2
la: 11
torre: 2
eiffel: 2
mi: 7
debilidad: 4
es: 4
'el: 7
parís: 15
saint-germain: 14
hey,: 12
del: 7
salgo: 7
pa': 7
calle: 6
las: 13
guachas: 13
ven: 10
no: 5
sabés: 3
cómo: 3
ven,: 1
'cucha,: 1
dice,: 1
hey: 1
encanta: 1
empilcharme: 1
cuando: 2
clande': 1
importa: 1
diga: 1
guardia: 1
seguridad: 1
tu: 1
guacha: 1
llama: 1
está: 1
aprontá': 1
pa'l: 1
after: 1
caigo: 1
rápido,: 1
flow: 1
delivery: 1
pedidos: 1
ya: 1
se: 1
babean: 1
esta: 1
noche: 1
quiero: 1
rezarte,: 1
amén: 1
a: 3
menos: 2
te: 2
pongas: 2
pilla: 2
quieras: 2
rezarme: 2
también: 2
(también): 1
(mi: 1
de—,: 3
de—): 1
ve—: 2
joaco: 1
por: 1
conocía': 1
haciendo: 1
bailar: 1
letra: 1
melodía: 1
raian: 1
on: 1
the: 1


In [None]:
conteo.most_common(5)

[('me', 28), ('y', 21), ('parís', 15), ('saint-germain', 14), ('las', 13)]