
# Taller de Web Scraping con BeautifulSoup y pandas

Este notebook contiene un HTML embebido de ejemplo y una serie de ejercicios para practicar:

- BeautifulSoup (find, find_all, select, attrs, get_text...)
- pandas (crear DataFrames a partir de datos extra√≠dos)
- Limpieza y manipulaci√≥n b√°sica de texto

üëâ Completa los `# TODO` en cada celda.


In [1]:

from bs4 import BeautifulSoup
import pandas as pd
import re

HTML_DOC = """
<!DOCTYPE html>
<html lang="es">
<head>
  <meta charset="utf-8">
  <title>Food & Fun Facts</title>
  <meta name="description" content="Una colecci√≥n de datos curiosos sobre comida y ocio.">
</head>
<body>
  <header id="top">
    <h1>Food & Fun Facts</h1>
    <h2 class="tagline">Cosas curiosas para aprender y contar</h2>
    <nav>
      <ul>
        <li><a href="#fun-facts">Fun Facts</a></li>
        <li><a href="#restaurantes">Restaurantes</a></li>
        <li><a href="#recursos">Recursos</a></li>
      </ul>
    </nav>
  </header>

  <main>
    <section id="intro">
      <article>
        <h3>Introducci√≥n</h3>
        <p>Bienvenidos a la colecci√≥n de datos curiosos. Aqu√≠ encontrar√°s hechos r√°pidos,
           enlaces √∫tiles y una peque√±a tabla de restaurantes para practicar scraping.</p>
      </article>
    </section>

    <section id="fun-facts">
      <h3>Fun Facts</h3>
      <ul class="facts">
        <li class="fun-fact" data-categoria="Historia" data-source="Libro A">
          La pizza moderna se populariz√≥ en N√°poles en el siglo XVIII.
        </li>
        <li class="fun-fact" data-categoria="Ciencia" data-source="Paper B">
          El picante no es un sabor, sino una sensaci√≥n de dolor causada por la capsaicina.
        </li>
        <li class="fun-fact" data-categoria="Cultura" data-source="Art√≠culo C">
          El t√© es la segunda bebida m√°s consumida del mundo despu√©s del agua.
        </li>
        <li class="fun-fact" data-categoria="Curiosidad" data-source="Blog D">
          La miel puede conservarse comestible durante miles de a√±os.
        </li>
        <li class="fun-fact">
          Algunas variedades de queso cuentan con hongos comestibles inocuos.
        </li>
      </ul>
    </section>

    <section id="restaurantes">
      <h3>Restaurantes recomendados</h3>
      <table class="tabla-restaurantes">
        <thead>
          <tr>
            <th>Nombre</th>
            <th>Ciudad</th>
            <th>Tipo</th>
            <th>Precio (‚Ç¨)</th>
          </tr>
        </thead>
        <tbody>
          <tr>
            <td>La Trattoria</td>
            <td>Roma</td>
            <td>Italiana</td>
            <td>20</td>
          </tr>
          <tr>
            <td>Bistro 21</td>
            <td>Par√≠s</td>
            <td>Francesa</td>
            <td>35</td>
          </tr>
          <tr>
            <td>Casa Mexicana</td>
            <td>CDMX</td>
            <td>Mexicana</td>
            <td>12</td>
          </tr>
          <tr>
            <td>Sushi Master</td>
            <td>Tokio</td>
            <td>Japonesa</td>
            <td>30</td>
          </tr>
        </tbody>
      </table>
      <figure>
        <img src="img/restaurante.jpg" alt="Fachada de un restaurante cl√°sico">
        <figcaption>Imagen ilustrativa</figcaption>
      </figure>
    </section>

    <section id="recursos">
      <h3>Recursos</h3>
      <ul>
        <li><a href="https://es.wikipedia.org/wiki/Gastronom%C3%ADa" target="_blank" rel="external">Gastronom√≠a</a></li>
        <li><a href="https://www.foodtimeline.org/" target="_blank" rel="external nofollow">Food Timeline</a></li>
        <li><a href="/contacto" rel="internal">Contacto</a></li>
      </ul>
      <p>Consulta tambi√©n el <a href="#top">inicio</a> de la p√°gina.</p>
    </section>
  </main>

  <footer>
    <small>¬© 2025 FoodFacts</small>
  </footer>
</body>
</html>
"""

soup = BeautifulSoup(HTML_DOC, "html.parser")


### Ejercicio 1

Extrae el t√≠tulo de la p√°gina (<title>) en una variable llamada page_title.

In [2]:
# TODO Ejercicio 1
print(soup.title.text, type(soup.title))


Food & Fun Facts <class 'bs4.element.Tag'>


### Ejercicio 2

Obt√©n el texto del h1 principal (header) en una variable main_h1.

In [3]:
# TODO Ejercicio 2
main_h1 = soup.find('header').h1.text
print(main_h1, type(main_h1))

Food & Fun Facts <class 'str'>


### Ejercicio 3

Cuenta cu√°ntas secciones (<section>) hay en el documento.

In [4]:
# TODO Ejercicio 3
section_all = soup.find_all('section')

len(section_all)

4

### Ejercicio 4

Recoge todos los elementos con class='fun-fact'.

In [21]:
# TODO Ejercicio 4
fun_fact = soup.find_all(class_='fun-fact')

fun_fact.contents

#for i in fun_fact:
#    print(str(i.get('class')), i.get('data-categoria'), i.get('data-source'))


AttributeError: ResultSet object has no attribute "contents". You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

### Ejercicio 5

Construye un DataFrame df_facts con columnas fact, categoria, source.

In [6]:
# TODO Ejercicio 5
df_facts = pd.DataFrame(columns=['fact', 'categoria', 'source'])

type(df_facts)
df_facts

Unnamed: 0,fact,categoria,source


### Ejercicio 6

A√±ade una columna 'n_palabras' a df_facts con el n√∫mero de palabras.

In [7]:
# TODO Ejercicio 6


### Ejercicio 7

Filtra df_facts para quedarte con los que tengan categor√≠a no nula.

In [None]:
# TODO Ejercicio 7


### Ejercicio 8

Cuenta cu√°ntos facts hay por categor√≠a.

In [9]:
# TODO Ejercicio 8


### Ejercicio 9

Extrae la tabla de restaurantes a un DataFrame df_restaurantes.

In [38]:
# TODO Ejercicio 9
tabla_restaurantes = soup.find(class_="tabla-restaurantes")
df_restaurantes = pd.read_html(str(tabla_restaurantes))[0]
df_restaurantes

  df_restaurantes = pd.read_html(str(tabla_restaurantes))[0]


Unnamed: 0,Nombre,Ciudad,Tipo,Precio (‚Ç¨)
0,La Trattoria,Roma,Italiana,20
1,Bistro 21,Par√≠s,Francesa,35
2,Casa Mexicana,CDMX,Mexicana,12
3,Sushi Master,Tokio,Japonesa,30


### Ejercicio 10

Convierte la columna Precio (‚Ç¨) a num√©rico.

In [40]:
# TODO Ejercicio 10
df_restaurantes.dtypes

df_restaurantes['Precio (‚Ç¨)'] = df_restaurantes['Precio (‚Ç¨)'].astype(float)
df_restaurantes.dtypes

Nombre         object
Ciudad         object
Tipo           object
Precio (‚Ç¨)    float64
dtype: object

### Ejercicio 11

Obt√©n el restaurante m√°s caro (fila completa).

In [45]:
# TODO Ejercicio 11
df_restaurantes['Precio (‚Ç¨)'].max

<bound method Series.max of 0    20.0
1    35.0
2    12.0
3    30.0
Name: Precio (‚Ç¨), dtype: float64>

### Ejercicio 12

Extrae todos los enlaces del apartado Recursos a un DataFrame df_links con href, texto, rel.

In [13]:
# TODO Ejercicio 12


### Ejercicio 13

Separa df_links en externos vs internos.

In [14]:
# TODO Ejercicio 13


### Ejercicio 14

Extrae src y alt de la imagen del bloque de restaurantes en un diccionario.

In [15]:
# TODO Ejercicio 14


### Ejercicio 15

Crea una funci√≥n limpiar_texto(s) y apl√≠cala a la columna fact de df_facts.

In [16]:
# TODO Ejercicio 15
