### **Clase: Extracción de Datos Web con Beautiful Soup y Pandas**
---

### 1. Introducción

*   **¿Qué es Beautiful Soup?**
    *   Beautiful Soup es una poderosa biblioteca de Python que nos permite extraer datos de páginas web de manera efectiva y estructurada.
    *   Es fundamental en el mundo del análisis de datos, ya que a menudo necesitamos obtener información de la web para nuestros proyectos, como noticias, datos de productos, estadísticas deportivas o cualquier otro contenido en línea.
    *   Nos brinda la capacidad de acceder a estos datos y convertirlos en un formato que podamos utilizar en nuestro análisis.
*   **¿Qué aprenderemos en esta lección?**
    *   Comenzaremos por comprender los fundamentos de Beautiful Soup: cómo funciona y cuál es su rol en la extracción de datos web.
    *   Aprenderemos cómo utilizar Beautiful Soup para navegar por páginas web, buscar y extraer información específica, como texto, enlaces, imágenes y tablas.

---

### 2. Fundamentos de HTML y Web Scraping

Para extraer información de la web, primero necesitamos entender cómo se estructuran las páginas.

#### 2.1. ¿Qué es HTML?

*   HTML, siglas de *Hypertext Markup Language* (Lenguaje de Marcado de Hipertexto), es el lenguaje utilizado para crear páginas web.
*   Se usa para estructurar y presentar el contenido de una página web, como texto, imágenes, enlaces y formularios.
*   El HTML se basa en una estructura jerárquica de etiquetas (también conocidas como elementos) que definen la estructura y el significado del contenido. Cada etiqueta tiene un propósito específico.

**Ejemplo Básico de Código HTML:**
```html
<!DOCTYPE html>
<html>
<head>
    <title>Título de la página</title>
</head>
<body>
    <h1>Título principal</h1>
    <p>Este es un párrafo de ejemplo.</p>
    <a href="https://www.ejemplo.com">Enlace a Ejemplo.com</a>
    <img src="imagen.jpg" alt="Descripción de la imagen">
</body>
</html>
```
*   **Etiquetas HTML comunes y su propósito:**
    *   `<!DOCTYPE html>`: Declara que el documento es un archivo HTML.
    *   `<html>`: Es el elemento raíz que envuelve todo el contenido de la página.
    *   `<head>`: Contiene información meta y enlaces a archivos externos (CSS, JavaScript).
    *   `<title>`: Define el título de la página, que se muestra en la pestaña del navegador.
    *   `<body>`: Contiene el contenido visible de la página web.
    *   `<h1>`: Define un encabezado de nivel 1.
    *   `<p>`: Define un párrafo de texto.
    *   `<a>`: Define un enlace a otra página web.
    *   `<img>`: Inserta una imagen en la página web.
*   **Elementos HTML para Tablas:**
    *   `<table>`: Se utiliza para crear una tabla en HTML y envuelve todas las filas y columnas.
    *   `<tr>`: Define filas dentro de una tabla.
    *   `<td>`: Representa una celda de datos en una tabla, ubicada dentro de un `<tr>`.
    *   `<th>`: Representa una celda de encabezado en una tabla, también ubicada dentro de un `<tr>`.

Entender la estructura HTML es fundamental para analizar y extraer datos de sitios web durante el proceso de análisis de datos.

#### 2.2. ¿Qué es el Web Scraping?

*   El web scraping es una técnica utilizada para extraer información de sitios web de forma automática.
*   Consiste en escribir un programa o utilizar herramientas para recorrer y analizar el código HTML o XML de una página web, y luego extraer los datos relevantes de manera estructurada.
*   Su objetivo es obtener datos específicos de una página web de manera eficiente y automatizada, en lugar de realizar la extracción manualmente.
*   Puede ser utilizado para diversas finalidades, como recopilar datos para análisis, realizar comparaciones de precios, o monitorizar contenido.
*   Existen varias bibliotecas en Python para web scraping, siendo las más populares Beautiful Soup, Selenium, Scrapy, lxml y PyQuery. En esta lección, nos centraremos en Beautiful Soup.

---

### 3. Explorando Beautiful Soup

#### 3.1. ¿Qué es Beautiful Soup?

*   Beautiful Soup es una biblioteca de Python diseñada para facilitar el análisis y la extracción de datos de archivos HTML y XML.
*   Proporciona una interfaz sencilla y legible que simplifica el proceso de navegación y manipulación de la estructura de estos documentos.

#### 3.2. Características y Ventajas

*   **Análisis de documentos HTML/XML:** Facilita la tarea de analizar documentos y extraer datos específicos de manera eficiente.
*   **Interfaz sencilla:** Es fácil de usar y comprender, no requiere conocimientos profundos de programación ni de lenguajes de marcado como HTML o XML.
*   **Soporte para analizadores (parsers):** Es compatible con varios analizadores HTML/XML como `html.parser`, `lxml`, `html5lib`, permitiéndote elegir el más adecuado.
*   **Navegación basada en árbol:** Utiliza una estructura de árbol para representar la jerarquía de los elementos, lo que permite búsquedas y selecciones basadas en etiquetas, atributos, contenido y estructura.
*   **Filtrado y extracción de datos:** Puedes buscar elementos por su nombre de etiqueta, atributos, clases, contenido y más para extraer información relevante.
*   **Amplio uso:** Es una de las bibliotecas más populares para web scraping y análisis de datos en Python, con una comunidad activa.

#### 3.3. Instalación

Para instalar Beautiful Soup, abre tu terminal o una celda de código en Jupyter y ejecuta:
```python
!pip install beautifulsoup4
```

#### 3.4. Métodos Importantes de Beautiful Soup

Una vez instalada, importaremos la librería y veremos sus métodos principales:

```python
from bs4 import BeautifulSoup
```

*   `BeautifulSoup(html_doc, 'html.parser')`: Es el constructor principal. Toma el código HTML o XML como entrada y lo analiza para crear un objeto Beautiful Soup.
*   `find()` y `find_all()`: Fundamentales para buscar elementos.
    *   `find()`: Devuelve el primer elemento que coincide con los criterios de búsqueda.
    *   `find_all()`: Devuelve una lista de todos los elementos que coinciden con los criterios de búsqueda.
*   `select()`: Devuelve una lista de objetos `Tag` que coinciden con el selector CSS especificado.
*   `text` o `getText()`: Devuelve el texto contenido dentro de una etiqueta. Ambos hacen exactamente lo mismo.
*   `get()`: Se utiliza para obtener el valor de un atributo de una etiqueta.

**Ejemplo Práctico de Métodos de Beautiful Soup:**
Vamos a aplicar estos métodos a un ejemplo sencillo de HTML:

In [2]:
from bs4 import BeautifulSoup

In [3]:
# Un ejemplo de documento HTML (similar al que vimos antes)
html_doc_example = """
<!DOCTYPE html>
<html>
<head>
    <title>Título de la página de ejemplo</title>
</head>
<body>
    <h1>Este es un encabezado principal</h1>
    <p>Este es el primer párrafo de <strong>texto</strong>.</p>
    <p class="introduccion">Este es el segundo párrafo, con una clase.</p>
    <a href="https://www.google.com" id="enlace_principal">Ir a Google</a>
    <img src="imagen.jpg" alt="Una imagen de ejemplo">
</body>
</html>
"""

In [4]:
type(html_doc_example)

str

In [5]:
# Crear un objeto BeautifulSoup
soup = BeautifulSoup(html_doc_example, 'html.parser')

In [6]:
type(soup)

bs4.BeautifulSoup

In [7]:
# Acceder al título de la página
soup.find('title')

<title>Título de la página de ejemplo</title>

In [8]:
soup.find('title').text

'Título de la página de ejemplo'

In [9]:
# otra manera para acceder al título de la página
print(f"Título de la página: {soup.title.text}")

Título de la página: Título de la página de ejemplo


In [10]:
soup.find('h1')

<h1>Este es un encabezado principal</h1>

In [11]:
soup.find('h1').text

'Este es un encabezado principal'

In [12]:
print(f"Texto del h1: {soup.h1.text}")

Texto del h1: Este es un encabezado principal


In [13]:
# Buscar el primer párrafo
soup.find('p')

<p>Este es el primer párrafo de <strong>texto</strong>.</p>

In [14]:
soup.find('p').text

'Este es el primer párrafo de texto.'

In [15]:
soup.p.text

'Este es el primer párrafo de texto.'

In [16]:
# Buscar el enlace y obtener su atributo 'href'
soup.find('a')

<a href="https://www.google.com" id="enlace_principal">Ir a Google</a>

In [17]:
soup.find('a').text

'Ir a Google'

In [18]:
soup.find('a').get('href')

'https://www.google.com'

In [19]:
soup.find('a').get('id')

'enlace_principal'

In [20]:
# Buscar todos los párrafos
soup.find_all('p')

[<p>Este es el primer párrafo de <strong>texto</strong>.</p>,
 <p class="introduccion">Este es el segundo párrafo, con una clase.</p>]

In [21]:
for p in soup.find_all('p'):
    print(p.text)

Este es el primer párrafo de texto.
Este es el segundo párrafo, con una clase.


In [22]:
# Buscar elementos por clase
soup.find_all('p', class_='introduccion')

[<p class="introduccion">Este es el segundo párrafo, con una clase.</p>]

In [23]:
for p in soup.find_all('p', class_='introduccion'):
    print(p.text)

Este es el segundo párrafo, con una clase.


In [24]:
# Buscar todos los elementos <a> dentro de elementos <body>
soup.select('body a')

[<a href="https://www.google.com" id="enlace_principal">Ir a Google</a>]

In [25]:
for e in soup.select('body a'):
    print(e.text) # Enlaces dentro del body

Ir a Google


In [26]:
for e in soup.select('body a'):
    print(e.get('href')) # Enlaces dentro del body

https://www.google.com


### 4. Web Scraping Práctico: Datos de Móviles en eBay

Ahora aplicaremos lo aprendido para extraer información real de una página web.

#### 4.1. El Proceso de Web Scraping

Para extraer datos, seguiremos estos pasos generales:
1.  **Hacer una solicitud HTTP:** Usaremos la biblioteca `requests` de Python para obtener el código fuente de la página web.
2.  **Crear un objeto Beautiful Soup:** Una vez que tengamos el código fuente, lo pasaremos a Beautiful Soup para que lo analice.
3.  **Localizar y extraer información:** Utilizaremos los métodos de Beautiful Soup (`find()`, `find_all()`, `select()`) para encontrar los elementos HTML que contienen los datos que nos interesan.
4.  **Almacenar los datos:** Guardaremos la información extraída en una estructura de datos adecuada, como una lista o un diccionario.

#### 4.2. Códigos de Estado HTTP

Al hacer una solicitud HTTP con `requests`, obtendremos una respuesta del servidor que incluye un `status_code`. Este código numérico indica el estado de la respuesta y es crucial para saber si la solicitud fue exitosa.

*   **200 OK:** La solicitud fue exitosa y el servidor devolvió los datos solicitados. Es lo que esperamos generalmente.
*   **404 Not Found:** El recurso solicitado no se encontró en el servidor (URL incorrecta, recurso eliminado).
*   **500 Internal Server Error:** Un error interno del servidor impide que se procese correctamente la solicitud.
*   **302 Found (Redirección Temporal):** La URL solicitada ha sido redirigida a otra ubicación.
*   **401 Unauthorized:** La solicitud requiere autenticación (no tienes acceso sin credenciales válidas).

**Es importante verificar el código de estado de la respuesta para asegurarse de que la solicitud fue exitosa y manejar cualquier error.**

#### 4.3. Ejemplo: Extracción de Datos de Móviles en eBay

Vamos a extraer nombres y precios de teléfonos móviles de una página de eBay.


In [27]:
# Importar librerías necesarias
import requests
# from bs4 import BeautifulSoup
import pandas as pd # La usaremos después
import re # Para limpieza de texto (regex)

In [28]:
# 1. Definir la URL de la página a la que haremos scraping
url_moviles = "https://www.ebay.es/deals/electronica/moviles"

In [29]:
# 2. Hacer la solicitud HTTP a la página
res_moviles = requests.get(url_moviles)

In [30]:
# 3. Verificar si la solicitud fue exitosa
print(f"La respuesta de la petición es: {res_moviles.status_code}")

La respuesta de la petición es: 200


In [33]:
res_moviles.content[:100]

b'<!doctype html><html lang=en><head><meta charset=UTF-8><meta http-equiv=X-UA-Compatible content=IE=E'

In [34]:
# Si el status_code es 200, continuamos
# 4. Crear el objeto Beautiful Soup para analizar el contenido HTML
sopa_moviles = BeautifulSoup(res_moviles.content, 'html.parser')
print("\nContenido HTML (primeras líneas con prettify):\n")
print(sopa_moviles.prettify()[:1000]) # Muestra solo las primeras 1000 caracteres para no saturar
print("...")


Contenido HTML (primeras líneas con prettify):

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
  <meta content="width=device-width" name="viewport"/>
  <!-- SEO METADATA START -->
  <meta content="102628213125203" property="fb:app_id">
   <meta content="sites-6603353820027325" name="google-adsense-account">
    <link href="https://i.ebayimg.com" rel="preconnect"/>
    <link href="https://www.ebay.es/deals/electronica/moviles" rel="canonical"/>
    <meta content="unsafe-url" name="referrer">
     <meta content="Ahorra con las mejores Ofertas de eBay en Moviles. Descuentos en Moviles con envío gratis. Ofertas nuevas cada semana. ¡No te las pierdas!" name="description"/>
     <link href="https://ir.ebaystatic.com" rel="preconnect"/>
     <meta content="34E98E6F27109BE1A9DCF19658EEEE33" name="msvalidate.01"/>
     <meta content="060ab5e38d266c06" name="y_key"/>
     <title>
      Ofertas de eBay en Moviles | Mile

In [35]:
print("\n--- Extracción de Nombres de Productos ---")
# 5. Localizar y extraer los nombres de los móviles
# Inspeccionando la página, encontramos que los nombres están en etiquetas span con una clase específica
lista_nombre_producto = sopa_moviles.find_all("span", {"class": "ebayui-ellipsis-2"})
print(f"Resultados de find_all para nombres (primeros 3 elementos):\n {lista_nombre_producto[:3]}")


--- Extracción de Nombres de Productos ---
Resultados de find_all para nombres (primeros 3 elementos):
 [<span class="ebayui-ellipsis-2" itemprop="name">Apple iPhone 14 Plus 128GB/256GB 5G Sin Simlock Nano SIM 6,7"  A15 Bionic</span>, <span class="ebayui-ellipsis-2" itemprop="name">Apple iPhone SE (2. Generation) 128GB Schwarz 4,7" Retina HD Display 12MP Kamera</span>, <span class="ebayui-ellipsis-2" itemprop="name">OPPO Reno 13F 8+256GB 6.67" 5G Plume Purple ITA</span>]


In [38]:
# Iterar sobre la lista de elementos y extraer el texto de cada uno
nombres_productos = []
for producto_html in lista_nombre_producto:
    nombres_productos.append(producto_html.text)

In [39]:
nombres_productos[:2]

['Apple iPhone 14 Plus 128GB/256GB 5G Sin Simlock Nano SIM 6,7"  A15 Bionic',
 'Apple iPhone SE (2. Generation) 128GB Schwarz 4,7" Retina HD Display 12MP Kamera']

In [None]:
<span itemprop="price" class="first">489,99 EUR</span>

In [40]:
print("\n--- Extracción de Precios ---")
# 6. Localizar y extraer los precios de los móviles
# Los precios están en etiquetas span con otra clase específica
lista_precios_moviles = sopa_moviles.find_all("span", {"class": "first"})
print(f"Resultados de find_all para precios (primeros 3 elementos):\n {lista_precios_moviles[:3]}")



--- Extracción de Precios ---
Resultados de find_all para precios (primeros 3 elementos):
 [<span class="first" itemprop="price">489,99 EUR</span>, <span class="first" itemprop="price">89,00 EUR</span>, <span class="first" itemprop="price">242,10 EUR</span>]


In [41]:
# Iterar sobre la lista de elementos y extraer el texto del precio
precios_productos_str = []
for precio_html in lista_precios_moviles:
    precios_productos_str.append(precio_html.text)

In [42]:
precios_productos_str

['489,99 EUR',
 '89,00 EUR',
 '242,10 EUR',
 '383,96 EUR',
 '404,44 EUR',
 '239,99 EUR',
 '469,99 EUR',
 '349,37 EUR',
 '449,99 EUR',
 '361,41 EUR',
 '409,99 EUR',
 '195,04 EUR',
 '399,99 EUR',
 '351,68 EUR',
 '215,00 EUR',
 '310,64 EUR',
 '196,00 EUR',
 '194,99 EUR',
 '319,99 EUR',
 '175,00 EUR',
 '319,00 EUR',
 '369,00 EUR',
 '335,88 EUR',
 '252,09 EUR']

# Primero lo hacemos para un elemento (en pequeño!!)

In [44]:
mi_string = '489,99 EUR'

In [45]:
mi_string.replace(' EUR', '')

'489,99'

In [49]:
mi_string.split()[0].replace(',', '.')

'489.99'

In [50]:
float(mi_string.split()[0].replace(',', '.'))

489.99

In [54]:
# 7. Limpiar los datos de precios:
# - Eliminar la palabra "EUR"
# - Reemplazar las "," por "." para convertir a formato numérico

for precio in precios_productos_str[:5]:
    print(float(precio.split()[0].replace(',', '.')))

489.99
89.0
242.1
383.96
404.44


In [55]:
precios_productos_limpios = []
for precio in precios_productos_str:
    precios_productos_limpios.append(float(precio.split()[0].replace(',', '.')))

In [58]:
type(precios_productos_limpios[0])

float

### 5. Trabajando con Datos Extraídos: Pandas

Una vez que tenemos los datos, Pandas nos ayuda a estructurarlos para el análisis.

#### 5.1. Convertir datos a un DataFrame de Pandas

Podemos convertir los datos extraídos en un DataFrame de Pandas de varias formas, como desde un diccionario o una lista de listas. En nuestro caso, los datos de los móviles están en listas separadas (nombres, precios), que podemos combinar en un diccionario y luego en un DataFrame.


In [59]:
# Crear un diccionario con los datos
datos_moviles = {
    "nombre": nombres_productos,
    "precio": precios_productos_limpios
}


In [60]:
datos_moviles

{'nombre': ['Apple iPhone 14 Plus 128GB/256GB 5G Sin Simlock Nano SIM 6,7"  A15 Bionic',
  'Apple iPhone SE (2. Generation) 128GB Schwarz 4,7" Retina HD Display 12MP Kamera',
  'OPPO Reno 13F 8+256GB 6.67" 5G Plume Purple ITA',
  'Samsung Galaxy S23 Ultra SM-S918U 256GB Green Unlocked Good Condition',
  '99% New  Samsung W2019 flagship flip phone 128GB/256GB Android phone',
  'Nuevo Samsung Galaxy S20 5G SM-G981U 128GB Desbloqueado Smartphone Teléfono 6.2"',
  'Nuevo Apple iPhone 14 128GB/256GB 5G Sin Simlock 6,1 Zoll A15 Bionic Nano SIM',
  'Sony Xperia 1 III 5G XQ-BC72 256GB 512GB  Unlocked Global Smartphone New Sealed',
  'Apple iPhone 13 Pro 128GB Alpingrün iOS Smartphone wie neu',
  'SAMSUNG Galaxy Z Flip 5 5G SM-F731  256/512GB Unlocked Folding Phone',
  'Nuevo Apple iPhone 13 6,1" 128GB/256GB 5G iOS Sin Simlock Sin Contrato SIMFREE',
  'Original Google Pixel 5 128GB +8GB 5G Unlocked Android Smartphone New Sealed',
  'Nuevo Apple iPhone 13 128GB/256GB Desbloqueado Sin Contrato 6.

In [61]:
# Convertir el diccionario a un DataFrame de Pandas
df_moviles = pd.DataFrame(datos_moviles)

In [65]:
df_moviles.head(3)

Unnamed: 0,nombre,precio
0,Apple iPhone 14 Plus 128GB/256GB 5G Sin Simloc...,489.99
1,Apple iPhone SE (2. Generation) 128GB Schwarz ...,89.0
2,"OPPO Reno 13F 8+256GB 6.67"" 5G Plume Purple ITA",242.1


In [67]:
print("\n--- Información del DataFrame ---")
# Conocer las dimensiones del DataFrame (filas, columnas)
print(f"Dimensiones del DataFrame (filas, columnas): {df_moviles.shape}")


--- Información del DataFrame ---
Dimensiones del DataFrame (filas, columnas): (24, 2)


In [68]:
# Conocer los tipos de datos de cada columna (strings como 'object')
print("\nTipos de datos de las columnas:")
print(df_moviles.dtypes)


Tipos de datos de las columnas:
nombre     object
precio    float64
dtype: object


In [69]:
# Método .info() que aglutina mucha información
print("\nInformación completa del DataFrame con .info():")
df_moviles.info()


Información completa del DataFrame con .info():
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   nombre  24 non-null     object 
 1   precio  24 non-null     float64
dtypes: float64(1), object(1)
memory usage: 516.0+ bytes


In [None]:
# Otros métodos útiles que podrían explorar:
# df_moviles.describe() # Estadísticas descriptivas de columnas numéricas
# df_moviles.isnull().sum() # Conteo de valores nulos por columna
# df_moviles["nombre"].unique() # Valores únicos en una columna
# df_moviles["nombre"].value_counts() # Conteo de ocurrencias de cada valor único

#### 5.2. Extracción de Datos de Tablas HTML

A veces, la información que necesitamos se encuentra dentro de tablas HTML. Beautiful Soup y Pandas trabajan muy bien juntos para esto.

*   Recordemos los elementos clave de las tablas HTML: `<table>`, `<tr>`, `<th>`, `<td>`.
*   El proceso es similar: hacer la petición, crear el objeto `BeautifulSoup`, encontrar todas las `<table>`, seleccionar la de interés, y luego iterar para extraer los `<th>` (encabezados) y los `<tr>` (filas con sus `<td>` o `<th>`).


In [70]:
# 1. Definir la URL de la tabla (ej. histórico IBEX-35)
url_bolsa = "https://www.bolsamania.com/indice/IBEX-35/historico-precios"

In [71]:
# 2. Hacer la petición y crear el objeto BeautifulSoup
res_bolsa = requests.get(url_bolsa)
sopa_bolsa = BeautifulSoup(res_bolsa.content, 'html.parser')

In [72]:
res_bolsa.status_code

200

In [73]:
# 3. Encontrar todas las tablas en la página
tablas = sopa_bolsa.find_all("table")

In [74]:
type(tablas)

bs4.element.ResultSet

In [75]:
len(tablas)

3

In [76]:
tablas[0]

<table class="stripped xs-grid-table">
<tbody>
<tr>
<td>Periodo</td>
<td class="text-right">
                                    27 may - 26 jun                                </td>
</tr>
<tr>
<td>Máximo</td>
<td class="text-right">
                                    14.299,1000  (27-may-25)                                </td>
</tr>
<tr>
<td>Mínimo</td>
<td class="text-right">
                                    13.737,2000  (23-jun-25)                                </td>
</tr>
</tbody>
</table>

In [77]:
tablas[1]

<table class="stripped xs-grid-table">
<tbody>
<tr>
<td>Diferencia</td>
<td class="text-right">561,9000</td>
</tr>
<tr>
<td>Promedio</td>
<td class="text-right">14.049,6435</td>
</tr>
<tr>
<td>Variación %</td>
<td class="text-right"><span class="dred">-2,81%</span></td>
</tr>
</tbody>
</table>

In [79]:
nuestra_tabla = tablas[2]

In [80]:
# 4. Extraer los encabezados (<th>) de la tabla
lista_encabezados_html = nuestra_tabla.find_all("th")

In [81]:
lista_encabezados_html

[<th class="text-left" v-table-sorter-by="'date'">Fecha<span></span></th>,
 <th class="text-right" v-table-sorter-by="'price'">Precio<span></span></th>,
 <th class="text-right" v-table-sorter-by="'fallers'">Variación %<span></span></th>,
 <th class="text-right" v-table-sorter-by="'high'">Máximo<span></span></th>,
 <th class="text-right" v-table-sorter-by="'low'">Mínimo<span></span></th>,
 <th class="text-right" v-table-sorter-by="'open'">Apertura<span></span></th>]

In [82]:
for columna in lista_encabezados_html:
    print(columna.text)

Fecha
Precio
Variación %
Máximo
Mínimo
Apertura


In [83]:
# 5. Extraer todas las filas (<tr>) de la tabla (excluyendo la primera que ya son los encabezados)
filas_ibex_html = nuestra_tabla.find_all("tr")

In [88]:
len(filas_ibex_html)

24

In [87]:
for fila_html in filas_ibex_html[1:2]:
    print(fila_html)

<tr>
<td class="text-left">27-may-25</td>
<td class="text-right">14.239,900</td>
<td class="text-right"><span class="cgreen">0,13%</span></td>
<td class="text-right">14.299,100</td>
<td class="text-right">14.164,400</td>
<td class="text-right">14.192,900</td>
</tr>


In [90]:
for fila_html in filas_ibex_html[1:2]:
    mi_string = fila_html.text 
    print(fila_html.text)


27-may-25
14.239,900
0,13%
14.299,100
14.164,400
14.192,900



In [103]:
mi_string.split('\n')[1:-1]

['27-may-25', '14.239,900', '0,13%', '14.299,100', '14.164,400', '14.192,900']

In [104]:
for fila_html in filas_ibex_html[1:2]:
    for elemento in fila_html.text.split('\n')[1:-1]:
        print(elemento)

27-may-25
14.239,900
0,13%
14.299,100
14.164,400
14.192,900


In [105]:
for fila_html in filas_ibex_html[1:2]:
    for elemento in fila_html.text.split('\n')[1:-1]:
        print(elemento.replace('%', ''))

27-may-25
14.239,900
0,13
14.299,100
14.164,400
14.192,900


In [106]:
for fila_html in filas_ibex_html[1:2]:
    for elemento in fila_html.text.split('\n')[1:-1]:
        print(elemento.replace('%', '').replace('.', ''))

27-may-25
14239,900
0,13
14299,100
14164,400
14192,900


In [107]:
for fila_html in filas_ibex_html[1:2]:
    for elemento in fila_html.text.split('\n')[1:-1]:
        print(elemento.replace('%', '').replace('.', '').replace(',', '.'))

27-may-25
14239.900
0.13
14299.100
14164.400
14192.900


In [108]:
resultados_ibex = []
# Iteramos desde el segundo elemento (índice 1) para ignorar la fila de encabezados
for fila_html in filas_ibex_html[1:]:
    # Extraemos el texto de la fila, lo dividimos y limpiamos
    elementos_fila = [elemento.replace("%", "").replace(".", "").replace(",", ".") for elemento in fila_html.text.split("\n")[1:-1]]
    # Convertir a float si es posible, mantener como string si no
    fila_limpia = []
    for item in elementos_fila:
        try:
            fila_limpia.append(float(item))
        except ValueError:
            fila_limpia.append(item)
    resultados_ibex.append(fila_limpia)


In [109]:
resultados_ibex[:3]

[['27-may-25', 14239.9, 0.13, 14299.1, 14164.4, 14192.9],
 ['28-may-25', 14100.6, -0.98, 14262.5, 14094.8, 14208.3],
 ['29-may-25', 14116.6, 0.11, 14187.5, 14088.9, 14187.5]]

In [110]:
encabezados_ibex = [columna.text for columna in lista_encabezados_html]
print("Encabezados extraídos (ejemplo):", encabezados_ibex[:3])

Encabezados extraídos (ejemplo): ['Fecha', 'Precio', 'Variación %']


In [111]:
# 6. Convertir la lista de listas a DataFrame y asignar los encabezados
df_ibex = pd.DataFrame(resultados_ibex)
df_ibex.columns = encabezados_ibex # Asignar los encabezados extraídos

In [113]:
df_ibex.head(10)

Unnamed: 0,Fecha,Precio,Variación %,Máximo,Mínimo,Apertura
0,27-may-25,14239.9,0.13,14299.1,14164.4,14192.9
1,28-may-25,14100.6,-0.98,14262.5,14094.8,14208.3
2,29-may-25,14116.6,0.11,14187.5,14088.9,14187.5
3,30-may-25,14152.2,0.25,14214.6,14099.9,14131.0
4,02-jun-25,14202.8,0.36,14234.4,14099.6,14110.3
5,03-jun-25,14128.4,-0.52,14249.2,14080.5,14239.4
6,04-jun-25,14101.3,-0.19,14185.2,14036.4,14173.6
7,05-jun-25,14203.7,0.73,14204.9,14038.3,14095.4
8,06-jun-25,14247.6,0.31,14286.1,14179.1,14193.7
9,09-jun-25,14251.3,0.03,14292.3,14206.3,14227.9


In [114]:
print(f"Dimensiones del DataFrame IBEX: {df_ibex.shape}")

Dimensiones del DataFrame IBEX: (23, 6)


In [None]:
# Guardar el DataFrame a un archivo CSV
# df_ibex.to_csv("datos_ibex.csv", index=False) # El index=False evita guardar el índice de Pandas como una columna
print("\n¡Datos del IBEX-35 listos y guardados en 'datos_ibex.csv'!")