In [1]:
# antes de empezar importamos las librerías que vamos a usar. 
# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para manipulación y análisis de datos
# -----------------------------------------------------------------------
import pandas as pd

# Importar librerías para procesamiento de texto
# -----------------------------------------------------------------------
import re


# Datos de moviles de Ebay

En este caso, utilizaremos técnicas de web scraping para extraer información específica de la página web de Ebay. En lugar de recopilar manualmente la información, utilizaremos Python y la biblioteca Beautiful Soup para analizar el código fuente de la página web de Ebay y extraer los datos que nos interesan.

El objetivo específico de nuestro proyecto de *web scraping* es obtener datos sobre el total de teléfonos móviles disponibles en el sitio web de Ebay. Para lograr esto, realizaremos los siguientes pasos:

1. En primer lugar, utilizaremos Python para hacer una solicitud HTTP a la página web de Ebay y obtener su código fuente. Usaremos la biblioteca `requests`.

2. Una vez que tengamos el código fuente de la página web, crearemos un objeto BeautifulSoup utilizando la biblioteca Beautiful Soup. Este objeto nos permitirá analizar y manipular el código HTML de la página de manera sencilla.

3. Utilizaremos técnicas de selección de elementos, como selectores CSS o métodos como `find()` y `find_all()`, para localizar los elementos que contienen información sobre los teléfonos móviles en la página web de Ebay. Podemos inspeccionar el código fuente de la página para identificar las etiquetas HTML y los atributos que nos ayudarán a encontrar estos elementos específicos.

4. Una vez que hayamos localizado los elementos relevantes, extraeremos la información que necesitamos, como el título del producto, el precio o cualquier otro dato que sea relevante para nuestro objetivo.

5. A medida que extraemos los datos de cada elemento, los almacenaremos en una estructura de datos adecuada, como una lista o un diccionario.



**Antes de empezar algunas notas importantes que debes recordar**

Cuando realizas una solicitud HTTP utilizando la biblioteca `requests`(como aprendiste en la lección anterior),vamos a obtener una respuesta del servidor. Esta respuesta contiene información sobre el resultado de la solicitud. Una de las propiedades más comunes de la respuesta es `status_code`, que es un código numérico que indica el estado de la respuesta. Recordemos que, cuando usamos la librería `requests` en realidad lo que estamos haciendo es pedir información a un servidor (en este caso es una página web), el método `status_code` nos dice si hemos pedido los datos correctamente o no. Algunos de los códigos más comunes son:

- **200**: Esta respuesta indica que la solicitud fue exitosa. El servidor ha respondido correctamente y ha devuelto los datos solicitados. Esto es generalmente lo que esperamos obtener cuando hacemos una solicitud HTTP exitosa.

- **404**: Este código indica que el recurso solicitado no se encontró en el servidor. Puede ocurrir cuando se accede a una URL incorrecta o cuando el recurso ha sido eliminado o no está disponible.

- **500**: Un código de estado 500 indica un error interno del servidor. Esto puede deberse a un problema en el servidor que impide que se procese correctamente la solicitud. Es posible que necesites comunicarte con el administrador del servidor en este caso.

- **302**: Este código es una redirección temporal. Indica que la URL solicitada ha sido redirigida a otra ubicación. 

- **401**: Este código indica que la solicitud requiere autenticación. Significa que no tienes acceso a los recursos solicitados sin proporcionar credenciales válidas, como un nombre de usuario y una contraseña.


Al utilizar el método `status_code` en `requests`, podremos verificar el código de estado de la respuesta para determinar si la solicitud fue exitosa o si hubo algún tipo de error. Por ejemplo, si el código de estado es 200, sabremos que la solicitud se completó correctamente y podemos procesar los datos de la respuesta. Si el código de estado es diferente de 200, temdremos que tomar medidas adicionales según el tipo de código de estado. **Es importante verificar el código de estado de la respuesta para asegurarnos de que la solicitud fue exitosa y manejar cualquier error o condición especial según sea necesario.**



In [2]:
# definimos la url de la página de la vamos a sacar datos
url_moviles = "https://www.ebay.es/e/campanas/moviles-y-smartphones-reacondicionados"

# hacemos la request a la página de la que queremos sacar la info
res_moviles = requests.get(url_moviles)

# vemos si todo ha ido bien
print("La respuesta de la petición es:", res_moviles.status_code)

La respuesta de la petición es: 200


In [3]:
# creamos el objeto BeautifulSoup para poder acceder al contenido solicitado
sopa_moviles = BeautifulSoup(res_moviles.content, 'html.parser')

# mostramos por pantalla los resultados del objeto de Beautiful Soup. El método ".prettify()" nos ayuda a visualizar los resultados de una forma más amigable
print(sopa_moviles.prettify())

<!--vertlandweb#s0-1-0-->
<!DOCTYPE html>
<!--[if IE 9 ]>    <html class="ie9"> <![endif]-->
<!--[if (gt IE 9)|!(IE)]><!-->
<html lang="es">
 <!--<![endif]-->
 <head>
  <!--vertlandweb#s0-1-0-3-0-->
  <link href="//ir.ebaystatic.com" rel="dns-prefetch"/>
  <link href="//secureir.ebaystatic.com" rel="dns-prefetch"/>
  <link href="//i.ebayimg.com" rel="dns-prefetch"/>
  <link href="//rover.ebay.com" rel="dns-prefetch"/>
  <script>
   $ssgST=new Date().getTime();
  </script>
  <!--vertlandweb/-->
  <meta charset="utf-8"/>
  <link href="https://pages.ebay.com/favicon.ico" rel="icon"/>
  <meta content="width=device-width, initial-scale=1, user-scalable=yes, minimum-scale=1" name="viewport"/>
  <meta content="ie=edge" http-equiv="x-ua-compatible"/>
  <noscript>
   <style>
    .js-only {
      display: none !important;
    }
   </style>
  </noscript>
  <script>
   window.layoutStart = Date.now();
  window.vertlandweb = {"isWebpSupported":false,"isLowBandwidth":false,"lazyLoadAll":true,"showSp

Lo primero que vamos a hacer es extraer el nombre de todos los teléfonos móviles que tenemos en la página web. 

In [4]:
# sacamos los nombres de los moviles
lista_nombre_producto = sopa_moviles.find_all("h3", {"class": "textual-display bsig__title__text"})

# mostramos los resultados del método ".find_all()". Como dijimos al inicio este método nos va a devolver una lista
# Si lo exploramos un poco veremos que tenemos una lista de elemento y que tiene muchas cosas, pero si nos fijamos bien tenemos todos los nombres de los teléfonos que tenemos en la página web
print("El resultado del método '.find_all()' es: \n",   lista_nombre_producto)

# es el momento de sacar la información útil del método que hemos usado previamente. Para eso lo primero que vamos a hacer es crearnos una lista donde iremos almacenado los resultados que queremos
nombres_productos = []

# dado que es una lista lo que vamos a hacer es iterar por la lista para poder acceder a cada uno de los elementos
for i in lista_nombre_producto:
    # utilizamos el método ".getText()" para sacar el texto de cada uno de los elementos y lo apendeamos a la lista que hemos creado previamente. 
    nombres_productos.append(i.getText())

print("\n--------------------------\n")

print("Los resultados de extraer el texto de cada uno de los elementos es:\n", nombres_productos)

El resultado del método '.find_all()' es: 
 [<h3 class="textual-display bsig__title__text"><!--F#0-->GOOGLE PIXEL 7 PRO RICONDIZIONATO 128GB BUONO NERO BIANCO GRIGIO<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->Smartphone Xiaomi Redmi 13 6GB/ 128GB/ 6.79"/ Negro Medianoche<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->GOOGLE PIXEL 7 RICONDIZIONATO 128GB BUONO NERO BIANCO VERDE<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->Google Pixel 7 128GB Nero-Condizione Eccellente-Ricondizionato<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->XIAOMI 11T PRO 5G METEORITE GRAY DUAL SIM 8GB RAM 256GB<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->Google Pixel 7 Reacondicionados 128GB Cupón Blanco Negro Verde<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->Oppo Find X3 Pro 5G 256GB Dual Sim Blu<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!-

Seguimos extrayendo más información, ahora es el momento de sacar los precios. 

In [44]:
# sacamos los precios usando el método ".find_all()"
lista_precios_moviles = sopa_moviles.find_all("span", {"class": "textual-display bsig__price bsig__price--displayprice"})
print("El resultado del método '.find_all()' es: \n",   lista_nombre_producto)

# creamos una lista vacía donde almacenaremos todos los precios que hemos extraído de la página web
precios_productos = []

# de la misma forma que con los nombres de productos, vamos a iterar por la lista para sacar todos los precios
for i in lista_precios_moviles:
    # usando el método ".getText()" sacamos el precio
    precios_productos.append(i.getText())

print("\n--------------------------\n")

print("Los resultados de extraer el texto de cada uno de los elementos es:\n", precios_productos)

El resultado del método '.find_all()' es: 
 [<h3 class="textual-display bsig__title__text"><!--F#0-->Smartphone Xiaomi Redmi Note 13 NFC 8GB/ 256GB/ 6.67"/ Azul<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->GOOGLE PIXEL 7 RICONDIZIONATO 128GB BUONO NERO BIANCO VERDE<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->Smartphone Xiaomi Redmi 13 6GB/ 128GB/ 6.79"/ Negro Medianoche<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->Google Pixel 7 128GB Nero-Condizione Eccellente-Ricondizionato<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->XIAOMI 11T PRO 5G METEORITE GRAY DUAL SIM 8GB RAM 256GB<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->Google Pixel 7 Reacondicionados 128GB Cupón Blanco Negro Verde<!--F/--></h3>, <h3 class="textual-display bsig__title__text"><!--F#0-->Smartphone Xiaomi Redmi Note 12 Pro 6,67'' Fhd+ 120Hz 6Gb/128Gb Nfc Dualsim Grap<!--F/--></h3>, <h3 class="t

Si nos fijamos ya tenemos los precios de todos los teléfonos móviles, pero vemos que estos datos están en formato *string* y en realidad nos interesa que estén en formato de número por lo que tendremos que: 

- Eliminar la palabra "EUR"

- Reemplazar las "," por ".", ya que en Python los números decimales deben ir con "."

Pongamonos manos a la obra, para eso lo vamos a hacer con una *list comprehension* para recordarlas. 

In [45]:
# creamos una list comprehension para tener los datos en el formato correcto
precios_productos = [float(precio.split()[0].replace(".", "").replace(",", ".")) for precio in precios_productos]
print("Los resultados después de limpiar la información contenida en la lista 'precios_productos' es:\n", precios_productos)

Los resultados después de limpiar la información contenida en la lista 'precios_productos' es:
 [149.0, 219.99, 100.0, 298.9, 200.0, 288.38, 159.0, 289.9, 229.0, 74.0, 1.0, 315.0, 281.26, 93.99, 179.99, 199.95, 238.14, 250.0, 249.99, 229.0, 89.0, 225.0, 370.0, 385.0, 489.0, 409.0, 99.9, 149.0, 230.0, 269.0, 399.0, 69.9, 149.9, 119.9, 315.0, 239.0]


In [49]:
# vamos a crearnos una función donde almacenemos todo este código y lo podamos hacer todo del tirón, sin necesidad de tener que estar repitiendo código todo el rato. 
def sacar_moviles_ebay(url):
    
    """
    Extrae información de teléfonos móviles en venta desde una página web de eBay.

    Parameters:
        url (str): La URL de la página web de eBay que contiene la información de los teléfonos móviles.

    Returns:
        dict: Un diccionario con la información de los teléfonos móviles, que incluye nombres, precios,
              tipos de envío e imágenes.
    """
    
    res_moviles_ebay = requests.get(url_moviles)

    # vemos si todo ha ido bien
    print("La respuesta de la petición es:", res_moviles_ebay.status_code)
    
    sopa_moviles_ebay = BeautifulSoup(res_moviles_ebay.content, 'html.parser')
    
    # sacamos los nombres de los teléfonos móviles
    lista_nombre_producto_ebay = sopa_moviles_ebay.find_all("h3", {"class": "textual-display bsig__title__text"})

    # sacamos los precios de los teléfonos móviles
    lista_precios_moviles_ebay = sopa_moviles_ebay.find_all("span", {"class": "textual-display bsig__price bsig__price--displayprice"})
    

    # vamos a juntar todas las listas que han sido tratadas de la misma forma,
    
    lista_elementos = [lista_nombre_producto_ebay, lista_precios_moviles_ebay]#, lista_envio_moviles_ebay]
    # keys = ["nombre", "precio"]
    
    diccionario = {"nombre": [], "precio": []}
    
    for key, lista in zip(diccionario.keys(), lista_elementos):
        textos = [i.getText() for i in lista]
        
        if key == "precio":
            textos = [float(precio.split()[0].replace(".", "").replace(",", ".")) for precio in textos]

        diccionario[key] = textos
    return diccionario

In [50]:
datos_ebay = sacar_moviles_ebay(url_moviles)
print("el resultado de nuestra función es:" datos_ebay)

La respuesta de la petición es: 200
el resultado de nuestra función es: {'nombre': ['GOOGLE PIXEL 7 RICONDIZIONATO 128GB BUONO NERO BIANCO VERDE', 'Smartphone Xiaomi Redmi 13 6GB/ 128GB/ 6.79"/ Negro Medianoche', 'Google Pixel 7 128GB Nero-Condizione Eccellente-Ricondizionato', 'XIAOMI 11T PRO 5G METEORITE GRAY DUAL SIM 8GB RAM 256GB', 'Google Pixel 7 Reacondicionados 128GB Cupón Blanco Negro Verde', "Smartphone Xiaomi Redmi Note 12 Pro 6,67'' Fhd+ 120Hz 6Gb/128Gb Nfc Dualsim Grap", 'Google Pixel 6 Pro 12GB 256GB Smartphone Negro Segunda Mano', 'Google Pixel 6 Pro - 128GB - Nero Tempesta - Buone Condizioni - 100% funzionante', 'Xiaomi Redmi 9C NFC - Smartphone de 3+64 GB, Pantalla de 6.53" HD+, cámara Dual', ' GooglePixel9 ProXL,512 GB,16GB RAM,6.8 OLED LTPO,GoogleTensorG4,5060mAh', 'Oppo Find X3 Pro 5G 256GB Dual Sim Blu', 'Google Pixel 7 128GB Nero-Condizione Molto Buono-Ricondizionato', 'Xiaomi Redmi 10C 64GB - Gris - Libre - Dual-SIM', 'OPPO Find X5 Lite - 256GB - Blue (Sbloccato)'

Esto lo hemos hecho solo para una página, pero si nos fijamos en la página web hay muchas más páginas y veamos en que se difererian las unas de las otras: 

In [51]:
# Inicializamos un bucle que recorrerá 6 páginas de resultados en eBay
for pagina in range(1,3):
    # Construimos la URL de la página actual con el número de página
    url_moviles_todos = f"https://www.ebay.es/e/campanas/moviles-y-smartphones-reacondicionados?_pgn={pagina}"
    
    # Llamamos a la función 'sacar_moviles_ebay' para extraer información de los móviles en la página actual
    todos_resultados_moviles = sacar_moviles_ebay(url_moviles_todos)

# Al final del bucle, 'todos_resultados_moviles' contendrá la información de la última página procesada.


La respuesta de la petición es: 200
La respuesta de la petición es: 200


## Pandas


In [52]:
# convertir el diccionario en DataFrame
# usar el método pd.DataFrame(), que es uno de los métodos que más usaremos más a menudo durante estas lecciones
# esta tabla la almacenaremos en una variable llamada "df"

df = pd.DataFrame(todos_resultados_moviles)

# utilizaremos el método .head() para mostrar las 5 primeras filas del dataframe generado en el paso anterior
df.head()

Unnamed: 0,nombre,precio
0,GOOGLE PIXEL 7 RICONDIZIONATO 128GB BUONO NERO...,219.99
1,"Smartphone Xiaomi Redmi 13 6GB/ 128GB/ 6.79""/ ...",100.0
2,Google Pixel 7 128GB Nero-Condizione Eccellent...,298.9
3,XIAOMI 11T PRO 5G METEORITE GRAY DUAL SIM 8GB ...,200.0
4,Google Pixel 7 Reacondicionados 128GB Cupón Bl...,288.38


In [53]:
# si queremos sacar las últimas filas del dataframe usaremos el método .tail()
df.tail()

Unnamed: 0,nombre,precio
30,Teléfono Móvil Teléfono LG C360 Original,69.9
31,Teléfono Móvil LG Ku950 Reacondicionados Puede B,149.9
32,Teléfono Móvil LG GU230 Nuevo Recuperado,119.9
33,Oppo Find X3 Pro 5G 256GB Dual Sim Blu - Ricon...,315.0
34,Smartphone Oneplus Nord N10 5G 128GB/6GB Ram D...,239.0


In [54]:
# ¿cuántas filas y columnas tenemos en el dataframe? usaremos el método .shape
# fijaos que este método nos devuelve una tupla con dos elementos. 
# el PRIMERO de los elementos hace referencia al número de FILAS
# el SEGUNDO de los elementos hace referencia al número de COLUMNAS
df.shape

(35, 2)

In [55]:
# ¿cuáles son los tipos de datos que tenemos en cada columna?
# para eso usaremos el método .dtypes
# 📌 NOTA: en Pandas los strings son mostrados como tipo "object"
df.dtypes

nombre     object
precio    float64
dtype: object

In [56]:
# en Pandas tenemos un método que aglutina toda la información que hemos visto hasta ahora, 
# ese método es el ".info()"
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   nombre  35 non-null     object 
 1   precio  35 non-null     float64
dtypes: float64(1), object(1)
memory usage: 688.0+ bytes


In [57]:
# Pandas también nos permiten extraer los principales estadísticos de nuestro conjunto de datos. 
# usaremos el método ".describe()"
# es importante destacar que por defecto este método nos va a devolver los principales estadísticos de las variables de tipo numérico
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
precio,35.0,225.859714,109.97097,1.0,149.45,229.0,289.14,489.0


In [17]:
# si quisieramos saber cuales son los principales estadísticos de las variables categóricas tendremos que incluir un parámetro en el método ".describe()"
# este parámetro es el "include"
df.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
nombre,29,29,"Móvil - Huawei Nova 9 SE, Azul, 128 GB, 8 GB, ...",1
imagen,29,9,https://ir.ebaystatic.com/cr/v/c1/s_1x2.gif,21


In [58]:
# nos puede interesar saber si tenemos valores nulos en nuestro conjunto de datos. 
# para eso tendremos que usar el método ".isnull()" 
df.isnull().sum()

nombre    0
precio    0
dtype: int64

In [59]:
df.duplicated().sum()

0

In [60]:
df.duplicated(subset = "precio").sum()

2

# Sacando datos de una tabla 

En ocasiones, como analistas de datos, nos puede interesar obtener información específica de una tabla que se encuentra en una página web. La extracción de datos de una tabla en una página web implica un proceso un poco diferente en comparación con la extracción de información de texto plano. Como en el ejemplo anterio, utilizaremos la biblioteca Pandas en combinación con otras bibliotecas como `requests` y `BeautifulSoup` para lograr esto.

El escenario particular que abordaremos es la extracción de datos del histórico de los precios del IBEX-35. El IBEX-35 es un índice bursátil compuesto por las 35 empresas con mayor capitalización en la Bolsa de Madrid. Estos datos históricos de precios nos brindan información valiosa para el análisis y seguimiento de los mercados financieros.


Algunas de las preguntas que podríamos contestar con estos datos son: 

1. **¿Cuál ha sido la tendencia general del IBEX-35 en un período de tiempo específico?** Podemos analizar los precios de cierre del IBEX-35 a lo largo del tiempo y determinar si ha habido una tendencia alcista, bajista o lateral. Podemos identificar períodos de crecimiento sostenido, caídas significativas o momentos de estabilidad.

2. **¿Cuáles han sido los máximos y mínimos históricos del IBEX-35?** Podemos identificar los puntos más altos y más bajos alcanzados por el índice a lo largo de su historia. Esto puede ser útil para evaluar el rendimiento general y la volatilidad del mercado.

3. **¿Cuáles han sido los cambios porcentuales diarios o mensuales del IBEX-35?** Podemos calcular los cambios porcentuales diarios o mensuales en el valor del índice para identificar períodos de alta volatilidad o estabilidad. Esto puede proporcionar información sobre la magnitud y la frecuencia de los movimientos del mercado.

4. **¿Cuáles son los patrones estacionales o cíclicos en el comportamiento del IBEX-35?** Podemos analizar los datos históricos para identificar patrones estacionales o cíclicos en el rendimiento del índice. Por ejemplo, podríamos examinar si hay tendencias específicas asociadas con ciertos meses del año o días de la semana.

Estas son solo algunas preguntas que podríamos responder utilizando los datos históricos del IBEX-35. Dependiendo de los objetivos de análisis y las necesidades específicas, podremos formular preguntas adicionales y realizar análisis más detallados para comprender mejor el comportamiento y las tendencias del mercado.

In [5]:
# al igual que en el ejemplo anterior lo primero que haremos será definir la url de la página de la vamos a sacar datos
url_bolsa = "https://www.bolsamania.com/indice/IBEX-35/historico-precios"

# hacemos la request a la página de la que queremos sacar la info
res_bolsa = requests.get(url_bolsa)

# vemos si todo ha ido bien
print("La respuesta de la petición es:", res_bolsa.status_code)

La respuesta de la petición es: 200


In [6]:
# creamos el objeto BeautifulSoup para poder acceder al contenido solicitado
sopa_bolsa = BeautifulSoup(res_bolsa.content, 'html.parser')

# recordemos que el método .prettify nos permite mostrar de una forma más amigable los resultados obtenidos de la sopa
print(sopa_bolsa.prettify())

<!DOCTYPE html>
<html lang="es" xml:lang="es">
 <head>
  <title>
   Precios históricos de IBEX 35  - Bolsamania.com
  </title>
  <link href="https://www.bolsamania.com/rss/generarRss2.php" rel="alternate" title="RSS de bolsamania" type="application/rss+xml"/>
  <meta content="Precios históricos de IBEX 35  - Bolsamania.com" name="title"/>
  <meta content="Precios históricos de IBEX 35" name="description"/>
  <meta content="bolsa,portal,financiero,cotizaciones,madrid,actualidad,bursatil,noticias,cartera,recomendaciones,mercado,continuo,ibex,divisas,finanzas,mercados, IBEX 35,fsSector:fs_" name="keywords"/>
  <meta content="vQvvK3aWyocxI4jZrUYY1wlUpVGsOTMHg2qPFieRTUA" name="google-site-verification"/>
  <meta content="1436008526699345" property="fb:pages"/>
  <meta content="6wdyrqwezubh8d1ltqd7vnmi6tyusa" name="facebook-domain-verification"/>
  <meta content="Madrid, Spain" name="locality"/>
  <meta content="Web Financial Group, S.A." name="author"/>
  <meta content="width=device-width, 

In [7]:
# vamos a seguir usando el metodo ".find_all()", pero en este caso lo que buscaremos son todas las tablas que tenemos en la página web.
tablas = sopa_bolsa.find_all("table")

print("El número de tablas que tenemos en la página web es:", len(tablas))

El número de tablas que tenemos en la página web es: 3


In [8]:
# veamos que tenemos en cada una de las tablas que hemos extraído de la página web. 
print("En la tabla 1 tenemos: \n ", tablas[0])
print("\n---------------------\n")

print("En la tabla 2 tenemos: \n", tablas[1])
print("\n---------------------\n")

print("En la tabla 3 tenemos: \n", tablas[2])


En la tabla 1 tenemos: 
  <table class="stripped xs-grid-table">
<tbody>
<tr>
<td>Periodo</td>
<td class="text-right">
                                    22 dic - 21 ene                                </td>
</tr>
<tr>
<td>Máximo</td>
<td class="text-right">
                                    11.991,5000  (20-ene-25)                                </td>
</tr>
<tr>
<td>Mínimo</td>
<td class="text-right">
                                    11.399,1000  (23-dic-24)                                </td>
</tr>
</tbody>
</table>

---------------------

En la tabla 2 tenemos: 
 <table class="stripped xs-grid-table">
<tbody>
<tr>
<td>Diferencia</td>
<td class="text-right">592,4000</td>
</tr>
<tr>
<td>Promedio</td>
<td class="text-right">11.731,9263</td>
</tr>
<tr>
<td>Variación %</td>
<td class="text-right"><span class="cgreen">3,96%</span></td>
</tr>
</tbody>
</table>

---------------------

En la tabla 3 tenemos: 
 <table class="table table-hover cator sortable table-bm xs-grid-table stripp

**Cuando estamos trabajando con tablas, es importante tener claro cual es la sintaxis de los distintos elementos HTML que componen la tabla, aquí os dejamos un resumen**: 

En HTML, los elementos . Aquí hay algunos elementos relacionados con `<tr>` que se utilizan comúnmente:

1. `<table>`: Este elemento se utiliza para crear una tabla en HTML y envuelve todas las filas y columnas de la tabla.

2. `<tr>`: Se utilizan para definir filas dentro de una tabla. Estos elementos hacen referencia a las filas de la tabla y deben estar ubicados dentro del elemento `<table>`

3. `<td>`: Representa una celda de datos en una tabla. Los elementos `<td>` deben estar ubicados dentro de un elemento `<tr>` para crear una celda en una fila.

4. `<th>`: Representa una celda de encabezado en una tabla. Al igual que `<td>`, los elementos `<th>` también deben estar ubicados dentro de un elemento `<tr>`, pero se utilizan para resaltar los encabezados de columna o fila.


In [9]:
# La tabla que nos interesa es la última por lo que vamos a crear una nueva variable donde almacenemos los resultados de la tabla que nos interesa
nuestra_tabla = tablas[2]

# lo primero que nos va a interesar es extraer los encabezados de la tabla, teniendo en cuenta las definiciones que hemos visto antes, 
# seleccionaremos la etiqueta "th" usando el método "th"
lista_ecabezados = nuestra_tabla.find_all("th")

print("La lista que nos devuelve el metodo '.find_all()' es:\n", lista_ecabezados)

# como hemos estado haciendo hasta ahora, tendremos que iterar por la lista obtenida en el paso anterior y extraer el texto de cada elemento
encabezados_ibex = [columna.text for columna in lista_ecabezados]

print("\n-------------------------\n")
print("Los encabezados de la tabla son:", encabezados_ibex)

La lista que nos devuelve el metodo '.find_all()' es:
 [<th class="text-left" v-table-sorter-by="'date'">Fecha<span></span></th>, <th class="text-right" v-table-sorter-by="'price'">Precio<span></span></th>, <th class="text-right" v-table-sorter-by="'fallers'">Variación %<span></span></th>, <th class="text-right" v-table-sorter-by="'high'">Máximo<span></span></th>, <th class="text-right" v-table-sorter-by="'low'">Mínimo<span></span></th>, <th class="text-right" v-table-sorter-by="'open'">Apertura<span></span></th>]

-------------------------

Los encabezados de la tabla son: ['Fecha', 'Precio', 'Variación %', 'Máximo', 'Mínimo', 'Apertura']


Vale ... hasta ahora hemos conseguido sacar los encabezados, ahora nos toca sacar la información de las filas, que como hemos dicho antes, tendremos que usar la etiqueta `tr`. Pongamonos manos a la obra: 

In [10]:
# sacamos todas las filas de la variable que nos hemos creado previamente (nuestra tabla), usando el método .find_all()
filas_ibex = nuestra_tabla.find_all("tr")

print("La cantidad de filas que hemos extraido de la tabla es:", len(filas_ibex))

print("\n----------------------\n")
print("El contenido que tenemos en la primera fila es:\n", filas_ibex[0] )

print("\n----------------------\n")
print("El contenido que tenemos en la segunda fila es:\n", filas_ibex[1] )

La cantidad de filas que hemos extraido de la tabla es: 20

----------------------

El contenido que tenemos en la primera fila es:
 <tr>
<th class="text-left" v-table-sorter-by="'date'">Fecha<span></span></th>
<th class="text-right" v-table-sorter-by="'price'">Precio<span></span></th>
<th class="text-right" v-table-sorter-by="'fallers'">Variación %<span></span></th>
<th class="text-right" v-table-sorter-by="'high'">Máximo<span></span></th>
<th class="text-right" v-table-sorter-by="'low'">Mínimo<span></span></th>
<th class="text-right" v-table-sorter-by="'open'">Apertura<span></span></th>
</tr>

----------------------

El contenido que tenemos en la segunda fila es:
 <tr>
<td class="text-left">23-dic-24</td>
<td class="text-right">11.435,700</td>
<td class="text-right"><span class="dred">-0,28%</span></td>
<td class="text-right">11.474,900</td>
<td class="text-right">11.399,100</td>
<td class="text-right">11.457,800</td>
</tr>


Si nos fijamos el primer elemento de la lista de las filas nos esta dando la información de los encabezados, pero a partir del segundo elemento tenemos todos los valores de la tabla que queremos. Como hasta ahora tendremos que iterar por toda la lista y sacar el texto, pero en este caso empezaremos a interar desde el elemento que esté en segunda posición ya que los encabezados los hemos sacado en el paso anterior. 

In [11]:
# Creamos una lista llamada 'resultados_ibex' para almacenar los resultados obtenidos.
resultados_ibex = []

# Iniciamos un bucle 'for' para iterar a través de la lista 'filas_ibex', pero comenzamos desde el segundo elemento de la lista.
for fila in filas_ibex[1:]:
    # Para cada 'fila', extraemos el texto, lo dividimos en una lista usando '\n' como separador y eliminamos el primer y último elemento de la lista.
    fila_texto = fila.text
    elementos_fila = fila_texto.split("\n")[1:-1]

    # Añadimos la lista de elementos a la lista 'resultados_ibex'.
    resultados_ibex.append(elementos_fila)

# Imprimimos los resultados obtenidos después de iterar por la lista.
print("Los resultados de iterar por la lista son:\n", resultados_ibex)


Los resultados de iterar por la lista son:
 [['23-dic-24', '11.435,700', '-0,28%', '11.474,900', '11.399,100', '11.457,800'], ['24-dic-24', '11.473,900', '0,33%', '11.485,700', '11.446,200', '11.468,500'], ['27-dic-24', '11.531,600', '0,50%', '11.531,600', '11.421,900', '11.452,000'], ['30-dic-24', '11.536,800', '0,05%', '11.600,400', '11.470,800', '11.478,200'], ['31-dic-24', '11.595,000', '0,50%', '11.613,400', '11.525,400', '11.529,600'], ['02-ene-25', '11.676,900', '0,71%', '11.676,900', '11.456,200', '11.609,800'], ['03-ene-25', '11.651,600', '-0,22%', '11.701,800', '11.635,500', '11.681,400'], ['06-ene-25', '11.808,200', '1,34%', '11.808,200', '11.613,700', '11.692,100'], ['07-ene-25', '11.811,900', '0,03%', '11.866,600', '11.724,600', '11.797,400'], ['08-ene-25', '11.798,100', '-0,12%', '11.871,700', '11.709,400', '11.800,000'], ['09-ene-25', '11.899,300', '0,86%', '11.904,200', '11.753,800', '11.756,900'], ['10-ene-25', '11.720,900', '-1,50%', '11.877,200', '11.703,800', '11.86

Si nos fijamos, al igual que en el ejemplo anterior tenemos los números como *strings*, por lo que lo vamos a cambiar para tener los formatos corretos: 

- En concreto cambiaremos las "," por "."

- Quitaremos los % que tenemos en algunos de los valores. 

In [68]:
# Iteramos a través de cada lista en 'resultados_ibex' y sus elementos usando 'enumerate'.
for indice_lista, lista in enumerate(resultados_ibex):
    for indice_elemento, elemento in enumerate(lista):
        try:
            # Intentamos convertir cada elemento de la lista en un número de punto flotante.
            # Para ello, eliminamos caracteres especiales como '%' y reformateamos la puntuación.
            resultados_ibex[indice_lista][indice_elemento] = float(elemento.replace("%", "").replace(".", "").replace(",", "."))
        except:
            # Si se produce una excepción (por ejemplo, si el elemento no es convertible a flotante), 
            # mantenemos el elemento original en la lista.
            resultados_ibex[indice_lista][indice_elemento] = elemento
            
# Imprimimos los resultados después de limpiar los datos.
print("Los resultados después de limpiar los datos son: \n", resultados_ibex)


Los resultados después de limpiar los datos son: 
 [['23-dic-24', 11435.7, -0.28, 11474.9, 11399.1, 11457.8], ['24-dic-24', 11473.9, 0.33, 11485.7, 11446.2, 11468.5], ['27-dic-24', 11531.6, 0.5, 11531.6, 11421.9, 11452.0], ['30-dic-24', 11536.8, 0.05, 11600.4, 11470.8, 11478.2], ['31-dic-24', 11595.0, 0.5, 11613.4, 11525.4, 11529.6], ['02-ene-25', 11676.9, 0.71, 11676.9, 11456.2, 11609.8], ['03-ene-25', 11651.6, -0.22, 11701.8, 11635.5, 11681.4], ['06-ene-25', 11808.2, 1.34, 11808.2, 11613.7, 11692.1], ['07-ene-25', 11811.9, 0.03, 11866.6, 11724.6, 11797.4], ['08-ene-25', 11798.1, -0.12, 11871.7, 11709.4, 11800.0], ['09-ene-25', 11899.3, 0.86, 11904.2, 11753.8, 11756.9], ['10-ene-25', 11720.9, -1.5, 11877.2, 11703.8, 11861.5], ['13-ene-25', 11688.2, -0.28, 11707.5, 11637.0, 11664.0], ['14-ene-25', 11752.1, 0.55, 11797.2, 11721.5, 11745.8], ['15-ene-25', 11898.5, 1.25, 11923.5, 11750.9, 11795.3], ['16-ene-25', 11840.6, -0.49, 11973.3, 11801.2, 11972.8], ['17-ene-25', 11916.3, 0.64, 1194

Igual que en el caso anterior, es el momento de crear una función con todo el código que hemos ido creando hasta ahora, para unificarlo todo. 

In [69]:
def sacar_tabla_ibex(url):
    
    """
    Extrae datos de una tabla en una página web y devuelve los encabezados y los resultados de la tabla.

    Parameters:
    url (str): La URL de la página web de la que se extraerán los datos de la tabla.

    Returns:
    tuple: Una tupla que contiene dos elementos.
        - Una lista de encabezados de columna de la tabla.
        - Una lista de listas que representan los resultados de la tabla.
    """
    # al igual que en el ejemplo anterior lo primero que haremos será definir la url de la página de la vamos a sacar datos
    url_bolsa_ibex = "https://www.bolsamania.com/indice/IBEX-35/historico-precios"

    # hacemos la request a la página de la que queremos sacar la info
    res_bolsa_ibex = requests.get(url_bolsa_ibex)

    # vemos si todo ha ido bien
    print("La respuesta de la petición es:", res_bolsa_ibex.status_code)
    
    # creamos el objeto BeautifulSoup para poder acceder al contenido solicitado
    sopa_bolsa_historico = BeautifulSoup(res_bolsa_ibex.content, 'html.parser')
    
    # vamos a seguir usando el metodo ".find_all()", pero en este caso lo que buscaremos son todas las tablas que tenemos en la página web.
    tablas_historico = sopa_bolsa.find_all("table")
    
    # La tabla que nos interesa es la última por lo que vamos a crear una nueva variable donde almacenemos los resultados de la tabla que nos interesa
    nuestra_tabla_historico = tablas_historico[2]

    # lo primero que nos va a interesar es extraer los encabezados de la tabla, teniendo en cuenta las definiciones que hemos visto antes, 
    # seleccionaremos la etiqueta "th" usando el método "th"
    lista_ecabezados_historico = nuestra_tabla_historico.find_all("th")

    print("La lista que nos devuelve el metodo '.find_all()' es:\n", lista_ecabezados_historico)

    # como hemos estado haciendo hasta ahora, tendremos que iterar por la lista obtenida en el paso anterior y extraer el texto de cada elemento
    encabezados_ibex_historico = [columna.text for columna in lista_ecabezados_historico]
    
    # sacamos todas las filas de la variable que nos hemos creado previamente (nuestra tabla), usando el método .find_all()
    filas_ibex_historico = nuestra_tabla_historico.find_all("tr")
    
    # creamos una lista para almacenar todos los resultados obtenidos de la lista de  "filas_ibex"
    resultados_ibex_historico = []

    # empezamos a iterar por la lista, pero fijaos que en este caso empezamos desde el segundo elemento de la lista
    for fila in filas_ibex_historico[1:]:
        # añadimos cada elemento a la lista que hemos creado previamente. 
        resultados_ibex_historico.append(fila.text.split("\n")[1:-1])
        
    resultados_ibex_limpio_historico = []
    for indice_lista, lista in enumerate(resultados_ibex_historico):
        for indice_elemento, elemento in enumerate(lista):
            try:
                resultados_ibex_historico[indice_lista][indice_elemento] = float(elemento.replace("%", "").replace(".", "").replace(",", "."))
            except:
                resultados_ibex_historico[indice_lista][indice_elemento]  = elemento
                
    return encabezados_ibex_historico, resultados_ibex_historico


In [70]:
encabezados_ibex_final, datos_ibex_final = sacar_tabla_ibex(url_bolsa)

La respuesta de la petición es: 200
La lista que nos devuelve el metodo '.find_all()' es:
 [<th class="text-left" v-table-sorter-by="'date'">Fecha<span></span></th>, <th class="text-right" v-table-sorter-by="'price'">Precio<span></span></th>, <th class="text-right" v-table-sorter-by="'fallers'">Variación %<span></span></th>, <th class="text-right" v-table-sorter-by="'high'">Máximo<span></span></th>, <th class="text-right" v-table-sorter-by="'low'">Mínimo<span></span></th>, <th class="text-right" v-table-sorter-by="'open'">Apertura<span></span></th>]


Si nos fijamos ahora, lo que tenemos es una lista de listas. Lo siguiente que querremos hacer en convertirlo en tabla (*DataFrame*) con Pandas como hicimos antes con el ejemplo ed Ebay. Pero antes teníamos un diccionario, ¿podremos convertir esta lista de listas a *DataFrame*? La respuesta es sí, de la misma forma que lo hicimos antes, usando el método de Pandas `pd.DataFrame`. Resumiendo, podremos convertir a *DataFrame*: 

- Un diccionario

- Una lista de listas

In [71]:
# convertimos la lista de listas a DataFrame usando el método 'pd.DataFrame()'. 
df_ibex = pd.DataFrame(datos_ibex_final)

# mostramos las 5 primeras filas del DataFrame
# pero si nos fijamos ahora, los nombres de nuestras columnas son números y no los nombres de los encabezados que sacamos de la tabla de la página web
display("Mostramos las 5 primeras filas del DataFrame",df_ibex.head())
print("-------------------------")
# para poder poner nombre a las columnas en Pandas tenemos varios métodos, pero uno de los más comunes es el método '.columns' 
# en este caso le estamos diciendo que las columnas de nuestro DataFrane queremos que correspondan con los valores de la listas de encabezados_index que creamos al inicio
df_ibex.columns = encabezados_ibex_final


# Mostramos las dos primeras filas del DataFrame
# ahora vemos que las columnas ya no son números, si no los encabezamos que sacamos al inicio
display("Mostramos las 2 primeras filas del DataFrame", df_ibex.head(2))
print("-------------------------")

# el número de filas y columnas del DataFrame son
print("El número de filas y columnas es:", df_ibex.shape)

'Mostramos las 5 primeras filas del DataFrame'

Unnamed: 0,0,1,2,3,4,5
0,23-dic-24,11435.7,-0.28,11474.9,11399.1,11457.8
1,24-dic-24,11473.9,0.33,11485.7,11446.2,11468.5
2,27-dic-24,11531.6,0.5,11531.6,11421.9,11452.0
3,30-dic-24,11536.8,0.05,11600.4,11470.8,11478.2
4,31-dic-24,11595.0,0.5,11613.4,11525.4,11529.6


-------------------------


'Mostramos las 2 primeras filas del DataFrame'

Unnamed: 0,Fecha,Precio,Variación %,Máximo,Mínimo,Apertura
0,23-dic-24,11435.7,-0.28,11474.9,11399.1,11457.8
1,24-dic-24,11473.9,0.33,11485.7,11446.2,11468.5


-------------------------
El número de filas y columnas es: (18, 6)


In [72]:
# si recordamos teníamos el método '.dtypes' nos permitía saber cuales eran los tipos de los datos de las distintas columnas que tenemos en el DataFrame
df_ibex.dtypes

Fecha           object
Precio         float64
Variación %    float64
Máximo         float64
Mínimo         float64
Apertura       float64
dtype: object

In [73]:
# sigamos conociendo algunos métodos nuevos, en este caso sacaremos los valores únicos que tenemos en algunas de las columnas
# para eso usaremos el método '.unique()'. Lo que nos va a mostrar esto son las fechas diferentes que tenemos en la columna de Fecha 
print("Los valores únicos que tenemos en la columna de Fecha son:\n", df_ibex["Fecha"].unique())

print("Los valores únicos que tenemos en la columna de Fecha son:\n", df_ibex["Máximo"].unique())

Los valores únicos que tenemos en la columna de Fecha son:
 ['23-dic-24' '24-dic-24' '27-dic-24' '30-dic-24' '31-dic-24' '02-ene-25'
 '03-ene-25' '06-ene-25' '07-ene-25' '08-ene-25' '09-ene-25' '10-ene-25'
 '13-ene-25' '14-ene-25' '15-ene-25' '16-ene-25' '17-ene-25' '20-ene-25']
Los valores únicos que tenemos en la columna de Fecha son:
 [11474.9 11485.7 11531.6 11600.4 11613.4 11676.9 11701.8 11808.2 11866.6
 11871.7 11904.2 11877.2 11707.5 11797.2 11923.5 11973.3 11940.8 11991.5]


In [74]:
# otro de los métodos que más usaremos es el método '.value_counts()' 
# este método lo que va a hacer es contar cuántas veces aparecen cada una de los valores únicos que tenemos en esa columna
# en este caso lo que vemos es que cada una de las fechas que tenemos en la columna aparecen solo una vez. 
df_ibex["Fecha"].value_counts()

23-dic-24    1
24-dic-24    1
17-ene-25    1
16-ene-25    1
15-ene-25    1
14-ene-25    1
13-ene-25    1
10-ene-25    1
09-ene-25    1
08-ene-25    1
07-ene-25    1
06-ene-25    1
03-ene-25    1
02-ene-25    1
31-dic-24    1
30-dic-24    1
27-dic-24    1
20-ene-25    1
Name: Fecha, dtype: int64

In [35]:
# de la misma forma que le hemos preguntado antes a Pandas cuántos valores nulos tenemos por columnas, 
# también le podemos preguntar cuántos valores no nulos tenemos en cada una de ellas usando el método 'notnull()'
df_ibex.notnull().sum()

Fecha          20
Precio         20
Variación %    20
Máximo         20
Mínimo         20
Apertura       20
dtype: int64

In [36]:
# por último, nos puede interesar guardar estos datos en un csv en nuestro ordenador para utilizarla en otro momento
# para esto tendremos que usar el método "pd.to_csv()"

df_ibex.to_csv("datos_ibex.csv")