# M√©todos importantes de *Beautiful Soup*

Algunos de los m√©todos principales de Beautiful Soup:

1. **BeautifulSoup**: Es el constructor principal de Beautiful Soup. Toma el c√≥digo HTML o XML como entrada y lo analiza para crear un objeto BeautifulSoup. Su sintaxis b√°sica es:
   ```python
   from bs4 import BeautifulSoup

   # Crear un objeto BeautifulSoup
   soup = BeautifulSoup(html_doc, 'html.parser')
   ```

2. **find() y find_all()**: Estos m√©todos son fundamentales para buscar elementos en un documento analizado con Beautiful Soup.
   - `find()` **devuelve el primer elemento** que coincide con los criterios de b√∫squeda.

   - `find_all()` **devuelve una lista de todos los elementos** que coinciden con los criterios de b√∫squeda.
   
      ```python
      # Buscar un elemento por su etiqueta
      soup.find('a')

      # Buscar todos los elementos <a> en una lista
      soup.find_all('a')
      ```

3.  **select()**: devuelve una lista de objetos Tag que coinciden con el selector CSS especificado. Su sintaxis b√°sica es: 
      ```python
      # Buscar todos los elementos <a> dentro de elementos <li>
      enlaces = soup.select('li a')
      ```

4. **text** o **getText()**: El atributo `text` devuelve el texto contenido dentro de una etiqueta. Ambos m√©todos hacen exactamente lo mismo. Accederemos a √©l de la siguiente manera:
      ```python
      # Obtener el texto de un elemento
      elemento.text
      ```

5. **get()**: El m√©todo `get()` se utiliza para obtener el valor de un atributo de una etiqueta. Aqu√≠ tienes un ejemplo:
      ```python
      # Obtener el valor de un atributo
      elemento.get('href')
      ```

## Pandas

**Pandas** es una de las librer√≠as m√°s populares de Python utilizada en el an√°lisis de datos y la manipulaci√≥n de estructuras de datos. Proporciona estructuras de datos y herramientas de manipulaci√≥n de alto rendimiento, dise√±adas espec√≠ficamente para facilitar el trabajo con datos estructurados o tabulares.

La estructura de datos principal en **Pandas** se llama *DataFrame*, que es esencialmente una tabla de datos bidimensional con columnas etiquetadas y filas indexadas (como un Excel con el que puede que si est√©s m√°s familiarizada). Los *DataFrames* en Pandas permiten almacenar y manipular datos de manera eficiente, ofreciendo una amplia gama de funciones para filtrar, seleccionar, agregar y transformar datos.

La librer√≠a Pandas proporciona numerosas funciones y m√©todos para realizar operaciones comunes de an√°lisis de datos, como la limpieza y preparaci√≥n de datos, la agregaci√≥n y resumen de datos, el filtrado y selecci√≥n de datos, la manipulaci√≥n de fechas y mucho m√°s. Tambi√©n permite leer y escribir datos en varios formatos, como archivos CSV, Excel, SQL, entre otros.

Como analistas de datos utilizaremos Pandas por varias razones. Algunas de las m√°s importantes son:

1. **Manipulaci√≥n y limpieza de datos**:  ofrece una amplia gama de funciones y m√©todos que facilitan la manipulaci√≥n y limpieza de datos. Permite cargar datos desde diferentes fuentes, como archivos CSV, Excel, SQL, etc., y ofrece herramientas para filtrar y seleccionar datos, eliminar valores nulos, cambiar el formato de datos, etc. Estas capacidades son esenciales para preparar y transformar los datos antes de realizar el an√°lisis.

2. **An√°lisis exploratorio de datos**: proporciona herramientas eficientes para realizar un an√°lisis exploratorio de datos. Permite realizar operaciones estad√≠sticas b√°sicas, calcular medidas de resumen, explorar correlaciones entre variables y crear visualizaciones para comprender mejor los datos. Esto ayuda a los analistas de datos a obtener informaci√≥n r√°pida sobre la distribuci√≥n de los datos, las tendencias y las relaciones entre las variables.

3. **Indexaci√≥n y selecci√≥n de datos**: facilita la indexaci√≥n y selecci√≥n de datos en un DataFrame. Permite acceder a columnas y filas espec√≠ficas, filtrar datos seg√∫n condiciones espec√≠ficas y realizar operaciones avanzadas de indexaci√≥n y selecci√≥n. Estas capacidades son cruciales para extraer los datos relevantes necesarios para un an√°lisis espec√≠fico.

4. **Combinaci√≥n y agregaci√≥n de datos**: Los analistas de datos a menudo necesitan combinar y agregar datos de diferentes fuentes. Pandas ofrece funcionalidades para fusionar, unir y concatenar DataFrames, lo que permite combinar datos de diferentes tablas y realizar operaciones de agregaci√≥n, como sumarizaci√≥n de datos, agrupaci√≥n y c√°lculo de estad√≠sticas descriptivas. 

In [11]:
# convertir el diccionario en DataFrame
# usar el m√©todo pd.DataFrame(), que es uno de los m√©todos que m√°s usaremos m√°s a menudo durante estas lecciones
# esta tabla la almacenaremos en una variable llamada "df"

df = pd.DataFrame(todos_resultados_moviles)

# utilizaremos el m√©todo .head() para mostrar las 5 primeras filas del dataframe generado en el paso anterior
df.head()

Unnamed: 0,nombre,precio,imagen
0,OnePlus Nord 8Gb + 128GB - Blue Libre Dual SIM...,89.0,https://i.ebayimg.com/thumbs/images/g/9NMAAOSw...
1,SMARTPHONE ONE PLUS NORD 5G 128GB 8gb 6.44 4...,139.0,https://i.ebayimg.com/thumbs/images/g/CVoAAOSw...
2,SMARTPHONE HUAWEI P30 Lite 128Gb,80.0,https://i.ebayimg.com/thumbs/images/g/uT0AAOSw...
3,LG VELVET 5G GREEN,180.0,https://i.ebayimg.com/thumbs/images/g/dbkAAOSw...
4,OPPO Find X3 Pro CPH2173 - 256GB - BLANCO LIBR...,239.0,https://i.ebayimg.com/thumbs/images/g/SzsAAOSw...


In [12]:
# si queremos sacar las √∫ltimas filas del dataframe usaremos el m√©todo .tail()
df.tail()

Unnamed: 0,nombre,precio,imagen
55,Xiaomi Poco X3 PRO 6 RAM 128 GB Android (PO112...,165.3,https://ir.ebaystatic.com/cr/v/c1/s_1x2.gif
56,XIAOMI MI 11 5g 128GB 8gb Ram,290.0,https://ir.ebaystatic.com/cr/v/c1/s_1x2.gif
57,Huawei P9 lite Blanco VNS-L31 sin Simlock Smar...,52.36,https://ir.ebaystatic.com/cr/v/c1/s_1x2.gif
58,Xiaomi Redmi Note 11 Gris 128GB Smartphone Des...,172.85,https://ir.ebaystatic.com/cr/v/c1/s_1x2.gif
59,"Huawei P Smart 2019 - 3GB/64GB - 6.21"" Screen...",72.0,https://ir.ebaystatic.com/cr/v/c1/s_1x2.gif


In [13]:
# ¬øcu√°ntas filas y columnas tenemos en el dataframe? usaremos el m√©todo .shape
# fijaos que este m√©todo nos devuelve una tupla con dos elementos. 
# el PRIMERO de los elementos hace referencia al n√∫mero de FILAS
# el SEGUNDO de los elementos hace referencia al n√∫mero de COLUMNAS
df.shape

(60, 3)

In [14]:
# ¬øcu√°les son los tipos de datos que tenemos en cada columna?
# para eso usaremos el m√©todo .dtypes
# üìå NOTA: en Pandas los strings son mostrados como tipo "object"
df.dtypes

nombre     object
precio    float64
imagen     object
dtype: object

In [15]:
# en Pandas tenemos un m√©todo que aglutina toda la informaci√≥n que hemos visto hasta ahora, 
# ese m√©todo es el ".info()"
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   nombre  60 non-null     object 
 1   precio  60 non-null     float64
 2   imagen  60 non-null     object 
dtypes: float64(1), object(2)
memory usage: 1.5+ KB


In [16]:
# Pandas tambi√©n nos permiten extraer los principales estad√≠sticos de nuestro conjunto de datos. 
# usaremos el m√©todo ".describe()"
# es importante destacar que por defecto este m√©todo nos va a devolver los principales estad√≠sticos de las variables de tipo num√©rico
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
precio,60.0,177.238333,123.159151,28.0,88.5,139.5,219.3525,670.0


In [17]:
# si quisieramos saber cuales son los principales estad√≠sticos de las variables categ√≥ricas tendremos que incluir un par√°metro en el m√©todo ".describe()"
# este par√°metro es el "include"
df.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
nombre,60,60,OnePlus Nord 8Gb + 128GB - Blue Libre Dual SIM...,1
imagen,60,9,https://ir.ebaystatic.com/cr/v/c1/s_1x2.gif,52


In [18]:
# nos puede interesar saber si tenemos valores nulos en nuestro conjunto de datos. 
# para eso tendremos que usar el m√©todo ".isnull()" 
df.isnull().sum()

nombre    0
precio    0
imagen    0
dtype: int64

In [19]:
df.duplicated().sum()

0

In [20]:
df.duplicated(subset = "precio").sum()

5

# 1.4 Extraccion de Tablas de los Premios Oscar con Beautiful Soup

En esta fase, trabajar√°n con la biblioteca Beautiful Soup para extraer informaci√≥n relevante de las tablas de los premios Oscar desde 2000. La tabla la encontrar√°s en el este link. La informaci√≥n que deber√°s sacar es:

Fecha de la ceremonia.

Mejor pel√≠cula.

Mejor director.

Mejor actor.

Mejor actriz.

In [1]:
! pip install beautifulsoup4



In [2]:
# antes de empezar importamos las librer√≠as que vamos a usar. 
# Importar librer√≠as para web scraping y manipulaci√≥n de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librer√≠as para manipulaci√≥n y an√°lisis de datos
# -----------------------------------------------------------------------
import pandas as pd

# Importar librer√≠as para procesamiento de texto
# -----------------------------------------------------------------------
import re

In [4]:
# al igual que en el ejemplo anterior lo primero que haremos ser√° definir la url de la p√°gina de la vamos a sacar datos
url_oscar = "https://es.wikipedia.org/wiki/Premios_%C3%93scar"

# hacemos la request a la p√°gina de la que queremos sacar la info
res_oscar = requests.get(url_oscar)

# vemos si todo ha ido bien
print("La respuesta de la petici√≥n es:", res_oscar.status_code)

La respuesta de la petici√≥n es: 200


In [5]:
# creamos el objeto BeautifulSoup para poder acceder al contenido solicitado
sopa_oscar = BeautifulSoup(res_oscar.content, 'html.parser')

# M√©todo .prettify nos permite mostrar de una forma m√°s amigable los resultados obtenidos de la sopa
print(sopa_oscar.prettify())

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-enabled vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-disabled skin-theme-clientpref-day vector-toc-available" dir="ltr" lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   Premios √ìscar - Wikipedia, la enciclopedia libre
  </title>
  <script>
   (function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-

In [6]:
# vamos a seguir usando el metodo ".find_all()", pero en este caso lo que buscaremos son todas las tablas que tenemos en la p√°gina web.
tablas = sopa_oscar.find_all("table")

print("El n√∫mero de tablas que tenemos en la p√°gina web es:", len(tablas))

El n√∫mero de tablas que tenemos en la p√°gina web es: 4


In [9]:
# veamos que tenemos en cada una de las tablas que hemos extra√≠do de la p√°gina web. 
print("En la tabla 1 tenemos: \n ", tablas[0])
print("\n---------------------\n")

print("En la tabla 2 tenemos: \n", tablas[1])
print("\n---------------------\n")

print("En la tabla 3 tenemos: \n", tablas[2])
print("\n---------------------\n")

print("En la tabla 4 tenemos: \n", tablas[3])
print("\n---------------------\n")

# Las tablas de esta url no son las que nos interesan ay que ir a las tablas por categor√≠a.

En la tabla 1 tenemos: 
  <table class="infobox" style="width:22.7em; line-height: 1.4em; text-align:left; padding:.23em;"><tbody><tr><th class="cabecera" colspan="3" style="text-align:center;background-color:#FFEC80;color:inherit;">Premios √ìscar</th></tr><tr><td colspan="3" style="text-align:center;background-color:#FFEC80;;">
<span typeof="mw:File"><a class="mw-file-description" href="/wiki/Archivo:Current_event_marker.svg" title="Evento actual"><img alt="Evento actual" class="mw-file-element" data-file-height="530" data-file-width="764" decoding="async" height="21" src="//upload.wikimedia.org/wikipedia/commons/thumb/5/59/Current_event_marker.svg/30px-Current_event_marker.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/5/59/Current_event_marker.svg/45px-Current_event_marker.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/5/59/Current_event_marker.svg/60px-Current_event_marker.svg.png 2x" width="30"/></a></span> <i><a href="/wiki/96.%C2%AA_edici%C3%B3n_de

In [10]:
# Voy a definir la web donde est√° la tabla de oscar a la mejor pel√≠cula:
url_oscar_pelicula = "https://es.wikipedia.org/wiki/Anexo:%C3%93scar_a_la_mejor_pel%C3%ADcula"

# hacemos la request a la p√°gina de la que queremos sacar la info
res_oscar_pelicula = requests.get(url_oscar_pelicula)

# vemos si todo ha ido bien
print("La respuesta de la petici√≥n es:", res_oscar_pelicula.status_code)

La respuesta de la petici√≥n es: 200


In [11]:
# Creo objeto Beautiful soup para acceder
sopa_oscar_pelicula = BeautifulSoup(res_oscar_pelicula.content, 'html.parser')

# recordemos que el m√©todo .prettify nos permite mostrar de una forma m√°s amigable los resultados obtenidos de la sopa
print(sopa_oscar_pelicula.prettify())

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-enabled vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-disabled skin-theme-clientpref-day vector-toc-available" dir="ltr" lang="es">
 <head>
  <meta charset="utf-8"/>
  <title>
   Anexo:√ìscar a la mejor pel√≠cula - Wikipedia, la enciclopedia libre
  </title>
  <script>
   (function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpre

**Ementos HTML que componen la tabla**: 

1. `<table>`: Una tabla
2. `<tr>`: Table Row - Fila dentro de una tabla. 
3. `<td>`: Table Data - Celda de datos. Debe estar dentro de <tr> 
4. `<th>`: Table Head - El encabezado (cabeza) en una celda, Debe estar dentro de una <tr> . Sirven para resaltar los encabezados de una columna o fila. 

In [12]:
# vamos a seguir usando el metodo ".find_all()", pero en este caso lo que buscaremos son todas las tablas que tenemos en la p√°gina web.
tablas_pelicula = sopa_oscar_pelicula.find_all("table")

print("El n√∫mero de tablas que tenemos en la p√°gina web es:", len(tablas_pelicula))

El n√∫mero de tablas que tenemos en la p√°gina web es: 14


In [13]:
# veamos que tenemos en cada una de las tablas que hemos extra√≠do de la p√°gina web. 
print("En la tabla 1 tenemos: \n ", tablas_pelicula[0])
print("\n---------------------\n")

print("En la tabla 2 tenemos: \n", tablas_pelicula[1])
print("\n---------------------\n")

print("En la tabla  tenemos: \n", tablas_pelicula[2])
print("\n---------------------\n")

print("En la tabla 4 tenemos: \n", tablas_pelicula[3])
print("\n---------------------\n")

print("En la tabla 4 tenemos: \n", tablas_pelicula[4])
print("\n---------------------\n")
print("En la tabla 4 tenemos: \n", tablas_pelicula[5])
print("\n---------------------\n")

En la tabla 1 tenemos: 
  <table class="infobox" style="width:22.7em; line-height: 1.4em; text-align:left; padding:.23em;"><tbody><tr><th class="cabecera" colspan="3" style="text-align:center;background-color:#FFEC80;color:inherit;">√ìscar a la Mejor Pel√≠cula</th></tr><tr><td class="imagen" colspan="3" style="text-align:center;">
<span typeof="mw:File"><a class="mw-file-description" href="/wiki/Archivo:Oppenheimer_Movie_Logo_2023.png"><img class="mw-file-element" data-file-height="310" data-file-width="800" decoding="async" height="124" src="//upload.wikimedia.org/wikipedia/commons/thumb/7/7c/Oppenheimer_Movie_Logo_2023.png/320px-Oppenheimer_Movie_Logo_2023.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/7/7c/Oppenheimer_Movie_Logo_2023.png/480px-Oppenheimer_Movie_Logo_2023.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/7/7c/Oppenheimer_Movie_Logo_2023.png/640px-Oppenheimer_Movie_Logo_2023.png 2x" width="320"/></a></span><br/><div style="display:inline;font-size:

In [14]:
# Las tablas que queremos son las del periodo 2010 - 2024. Comprueblo la correapondencia de tablas y veo que son la 10 y 11
print("En la tabla 2010 tenemos: \n", tablas_pelicula[10])
print("\n---------------------\n")
print("En la tabla 2020 tenemos: \n", tablas_pelicula[11])
print("\n---------------------\n")

En la tabla 2010 tenemos: 
 <table class="wikitable">
<tbody><tr align="center;">
<th align="center" width="290px;"><b>T√≠tulo original y en espa√±ol</b>
</th>
<th align="center" width="120px;"><b>Compa√±√≠a<br/>productora</b>
</th>
<th align="center" width="105px;"><b>Productor(es)</b>
</th>
<th align="center" width="105px;"><b>Director(es)</b>
</th>
<th align="center" width="120px;"><b>G√©nero(s)</b>
</th>
<th align="center" colspan="2;" width="120px;"><b>Otros premios √ìscar</b>
</th>
<th align="center" width="250px;"><b>Candidatas<br/><small>(t√≠tulo original)</small></b>
</th></tr>
<tr>
<th align="center" colspan="8"><b><a href="/wiki/83.%C2%AA_edici%C3%B3n_de_los_Premios_%C3%93scar" title="83.¬™ edici√≥n de los Premios √ìscar">83.¬™ ceremonia de entrega de los Premios √ìscar (2010)</a></b>
</th></tr>
<tr>
<td align="center" style="background:#; font-size:pt;">
<p><i><a href="/wiki/El_discurso_del_rey" title="El discurso del rey">The King's Speech</a></i><br/>
</p><p><i>El discurs

In [15]:
# Creamos una nueva variable donde almacenar la primer tabla que nos interesa (2010) 
tabla_peliculas_2010 = tablas_pelicula[10]

# lo primero que nos va a interesar es extraer los encabezados de la tabla, teniendo en cuenta las definiciones que hemos visto antes, 
# seleccionaremos la etiqueta "th" usando el m√©todo "th"
lista_ecabezados_tabla_peliculas_2010 = tabla_peliculas_2010.find_all("th")

print("La lista que nos devuelve el metodo '.find_all()' es:\n", lista_ecabezados_tabla_peliculas_2010)

# Tendremos que iterar por la lista obtenida en el paso anterior y extraer el texto de cada elemento
encabezados_peliculas = [columna.text for columna in lista_ecabezados_tabla_peliculas_2010]

print("\n-------------------------\n")
print("Los encabezados de la tabla son:", encabezados_peliculas)

La lista que nos devuelve el metodo '.find_all()' es:
 [<th align="center" width="290px;"><b>T√≠tulo original y en espa√±ol</b>
</th>, <th align="center" width="120px;"><b>Compa√±√≠a<br/>productora</b>
</th>, <th align="center" width="105px;"><b>Productor(es)</b>
</th>, <th align="center" width="105px;"><b>Director(es)</b>
</th>, <th align="center" width="120px;"><b>G√©nero(s)</b>
</th>, <th align="center" colspan="2;" width="120px;"><b>Otros premios √ìscar</b>
</th>, <th align="center" width="250px;"><b>Candidatas<br/><small>(t√≠tulo original)</small></b>
</th>, <th align="center" colspan="8"><b><a href="/wiki/83.%C2%AA_edici%C3%B3n_de_los_Premios_%C3%93scar" title="83.¬™ edici√≥n de los Premios √ìscar">83.¬™ ceremonia de entrega de los Premios √ìscar (2010)</a></b>
</th>, <th align="center" colspan="8"><b><a href="/wiki/84.%C2%AA_edici%C3%B3n_de_los_Premios_%C3%93scar" title="84.¬™ edici√≥n de los Premios √ìscar">84.¬™ ceremonia de entrega de los Premios √ìscar (2011)</a></b>
</th>, 

Vale ... hasta ahora hemos conseguido sacar los encabezados, ahora nos toca sacar la informaci√≥n de las filas, que como hemos dicho antes, tendremos que usar la etiqueta `tr`. Pongamonos manos a la obra: 

In [19]:
# sacamos todas las filas de la variable que nos hemos creado previamente (nuestra tabla), usando el m√©todo .find_all()
filas_pelicula = tabla_peliculas_2010.find_all("tr")

print("La cantidad de filas que hemos extraido de la tabla peliculas 2010 es:", len(filas_pelicula))
print("\n----------------------\n")

print("El contenido que tenemos en la primera fila es:\n", filas_pelicula[0] )
print("\n----------------------\n")

print("El contenido que tenemos en la segunda fila es:\n", filas_pelicula[1] )
print("\n----------------------\n")

print("El contenido que tenemos en la tercera fila es:\n", filas_pelicula[2] )
print("\n----------------------\n")

La cantidad de filas que hemos extraido de la tabla peliculas 2010 es: 21

----------------------

El contenido que tenemos en la primera fila es:
 <tr align="center;">
<th align="center" width="290px;"><b>T√≠tulo original y en espa√±ol</b>
</th>
<th align="center" width="120px;"><b>Compa√±√≠a<br/>productora</b>
</th>
<th align="center" width="105px;"><b>Productor(es)</b>
</th>
<th align="center" width="105px;"><b>Director(es)</b>
</th>
<th align="center" width="120px;"><b>G√©nero(s)</b>
</th>
<th align="center" colspan="2;" width="120px;"><b>Otros premios √ìscar</b>
</th>
<th align="center" width="250px;"><b>Candidatas<br/><small>(t√≠tulo original)</small></b>
</th></tr>

----------------------

El contenido que tenemos en la segunda fila es:
 <tr>
<th align="center" colspan="8"><b><a href="/wiki/83.%C2%AA_edici%C3%B3n_de_los_Premios_%C3%93scar" title="83.¬™ edici√≥n de los Premios √ìscar">83.¬™ ceremonia de entrega de los Premios √ìscar (2010)</a></b>
</th></tr>
El contenido que tene

Si nos fijamos el primer elemento de la lista de las filas nos esta dando la informaci√≥n de los encabezados, pero a partir del segundo elemento tenemos todos los valores de la tabla que queremos. Como hasta ahora tendremos que iterar por toda la lista y sacar el texto, pero en este caso empezaremos a interar desde el elemento que est√© en segunda posici√≥n ya que los encabezados los hemos sacado en el paso anterior. 

In [47]:
# Creamos una lista llamada 'a√±o_oscar_peliculas_2010' para almacenar los resultados obtenidos.
a√±o_oscar_peliculas_2010 = []

# Iniciamos un bucle 'for' para seleccionar las filas con el a√±o de la pelicula.
for fila in filas_pelicula[1:21:2]:
    # Para cada 'fila', extraemos el texto, lo dividimos en una lista usando '\n' como separador y eliminamos el primer y √∫ltimo elemento de la lista.
    fila_texto = fila.text
    elementos_fila = fila_texto.split("\n")[1:-1]
    # COMO HACER PARA QUEDARNOS SOLO CON EL A√ëO
    ###elementos_fila_a√±o = fila_texto.split("()")

    # A√±adimos la lista de elementos a la lista 'resultados_ibex'.
    a√±o_oscar_peliculas_2010.append(elementos_fila)

# Imprimimos los resultados obtenidos despu√©s de iterar por la lista.
print("Los resultados de iterar por la lista son:\n", a√±o_oscar_peliculas_2010)


Los resultados de iterar por la lista son:
 [['83.¬™ ceremonia de entrega de los Premios √ìscar (2010)'], ['84.¬™ ceremonia de entrega de los Premios √ìscar (2011)'], ['85.¬™ ceremonia de entrega de los Premios √ìscar (2012)'], ['86.¬™ ceremonia de entrega de los Premios √ìscar (2013)'], ['87.¬™ ceremonia de entrega de los Premios √ìscar (2014)'], ['88.¬™ ceremonia de entrega de los Premios √ìscar (2015)'], ['89.¬™ ceremonia de entrega de los Premios √ìscar (2016)'], ['90.¬™ ceremonia de entrega de los Premios √ìscar (2017)'], ['91.¬™ ceremonia de entrega de los Premios √ìscar (2018)'], ['92.¬™ ceremonia de entrega de los Premios √ìscar (2019)']]


In [48]:
# Creamos una lista llamada 'a√±o_oscar_peliculas_2010' para almacenar los resultados obtenidos.
titulo_oscar_peliculas_2010 = []

# Iniciamos un bucle 'for' para seleccionar las filas con el a√±o de la pelicula.
for fila in filas_pelicula[2:21:2]:
    # Para cada 'fila', extraemos el texto, lo dividimos en una lista usando '\n' como separador y eliminamos el primer y √∫ltimo elemento de la lista.
    fila_texto = fila.text
    elementos_fila = fila_texto.split("\n")[2:4]
    # COMO HACER PARA QUEDARNOS SOLO CON EL A√ëO
    ###elementos_fila_a√±o = fila_texto.split("()")

    # A√±adimos la lista de elementos a la lista 'resultados_ibex'.
    titulo_oscar_peliculas_2010.append(elementos_fila)

# Imprimimos los resultados obtenidos despu√©s de iterar por la lista.
print("Los resultados de iterar por la lista son:\n", titulo_oscar_peliculas_2010)

Los resultados de iterar por la lista son:
 [["The King's Speech", 'El discurso del rey'], ['The Artist', 'El artista'], ['Argo', 'Argo'], ['12 Years a Slave', '12 a√±os de esclavitud'], ['Birdman or (The Unexpected Virtue of Ignorance)', 'Birdman o (La inesperada virtud de la ignorancia)'], ['Spotlight', 'En primera plana'], ['Moonlight', 'Moonlight: Historia de una VidaLuz de Luna'], ['The Shape of Water', 'La forma del agua'], ['Green Book', 'Green Book: una amistad sin fronteras'], ['Í∏∞ÏÉùÏ∂© - Gisaengchung', 'Par√°sitos']]


In [49]:
# Juntamos ambas listas pra crear un √∫nico data frame con a√±o y titulo
data = {"a√±o": a√±o_oscar_peliculas_2010, "titulo": titulo_oscar_peliculas_2010}
df = pd.DataFrame(data)
print (df)

                                                 a√±o  \
0  [83.¬™ ceremonia de entrega de los Premios √ìsca...   
1  [84.¬™ ceremonia de entrega de los Premios √ìsca...   
2  [85.¬™ ceremonia de entrega de los Premios √ìsca...   
3  [86.¬™ ceremonia de entrega de los Premios √ìsca...   
4  [87.¬™ ceremonia de entrega de los Premios √ìsca...   
5  [88.¬™ ceremonia de entrega de los Premios √ìsca...   
6  [89.¬™ ceremonia de entrega de los Premios √ìsca...   
7  [90.¬™ ceremonia de entrega de los Premios √ìsca...   
8  [91.¬™ ceremonia de entrega de los Premios √ìsca...   
9  [92.¬™ ceremonia de entrega de los Premios √ìsca...   

                                              titulo  
0           [The King's Speech, El discurso del rey]  
1                           [The Artist, El artista]  
2                                       [Argo, Argo]  
3          [12 Years a Slave, 12 a√±os de esclavitud]  
4  [Birdman or (The Unexpected Virtue of Ignoranc...  
5                      [Spotlig

In [None]:
# COPIA DEL DE ARRIBA Creamos una lista llamada 'oscar_peliculas_2010' para almacenar los resultados obtenidos.
oscar_peliculas_2010 = []

# Iniciamos un bucle 'for' para iterar a trav√©s de la lista 'filas_ibex', pero comenzamos desde el segundo elemento de la lista.
for fila in filas_pelicula[0:3]:
    # Para cada 'fila', extraemos el texto, lo dividimos en una lista usando '\n' como separador y eliminamos el primer y √∫ltimo elemento de la lista.
    fila_texto = fila.text
    elementos_fila = fila_texto.split("\n")[1:-1]

    # A√±adimos la lista de elementos a la lista 'resultados_ibex'.
    oscar_peliculas_2010.append(elementos_fila)

# Imprimimos los resultados obtenidos despu√©s de iterar por la lista.
print("Los resultados de iterar por la lista son:\n", oscar_peliculas_2010)


Si nos fijamos, al igual que en el ejemplo anterior tenemos los n√∫meros como *strings*, por lo que lo vamos a cambiar para tener los formatos corretos: 

- En concreto cambiaremos las "," por "."

- Quitaremos los % que tenemos en algunos de los valores. 

In [28]:
# Iteramos a trav√©s de cada lista en 'resultados_ibex' y sus elementos usando 'enumerate'.
for indice_lista, lista in enumerate(resultados_ibex):
    for indice_elemento, elemento in enumerate(lista):
        try:
            # Intentamos convertir cada elemento de la lista en un n√∫mero de punto flotante.
            # Para ello, eliminamos caracteres especiales como '%' y reformateamos la puntuaci√≥n.
            resultados_ibex[indice_lista][indice_elemento] = float(elemento.replace("%", "").replace(".", "").replace(",", "."))
        except:
            # Si se produce una excepci√≥n (por ejemplo, si el elemento no es convertible a flotante), 
            # mantenemos el elemento original en la lista.
            resultados_ibex[indice_lista][indice_elemento] = elemento
            
# Imprimimos los resultados despu√©s de limpiar los datos.
print("Los resultados despu√©s de limpiar los datos son: \n", resultados_ibex)


Los resultados despu√©s de limpiar los datos son: 
 [['08-may-24', 11153.0, 0.65, 11160.0, 11076.1, 11104.5], ['09-may-24', 11050.1, -0.92, 11121.9, 11004.9, 11112.7], ['10-may-24', 11105.5, 0.5, 11137.7, 11045.1, 11045.9], ['13-may-24', 11152.0, 0.42, 11152.0, 11073.9, 11104.2], ['14-may-24', 11239.3, 0.78, 11246.3, 11138.4, 11180.5], ['15-may-24', 11362.8, 1.1, 11377.1, 11260.3, 11260.9], ['16-may-24', 11299.3, -0.56, 11385.7, 11293.4, 11376.4], ['17-may-24', 11327.7, 0.25, 11343.0, 11246.6, 11252.6], ['20-may-24', 11339.5, 0.1, 11371.5, 11312.5, 11333.2], ['21-may-24', 11334.9, -0.04, 11371.3, 11291.5, 11326.0], ['22-may-24', 11329.0, -0.05, 11354.1, 11268.4, 11324.4], ['23-may-24', 11311.1, -0.16, 11360.2, 11277.0, 11331.8], ['24-may-24', 11246.0, -0.58, 11261.6, 11169.2, 11236.0], ['27-may-24', 11325.5, 0.71, 11325.5, 11248.9, 11260.1], ['28-may-24', 11276.0, -0.44, 11355.1, 11240.0, 11337.6], ['29-may-24', 11145.1, -1.16, 11260.9, 11135.0, 11241.0], ['30-may-24', 11338.2, 1.73, 1

Igual que en el caso anterior, es el momento de crear una funci√≥n con todo el c√≥digo que hemos ido creando hasta ahora, para unificarlo todo. 

In [29]:
def sacar_tabla_ibex(url):
    
    """
    Extrae datos de una tabla en una p√°gina web y devuelve los encabezados y los resultados de la tabla.

    Parameters:
    url (str): La URL de la p√°gina web de la que se extraer√°n los datos de la tabla.

    Returns:
    tuple: Una tupla que contiene dos elementos.
        - Una lista de encabezados de columna de la tabla.
        - Una lista de listas que representan los resultados de la tabla.
    """
    # al igual que en el ejemplo anterior lo primero que haremos ser√° definir la url de la p√°gina de la vamos a sacar datos
    url_bolsa_ibex = "https://www.bolsamania.com/indice/IBEX-35/historico-precios"

    # hacemos la request a la p√°gina de la que queremos sacar la info
    res_bolsa_ibex = requests.get(url_bolsa_ibex)

    # vemos si todo ha ido bien
    print("La respuesta de la petici√≥n es:", res_bolsa_ibex.status_code)
    
    # creamos el objeto BeautifulSoup para poder acceder al contenido solicitado
    sopa_bolsa_historico = BeautifulSoup(res_bolsa_ibex.content, 'html.parser')
    
    # vamos a seguir usando el metodo ".find_all()", pero en este caso lo que buscaremos son todas las tablas que tenemos en la p√°gina web.
    tablas_historico = sopa_bolsa.find_all("table")
    
    # La tabla que nos interesa es la √∫ltima por lo que vamos a crear una nueva variable donde almacenemos los resultados de la tabla que nos interesa
    nuestra_tabla_historico = tablas_historico[2]

    # lo primero que nos va a interesar es extraer los encabezados de la tabla, teniendo en cuenta las definiciones que hemos visto antes, 
    # seleccionaremos la etiqueta "th" usando el m√©todo "th"
    lista_ecabezados_historico = nuestra_tabla_historico.find_all("th")

    print("La lista que nos devuelve el metodo '.find_all()' es:\n", lista_ecabezados_historico)

    # como hemos estado haciendo hasta ahora, tendremos que iterar por la lista obtenida en el paso anterior y extraer el texto de cada elemento
    encabezados_ibex_historico = [columna.text for columna in lista_ecabezados_historico]
    
    # sacamos todas las filas de la variable que nos hemos creado previamente (nuestra tabla), usando el m√©todo .find_all()
    filas_ibex_historico = nuestra_tabla_historico.find_all("tr")
    
    # creamos una lista para almacenar todos los resultados obtenidos de la lista de  "filas_ibex"
    resultados_ibex_historico = []

    # empezamos a iterar por la lista, pero fijaos que en este caso empezamos desde el segundo elemento de la lista
    for fila in filas_ibex_historico[1:]:
        # a√±adimos cada elemento a la lista que hemos creado previamente. 
        resultados_ibex_historico.append(fila.text.split("\n")[1:-1])
        
    resultados_ibex_limpio_historico = []
    for indice_lista, lista in enumerate(resultados_ibex_historico):
        for indice_elemento, elemento in enumerate(lista):
            try:
                resultados_ibex_historico[indice_lista][indice_elemento] = float(elemento.replace("%", "").replace(".", "").replace(",", "."))
            except:
                resultados_ibex_historico[indice_lista][indice_elemento]  = elemento
                
    return encabezados_ibex_historico, resultados_ibex_historico


In [30]:
encabezados_ibex_final, datos_ibex_final = sacar_tabla_ibex(url_bolsa)

La respuesta de la petici√≥n es: 200
La lista que nos devuelve el metodo '.find_all()' es:
 [<th class="text-left" v-table-sorter-by="'date'">Fecha<span></span></th>, <th class="text-right" v-table-sorter-by="'price'">Precio<span></span></th>, <th class="text-right" v-table-sorter-by="'fallers'">Variaci√≥n %<span></span></th>, <th class="text-right" v-table-sorter-by="'high'">M√°ximo<span></span></th>, <th class="text-right" v-table-sorter-by="'low'">M√≠nimo<span></span></th>, <th class="text-right" v-table-sorter-by="'open'">Apertura<span></span></th>]


Si nos fijamos ahora, lo que tenemos es una lista de listas. Lo siguiente que querremos hacer en convertirlo en tabla (*DataFrame*) con Pandas como hicimos antes con el ejemplo ed Ebay. Pero antes ten√≠amos un diccionario, ¬øpodremos convertir esta lista de listas a *DataFrame*? La respuesta es s√≠, de la misma forma que lo hicimos antes, usando el m√©todo de Pandas `pd.DataFrame`. Resumiendo, podremos convertir a *DataFrame*: 

- Un diccionario

- Una lista de listas

In [31]:
# convertimos la lista de listas a DataFrame usando el m√©todo 'pd.DataFrame()'. 
df_ibex = pd.DataFrame(datos_ibex_final)

# mostramos las 5 primeras filas del DataFrame
# pero si nos fijamos ahora, los nombres de nuestras columnas son n√∫meros y no los nombres de los encabezados que sacamos de la tabla de la p√°gina web
display("Mostramos las 5 primeras filas del DataFrame",df_ibex.head())
print("-------------------------")
# para poder poner nombre a las columnas en Pandas tenemos varios m√©todos, pero uno de los m√°s comunes es el m√©todo '.columns' 
# en este caso le estamos diciendo que las columnas de nuestro DataFrane queremos que correspondan con los valores de la listas de encabezados_index que creamos al inicio
df_ibex.columns = encabezados_ibex_final


# Mostramos las dos primeras filas del DataFrame
# ahora vemos que las columnas ya no son n√∫meros, si no los encabezamos que sacamos al inicio
display("Mostramos las 2 primeras filas del DataFrame", df_ibex.head(2))
print("-------------------------")

# el n√∫mero de filas y columnas del DataFrame son
print("El n√∫mero de filas y columnas es:", df_ibex.shape)

'Mostramos las 5 primeras filas del DataFrame'

Unnamed: 0,0,1,2,3,4,5
0,08-may-24,11153.0,0.65,11160.0,11076.1,11104.5
1,09-may-24,11050.1,-0.92,11121.9,11004.9,11112.7
2,10-may-24,11105.5,0.5,11137.7,11045.1,11045.9
3,13-may-24,11152.0,0.42,11152.0,11073.9,11104.2
4,14-may-24,11239.3,0.78,11246.3,11138.4,11180.5


-------------------------


'Mostramos las 2 primeras filas del DataFrame'

Unnamed: 0,Fecha,Precio,Variaci√≥n %,M√°ximo,M√≠nimo,Apertura
0,08-may-24,11153.0,0.65,11160.0,11076.1,11104.5
1,09-may-24,11050.1,-0.92,11121.9,11004.9,11112.7


-------------------------
El n√∫mero de filas y columnas es: (22, 6)


In [32]:
# si recordamos ten√≠amos el m√©todo '.dtypes' nos permit√≠a saber cuales eran los tipos de los datos de las distintas columnas que tenemos en el DataFrame
df_ibex.dtypes

Fecha           object
Precio         float64
Variaci√≥n %    float64
M√°ximo         float64
M√≠nimo         float64
Apertura       float64
dtype: object

In [33]:
# sigamos conociendo algunos m√©todos nuevos, en este caso sacaremos los valores √∫nicos que tenemos en algunas de las columnas
# para eso usaremos el m√©todo '.unique()'. Lo que nos va a mostrar esto son las fechas diferentes que tenemos en la columna de Fecha 
print("Los valores √∫nicos que tenemos en la columna de Fecha son:\n", df_ibex["Fecha"].unique())

print("Los valores √∫nicos que tenemos en la columna de Fecha son:\n", df_ibex["M√°ximo"].unique())

Los valores √∫nicos que tenemos en la columna de Fecha son:
 ['08-may-24' '09-may-24' '10-may-24' '13-may-24' '14-may-24' '15-may-24'
 '16-may-24' '17-may-24' '20-may-24' '21-may-24' '22-may-24' '23-may-24'
 '24-may-24' '27-may-24' '28-may-24' '29-may-24' '30-may-24' '31-may-24'
 '03-jun-24' '04-jun-24' '05-jun-24' '06-jun-24']
Los valores √∫nicos que tenemos en la columna de Fecha son:
 [11160.  11121.9 11137.7 11152.  11246.3 11377.1 11385.7 11343.  11371.5
 11371.3 11354.1 11360.2 11261.6 11325.5 11355.1 11260.9 11350.9 11361.2
 11452.9 11402.2 11412.4 11450.9]


In [34]:
# otro de los m√©todos que m√°s usaremos es el m√©todo '.value_counts()' 
# este m√©todo lo que va a hacer es contar cu√°ntas veces aparecen cada una de los valores √∫nicos que tenemos en esa columna
# en este caso lo que vemos es que cada una de las fechas que tenemos en la columna aparecen solo una vez. 
df_ibex["Fecha"].value_counts()

08-may-24    1
09-may-24    1
05-jun-24    1
04-jun-24    1
03-jun-24    1
31-may-24    1
30-may-24    1
29-may-24    1
28-may-24    1
27-may-24    1
24-may-24    1
23-may-24    1
22-may-24    1
21-may-24    1
20-may-24    1
17-may-24    1
16-may-24    1
15-may-24    1
14-may-24    1
13-may-24    1
10-may-24    1
06-jun-24    1
Name: Fecha, dtype: int64

In [35]:
# de la misma forma que le hemos preguntado antes a Pandas cu√°ntos valores nulos tenemos por columnas, 
# tambi√©n le podemos preguntar cu√°ntos valores no nulos tenemos en cada una de ellas usando el m√©todo 'notnull()'
df_ibex.notnull().sum()

Fecha          22
Precio         22
Variaci√≥n %    22
M√°ximo         22
M√≠nimo         22
Apertura       22
dtype: int64

In [36]:
# por √∫ltimo, nos puede interesar guardar estos datos en un csv en nuestro ordenador para utilizarla en otro momento
# para esto tendremos que usar el m√©todo "pd.to_csv()"

df_ibex.to_csv("datos_ibex.csv")

# Resumen de los m√©todos aprendidos de Pandas

Pandas es una poderosa herramienta para el an√°lisis y manipulaci√≥n de datos. Aqu√≠ os dejamos un resumen de los m√©todos de Pandas que hemos aprendido durante la lecci√≥n:

1. **head() y tail()**: Estos m√©todos se utilizan para mostrar las primeras filas o las √∫ltimas filas de un DataFrame. Son √∫tiles para obtener una vista previa r√°pida de los datos.
   ```python
   # Mostrar las primeras 5 filas del DataFrame
   df.head()

   # Mostrar las √∫ltimas 5 filas del DataFrame
   df.tail()
   ```

2. **info()**: El m√©todo `info()` muestra un resumen conciso de un DataFrame, incluyendo el tipo de datos de cada columna y la cantidad de valores no nulos. Es √∫til para comprender la estructura de tus datos.
   ```python
   # Mostrar informaci√≥n resumida del DataFrame
   df.info()
   ```

3. **describe()**: El m√©todo `describe()` genera estad√≠sticas descriptivas de las columnas num√©ricas de un DataFrame, como la cuenta, media, desviaci√≥n est√°ndar, m√≠nimo, m√°ximo y percentiles. Proporciona informaci√≥n √∫til sobre la distribuci√≥n de los datos.
   ```python
   # Mostrar estad√≠sticas descriptivas del DataFrame
   df.describe()
   ```

4. **shape**: El atributo `shape` devuelve una tupla que representa las dimensiones del DataFrame, es decir, el n√∫mero de filas y columnas.
   ```python
   # Obtener las dimensiones del DataFrame
   df.shape
   ```

5. **columns**: El atributo `columns` devuelve una lista de las columnas del DataFrame.
   ```python
   # Obtener la lista de columnas del DataFrame
   df.columns
   ```

6. **value_counts()**: El m√©todo `value_counts()` cuenta los valores √∫nicos en una columna y los muestra en orden descendente. Es √∫til para realizar un recuento de categor√≠as o valores espec√≠ficos en una columna.
   ```python
   # Contar los valores √∫nicos en una columna
   df['columna'].value_counts()
   ```

7. **unique()**: El m√©todo `unique()` devuelve una lista de los valores √∫nicos en una columna. Es √∫til para obtener una lista de categor√≠as o valores distintos.
   ```python
   # Obtener los valores √∫nicos en una columna
   df['columna'].unique()
   ```

8. **isnull() y notnull()**: Estos m√©todos se utilizan para verificar la presencia de valores nulos en un DataFrame. Devuelven una m√°scara booleana que indica si cada valor es nulo o no nulo.
   ```python
   # Verificar valores nulos en el DataFrame
   df.isnull()

   # Verificar valores no nulos en el DataFrame
   df.notnull()
   ```