## Código para hacer 1 Excel de varias pestañas

In [1]:
# Importamos la librería request para manejar las peticiones de acceso a la web y descarga de contenido.
import requests

# Especificamos la web
enlace = "https://en.wikipedia.org/wiki/Forbes%27_list_of_the_world%27s_highest-paid_athletes"

# Convertimos la web en texto
texto_web = requests.get(enlace).text

# Para darle un formato, BeautifulSoup tiene a su disposición un módulo para "formatear" o dar forma al contenido 
# usando el parser que presentamos anteriormente.
from bs4 import BeautifulSoup
sopa = BeautifulSoup(texto_web, 'lxml')

# La información que queremos se encuentra en las tablas, vamos a recuperarlas
tablas = sopa.find_all('table')

# Al existir varias tablas, tenemos que localizarlas. La clase de CSS de las tablas es "wikitable sortable"
tablas_listados_todos_anios = sopa.find_all('table', class_= 'wikitable sortable')

# Vamos a seleccionar las 4 primeras tablas, con los datos de 2023, 2022, 2021 y 2020, para tenerlas juntas en el mismo Excel.
tabla_2023 = tablas_listados_todos_anios[0]
tabla_2022 = tablas_listados_todos_anios[1]
tabla_2021 = tablas_listados_todos_anios[2]
tabla_2020 = tablas_listados_todos_anios[3]

# Para localizar a los deportistas, vamos a transformar la tabla a una estructura dataframe de pantas

import pandas as pd
dataframe_informacion_2023 = pd.read_html(str(tabla_2023))[0]
dataframe_informacion_2022 = pd.read_html(str(tabla_2022))[0]
dataframe_informacion_2021 = pd.read_html(str(tabla_2021))[0]
dataframe_informacion_2020 = pd.read_html(str(tabla_2020))[0]

# Podemos guardar esta información en un archivo Excel:
!pip install XlsxWriter
# Guardamos la información en el archivo:
archivo_informacion_deportistas = pd.ExcelWriter('deportistas_mejor_pagados.xlsx', engine='xlsxwriter')

# convertimos cada una de las tablas en excels y las guardamos en el archivo principal (el EXCEL) en sheets (HOJAS) distintos añadiendo el nombre que deseemos
dataframe_informacion_2023.to_excel(archivo_informacion_deportistas, sheet_name='Lista 2023')
dataframe_informacion_2022.to_excel(archivo_informacion_deportistas, sheet_name='Lista 2022')
dataframe_informacion_2021.to_excel(archivo_informacion_deportistas, sheet_name='Lista 2021')
dataframe_informacion_2020.to_excel(archivo_informacion_deportistas, sheet_name='Lista 2020')

archivo_informacion_deportistas.close() #el .save() dejó de funcionar, hay que usar .close()

