In [1]:
import pandas as pd

# --------------------------------------------
# 1. Instalar openpyxl si no está disponible
# --------------------------------------------
# Ejecutar en terminal si es necesario:
# pip install openpyxl

# --------------------------------------------
# 2. Cargar datos desde archivo Excel
# --------------------------------------------
# Suponiendo que el archivo se llama 'datos_ventas.xlsx'
# y tiene una hoja llamada 'Ventas'
try:
    df_excel = pd.read_excel('datos_ventas.xlsx',
                           sheet_name='Ventas',
                           engine='openpyxl')
    print("\nDatos cargados desde Excel (primeras filas):")
    print(df_excel.head())
except FileNotFoundError:
    print("\n⚠️ Error: Archivo 'datos_ventas.xlsx' no encontrado")
    # Creamos un DataFrame de ejemplo para continuar con el ejercicio
    df_excel = pd.DataFrame({
        'Producto': ['Laptop', 'Tablet', 'Smartphone'],
        'Ventas': [150, 80, 200],
        'Región': ['Norte', 'Sur', 'Centro']
    })

# --------------------------------------------
# 3. Extraer datos desde una página web
# --------------------------------------------
# Usaremos como ejemplo una tabla de población de Wikipedia
url = 'https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_por_poblaci%C3%B3n'

try:
    # read_html devuelve una lista de DataFrames
    dfs_web = pd.read_html(url)
    df_web = dfs_web[0]  # Tomamos la primera tabla
    print("\nDatos extraídos de la web (primeras filas):")
    print(df_web.head())

    # Limpieza básica de la tabla web (opcional)
    df_web = df_web.iloc[:, :3]  # Tomamos solo las primeras 3 columnas
    df_web.columns = ['Posición', 'País', 'Población']  # Renombramos columnas
except Exception as e:
    print(f"\n⚠️ Error al extraer datos web: {str(e)}")
    # Creamos un DataFrame de ejemplo alternativo
    df_web = pd.DataFrame({
        'País': ['Argentina', 'Chile', 'Perú'],
        'Población': [45000000, 19000000, 33000000]
    })

# --------------------------------------------
# 4. Unificar los DataFrames
# --------------------------------------------
# Opción 1: Concatenar verticalmente (si tienen mismas columnas)
# df_unificado = pd.concat([df_excel, df_web], ignore_index=True)

# Opción 2: Unir horizontalmente (en este ejemplo usaremos esta)
df_unificado = pd.merge(df_excel, df_web, left_on='Región', right_on='País', how='left')

print("\nDataFrame unificado (primeras filas):")
print(df_unificado.head())

# --------------------------------------------
# 5. Exportar a Excel con múltiples hojas
# --------------------------------------------
with pd.ExcelWriter('resumen.xlsx', engine='openpyxl') as writer:
    df_excel.to_excel(writer, sheet_name='Datos_Excel', index=False)
    df_web.to_excel(writer, sheet_name='Datos_Web', index=False)
    df_unificado.to_excel(writer, sheet_name='Datos_Combinados', index=False)

print("\n✅ Proceso completado con éxito!")
print("Archivo generado: 'resumen.xlsx'")
print("Contiene 3 hojas:")
print("- Datos_Excel: Datos originales del archivo Excel")
print("- Datos_Web: Datos extraídos de la web")
print("- Datos_Combinados: Resultado de la unificación")


⚠️ Error: Archivo 'datos_ventas.xlsx' no encontrado

Datos extraídos de la web (primeras filas):
  N.º País (o territorio dependiente)  \
0   1                           India   
1   2                      China[12]​   
2   3                  Estados Unidos   
3   4                       Indonesia   
4   5                        Pakistán   

  Proyección exponencial de la población al 1/7/2025[7]​ Total mun- dial (%)  \
0                                      1 417 492 000                    1753   
1                                      1 407 934 000                    1742   
2                                        342 181 000                     423   
3                                        285 783 000                     353   
4                                        256 204 000                     317   

  Cambio medio anual (%)[8]​ Cambio absoluto anual promedio  \
0                        090                     12 692 000   
1                       -005                    