# Introducción al Web Scraping

In [1]:
import requests
from bs4 import BeautifulSoup

url = "https://es.wikipedia.org/wiki/Python"
respuesta = requests.get(url)

soup = BeautifulSoup(respuesta.content, "html.parser")
soup

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" dir="ltr" lang="es">
<head>
<meta charset="utf-8"/>
<title>Python - Wikipedia, la enciclopedia libre</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-en

In [2]:
titulo = soup.find("h1").text
print("Título de la página: " + titulo)

Título de la página: Python


In [2]:
parrafos = soup.find_all("p")
print("Primeros párrafos:")
for p in parrafos:
    print(p.text.strip())

Primeros párrafos:
Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta parcialmente la orientación a objetos, programación imperativa y, en menor medida, programación funcional. Es un lenguaje interpretado, dinámico y multiplataforma.
Administrado por Python Software Foundation, posee una licencia de código abierto, denominada Python Software Foundation License.[3]​ Python se clasifica constantemente como uno de los lenguajes de programación más populares, siendo ya en 2025 el más popular y además con una amplia diferencia récord histórico de más de 15 puntos porcentuales sobre el siguiente.[4]​
Python fue creado a finales de los años ochenta por Guido van Rossum en Stichting Mathematisch Centrum (CWI),[5]​ en Países Bajos, como un sucesor del lenguaje de programación ABC, capaz de manejar excepciones e interactuar con el sistema operativo Amo

In [3]:
enlaces = soup.find_all("a")
enlaces_wiki = [a["href"] for a in enlaces if a.has_attr("href") and a["href"].startswith("/wiki/")]
print("Enlaces internos encontrados: " + str(len(enlaces_wiki)))
print("Algunos ejemplos:")
print(enlaces_wiki[:5])

Enlaces internos encontrados: 270
Algunos ejemplos:
['/wiki/Wikipedia:Portada', '/wiki/Portal:Comunidad', '/wiki/Portal:Actualidad', '/wiki/Especial:CambiosRecientes', '/wiki/Especial:P%C3%A1ginasNuevas']


# Fundamentos de Beautiful Soup: Descargando todo aquello que nos interese

In [15]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin, urlparse
import os

url = "https://es.wikipedia.org/wiki/Python"

respuesta = requests.get(url)
soup = BeautifulSoup(respuesta.content, "html.parser")

In [18]:
titulos = soup.find_all("h4")
for titulo in titulos:
    print("Título: " + titulo.text)

Título: Instalación de módulos (pip)
Título: Interfaz al sistema operativo
Título: Comodines de archivos
Título: Argumentos de línea de órdenes
Título: Matemática
Título: Fechas y horas
Título: Módulo Turtle


In [19]:
imagenes = soup.find_all("img")
print("Número total de imágenes: " + str(len(imagenes)))

Número total de imágenes: 22


In [23]:
os.makedirs("imagenes_python", exist_ok=True)

for i, img in enumerate(imagenes[:10]):
    src = img.get("src")
    if src:
        url_img = urljoin(url, src)
        nombre_fichero = os.path.join("imagenes_python", f"imagen_{i}.jpg")
        with open(nombre_fichero, "wb") as f:
            f.write(requests.get(url_img).content)
        print("Guardada: " + url_img)

Guardada: https://es.wikipedia.org/static/images/icons/wikipedia.png
Guardada: https://es.wikipedia.org/static/images/mobile/copyright/wikipedia-wordmark-en.svg
Guardada: https://es.wikipedia.org/static/images/mobile/copyright/wikipedia-tagline-es.svg
Guardada: https://upload.wikimedia.org/wikipedia/commons/thumb/c/c3/Python-logo-notext.svg/100px-Python-logo-notext.svg.png
Guardada: https://upload.wikimedia.org/wikipedia/commons/thumb/6/62/CPT-TheoryOfComp-Binary-Search-Python.png/330px-CPT-TheoryOfComp-Binary-Search-Python.png
Guardada: https://upload.wikimedia.org/wikipedia/commons/thumb/6/66/Guido_van_Rossum_OSCON_2006.jpg/250px-Guido_van_Rossum_OSCON_2006.jpg
Guardada: https://upload.wikimedia.org/wikipedia/commons/thumb/e/e1/Python_add5_syntax.svg/500px-Python_add5_syntax.svg.png
Guardada: https://upload.wikimedia.org/wikipedia/commons/thumb/8/82/LAMP_software_bundle.svg/330px-LAMP_software_bundle.svg.png
Guardada: https://upload.wikimedia.org/wikipedia/commons/thumb/8/81/Python_3

In [24]:
enlaces = soup.find_all("a", href=True)
internos = []
externos = []

for a in enlaces:
    href = a["href"]
    if href.startswith("/wiki/") and not href.startswith("/wiki/Ayuda:"):
        internos.append(urljoin(url, href))
    elif href.startswith("http"):
        externos.append(href)

print("Enlaces internos únicos: " + str(len(set(internos))))
print("Enlaces externos únicos: " + str(len(set(externos))))

print("Internos:")
print(internos[:5])
print("Externos:")
print(externos[:5])

Enlaces internos únicos: 204
Enlaces externos únicos: 208
Internos:
['https://es.wikipedia.org/wiki/Wikipedia:Portada', 'https://es.wikipedia.org/wiki/Portal:Comunidad', 'https://es.wikipedia.org/wiki/Portal:Actualidad', 'https://es.wikipedia.org/wiki/Especial:CambiosRecientes', 'https://es.wikipedia.org/wiki/Especial:P%C3%A1ginasNuevas']
Externos:
['https://donate.wikimedia.org/?wmf_source=donate&wmf_medium=sidebar&wmf_campaign=es.wikipedia.org&uselang=es', 'https://donate.wikimedia.org/?wmf_source=donate&wmf_medium=sidebar&wmf_campaign=es.wikipedia.org&uselang=es', 'https://af.wikipedia.org/wiki/Python_(programmeertaal)', 'https://als.wikipedia.org/wiki/Python_(Programmiersprache)', 'https://an.wikipedia.org/wiki/Python']


In [25]:
tablas = soup.find_all("table")
print("Tablas encontradas: " + str(len(tablas)))

Tablas encontradas: 6


In [27]:
if tablas:
    tabla = tablas[0]
    filas = tabla.find_all("tr")
    print("Primera tabla:")
    for fila in filas[:10]:
        columnas = fila.find_all(["td", "th"])
        texto_col = [c.text.strip() for c in columnas]
        print(texto_col)

Primera tabla:
['Python']
['']
['']
['Desarrollador(es)']
['Python Software FoundationSitio web oficial']
['Información general']
['Extensiones comunes', '.py, .pyc, .pyd, .pyo, .pyw, .pyz, .pyi']
['Paradigma', 'Multiparadigma: orientado a objetos, imperativo, funcional, reflexivo']
['Apareció en', '20 de febrero de 1991']
['Diseñado por', 'Guido van Rossum']


# Fundamentos de Selenium: Interactuar con la web

In [30]:
# ! pip install selenium

In [30]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains
import time

opciones = Options()
# opciones.add_argument("--headless")  

driver = webdriver.Chrome(options=opciones)
driver.get("https://es.wikipedia.org/wiki/Python")

time.sleep(2)

In [31]:
driver.maximize_window()

In [32]:
buscador = driver.find_element(By.ID, "searchInput")
buscador.clear()
buscador.send_keys("Pandas (software)")
buscador.submit()

In [33]:
time.sleep(2)
print("Título tras buscar: " + driver.title)

enlaces = driver.find_elements(By.TAG_NAME, "a")
for enlace in enlaces:
    if enlace.text.strip().lower() == "python":
        enlace.click()
        break

Título tras buscar: Pandas (software) - Wikipedia, la enciclopedia libre


In [34]:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(1)

In [35]:
menu_lateral = driver.find_element(By.ID, "p-lang-btn-checkbox")
menu_lateral.click()
time.sleep(1)


In [36]:
for idioma in driver.find_elements(By.CLASS_NAME,"autonym"):
    print(idioma.text)
    if idioma.text == "中文":
        idioma.click()
        break

Deutsch
English
Français
Hrvatski
Italiano
Magyar
Slovenščina
中文


In [37]:
driver.quit()

# Automatizar la gestión del sistema operativo con OS

In [43]:
import os
import shutil

os.getcwd()

'C:\\Users\\linkedin\\Dropbox\\LinkedIn\\Python\\ML Avanzado'

In [50]:
os.makedirs("proyecto_datos/entrada", exist_ok=True)
os.makedirs("proyecto_datos/salida", exist_ok=True)
os.makedirs("proyecto_datos/imagenes", exist_ok=True)

print("Carpetas creadas.")

Carpetas creadas.


In [47]:
with open("proyecto_datos/entrada/datos.txt", "w") as f:
    f.write("Ejemplo de contenido")

In [53]:
ruta = "proyecto_datos/entrada/datos.txt"
if os.path.exists(ruta):
    print("Archivo existe: " + ruta)
else:
    print("No encontrado...")

No encontrado...


In [54]:
nuevo_destino = "proyecto_datos/salida/datos.txt"
shutil.move(ruta, nuevo_destino)
print("Archivo movido a: " + nuevo_destino)

FileNotFoundError: [WinError 2] El sistema no puede encontrar el archivo especificado

In [55]:
archivos = os.listdir("imagenes_python")
print("Archivos en carpeta imagenes:")
print(archivos)

Archivos en carpeta imagenes:
['.ipynb_checkpoints', 'imagen_1.jpg', 'imagen_2.jpg', 'imagen_3.jpg', 'imagen_4.jpg', 'imagen_5.jpg', 'imagen_6.jpg', 'imagen_7.jpg', 'imagen_8.jpg', 'imagen_9.jpg']


In [80]:
original = "proyecto_datos/imagenes/img_0.jpg"
nuevo_nombre = "proyecto_datos/imagenes/foto_1.jpg"
os.rename(original, nuevo_nombre)
print("Archivo renombrado: img_0 -> foto_1")

Archivo renombrado: img_0 -> foto_1


In [56]:
print("Contenido completo del proyecto:")
for ruta_actual, carpetas, archivos in os.walk("proyecto_datos"):
    print("- Carpeta: " + ruta_actual)
    for archivo in archivos:
        print("  * " + archivo)

Contenido completo del proyecto:
- Carpeta: proyecto_datos
- Carpeta: proyecto_datos\entrada
- Carpeta: proyecto_datos\imagenes
  * foto_1.jpg
  * img_2.jpg
- Carpeta: proyecto_datos\salida
  * datos.txt


In [85]:
fichero_a_borrar = "proyecto_datos/imagenes/img_1.jpg"
if os.path.exists(fichero_a_borrar):
    os.remove(fichero_a_borrar)
    print("Archivo eliminado: img_1.jpg")

In [86]:
origen = "proyecto_datos/salida/datos.txt"
destino = "proyecto_datos/entrada/copia_datos.txt"
shutil.copy(origen, destino)
print("Archivo copiado a entrada")

Archivo copiado a entrada


# Desarrollo de aplicaciones GUI con TKinter

In [59]:
import tkinter as tk
from tkinter import messagebox, filedialog

ventana = tk.Tk()
ventana.title("Ejemplo básico de Tkinter")
ventana.geometry("300x250")

def saludar():
    nombre = entrada.get()
    mensaje = "Hola " + nombre
    messagebox.showinfo("Saludo", mensaje)

def abrir_archivo():
    archivo = filedialog.askopenfilename()
    if archivo:
        etiqueta_archivo.config(text="Seleccionado: " + archivo)

etiqueta = tk.Label(ventana, text="Introduce tu nombre:")
etiqueta.pack(pady=10)

entrada = tk.Entry(ventana)
entrada.pack()

boton = tk.Button(ventana, text="Saludar", command=saludar)
boton.pack(pady=5)

boton_archivo = tk.Button(ventana, text="Abrir archivo", command=abrir_archivo)
boton_archivo.pack(pady=5)

etiqueta_archivo = tk.Label(ventana, text="")
etiqueta_archivo.pack()

var_check = tk.IntVar()
check = tk.Checkbutton(ventana, text="Activar opción", variable=var_check)
check.pack(pady=5)

cerrar = tk.Button(ventana, text="Cerrar", command=ventana.destroy)
cerrar.pack(pady=10)

ventana.mainloop()

# Ejemplos avanzados con TKinter

In [61]:
import tkinter as tk
from tkinter import ttk, messagebox, filedialog

def saludar():
    nombre = entrada_nombre.get()
    ciudad = entrada_ciudad.get()
    mensaje = "Hola " + nombre + ", de " + ciudad
    messagebox.showinfo("Saludo", mensaje)

def limpiar():
    entrada_nombre.delete(0, tk.END)
    entrada_ciudad.delete(0, tk.END)
    seleccion.set(None)
    lista_archivos.delete(0, tk.END)

def seleccionar_archivo():
    archivo = filedialog.askopenfilename()
    if archivo:
        lista_archivos.insert(tk.END, archivo)

def mostrar_seleccion():
    valor = seleccion.get()
    messagebox.showinfo("Opción seleccionada", "Has elegido: " + str(valor))

ventana = tk.Tk()
ventana.title("Formulario avanzado")
ventana.geometry("400x400")

tk.Label(ventana, text="Nombre:").grid(row=0, column=0, sticky="e", padx=10, pady=5)
entrada_nombre = tk.Entry(ventana)
entrada_nombre.grid(row=0, column=1, padx=10, pady=5)

tk.Label(ventana, text="Ciudad:").grid(row=1, column=0, sticky="e", padx=10, pady=5)
entrada_ciudad = tk.Entry(ventana)
entrada_ciudad.grid(row=1, column=1, padx=10, pady=5)

boton_saludo = tk.Button(ventana, text="Saludar", command=saludar)
boton_saludo.grid(row=2, column=0, padx=10, pady=5)

boton_limpiar = tk.Button(ventana, text="Limpiar", command=limpiar)
boton_limpiar.grid(row=2, column=1, padx=10, pady=5)

tk.Label(ventana, text="Selecciona una opción:").grid(row=3, column=0, columnspan=2, pady=5)
seleccion = tk.StringVar()
radio1 = tk.Radiobutton(ventana, text="Python", variable=seleccion, value="Python")
radio2 = tk.Radiobutton(ventana, text="R", variable=seleccion, value="R")
radio3 = tk.Radiobutton(ventana, text="Julia", variable=seleccion, value="Julia")

radio1.grid(row=4, column=0)
radio2.grid(row=4, column=1)
radio3.grid(row=5, column=0)

boton_opcion = tk.Button(ventana, text="Mostrar selección", command=mostrar_seleccion)
boton_opcion.grid(row=5, column=1)

tk.Label(ventana, text="Archivos seleccionados:").grid(row=6, column=0, columnspan=2, pady=5)
lista_archivos = tk.Listbox(ventana, height=4)
lista_archivos.grid(row=7, column=0, columnspan=2, padx=10)

boton_archivo = tk.Button(ventana, text="Añadir archivo", command=seleccionar_archivo)
boton_archivo.grid(row=8, column=0, columnspan=2, pady=5)

ventana.mainloop()

### Versión más estilizada

In [62]:
import tkinter as tk
from tkinter import ttk, messagebox, filedialog

def saludar():
    nombre = entrada_nombre.get()
    ciudad = entrada_ciudad.get()
    mensaje = "Hola " + nombre + ", de " + ciudad
    messagebox.showinfo("Saludo", mensaje)

def limpiar():
    entrada_nombre.delete(0, tk.END)
    entrada_ciudad.delete(0, tk.END)
    seleccion.set(None)
    lista_archivos.delete(0, tk.END)

def seleccionar_archivo():
    archivo = filedialog.askopenfilename()
    if archivo:
        lista_archivos.insert(tk.END, archivo)

def mostrar_seleccion():
    valor = seleccion.get()
    if valor:
        messagebox.showinfo("Opción seleccionada", "Has elegido: " + str(valor))
    else:
        messagebox.showinfo("Opción seleccionada", "No has seleccionado nada.")

ventana = tk.Tk()
ventana.title("Formulario avanzado")
ventana.geometry("500x500")
ventana.configure(bg="#f0f0f0")

marco = ttk.Frame(ventana, padding=20)
marco.pack(expand=True)

fuente = ("Segoe UI", 11)

ttk.Label(marco, text="Nombre:", font=fuente).grid(row=0, column=0, sticky="e", padx=10, pady=5)
entrada_nombre = ttk.Entry(marco, font=fuente, width=30)
entrada_nombre.grid(row=0, column=1, pady=5)

ttk.Label(marco, text="Ciudad:", font=fuente).grid(row=1, column=0, sticky="e", padx=10, pady=5)
entrada_ciudad = ttk.Entry(marco, font=fuente, width=30)
entrada_ciudad.grid(row=1, column=1, pady=5)

botones = ttk.Frame(marco)
botones.grid(row=2, column=0, columnspan=2, pady=10)

ttk.Button(botones, text="Saludar", command=saludar).pack(side="left", padx=5)
ttk.Button(botones, text="Limpiar", command=limpiar).pack(side="left", padx=5)

ttk.Label(marco, text="Selecciona una opción:", font=fuente).grid(row=3, column=0, columnspan=2, pady=10)

seleccion = tk.StringVar()
opciones = ttk.Frame(marco)
opciones.grid(row=4, column=0, columnspan=2)

ttk.Radiobutton(opciones, text="Python", variable=seleccion, value="Python").pack(side="left", padx=10)
ttk.Radiobutton(opciones, text="R", variable=seleccion, value="R").pack(side="left", padx=10)
ttk.Radiobutton(opciones, text="Julia", variable=seleccion, value="Julia").pack(side="left", padx=10)

ttk.Button(marco, text="Mostrar selección", command=mostrar_seleccion).grid(row=5, column=0, columnspan=2, pady=10)

ttk.Label(marco, text="Archivos seleccionados:", font=fuente).grid(row=6, column=0, columnspan=2, pady=(15, 5))
lista_archivos = tk.Listbox(marco, height=4, width=50, font=("Segoe UI", 10))
lista_archivos.grid(row=7, column=0, columnspan=2, padx=10)

ttk.Button(marco, text="Añadir archivo", command=seleccionar_archivo).grid(row=8, column=0, columnspan=2, pady=10)

ventana.mainloop()


In [65]:
import tkinter as tk
from tkinter import ttk, messagebox, filedialog
import datetime

def añadir_tarea():
    tarea = entrada_tarea.get()
    if tarea:
        lista_tareas.insert(tk.END, tarea + " [" + prioridad.get() + "]")
        entrada_tarea.delete(0, tk.END)

def eliminar_tarea():
    seleccion = lista_tareas.curselection()
    if seleccion:
        lista_tareas.delete(seleccion[0])

def guardar_tareas():
    archivo = filedialog.asksaveasfilename(defaultextension=".txt")
    if archivo:
        with open(archivo, "w") as f:
            for i in range(lista_tareas.size()):
                f.write(lista_tareas.get(i) + "\n")
        messagebox.showinfo("Guardado", "Tareas guardadas correctamente")

def cargar_tareas():
    archivo = filedialog.askopenfilename()
    if archivo:
        lista_tareas.delete(0, tk.END)
        with open(archivo, "r") as f:
            for linea in f:
                lista_tareas.insert(tk.END, linea.strip())

def marcar_hecho():
    seleccion = lista_tareas.curselection()
    if seleccion:
        tarea = lista_tareas.get(seleccion[0])
        if "[HECHO]" not in tarea:
            tarea_hecha = tarea + " [HECHO]"
            lista_tareas.delete(seleccion[0])
            lista_tareas.insert(tk.END, tarea_hecha)

def mostrar_estadisticas():
    total = lista_tareas.size()
    hechas = sum(1 for i in range(total) if "[HECHO]" in lista_tareas.get(i))
    pendientes = total - hechas
    messagebox.showinfo("Estadísticas", "Total: " + str(total) + "\nHechas: " + str(hechas) + "\nPendientes: " + str(pendientes))

ventana = tk.Tk()
ventana.title("Gestor de tareas")
ventana.geometry("450x500")

tk.Label(ventana, text="Tarea:").grid(row=0, column=0, padx=10, pady=5, sticky="e")
entrada_tarea = tk.Entry(ventana, width=30)
entrada_tarea.grid(row=0, column=1, padx=10, pady=5)

tk.Label(ventana, text="Prioridad:").grid(row=1, column=0, padx=10, sticky="e")
prioridad = ttk.Combobox(ventana, values=["Alta", "Media", "Baja"])
prioridad.set("Media")
prioridad.grid(row=1, column=1, padx=10, pady=5, sticky="w")

tk.Button(ventana, text="Añadir tarea", command=añadir_tarea).grid(row=2, column=1, sticky="w", pady=5)
tk.Button(ventana, text="Eliminar tarea", command=eliminar_tarea).grid(row=2, column=1, sticky="e", pady=5)

tk.Label(ventana, text="Lista de tareas:").grid(row=3, column=0, columnspan=2, pady=5)
lista_tareas = tk.Listbox(ventana, width=50, height=15)
lista_tareas.grid(row=4, column=0, columnspan=2, padx=10)

tk.Button(ventana, text="Marcar como hecha", command=marcar_hecho).grid(row=5, column=0, padx=10, pady=5)
tk.Button(ventana, text="Mostrar estadísticas", command=mostrar_estadisticas).grid(row=5, column=1, padx=10, pady=5)

tk.Button(ventana, text="Guardar tareas", command=guardar_tareas).grid(row=6, column=0, padx=10, pady=5)
tk.Button(ventana, text="Cargar tareas", command=cargar_tareas).grid(row=6, column=1, padx=10, pady=5)

def actualizar_hora():
    ahora = datetime.datetime.now().strftime("%H:%M:%S")
    reloj.config(text="Hora actual: " + ahora)
    ventana.after(1000, actualizar_hora)

reloj = tk.Label(ventana, text="", fg="gray")
reloj.grid(row=7, column=0, columnspan=2, pady=10)
actualizar_hora()

ventana.mainloop()


# Paquetes para la automatización de la analítica

In [97]:
# ! pip install papermill

In [6]:
import papermill as pm
import os

os.makedirs("informes_generados", exist_ok=True)

parametros = [
    {"mes": "Enero", "pais": "España"},
    {"mes": "Febrero", "pais": "España"},
    {"mes": "Enero", "pais": "México"},
    {"mes": "Febrero", "pais": "México"}
]

for p in parametros:
    nombre_salida = f"informes_generados/informe_{p['pais']}_{p['mes']}.ipynb"
    
    pm.execute_notebook(
        input_path="plantilla.ipynb",
        output_path=nombre_salida,
        parameters=p
    )
    
    print("Generado: " + nombre_salida)


Executing:   0%|          | 0/5 [00:00<?, ?cell/s]

Generado: informes_generados/informe_España_Enero.ipynb


Executing:   0%|          | 0/5 [00:00<?, ?cell/s]

Generado: informes_generados/informe_España_Febrero.ipynb


Executing:   0%|          | 0/5 [00:00<?, ?cell/s]

Generado: informes_generados/informe_México_Enero.ipynb


Executing:   0%|          | 0/5 [00:00<?, ?cell/s]

Generado: informes_generados/informe_México_Febrero.ipynb


In [7]:
import pandas as pd
import matplotlib.pyplot as plt
import datetime
import os
import base64

os.makedirs("reportes_html", exist_ok=True)

df = pd.DataFrame({
    "producto": ["A", "B", "C", "D"],
    "ventas": [1200, 1500, 980, 1750]
})

plt.figure(figsize=(6, 4))
plt.bar(df["producto"], df["ventas"], color="skyblue")
plt.title("Ventas por producto")
plt.xlabel("Producto")
plt.ylabel("Ventas (€)")
plt.tight_layout()

ruta_imagen = "reportes_html/grafico.png"
plt.savefig(ruta_imagen)
plt.close()

with open(ruta_imagen, "rb") as img_file:
    img_base64 = base64.b64encode(img_file.read()).decode('utf-8')

tabla_html = df.to_html(index=False)

html = f"""
<html>
<head>
    <meta charset="utf-8">
    <style>
        body {{
            font-family: Arial, sans-serif;
            margin: 40px;
        }}
        h1 {{
            color: #003366;
        }}
        table {{
            width: 100%;
            border-collapse: collapse;
            margin-top: 20px;
        }}
        th, td {{
            border: 1px solid #ccc;
            padding: 8px;
            text-align: center;
        }}
        img {{
            margin-top: 30px;
            width: 80%;
        }}
    </style>
</head>
<body>
    <h1>Informe de ventas</h1>
    <p>Fecha: {datetime.datetime.now().strftime('%Y-%m-%d %H:%M')}</p>
    <h2>Tabla de datos</h2>
    {tabla_html}
    <h2>Gráfico</h2>
    <img src="data:image/png;base64,{img_base64}">
</body>
</html>
"""

ruta_html = "reportes_html/informe.html"
with open(ruta_html, "w", encoding="utf-8") as f:
    f.write(html)

print("Informe HTML generado: " + ruta_html)

import webbrowser

webbrowser.open("file://" + os.path.abspath(ruta_html))

Informe HTML generado: reportes_html/informe.html


True

In [None]:
# alternativa a pdf: weasyprint, fpdf, pypdf2