In [None]:
# ============================================================================
# PROGRAMACIÓN DE TAREAS AUTOMÁTICAS
# ============================================================================

# crear_banner("AUTOMATIZACIÓN DE TAREAS CON CRON Y SCHEDULERS", "*") # Removed as function is not defined

print(" **En esta sección aprenderemos:**")
print("   • Programar tareas con cron (Linux/Mac)")
print("   • Usar Task Scheduler (Windows)")
print("   • Crear schedulers en Python")
print("   • Monitorear procesos automáticos")
print()

# ============================================================================
# PARTE 1: CONCEPTOS DE PROGRAMACIÓN DE TAREAS
# ============================================================================

print(" **PARTE 1: ¿Qué es la programación de tareas?**")
print()

# mostrar_concepto(
#     "CRON (Linux/Mac)",
#     "Sistema que ejecuta comandos en horarios específicos",
#     "Ejecutar un script todos los días a las 6:00 AM"
# )

# mostrar_concepto(
#     "Task Scheduler (Windows)",
#     "Herramienta de Windows para programar tareas automáticas",
#     "Ejecutar un programa cada lunes a las 9:00 AM"
# )

# mostrar_concepto(
#     "Python Scheduler",
#     "Librerías de Python para programar tareas dentro del código",
#     "schedule, APScheduler, celery"
# )

print(" **Ejemplos de tareas automáticas:**")
print("   • Generar reportes diarios")
print("   • Hacer backup de datos")
print("   • Sincronizar con APIs")
print("   • Limpiar archivos temporales")
print("   • Enviar emails automáticos")
print()

# ============================================================================
# PARTE 2: SCHEDULER EN PYTHON
# ============================================================================

print(" **PARTE 2: Creando un scheduler en Python**")
print("Usaremos la librería 'schedule' para programar tareas")
print()

# Import necessary libraries globally
import pandas as pd
import numpy as np

# Instalar schedule si no está disponible
try:
    import schedule
    import time
    import threading
    from datetime import datetime, timedelta
    print(" Librería 'schedule' disponible")
except ImportError:
    print(" Instalando librería 'schedule'...")
    import subprocess
    subprocess.run(['pip', 'install', 'schedule'], check=True)
    import schedule
    import time
    import threading
    from datetime import datetime, timedelta


class ProgramadorTareas:
    """Clase para programar y ejecutar tareas automáticas"""

    def __init__(self):
        self.tareas_ejecutadas = []
        self.ejecutando = False

    def tarea_reporte_diario(self):
        """Tarea que genera un reporte diario"""
        try:
            print(f" Ejecutando reporte diario - {datetime.now()}")

            # Simular generación de reporte
            # import pandas as pd # Removed as imported globally
            # import numpy as np # Removed as imported globally

            # Crear datos simulados
            np.random.seed(int(datetime.now().timestamp()))
            datos = pd.DataFrame({
                'fecha': [datetime.now().date()],
                'ventas_total': [np.random.randint(5000, 15000)],
                'num_transacciones': [np.random.randint(50, 200)],
                'producto_top': [np.random.choice(['Laptop', 'Mouse', 'Teclado', 'Monitor'])],
                'region_top': [np.random.choice(['Norte', 'Sur', 'Este', 'Oeste'])]
            })

            # Guardar reporte
            nombre_archivo = f"reporte_diario_{datetime.now().strftime('%Y%m%d')}.csv"
            datos.to_csv(nombre_archivo, index=False)

            # Registrar ejecución
            self.tareas_ejecutadas.append({
                'tarea': 'reporte_diario',
                'fecha': datetime.now(),
                'archivo': nombre_archivo,
                'estado': 'exitoso'
            })

            print(f" Reporte guardado: {nombre_archivo}")

        except Exception as e:
            print(f" Error en reporte diario: {e}")
            self.tareas_ejecutadas.append({
                'tarea': 'reporte_diario',
                'fecha': datetime.now(),
                'estado': 'error',
                'error': str(e)
            })

    def tarea_limpieza_archivos(self):
        """Tarea que limpia archivos temporales"""
        try:
            print(f" Ejecutando limpieza de archivos - {datetime.now()}")

            import os
            import glob

            # Buscar archivos temporales (más de 7 días)
            archivos_temp = glob.glob("temp_*.csv") + glob.glob("*.tmp")
            archivos_eliminados = 0

            fecha_limite = datetime.now() - timedelta(days=7)

            for archivo in archivos_temp:
                try:
                    fecha_archivo = datetime.fromtimestamp(os.path.getmtime(archivo))
                    if fecha_archivo < fecha_limite:
                        os.remove(archivo)
                        archivos_eliminados += 1
                        print(f"    Eliminado: {archivo}")
                except:
                    continue

            self.tareas_ejecutadas.append({
                'tarea': 'limpieza_archivos',
                'fecha': datetime.now(),
                'archivos_eliminados': archivos_eliminados,
                'estado': 'exitoso'
            })

            print(f" Limpieza completada: {archivos_eliminados} archivos eliminados")

        except Exception as e:
            print(f" Error en limpieza: {e}")

    def tarea_backup_datos(self):
        """Tarea que hace backup de datos importantes"""
        try:
            print(f" Ejecutando backup de datos - {datetime.now()}")

            import shutil
            import os

            # Buscar archivos importantes para backup
            archivos_importantes = glob.glob("*.csv") + glob.glob("*.xlsx") + glob.glob("*.json")
            archivos_copiados = 0

            # Crear carpeta de backup si no existe
            carpeta_backup = f"backup_{datetime.now().strftime('%Y%m%d')}"
            if not os.path.exists(carpeta_backup):
                os.makedirs(carpeta_backup)

            for archivo in archivos_importantes:
                try:
                    if os.path.exists(archivo):
                        shutil.copy2(archivo, carpeta_backup)
                        archivos_copiados += 1
                except:
                    continue

            self.tareas_ejecutadas.append({
                'tarea': 'backup_datos',
                'fecha': datetime.now(),
                'carpeta': carpeta_backup,
                'archivos_copiados': archivos_copiados,
                'estado': 'exitoso'
            })

            print(f" Backup completado: {archivos_copiados} archivos en {carpeta_backup}")

        except Exception as e:
            print(f" Error en backup: {e}")

    def tarea_sincronizacion_api(self):
        """Tarea que sincroniza datos con API externa"""
        try:
            print(f" Ejecutando sincronización API - {datetime.now()}")

            # Simular sincronización con API
            import requests
            import json

            # Datos simulados para enviar
            datos_sync = {
                'timestamp': datetime.now().isoformat(),
                'ventas_dia': np.random.randint(1000, 5000),
                'productos_vendidos': np.random.randint(10, 100),
                'status': 'active'
            }

            # Simular envío (en realidad guardaremos en archivo)
            with open(f"sync_api_{datetime.now().strftime('%Y%m%d_%H%M')}.json", 'w') as f:
                json.dump(datos_sync, f, indent=2)

            self.tareas_ejecutadas.append({
                'tarea': 'sincronizacion_api',
                'fecha': datetime.now(),
                'datos_enviados': len(datos_sync),
                'estado': 'exitoso'
            })

            print(" Sincronización API completada")

        except Exception as e:
            print(f" Error en sincronización: {e}")

    def programar_tareas(self):
        """Programar todas las tareas"""
        print(" Programando tareas automáticas...")

        # Programar tareas con diferentes frecuencias
        schedule.every().day.at("06:00").do(self.tarea_reporte_diario)
        schedule.every().day.at("23:00").do(self.tarea_backup_datos)
        schedule.every().sunday.at("02:00").do(self.tarea_limpieza_archivos)
        schedule.every(4).hours.do(self.tarea_sincronizacion_api)

        # Para demostración, programar tareas cada pocos segundos
        schedule.every(10).seconds.do(self.tarea_reporte_diario)
        schedule.every(15).seconds.do(self.tarea_sincronizacion_api)
        schedule.every(20).seconds.do(self.tarea_limpieza_archivos)
        schedule.every(30).seconds.do(self.tarea_backup_datos)

        print(" Tareas programadas:")
        print("    Reporte diario: cada 10 segundos (demo)")
        print("    Sincronización API: cada 15 segundos (demo)")
        print("    Limpieza archivos: cada 20 segundos (demo)")
        print("    Backup datos: cada 30 segundos (demo)")
        print()
        print(" En producción serían:")
        print("    Reporte diario: 06:00 AM")
        print("    Backup datos: 11:00 PM")
        print("    Limpieza archivos: Domingos 02:00 AM")
        print("    Sincronización API: cada 4 horas")

    def ejecutar_scheduler(self, duracion_segundos=60):
        """Ejecutar el scheduler por un tiempo determinado"""
        print(f" Iniciando scheduler por {duracion_segundos} segundos...")
        print("   (En producción correría indefinidamente)")

        self.ejecutando = True
        inicio = time.time()

        while self.ejecutando and (time.time() - inicio) < duracion_segundos:
            schedule.run_pending()
            time.sleep(1)

        print("\n Scheduler detenido")
        self.mostrar_resumen_ejecuciones()

    def detener_scheduler(self):
        """Detener el scheduler"""
        self.ejecutando = False

    def mostrar_resumen_ejecuciones(self):
        """Mostrar resumen de tareas ejecutadas"""
        if not self.tareas_ejecutadas:
            print(" No se ejecutaron tareas")
            return

        print("\n **RESUMEN DE TAREAS EJECUTADAS:**")
        print("=" * 50)

        df_tareas = pd.DataFrame(self.tareas_ejecutadas)

        # Resumen por tipo de tarea
        resumen = df_tareas.groupby('tarea').agg({
            'fecha': 'count',
            'estado': lambda x: (x == 'exitoso').sum()
        }).rename(columns={'fecha': 'total_ejecuciones', 'estado': 'exitosas'})

        resumen['fallidas'] = resumen['total_ejecuciones'] - resumen['exitosas']

        print(resumen)

        # Últimas ejecuciones
        print(f"\n **ÚLTIMAS 5 EJECUCIONES:**")
        ultimas = df_tareas.tail().sort_values('fecha', ascending=False)
        for _, tarea in ultimas.iterrows():
            estado_emoji = "*" if tarea['estado'] == 'exitoso' else "x"
            print(f"   {estado_emoji} {tarea['tarea']} - {tarea['fecha'].strftime('%H:%M:%S')}")

# Demostración del scheduler
print(" **Creando y ejecutando scheduler automático:**")

programador = ProgramadorTareas()
programador.programar_tareas()

# Ejecutar por 45 segundos para ver varias ejecuciones
print("\n Ejecutando scheduler (45 segundos de demostración)...")
print("   Presiona Ctrl+C para detener antes")

try:
    programador.ejecutar_scheduler(45)
except KeyboardInterrupt:
    print("\n Scheduler interrumpido por el usuario")
    programador.detener_scheduler()

# ============================================================================
# PARTE 3: CONFIGURACIÓN DE CRON Y TASK SCHEDULER
# ============================================================================

print("\n **PARTE 3: Configuración en sistemas operativos**")
print()

def mostrar_ejemplos_cron():
    """Mostrar ejemplos de configuración cron"""
    print(" **CRON (Linux/Mac) - Ejemplos de configuración:**")
    print()
    print(" Para editar crontab: `crontab -e`")
    print()
    print(" **Formato:** minuto hora día mes día_semana comando")
    print()

    ejemplos_cron = [
        ("0 6 * * *", "Ejecutar todos los días a las 6:00 AM"),
        ("30 14 * * 1", "Ejecutar los lunes a las 2:30 PM"),
        ("0 */4 * * *", "Ejecutar cada 4 horas"),
        ("0 0 1 * *", "Ejecutar el primer día de cada mes a medianoche"),
        ("*/15 * * * *", "Ejecutar cada 15 minutos"),
        ("0 2 * * 0", "Ejecutar los domingos a las 2:00 AM")
    ]

    for cron_expr, descripcion in ejemplos_cron:
        print(f"   {cron_expr:<12} → {descripcion}")

    print()
    print(" **Ejemplo de archivo crontab completo:**")
    print("```")
    print("# Reporte diario a las 6:00 AM")
    print("0 6 * * * /usr/bin/python3 /ruta/a/tu/script_reporte.py")
    print()
    print("# Backup semanal los domingos a las 2:00 AM")
    print("0 2 * * 0 /usr/bin/python3 /ruta/a/tu/script_backup.py")
    print()
    print("# Limpieza mensual el primer día del mes")
    print("0 1 1 * * /usr/bin/python3 /ruta/a/tu/script_limpieza.py")
    print("```")

def mostrar_ejemplos_windows():
    """Mostrar ejemplos de Task Scheduler para Windows"""
    print("\n **TASK SCHEDULER (Windows) - Configuración:**")
    print()
    print(" **Pasos para crear una tarea:**")
    print("   1. Abrir 'Programador de tareas' (Task Scheduler)")
    print("   2. Clic en 'Crear tarea básica'")
    print("   3. Dar nombre y descripción")
    print("   4. Elegir frecuencia (diaria, semanal, etc.)")
    print("   5. Configurar hora y fecha")
    print("   6. Seleccionar 'Iniciar un programa'")
    print("   7. Programa: python.exe")
    print("   8. Argumentos: ruta_completa_a_tu_script.py")
    print()
    print(" **Ejemplo de configuración:**")
    print("   Programa: C:\\Python39\\python.exe")
    print("   Argumentos: C:\\mis_scripts\\reporte_diario.py")
    print("   Iniciar en: C:\\mis_scripts\\")
    print()
    print(" **Configuraciones avanzadas:**")
    print("   • Ejecutar aunque el usuario no esté conectado")
    print("   • Ejecutar con privilegios más altos")
    print("   • Configurar reintentos si falla")
    print("   • Establecer condiciones (solo si hay AC, etc.)")

def crear_script_ejemplo():
    """Crear un script de ejemplo para programar"""
    print("\n **Creando script de ejemplo para programar:**")

    script_content = '''#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Script de ETL automatizado
Ejecutar diariamente para procesar datos
"""

import pandas as pd
import numpy as np
from datetime import datetime
import logging
import sys
import os

# Configurar logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('etl_automatico.log'),
        logging.StreamHandler(sys.stdout)
    ]
)

def main():
    """Función principal del ETL"""
    try:
        logging.info("=== INICIANDO ETL AUTOMÁTICO ===")

        # 1. EXTRACT
        logging.info("Extrayendo datos...")
        # Aquí irían tus fuentes de datos reales
        datos = pd.DataFrame({
            'fecha': [datetime.now().date()],
            'procesado': [True],
            'timestamp': [datetime.now()]
        })

        # 2. TRANSFORM
        logging.info("Transformando datos...")
        # Aquí irían tus transformaciones

        # 3. LOAD
        logging.info("Guardando resultados...")
        archivo_salida = f"resultado_etl_{datetime.now().strftime('%Y%m%d')}.csv"
        datos.to_csv(archivo_salida, index=False)

        logging.info(f"ETL completado exitosamente: {archivo_salida}")
        return True

    except Exception as e:
        logging.error(f"Error en ETL: {e}")
        return False

if __name__ == "__main__":
    success = main()
    sys.exit(0 if success else 1)
'''

    # Guardar script
    with open('etl_automatico.py', 'w', encoding='utf-8') as f:
        f.write(script_content)

    print(" Script creado: etl_automatico.py")
    print(" Este script incluye:")
    print("   • Logging completo")
    print("   • Manejo de errores")
    print("   • Código de salida para cron")
    print("   • Estructura ETL básica")
    print()
    print(" **Para usar con cron:**")
    print("   0 6 * * * /usr/bin/python3 /ruta/completa/etl_automatico.py")
    print()
    print(" **Para usar con Task Scheduler:**")
    print("   Programa: python.exe")
    print("   Argumentos: /ruta/completa/etl_automatico.py")

# Mostrar ejemplos de configuración
mostrar_ejemplos_cron()
mostrar_ejemplos_windows()
crear_script_ejemplo()

# ============================================================================
# PARTE 4: MONITOREO Y ALERTAS
# ============================================================================

print("\n **PARTE 4: Monitoreo y alertas**")

class MonitorETL:
    """Clase para monitorear procesos ETL"""

    def __init__(self):
        self.alertas = []

    def verificar_archivos_recientes(self, patron="*.csv", horas=24):
        """Verificar si hay archivos recientes"""
        import glob
        import os
        from datetime import datetime, timedelta

        archivos = glob.glob(patron)
        fecha_limite = datetime.now() - timedelta(hours=horas)
        archivos_recientes = []

        for archivo in archivos:
            fecha_archivo = datetime.fromtimestamp(os.path.getmtime(archivo))
            if fecha_archivo > fecha_limite:
                archivos_recientes.append({
                    'archivo': archivo,
                    'fecha': fecha_archivo,
                    'tamaño': os.path.getsize(archivo)
                })

        return archivos_recientes

    def verificar_logs_errores(self, archivo_log="etl_process.log"):
        """Verificar errores en logs"""
        errores = []

        try:
            if os.path.exists(archivo_log):
                with open(archivo_log, 'r') as f:
                    lineas = f.readlines()

                for i, linea in enumerate(lineas):
                    if 'ERROR' in linea or 'CRITICAL' in linea:
                        errores.append({
                            'linea': i + 1,
                            'contenido': linea.strip(),
                            'timestamp': linea.split(' - ')[0] if ' - ' in linea else 'N/A'
                        })
        except Exception as e:
            print(f"Error leyendo log: {e}")

        return errores

    def generar_reporte_salud(self):
        """Generar reporte de salud del sistema ETL"""
        print(" **REPORTE DE SALUD DEL SISTEMA ETL**")
        print("=" * 50)

        # Verificar archivos recientes
        archivos_recientes = self.verificar_archivos_recientes()
        print(f" Archivos generados últimas 24h: {len(archivos_recientes)}")

        if archivos_recientes:
            for archivo in archivos_recientes[-3:]:  # Mostrar últimos 3
                print(f"    {archivo['archivo']} - {archivo['fecha'].strftime('%Y-%m-%d %H:%M')}")

        # Verificar errores en logs
        errores = self.verificar_logs_errores()
        print(f"\n Errores encontrados en logs: {len(errores)}")

        if errores:
            for error in errores[-3:]:  # Mostrar últimos 3 errores
                print(f"    Línea {error['linea']}: {error['contenido'][:100]}...")

        # Verificar espacio en disco
        import shutil
        espacio_libre = shutil.disk_usage('.').free / (1024**3)  # GB
        print(f"\n Espacio libre en disco: {espacio_libre:.1f} GB")

        if espacio_libre < 1:
            print("    ADVERTENCIA: Poco espacio en disco")

        # Estado general
        estado = " SALUDABLE"
        if len(errores) > 5:
            estado = " ADVERTENCIA"
        if len(errores) > 10 or espacio_libre < 0.5:
            estado = " CRÍTICO"

        print(f"\n **Estado general del sistema: {estado}**")

        return {
            'archivos_recientes': len(archivos_recientes),
            'errores': len(errores),
            'espacio_libre_gb': espacio_libre,
            'estado': estado
        }

    def enviar_alerta_email(self, asunto, mensaje):
        """Simular envío de alerta por email"""
        print(f" **ALERTA EMAIL ENVIADA**")
        print(f"   Asunto: {asunto}")
        print(f"   Mensaje: {mensaje}")
        print(f"   Timestamp: {datetime.now()}")

        # En producción aquí usarías smtplib o un servicio como SendGrid
        alerta = {
            'tipo': 'email',
            'asunto': asunto,
            'mensaje': mensaje,
            'timestamp': datetime.now()
        }
        self.alertas.append(alerta)

# Demostración del monitor
print(" **Ejecutando monitoreo del sistema ETL:**")
monitor = MonitorETL()
reporte = monitor.generar_reporte_salud()

# Simular alerta si hay problemas
if reporte['errores'] > 0:
    monitor.enviar_alerta_email(
        " Errores detectados en ETL",
        f"Se encontraron {reporte['errores']} errores en el sistema ETL. Revisar logs."
    )

print("\n" + "="*80)
print(" **RESUMEN DEL MÓDULO 8: AUTOMATIZACIÓN DE PROCESOS DE DATOS**")
print("="*80)
print()
print(" **Lo que hemos aprendido:**")
print("    Conceptos básicos de ETL (Extract, Transform, Load)")
print("    Creación de scripts automatizados en Python")
print("    Conexión y manejo de bases de datos")
print("    Consumo de APIs REST")
print("    Programación de tareas con schedule")
print("    Configuración de cron (Linux/Mac)")
print("    Configuración de Task Scheduler (Windows)")
print("    Monitoreo y alertas de sistemas ETL")
print()
print(" **Herramientas y librerías utilizadas:**")
print("   • pandas - Manipulación de datos")
print("   • sqlite3 - Base de datos")
print("   • requests - Consumo de APIs")
print("   • schedule - Programación de tareas")
print("   • logging - Registro de eventos")
print("   • json - Manejo de datos JSON")
print()
print(" **Archivos generados en esta sesión:**")
print("    Múltiples archivos CSV y Excel con datos procesados")
print("    Base de datos SQLite con datos de ejemplo")
print("    Scripts de ETL automatizados")
print("    Logs de ejecución")
print("    Archivos de configuración JSON")
print()
print(" **Próximos pasos recomendados:**")
print("   1. Practicar con datos reales de tu organización")
print("   2. Implementar conexiones a bases de datos reales")
print("   3. Configurar tareas automáticas en tu sistema operativo")
print("   4. Añadir más validaciones y manejo de errores")
print("   5. Implementar notificaciones por email/Slack")
print("   6. Crear dashboards para monitorear los procesos")
print()
print(" **Consejos para estudiantes:**")
print("    **Principiantes:** Empezar con ETL simple de archivos CSV")
print("    **Intermedios:** Agregar bases de datos y APIs")
print("    **Avanzados:** Implementar monitoreo y alertas completas")
print()
print(" **¡Felicidades! Has completado el módulo de Automatización de Datos**")