[← Guia 09](../guia_09_apis_con_python/guia_09.ipynb) | **Guia 10** | [Guia 11 →](../guia_11_analisis_datos_harvard/guia_11.ipynb)

# Guia 10: Automatizacion de Datos

> **Autor:** Francisco Alvarez Varas | **Programa:** EDEM MDA 2025/2026 | **Grupo:** MDAB

| Dificultad | Ejercicios | Temas clave |
|:---:|:---:|:---:|
| Avanzado | 8 | CSV, JSON, ETL, Logging, Automatizacion |

**Fuentes:** Automate the Boring Stuff with Python (Al Sweigart), Real Python tutorials, MIT 6.0001 file I/O exercises, Harvard CS50P File I/O pset, ETL pipelines (industria real de data engineering)

---

Este es el tipo de proyecto que IMPRESIONA en un portfolio. Automatizar tareas repetitivas es una de las habilidades mas valiosas de Python en el mundo laboral. En esta guia trabajaremos con archivos CSV, JSON, analisis de texto, gestores de tareas, generacion de informes, organizacion de archivos, sistemas de logging y pipelines ETL completos.

**Instrucciones:**
- Lee cada ejercicio con atencion
- Escribe tu codigo en la celda marcada con `# TU CODIGO AQUI`
- Ejecuta la celda para comprobar el resultado
- Si te atascas, despliega la solucion (pero intenta primero!)

---

## Contenido

1. [Ejercicio 1: Leer y escribir archivos CSV](#ejercicio-1-de-8-leer-y-escribir-archivos-csv)
2. [Ejercicio 2: Procesamiento de datos JSON](#ejercicio-2-de-8-procesamiento-de-datos-json)
3. [Ejercicio 3: Analizador de texto (frecuencia de palabras)](#ejercicio-3-de-8-analizador-de-texto-frecuencia-de-palabras)
4. [Ejercicio 4: Gestor de tareas (TODO app en terminal)](#ejercicio-4-de-8-gestor-de-tareas-todo-app-en-terminal)
5. [Ejercicio 5: Generador de informes automaticos](#ejercicio-5-de-8-generador-de-informes-automaticos)
6. [Ejercicio 6: Organizador de archivos (Automatizacion real)](#ejercicio-6-de-8-organizador-de-archivos-automatizacion-real)
7. [Ejercicio 7: Sistema de registro (Logging basico)](#ejercicio-7-de-8-sistema-de-registro-logging-basico)
8. [Ejercicio 8: Pipeline ETL completo (MIT/Industry standard)](#ejercicio-8-de-8-pipeline-etl-completo-mitindustry-standard)

## Prerequisitos

Antes de empezar esta guia, debes dominar:
- [Guia 01: Variables, Tipos y Strings](../guia_01_variables_tipos_strings/guia_01.ipynb)
- [Guia 02: Operadores y Condicionales](../guia_02_operadores_condicionales/guia_02.ipynb)
- [Guia 03: Listas, Tuplas y Diccionarios](../guia_03_listas_tuplas_diccionarios/guia_03.ipynb)
- [Guia 04: Bucles (for y while)](../guia_04_bucles_for_while/guia_04.ipynb)
- [Guia 05: Funciones](../guia_05_funciones/guia_05.ipynb)
- [Guia 06: Clases, Excepciones y Modulos](../guia_06_clases_excepciones_modulos/guia_06.ipynb)
- [Guia 09: APIs con Python](../guia_09_apis_con_python/guia_09.ipynb) - necesitas saber como funcionan las APIs y el manejo de archivos

**Nivel de esta guia:** Avanzado

**Guia 10 de 12** del programa Python EDEM MDA 2025/2026

---
## Ejercicio 1 de 8: Leer y escribir archivos CSV | Facil

> **Conceptos clave:** `csv.DictWriter` | `csv.DictReader` | `fieldnames` | `newline=""` | conversion de tipos

CSV (Comma Separated Values) es el formato mas comun para datos tabulares. Piensa en el como un Excel simplificado.

**Tareas:**
- Crea una lista de diccionarios con datos de 5 alumnos: `{"nombre": "Ana", "nota": 8.5, "asignatura": "Python"}`
- Escribe estos datos en un archivo CSV llamado `notas.csv` usando `csv.DictWriter`
- Lee el archivo CSV y carga los datos de vuelta en una lista usando `csv.DictReader`
- Calcula e imprime: nota media de la clase, alumno con mejor nota, alumno con peor nota

### Tu turno

In [None]:
# TU CODIGO AQUI
import csv

# Pista: csv.DictWriter necesita fieldnames=["nombre", "nota", "asignatura"]
# Pista: newline="" en Windows es importante para evitar lineas en blanco extra
# Pista: CSV lee TODO como string, hay que convertir numeros con float()/int()


<details>
<summary><b>Ver solucion - Ejercicio 1</b></summary>

Usamos `csv.DictWriter` para escribir una lista de diccionarios como filas CSV, y `csv.DictReader` para leerlas de vuelta. Importante recordar que CSV lee todo como string, asi que convertimos las notas a `float` al leer. Luego usamos `max()` y `min()` con `key=lambda` para encontrar al mejor y peor alumno.

```python
import csv

# --- Datos de ejemplo: lista de diccionarios ---
# CONCEPTO: Cada diccionario representa una fila de la tabla CSV
# Las claves del diccionario seran las columnas (nombre, nota, asignatura)
alumnos = [
    {"nombre": "Ana", "nota": 8.5, "asignatura": "Python"},
    {"nombre": "Carlos", "nota": 6.0, "asignatura": "Python"},
    {"nombre": "Maria", "nota": 9.5, "asignatura": "Python"},
    {"nombre": "Luis", "nota": 7.0, "asignatura": "Python"},
    {"nombre": "Pilar", "nota": 5.5, "asignatura": "Python"},
]

# --- ESCRIBIR CSV ---
# CONCEPTO: newline="" evita que en Windows se creen lineas en blanco extra entre filas
# encoding="utf-8" asegura que los caracteres especiales se guarden correctamente
with open("notas.csv", "w", newline="", encoding="utf-8") as archivo:
    # fieldnames define el ORDEN y NOMBRE de las columnas en el CSV
    campos = ["nombre", "nota", "asignatura"]
    # CONCEPTO: DictWriter escribe diccionarios como filas CSV (mas legible que csv.writer)
    escritor = csv.DictWriter(archivo, fieldnames=campos)
    escritor.writeheader()    # Escribe la primera fila con los nombres de columna
    escritor.writerows(alumnos)  # Escribe TODAS las filas de golpe (una por diccionario)

print("Archivo 'notas.csv' creado")

# --- LEER CSV ---
alumnos_leidos = []
with open("notas.csv", "r", encoding="utf-8") as archivo:
    # CONCEPTO: DictReader lee cada fila como un diccionario {columna: valor}
    # Es mas intuitivo que csv.reader porque accedes por nombre, no por indice
    lector = csv.DictReader(archivo)
    for fila in lector:
        # CONCEPTO: CSV lee TODO como string, incluso los numeros
        # Debemos convertir "8.5" (string) a 8.5 (float) manualmente
        fila["nota"] = float(fila["nota"])  # CSV lee todo como string!
        alumnos_leidos.append(fila)

# --- Analisis de los datos leidos ---
# List comprehension para extraer solo las notas en una lista separada
notas = [a["nota"] for a in alumnos_leidos]

# CONCEPTO: Patron defensivo con "if notas else 0"
# Evita ZeroDivisionError si la lista estuviera vacia
nota_media = sum(notas) / len(notas) if notas else 0

# CONCEPTO: max() y min() con key=lambda para buscar por un campo especifico
# lambda a: a["nota"] le dice a max() que compare por el valor de "nota"
mejor = max(alumnos_leidos, key=lambda a: a["nota"])
peor = min(alumnos_leidos, key=lambda a: a["nota"])

# --- Mostrar resultados ---
# :.1f formatea el float con 1 decimal
print(f"Nota media: {nota_media:.1f}")
print(f"Mejor: {mejor['nombre']} ({mejor['nota']})")
print(f"Peor: {peor['nombre']} ({peor['nota']})")
```

</details>

> **Recuerda:**

| Concepto | Descripcion | Ejemplo |
|---|---|---|
| `csv.DictWriter` | Escribe diccionarios como filas CSV | `escritor.writerows(lista)` |
| `csv.DictReader` | Lee filas CSV como diccionarios | `for fila in lector:` |
| `.writeheader()` | Escribe la cabecera (nombres de columnas) | Usa los `fieldnames` |
| `newline=""` | En Windows evita lineas en blanco extra | Siempre usar al abrir CSV |
| Conversion de tipos | CSV lee TODO como string | `float(fila["nota"])` |
| `max/min` con `key` | Busca maximo/minimo segun un campo | `max(lista, key=lambda x: x["nota"])` |

---
## Ejercicio 2 de 8: Procesamiento de datos JSON | Facil

> **Conceptos clave:** `json.dump()` | `json.load()` | `indent=4` | `ensure_ascii=False` | JSON vs CSV

JSON es el formato que usan las APIs. Ahora aprenderemos a guardarlo y cargarlo desde archivos.

**Tareas:**
- Crea un diccionario complejo con tu "perfil de programador" (nombre, skills, experiencia, proyectos)
- Guarda este diccionario en `perfil.json` con `json.dump()`
- Carga el archivo con `json.load()`
- Modifica el perfil: agrega un nuevo skill y un nuevo proyecto
- Vuelve a guardarlo

### Tu turno

In [None]:
# TU CODIGO AQUI
import json

# Pista: json.dump(datos, archivo, indent=4, ensure_ascii=False)
# Pista: json.load(archivo) para cargar


<details>
<summary><b>Ver solucion - Ejercicio 2</b></summary>

Usamos `json.dump()` para serializar un diccionario Python a un archivo JSON con formato legible (`indent=4`). Luego `json.load()` para deserializar de vuelta. Modificamos el objeto en memoria y lo guardamos de nuevo. JSON permite datos anidados (diccionarios dentro de diccionarios), a diferencia de CSV que es tabular.

```python
import json

# --- Crear un diccionario complejo con datos anidados ---
# CONCEPTO: JSON permite estructuras anidadas (diccionarios dentro de diccionarios,
# listas dentro de diccionarios, etc.), a diferencia de CSV que es plano/tabular
perfil = {
    "nombre": "Francisco Alvarez Varas",
    "skills": ["Python", "SQL", "Docker"],  # Lista de strings
    "experiencia": {                         # Diccionario anidado
        "Python": "3 meses",
        "SQL": "2 meses",
        "Docker": "1 mes"
    },
    "proyectos": [                           # Lista de diccionarios
        {"nombre": "Ahorcado", "tecnologia": "Python", "completado": True},
        {"nombre": "API Dashboard", "tecnologia": "Python", "completado": False}
    ]
}

# --- GUARDAR (serializar) Python -> JSON ---
with open("perfil.json", "w", encoding="utf-8") as f:
    # CONCEPTO: json.dump() convierte un objeto Python a texto JSON y lo escribe al archivo
    # indent=4 formatea con 4 espacios de indentacion (legible para humanos)
    # ensure_ascii=False permite escribir caracteres como n, a, e sin escapar a \uXXXX
    json.dump(perfil, f, indent=4, ensure_ascii=False)

print("Archivo 'perfil.json' creado")

# --- CARGAR (deserializar) JSON -> Python ---
with open("perfil.json", "r", encoding="utf-8") as f:
    # CONCEPTO: json.load() lee el texto JSON del archivo y lo convierte a objetos Python
    # Diccionarios JSON -> dict Python, Arrays JSON -> list Python, etc.
    perfil_cargado = json.load(f)

# --- Modificar el perfil en memoria ---
# CONCEPTO: Despues de cargar, el JSON es un diccionario Python normal
# Podemos usar todos los metodos de listas y diccionarios
perfil_cargado["skills"].append("PySpark")  # Agregar un skill a la lista
perfil_cargado["proyectos"].append({         # Agregar un proyecto (diccionario) a la lista
    "nombre": "Guia Python EDEM",
    "tecnologia": "Python",
    "completado": True
})

# --- Guardar el perfil actualizado (sobreescribe el archivo anterior) ---
with open("perfil.json", "w", encoding="utf-8") as f:
    json.dump(perfil_cargado, f, indent=4, ensure_ascii=False)

# --- Verificar los cambios ---
print(f"Skills: {perfil_cargado['skills']}")
print(f"Proyectos: {len(perfil_cargado['proyectos'])}")
```

</details>

> **Recuerda:**

| Formato | Uso ideal | Estructura | Ejemplo |
|---|---|---|---|
| CSV | Datos tabulares (como Excel) | Filas y columnas | `nombre,nota,asignatura` |
| JSON | Datos estructurados/anidados | Diccionarios y listas | `{"skills": ["Python", "SQL"]}` |

> **Tip:** Ambos son texto plano, legibles por humanos.

---
## Ejercicio 3 de 8: Analizador de texto (frecuencia de palabras) | Facil

> **Conceptos clave:** `str.split()` | `str.strip()` | `str.lower()` | `dict.get()` | `sorted()` con `key=lambda`

Clasico de MIT/Harvard. Analizar texto automaticamente.

**Tareas:**
- `contar_palabras(texto)` -> total de palabras
- `frecuencia_palabras(texto)` -> diccionario `{palabra: veces}`
- `top_palabras(texto, n)` -> las n palabras mas frecuentes
- `estadisticas(texto)` -> diccionario con: total_palabras, total_caracteres, promedio_largo_palabra, palabra_mas_larga, total_oraciones

### Tu turno

In [None]:
# TU CODIGO AQUI

TEXTO_EJEMPLO = """Python es un lenguaje de programacion poderoso y facil de aprender.
Tiene estructuras de datos eficientes y de alto nivel. Python es ideal
para programacion orientada a objetos. La elegante sintaxis de Python y
su tipado dinamico hacen de Python un lenguaje ideal para scripting y
desarrollo rapido de aplicaciones. Python es utilizado por empresas como
Google y Netflix. Aprender Python es una excelente decision."""

# Pista: sorted(diccionario.items(), key=lambda x: x[1], reverse=True)[:n]


<details>
<summary><b>Ver solucion - Ejercicio 3</b></summary>

Creamos cuatro funciones de analisis de texto. `frecuencia_palabras` usa `dict.get()` para contar ocurrencias. `top_palabras` ordena con `sorted()` y `key=lambda` para obtener las mas frecuentes. `estadisticas` combina varias metricas en un solo diccionario resumen.

```python
# --- Texto de ejemplo para analizar ---
TEXTO_EJEMPLO = """Python es un lenguaje de programacion poderoso y facil de aprender.
Tiene estructuras de datos eficientes y de alto nivel. Python es ideal
para programacion orientada a objetos. La elegante sintaxis de Python y
su tipado dinamico hacen de Python un lenguaje ideal para scripting y
desarrollo rapido de aplicaciones. Python es utilizado por empresas como
Google y Netflix. Aprender Python es una excelente decision."""


def contar_palabras(texto):
    """Cuenta el total de palabras en un texto."""
    # CONCEPTO: .split() sin argumentos divide por CUALQUIER espacio en blanco
    # (espacios, tabs, saltos de linea) y elimina los vacios automaticamente
    # len() de la lista resultante nos da el numero de palabras
    return len(texto.split())


def frecuencia_palabras(texto):
    """Devuelve un diccionario con la frecuencia de cada palabra."""
    # --- Preparar las palabras: minusculas y separar ---
    # .lower() convierte todo a minusculas para que "Python" y "python" cuenten igual
    palabras = texto.lower().split()

    # --- Limpiar signos de puntuacion ---
    # CONCEPTO: .strip(".,;:!?()\"'") elimina estos caracteres solo del INICIO y FINAL
    # "python." se convierte en "python", pero "can't" queda como "can't"
    palabras = [p.strip(".,;:!?()\"'") for p in palabras]

    # --- Contar frecuencia de cada palabra ---
    frecuencia = {}
    for palabra in palabras:
        if palabra:  # Ignorar strings vacios que puedan quedar despues de strip
            # CONCEPTO: dict.get(clave, 0) devuelve 0 si la clave no existe
            # Asi podemos sumar 1 sin necesidad de verificar si ya existe
            # Alternativa mas moderna: collections.Counter(palabras)
            frecuencia[palabra] = frecuencia.get(palabra, 0) + 1
    return frecuencia


def top_palabras(texto, n=5):
    """Devuelve las n palabras mas frecuentes."""
    freq = frecuencia_palabras(texto)
    # CONCEPTO: sorted() con key=lambda ordena una lista segun un criterio
    # freq.items() devuelve pares (palabra, frecuencia): [("python", 6), ("de", 5), ...]
    # lambda x: x[1] dice: ordena por el segundo elemento (la frecuencia)
    # reverse=True ordena de mayor a menor
    ordenadas = sorted(freq.items(), key=lambda x: x[1], reverse=True)
    return ordenadas[:n]  # Slicing: devuelve solo los primeros n elementos


def estadisticas(texto):
    """Calcula estadisticas completas del texto."""
    palabras = texto.split()
    # CONCEPTO: .count(".") cuenta cuantas veces aparece "." en el texto
    # Lo usamos como aproximacion del numero de oraciones
    oraciones = texto.count(".")

    # Devolvemos un diccionario con todas las metricas calculadas
    return {
        "total_palabras": len(palabras),
        "total_caracteres": len(texto),  # len() en un string cuenta caracteres
        # CONCEPTO: sum() con generador - calcula la suma de las longitudes de todas las palabras
        # sum(len(p) for p in palabras) es equivalente a un bucle for que suma
        "promedio_largo_palabra": sum(len(p) for p in palabras) / len(palabras),
        # max() con key=len busca la palabra MAS LARGA (por numero de caracteres)
        "palabra_mas_larga": max(palabras, key=len),
        "total_oraciones": oraciones,
    }


# --- Ejecutar y mostrar resultados ---
print(f"Total palabras: {contar_palabras(TEXTO_EJEMPLO)}")

print(f"\nTop 5 palabras:")
# top_palabras devuelve una lista de tuplas: [("python", 6), ("de", 5), ...]
# Usamos desempaquetado de tuplas: palabra, veces = ("python", 6)
for palabra, veces in top_palabras(TEXTO_EJEMPLO, 5):
    print(f"  '{palabra}': {veces} veces")

stats = estadisticas(TEXTO_EJEMPLO)
print(f"\nEstadisticas:")
for clave, valor in stats.items():
    # isinstance() verifica el tipo del valor para formatear correctamente
    # Los floats se muestran con 1 decimal, el resto tal cual
    if isinstance(valor, float):
        print(f"  {clave}: {valor:.1f}")
    else:
        print(f"  {clave}: {valor}")
```

</details>

> **Recuerda:**

| Concepto | Descripcion | Ejemplo |
|---|---|---|
| `str.split()` | Divide string en lista de palabras | `"hola mundo".split()` -> `["hola", "mundo"]` |
| `str.strip(chars)` | Elimina caracteres al inicio/final | `"..hola.".strip(".")` -> `"hola"` |
| `dict.get(key, default)` | Obtiene valor o devuelve default | `freq.get("python", 0)` |
| `sorted()` con `key=lambda` | Ordena segun criterio personalizado | `sorted(items, key=lambda x: x[1])` |

---
## Ejercicio 4 de 8: Gestor de tareas (TODO app en terminal) | Medio

> **Conceptos clave:** `@classmethod` | serializacion/deserializacion | metodos "privados" con `_` | patron objeto <-> diccionario

Proyecto COMPLETO que combina: clases, archivos, menus, validacion.

**Tareas:**
- Clase `Tarea`: titulo, descripcion, completada, fecha_creacion, prioridad (alta/media/baja)
- Clase `GestorTareas` con metodos: agregar_tarea, completar_tarea, eliminar_tarea, listar_tareas (con filtro), guardar (JSON), cargar (JSON)
- Metodo `a_dict()` para serializar a JSON y `@classmethod desde_dict()` para deserializar

### Tu turno

In [None]:
# TU CODIGO AQUI
import json
from datetime import datetime

# Clase Tarea:
#   - titulo (str), descripcion (str), completada (bool)
#   - fecha_creacion (str), prioridad (str): "alta", "media", "baja"
#   - a_dict() y @classmethod desde_dict()

# Clase GestorTareas:
#   - agregar, completar, eliminar, listar, guardar, cargar


<details>
<summary><b>Ver solucion - Ejercicio 4</b></summary>

Implementamos dos clases: `Tarea` con metodos de serializacion (`a_dict` y `desde_dict` como classmethod) y `GestorTareas` que gestiona la lista de tareas con persistencia en JSON. El patron `a_dict()`/`desde_dict()` es muy comun para convertir objetos Python a formatos serializables y viceversa.

```python
import json
from datetime import datetime


class Tarea:
    def __init__(self, titulo, descripcion="", prioridad="media"):
        # Atributos de instancia: cada Tarea tiene sus propios valores
        self.titulo = titulo
        self.descripcion = descripcion
        self.completada = False  # Todas las tareas empiezan como pendientes
        # CONCEPTO: strftime() formatea un datetime como string legible
        # %Y=anho 4 digitos, %m=mes, %d=dia, %H=hora 24h, %M=minutos
        self.fecha_creacion = datetime.now().strftime("%Y-%m-%d %H:%M")
        self.prioridad = prioridad  # "alta", "media" o "baja"

    def completar(self):
        """Marca la tarea como completada."""
        self.completada = True

    def a_dict(self):
        """Convierte la tarea a diccionario (para guardar en JSON)."""
        # CONCEPTO: Patron serializacion - los objetos Python NO se pueden guardar
        # directamente en JSON; hay que convertirlos a tipos basicos (dict, list, str, etc.)
        return {
            "titulo": self.titulo,
            "descripcion": self.descripcion,
            "completada": self.completada,
            "fecha_creacion": self.fecha_creacion,
            "prioridad": self.prioridad
        }

    @classmethod
    def desde_dict(cls, datos):
        """Crea una Tarea desde un diccionario (para cargar de JSON)."""
        # CONCEPTO: @classmethod recibe la CLASE (cls) en vez de una instancia (self)
        # Permite crear nuevas instancias de forma alternativa al __init__ normal
        # cls(...) es equivalente a Tarea(...) pero mas flexible si hay herencia
        tarea = cls(datos["titulo"], datos["descripcion"], datos["prioridad"])
        # Restauramos los campos que no se pasan al constructor
        tarea.completada = datos["completada"]
        tarea.fecha_creacion = datos["fecha_creacion"]
        return tarea

    def __str__(self):
        """Representacion en string de la tarea (para print())."""
        # CONCEPTO: __str__ se llama automaticamente cuando haces print(tarea) o str(tarea)
        estado = "OK" if self.completada else "PENDIENTE"
        return (f"[{estado}] [{self.prioridad.upper()}] "
                f"{self.titulo} ({self.fecha_creacion})")


class GestorTareas:
    def __init__(self):
        self.tareas = []  # Lista que almacena objetos Tarea

    def agregar(self, titulo, descripcion="", prioridad="media"):
        """Crea una nueva tarea y la agrega a la lista."""
        tarea = Tarea(titulo, descripcion, prioridad)
        self.tareas.append(tarea)
        print(f"+ Tarea agregada: {titulo}")

    def completar(self, indice):
        """Marca una tarea como completada por su indice."""
        # CONCEPTO: Validacion de indice - verificamos que este dentro del rango
        # 0 <= indice < len() evita IndexError
        if 0 <= indice < len(self.tareas):
            self.tareas[indice].completar()
            print(f"Completada: {self.tareas[indice].titulo}")
        else:
            print("Indice no valido")

    def eliminar(self, indice):
        """Elimina una tarea por su indice."""
        if 0 <= indice < len(self.tareas):
            # CONCEPTO: .pop(indice) elimina Y devuelve el elemento en esa posicion
            # Guardamos el eliminado para poder imprimir su titulo
            eliminada = self.tareas.pop(indice)
            print(f"- Eliminada: {eliminada.titulo}")
        else:
            print("Indice no valido")

    def listar(self, filtro=None):
        """Lista tareas con filtro opcional: 'pendientes', 'completadas' o None (todas)."""
        for i, tarea in enumerate(self.tareas):
            # CONCEPTO: continue salta a la siguiente iteracion del for
            # Asi filtramos sin necesidad de anidar if/else
            if filtro == "pendientes" and tarea.completada:
                continue  # Si queremos pendientes, saltamos las completadas
            if filtro == "completadas" and not tarea.completada:
                continue  # Si queremos completadas, saltamos las pendientes
            # print(tarea) llama automaticamente a tarea.__str__()
            print(f"  {i}. {tarea}")

    def guardar(self, archivo="tareas.json"):
        """Guarda todas las tareas en un archivo JSON."""
        # CONCEPTO: List comprehension para convertir TODOS los objetos Tarea a diccionarios
        # json.dump() no puede guardar objetos Tarea directamente, solo tipos basicos
        datos = [t.a_dict() for t in self.tareas]
        with open(archivo, "w", encoding="utf-8") as f:
            json.dump(datos, f, indent=4, ensure_ascii=False)
        print(f"Guardado en {archivo}")

    def cargar(self, archivo="tareas.json"):
        """Carga tareas desde un archivo JSON."""
        try:
            with open(archivo, "r", encoding="utf-8") as f:
                datos = json.load(f)  # Carga la lista de diccionarios
            # CONCEPTO: Deserializacion - convertimos cada diccionario de vuelta a objeto Tarea
            # usando el @classmethod desde_dict()
            self.tareas = [Tarea.desde_dict(d) for d in datos]
            print(f"Cargadas {len(self.tareas)} tareas desde {archivo}")
        except FileNotFoundError:
            # Si el archivo no existe, simplemente informamos (no es un error critico)
            print(f"Archivo {archivo} no encontrado")


# --- Demo de uso del gestor ---
gestor = GestorTareas()
gestor.agregar("Estudiar Python", "Completar guias 1-7", "alta")
gestor.agregar("Hacer ejercicio", "Ir al gym", "media")
gestor.agregar("Comprar comida", "Supermercado", "baja")
gestor.agregar("Revisar APIs", "Guia 9", "alta")

gestor.completar(0)  # Completar la primera tarea ("Estudiar Python")

print("\nTodas las tareas:")
gestor.listar()

print("\nSolo pendientes:")
gestor.listar(filtro="pendientes")  # Muestra solo las que no estan completadas

# Guardar el estado actual en JSON para persistencia
gestor.guardar()
```

</details>

> **Recuerda:**

| Concepto | Descripcion | Ejemplo |
|---|---|---|
| `@classmethod` | Metodo de CLASE (no de instancia) | `Tarea.desde_dict(datos)` |
| `cls` | Referencia a la clase misma (como `self` para instancias) | `tarea = cls(titulo, desc)` |
| `a_dict()` | Patron para serializar objetos a diccionarios | Necesario para guardar en JSON |
| `desde_dict()` | Patron para crear objetos desde diccionarios | Necesario para cargar de JSON |
| Metodo con `_` | Convencion de metodo "privado" | `_registrar()` no se llama desde fuera |

---
## Ejercicio 5 de 8: Generador de informes automaticos | Medio

> **Conceptos clave:** `random.choice()` | `random.randint()` | `timedelta` | agrupacion manual de datos | generacion automatica de reportes

Imagina que eres analista de datos y cada dia necesitas generar un informe con datos de ventas.

**Tareas:**
- Crea datos de ventas simulados para 30 dias (fecha, producto, unidades, precio_unitario) usando `random`
- Guarda los datos en `ventas.csv`
- Crea una funcion `generar_informe(archivo_csv)` que lea los datos y genere un informe con: total ingresos, producto mas vendido, producto con mas ingresos, dia con mas ventas, promedio diario
- Guarda el informe en `informe.txt`

### Tu turno

In [None]:
# TU CODIGO AQUI
import csv
import random
from datetime import datetime, timedelta

# Datos base
productos = ["Laptop", "Teclado", "Raton", "Monitor", "Auriculares"]
precios = {"Laptop": 899, "Teclado": 49, "Raton": 29, "Monitor": 349, "Auriculares": 79}


<details>
<summary><b>Ver solucion - Ejercicio 5</b></summary>

Generamos datos aleatorios realistas usando `random`, los guardamos en CSV, y luego creamos una funcion que lee el CSV, agrupa datos por producto y por dia, calcula metricas clave y genera un informe de texto. Este tipo de automatizacion es MUY valorado en empresas.

```python
import csv
import random
from datetime import datetime, timedelta

# --- Datos base para la simulacion ---
productos = ["Laptop", "Teclado", "Raton", "Monitor", "Auriculares"]
# Diccionario de precios: el precio de cada producto es fijo
precios = {"Laptop": 899, "Teclado": 49, "Raton": 29, "Monitor": 349, "Auriculares": 79}

# --- Generar datos de ventas simulados para 30 dias ---
ventas = []
fecha_base = datetime(2025, 1, 1)  # Fecha de inicio de la simulacion

for dia in range(30):
    # CONCEPTO: timedelta(days=dia) crea un intervalo de tiempo
    # Sumado a fecha_base, nos da la fecha de cada dia
    fecha = fecha_base + timedelta(days=dia)

    # --- Generar 1 a 3 ventas aleatorias por dia ---
    # CONCEPTO: random.randint(1, 3) devuelve un entero aleatorio entre 1 y 3 (ambos incluidos)
    # El _ indica que no necesitamos la variable del contador (convencion Python)
    for _ in range(random.randint(1, 3)):
        # CONCEPTO: random.choice() elige un elemento aleatorio de la lista
        producto = random.choice(productos)
        unidades = random.randint(1, 5)
        ventas.append({
            "fecha": fecha.strftime("%Y-%m-%d"),  # Formato ISO para fechas
            "producto": producto,
            "unidades": unidades,
            "precio_unitario": precios[producto]  # Buscamos el precio en el diccionario
        })

# --- Guardar ventas en CSV ---
with open("ventas.csv", "w", newline="", encoding="utf-8") as f:
    campos = ["fecha", "producto", "unidades", "precio_unitario"]
    escritor = csv.DictWriter(f, fieldnames=campos)
    escritor.writeheader()
    escritor.writerows(ventas)


def generar_informe(archivo_csv):
    """Genera un informe de ventas desde un archivo CSV."""

    # --- Leer y preparar datos ---
    datos = []
    with open(archivo_csv, "r", encoding="utf-8") as f:
        for fila in csv.DictReader(f):
            # Convertir strings a numeros (CSV lee todo como string)
            fila["unidades"] = int(fila["unidades"])
            fila["precio_unitario"] = int(fila["precio_unitario"])
            # Calcular ingreso por transaccion (campo derivado)
            fila["ingreso"] = fila["unidades"] * fila["precio_unitario"]
            datos.append(fila)

    # --- Calcular metricas ---
    # CONCEPTO: sum() con generador - suma el campo "ingreso" de todos los registros
    total_ingresos = sum(d["ingreso"] for d in datos)

    # --- Agrupar ventas por producto ---
    # CONCEPTO: Agrupacion manual con diccionario (similar a GROUP BY en SQL)
    # Creamos un diccionario donde cada clave es un producto y el valor son sus totales
    por_producto = {}
    for d in datos:
        p = d["producto"]
        if p not in por_producto:
            # Inicializar contadores la primera vez que vemos este producto
            por_producto[p] = {"unidades": 0, "ingresos": 0}
        por_producto[p]["unidades"] += d["unidades"]
        por_producto[p]["ingresos"] += d["ingreso"]

    # CONCEPTO: max() con key=lambda sobre .items() para encontrar el maximo
    # .items() devuelve pares (nombre, datos): ("Laptop", {"unidades": 15, "ingresos": 13485})
    # x[1]["unidades"] accede al valor de "unidades" dentro del segundo elemento del par
    mas_vendido = max(por_producto.items(), key=lambda x: x[1]["unidades"])
    mas_ingresos = max(por_producto.items(), key=lambda x: x[1]["ingresos"])

    # --- Agrupar ventas por dia ---
    # CONCEPTO: dict.get(clave, 0) + valor es el patron clasico de acumulacion
    por_dia = {}
    for d in datos:
        fecha = d["fecha"]
        por_dia[fecha] = por_dia.get(fecha, 0) + d["ingreso"]
    # Encontrar el dia con mayores ingresos
    mejor_dia = max(por_dia.items(), key=lambda x: x[1])

    # Promedio diario = total ingresos / numero de dias unicos con ventas
    promedio_diario = total_ingresos / len(por_dia)

    # --- Generar texto del informe ---
    # CONCEPTO: Triple comilla f-string para texto multilinea con variables
    # :,.2f formatea numeros con separador de miles y 2 decimales
    informe = f"""INFORME DE VENTAS
Generado: {datetime.now().strftime('%Y-%m-%d %H:%M')}

Total de ingresos: {total_ingresos:,.2f} EUR
Total de transacciones: {len(datos)}
Promedio diario: {promedio_diario:,.2f} EUR

Producto mas vendido (uds): {mas_vendido[0]} ({mas_vendido[1]['unidades']} uds)
Mayor ingreso por producto: {mas_ingresos[0]} ({mas_ingresos[1]['ingresos']:,} EUR)
Mejor dia de ventas: {mejor_dia[0]} ({mejor_dia[1]:,} EUR)

Desglose por producto:
"""
    # --- Agregar desglose por producto al informe ---
    # sorted() ordena los productos alfabeticamente por nombre
    for prod, datos_prod in sorted(por_producto.items()):
        # CONCEPTO: Formateo de tabla con anchos fijos
        # :<15 = texto alineado izquierda en 15 chars
        # :>5 = numero alineado derecha en 5 chars
        # :>10, = numero alineado derecha en 10 chars con separador de miles
        informe += f"  {prod:<15} {datos_prod['unidades']:>5} uds  {datos_prod['ingresos']:>10,} EUR\n"

    # --- Guardar informe en archivo de texto ---
    with open("informe.txt", "w", encoding="utf-8") as f:
        f.write(informe)

    print(informe)
    print("Informe guardado en 'informe.txt'")


# --- Ejecutar la generacion del informe ---
generar_informe("ventas.csv")
```

</details>

---
## Ejercicio 6 de 8: Organizador de archivos (Automatizacion real) | Medio

> **Conceptos clave:** `os.path.splitext()` | `os.listdir()` | `os.path.exists()` | `os.path.isfile()`

Crea un script que organice archivos por extension. Solo SIMULAMOS, no movemos archivos reales.

**Tareas:**
- Funcion `clasificar_archivo(nombre)`: clasifica un archivo segun su extension
- Funcion `organizar_carpeta(ruta)`: lee archivos, los clasifica en categorias (imagenes, documentos, datos, codigo, otros)
- Categorias: imagenes (.jpg, .png, .gif), documentos (.pdf, .docx, .txt), datos (.csv, .json, .xlsx), codigo (.py, .js, .html)
- Solo SIMULAR, imprimiendo que haria sin mover nada

### Tu turno

In [None]:
# TU CODIGO AQUI
import os

# Pista: os.path.splitext("archivo.pdf") -> ("archivo", ".pdf")
#        os.listdir(ruta) -> lista de archivos


<details>
<summary><b>Ver solucion - Ejercicio 6</b></summary>

Usamos `os.path.splitext()` para obtener la extension del archivo y clasificarlo en categorias predefinidas. La funcion `organizar_carpeta` recorre los archivos de una carpeta y simula la organizacion sin mover nada. Aqui demostramos con archivos ficticios.

```python
import os

# --- Mapeo de extensiones a categorias ---
# CONCEPTO: Diccionario constante (MAYUSCULAS por convencion) que define
# las reglas de clasificacion. Cada categoria tiene una lista de extensiones validas.
CATEGORIAS = {
    "imagenes": [".jpg", ".jpeg", ".png", ".gif", ".bmp", ".svg"],
    "documentos": [".pdf", ".docx", ".doc", ".txt", ".odt"],
    "datos": [".csv", ".json", ".xlsx", ".xls", ".xml"],
    "codigo": [".py", ".js", ".html", ".css", ".java", ".cpp"],
}


def clasificar_archivo(nombre_archivo):
    """Clasifica un archivo segun su extension."""
    # CONCEPTO: os.path.splitext() separa nombre y extension
    # "informe.pdf" -> ("informe", ".pdf")
    # _ es convencion para indicar que no usamos el nombre (solo la extension)
    _, extension = os.path.splitext(nombre_archivo)
    extension = extension.lower()  # Normalizar a minusculas (".PDF" -> ".pdf")

    # Buscar en que categoria encaja la extension
    for categoria, extensiones in CATEGORIAS.items():
        if extension in extensiones:
            return categoria
    return "otros"  # Si no encaja en ninguna categoria conocida


def organizar_carpeta(ruta=".", simular=True):
    """Organiza archivos de una carpeta por tipo (simulacion por defecto)."""
    # --- Verificar que la ruta existe ---
    if not os.path.exists(ruta):
        print(f"La ruta '{ruta}' no existe")
        return

    # --- Listar solo ARCHIVOS (no subcarpetas) ---
    # CONCEPTO: os.listdir() devuelve nombres de archivos Y carpetas
    # os.path.isfile() filtra para quedarnos solo con archivos
    # os.path.join() une la ruta base con el nombre del archivo de forma segura
    archivos = [f for f in os.listdir(ruta) if os.path.isfile(os.path.join(ruta, f))]

    # --- Agrupar archivos por categoria ---
    # Creamos un diccionario donde cada clave es una categoria
    # y el valor es la lista de archivos que pertenecen a ella
    movimientos = {}
    for archivo in archivos:
        categoria = clasificar_archivo(archivo)
        if categoria not in movimientos:
            movimientos[categoria] = []
        movimientos[categoria].append(archivo)

    # --- Mostrar resultados (simulacion) ---
    for categoria, archivos_cat in movimientos.items():
        print(f"\n[{categoria.upper()}] ({len(archivos_cat)} archivos)")
        for archivo in archivos_cat[:5]:  # Mostrar maximo 5 por categoria
            if simular:
                # Solo mostramos QUE hariamos, sin mover nada realmente
                # En produccion, aqui usariamos shutil.move() para mover archivos
                print(f"  (simulado) {archivo} -> {categoria}/")

    return movimientos


# --- Demo con archivos ficticios ---
# CONCEPTO: Probamos la logica de clasificacion sin necesidad de archivos reales
# Esto es una buena practica: probar la logica antes de actuar sobre datos reales
archivos_ficticios = [
    "foto1.jpg", "datos.csv", "script.py", "informe.pdf",
    "notas.txt", "estilo.css", "perfil.json", "imagen.png"
]
print("Clasificacion de archivos ficticios:")
for archivo in archivos_ficticios:
    cat = clasificar_archivo(archivo)
    print(f"  {archivo} -> {cat}/")
```

</details>

> **Recuerda:**

| Funcion `os.path` | Descripcion | Ejemplo |
|---|---|---|
| `os.path.splitext()` | Separa nombre y extension | `("archivo", ".pdf")` |
| `os.path.exists()` | True si la ruta existe | `os.path.exists("carpeta/")` |
| `os.path.isfile()` | True si es un archivo (no carpeta) | `os.path.isfile("test.py")` |
| `os.listdir()` | Lista archivos y carpetas | `os.listdir(".")` |

---
## Ejercicio 7 de 8: Sistema de registro (Logging basico) | Dificil

> **Conceptos clave:** `datetime.now().strftime()` | metodos privados con `_` | modo append `"a"` para archivos

En el mundo real, los programas necesitan guardar logs (registros) de lo que hacen para poder depurar errores.

**Tareas:**
- Crea una clase `Logger` que al crearse reciba el nombre del archivo de log
- Metodos: `info(mensaje)`, `warning(mensaje)`, `error(mensaje)`
- Cada mensaje se guarda con formato: `[2025-02-09 14:30:25] [INFO] Mensaje aqui`
- Tambien imprime por pantalla

### Tu turno

In [None]:
# TU CODIGO AQUI
from datetime import datetime

# Pista: datetime.now().strftime("%Y-%m-%d %H:%M:%S")
# Pista: abrir archivo con modo "a" para agregar sin borrar


<details>
<summary><b>Ver solucion - Ejercicio 7</b></summary>

La clase `Logger` usa un metodo interno `_registrar()` (con underscore, convencion de privado) que formatea el mensaje con timestamp y nivel, lo imprime por pantalla y lo guarda en archivo usando modo append (`"a"`). Los metodos publicos `info()`, `warning()` y `error()` simplemente llaman a `_registrar()` con el nivel correspondiente.

</details>

In [None]:
from datetime import datetime


class Logger:
    def __init__(self, archivo="app.log"):
        self.archivo = archivo
        # --- Limpiar archivo anterior al crear el logger ---
        # CONCEPTO: Modo "w" (write) crea el archivo o lo vacia si ya existe
        # Asi cada vez que iniciamos la app, el log empieza limpio
        with open(self.archivo, "w", encoding="utf-8") as f:
            f.write("")

    def _registrar(self, nivel, mensaje):
        """Metodo interno para registrar un mensaje."""
        # CONCEPTO: El prefijo _ indica que es un metodo "privado" (convencion Python)
        # No deberia llamarse desde fuera de la clase; los metodos publicos
        # info(), warning() y error() son los que se usan externamente

        # --- Formatear el mensaje con timestamp y nivel ---
        # CONCEPTO: strftime() formatea la fecha/hora actual como string
        # Formato ISO: "2025-02-09 14:30:25"
        timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        # Formato de log estandar: [TIMESTAMP] [NIVEL] Mensaje
        linea = f"[{timestamp}] [{nivel}] {mensaje}"

        # --- Imprimir por pantalla (feedback inmediato) ---
        print(f"  {linea}")

        # --- Guardar en archivo (persistencia) ---
        # CONCEPTO: Modo "a" (append) agrega al final del archivo SIN borrar lo anterior
        # Cada llamada abre y cierra el archivo, lo cual es mas seguro
        # (no se pierde informacion si el programa se interrumpe)
        with open(self.archivo, "a", encoding="utf-8") as f:
            f.write(linea + "\n")  # \n para que cada mensaje ocupe una linea

    def info(self, mensaje):
        """Registra un mensaje de informacion general."""
        # CONCEPTO: Los metodos publicos son wrappers simples sobre _registrar()
        # Cada uno pasa el nivel correspondiente como string
        self._registrar("INFO", mensaje)

    def warning(self, mensaje):
        """Registra una advertencia (algo inesperado pero no critico)."""
        self._registrar("WARNING", mensaje)

    def error(self, mensaje):
        """Registra un error (algo que fallo)."""
        self._registrar("ERROR", mensaje)


# --- Ejemplo de uso: simular el ciclo de vida de una aplicacion ---
log = Logger("mi_app.log")
log.info("Aplicacion iniciada")
log.info("Cargando datos...")
log.warning("El archivo de configuracion no existe, usando valores por defecto")
log.info("Datos cargados correctamente")
log.error("Error al conectar con la base de datos")
log.info("Reintentando conexion...")
log.info("Conexion exitosa")

print(f"\nLog guardado en 'mi_app.log'")

---
## Ejercicio 8 de 8: Pipeline ETL completo (MIT/Industry standard) | Dificil

> **Conceptos clave:** Patron ETL | `datetime.strptime()` | limpieza de datos con `str.split()` + `str.title()` | `time.time()`

ETL = Extract, Transform, Load. Este es EL patron mas importante en data engineering. Es exactamente lo que hacen los data engineers en empresas como Google, Amazon, BBVA, Telefonica, etc.

**Tareas:**
- Clase `Pipeline` con metodos:
  - `extract()`: Crea CSV con datos de empleados (algunos con nombres "sucios"), lee y devuelve como lista de diccionarios
  - `transform(datos)`: Limpia nombres, calcula anhos de experiencia, asigna categoria salarial (junior/mid/senior), calcula estadisticas por departamento
  - `load(datos, estadisticas)`: Guarda CSV procesado y resumen JSON
  - `run()`: Ejecuta el pipeline completo midiendo el tiempo

### Tu turno

In [None]:
# TU CODIGO AQUI
import csv
import json
import time
from datetime import datetime

# Pista: datetime.strptime("2020-03-15", "%Y-%m-%d")
# Pista: anhos = (hoy - fecha).days / 365.25
# Pista: " ".join(nombre.split()).title() para limpiar nombres


<details>
<summary><b>Ver solucion - Ejercicio 8</b></summary>

Implementamos un pipeline ETL completo como clase. `extract()` crea datos de ejemplo con nombres "sucios" y los lee desde CSV. `transform()` limpia los nombres, convierte tipos, calcula anhos de experiencia, asigna categorias salariales y genera estadisticas. `load()` guarda los resultados en CSV y JSON. `run()` orquesta todo el flujo midiendo el tiempo de ejecucion.

```python
import csv
import json
import time as time_module
from datetime import datetime


class Pipeline:
    """Pipeline ETL (Extract, Transform, Load) para datos de empleados."""

    def __init__(self):
        # --- Definir los nombres de archivos del pipeline ---
        # CONCEPTO: Centralizar configuracion en __init__ facilita cambiar nombres despues
        self.archivo_entrada = "empleados_raw.csv"      # Datos "sucios" (input)
        self.archivo_salida = "empleados_procesados.csv" # Datos limpios (output)
        self.archivo_resumen = "resumen_etl.json"        # Estadisticas del proceso

    def extract(self):
        """EXTRACT: Crea datos de ejemplo y los lee desde CSV."""
        print("[EXTRACT] Creando datos de ejemplo...")

        # --- Datos de ejemplo con nombres "sucios" (espacios extra, mayusculas inconsistentes) ---
        # CONCEPTO: En el mundo real, los datos SIEMPRE vienen sucios
        # Espacios extra, mayusculas/minusculas mezcladas, formatos inconsistentes...
        # El paso Transform se encarga de limpiar todo esto
        empleados = [
            {"nombre": "  ana garcia  ", "departamento": "Tecnologia",
             "salario": "55000", "fecha_ingreso": "2018-03-15"},
            {"nombre": "CARLOS LOPEZ", "departamento": "Ventas",
             "salario": "28000", "fecha_ingreso": "2023-06-01"},
            {"nombre": " maria FERNANDEZ ", "departamento": "Tecnologia",
             "salario": "62000", "fecha_ingreso": "2017-01-10"},
            {"nombre": "luis  martinez", "departamento": "RRHH",
             "salario": "35000", "fecha_ingreso": "2021-09-20"},
            {"nombre": "PILAR  SANCHEZ", "departamento": "Ventas",
             "salario": "42000", "fecha_ingreso": "2019-11-05"},
            {"nombre": "  jorge RUIZ ", "departamento": "Tecnologia",
             "salario": "48000", "fecha_ingreso": "2020-02-28"},
            {"nombre": "elena DIAZ", "departamento": "RRHH",
             "salario": "25000", "fecha_ingreso": "2024-01-15"},
            {"nombre": " david MORENO  ", "departamento": "Ventas",
             "salario": "31000", "fecha_ingreso": "2022-04-10"},
            {"nombre": "laura JIMENEZ", "departamento": "Tecnologia",
             "salario": "70000", "fecha_ingreso": "2015-08-22"},
            {"nombre": " pablo ALVAREZ ", "departamento": "RRHH",
             "salario": "38000", "fecha_ingreso": "2020-07-01"},
        ]

        # --- Escribir CSV "sucio" (simula que recibimos los datos de una fuente externa) ---
        with open(self.archivo_entrada, "w", newline="", encoding="utf-8") as f:
            campos = ["nombre", "departamento", "salario", "fecha_ingreso"]
            escritor = csv.DictWriter(f, fieldnames=campos)
            escritor.writeheader()
            escritor.writerows(empleados)

        # --- Leer CSV de vuelta (como si lo recibiéramos de un sistema externo) ---
        datos = []
        with open(self.archivo_entrada, "r", encoding="utf-8") as f:
            for fila in csv.DictReader(f):
                # dict(fila) crea una copia independiente del OrderedDict que devuelve DictReader
                datos.append(dict(fila))

        print(f"[EXTRACT] {len(datos)} registros extraidos desde CSV")
        return datos

    def transform(self, datos):
        """TRANSFORM: Limpia, enriquece y calcula estadisticas."""
        print("[TRANSFORM] Procesando datos...")

        hoy = datetime.now()
        datos_transformados = []

        for registro in datos:
            # --- 1. Limpiar nombre ---
            # CONCEPTO: " ".join(texto.split()) es el patron mas robusto para limpiar espacios
            # .split() sin argumentos divide por cualquier espacio y elimina vacios
            # " ".join() vuelve a unir con un solo espacio
            # .title() capitaliza la primera letra de cada palabra ("ana garcia" -> "Ana Garcia")
            # Ejemplo: "  ana  garcia  " -> ["ana", "garcia"] -> "Ana Garcia"
            nombre_limpio = " ".join(registro["nombre"].split()).title()

            # --- 2. Convertir salario a numero ---
            # CONCEPTO: CSV lee todo como string; necesitamos int para hacer calculos
            salario = int(registro["salario"])

            # --- 3. Calcular anhos de experiencia ---
            # CONCEPTO: strptime() PARSEA un string a datetime (inverso de strftime)
            # strptime = "string parse time", strftime = "string format time"
            fecha_ingreso = datetime.strptime(
                registro["fecha_ingreso"], "%Y-%m-%d"
            )
            # CONCEPTO: Restar dos datetimes devuelve un timedelta
            # .days nos da la diferencia en dias; dividimos por 365.25 para convertir a anhos
            # 365.25 en vez de 365 para compensar los anhos bisiestos
            # round(..., 1) redondea a 1 decimal
            anhos_exp = round((hoy - fecha_ingreso).days / 365.25, 1)

            # --- 4. Asignar categoria salarial ---
            # CONCEPTO: Logica de negocio - clasificar empleados segun reglas definidas
            # Estos umbrales se podrian configurar como parametros de la clase
            if salario < 30000:
                categoria = "junior"
            elif salario < 50000:
                categoria = "mid"
            else:
                categoria = "senior"

            # Construir el registro transformado (enriquecido con campos nuevos)
            datos_transformados.append({
                "nombre": nombre_limpio,
                "departamento": registro["departamento"],
                "salario": salario,
                "fecha_ingreso": registro["fecha_ingreso"],
                "anhos_experiencia": anhos_exp,    # Campo NUEVO calculado
                "categoria": categoria,             # Campo NUEVO derivado
            })

        # --- Calcular estadisticas agregadas por departamento ---
        # CONCEPTO: Agrupacion manual (equivale a GROUP BY en SQL)
        departamentos = {}
        for emp in datos_transformados:
            dept = emp["departamento"]
            if dept not in departamentos:
                departamentos[dept] = {"salarios": [], "empleados": 0}
            departamentos[dept]["salarios"].append(emp["salario"])
            departamentos[dept]["empleados"] += 1

        # --- Construir diccionario de estadisticas globales ---
        estadisticas = {
            "total_empleados": len(datos_transformados),
            # Salario promedio global: suma de todos los salarios / numero de empleados
            "salario_promedio_global": round(
                sum(e["salario"] for e in datos_transformados)
                / len(datos_transformados), 2
            ),
            "por_departamento": {},
            "por_categoria": {"junior": 0, "mid": 0, "senior": 0},
        }

        # --- Calcular estadisticas POR departamento ---
        for dept, info in departamentos.items():
            estadisticas["por_departamento"][dept] = {
                "empleados": info["empleados"],
                "salario_promedio": round(
                    sum(info["salarios"]) / len(info["salarios"]), 2
                ),
                "salario_min": min(info["salarios"]),
                "salario_max": max(info["salarios"]),
            }

        # --- Contar empleados por categoria ---
        for emp in datos_transformados:
            estadisticas["por_categoria"][emp["categoria"]] += 1

        print(f"[TRANSFORM] {len(datos_transformados)} registros transformados")
        print(f"[TRANSFORM] Departamentos: {list(departamentos.keys())}")
        # CONCEPTO: Devolver una tupla (datos, estadisticas) permite retornar
        # multiples valores desde una funcion
        return datos_transformados, estadisticas

    def load(self, datos_transformados, estadisticas):
        """LOAD: Guarda datos procesados en CSV y resumen en JSON."""
        print("[LOAD] Guardando resultados...")

        # --- Guardar datos limpios en CSV ---
        campos = ["nombre", "departamento", "salario", "fecha_ingreso",
                  "anhos_experiencia", "categoria"]
        with open(self.archivo_salida, "w", newline="", encoding="utf-8") as f:
            escritor = csv.DictWriter(f, fieldnames=campos)
            escritor.writeheader()
            escritor.writerows(datos_transformados)

        print(f"[LOAD] CSV guardado: {self.archivo_salida}")

        # --- Guardar resumen estadistico en JSON ---
        # CONCEPTO: JSON es ideal para datos estructurados/anidados como estadisticas
        # CSV es mejor para datos tabulares (filas y columnas uniformes)
        resumen = {
            "fecha_ejecucion": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
            "estadisticas": estadisticas,
        }
        with open(self.archivo_resumen, "w", encoding="utf-8") as f:
            json.dump(resumen, f, indent=4, ensure_ascii=False)

        print(f"[LOAD] JSON guardado: {self.archivo_resumen}")

    def run(self):
        """Ejecuta el pipeline completo: Extract -> Transform -> Load."""
        print("\n=== INICIO DEL PIPELINE ETL ===")
        # CONCEPTO: time.time() devuelve el tiempo actual en segundos (como float)
        # Lo usamos para medir cuanto tarda el pipeline completo
        inicio = time_module.time()

        # --- Ejecutar las 3 etapas en orden ---
        # CONCEPTO: Cada etapa recibe el output de la anterior (patron Pipeline)
        # Extract devuelve datos_raw -> Transform los procesa -> Load los guarda
        datos_raw = self.extract()                            # E: obtener datos
        datos_procesados, estadisticas = self.transform(datos_raw)  # T: limpiar y enriquecer
        self.load(datos_procesados, estadisticas)             # L: guardar resultados

        # --- Medir tiempo total ---
        # CONCEPTO: La diferencia entre dos time.time() nos da los segundos transcurridos
        # :.3f formatea con 3 decimales (milisegundos de precision)
        tiempo_total = time_module.time() - inicio
        print(f"\n=== PIPELINE COMPLETADO en {tiempo_total:.3f} segundos ===")

        # --- Mostrar resumen final ---
        print(f"\nResumen:")
        print(f"  Total empleados: {estadisticas['total_empleados']}")
        print(f"  Salario promedio: {estadisticas['salario_promedio_global']:,.2f} EUR")
        print(f"  Categorias: {estadisticas['por_categoria']}")
        print(f"\n  Por departamento:")
        for dept, info in estadisticas["por_departamento"].items():
            print(f"    {dept}: {info['empleados']} empleados, "
                  f"promedio {info['salario_promedio']:,.2f} EUR")

        return datos_procesados, estadisticas


# --- Ejecutar el pipeline ---
# CONCEPTO: Instanciamos la clase y llamamos a run() que orquesta todo el flujo
# Esto permite reutilizar el pipeline con diferentes configuraciones
pipeline = Pipeline()
pipeline.run()
```

</details>

> **Recuerda:**

| Etapa ETL | Descripcion | En este ejercicio |
|---|---|---|
| **Extract** | Obtener datos de la fuente | Crear y leer CSV con datos "sucios" |
| **Transform** | Limpiar y enriquecer datos | Limpiar nombres, calcular experiencia, categorizar |
| **Load** | Guardar datos procesados | CSV procesado + resumen JSON |

> **Tip:** **Herramientas ETL del mundo real:** Apache Airflow (orquestacion), Apache Spark/PySpark (procesamiento distribuido), dbt (transformaciones SQL), Pandas (transformaciones en Python). **Patron Pipeline como clase:** Encapsular cada etapa en un metodo permite probar cada etapa independientemente, reutilizar etapas, manejar errores por etapa y medir rendimiento.

---
### Limpieza de archivos temporales

> **Ojo:** Eliminamos todos los archivos creados durante la ejecucion de los ejercicios.

In [None]:
import os

archivos_temporales = [
    "notas.csv", "perfil.json", "ventas.csv",
    "informe.txt", "tareas.json", "mi_app.log",
    "empleados_raw.csv", "empleados_procesados.csv",
    "resumen_etl.json"
]

eliminados = 0
for archivo in archivos_temporales:
    if os.path.exists(archivo):
        os.remove(archivo)
        eliminados += 1

print(f"Limpieza completada: {eliminados} archivos temporales eliminados.")

---
## Mundo Real: Donde se usa esto en la industria?

| Concepto de la guia | Aplicacion real |
|---|---|
| Leer/escribir archivos CSV | ETL pipelines, exportar datos a Excel, importar a bases de datos |
| JSON como formato de datos | Respuestas de APIs REST, archivos de configuracion, bases NoSQL (MongoDB) |
| Automatizacion de archivos | Scripts de mantenimiento, organizacion de logs, backups automaticos |
| Pipeline ETL completo | Apache Airflow, cron jobs, CI/CD pipelines, data warehousing |

> **Dato curioso:** Se estima que los data engineers pasan entre el 60-80% de su tiempo en tareas de ETL y limpieza de datos. Dominar la automatizacion de archivos con Python es una de las habilidades mas demandadas en el mercado laboral tech.

---
## Resumen Final de la Guia 10

### Que aprendiste

| # | Concepto | Aprendido? |
|:---:|:---|:---:|
| 1 | Leer y escribir archivos CSV con `csv.DictWriter` y `csv.DictReader` | [ ] |
| 2 | Serializar/deserializar datos JSON con `json.dump()` y `json.load()` | [ ] |
| 3 | Analisis de texto: frecuencia de palabras, `sorted()` con `key=lambda` | [ ] |
| 4 | Gestor de tareas con clases, `@classmethod` y patron `a_dict()/desde_dict()` | [ ] |
| 5 | Generacion automatica de informes desde datos CSV | [ ] |
| 6 | Organizacion de archivos con `os.path.splitext()` y `os.listdir()` | [ ] |
| 7 | Sistema de logging con `datetime.strftime()` y modo append `"a"` | [ ] |
| 8 | Pipeline ETL completo: Extract, Transform, Load con `time.time()` | [ ] |

**Conceptos transversales:**
- **Archivos:** `open()` con `with`, modos `"r"`, `"w"`, `"a"`, `encoding="utf-8"`
- **Serializacion:** Convertir objetos Python a formatos persistentes (CSV, JSON) y viceversa
- **Patrones de diseno:** Pipeline ETL, serializacion con `a_dict()/desde_dict()`, Logger
- **Limpieza de datos:** `str.strip()`, `str.title()`, `" ".join(nombre.split())`

> **Tip:** Estos proyectos demuestran habilidades reales de automatizacion y son perfectos para un portfolio profesional.

---
*Fin de la Guia 10 -- Siguiente: [Guia 11: Analisis de Datos (estilo Harvard)](../guia_11_analisis_datos_harvard/guia_11.ipynb)*

---
## Errores Comunes

| Error | Problema | Solucion |
|---|---|---|
| No cerrar archivos | Datos corruptos si el programa falla | Usar siempre `with open() as f:` |
| Encoding incorrecto | Caracteres raros o error al leer | Especificar `encoding="utf-8"` siempre |
| Sobreescribir archivos sin querer | Modo `"w"` borra el contenido anterior | Verificar con `os.path.exists()` antes de escribir |
| Filas vacias en CSV (Windows) | Lineas en blanco entre cada fila | Usar `newline=""` al abrir el archivo CSV |
| CSV lee todo como string | Calculos incorrectos (concatena en vez de sumar) | Convertir con `int()` o `float()` al leer |

## Para Profundizar

- [Real Python: Working With Files in Python](https://realpython.com/working-with-files-in-python/)
- [Python docs: csv module](https://docs.python.org/3/library/csv.html)
- [Python docs: json module](https://docs.python.org/3/library/json.html)
- [Automate the Boring Stuff: Working with CSV and JSON](https://automatetheboringstuff.com/2e/chapter16/)