# Notebook 01: Fundamentos de Python y Estructuras de Datos

---

**Curso:** AI Engineering | **Modulo:** Python Extra Class

**Autor:** Equipo de AI Engineering

---

## Objetivos de Aprendizaje

Al finalizar este notebook, seras capaz de:

1. **Identificar** los tipos de datos fundamentales de Python (int, float, str, bool, None) y sus propiedades.
2. **Usar** `type()` e `isinstance()` para inspeccionar y validar tipos en tiempo de ejecucion.
3. **Aplicar** type hints para documentar intenciones y mejorar la legibilidad del codigo.
4. **Implementar** flujo de control con `if/elif/else`, bucles `for` y `while`, y herramientas como `range`, `enumerate` y `zip`.
5. **Dominar** las cuatro estructuras de datos principales: listas, tuplas, diccionarios y conjuntos.
6. **Elegir** la estructura de datos correcta segun el problema, considerando performance y legibilidad.
7. **Combinar** todos los conceptos en un escenario realista de procesamiento de datos de AI/ML.

---

**Prerequisitos:** Ninguno. Este notebook parte desde cero.

**Tiempo estimado:** 60-90 minutos.

---

> **Enfoque "Show Don't Tell":** En este notebook priorizamos el codigo ejecutable por encima de la teoria.
> Cada concepto se introduce con un ejemplo practico que podes ejecutar, modificar y experimentar.
> Los contextos de ejemplo estan orientados a AI/ML Engineering para que vayas familiarizandote con el dominio.

## 1. Sistema de Tipos en Python

Python es un lenguaje de **tipado dinamico**: no declaras el tipo de una variable, Python lo infiere automaticamente. Pero eso no significa que los tipos no importan -- todo en Python tiene un tipo.

### Tipos Fundamentales

```
+-----------+------------+---------------------+------------+
| Tipo      | Mutable?   | Ejemplo             | Uso comun  |
+-----------+------------+---------------------+------------+
| int       | No (*)     | 42, -7, 0           | Contadores |
| float     | No (*)     | 3.14, -0.001, 1e-5  | Metricas   |
| str       | No         | "hola", 'mundo'     | Textos     |
| bool      | No (*)     | True, False          | Flags      |
| NoneType  | No         | None                 | Ausencia   |
| list      | Si         | [1, 2, 3]           | Colecciones|
| tuple     | No         | (1, 2, 3)           | Registros  |
| dict      | Si         | {"a": 1}            | Mapeos     |
| set       | Si         | {1, 2, 3}           | Unicos     |
+-----------+------------+---------------------+------------+

(*) Los tipos numericos y bool son inmutables: no podes cambiar
    el valor "en su lugar". Al reasignar, creas un nuevo objeto.
```

### Por que importa en AI Engineering?

- Los **hiperparametros** de un modelo son int/float (`epochs=10`, `lr=0.001`).
- Las **predicciones** llegan como listas de floats.
- Las **configuraciones** se almacenan en diccionarios.
- Los **conjuntos** sirven para deduplicar categorias o labels.

In [None]:
# ==============================================================================
# EXPLORACION DE TIPOS: type(), isinstance(), id()
# ==============================================================================

# --- Tipos fundamentales ---
edad = 25                    # int
accuracy = 0.9534            # float
modelo_nombre = "gpt-4o"     # str
entrenado = True             # bool
error = None                 # NoneType
predicciones = [0.8, 0.3]   # list
config = {"lr": 0.001}      # dict

# Exploremos cada uno
variables = [
    ("edad", edad),
    ("accuracy", accuracy),
    ("modelo_nombre", modelo_nombre),
    ("entrenado", entrenado),
    ("error", error),
    ("predicciones", predicciones),
    ("config", config),
]

print(f"{'Variable':<20} {'Valor':<20} {'Tipo':<20} {'id()'}")
print("=" * 80)
for nombre, valor in variables:
    print(f"{nombre:<20} {str(valor):<20} {type(valor).__name__:<20} {id(valor)}")

# --- isinstance() vs type() ---
print("\n" + "=" * 80)
print("isinstance() vs type()")
print("=" * 80)

# isinstance() es preferible porque respeta la herencia
print(f"type(True) == int:        {type(True) == int}")        # False
print(f"isinstance(True, int):    {isinstance(True, int)}")    # True! (bool hereda de int)
print(f"type(True) == bool:       {type(True) == bool}")       # True
print(f"isinstance(True, bool):   {isinstance(True, bool)}")   # True

# Verificar multiples tipos a la vez
valor = 3.14
print(f"\nisinstance(3.14, (int, float)): {isinstance(valor, (int, float))}")

# --- Cuidado con la coercion de tipos ---
print("\n" + "=" * 80)
print("Trampas de coercion de tipos")
print("=" * 80)

# Python convierte automaticamente en ciertas operaciones
print(f"True + True = {True + True}  (bool se convierte a int)")  # 2
print(f"True + 1.5  = {True + 1.5}  (int + float -> float)")     # 2.5
print(f"'hola' * 3  = {'hola' * 3}")                              # holaholahola

# Esto puede causar bugs sutiles en pipelines de datos
flags = [True, False, True, True, False]
print(f"\nsum([True, False, True, True, False]) = {sum(flags)}")
print("(util para contar predicciones correctas!)")

## 2. Type Hints: Documentar Intenciones

Desde Python 3.5, podemos agregar **anotaciones de tipo** (type hints) a nuestro codigo. Estas anotaciones:

- **No se ejecutan** en runtime (Python las ignora al correr el codigo).
- **Documentan** la intencion del programador.
- **Habilitan** herramientas como `mypy` para detectar errores antes de ejecutar.
- Son **estandar** en proyectos profesionales de AI Engineering.

### Sintaxis basica

```python
# Variables
nombre: str = "GPT-4o"
epochs: int = 10
learning_rate: float = 0.001

# Funciones
def entrenar(datos: list, epochs: int = 10) -> float:
    ...  # retorna el accuracy (float)
```

In [None]:
# ==============================================================================
# TYPE HINTS: Documentar intenciones sin afectar la ejecucion
# ==============================================================================

# --- Funcion CON type hints ---
def calcular_accuracy(correctas: int, total: int) -> float:
    """
    Calcula el accuracy de un modelo dado el numero de predicciones correctas.
    
    Args:
        correctas: Numero de predicciones correctas.
        total: Numero total de predicciones.
    
    Returns:
        Accuracy como un float entre 0.0 y 1.0.
    """
    if total == 0:
        return 0.0
    return correctas / total


# Uso normal
acc = calcular_accuracy(85, 100)
print(f"Accuracy: {acc}")
print(f"Tipo del resultado: {type(acc).__name__}")

# --- Los type hints NO se aplican en runtime ---
# Python no impide pasar tipos incorrectos, pero la operacion puede fallar
print("\nType hints NO se aplican en runtime:")
try:
    resultado = calcular_accuracy("hola", "mundo")  # type: ignore
    print(f"  Resultado: {resultado}")
except TypeError as e:
    print(f"  calcular_accuracy('hola', 'mundo') -> TypeError: {e}")
    print(f"  Python ACEPTO la llamada (no valida tipos), pero fallo al ejecutar.")
    print(f"  Los type hints sirven para PREVENIR esto con herramientas como mypy.")

# --- Acceder a las anotaciones ---
print(f"\nAnotaciones de la funcion:")
print(f"  {calcular_accuracy.__annotations__}")

# --- Ejemplo con tipos compuestos (Python 3.9+) ---
def filtrar_predicciones(
    predicciones: list[float],
    umbral: float = 0.5
) -> list[float]:
    """Retorna solo las predicciones por encima del umbral."""
    return [p for p in predicciones if p >= umbral]

preds = [0.92, 0.15, 0.78, 0.43, 0.88, 0.31]
filtradas = filtrar_predicciones(preds, umbral=0.5)
print(f"\nPredicciones originales:  {preds}")
print(f"Filtradas (>= 0.5):       {filtradas}")
print(f"Anotaciones:              {filtrar_predicciones.__annotations__}")

## 3. Control de Flujo

El control de flujo determina **que codigo se ejecuta y cuantas veces**. Es la logica que hace que un programa sea mas que una calculadora.

### Diagrama de Decision

```
                    +-------------------+
                    |  Evaluar condicion |
                    +-------------------+
                           |
                     +-----+-----+
                     |           |
                   True        False
                     |           |
              +------+----+ +----+------+
              | Bloque if | | elif/else |
              +-----------+ +-----------+
                     |           |
                     +-----+-----+
                           |
                    +------+------+
                    |  Continuar  |
                    +-------------+
```

### Bucles

```
  FOR loop                         WHILE loop
  (iteracion definida)             (iteracion condicional)

  +-> Tomar siguiente    NO        +-> Condicion    NO
  |   elemento -------> FIN        |   True? ------> FIN
  |       |                        |     |
  |      SI                        |    SI
  |       |                        |     |
  |   Ejecutar                     |   Ejecutar
  |   cuerpo                       |   cuerpo
  |       |                        |     |
  +-------+                        +-----+
```

### Herramientas clave

| Herramienta  | Que hace                                     | Ejemplo                              |
|:-------------|:---------------------------------------------|:-------------------------------------|
| `range(n)`   | Genera secuencia 0, 1, ..., n-1              | `range(5)` -> 0,1,2,3,4             |
| `enumerate`  | Agrega indice a cada elemento                | `enumerate(['a','b'])` -> (0,'a')... |
| `zip`        | Combina dos iterables en paralelo            | `zip([1,2], ['a','b'])` -> (1,'a')...|
| `break`      | Sale del bucle inmediatamente                | Sale al encontrar el primer match    |
| `continue`   | Salta a la siguiente iteracion               | Ignora elementos invalidos           |

In [None]:
# ==============================================================================
# CONTROL DE FLUJO: if/elif/else con contexto de AI/ML
# ==============================================================================

# --- Ejemplo practico: Clasificar confianza de un modelo ---
def clasificar_confianza(score: float) -> str:
    """
    Clasifica el score de confianza de una prediccion de ML.
    
    Rangos:
        >= 0.9  -> Alta confianza    (usar directamente)
        >= 0.7  -> Media confianza   (revision recomendada)
        >= 0.5  -> Baja confianza    (revision obligatoria)
        < 0.5   -> Sin confianza     (descartar o re-evaluar)
    """
    if not isinstance(score, (int, float)):
        return "ERROR: score debe ser numerico"
    
    if score >= 0.9:
        return "ALTA - usar directamente"
    elif score >= 0.7:
        return "MEDIA - revision recomendada"
    elif score >= 0.5:
        return "BAJA - revision obligatoria"
    else:
        return "SIN CONFIANZA - descartar"


# Probar con diferentes scores
scores_ejemplo = [0.95, 0.82, 0.61, 0.23, 0.50, 1.0, 0.0]

print(f"{'Score':>8}  {'Clasificacion'}")
print("-" * 50)
for score in scores_ejemplo:
    resultado = clasificar_confianza(score)
    print(f"{score:>8.2f}  {resultado}")

# --- Operador ternario (condicional en una linea) ---
print("\n" + "=" * 50)
print("Operador ternario")
print("=" * 50)

score = 0.85
estado = "aprobado" if score >= 0.7 else "rechazado"
print(f"Score {score} -> {estado}")

# --- Valores truthy/falsy ---
print("\n" + "=" * 50)
print("Valores truthy y falsy en Python")
print("=" * 50)

valores_falsy = [0, 0.0, "", [], {}, set(), None, False]
valores_truthy = [1, 0.001, "texto", [1], {"a": 1}, {1}, True]

print("\nFalsy (se evaluan como False en un if):")
for v in valores_falsy:
    print(f"  {str(v):<12} -> bool() = {bool(v)}")

print("\nTruthy (se evaluan como True en un if):")
for v in valores_truthy:
    print(f"  {str(v):<12} -> bool() = {bool(v)}")

In [None]:
# ==============================================================================
# BUCLES: for, while, range, enumerate, zip, break, continue
# ==============================================================================

# --- range(): generar secuencias numericas ---
print("range() - secuencias numericas")
print("=" * 50)
print(f"range(5):       {list(range(5))}")
print(f"range(2, 8):    {list(range(2, 8))}")
print(f"range(0, 10, 2):{list(range(0, 10, 2))}")
print(f"range(10, 0, -3):{list(range(10, 0, -3))}")

# --- enumerate(): indice + elemento ---
print("\nenumerate() - iterar con indice")
print("=" * 50)

modelos = ["gpt-4o", "claude-3-opus", "gemini-pro", "llama-3"]

# Sin enumerate (feo, propenso a errores)
print("\nSin enumerate:")
i = 0
for modelo in modelos:
    print(f"  Modelo {i}: {modelo}")
    i += 1

# Con enumerate (limpio, pythonico)
print("\nCon enumerate:")
for i, modelo in enumerate(modelos):
    print(f"  Modelo {i}: {modelo}")

# enumerate con start personalizado
print("\nCon enumerate(start=1):")
for num, modelo in enumerate(modelos, start=1):
    print(f"  #{num} {modelo}")

# --- zip(): combinar iterables en paralelo ---
print("\nzip() - combinar iterables")
print("=" * 50)

nombres = ["modelo_A", "modelo_B", "modelo_C"]
accuracies = [0.92, 0.87, 0.95]
tiempos_seg = [12.3, 8.7, 15.1]

print(f"\n{'Modelo':<12} {'Accuracy':>10} {'Tiempo (s)':>12}")
print("-" * 36)
for nombre, acc, tiempo in zip(nombres, accuracies, tiempos_seg):
    print(f"{nombre:<12} {acc:>10.2f} {tiempo:>12.1f}")

# --- Ejemplo practico: procesar un batch de predicciones ---
print("\n" + "=" * 50)
print("Ejemplo practico: procesar batch de predicciones")
print("=" * 50)

predicciones_batch = [
    {"id": 1, "label": "gato", "confianza": 0.95},
    {"id": 2, "label": "perro", "confianza": 0.30},
    {"id": 3, "label": None, "confianza": 0.00},   # prediccion invalida
    {"id": 4, "label": "gato", "confianza": 0.78},
    {"id": 5, "label": "pajaro", "confianza": 0.55},
    {"id": 6, "label": "perro", "confianza": 0.92},
]

aprobadas = []
rechazadas = []
invalidas = []

UMBRAL = 0.7

for pred in predicciones_batch:
    # Saltar predicciones invalidas
    if pred["label"] is None:
        invalidas.append(pred["id"])
        continue  # Salta a la siguiente iteracion
    
    if pred["confianza"] >= UMBRAL:
        aprobadas.append(pred)
    else:
        rechazadas.append(pred)

print(f"\nUmbral de confianza: {UMBRAL}")
print(f"Aprobadas ({len(aprobadas)}):")
for p in aprobadas:
    print(f"  ID {p['id']}: {p['label']} ({p['confianza']:.0%})")
print(f"Rechazadas ({len(rechazadas)}):")
for p in rechazadas:
    print(f"  ID {p['id']}: {p['label']} ({p['confianza']:.0%})")
print(f"Invalidas: IDs {invalidas}")

# --- while con break: buscar el primer modelo que supere un umbral ---
print("\n" + "=" * 50)
print("while + break: buscar primer modelo aceptable")
print("=" * 50)

scores_modelos = [0.45, 0.62, 0.58, 0.81, 0.90, 0.75]
umbral_minimo = 0.80

indice = 0
while indice < len(scores_modelos):
    score = scores_modelos[indice]
    print(f"  Evaluando modelo {indice}: score = {score:.2f}", end="")
    if score >= umbral_minimo:
        print(f"  <<< ENCONTRADO (>= {umbral_minimo})")
        break
    else:
        print(f"  (no alcanza)")
    indice += 1
else:
    # El else de un while se ejecuta si NO se hizo break
    print("  Ningun modelo alcanzo el umbral.")

print(f"\nResultado: modelo seleccionado en indice {indice}")

## 4. Estructuras de Datos: Elegir la Correcta

Python ofrece cuatro estructuras de datos nativas principales. Elegir la correcta es una de las decisiones mas importantes que tomas como programador.

### Tabla Comparativa

```
+------------+---------+-----------+-------------+---------------------------+
| Estructura | Mutable | Ordenada  | Duplicados  | Caso de uso tipico        |
+------------+---------+-----------+-------------+---------------------------+
| list       |   Si    |    Si     |     Si      | Coleccion general,        |
|            |         |           |             | secuencias de datos       |
+------------+---------+-----------+-------------+---------------------------+
| tuple      |   No    |    Si     |     Si      | Datos inmutables,         |
|            |         |           |             | claves de dict, returns   |
+------------+---------+-----------+-------------+---------------------------+
| dict       |   Si    |  Si (*)   |  Keys: No   | Mapeo clave-valor,        |
|            |         |           |  Vals: Si   | configuraciones, JSON     |
+------------+---------+-----------+-------------+---------------------------+
| set        |   Si    |    No     |     No      | Elementos unicos,         |
|            |         |           |             | operaciones de conjuntos  |
+------------+---------+-----------+-------------+---------------------------+

(*) Los dicts mantienen orden de insercion desde Python 3.7+
```

### Complejidad de Operaciones Comunes (Big O)

```
+------------------+--------+--------+--------+--------+
| Operacion        | list   | tuple  | dict   | set    |
+------------------+--------+--------+--------+--------+
| Acceso por indice| O(1)   | O(1)   |  N/A   |  N/A   |
| Busqueda (in)    | O(n)   | O(n)   | O(1)   | O(1)   |
| Insercion        | O(1)*  |  N/A   | O(1)   | O(1)   |
| Eliminacion      | O(n)   |  N/A   | O(1)   | O(1)   |
+------------------+--------+--------+--------+--------+

  * O(1) amortizado para append al final de la lista
```

La diferencia entre O(1) y O(n) en busqueda se vuelve critica cuando trabajas con miles o millones de elementos.

In [None]:
# ==============================================================================
# LISTAS: Creacion, slicing, list comprehensions, operaciones comunes
# ==============================================================================

# --- Creacion ---
print("Creacion de listas")
print("=" * 50)

vacia = []
numeros = [1, 2, 3, 4, 5]
mixta = [42, "texto", 3.14, True, None]  # Python permite mezclar tipos
desde_range = list(range(10))

print(f"vacia:       {vacia}")
print(f"numeros:     {numeros}")
print(f"mixta:       {mixta}")
print(f"desde_range: {desde_range}")

# --- Slicing: [inicio:fin:paso] ---
print("\nSlicing")
print("=" * 50)

datos = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
#         0   1   2   3   4   5   6   7   8   9
#       -10  -9  -8  -7  -6  -5  -4  -3  -2  -1

print(f"datos:          {datos}")
print(f"datos[2:5]:     {datos[2:5]}")      # [30, 40, 50]
print(f"datos[:3]:      {datos[:3]}")        # [10, 20, 30]
print(f"datos[-3:]:     {datos[-3:]}")       # [80, 90, 100]
print(f"datos[::2]:     {datos[::2]}")       # [10, 30, 50, 70, 90]
print(f"datos[::-1]:    {datos[::-1]}")      # invertida

# --- Operaciones comunes ---
print("\nOperaciones comunes")
print("=" * 50)

scores = [0.78, 0.92, 0.45, 0.88, 0.65, 0.91]
print(f"scores:          {scores}")
print(f"len(scores):     {len(scores)}")
print(f"min(scores):     {min(scores)}")
print(f"max(scores):     {max(scores)}")
print(f"sum(scores):     {sum(scores):.2f}")
print(f"promedio:        {sum(scores) / len(scores):.4f}")
print(f"sorted(scores):  {sorted(scores)}")
print(f"sorted(desc):    {sorted(scores, reverse=True)}")

# append, extend, insert, remove, pop
scores.append(0.99)        # Agrega al final
print(f"\nDespues de append(0.99): {scores}")

scores.insert(0, 0.10)     # Inserta en posicion 0
print(f"Despues de insert(0, 0.10): {scores}")

eliminado = scores.pop()   # Remueve y retorna el ultimo
print(f"Despues de pop(): {scores}  (eliminado: {eliminado})")

# --- List comprehensions (muy pythonico) ---
print("\nList comprehensions")
print("=" * 50)

# Forma basica: [expresion for item in iterable]
cuadrados = [x**2 for x in range(10)]
print(f"Cuadrados:                 {cuadrados}")

# Con filtro: [expresion for item in iterable if condicion]
scores_raw = [0.95, 0.12, 0.78, 0.03, 0.88, 0.45, 0.91, 0.67]
scores_altos = [s for s in scores_raw if s >= 0.7]
print(f"Scores originales:         {scores_raw}")
print(f"Scores >= 0.7:             {scores_altos}")

# Con transformacion + filtro
scores_porcentaje = [f"{s:.0%}" for s in scores_raw if s >= 0.5]
print(f"Scores >= 50% (formateados): {scores_porcentaje}")

# --- Ejemplo practico: filtrar predicciones validas ---
print("\n" + "=" * 50)
print("Practico: filtrar predicciones validas de un modelo")
print("=" * 50)

predicciones_raw = [
    {"label": "gato", "score": 0.95},
    {"label": None, "score": 0.00},       # invalida
    {"label": "perro", "score": 0.82},
    {"label": "", "score": 0.45},          # label vacio
    {"label": "pajaro", "score": 0.71},
    {"label": "gato", "score": 0.33},      # score bajo
]

# Filtrar: label debe existir y no estar vacio, score >= 0.5
validas = [
    p for p in predicciones_raw
    if p["label"]          # truthy: no None, no string vacio
    and p["score"] >= 0.5
]

print(f"Total predicciones:  {len(predicciones_raw)}")
print(f"Predicciones validas: {len(validas)}")
for p in validas:
    print(f"  {p['label']:<10} score: {p['score']:.2f}")

In [None]:
# ==============================================================================
# DICCIONARIOS: Creacion, acceso, .get(), comprehensions, anidamiento
# ==============================================================================

# --- Creacion ---
print("Creacion de diccionarios")
print("=" * 50)

# Forma clasica
modelo_config = {
    "nombre": "clasificador_v2",
    "tipo": "random_forest",
    "hiperparametros": {
        "n_estimators": 100,
        "max_depth": 10,
        "min_samples_split": 5,
    },
    "metricas": {
        "accuracy": 0.923,
        "precision": 0.917,
        "recall": 0.931,
        "f1_score": 0.924,
    },
    "entrenado": True,
    "version": 2,
}

# Mostrar estructura
print("Configuracion del modelo:")
for clave, valor in modelo_config.items():
    if isinstance(valor, dict):
        print(f"  {clave}:")
        for sub_clave, sub_valor in valor.items():
            print(f"    {sub_clave}: {sub_valor}")
    else:
        print(f"  {clave}: {valor}")

# --- Acceso seguro con .get() ---
print("\nAcceso a valores")
print("=" * 50)

# Acceso directo (da KeyError si no existe)
nombre = modelo_config["nombre"]
print(f"modelo_config['nombre']:  {nombre}")

# Acceso seguro con .get() (retorna None o un default si no existe)
dataset = modelo_config.get("dataset")           # None
dataset_default = modelo_config.get("dataset", "no especificado")
print(f"modelo_config.get('dataset'):                 {dataset}")
print(f"modelo_config.get('dataset', 'no especificado'): {dataset_default}")

# Acceso anidado
accuracy = modelo_config["metricas"]["accuracy"]
print(f"modelo_config['metricas']['accuracy']: {accuracy}")

# --- Metodos utiles ---
print("\nMetodos utiles")
print("=" * 50)

print(f"Claves:  {list(modelo_config.keys())}")
print(f"Valores: {list(modelo_config.values())}")
print(f"'nombre' in modelo_config: {'nombre' in modelo_config}")
print(f"'dataset' in modelo_config: {'dataset' in modelo_config}")

# --- Dict comprehension ---
print("\nDict comprehension")
print("=" * 50)

# Crear un dict de modelo -> score a partir de dos listas
modelos = ["modelo_A", "modelo_B", "modelo_C", "modelo_D"]
scores = [0.92, 0.87, 0.95, 0.78]

ranking = {modelo: score for modelo, score in zip(modelos, scores)}
print(f"Ranking: {ranking}")

# Filtrar solo modelos con score >= 0.90
top_modelos = {m: s for m, s in ranking.items() if s >= 0.90}
print(f"Top modelos (>= 0.90): {top_modelos}")

# --- Ejemplo practico: configuracion de un pipeline de ML ---
print("\n" + "=" * 50)
print("Practico: pipeline de ML como diccionario")
print("=" * 50)

pipeline_config = {
    "preprocesamiento": {
        "normalizar": True,
        "eliminar_nulos": True,
        "features": ["edad", "ingreso", "historial"],
    },
    "modelo": {
        "tipo": "gradient_boosting",
        "params": {"learning_rate": 0.01, "n_estimators": 500},
    },
    "evaluacion": {
        "metricas": ["accuracy", "f1", "auc"],
        "cross_validation": 5,
    },
}

# Acceder al learning rate del modelo
lr = pipeline_config["modelo"]["params"]["learning_rate"]
print(f"Learning rate: {lr}")

# Listar todas las features
features = pipeline_config["preprocesamiento"]["features"]
print(f"Features: {features}")

# Agregar una nueva metrica
pipeline_config["evaluacion"]["metricas"].append("precision")
print(f"Metricas actualizadas: {pipeline_config['evaluacion']['metricas']}")

In [None]:
# ==============================================================================
# SETS Y TUPLES: operaciones de conjuntos, tuple unpacking
# ==============================================================================

# --- SETS: Elementos unicos ---
print("Sets (conjuntos)")
print("=" * 50)

# Creacion
labels_modelo_a = {"gato", "perro", "pajaro", "pez", "gato"}  # duplicado eliminado
labels_modelo_b = {"gato", "perro", "caballo", "vaca"}

print(f"Labels modelo A: {labels_modelo_a}")
print(f"Labels modelo B: {labels_modelo_b}")

# Operaciones de conjuntos
print(f"\nUnion (A | B):         {labels_modelo_a | labels_modelo_b}")
print(f"Interseccion (A & B):  {labels_modelo_a & labels_modelo_b}")
print(f"Diferencia (A - B):    {labels_modelo_a - labels_modelo_b}")
print(f"Diferencia (B - A):    {labels_modelo_b - labels_modelo_a}")
print(f"Dif. simetrica (A ^ B):{labels_modelo_a ^ labels_modelo_b}")

# Membership testing (O(1) -- muy rapido)
print(f"\n'gato' in labels_modelo_a: {'gato' in labels_modelo_a}")
print(f"'elefante' in labels_modelo_a: {'elefante' in labels_modelo_a}")

# Deduplicacion rapida
predicciones_con_duplicados = ["gato", "perro", "gato", "pajaro", "perro", "gato", "pez"]
unicos = list(set(predicciones_con_duplicados))
print(f"\nCon duplicados:    {predicciones_con_duplicados}")
print(f"Sin duplicados:    {unicos}")
print(f"Cantidad de unicos: {len(unicos)}")

# --- TUPLES: Datos inmutables ---
print("\n" + "=" * 50)
print("Tuples (tuplas)")
print("=" * 50)

# Creacion
coordenada = (40.7128, -74.0060)  # latitud, longitud de NYC
resultado_modelo = ("gato", 0.95, True)  # (label, score, es_valido)

print(f"coordenada: {coordenada}")
print(f"resultado_modelo: {resultado_modelo}")

# Tuple unpacking (desempaquetado)
label, score, es_valido = resultado_modelo
print(f"\nUnpacking: label={label}, score={score}, valido={es_valido}")

# Unpacking con _ para valores que no necesitas
label, _, _ = resultado_modelo
print(f"Solo el label: {label}")

# Unpacking con * para capturar multiples valores
primero, *resto = [1, 2, 3, 4, 5]
print(f"\nprimero={primero}, resto={resto}")

*inicio, ultimo = [1, 2, 3, 4, 5]
print(f"inicio={inicio}, ultimo={ultimo}")

# Las tuplas son inmutables (no se pueden modificar)
print("\nInmutabilidad:")
try:
    coordenada[0] = 0  # Esto da error
except TypeError as e:
    print(f"  Error al modificar tupla: {e}")

# Las tuplas pueden ser claves de diccionario (las listas no)
cache_resultados = {}
cache_resultados[("gato", 0.95)] = "aprobado"
cache_resultados[("perro", 0.30)] = "rechazado"
print(f"\nCache con tuplas como claves: {cache_resultados}")

# --- Ejemplo practico: encontrar categorias unicas ---
print("\n" + "=" * 50)
print("Practico: analizar categorias de predicciones")
print("=" * 50)

predicciones = [
    ("gato", 0.95), ("perro", 0.82), ("gato", 0.71),
    ("pajaro", 0.65), ("perro", 0.90), ("pez", 0.55),
    ("gato", 0.88), ("pajaro", 0.73), ("perro", 0.42),
]

# Extraer categorias unicas
categorias = {label for label, score in predicciones}
print(f"Categorias unicas: {categorias}")

# Contar por categoria usando dict
conteo = {}
for label, score in predicciones:
    conteo[label] = conteo.get(label, 0) + 1

print(f"Conteo por categoria: {conteo}")

## 5. Comparacion de Performance: list vs set para Membership Testing

Una de las diferencias mas importantes entre `list` y `set` es la velocidad de busqueda.

- **list**: Busqueda secuencial, O(n). Debe recorrer toda la lista en el peor caso.
- **set**: Busqueda por hash, O(1). Accede directamente al elemento.

Esto es irrelevante con 10 elementos, pero **critico** con 100,000 o mas.

```
  Buscar "X" en una lista de N elementos:

  [a, b, c, d, ..., X, ..., z]     <-- Recorre uno por uno hasta encontrarlo
   1  2  3  4      N/2              <-- En promedio: N/2 comparaciones

  Buscar "X" en un set de N elementos:

  hash("X") --> posicion directa    <-- Calcula posicion con hash
                                    <-- 1 operacion (constante)
```

In [None]:
# ==============================================================================
# BENCHMARK: list vs set para membership testing
# ==============================================================================

import time

def benchmark_membership(n_elementos: int, n_busquedas: int) -> dict:
    """
    Compara el tiempo de busqueda 'in' entre list y set.
    
    Args:
        n_elementos: Cantidad de elementos en la coleccion.
        n_busquedas: Cantidad de busquedas a realizar.
    
    Returns:
        Dict con tiempos y speedup.
    """
    # Crear colecciones
    datos_lista = list(range(n_elementos))
    datos_set = set(range(n_elementos))
    
    # Elementos a buscar (la mitad existentes, la mitad inexistentes)
    import random
    random.seed(42)
    busquedas = [
        random.randint(0, n_elementos * 2) for _ in range(n_busquedas)
    ]
    
    # Benchmark en lista
    inicio = time.perf_counter()
    for elemento in busquedas:
        _ = elemento in datos_lista
    tiempo_lista = time.perf_counter() - inicio
    
    # Benchmark en set
    inicio = time.perf_counter()
    for elemento in busquedas:
        _ = elemento in datos_set
    tiempo_set = time.perf_counter() - inicio
    
    speedup = tiempo_lista / tiempo_set if tiempo_set > 0 else float('inf')
    
    return {
        "n_elementos": n_elementos,
        "n_busquedas": n_busquedas,
        "tiempo_lista": tiempo_lista,
        "tiempo_set": tiempo_set,
        "speedup": speedup,
    }


# --- Ejecutar benchmarks con diferentes tamanios ---
print("BENCHMARK: Busqueda 'in' - list vs set")
print("=" * 70)
print(f"{'N elementos':>12} {'N busquedas':>13} {'Tiempo list':>13} {'Tiempo set':>12} {'Speedup':>10}")
print("-" * 70)

tamanios = [1_000, 10_000, 100_000]
n_busquedas = 10_000

resultados_benchmark = []
for n in tamanios:
    resultado = benchmark_membership(n, n_busquedas)
    resultados_benchmark.append(resultado)
    print(
        f"{resultado['n_elementos']:>12,} "
        f"{resultado['n_busquedas']:>13,} "
        f"{resultado['tiempo_lista']:>12.6f}s "
        f"{resultado['tiempo_set']:>11.6f}s "
        f"{resultado['speedup']:>9.1f}x"
    )

print("-" * 70)
print("\nConclusiones:")
print("  - Con listas pequenias (< 100 elementos), la diferencia es despreciable.")
print("  - Con 100,000 elementos, el set puede ser cientos de veces mas rapido.")
print("  - Regla practica: si vas a buscar repetidamente en una coleccion grande,")
print("    convertila a set primero.")
print("\n  Ejemplo real: validar si un user_id esta en una lista de 1M de usuarios")
print("    lista -> ~50ms por busqueda    set -> ~0.0001ms por busqueda")

## 6. Patron Comun: Elegir Estructura segun el Problema

### Arbol de Decision

```
  Necesitas almacenar datos?
       |
       +--- Necesitas pares clave-valor?
       |       |
       |       SI --> dict
       |              Ejemplo: config = {"lr": 0.01, "epochs": 10}
       |
       +--- Necesitas elementos unicos?
       |       |
       |       SI --> set
       |              Ejemplo: categorias = {"gato", "perro", "pajaro"}
       |
       +--- Los datos son inmutables (no van a cambiar)?
       |       |
       |       SI --> tuple
       |              Ejemplo: coordenadas = (40.71, -74.00)
       |
       +--- Necesitas una coleccion ordenada y modificable?
               |
               SI --> list
                      Ejemplo: scores = [0.95, 0.82, 0.71]
```

### Patrones frecuentes en AI Engineering

| Escenario                               | Estructura recomendada          |
|:----------------------------------------|:--------------------------------|
| Configuracion de un modelo              | `dict` (anidado)                |
| Lista de predicciones                   | `list[dict]`                    |
| Labels unicos del dataset               | `set`                           |
| Coordenadas o punto fijo de datos       | `tuple`                         |
| Cache de resultados                     | `dict` con tupla como clave     |
| Features de un modelo                   | `list[str]`                     |
| Metricas de evaluacion                  | `dict[str, float]`              |

In [None]:
# ==============================================================================
# EJEMPLO INTEGRADOR: Procesar resultados de experimentos de ML
# ==============================================================================

# --- Dataset: resultados de multiples experimentos ---
experimentos = [
    {"id": "exp_001", "modelo": "random_forest", "dataset": "iris",
     "accuracy": 0.95, "f1": 0.94, "tiempo_entrenamiento": 2.3},
    {"id": "exp_002", "modelo": "svm", "dataset": "iris",
     "accuracy": 0.93, "f1": 0.92, "tiempo_entrenamiento": 5.1},
    {"id": "exp_003", "modelo": "random_forest", "dataset": "mnist",
     "accuracy": 0.97, "f1": 0.96, "tiempo_entrenamiento": 45.2},
    {"id": "exp_004", "modelo": "logistic_regression", "dataset": "iris",
     "accuracy": 0.89, "f1": 0.88, "tiempo_entrenamiento": 0.5},
    {"id": "exp_005", "modelo": "svm", "dataset": "mnist",
     "accuracy": 0.91, "f1": 0.90, "tiempo_entrenamiento": 120.7},
    {"id": "exp_006", "modelo": "neural_network", "dataset": "mnist",
     "accuracy": 0.99, "f1": 0.98, "tiempo_entrenamiento": 230.5},
    {"id": "exp_007", "modelo": "random_forest", "dataset": "cifar10",
     "accuracy": 0.72, "f1": 0.70, "tiempo_entrenamiento": 180.3},
    {"id": "exp_008", "modelo": "neural_network", "dataset": "cifar10",
     "accuracy": 0.85, "f1": 0.83, "tiempo_entrenamiento": 540.1},
    {"id": "exp_009", "modelo": "logistic_regression", "dataset": "mnist",
     "accuracy": 0.88, "f1": 0.86, "tiempo_entrenamiento": 3.2},
    {"id": "exp_010", "modelo": "neural_network", "dataset": "iris",
     "accuracy": 0.96, "f1": 0.95, "tiempo_entrenamiento": 15.8},
]

print("ANALISIS DE EXPERIMENTOS DE ML")
print("=" * 70)
print(f"Total de experimentos: {len(experimentos)}")

# --- 1. Extraer modelos y datasets unicos (set) ---
modelos_unicos = {exp["modelo"] for exp in experimentos}
datasets_unicos = {exp["dataset"] for exp in experimentos}

print(f"\nModelos unicos:  {modelos_unicos}")
print(f"Datasets unicos: {datasets_unicos}")

# --- 2. Mejor experimento por dataset (dict + loop) ---
print("\n" + "-" * 70)
print("Mejor experimento por dataset:")
print("-" * 70)

mejor_por_dataset = {}
for exp in experimentos:
    ds = exp["dataset"]
    if ds not in mejor_por_dataset or exp["accuracy"] > mejor_por_dataset[ds]["accuracy"]:
        mejor_por_dataset[ds] = exp

for dataset, mejor in mejor_por_dataset.items():
    print(f"  {dataset:<10} -> {mejor['modelo']:<22} accuracy: {mejor['accuracy']:.2f}  (exp: {mejor['id']})")

# --- 3. Promedio de accuracy por modelo (dict + acumuladores) ---
print("\n" + "-" * 70)
print("Accuracy promedio por modelo:")
print("-" * 70)

acumulador = {}  # {modelo: {"suma": float, "conteo": int}}
for exp in experimentos:
    m = exp["modelo"]
    if m not in acumulador:
        acumulador[m] = {"suma": 0.0, "conteo": 0}
    acumulador[m]["suma"] += exp["accuracy"]
    acumulador[m]["conteo"] += 1

promedios = {
    modelo: datos["suma"] / datos["conteo"]
    for modelo, datos in acumulador.items()
}

# Ordenar por promedio (descendente)
for modelo, promedio in sorted(promedios.items(), key=lambda x: x[1], reverse=True):
    barra = "#" * int(promedio * 40)
    print(f"  {modelo:<22} {promedio:.4f}  {barra}")

# --- 4. Filtrar experimentos rapidos con alta accuracy ---
print("\n" + "-" * 70)
print("Experimentos rapidos (< 60s) con accuracy >= 0.90:")
print("-" * 70)

rapidos_y_buenos = [
    exp for exp in experimentos
    if exp["tiempo_entrenamiento"] < 60 and exp["accuracy"] >= 0.90
]

# Ordenar por accuracy descendente
rapidos_y_buenos.sort(key=lambda x: x["accuracy"], reverse=True)

print(f"\n{'ID':<10} {'Modelo':<22} {'Dataset':<10} {'Accuracy':>10} {'Tiempo':>10}")
print("-" * 65)
for exp in rapidos_y_buenos:
    print(
        f"{exp['id']:<10} {exp['modelo']:<22} {exp['dataset']:<10} "
        f"{exp['accuracy']:>10.2f} {exp['tiempo_entrenamiento']:>9.1f}s"
    )

print(f"\nTotal: {len(rapidos_y_buenos)} de {len(experimentos)} experimentos cumplen los criterios.")

# --- 5. Resumen general (tuple unpacking en dict.items()) ---
print("\n" + "=" * 70)
print("RESUMEN")
print("=" * 70)
print(f"  Estructuras usadas en este analisis:")
print(f"    - list[dict]: almacenar los experimentos")
print(f"    - set:        encontrar modelos y datasets unicos")
print(f"    - dict:       acumular promedios, encontrar mejores por grupo")
print(f"    - tuple:      unpacking en iteraciones (key, value)")
print(f"    - list comp:  filtrar experimentos por criterios multiples")

## 7. Ejercicios

A continuacion hay 3 ejercicios para practicar los conceptos del notebook. Cada celda incluye instrucciones como comentarios. Completa el codigo donde dice `pass`.

> **Tip:** Intenta resolverlos sin mirar las secciones anteriores primero. Si te trabas, volve a revisar los ejemplos.

In [None]:
# ==============================================================================
# EJERCICIO 1: Clasificador de tipos
# ==============================================================================
#
# Dada la siguiente lista de datos mixtos, escribi codigo que:
#
# 1. Recorra cada elemento de la lista.
# 2. Clasifique cada elemento por su tipo (int, float, str, bool, NoneType, otro).
# 3. Almacene los resultados en un diccionario donde:
#    - Las claves son los nombres de los tipos (strings).
#    - Los valores son listas con los elementos de ese tipo.
# 4. Imprima el resultado mostrando cada tipo y sus elementos.
# 5. Imprima el tipo mas comun (el que tiene mas elementos).
#
# CUIDADO: bool hereda de int en Python. Asegurate de que True/False
# se clasifiquen como "bool", no como "int".
#
# Resultado esperado (el orden puede variar):
#   int:      [42, 0, -7]
#   float:    [3.14, 0.001]
#   str:      ['hola', '', 'mundo']
#   bool:     [True, False]
#   NoneType: [None]
#   Tipo mas comun: int y str (3 elementos cada uno)
# ==============================================================================

datos_mixtos = [42, 3.14, "hola", True, None, 0, False, "", 0.001, "mundo", -7]

# Tu codigo aqui:
pass

In [None]:
# ==============================================================================
# EJERCICIO 2: Analisis de predicciones de ML
# ==============================================================================
#
# Dadas las siguientes predicciones de un modelo de clasificacion de imagenes,
# escribi codigo que calcule:
#
# 1. Todas las labels unicas presentes en las predicciones.
# 2. La confianza promedio por cada label.
# 3. Las predicciones con confianza por encima de un umbral (0.75).
# 4. La label con la confianza promedio mas alta.
#
# Usa las estructuras de datos que consideres mas apropiadas para cada paso.
# Imprime los resultados de forma clara.
#
# Resultado esperado:
#   Labels unicos: {'auto', 'camion', 'bicicleta', 'moto', 'bus'}
#   Confianza promedio por label:
#     auto:      0.8300
#     camion:    0.6750
#     bicicleta: 0.8100
#     moto:      0.7200
#     bus:       0.6500
#   Predicciones con confianza >= 0.75: (varias...)
#   Label con mayor confianza promedio: auto (0.8300)
# ==============================================================================

predicciones_raw = [
    {"imagen": "img_001", "label": "auto", "confianza": 0.92},
    {"imagen": "img_002", "label": "camion", "confianza": 0.78},
    {"imagen": "img_003", "label": "bicicleta", "confianza": 0.85},
    {"imagen": "img_004", "label": "auto", "confianza": 0.74},
    {"imagen": "img_005", "label": "moto", "confianza": 0.67},
    {"imagen": "img_006", "label": "camion", "confianza": 0.57},
    {"imagen": "img_007", "label": "bicicleta", "confianza": 0.91},
    {"imagen": "img_008", "label": "auto", "confianza": 0.83},
    {"imagen": "img_009", "label": "moto", "confianza": 0.77},
    {"imagen": "img_010", "label": "bus", "confianza": 0.65},
    {"imagen": "img_011", "label": "bicicleta", "confianza": 0.67},
    {"imagen": "img_012", "label": "auto", "confianza": 0.88},
]

UMBRAL = 0.75

# Tu codigo aqui:
pass

In [None]:
# ==============================================================================
# EJERCICIO 3: Diferencia eficiente entre dos listas
# ==============================================================================
#
# Implementa una funcion llamada `diferencia_eficiente` que reciba dos listas
# y retorne los elementos que estan en la primera pero NO en la segunda.
#
# Requisitos:
# 1. Usa sets para hacer la operacion eficientemente (O(n) en vez de O(n*m)).
# 2. Mantene el orden original de la primera lista en el resultado.
# 3. Elimina duplicados del resultado.
# 4. Agrega type hints a la funcion.
#
# Ejemplo:
#   diferencia_eficiente([1, 2, 3, 4, 5, 3], [3, 4, 6]) -> [1, 2, 5]
#   diferencia_eficiente(["a", "b", "c"], ["b"]) -> ["a", "c"]
#
# Despues de implementar la funcion, usala para encontrar:
# - Features del modelo actual que NO estaban en el modelo anterior.
# - Features del modelo anterior que fueron eliminadas.
# ==============================================================================

features_modelo_anterior = [
    "edad", "ingreso", "historial_credito", "deuda", "empleo_anios",
    "propiedad", "estado_civil", "educacion"
]

features_modelo_actual = [
    "edad", "ingreso", "historial_credito", "ratio_deuda_ingreso",
    "empleo_anios", "score_crediticio", "educacion", "region"
]

# Tu codigo aqui:
# def diferencia_eficiente(...) -> ...:
#     ...
pass

## 8. Checklist de Consolidacion

Antes de pasar al siguiente notebook, asegurate de poder responder estas preguntas:

- [ ] **1.** Cual es la diferencia entre `type()` e `isinstance()`? Por que `isinstance(True, int)` retorna `True`?

- [ ] **2.** Los type hints se ejecutan en runtime? Que pasa si pongo un type hint incorrecto?

- [ ] **3.** Cual es la diferencia entre `break` y `continue` dentro de un bucle? Cuando usarias cada uno?

- [ ] **4.** Si necesitas buscar un elemento en una coleccion de 1 millon de registros, que estructura usarias: list o set? Por que?

- [ ] **5.** Cual es la diferencia entre una lista y una tupla? En que situaciones es mejor usar una tupla?

- [ ] **6.** Explicar con tus palabras que hace una list comprehension y dar un ejemplo con filtro.

- [ ] **7.** Por que un diccionario es la estructura ideal para almacenar configuraciones de modelos de ML?

- [ ] **8.** Nombra al menos 3 valores falsy de Python y explica por que es importante conocerlos.

---

### Siguiente Notebook

En el **Notebook 02** vamos a cubrir funciones, manejo de errores y modulos -- las herramientas que te permiten escribir codigo reutilizable y robusto para proyectos de AI Engineering.

---

*Fin del Notebook 01: Fundamentos de Python y Estructuras de Datos*