[← Guia 10](../guia_10_automatizacion_datos/guia_10.ipynb) | **Guia 11** | [Guia 12 →](../guia_12_proyecto_IA_anthropic/guia_12.ipynb)

# Guia 11: Analisis de Datos (estilo Harvard)

> **Autor:** Francisco Alvarez Varas | **Programa:** EDEM MDA 2025/2026 | **Grupo:** MDAB

| Dificultad | Ejercicios | Temas clave |
|:---:|:---:|:---:|
| Avanzado | 6 | Datasets, Ventas, Data Cleaning, Recomendaciones, Encriptacion, Monte Carlo |

**Fuentes:** Harvard CS50P (Week 6 - File I/O), MIT 6.0002 Introduction to Computational Thinking and Data Science

---

En esta guia trabajaremos con analisis de datos usando **Python puro** (sin pandas, sin numpy). El objetivo es entender los fundamentos del procesamiento de datos. Si dominas esto, pandas te parecera facilisimo.

**Instrucciones:**
- Lee cada ejercicio con atencion
- Escribe tu codigo en la celda marcada con `# TU CODIGO AQUI`
- Ejecuta la celda para comprobar el resultado
- Si te atascas, despliega la solucion (pero intenta primero!)

---

## Contenido

1. [Ejercicio 1: Crear y analizar un dataset de alumnos](#ejercicio-1-de-6-crear-y-analizar-un-dataset-de-alumnos)
2. [Ejercicio 2: Analisis de ventas por meses](#ejercicio-2-de-6-analisis-de-ventas-por-meses)
3. [Ejercicio 3: Limpieza de datos (Data Cleaning)](#ejercicio-3-de-6-limpieza-de-datos-data-cleaning)
4. [Ejercicio 4: Mini-sistema de recomendaciones](#ejercicio-4-de-6-mini-sistema-de-recomendaciones)
5. [Ejercicio 5: Encriptacion de datos (estilo MIT)](#ejercicio-5-de-6-encriptacion-de-datos-estilo-mit)
6. [Ejercicio 6: Simulacion Monte Carlo (MIT 6.0002 estilo)](#ejercicio-6-de-6-simulacion-monte-carlo-mit-60002-estilo)

## Prerequisitos

Antes de empezar esta guia, debes dominar:
- [Guia 01: Variables, Tipos y Strings](../guia_01_variables_tipos_strings/guia_01.ipynb)
- [Guia 02: Operadores y Condicionales](../guia_02_operadores_condicionales/guia_02.ipynb)
- [Guia 03: Listas, Tuplas y Diccionarios](../guia_03_listas_tuplas_diccionarios/guia_03.ipynb)
- [Guia 04: Bucles (for y while)](../guia_04_bucles_for_while/guia_04.ipynb)
- [Guia 05: Funciones](../guia_05_funciones/guia_05.ipynb)
- [Guia 06: Clases, Excepciones y Modulos](../guia_06_clases_excepciones_modulos/guia_06.ipynb)
- [Guia 10: Automatizacion de Datos](../guia_10_automatizacion_datos/guia_10.ipynb) - necesitas saber como trabajar con archivos de datos (CSV, JSON)

**Nivel de esta guia:** Avanzado

**Guia 11 de 12** del programa Python EDEM MDA 2025/2026

---
## Ejercicio 1 de 6: Crear y analizar un dataset de alumnos | Medio

> **Conceptos clave:** `random.seed()` | `random.uniform()` | `random.randint()` | `random.choice()` | list comprehension | `sorted()` con `key`

Crea un dataset simulado de 50 alumnos y funciones para analizarlo.

**Cada alumno tiene:**
- `nombre` (str)
- `edad` (int: 18-35)
- `nota_python` (float: 0-10)
- `nota_sql` (float: 0-10)
- `nota_docker` (float: 0-10)
- `grupo` (str: "MDAA", "MDAB", "MIA")

**Funciones a crear:**
- `nota_media_alumno(alumno)` -> media de sus 3 notas
- `mejores_alumnos(dataset, n)` -> los n alumnos con mejor media
- `estadisticas_por_grupo(dataset)` -> media, min, max de cada grupo
- `distribucion_notas(dataset, asignatura)` -> cuantos alumnos en cada rango:
  - 0-2: Suspenso grave, 2-5: Suspenso, 5-7: Aprobado, 7-9: Notable, 9-10: Sobresaliente

### Tu turno

In [None]:
# TU CODIGO AQUI

import random
from collections import Counter

# Datos de partida
NOMBRES = ["Ana", "Carlos", "Maria", "Luis", "Pilar", "Juan", "Laura",
           "Pedro", "Sofia", "Diego", "Elena", "Pablo", "Clara", "Jorge",
           "Marta", "Raul", "Lucia", "Alberto", "Rosa", "Francisco"]
GRUPOS = ["MDAA", "MDAB", "MIA"]

# Pista: random.seed(42) fija la semilla para resultados reproducibles
# Pista: random.uniform(0, 10) da un float entre 0 y 10
# Pista: round(valor, 1) redondea a 1 decimal


<details>
<summary><b>Ver solucion - Ejercicio 1</b></summary>

Generamos el dataset con `random.seed(42)` para reproducibilidad. Las funciones usan `sorted()` con `key=lambda` para ordenar y diccionarios para agrupar estadisticas.

```python
import random
from collections import Counter

# --- Generacion del dataset de alumnos ---
# CONCEPTO: random.seed(n) fija la semilla del generador aleatorio.
# Esto garantiza que SIEMPRE se generan los mismos datos "aleatorios",
# lo cual es esencial para que los resultados sean reproducibles.
random.seed(42)  # 42 es una convencion popular (viene de "The Hitchhiker's Guide")

NOMBRES = ["Ana", "Carlos", "Maria", "Luis", "Pilar", "Juan", "Laura",
           "Pedro", "Sofia", "Diego", "Elena", "Pablo", "Clara", "Jorge",
           "Marta", "Raul", "Lucia", "Alberto", "Rosa", "Francisco"]
GRUPOS = ["MDAA", "MDAB", "MIA"]

alumnos = []
for i in range(50):
    alumnos.append({
        # random.choice() selecciona un elemento aleatorio de la lista
        # Anadimos f"_{i}" para que cada alumno tenga un nombre unico
        "nombre": random.choice(NOMBRES) + f"_{i}",
        # random.randint(a, b) genera un entero aleatorio entre a y b (ambos incluidos)
        "edad": random.randint(18, 35),
        # random.uniform(a, b) genera un float aleatorio entre a y b
        # round(..., 1) redondea a 1 decimal para notas mas realistas
        # Cada asignatura tiene un rango minimo diferente (3, 2, 1) para simular dificultad variable
        "nota_python": round(random.uniform(3, 10), 1),
        "nota_sql": round(random.uniform(2, 10), 1),
        "nota_docker": round(random.uniform(1, 10), 1),
        "grupo": random.choice(GRUPOS)
    })


# --- Funcion: calcular la nota media de un alumno ---
def nota_media_alumno(alumno):
    """Calcula la media de las 3 asignaturas."""
    # Extraemos las 3 notas en una lista para poder usar sum() y len()
    notas = [alumno["nota_python"], alumno["nota_sql"], alumno["nota_docker"]]
    # CONCEPTO: sum(lista) / len(lista) es el patron clasico para calcular la media
    # round(..., 2) da 2 decimales para mayor precision en la media
    return round(sum(notas) / len(notas), 2)


# --- Funcion: obtener los mejores alumnos ---
def mejores_alumnos(dataset, n=5):
    """Devuelve los n mejores alumnos por nota media."""
    # Creamos una lista de tuplas (alumno, su_media) con list comprehension
    # Esto nos permite asociar cada alumno con su media calculada
    con_media = [(a, nota_media_alumno(a)) for a in dataset]
    # CONCEPTO: sorted() con key=lambda ordena por un criterio personalizado
    # x[1] es la media (segundo elemento de la tupla)
    # reverse=True ordena de mayor a menor (queremos los mejores primero)
    ordenados = sorted(con_media, key=lambda x: x[1], reverse=True)
    # Slicing [:n] toma solo los primeros n elementos
    return ordenados[:n]


# --- Funcion: estadisticas agrupadas por grupo ---
def estadisticas_por_grupo(dataset):
    """Calcula estadisticas por grupo."""
    # Diccionario donde la clave es el grupo y el valor es una lista de medias
    grupos = {}
    for alumno in dataset:
        g = alumno["grupo"]
        # Patron "acumular en diccionario": si la clave no existe, la creamos
        if g not in grupos:
            grupos[g] = []
        # Anadimos la media de este alumno a la lista de su grupo
        grupos[g].append(nota_media_alumno(alumno))

    # Ahora calculamos estadisticas de cada grupo
    resultado = {}
    for grupo, medias in grupos.items():
        resultado[grupo] = {
            "n_alumnos": len(medias),  # cuantos alumnos hay en el grupo
            "media": round(sum(medias) / len(medias), 2),  # media del grupo
            "min": round(min(medias), 2),  # peor nota media del grupo
            "max": round(max(medias), 2),  # mejor nota media del grupo
        }
    return resultado


# --- Funcion: distribucion de notas por rangos ---
def distribucion_notas(dataset, asignatura):
    """Distribuye notas en rangos."""
    # CONCEPTO: Histograma manual - contamos cuantos valores caen en cada rango
    # Inicializamos todos los contadores a 0
    rangos = {"Suspenso grave (0-2)": 0, "Suspenso (2-5)": 0,
              "Aprobado (5-7)": 0, "Notable (7-9)": 0,
              "Sobresaliente (9-10)": 0}

    for alumno in dataset:
        nota = alumno[asignatura]  # accedemos a la nota de la asignatura indicada
        # Cadena de if/elif clasifica cada nota en su rango
        # Los limites son exclusivos por arriba (< en vez de <=), excepto el ultimo
        if nota < 2:
            rangos["Suspenso grave (0-2)"] += 1
        elif nota < 5:
            rangos["Suspenso (2-5)"] += 1
        elif nota < 7:
            rangos["Aprobado (5-7)"] += 1
        elif nota < 9:
            rangos["Notable (7-9)"] += 1
        else:
            rangos["Sobresaliente (9-10)"] += 1  # 9 o mas -> sobresaliente

    return rangos


# --- Mostrar resultados ---
print("Top 5 mejores alumnos:")
for alumno, media in mejores_alumnos(alumnos, 5):
    # f-string con acceso a diccionario dentro de las llaves
    print(f"  {alumno['nombre']} ({alumno['grupo']}): {media}")

print("\nEstadisticas por grupo:")
for grupo, stats in estadisticas_por_grupo(alumnos).items():
    print(f"  {grupo}: media={stats['media']}, "
          f"min={stats['min']}, max={stats['max']}, "
          f"n={stats['n_alumnos']}")

print("\nDistribucion notas Python:")
for rango, cantidad in distribucion_notas(alumnos, "nota_python").items():
    # Creamos un grafico de barras textual: cada "#" = 1 alumno
    barra = "#" * cantidad
    # :<25 alinea el texto a la izquierda en 25 caracteres para que quede tabulado
    print(f"  {rango:<25} {barra} ({cantidad})")
```

</details>

> **Recuerda:**

| Concepto | Descripcion | Ejemplo |
|---|---|---|
| `random.seed(n)` | Fija la semilla para reproducibilidad | `random.seed(42)` |
| `random.uniform(a, b)` | Float aleatorio entre a y b | `random.uniform(0, 10)` -> 6.394... |
| `random.choice(lista)` | Elemento aleatorio de una lista | `random.choice(["A", "B"])` -> "A" |
| `sorted(lista, key=fn)` | Ordena lista usando una funcion clave | `sorted(data, key=lambda x: x[1])` |
| List comprehension | Crear lista en una linea | `[x*2 for x in range(5)]` |

---
## Ejercicio 2 de 6: Analisis de ventas por meses | Medio

> **Conceptos clave:** `enumerate()` | `max()` / `min()` con `key=lambda` | slicing de listas | f-strings con formato

Genera datos de ventas de 12 meses y crea funciones de analisis.

**Cada mes tiene:**
- `mes` (str: "Enero", "Febrero", ...)
- `ingresos` (float)
- `gastos` (float)
- `clientes_nuevos` (int)

**Funciones a crear:**
- `beneficio_mensual(datos)` -> lista de {mes, beneficio}
- `mejor_mes(datos)` -> el mes con mas beneficio
- `peor_mes(datos)` -> el mes con menos beneficio
- `tendencia(datos)` -> "creciente", "decreciente" o "estable" (compara media primeros 6 meses vs ultimos 6)
- `grafico_texto(datos)` -> grafico de barras en terminal (cada bloque = 200 EUR)

### Tu turno

In [None]:
# TU CODIGO AQUI

import random

MESES = ["Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio",
         "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"]

# Pista: usa enumerate(MESES) para tener indice y nombre del mes
# Pista: beneficio = ingresos - gastos
# Pista: para la tendencia, compara media de los primeros 6 vs ultimos 6


<details>
<summary><b>Ver solucion - Ejercicio 2</b></summary>

Se genera una tendencia creciente con `base = 8000 + i * 200` mas ruido aleatorio. La funcion `tendencia()` compara la media del primer y segundo semestre para determinar la direccion.

```python
import random

MESES = ["Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio",
         "Julio", "Agosto", "Septiembre", "Octubre", "Noviembre", "Diciembre"]

# --- Generacion de datos de ventas mensuales ---
ventas_mensuales = []
# CONCEPTO: enumerate() devuelve (indice, valor) en cada iteracion.
# Usamos el indice i para crear una tendencia creciente en los datos.
for i, mes in enumerate(MESES):
    # base sube 200 EUR por mes: Enero=8000, Feb=8200, ..., Dic=10200
    # Esto simula un crecimiento gradual a lo largo del anio
    base = 8000 + i * 200  # tendencia creciente
    ventas_mensuales.append({
        "mes": mes,
        # Anadimos ruido aleatorio (-1000, +2000) para que no sea una linea perfecta
        # En datos reales, siempre hay variabilidad
        "ingresos": round(base + random.uniform(-1000, 2000), 2),
        # Los gastos son ~60% de la base, mas ruido aleatorio
        # Esto simula costes proporcionales a la actividad
        "gastos": round(base * 0.6 + random.uniform(-500, 500), 2),
        # Clientes nuevos: entre 10 y 50 por mes (entero aleatorio)
        "clientes_nuevos": random.randint(10, 50)
    })


# --- Funcion: calcular beneficio de cada mes ---
def beneficio_mensual(datos):
    # CONCEPTO: List comprehension que transforma cada diccionario de ventas
    # en un diccionario mas simple con solo el mes y el beneficio (ingresos - gastos)
    return [{"mes": d["mes"],
             "beneficio": round(d["ingresos"] - d["gastos"], 2)} for d in datos]


# --- Funcion: encontrar el mes con mas beneficio ---
def mejor_mes(datos):
    beneficios = beneficio_mensual(datos)
    # CONCEPTO: max() con key=lambda encuentra el elemento maximo segun un criterio
    # Aqui buscamos el diccionario cuyo valor de "beneficio" sea el mayor
    return max(beneficios, key=lambda x: x["beneficio"])


# --- Funcion: encontrar el mes con menos beneficio ---
def peor_mes(datos):
    beneficios = beneficio_mensual(datos)
    # min() funciona igual que max() pero busca el minimo
    return min(beneficios, key=lambda x: x["beneficio"])


# --- Funcion: determinar la tendencia anual ---
def tendencia(datos):
    beneficios = beneficio_mensual(datos)
    # CONCEPTO: Slicing para dividir el anio en dos semestres
    # beneficios[:6] = primeros 6 meses (Enero-Junio)
    # beneficios[6:] = ultimos 6 meses (Julio-Diciembre)
    primera_mitad = sum(b["beneficio"] for b in beneficios[:6]) / 6
    segunda_mitad = sum(b["beneficio"] for b in beneficios[6:]) / 6
    # Comparamos las medias de ambos semestres
    diferencia = segunda_mitad - primera_mitad
    # Usamos un umbral de 500 EUR para evitar clasificar como "creciente/decreciente"
    # diferencias pequenias que podrian ser solo ruido estadistico
    if diferencia > 500:
        return "creciente"
    elif diferencia < -500:
        return "decreciente"
    return "estable"


# --- Funcion: grafico de barras en la terminal ---
def grafico_texto(datos, escala=200):
    """Genera un grafico de barras en la terminal."""
    beneficios = beneficio_mensual(datos)
    print(f"Grafico de beneficios (cada bloque = {escala} EUR):")
    for b in beneficios:
        # max(0, ...) evita barras negativas si el beneficio es negativo
        # int() trunca para obtener un numero entero de bloques
        bloques = max(0, int(b["beneficio"] / escala))
        barra = "#" * bloques  # cada "#" representa 200 EUR
        # :<12 alinea el nombre del mes a la izquierda en 12 caracteres
        # :,.0f formatea el numero con separador de miles y 0 decimales
        print(f"  {b['mes']:<12} | {barra} {b['beneficio']:,.0f}")


# --- Mostrar resultados ---
print(f"Mejor mes: {mejor_mes(ventas_mensuales)}")
print(f"Peor mes: {peor_mes(ventas_mensuales)}")
print(f"Tendencia: {tendencia(ventas_mensuales)}")
print()
grafico_texto(ventas_mensuales)
```

</details>

---
## Ejercicio 3 de 6: Limpieza de datos (Data Cleaning) | Dificil

> **Conceptos clave:** `str.split()` | `str.strip()` | `str.title()` | `str.lower()` | `str.replace()` | `try/except` | `set()` para duplicados

En la vida real, los datos **NUNCA** vienen limpios. Este ejercicio simula problemas reales que encontraras.

**Dataset "sucio" de partida:**
- Nombres con espacios extra y formatos inconsistentes
- Emails invalidos o en mayusculas
- Edades que no son numeros o son negativas
- Salarios con comas o vacios
- Filas duplicadas

**Funciones a crear:**
- `limpiar_nombre(nombre)` -> quitar espacios extra, formato titulo
- `limpiar_email(email)` -> minusculas, validar que tiene "@" y "."
- `limpiar_edad(edad)` -> convertir a int, marcar None si no valido
- `limpiar_salario(salario)` -> quitar comas, convertir a float
- `eliminar_duplicados(dataset)` -> quitar filas duplicadas
- `limpiar_dataset(dataset)` -> aplicar todo y devolver datos limpios

### Tu turno

In [None]:
# TU CODIGO AQUI

datos_sucios = [
    {"nombre": " Ana Garcia ", "email": "ANA@EMAIL.COM", "edad": "25", "salario": "30,000"},
    {"nombre": "carlos  LOPEZ", "email": "carlos@email", "edad": "abc", "salario": "28000"},
    {"nombre": "", "email": "maria@email.com", "edad": "30", "salario": "35000"},
    {"nombre": "Luis Perez", "email": "luis@email.com", "edad": "-5", "salario": ""},
    {"nombre": "Luis Perez", "email": "luis@email.com", "edad": "28", "salario": "32000"},
]

# Pista: " ".join(nombre.split()) elimina espacios multiples
# Pista: try/except para manejar conversiones fallidas
# Pista: set() no permite duplicados -> util para detectar filas repetidas


<details>
<summary><b>Ver solucion - Ejercicio 3</b></summary>

La limpieza de datos sigue un patron: validar, transformar y filtrar. Usamos `try/except` para conversiones seguras y `set()` para eliminar duplicados eficientemente.

```python
# --- Dataset "sucio" de ejemplo ---
# Estos datos simulan problemas reales: espacios extra, formatos inconsistentes,
# tipos incorrectos, valores vacios y filas duplicadas
datos_sucios = [
    {"nombre": " Ana Garcia ", "email": "ANA@EMAIL.COM", "edad": "25", "salario": "30,000"},
    {"nombre": "carlos  LOPEZ", "email": "carlos@email", "edad": "abc", "salario": "28000"},
    {"nombre": "", "email": "maria@email.com", "edad": "30", "salario": "35000"},
    {"nombre": "Luis Perez", "email": "luis@email.com", "edad": "-5", "salario": ""},
    {"nombre": "Luis Perez", "email": "luis@email.com", "edad": "28", "salario": "32000"},
]


# --- Funcion: limpiar un nombre ---
def limpiar_nombre(nombre):
    """Quita espacios extra y pone formato Titulo."""
    # CONCEPTO: " ".join(nombre.split()) es un truco para eliminar TODOS
    # los espacios multiples y de los extremos de una sola vez.
    # split() sin argumento divide por cualquier espacio y quita los vacios.
    # Luego join() los une con un solo espacio.
    # Ejemplo: " carlos  LOPEZ" -> ["carlos", "LOPEZ"] -> "carlos LOPEZ"
    nombre = " ".join(nombre.split())  # quita espacios multiples
    # title() pone la primera letra de cada palabra en mayuscula
    # Devolvemos None si el nombre quedo vacio (dato invalido)
    return nombre.title() if nombre else None


# --- Funcion: limpiar y validar un email ---
def limpiar_email(email):
    """Limpia y valida un email."""
    # strip() quita espacios de los extremos, lower() normaliza a minusculas
    # Los emails son case-insensitive por estandar, asi que siempre los guardamos en minusculas
    email = email.strip().lower()
    # Validacion basica: debe tener "@" y un "." despues del "@"
    # split("@")[-1] obtiene la parte del dominio (despues del @)
    if "@" in email and "." in email.split("@")[-1]:
        return email
    return None  # email no valido


# --- Funcion: limpiar y validar la edad ---
def limpiar_edad(edad):
    """Convierte a int y valida."""
    try:
        edad_int = int(edad)  # intentamos convertir el string a entero
        # Solo aceptamos edades realistas: mayores que 0 y menores que 120
        if 0 < edad_int < 120:
            return edad_int
    except (ValueError, TypeError):
        # CONCEPTO: try/except es el patron "pedir perdon, no permiso" (EAFP)
        # ValueError: si edad es "abc" (no se puede convertir a int)
        # TypeError: si edad es None (no se puede pasar a int)
        pass
    return None  # edad no valida -> devolvemos None como marcador


# --- Funcion: limpiar y validar el salario ---
def limpiar_salario(salario):
    """Limpia y convierte salario."""
    if not salario:  # si es string vacio o None, no hay nada que limpiar
        return None
    try:
        # Quitamos comas (formato americano "30,000") y espacios
        salario_limpio = salario.replace(",", "").replace(" ", "")
        return float(salario_limpio)  # convertimos a float para calculos
    except ValueError:
        return None  # si aun asi falla la conversion, es dato invalido


# --- Funcion: eliminar filas duplicadas ---
def eliminar_duplicados(dataset):
    """Elimina filas duplicadas basandose en nombre + email."""
    # CONCEPTO: Usamos set() para detectar duplicados en O(1) por busqueda.
    # Un set no permite elementos repetidos, asi que si la clave ya existe,
    # sabemos que es un duplicado.
    vistos = set()
    unicos = []
    for fila in dataset:
        # Creamos una tupla (nombre, email) como clave unica.
        # Usamos tupla porque es hashable (se puede meter en un set).
        # Los diccionarios y listas NO son hashables.
        clave = (fila.get("nombre", ""), fila.get("email", ""))
        if clave not in vistos:
            vistos.add(clave)  # marcamos esta combinacion como vista
            unicos.append(fila)
        # Si la clave ya esta en vistos, simplemente la ignoramos (duplicado)
    return unicos


# --- Funcion principal: aplicar todas las limpiezas ---
def limpiar_dataset(dataset):
    """Aplica todas las limpiezas y devuelve datos limpios."""
    limpios = []
    errores = 0  # contador de filas descartadas

    for fila in dataset:
        # Aplicamos cada funcion de limpieza a su campo correspondiente
        # .get("campo", "") evita KeyError si falta la clave
        limpia = {
            "nombre": limpiar_nombre(fila.get("nombre", "")),
            "email": limpiar_email(fila.get("email", "")),
            "edad": limpiar_edad(fila.get("edad", "")),
            "salario": limpiar_salario(fila.get("salario", "")),
        }

        # Solo incluir si tiene al menos nombre o email (datos minimos utiles)
        # Si no tiene ni nombre ni email, la fila no sirve para nada
        if limpia["nombre"] or limpia["email"]:
            limpios.append(limpia)
        else:
            errores += 1  # contamos las filas descartadas

    # Al final, eliminamos duplicados de los datos ya limpios
    limpios = eliminar_duplicados(limpios)
    return limpios, errores


# --- Ejecutar la limpieza y mostrar resultados ---
print(f"Datos originales: {len(datos_sucios)} filas")
for d in datos_sucios:
    print(f"  {d}")

limpios, errores = limpiar_dataset(datos_sucios)
print(f"\nDatos limpios: {len(limpios)} filas (descartados: {errores})")
for d in limpios:
    print(f"  {d}")
```

</details>

> **Recuerda:**

| Tecnica | Descripcion | Ejemplo |
|---|---|---|
| `" ".join(s.split())` | Elimina espacios multiples | `" Ana  Garcia " -> "Ana Garcia"` |
| `str.title()` | Formato titulo (primera letra mayuscula) | `"carlos lopez" -> "Carlos Lopez"` |
| `str.strip().lower()` | Quita espacios y pone minusculas | `" ANA@EMAIL " -> "ana@email"` |
| `try/except` | Manejo seguro de conversiones | Evita crash con datos invalidos |
| `set()` para duplicados | Conjunto no permite duplicados | Deteccion eficiente O(1) |

---
## Ejercicio 4 de 6: Mini-sistema de recomendaciones | Dificil

> **Conceptos clave:** `set()` operaciones (interseccion `&`, diferencia `-`) | diccionarios como tablas de busqueda | `abs()` | patron de busqueda del mejor candidato

Crea un sistema de recomendacion simple basado en similitud entre usuarios.

**Datos:** usuarios con sus valoraciones de peliculas (1-5 estrellas)

**Funciones a crear:**
- `similitud(usuario1, usuario2)` -> calcula que tan parecidos son (suma de diferencias absolutas entre notas compartidas, invertido)
- `usuario_mas_parecido(usuario, todos_usuarios)` -> encuentra el mas similar
- `recomendar(usuario, todos_usuarios)` -> recomienda peliculas que el usuario NO ha visto pero su usuario mas parecido si

**Formula de similitud:**
```
similitud = 1 / (1 + sum(abs(nota1 - nota2) para pelis en comun))
```
Menos diferencia = mas parecidos (valor mas cercano a 1)

### Tu turno

In [None]:
# TU CODIGO AQUI

usuarios = {
    "Ana":    {"Matrix": 5, "Inception": 4, "Interstellar": 5, "Titanic": 2},
    "Carlos": {"Matrix": 4, "Inception": 5, "Avatar": 3, "Titanic": 1},
    "Maria":  {"Interstellar": 5, "Titanic": 5, "Avatar": 4, "Matrix": 3},
    "Luis":   {"Matrix": 5, "Inception": 5, "Interstellar": 4, "Avatar": 2},
}

# Pista: set(user1.keys()) & set(user2.keys()) da las peliculas en comun
# Pista: set1 - set2 da elementos en set1 que no estan en set2


<details>
<summary><b>Ver solucion - Ejercicio 4</b></summary>

El sistema usa similitud basada en distancia: cuanto menor es la diferencia total de valoraciones en peliculas compartidas, mas parecidos son los usuarios. Luego recomienda peliculas del usuario mas parecido que el usuario original no ha visto.

```python
# --- Base de datos de usuarios y sus valoraciones de peliculas ---
# Cada usuario es un diccionario {pelicula: nota} con notas de 1 a 5
# No todos los usuarios han visto las mismas peliculas (esto es clave para recomendar)
usuarios = {
    "Ana":    {"Matrix": 5, "Inception": 4, "Interstellar": 5, "Titanic": 2},
    "Carlos": {"Matrix": 4, "Inception": 5, "Avatar": 3, "Titanic": 1},
    "Maria":  {"Interstellar": 5, "Titanic": 5, "Avatar": 4, "Matrix": 3},
    "Luis":   {"Matrix": 5, "Inception": 5, "Interstellar": 4, "Avatar": 2},
}


# --- Funcion: calcular similitud entre dos usuarios ---
def similitud(user1, user2):
    """Calcula similitud entre dos usuarios (0-1, donde 1 = identicos)."""
    # CONCEPTO: Operacion de INTERSECCION de conjuntos (&)
    # set(user1.keys()) son las peliculas de user1
    # La interseccion nos da solo las peliculas que AMBOS han visto
    # Solo podemos comparar gustos en peliculas que ambos han valorado
    pelis_comunes = set(user1.keys()) & set(user2.keys())
    if not pelis_comunes:
        return 0  # si no hay peliculas en comun, no podemos comparar

    # CONCEPTO: Distancia Manhattan = suma de diferencias absolutas
    # Mide cuanto difieren las notas en las peliculas compartidas
    # Ejemplo: Ana y Carlos en Matrix: |5-4| = 1 (muy parecidos)
    diferencias = sum(abs(user1[p] - user2[p]) for p in pelis_comunes)
    # CONCEPTO: Formula de similitud inversa: 1 / (1 + distancia)
    # Si diferencias = 0 (identicos) -> similitud = 1/(1+0) = 1.0
    # Si diferencias = 10 (muy distintos) -> similitud = 1/(1+10) = 0.09
    # El +1 en el denominador evita la division por cero
    return 1 / (1 + diferencias)


# --- Funcion: encontrar el usuario mas parecido ---
def usuario_mas_parecido(nombre, todos):
    """Encuentra el usuario mas similar."""
    usuario = todos[nombre]  # obtenemos las valoraciones del usuario
    mejor_nombre = None
    mejor_sim = -1  # empezamos con -1 para que cualquier similitud sea mejor

    for otro_nombre, otro_gustos in todos.items():
        if otro_nombre == nombre:
            continue  # no comparar al usuario consigo mismo
        sim = similitud(usuario, otro_gustos)
        # Patron "buscar el mejor": guardamos el mejor candidato encontrado
        if sim > mejor_sim:
            mejor_sim = sim
            mejor_nombre = otro_nombre

    return mejor_nombre, mejor_sim


# --- Funcion: generar recomendaciones ---
def recomendar(nombre, todos):
    """Recomienda peliculas que el usuario no ha visto."""
    # Primero encontramos al usuario mas parecido (nuestro "gemelo de gustos")
    parecido, sim = usuario_mas_parecido(nombre, todos)
    pelis_usuario = set(todos[nombre].keys())  # peliculas que ya ha visto
    pelis_parecido = set(todos[parecido].keys())  # peliculas del gemelo

    # CONCEPTO: Operacion de DIFERENCIA de conjuntos (-)
    # pelis_parecido - pelis_usuario = peliculas que el gemelo ha visto
    # pero el usuario NO. Estas son las candidatas a recomendacion.
    nuevas = pelis_parecido - pelis_usuario

    recomendaciones = []
    for peli in nuevas:
        nota = todos[parecido][peli]  # nota que le dio el gemelo
        # Solo recomendamos peliculas que al gemelo le gustaron (nota >= 3)
        # No tiene sentido recomendar algo que ni al parecido le gusto
        if nota >= 3:
            recomendaciones.append((peli, nota))

    return parecido, recomendaciones


# --- Probar el sistema de recomendaciones ---
for nombre in usuarios:
    parecido, sim = usuario_mas_parecido(nombre, usuarios)
    _, recs = recomendar(nombre, usuarios)

    print(f"{nombre}:")
    print(f"  Mas parecido a: {parecido} (similitud: {sim:.2f})")
    if recs:
        for peli, nota in recs:
            print(f"  Recomendacion: {peli} (nota del parecido: {nota}/5)")
    else:
        print(f"  Sin recomendaciones nuevas")
    print()
```

</details>

> **Recuerda:**

| Operacion con `set()` | Simbolo | Descripcion | Ejemplo |
|---|---|---|---|
| Interseccion | `&` | Elementos en ambos conjuntos | `{1,2,3} & {2,3,4}` -> `{2,3}` |
| Union | `\|` | Elementos en cualquiera | `{1,2} \| {3,4}` -> `{1,2,3,4}` |
| Diferencia | `-` | En el primero pero no en el segundo | `{1,2,3} - {2}` -> `{1,3}` |
| Pertenencia | `in` | Verificar si existe (O(1)) | `2 in {1,2,3}` -> `True` |

---
## Ejercicio 5 de 6: Encriptacion de datos (estilo MIT) | Dificil

> **Conceptos clave:** `string.ascii_lowercase` | `random.shuffle()` | `dict(zip())` | dict comprehension `{v: k for k, v in d.items()}` | `str.isupper()`

Crea un sistema para encriptar/desencriptar datos sensibles usando un **cifrado por sustitucion** basado en una clave.

**Funciones a crear:**
- `generar_clave()` -> genera un alfabeto aleatorio mezclado (Original: "abcdef..." -> Clave: "qwerty...")
- `invertir_clave(clave)` -> invierte el diccionario para descifrar
- `encriptar_texto(texto, clave)` -> sustituye cada letra por su equivalente en la clave
- `desencriptar_texto(texto, clave)` -> invierte el proceso

**Ejemplo:**
```
clave = generar_clave()
encriptar_texto("hola", clave) -> "xnvq"  (depende de la clave)
desencriptar_texto("xnvq", clave) -> "hola"
```

### Tu turno

In [None]:
# TU CODIGO AQUI

import string
import random

# Pista: string.ascii_lowercase = "abcdefghijklmnopqrstuvwxyz"
# Pista: random.shuffle(lista) mezcla la lista in-place
# Pista: dict(zip(lista1, lista2)) crea un diccionario emparejando elementos
# Pista: {v: k for k, v in diccionario.items()} invierte claves y valores


<details>
<summary><b>Ver solucion - Ejercicio 5</b></summary>

El cifrado por sustitucion reemplaza cada letra del texto por otra segun un diccionario-clave. Para descifrar, invertimos el diccionario. Se preservan las mayusculas y los caracteres no alfabeticos quedan sin cambios.

```python
import string
import random


# --- Funcion: generar una clave de cifrado por sustitucion ---
def generar_clave():
    """Genera un alfabeto mezclado como clave."""
    # CONCEPTO: string.ascii_lowercase = "abcdefghijklmnopqrstuvwxyz"
    # Lo convertimos a lista porque shuffle() necesita una secuencia mutable
    alfabeto = list(string.ascii_lowercase)
    mezclado = alfabeto.copy()  # copia para no modificar el original
    # CONCEPTO: random.shuffle() mezcla la lista IN-PLACE (modifica la original)
    # Esto genera una permutacion aleatoria del alfabeto
    # Ejemplo: ['q', 'w', 'e', 'r', 't', 'y', ...]
    random.shuffle(mezclado)
    # CONCEPTO: dict(zip(lista1, lista2)) empareja elementos de dos listas
    # zip(alfabeto, mezclado) crea pares: ('a','q'), ('b','w'), ('c','e'), ...
    # dict() convierte esos pares en {clave: valor}: {'a': 'q', 'b': 'w', ...}
    # Resultado: cada letra original se mapea a su sustituta
    return dict(zip(alfabeto, mezclado))


# --- Funcion: invertir la clave para descifrar ---
def invertir_clave(clave):
    """Invierte la clave para descifrar."""
    # CONCEPTO: Dict comprehension que intercambia claves y valores
    # Si clave = {'a': 'q', 'b': 'w'}, la inversa = {'q': 'a', 'w': 'b'}
    # Esto es posible porque el cifrado es una biyeccion (cada letra va a una unica letra)
    return {v: k for k, v in clave.items()}


# --- Funcion: encriptar texto ---
def encriptar_texto(texto, clave):
    """Encripta texto usando sustitucion."""
    resultado = ""
    for c in texto:  # recorremos caracter por caracter
        if c.lower() in clave:
            # Si el caracter es una letra, lo sustituimos por su equivalente
            nuevo = clave[c.lower()]
            # CONCEPTO: Preservar mayusculas - si la letra original era mayuscula,
            # la letra cifrada tambien debe serlo. isupper() detecta mayusculas.
            resultado += nuevo.upper() if c.isupper() else nuevo
        else:
            # Espacios, numeros, signos de puntuacion se dejan sin cambiar
            # Solo ciframos letras del alfabeto
            resultado += c
    return resultado


# --- Funcion: desencriptar texto ---
def desencriptar_texto(texto, clave):
    """Desencripta texto usando la clave invertida."""
    # CONCEPTO: Para descifrar, invertimos la clave y aplicamos el mismo algoritmo
    # Si cifrar es a->q, descifrar es q->a. Mismo proceso, clave diferente.
    clave_inv = invertir_clave(clave)
    return encriptar_texto(texto, clave_inv)


# --- Demo del sistema de encriptacion ---
clave = generar_clave()
# Mostramos solo las primeras 10 entradas de la clave para no llenar la pantalla
# dict(list(d.items())[:10]) es un patron para "ver un trozo" de un diccionario
print(f"Clave (primeras 10): {dict(list(clave.items())[:10])}")

original = "Hola Francisco, tus datos estan seguros"
cifrado = encriptar_texto(original, clave)
descifrado = desencriptar_texto(cifrado, clave)

print(f"Original:    {original}")
print(f"Cifrado:     {cifrado}")
print(f"Descifrado:  {descifrado}")
# Verificamos que descifrar(cifrar(texto)) == texto (propiedad fundamental)
print(f"Correcto: {original == descifrado}")
```

</details>

| Concepto | Descripcion | Ejemplo |
|---|---|---|
| `dict(zip(a, b))` | Crea diccionario emparejando dos listas | `dict(zip("abc", "xyz"))` -> `{"a": "x", "b": "y", "c": "z"}` |
| Dict comprehension | Transforma un diccionario | `{v: k for k, v in d.items()}` invierte claves/valores |
| `random.shuffle(lista)` | Mezcla una lista in-place | `random.shuffle([1,2,3])` -> `[3,1,2]` |
| `string.ascii_lowercase` | Las 26 letras minusculas | `"abcdefghijklmnopqrstuvwxyz"` |

---
## Ejercicio 6 de 6: Simulacion Monte Carlo (MIT 6.0002 estilo) | Dificil

> **Conceptos clave:** Metodo Monte Carlo | `math.pi` | `random.uniform()` | convergencia estadistica | notacion `1_000_000`

Monte Carlo usa **aleatoriedad para resolver problemas**. Se usa mucho en finanzas, fisica e inteligencia artificial.

**Proyecto:** Estimar el valor de PI usando puntos aleatorios.

**Logica:**
- Imagina un cuadrado de lado 2 con un circulo inscrito de radio 1
- Genera N puntos aleatorios dentro del cuadrado
- Cuenta cuantos caen dentro del circulo (`x^2 + y^2 <= 1`)
- `PI ~ 4 * (puntos_dentro / puntos_totales)`

**Funcion a crear:**
- `estimar_pi(n_puntos)` que genere n puntos aleatorios (x, y) entre -1 y 1, cuente los que caen dentro del circulo y calcule la estimacion de PI

**Prueba con:** 100, 1,000, 10,000, 100,000 puntos (a mas puntos, mas precision)

### Tu turno

In [None]:
# TU CODIGO AQUI

import math
import random

# Pista: genera puntos (x, y) con random.uniform(-1, 1)
# Pista: un punto esta dentro del circulo si x**2 + y**2 <= 1
# Pista: PI ~ 4 * (puntos_dentro / puntos_totales)
# Pista: 1_000_000 es igual a 1000000 (los _ son para legibilidad)


<details>
<summary><b>Ver solucion - Ejercicio 6</b></summary>

El metodo Monte Carlo estima PI generando puntos aleatorios en un cuadrado y contando cuantos caen dentro de un circulo inscrito. La proporcion `dentro/total` se aproxima a `PI/4`. A mayor cantidad de puntos, mayor precision.

```python
import math
import random


# --- Simulacion Monte Carlo: estimar PI con puntos aleatorios ---
# CONCEPTO: Monte Carlo = usar aleatoriedad para resolver problemas matematicos.
# Idea geometrica:
#   - Imagina un cuadrado de lado 2 (de -1 a 1) -> area = 4
#   - Inscribe un circulo de radio 1 dentro -> area = PI * r^2 = PI
#   - Proporcion: area_circulo / area_cuadrado = PI / 4
#   - Si lanzamos puntos aleatorios al cuadrado, la proporcion de los que
#     caen dentro del circulo se aproxima a PI/4.
#   - Por tanto: PI ~ 4 * (puntos_dentro / puntos_totales)
def estimar_pi(n_puntos):
    """Estima PI usando el metodo Monte Carlo."""
    dentro = 0  # contador de puntos que caen dentro del circulo

    for _ in range(n_puntos):  # _ porque no necesitamos el indice del bucle
        # Generamos un punto aleatorio (x, y) en el cuadrado [-1, 1] x [-1, 1]
        x = random.uniform(-1, 1)
        y = random.uniform(-1, 1)

        # CONCEPTO: Ecuacion del circulo unitario: x^2 + y^2 <= r^2
        # Como r=1, un punto esta dentro si x^2 + y^2 <= 1
        # Esto es el teorema de Pitagoras: la distancia al centro es sqrt(x^2 + y^2)
        if x**2 + y**2 <= 1:
            dentro += 1

    # CONCEPTO: Ley de los grandes numeros - cuantos mas puntos,
    # mejor se aproxima la proporcion al valor teorico PI/4
    # Multiplicamos por 4 para despejar PI
    pi_estimado = 4 * dentro / n_puntos
    return pi_estimado


# --- Probar con cantidades crecientes de puntos ---
print(f"PI real: {math.pi}")
# CONCEPTO: Formato de tabla con f-strings
# :<12 = alinear a la izquierda en 12 caracteres
# :<15 = alinear a la izquierda en 15 caracteres
print(f"{'Puntos':<12} {'PI estimado':<15} {'Error':<10}")
print(f"{'-'*37}")

# CONCEPTO: 1_000 = 1000. Los guiones bajos mejoran la legibilidad
# de numeros grandes sin cambiar su valor. Es azucar sintactico de Python.
for n in [100, 1_000, 10_000, 100_000]:
    pi_est = estimar_pi(n)
    error = abs(pi_est - math.pi)  # error absoluto respecto al PI real
    # :< alinea a la izquierda; , agrega separador de miles; .6f = 6 decimales
    print(f"{n:<12,} {pi_est:<15.6f} {error:<10.6f}")
```

</details>

---
## Mundo Real: Donde se usa esto en la industria?

| Concepto de la guia | Aplicacion real |
|---|---|
| Estadisticas y analisis de datasets | Business Intelligence (BI), dashboards con Tableau/Power BI |
| Limpieza de datos (Data Cleaning) | El 80% del trabajo de un data scientist es limpiar datos antes de analizarlos |
| Sistemas de recomendaciones | Netflix, Spotify, Amazon: recomiendan contenido basado en similitud de usuarios |
| Simulacion Monte Carlo | Finanzas (valoracion de opciones), fisica de particulas, entrenamiento de modelos de IA |

> **Dato curioso:** El sistema de recomendaciones de Netflix ahorra a la empresa mas de 1 billon de dolares al anio en retencion de clientes. Todo empezo con un concurso publico (Netflix Prize, 2006) donde equipos competian por mejorar las recomendaciones usando tecnicas de similitud como las que practicaste aqui.

---

## Resumen Final de la Guia 11

### Que aprendiste

| # | Concepto | Aprendido? |
|:---:|:---|:---:|
| 1 | Generacion de datasets con `random.seed()` | [ ] |
| 2 | `sorted()` con `key=lambda` | [ ] |
| 3 | Analisis de ventas: `max()`, `min()`, `enumerate()` | [ ] |
| 4 | Limpieza de datos: `strip()`, `split()`, `set()` | [ ] |
| 5 | Sistemas de recomendacion con `set()` (`&`, `\|`, `-`) | [ ] |
| 6 | Simulacion Monte Carlo | [ ] |
| 7 | Analisis de texto (NLP basico) | [ ] |

> **Recuerda:** Referencia rapida
>
> | Ejercicio | Tema | Conceptos principales |
> |---|---|---|
> | 1 | Dataset de alumnos | `random.seed()`, `sorted()` con `key`, diccionarios anidados |
> | 2 | Ventas mensuales | `enumerate()`, `max()`/`min()` con `lambda`, slicing |
> | 3 | Limpieza de datos | `str.split()`, `str.strip()`, `try/except`, `set()` |
> | 4 | Recomendaciones | Operaciones con `set()` (`&`, `\|`, `-`), similitud |
> | 5 | Monte Carlo | Simulacion aleatoria, convergencia, ley de grandes numeros |
> | 6 | Analisis de texto | Frecuencia de palabras, stop words, n-gramas |

> **Tip:** Todo esto se puede hacer mas facil con `pandas` y `numpy`. Pero entender los fundamentos con Python puro te hace mejor programador.

---
*Fin de la Guia 11 -- Siguiente: [Guia 12: Proyecto IA con Anthropic/Claude](../guia_12_proyecto_IA_anthropic/guia_12.ipynb)*

---
## Errores Comunes

| Error | Problema | Solucion |
|---|---|---|
| Dataset vacio | `ZeroDivisionError` al calcular media | Verificar `if lista:` antes de dividir |
| Division por cero en estadisticas | Crash al calcular promedios | Patron `sum(x) / len(x) if x else 0` |
| Confundir muestra con poblacion | Resultados estadisticos incorrectos | Usar `n-1` (Bessel) para varianza muestral |
| No normalizar datos antes de comparar | Comparaciones injustas entre escalas distintas | Convertir a minusculas, quitar espacios, normalizar rangos |
| Hardcodear nombres de columnas | Codigo fragil que se rompe con datos nuevos | Usar `datos[0].keys()` o parametros configurables |

## Para Profundizar

- [Real Python: Python Statistics Fundamentals](https://realpython.com/python-statistics/)
- [Harvard CS50P: File I/O](https://cs50.harvard.edu/python/)
- [Python docs: statistics module](https://docs.python.org/3/library/statistics.html)
- [MIT OCW 6.0002: Introduction to Computational Thinking](https://ocw.mit.edu/courses/6-0002-introduction-to-computational-thinking-and-data-science-fall-2016/)