# Notebook 06 - üî¨ El Taller del Analista: Eficiencia, Robustez y Escalabilidad

## Fundamentos de Python | UMCA

## Profesor: Ing. Andr√©s Mena Abarca

### <mark>**Nombre del estudiante: Mariana Villalta**</mark>

* * *

¬°Hola! Hoy daremos un salto cu√°ntico. No solo aprenderemos la sintaxis de **Diccionarios y Tuplas**; aprenderemos por qu√© son las herramientas fundamentales que permiten a los ingenieros de datos procesar *terabytes* de informaci√≥n de forma eficiente. 

Nuestra misi√≥n: Escribir c√≥digo **eficiente, robusto (a prueba de errores) y escalable**.

#### **Introducci√≥n: La Decisi√≥n Estrat√©gica (Lista vs. Tupla vs. Diccionario)**

Elegir la estructura correcta es el 90% del trabajo. Un c√≥digo lento casi siempre se debe a una mala elecci√≥n de estructura.

| Estructura | S√≠mbolo | Mutabilidad | Acceso | ¬øPor Qu√© Elegirla? (El Secreto Profesional) |
| :--- | :--- | :--- | :--- | :--- |
| **Listas** | `[ ]` | **Mutable** | √çndice num√©rico (`O(N)`) | Para colecciones ordenadas que **cambiar√°n** (a√±adir, eliminar). Su b√∫squeda es **lenta** (`.index()`). |
| **Tuplas** | `( )` | **Inmutable** | √çndice num√©rico (`O(N)`) | Para datos fijos. Su poder: son **"Hashables"** (calculables), lo que les permite ser **claves de diccionario**. |
| **Diccionarios** | `{ }` | **Mutable** | Clave (`O(1)`) | Para la **b√∫squeda m√°s r√°pida posible**. Es la herramienta #1 para conteo, agrupaci√≥n y mapeo (gracias a las "Hash Tables"). |

**Vocabulario Clave:**
* **O(1):** Acceso "constante" o **instant√°neo** (como los Diccionarios).
* **O(N):** Acceso "lineal". El tiempo de b√∫squeda crece con el tama√±o de la lista (como `.index()` en Listas).
* **Hashable:** Un objeto (como una Tupla) que tiene un valor √∫nico y nunca cambia, permiti√©ndole ser una clave de diccionario.

## üë∂ FASE 1: Sintaxis, Creaci√≥n y Acceso Seguro

Empecemos por lo b√°sico: crear y acceder a nuestras estructuras.

### Desaf√≠o 1.0: Creaci√≥n de Estructuras

**Instrucciones:**
1.  Crea un **diccionario** llamado `perfil_usuario` con las claves: `'nombre'` (un string), `'edad'` (un int) y `'cursos'` (una lista de strings).
2.  Crea una **tupla** llamada `fecha_registro` que contenga `(dia, mes, a√±o)`.

In [None]:
# Escribe tu c√≥digo aqu√≠ para el Desaf√≠o 1.0
perfil_usuario = {
    'nombre': 'Juan Ignacio',
    'edad': 30,
    'cursos': ['Python Essentials', 'An√°lisis de datos']
}
#Tupla
fecha_registro = (6, 11, 2025)

perfil_usuario['nombre'] = 'Sergio Marin'
perfil_usuario['anio'] = 2025


perfil_usuario['cursos'][0] = 'Power BI'
perfil_usuario['cursos'].append('Ingles')


#fecha_registro[0] = 2  #Error la tupla es inmutable
fecha_registro = (2, 11, 2025)
print(fecha_registro[0])

# (Descomenta estas l√≠neas para probar tu c√≥digo)
print(f"Perfil: {perfil_usuario}")
print(f"Registrado el: {fecha_registro}")

Perfil: {'nombre': 'Mariana', 'edad': 42, 'cursos': ['Python Essential', 'An√°lisis de datos']}
Registrado el: (2, 11, 2025)


### Desaf√≠o 1.1: Acceso Seguro con `.get()`

Un c√≥digo profesional NUNCA debe fallar. Si intentas `perfil_usuario['telefono']`, el programa se romper√°. El m√©todo `.get()` es la soluci√≥n segura.

**Instrucciones:** Usando el `perfil_usuario` de arriba, accede a la clave `'telefono'`. Si no existe, debe devolver el string `'No disponible'`.

In [5]:
# COMPLETA EL C√ìDIGO:
telefono_usuario = perfil_usuario.get("telefono","No disponible")
print(f"El tel√©fono del usuario es: {telefono_usuario}")

El tel√©fono del usuario es: No disponible


### Desaf√≠o 1.2: El V√≠nculo Diccionario-Tupla (Iteraci√≥n)

El m√©todo `.items()` de un diccionario nos devuelve sus datos como una lista de **Tuplas** `(clave, valor)`. Vamos a practicar el desempaquetado iterando sobre el diccionario que ya creamos.

**Instrucciones:** Itera sobre `perfil_usuario.items()` y desempaqueta la clave y el valor en cada ciclo para imprimir un reporte.

In [8]:
print("--- Reporte de Usuario ---")

print(perfil_usuario.items())

# COMPLETA EL BUCLE:
for clave, valor in perfil_usuario.items():
    print(f"{clave.title()}: {valor}")

--- Reporte de Usuario ---
dict_items([('nombre', 'Mariana'), ('edad', 42), ('cursos', ['Python Essential', 'An√°lisis de datos'])])
Nombre: Mariana
Edad: 42
Cursos: ['Python Essential', 'An√°lisis de datos']


> **Checkpoint:** ¬°Fase 1 completada! Ya sabemos crear estructuras e iterar sobre ellas de forma segura. Ahora, vamos a trabajar con datos del mundo real.

--- 
## üßπ FASE 2: ETL - Limpieza, Mapeo y Conteo Robusto

En el mundo real, los datos **nunca** est√°n limpios. Antes de analizar, debemos hacer "ETL" (Extract, Transform, Load). Esta fase es la m√°s importante del an√°lisis de datos.

### Desaf√≠o 2.0: Normalizaci√≥n (Limpieza B√°sica)

Tenemos datos sucios: may√∫sculas inconsistentes y espacios en blanco.

**Instrucciones:** Crea una nueva lista `medicamentos_normalizados` iterando sobre `medicamentos_sucios`. En cada ciclo, usa `.lower()` (min√∫scula) y `.strip()` (quitar espacios).

In [11]:
medicamentos_sucios = [" Acetaminof√©n         ", "jarabe", "Acetaminof√©n", " JARABE ","insulina", "acetaminofen", "Paracetamol"]

In [None]:
medicamentos_normalizados = []

# Escribe tu bucle de normalizaci√≥n aqu√≠
for medicina in medicamentos_sucios:
    medicamentos_normalizados.append(medicina.lower().strip()) #.upper() .tittle


print(f"Lista Normalizada: {medicamentos_normalizados}")

Lista Normalizada: ['acetaminof√©n', 'jarabe', 'acetaminof√©n', 'jarabe', 'insulina', 'acetaminof√©n', 'paracetamol']


### Desaf√≠o 2.1: Saneamiento de Datos (Mapeo Sem√°ntico)

¬°Buen trabajo! Pero nota que en `medicamentos_normalizados` tenemos `'acetaminof√©n'` y `'paracetamol'`, ¬°que son lo mismo! Debemos **consolidarlos**.

**Instrucciones:** Crea una lista final `medicamentos_limpios`. Itera sobre `medicamentos_normalizados` y usa el diccionario `corrector_nombres` (con `.get()`) para unificar los t√©rminos.

In [13]:
# Diccionario de Mapeo: 't√©rmino_sucio': 't√©rmino_limpio'
# Corrector de nombres: Usamos este diccionario para reemplazar los errores
# de escritura o sin√≥nimos por el nombre maestro que queremos usar.
corrector_nombres = {
    'acetaminof√©n': 'PARACETAMOL',
    'acetaminofen': 'PARACETAMOL',
    'paracetamol': 'PARACETAMOL',
    'jarabe': 'JARABE',
    'insulina': 'INSULINA'
}

medicamentos_limpios = []

# Escribe tu bucle de saneamiento aqu√≠
# Pista: Usa .get(medicamento, medicamento) para que si el t√©rmino S√ç est√° en el mapa, 
# use el valor LIMPIO (PARACETAMOL). Si NO est√° en el mapa (ej. 'insulina'),
# usa el valor original.

for medicamento in medicamentos_normalizados:
    #1 Aplicar un mapeo de datos
    termino_limpio = corrector_nombres.get(medicamento, medicamento)
    medicamentos_limpios.append(termino_limpio)

print(f"Lista corregida y normalizada: {medicamentos_limpios}")

Lista corregida y normalizada: ['PARACETAMOL', 'JARABE', 'PARACETAMOL', 'JARABE', 'INSULINA', 'PARACETAMOL', 'PARACETAMOL']


### Desaf√≠o 2.2: Conteo Robusto y Eficiente (Datos Complejos)

Ahora, un reto realista. Nuestros registros son diccionarios, y **algunos est√°n corruptos** (les falta la clave 'medicamento').

**Instrucciones:** Itera sobre `registros_complejos`. 
1.  Usa `.get('medicamento')` para obtener el medicamento de forma segura.
2.  Si `.get()` devuelve `None` (porque la clave no exist√≠a), usa `continue` para saltar ese registro.
3.  Si tienes un medicamento, usa la l√≥gica de conteo eficiente para llenar `conteo_medicamentos`.

In [16]:
registros_complejos = [
    {
        'id': 101, 
        'medicamento': 'PARACETAMOL'}, 
    
    {'id': 102, 'medicamento': 'JARABE'},
    {'id': 103, 'medicamento': 'INSULINA'},
    {'id': 999, 'error': 'dato_corrupto'}, # ¬°Registro corrupto!
    {'id': 104, 'medicamento': 'PARACETAMOL'},
    {'id': 105, 'medicamento': 'JARABE'},
    {'id': 106, 'medicamento': 'PARACETAMOL'}
]

conteo_medicamentos = {}

# Escribe tu bucle de conteo ROBUSSTO aqu√≠
for registro in registros_complejos:
    medicamento = registro.get("medicamento")
    #Filtro Load - acceso robusto
    if not medicamento:
        continue #saltar de registro
    
    #conteo de medicamentos
    if medicamento in conteo_medicamentos:
        conteo_medicamentos[medicamento] +=1
    else:
        conteo_medicamentos[medicamento] = 1





print("--- Conteo Eficiente y Robusto ---")
print(conteo_medicamentos) # Deber√≠a ser: {'PARACETAMOL': 3, 'JARABE': 2, 'INSULINA': 1}

--- Conteo Eficiente y Robusto ---
{'PARACETAMOL': 3, 'JARABE': 2, 'INSULINA': 1}


### Desaf√≠o 2.3: La V√≠a R√°pida (La Recompensa `collections.Counter`)

¬°Sufrimos mucho! Python sabe que esto es com√∫n, as√≠ que nos da una herramienta: `Counter`. Hace la mayor parte del trabajo de conteo en una sola l√≠nea.

**Instrucciones:** (Descomenta el c√≥digo) Usa `Counter` en nuestra lista `medicamentos_limpios` (de 2.1) y mira la magia.

In [17]:
from collections import Counter

conteo_rapido = Counter(medicamentos_limpios)
print(f"Conteo con Counter: {conteo_rapido}")

# ¬°Incluso nos da el Top 3!
# print(f"Top 3: {conteo_rapido.most_common(3)}")

Conteo con Counter: Counter({'PARACETAMOL': 4, 'JARABE': 2, 'INSULINA': 1})


> **Checkpoint:** ¬°Fase 2 completada! Hemos dominado la limpieza (ETL) y el conteo eficiente y robusto. Esta es la habilidad m√°s demandada en an√°lisis de datos.

--- 
## ‚öôÔ∏è FASE 3: Agregaci√≥n y Claves Compuestas (Group By)

Dominamos el conteo (`+1`). Ahora vamos a **agregar** (sumar valores calculados). Esta es la base de todos los reportes financieros.

### Desaf√≠o 3.0: Agregaci√≥n Simple (Calentamiento)

Antes de un reporte financiero complejo, calentemos con una suma simple. Queremos sumar el total de horas por empleado.

**Instrucciones:** Usa la l√≥gica de agregaci√≥n (similar al conteo, pero sumando las `'horas'` en lugar de `+1`) para crear el diccionario `horas_totales`.

In [None]:
registros_horas = [
    {'nombre': 'Ana', 
     'horas': 5
     },
    {'nombre': 'Juan', 'horas': 3},
    {'nombre': 'Ana', 'horas': 2}
]
horas_totales = {}

# Escribe tu bucle de agregaci√≥n simple aqu√≠
for registro in registros_horas:
    nombre = registro["nombre"]
    horas = registro["horas"]
    
    if nombre in horas_totales:
        horas_totales[nombre] += horas
    else:
        horas_totales[nombre] = horas

print("--- Horas Totales por Empleado ---")
print(horas_totales) # Deber√≠a ser: {'Ana': 7, 'Juan': 3}

--- Horas Totales por Empleado ---
{'Ana': 7, 'Juan': 3}


### Desaf√≠o 3.1: Agregaci√≥n de Ingresos (Group By + Sum)

¬°Perfecto! Ahora apliquemos esa misma l√≥gica al reporte de ventas. Es el mismo patr√≥n, solo que el valor a sumar (`precio * cantidad`) se calcula en cada paso.

**Instrucciones:** Crea el diccionario `ingresos_por_producto`.

In [24]:
ventas = [
    {"producto": "laptop", "precio": 700, "cantidad": 3},
    {"producto": "rat√≥n", "precio": 25, "cantidad": 10},
    {"producto": "teclado", "precio": 45, "cantidad": 5},
    {"producto": "laptop", "precio": 700, "cantidad": 2}, # ¬°Producto repetido!
]

ingresos_por_producto = {}

# Escribe tu bucle de agregaci√≥n de ventas aqu√≠
for venta in ventas:
    producto = venta["producto"]
    subtotal = venta["precio"] * venta["cantidad"]
    print(subtotal)

if producto in ingresos_por_producto:
    ingresos_por_producto[producto] += subtotal
else:
    ingresos_por_producto[producto] = subtotal


print("--- Resumen de Ingresos por Producto ---")
print(ingresos_por_producto) # Deber√≠a ser: {'laptop': 3500, 'rat√≥n': 250, 'teclado': 225}

2100
250
225
1400
--- Resumen de Ingresos por Producto ---
{'laptop': 1400}


### Desaf√≠o 3.2: Agregaci√≥n Global (Suma Limpia)

Ahora que tienes el resumen, calcular el total global es f√°cil.

**Instrucciones:** Usa la funci√≥n `sum()` en los `.values()` de tu diccionario `ingresos_por_producto`.

In [26]:
# COMPLETA EL C√ìDIGO:
# ingreso_total_global = sum(.......)
print(ingresos_por_producto.values())
ingreso_total_global = sum(ingresos_por_producto.values())
print(f"\n--- INGRESO TOTAL GLOBAL: ${ingreso_total_global} ---")

dict_values([1400])

--- INGRESO TOTAL GLOBAL: $1400 ---


### Desaf√≠o 3.3: ¬°El momento "Aha!" - Tuplas como Claves

Este es el desaf√≠o que justifica la existencia de las Tuplas. Queremos contar visitas por **par de coordenadas** `(lat, lon)`.

**Instrucciones:** Usa la l√≥gica de conteo (Fase 2), pero esta vez, la **clave** de tu diccionario ser√° la **tupla completa** `(lat, lon)`.

In [27]:
visitas_coordenadas = [(9.9, -84.0), (10.0, -85.1), (9.9, -84.0), (9.8, -84.1), (9.9, -84.0)]
conteo_visitas_geo = {}

# Escribe tu bucle de conteo aqu√≠ (la 'visita' es tu clave)
for visita in visitas_coordenadas:
    if visita in conteo_visitas_geo:
        conteo_visitas_geo[visita] += 1
        
    else:
        conteo_visitas_geo[visita] = 1


print("--- Conteo por Clave de Tupla (Coordenadas) ---")
print(conteo_visitas_geo) # Deber√≠a ser: {(9.9, -84.0): 3, (10.0, -85.1): 1, (9.8, -84.1): 1}

# ¬øQu√© pasar√≠a si intentas esto con una lista [9.9, -84.0]?
# ¬°Int√©ntalo! (Deber√≠a dar un error 'unhashable type')

--- Conteo por Clave de Tupla (Coordenadas) ---
{(9.9, -84.0): 3, (10.0, -85.1): 1, (9.8, -84.1): 1}


> **Checkpoint:** ¬°Fase 3 completada! Hemos dominado la agregaci√≥n (Group By), la habilidad fundamental para cualquier reporte financiero o de BI.

--- 
## üèóÔ∏è FASE 4: Modularidad y Creatividad (El Capstone)

Hemos escrito mucho c√≥digo. Pero el c√≥digo *profesional* es **reutilizable** (Funciones) y **comunicativo** (Visualizaci√≥n).

### Desaf√≠o 4.1: Refactorizaci√≥n a Funciones

Vamos a tomar nuestra l√≥gica de la Fase 2 (limpieza y conteo) y envolverla en una funci√≥n reutilizable.

**Instrucciones:** Completa la funci√≥n `analizar_frecuencias` que recibe una lista de registros y un mapa de saneamiento, y devuelve el conteo final.

In [28]:
def analizar_frecuencias(lista_registros, mapa_nombres):
    conteo_final = {}
    
    for registro in lista_registros:
        # 1. Acceso Robusto (Desaf√≠o 2.2)
        medicamento = registro.get('medicamento')
        if not medicamento:
            continue
            
        # 2. Normalizaci√≥n (Desaf√≠o 2.0)
        medicamento = medicamento.lower().strip()
        
        # 3. Saneamiento (Desaf√≠o 2.1)
        medicamento = mapa_nombres.get(medicamento, medicamento)
        
        # 4. Conteo (Desaf√≠o 2.2)
        if medicamento in conteo_final:
            conteo_final[medicamento] += 1
        else:
            conteo_final[medicamento] = 1
            
    return conteo_final

# ¬°Prueba tu funci√≥n!
# (Usamos los datos sucios originales + el mapa de saneamiento)
# # Definici√≥n de prueba (¬°Deber√≠as usar tus variables de la FASE 2!)
registros_prueba = [{'id': 1, 'medicamento': ' acetaminof√©n '}, {'id': 2, 'medicamento': ' Paracetamol '}, {'id': 3, 'error': 'none'}]
mapa_prueba = {'acetaminof√©n': 'PARACETAMOL', 'paracetamol': 'PARACETAMOL'}
conteo_funcional = analizar_frecuencias(registros_prueba, mapa_prueba)
print(conteo_funcional) # Deber√≠a ser: {'PARACETAMOL': 2}

{'PARACETAMOL': 2}


### Desaf√≠o 5.2: Visualizaci√≥n Creativa (ASCII Art)

Los n√∫meros son aburridos. ¬°Hagamos un gr√°fico de barras!

**Instrucciones:** Usa tu diccionario final `conteo_medicamentos` para imprimir un gr√°fico de barras de texto. El truco es `"#" * cantidad`.

In [31]:
# (Aseg√∫rate de tener el diccionario 'conteo_medicamentos' de fases anteriores)
conteo_medicamentos = {'PARACETAMOL': 3, 'JARABE': 2, 'INSULINA': 1}

print("--- Gr√°fico de Frecuencia de Medicamentos ---")

# Escribe tu bucle de impresi√≥n aqu√≠
# Pista: Itera sobre .items() e imprime f"{medicamento.title()}: {"#" * cantidad} ({cantidad})"
for med, cantidad in conteo_medicamentos.items():
    print(f"{med.title()} : {"#" * cantidad} ({cantidad})")



# Salida Esperada:
# Paracetamol: ### (3)
# Jarabe: ## (2)
# Insulina: # (1)

--- Gr√°fico de Frecuencia de Medicamentos ---
Paracetamol : ### (3)
Jarabe : ## (2)
Insulina : # (1)


--- 
## üöÄ Reflexi√≥n Final (Escalabilidad y Eficiencia)

¬°Lo logramos! Hemos dominado las estructuras de datos clave para el an√°lisis. Ahora, reflexionemos sobre el *por qu√©*:

**Pregunta 1 (Escalabilidad):** Si tu lista de medicamentos (Fase 2) tuviera **un mill√≥n** de registros en lugar de 6, ¬øpor qu√© el m√©todo del diccionario (`if key in dict`) (acceso **O(1)**) seguir√≠a siendo instant√°neo, mientras que un m√©todo de `list.index()` (acceso **O(N)**) congelar√≠a el programa?

**Pregunta 2 (Mutabilidad):** ¬øPor qu√© tu programa fall√≥ (o fallar√≠a) si intentaras usar una **lista** `[9.9, -84.0]` en lugar de una **tupla** `(9.9, -84.0)` como clave en el Desaf√≠o 3.3? (Pista: tiene que ver con el t√©rmino **"hashable"** que vimos en la introducci√≥n).