# Notebook 07 - üêº Pandas: Tu Superpoder para Analizar Datos

## Fundamentos de Python | UMCA

## Profesor: Ing. Andr√©s Mena A.

### <mark>**Nombre del estudiante:*Mar√≠a Josseth V√°squez*</mark>

* * *

¬°Felicidades por dominar los fundamentos de Python y las estructuras de datos clave como **Diccionarios y Tuplas** en nuestro √∫ltimo taller! Ahora, estamos listos para dar un salto gigante.

En el mundo real, los datos rara vez vienen en listas peque√±as y perfectas. Vienen en archivos enormes, a menudo con miles o millones de filas. Procesar eso con bucles `for` es lento y complejo. Aqu√≠ es donde entra **Pandas**.

### **¬øQu√© es Pandas?**
Imagina que Python te da una **hoja de c√°lculo superpotente** directamente en tu c√≥digo. Eso es Pandas. Es una biblioteca que nos proporciona nuevas estructuras de datos, las m√°s importantes son:

1.  **Series:** Una columna de datos con un √≠ndice (como una lista con esteroides).
2.  **DataFrames:** Una tabla de datos completa, hecha de varias Series (como una hoja de c√°lculo entera).

### **¬øPor qu√© Pandas? (El "Por Qu√©" de los Profesionales)**
* **Velocidad Extrema:** Olv√≠date de los bucles `for` lentos. Pandas est√° optimizado para trabajar con grandes vol√∫menes de datos a la velocidad de la luz (gran parte est√° escrito en lenguajes m√°s r√°pidos como C).
* **Simplicidad y Legibilidad:** Lo que antes te tomaba 10 l√≠neas de c√≥digo (limpiar, contar, agrupar) ahora lo har√°s en 1 o 2 l√≠neas, mucho m√°s f√°ciles de leer y entender.
* **Est√°ndar de la Industria:** Es la herramienta #1 que usan analistas de datos, cient√≠ficos de datos e ingenieros en todo el mundo.
* **Construye sobre tus bases:** Todo lo que aprendiste sobre diccionarios y listas se conecta perfectamente con Pandas.

### **¬øC√≥mo lo implementaremos en el proyecto?**
Pandas ser√° nuestro motor principal para todas las fases de un proyecto de an√°lisis de datos: **Cargar**, **Limpiar**, **Transformar** y **Analizar**. Esto llevar√° nuestras habilidades de robustez y eficiencia a un nivel profesional.

--- 
## üë∂ FASE 1: Conociendo las Estructuras de Datos de Pandas

Empecemos por familiarizarnos con los bloques de construcci√≥n de Pandas: Series y DataFrames.

### Desaf√≠o 1.0: La Series - Una Columna de Datos

Una Series es esencialmente una columna de datos. Piensa en ella como una lista de Python que, adem√°s, tiene un √≠ndice autom√°tico (o personalizado). Los datos de la Series pueden ser de cualquier tipo (n√∫meros, texto, etc.).

**Instrucciones:**
1.  Importa la librer√≠a Pandas (es una convenci√≥n usar `import pandas as pd`).
2.  Crea una `Series` llamada `temperaturas` a partir de la lista `[20, 22, 19, 23, 21]`.
3.  Crea una `Series` llamada `medicamentos_disp` a partir del diccionario `{'Paracetamol': 100, 'Ibuprofeno': 50, 'Amoxicilina': 75}`.

In [7]:
# 1. Importa Pandas (¬°hazlo siempre al inicio de tus notebooks que usen Pandas!)
import pandas as pd

# 2. Crea una Series a partir de una lista
temperaturas = pd.Series([20, 22, 19, 23, 21])
print("--- Series de Temperaturas ---")
print(temperaturas)
print("\n")

# 3. Crea una Series a partir de un diccionario (¬°las claves son el √≠ndice!)
medicamentes_disponibles = pd.Series({
    'Parecetamol': 100,
    'Ibuprofeno': 50,
    'Moxicilina': 75
    
})
print(medicamentes_disponibles)

--- Series de Temperaturas ---
0    20
1    22
2    19
3    23
4    21
dtype: int64


Parecetamol    100
Ibuprofeno      50
Moxicilina      75
dtype: int64


### Desaf√≠o 1.1: El DataFrame - Nuestra Tabla de Datos

Un **DataFrame** es la estructura m√°s importante de Pandas. Piensa en √©l como una tabla completa, similar a una hoja de c√°lculo de Excel o una tabla de base de datos. Est√° compuesto por una colecci√≥n de `Series` (cada columna es una Series) que comparten el mismo √≠ndice (filas).

La forma m√°s com√∫n de crear un DataFrame (y la que m√°s se conecta con el Notebook 06) es a partir de una **lista de diccionarios**, donde cada diccionario representa una fila de la tabla.

**Instrucciones:**
1.  Crea un DataFrame llamado `registros_ventas` a partir de la lista de diccionarios `datos_ventas`.
2.  Muestra las primeras 3 filas del DataFrame (`.head()`).
3.  Muestra un resumen de la informaci√≥n del DataFrame (`.info()`).
4.  Muestra la cantidad de filas y columnas (`.shape`).

In [8]:
# Esta es una lista de diccionarios, ¬°exactamente lo que vimos en el Notebook 06!
datos_ventas = [
    {'id_venta': 1, 'producto': 'Paracetamol', 'cantidad': 2, 'precio_unitario': 5.50},
    {'id_venta': 2, 'producto': 'Ibuprofeno', 'cantidad': 1, 'precio_unitario': 8.00},
    {'id_venta': 3, 'producto': 'Paracetamol', 'cantidad': 3, 'precio_unitario': 5.50},
    {'id_venta': 4, 'producto': 'Jarabe T', 'cantidad': 1, 'precio_unitario': 12.25},
    {'id_venta': 5, 'producto': 'Ibuprofeno', 'cantidad': 2, 'precio_unitario': 8.00},
]

# 1. Crea el DataFrame
registros_ventas = pd.DataFrame(datos_ventas)

print("--- DataFrame de Registros de Ventas ---")
print(registros_ventas)
print("\n")

# 2. Muestra las primeras 3 filas
print("--- Primeras 3 Filas (df.head(3)) ---")
print(registros_ventas.head(3))
print("\n")

# 3. Muestra la informaci√≥n general (tipos de datos, nulos, etc.)
print("--- Informaci√≥n del DataFrame (df.info()) ---")
registros_ventas.info()
print("\n")

# 4. Muestra la cantidad de filas y columnas
print("--- Forma del DataFrame (df.shape) ---")
print(registros_ventas.shape)

--- DataFrame de Registros de Ventas ---
   id_venta     producto  cantidad  precio_unitario
0         1  Paracetamol         2             5.50
1         2   Ibuprofeno         1             8.00
2         3  Paracetamol         3             5.50
3         4     Jarabe T         1            12.25
4         5   Ibuprofeno         2             8.00


--- Primeras 3 Filas (df.head(3)) ---
   id_venta     producto  cantidad  precio_unitario
0         1  Paracetamol         2              5.5
1         2   Ibuprofeno         1              8.0
2         3  Paracetamol         3              5.5


--- Informaci√≥n del DataFrame (df.info()) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_venta         5 non-null      int64  
 1   producto         5 non-null      object 
 2   cantidad         5 non-null      int64  
 3   precio_unitario

> **Checkpoint:** ¬°Fase 1 completada! Ya sabes c√≥mo crear las estructuras b√°sicas de Pandas y echar un primer vistazo a tus datos. ¬°Adi√≥s a los bucles para ver la estructura!

--- 
## üîç FASE 2: Seleccionando y Filtrando Datos (El Arte de Preguntar a tus Datos)

Ahora que tenemos nuestros datos en un DataFrame, necesitamos aprender a seleccionar columnas espec√≠ficas o a filtrar filas que cumplan ciertas condiciones. Esto es como hacer preguntas a tu tabla de datos.

### Desaf√≠o 2.0: Seleccionando Columnas (Una o Varias)

En Pandas, seleccionar una columna es tan simple como usar la clave de un diccionario, o una lista de claves para varias columnas.

**Instrucciones:**
1.  Selecciona y muestra la columna `'producto'`.
2.  Selecciona y muestra las columnas `'producto'` y `'cantidad'`.

In [11]:
print(registros_ventas)
print("\n")

# 1. Selecciona una sola columna (devuelve una Series)
#Para que solo traiga la columna producto ['productos']
productos = registros_ventas['producto']
print("--- Columna 'producto' ---")
print(productos)
print("\n")

# 2. Selecciona m√∫ltiples columnas (devuelve un DataFrame)
seleccion = ['producto','cantidad']
productos_cantidad = registros_ventas[seleccion]
print("--- Columna 'producto cantidad' ---")
print(productos_cantidad)

   id_venta     producto  cantidad  precio_unitario
0         1  Paracetamol         2             5.50
1         2   Ibuprofeno         1             8.00
2         3  Paracetamol         3             5.50
3         4     Jarabe T         1            12.25
4         5   Ibuprofeno         2             8.00


--- Columna 'producto' ---
0    Paracetamol
1     Ibuprofeno
2    Paracetamol
3       Jarabe T
4     Ibuprofeno
Name: producto, dtype: object


--- Columna 'producto cantidad' ---
      producto  cantidad
0  Paracetamol         2
1   Ibuprofeno         1
2  Paracetamol         3
3     Jarabe T         1
4   Ibuprofeno         2


### Desaf√≠o 2.1: Filtrando Filas por Condici√≥n (¬°Adi√≥s a los `if` en bucles!)

En lugar de iterar con `for` y usar `if` para cada fila, Pandas nos permite filtrar todo un DataFrame con una sola l√≠nea de c√≥digo, usando una **condici√≥n booleana**.

**Instrucciones:**
1.  Filtra y muestra solo las ventas donde la `'cantidad'` sea mayor que 1.
2.  Filtra y muestra solo las ventas del producto `'Paracetamol'`.
3.  Filtra y muestra las ventas donde la `'cantidad'` sea mayor que 1 **Y** el `'producto'` sea `'Paracetamol'`.

In [13]:
filtro = registros_ventas['cantidad'] > 1
registros_ventas[filtro]

Unnamed: 0,id_venta,producto,cantidad,precio_unitario
0,1,Paracetamol,2,5.5
2,3,Paracetamol,3,5.5
4,5,Ibuprofeno,2,8.0


In [None]:
#MISMO EJEMPLO DE ABAJO

print(registros_ventas)
filtro = (registros_ventas['cantidad'] > 2) & (registros_ventas['producto'] == 'Paracetamol')
registros_ventas[filtro]

   id_venta     producto  cantidad  precio_unitario
0         1  Paracetamol         2             5.50
1         2   Ibuprofeno         1             8.00
2         3  Paracetamol         3             5.50
3         4     Jarabe T         1            12.25
4         5   Ibuprofeno         2             8.00


Unnamed: 0,id_venta,producto,cantidad,precio_unitario
2,3,Paracetamol,3,5.5


In [23]:
# 1. Ventas con cantidad mayor que 1
ventas_grandes = registros_ventas[registros_ventas['cantidad'] > 1]
print("--- Ventas con Cantidad > 1 ---")
print(ventas_grandes)
print("\n")

# 2. Ventas del producto 'Paracetamol'
ventas_paracetamol = registros_ventas[registros_ventas['producto'] == 'Paracetamol']
print("--- Ventas de Paracetamol ---")
print(ventas_paracetamol)
print("\n")

# 3. Ventas con cantidad > 1 Y producto 'Paracetamol'
# ¬°Ojo! Usa '&' para 'AND' y '|' para 'OR', y encierra cada condici√≥n entre par√©ntesis.
ventas_paracetamol_grandes = registros_ventas[(registros_ventas['cantidad'] > 2) & (registros_ventas['producto'] == 'Paracetamol')]
print("--- Ventas de Paracetamol con Cantidad > 2 ---")
print(ventas_paracetamol_grandes)

--- Ventas con Cantidad > 1 ---
   id_venta     producto  cantidad  precio_unitario
0         1  Paracetamol         2              5.5
2         3  Paracetamol         3              5.5
4         5   Ibuprofeno         2              8.0


--- Ventas de Paracetamol ---
   id_venta     producto  cantidad  precio_unitario
0         1  Paracetamol         2              5.5
2         3  Paracetamol         3              5.5


--- Ventas de Paracetamol con Cantidad > 2 ---
   id_venta     producto  cantidad  precio_unitario
2         3  Paracetamol         3              5.5


> **Checkpoint:** ¬°Fase 2 completada! Ahora puedes extraer exactamente la informaci√≥n que necesitas de tu DataFrame. ¬°Esto es infinitamente m√°s r√°pido que los bucles `for`!

--- 
## üßπ FASE 3: Limpieza y Transformaci√≥n (La Evoluci√≥n de Nuestro ETL Robusto)

Recordar√°s la importancia de la limpieza y saneamiento de datos del Notebook 06. Pandas no solo lo hace m√°s f√°cil, sino que tambi√©n nos da herramientas mucho m√°s potentes para manejar los datos sucios del mundo real (valores faltantes, errores de formato, etc.).

### Desaf√≠o 3.0: Creando Datos Sucios para Practicar

Para practicar la limpieza, crearemos un DataFrame con algunos errores y valores faltantes.

**Instrucciones:** Ejecuta el siguiente c√≥digo para crear `df_sucio`.

In [25]:
datos_sucios = [
    {'id_registro': 1, 'item': ' Acetaminof√©n ', 'valor': 100, 'estado': 'completo'},
    {'id_registro': 2, 'item': ' Paracetamol', 'valor': 150, 'estado': None},
    {'id_registro': 3, 'item': 'JARABE', 'valor': 75, 'estado': 'completo'},
    {'id_registro': 4, 'item': None, 'valor': 200, 'estado': 'error'},
    {'id_registro': 5, 'item': ' acetaminof√©n ', 'valor': None, 'estado': 'completo'},
]
df_sucio = pd.DataFrame(datos_sucios)
print("--- DataFrame Sucio Original ---")
print(df_sucio)
print("\n")
print("--- Informaci√≥n del DataFrame Sucio (para ver nulos) ---")
df_sucio.info()

--- DataFrame Sucio Original ---
   id_registro            item  valor    estado
0            1   Acetaminof√©n   100.0  completo
1            2     Paracetamol  150.0      None
2            3          JARABE   75.0  completo
3            4            None  200.0     error
4            5   acetaminof√©n     NaN  completo


--- Informaci√≥n del DataFrame Sucio (para ver nulos) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id_registro  5 non-null      int64  
 1   item         4 non-null      object 
 2   valor        4 non-null      float64
 3   estado       4 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 292.0+ bytes


### Desaf√≠o 3.1: Manejo de Valores Faltantes (`NaN`) - ¬°Adi√≥s `continue`!

En el Notebook 06, us√°bamos `if not medicamento: continue` para saltar registros. Pandas tiene formas m√°s robustas y eficientes de tratar los valores faltantes (`NaN` - Not a Number, o `None` en Python).

**Instrucciones:**
1.  Identifica cu√°ntos valores `NaN` hay en cada columna (`.isnull().sum()`).
2.  **Rellena** los valores `NaN` en la columna `'valor'` con el n√∫mero `0` (`.fillna()`).
3.  **Elimina** las filas donde la columna `'item'` tenga valores `NaN` (`.dropna()`). (Crea un nuevo DataFrame llamado `df_semi_limpio` para este paso).
4.  **Opcional:** Rellena los valores `NaN` restantes en `'estado'` con el texto `'desconocido'`.

In [26]:
# 1. Identifica cu√°ntos NaN hay por columna
print("--- Conteo de Valores Nulos ---")
print(df_sucio.isnull().sum())
print("\n")

# 2. Rellena los NaN en 'valor' con 0
df_limpiando = df_sucio.copy() # Hacemos una copia para no modificar el original directamente
df_limpiando['valor'] = df_limpiando['valor'].fillna(0)
print("--- DataFrame con 'valor' NaN rellenado con 0 ---")
print(df_limpiando)
print("\n")

# 3. Elimina filas donde 'item' sea NaN
df_semi_limpio = df_limpiando.dropna(subset=['item'])
print("--- DataFrame con filas de 'item' NaN eliminadas ---")
print(df_semi_limpio)
print("\n")

# 4. (Opcional) Rellena los NaN en 'estado' con 'desconocido'
df_semi_limpio['estado'] = df_semi_limpio['estado'].fillna('desconocido')
print("--- DataFrame con 'estado' NaN rellenado con 'desconocido' ---")
print(df_semi_limpio)

--- Conteo de Valores Nulos ---
id_registro    0
item           1
valor          1
estado         1
dtype: int64


--- DataFrame con 'valor' NaN rellenado con 0 ---
   id_registro            item  valor    estado
0            1   Acetaminof√©n   100.0  completo
1            2     Paracetamol  150.0      None
2            3          JARABE   75.0  completo
3            4            None  200.0     error
4            5   acetaminof√©n     0.0  completo


--- DataFrame con filas de 'item' NaN eliminadas ---
   id_registro            item  valor    estado
0            1   Acetaminof√©n   100.0  completo
1            2     Paracetamol  150.0      None
2            3          JARABE   75.0  completo
4            5   acetaminof√©n     0.0  completo


--- DataFrame con 'estado' NaN rellenado con 'desconocido' ---
   id_registro            item  valor       estado
0            1   Acetaminof√©n   100.0     completo
1            2     Paracetamol  150.0  desconocido
2            3          JARAB

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_semi_limpio['estado'] = df_semi_limpio['estado'].fillna('desconocido')


### Desaf√≠o 3.2: Normalizaci√≥n y Saneamiento de Texto (¬°Tu `corrector_nombres` en acci√≥n!)

Las cadenas de texto suelen tener errores de may√∫sculas, espacios extra, o sin√≥nimos. Pandas tiene el atributo `.str` que nos permite aplicar m√©todos de string directamente a una columna entera.

**Instrucciones:**
1.  Normaliza la columna `'item'` de `df_semi_limpio`:
    * Pasa todo a min√∫sculas (`.str.lower()`).
    * Quita los espacios extra al inicio y final (`.str.strip()`).
2.  Aplica tu diccionario `corrector_nombres` (del Notebook 06) a la columna `'item'` para unificar 'acetaminof√©n' y 'paracetamol'. Aseg√∫rate de que los t√©rminos que no est√°n en el corrector se mantengan (`.fillna()` es √∫til aqu√≠, o `.map()` con un `lambda` m√°s complejo, pero el m√©todo de mapeo es m√°s directo para este caso).
3.  Convierte todos los nombres de los √≠tems a MAY√öSCULAS para el formato final.

In [27]:
# Nuestro corrector de nombres (del Notebook 06, ¬°ahora m√°s √∫til que nunca!)
corrector_nombres = {
    'acetaminof√©n': 'PARACETAMOL',
    'paracetamol': 'PARACETAMOL',
    'jarabe': 'JARABE',
    'insulina': 'INSULINA' # Aunque no est√© en este DataFrame, lo mantenemos por si acaso
}

# 1. Normaliza la columna 'item' (min√∫sculas y sin espacios)
df_saneado = df_semi_limpio.copy()
df_saneado['item'] = df_saneado['item'].str.lower().str.strip()
print("--- 'item' normalizado (min√∫sculas, sin espacios) ---")
print(df_saneado)
print("\n")

# 2. Aplica el diccionario corrector de nombres
# .map() aplica un diccionario de mapeo. .fillna() es crucial para que los elementos no mapeados no se conviertan en NaN
df_saneado['item'] = df_saneado['item'].map(corrector_nombres).fillna(df_saneado['item'])
print("--- 'item' con corrector de nombres aplicado ---")
print(df_saneado)
print("\n")

# 3. Convierte todos los nombres de los √≠tems a MAY√öSCULAS para el formato final
df_saneado['item'] = df_saneado['item'].str.upper()
print("--- 'item' en may√∫sculas finales ---")
print(df_saneado)

--- 'item' normalizado (min√∫sculas, sin espacios) ---
   id_registro          item  valor       estado
0            1  acetaminof√©n  100.0     completo
1            2   paracetamol  150.0  desconocido
2            3        jarabe   75.0     completo
4            5  acetaminof√©n    0.0     completo


--- 'item' con corrector de nombres aplicado ---
   id_registro         item  valor       estado
0            1  PARACETAMOL  100.0     completo
1            2  PARACETAMOL  150.0  desconocido
2            3       JARABE   75.0     completo
4            5  PARACETAMOL    0.0     completo


--- 'item' en may√∫sculas finales ---
   id_registro         item  valor       estado
0            1  PARACETAMOL  100.0     completo
1            2  PARACETAMOL  150.0  desconocido
2            3       JARABE   75.0     completo
4            5  PARACETAMOL    0.0     completo


### Desaf√≠o 3.3: Creaci√≥n de Nuevas Columnas

A menudo necesitamos calcular nuevos valores a partir de las columnas existentes. Esto es muy f√°cil en Pandas.

**Instrucciones:** Crea una nueva columna llamada `'valor_con_impuesto'` que sea el `'valor'` original m√°s un 13% de impuesto.

In [28]:
df_saneado['valor_con_impuesto'] = df_saneado['valor'] * 1.13
print("--- DataFrame con nueva columna 'valor_con_impuesto' ---")
print(df_saneado)

--- DataFrame con nueva columna 'valor_con_impuesto' ---
   id_registro         item  valor       estado  valor_con_impuesto
0            1  PARACETAMOL  100.0     completo              113.00
1            2  PARACETAMOL  150.0  desconocido              169.50
2            3       JARABE   75.0     completo               84.75
4            5  PARACETAMOL    0.0     completo                0.00


> **Checkpoint:** ¬°Fase 3 completada! Has visto c√≥mo Pandas transforma la limpieza de datos, de complejos bucles `for` y `if` a unas pocas l√≠neas de c√≥digo potentes y legibles. ¬°Esto es eficiencia y robustez a otro nivel!

--- 
## üìä FASE 4: Agregaci√≥n y Conteo (La Potencia del `Group By`)

En el Notebook 06, cont√°bamos y sum√°bamos valores usando diccionarios. Pandas simplifica estas operaciones de "agrupar por" y "sumar/contar" enormemente con `value_counts()` y `groupby()`.

### Desaf√≠o 4.0: Conteo R√°pido con `value_counts()` (¬°Adi√≥s `Counter`!)

Cuando solo quieres saber la frecuencia de cada valor √∫nico en una columna, `value_counts()` es tu mejor amigo. Es como `collections.Counter`, pero directamente para Series de Pandas.

**Instrucciones:** Usa `value_counts()` para contar la frecuencia de cada `'item'` en tu `df_saneado`.

In [29]:
conteo_items = df_saneado['item'].value_counts()
print("--- Conteo de √çtems con value_counts() ---")
print(conteo_items)

--- Conteo de √çtems con value_counts() ---
item
PARACETAMOL    3
JARABE         1
Name: count, dtype: int64


### Desaf√≠o 4.1: Agregaci√≥n con `groupby()` (El "Group By" de las Bases de Datos)

`groupby()` es una de las funciones m√°s poderosas de Pandas. Permite agrupar filas bas√°ndose en una o m√°s columnas y luego aplicar una funci√≥n de agregaci√≥n (suma, promedio, conteo, m√°ximo, m√≠nimo) a los grupos.

**Instrucciones:**
1.  Agrupa `df_saneado` por la columna `'item'` y suma el `'valor'` para cada grupo.
2.  Agrupa por `'item'` y calcula el promedio del `'valor_con_impuesto'`.

In [30]:
# 1. Suma del 'valor' por cada 'item'
valor_total_por_item = df_saneado.groupby('item')['valor'].sum()
print("--- Valor Total por √çtem ---")
print(valor_total_por_item)
print("\n")

# 2. Promedio del 'valor_con_impuesto' por cada 'item'
promedio_valor_con_impuesto_por_item = df_saneado.groupby('item')['valor_con_impuesto'].mean()
print("--- Promedio de Valor con Impuesto por √çtem ---")
print(promedio_valor_con_impuesto_por_item)

--- Valor Total por √çtem ---
item
JARABE          75.0
PARACETAMOL    250.0
Name: valor, dtype: float64


--- Promedio de Valor con Impuesto por √çtem ---
item
JARABE         84.750000
PARACETAMOL    94.166667
Name: valor_con_impuesto, dtype: float64


> **Checkpoint:** ¬°Fase 4 completada! Has desbloqueado el verdadero poder de Pandas para realizar an√°lisis de agregaci√≥n complejos con solo unas pocas l√≠neas de c√≥digo. ¬°Esto es invaluable para cualquier reporte!

--- 
## üìà FASE 5: Ordenaci√≥n y Reflexi√≥n Final

Finalmente, aprenderemos a ordenar nuestros resultados para identificar los top N o los peores N, una tarea crucial para el reporting.

### Desaf√≠o 5.0: Ordenando DataFrames y Series (`sort_values()`)

En el Notebook 06, usamos `sorted()` con `lambda` para ordenar listas de tuplas. Pandas simplifica esto con el m√©todo `.sort_values()`.

**Instrucciones:**
1.  Ordena el DataFrame `df_saneado` por la columna `'valor'` de mayor a menor (`ascending=False`).
2.  Ordena la Series `conteo_items` (del Desaf√≠o 4.0) de mayor a menor.

In [31]:
# 1. Ordenar DataFrame por 'valor' de mayor a menor
df_ordenado_por_valor = df_saneado.sort_values(by='valor', ascending=False)
print("--- DataFrame Ordenado por 'valor' (Mayor a Menor) ---")
print(df_ordenado_por_valor)
print("\n")

# 2. Ordenar la Series 'conteo_items' (ya viene ordenada por defecto, pero se puede forzar)
conteo_items_ordenado = conteo_items.sort_values(ascending=False)
print("--- Conteo de √çtems Ordenado (Mayor a Menor) ---")
print(conteo_items_ordenado)

--- DataFrame Ordenado por 'valor' (Mayor a Menor) ---
   id_registro         item  valor       estado  valor_con_impuesto
1            2  PARACETAMOL  150.0  desconocido              169.50
0            1  PARACETAMOL  100.0     completo              113.00
2            3       JARABE   75.0     completo               84.75
4            5  PARACETAMOL    0.0     completo                0.00


--- Conteo de √çtems Ordenado (Mayor a Menor) ---
item
PARACETAMOL    3
JARABE         1
Name: count, dtype: int64


## üöÄ Reflexi√≥n Final: El Salto Cu√°ntico con Pandas

¬°Felicidades! Has completado tu introducci√≥n a Pandas.

* **Conexi√≥n con el Notebook 06:** Piensa en las tareas de conteo, agregaci√≥n y limpieza que hiciste manualmente. Pandas toma esos mismos conceptos de eficiencia y robustez y los automatiza con herramientas de alto rendimiento.
* **Tu Poder como Analista:** Ahora puedes cargar grandes vol√∫menes de datos, limpiarlos con reglas complejas, transformarlos y resumirlos en segundos, no minutos ni horas.

Est√°s listo para el pr√≥ximo desaf√≠o: ¬°aplicar todo esto en un proyecto de an√°lisis de datos real!