# Pandas: Fundamentos para An√°lisis de Datos

## Objetivos de Aprendizaje
- Dominar las estructuras de datos de Pandas (Series y DataFrame)
- Realizar operaciones de lectura y escritura de datos
- Manipular y transformar DataFrames eficientemente
- Aplicar filtros, agrupaciones y agregaciones
- Trabajar con datos faltantes y duplicados

## Requisitos
- Python 3.8+
- pandas
- numpy

### üìñ Importando Pandas - La Biblioteca M√°s Importante

**¬øQu√© es pandas?**
Pandas es **LA biblioteca fundamental** para Data Engineering y Data Science en Python. Es como tener:
- Excel con superpoderes
- SQL dentro de Python
- Herramientas de an√°lisis de datos profesionales

**¬øPor qu√© `import pandas as pd`?**
- **`pd` es el alias universal**: TODO el mundo lo usa
- **Convenio establecido**: Como `import numpy as np`
- **M√°s r√°pido de escribir**: `pd.DataFrame()` vs `pandas.DataFrame()`

**¬øQu√© puedes hacer con pandas?**
1. **Leer datos**: CSV, Excel, JSON, SQL, Parquet, HTML
2. **Manipular**: Filtrar, transformar, agrupar, pivotar
3. **Limpiar**: Manejar nulos, duplicados, tipos de datos
4. **Analizar**: Estad√≠sticas, agregaciones, series temporales
5. **Exportar**: Guardar en m√∫ltiples formatos

**Estructuras principales:**

| Estructura | Dimensi√≥n | Descripci√≥n | Analog√≠a |
|------------|-----------|-------------|----------|
| **Series** | 1D | Array etiquetado | Una columna de Excel |
| **DataFrame** | 2D | Tabla con filas y columnas | Hoja de Excel completa |

**En este bloque:**
Simplemente importamos pandas con el alias est√°ndar `pd`. Esto hace que toda la funcionalidad de pandas est√© disponible en tu notebook.

In [None]:
# Instalaci√≥n de dependencias
import sys
!{sys.executable} -m pip install pandas numpy matplotlib seaborn -q

### üìñ Series - La Estructura 1D de Pandas

**¬øQu√© es una Series?**
Es un **array unidimensional etiquetado** - como una columna de Excel con esteroides:
- Tiene **valores** (los datos)
- Tiene **√≠ndice** (etiquetas para cada valor)
- Tiene **tipo de dato** homog√©neo (todos int, todos float, etc.)

**Diferencias clave con listas de Python:**

| Caracter√≠stica | Lista Python | Pandas Series |
|----------------|--------------|---------------|
| √çndice | Num√©rico solo (0, 1, 2...) | Cualquier cosa (nombres, fechas, etc.) |
| Tipos | Mixtos | Homog√©neo (optimizado) |
| Operaciones vectorizadas | ‚ùå No | ‚úÖ S√≠ (s√∫per r√°pido) |
| M√©todos estad√≠sticos | ‚ùå No | ‚úÖ mean(), std(), etc. |

**Anatom√≠a de una Series:**
```python
s = pd.Series([10, 20, 30, 40])

# Tiene 3 componentes:
# 1. Valores: [10, 20, 30, 40]
# 2. √çndice: [0, 1, 2, 3] (auto-generado)
# 3. Tipo: dtype('int64')
```

**Visualizaci√≥n:**
```
0    10     ‚Üê √≠ndice 0, valor 10
1    20     ‚Üê √≠ndice 1, valor 20
2    30     ‚Üê √≠ndice 2, valor 30
3    40     ‚Üê √≠ndice 3, valor 40
dtype: int64
```

**Creaci√≥n b√°sica:**
```python
# Desde lista
s = pd.Series([1, 2, 3, 4, 5])

# Desde diccionario (las claves se vuelven √≠ndice)
s = pd.Series({'a': 100, 'b': 200, 'c': 300})

# Con √≠ndice personalizado
s = pd.Series([10, 20, 30], index=['x', 'y', 'z'])
```

**¬øCu√°ndo usar Series?**
- Representar **una columna** de datos
- Trabajar con **series temporales** (precios de acciones)
- Operar sobre **un atributo** (edades, salarios, etc.)

**En este bloque ver√°s:**
1. Crear Series desde listas simples
2. Acceder a valores con √≠ndice num√©rico
3. La estructura b√°sica: valores + √≠ndice + dtype

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta

# Configuraci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
sns.set_style('whitegrid')

print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

## 1. Series de Pandas

Una Series es un array unidimensional etiquetado.

### üìñ DataFrames - Tablas con Superpoderes

**¬øQu√© es un DataFrame?**
Es la **estructura 2D** (filas √ó columnas) m√°s importante de pandas:
- Piensa en una **hoja de Excel**
- O una **tabla SQL**
- Cada columna es una Series
- Cada fila es un registro

**Anatom√≠a de un DataFrame:**
```
       nombre  edad  ciudad      ‚Üê Columnas (headers)
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
  0 ‚îÇ Ana      25    Madrid     ‚Üê Fila 0 (√≠ndice)
  1 ‚îÇ Luis     30    Barcelona  ‚Üê Fila 1
  2 ‚îÇ Carlos   28    Valencia   ‚Üê Fila 2
    ‚îî
    ‚Üë
  √çndice
```

**Formas de crear un DataFrame:**

**1. Desde diccionario de listas (COM√öN - orientado a columnas):**
```python
data = {
    'nombre': ['Ana', 'Luis', 'Carlos'],
    'edad': [25, 30, 28]
}
df = pd.DataFrame(data)
```

**2. Desde lista de diccionarios (orientado a filas):**
```python
data = [
    {'nombre': 'Ana', 'edad': 25},
    {'nombre': 'Luis', 'edad': 30}
]
df = pd.DataFrame(data)
```

**3. Desde archivo (CSV, Excel, JSON, SQL, etc.):**
```python
df = pd.read_csv('datos.csv')
df = pd.read_excel('datos.xlsx')
df = pd.read_json('datos.json')
df = pd.read_sql('SELECT * FROM tabla', conexion)
```

**Componentes de un DataFrame:**
- **Columnas**: Atributos/caracter√≠sticas (nombre, edad, precio, etc.)
- **√çndice**: Identificador de cada fila (0, 1, 2... o personalizado)
- **Valores**: Los datos en s√≠
- **dtype por columna**: Cada columna tiene su tipo (int, float, object, datetime)

**Propiedades √∫tiles:**
```python
df.shape         # (num_filas, num_columnas)
df.columns       # Nombres de columnas
df.index         # √çndice
df.dtypes        # Tipos de datos por columna
df.size          # Total de celdas
df.ndim          # Dimensiones (siempre 2)
```

**En este bloque aprender√°s:**
1. Crear DataFrames desde diccionarios
2. Entender la estructura tabular
3. Ver √≠ndice autom√°tico vs personalizado
4. La relaci√≥n entre diccionarios Python y DataFrames

In [None]:
# Crear una Series desde una lista
ventas = pd.Series([100, 150, 200, 175, 225], name='ventas_diarias')
print("Series b√°sica:")
print(ventas)
print(f"\nTipo: {type(ventas)}")
print(f"Shape: {ventas.shape}")
print(f"Dtype: {ventas.dtype}")

In [None]:
# Series con √≠ndice personalizado
temperaturas = pd.Series(
    data=[22, 25, 28, 26, 24],
    index=['Lunes', 'Martes', 'Mi√©rcoles', 'Jueves', 'Viernes'],
    name='temperatura_celsius'
)
print("Series con √≠ndice personalizado:")
print(temperaturas)
print(f"\nAcceso por √≠ndice: Mi√©rcoles = {temperaturas['Mi√©rcoles']}¬∞C")

In [None]:
# Operaciones con Series
print("Estad√≠sticas descriptivas:")
print(f"Media: {temperaturas.mean():.2f}¬∞C")
print(f"Mediana: {temperaturas.median()}¬∞C")
print(f"Desviaci√≥n est√°ndar: {temperaturas.std():.2f}¬∞C")
print(f"M√≠nimo: {temperaturas.min()}¬∞C")
print(f"M√°ximo: {temperaturas.max()}¬∞C")

## 2. DataFrames: La estructura principal

Un DataFrame es una estructura bidimensional con columnas que pueden ser de diferentes tipos.

### üìñ Selecci√≥n de Datos - Accediendo a lo que Necesitas

**¬øPor qu√© es importante?**
En Data Engineering, rara vez trabajas con TODO el dataset:
- Necesitas **columnas espec√≠ficas** para an√°lisis
- Filtras **filas que cumplen condiciones**
- Extraes **un subconjunto** para procesar

**4 formas principales de seleccionar:**

**1. Por nombre de columna:**
```python
df['nombre']           # Una columna ‚Üí Series
df[['nombre', 'edad']] # M√∫ltiples columnas ‚Üí DataFrame
```

**2. Con `.loc[]` (label-based - por etiqueta):**
```python
df.loc[0]              # Fila con √≠ndice 0
df.loc[0:2]            # Filas 0, 1, 2 (inclusivo!)
df.loc[0, 'nombre']    # Celda espec√≠fica
```

**3. Con `.iloc[]` (integer position-based - por posici√≥n):**
```python
df.iloc[0]             # Primera fila
df.iloc[0:2]           # Filas 0, 1 (exclusivo!)
df.iloc[0, 1]          # Fila 0, columna 1
```

**4. Filtrado booleano:**
```python
df[df['edad'] > 25]    # Filas donde edad > 25
```

**Diferencia clave loc vs iloc:**

| Aspecto | `.loc[]` | `.iloc[]` |
|---------|----------|-----------|
| Tipo | Basado en etiquetas | Basado en posici√≥n |
| √çndice | Usa nombres/√≠ndice | Usa n√∫meros (0, 1, 2...) |
| Slicing | Inclusivo `[0:2]` incluye 2 | Exclusivo `[0:2]` excluye 2 |
| Ejemplo | `df.loc['fila_A']` | `df.iloc[0]` |

**En este bloque ver√°s:**
1. Seleccionar una columna con `df['columna']`
2. Seleccionar m√∫ltiples columnas con doble corchete
3. Usar `.loc[]` para acceso por etiqueta
4. Usar `.iloc[]` para acceso por posici√≥n num√©rica
5. La diferencia sutil pero importante entre ambos

In [None]:
# Crear DataFrame desde diccionario
datos_ventas = {
    'producto': ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Webcam'],
    'cantidad': [5, 25, 15, 8, 12],
    'precio_unitario': [1200, 25, 75, 300, 80],
    'categoria': ['Computadoras', 'Accesorios', 'Accesorios', 'Computadoras', 'Accesorios']
}

df_ventas = pd.DataFrame(datos_ventas)
print("DataFrame de ventas:")
print(df_ventas)

In [None]:
# Informaci√≥n del DataFrame
print("Informaci√≥n del DataFrame:")
print(f"Shape: {df_ventas.shape}")
print(f"Columnas: {df_ventas.columns.tolist()}")
print(f"\nTipos de datos:")
print(df_ventas.dtypes)
print(f"\nInformaci√≥n detallada:")
df_ventas.info()

In [None]:
# Crear nueva columna calculada
df_ventas['total_venta'] = df_ventas['cantidad'] * df_ventas['precio_unitario']
print("DataFrame con columna calculada:")
print(df_ventas)

In [None]:
# Estad√≠sticas descriptivas
print("Estad√≠sticas del DataFrame:")
print(df_ventas.describe())

## 3. Selecci√≥n y Filtrado de Datos

### üìñ Filtrado Booleano - El Poder de las Condiciones

**¬øQu√© es el filtrado booleano?**
Es usar **condiciones l√≥gicas** para seleccionar solo las filas que cumplen criterios:
- ¬øClientes mayores de 18 a√±os?
- ¬øVentas superiores a $1000?
- ¬øProductos en stock?

**Sintaxis b√°sica:**
```python
df[df['columna'] > valor]
```

**C√≥mo funciona (paso a paso):**
```python
# 1. La condici√≥n crea una Series booleana
df['edad'] > 25
# Retorna: [False, True, True, False...]

# 2. Esa Series se usa como m√°scara
df[df['edad'] > 25]
# Solo las filas donde es True pasan
```

**Operadores de comparaci√≥n:**

| Operador | Significado | Ejemplo |
|----------|-------------|---------|
| `==` | Igual a | `df['ciudad'] == 'Madrid'` |
| `!=` | Diferente de | `df['status'] != 'activo'` |
| `>` | Mayor que | `df['precio'] > 100` |
| `<` | Menor que | `df['stock'] < 10` |
| `>=` | Mayor o igual | `df['edad'] >= 18` |
| `<=` | Menor o igual | `df['descuento'] <= 0.5` |

**Filtros compuestos (m√∫ltiples condiciones):**

**AND (ambas deben cumplirse):**
```python
df[(df['edad'] > 25) & (df['ciudad'] == 'Madrid')]
```

**OR (al menos una debe cumplirse):**
```python
df[(df['edad'] > 60) | (df['edad'] < 18)]
```

**NOT (negaci√≥n):**
```python
df[~(df['ciudad'] == 'Madrid')]  # Todo menos Madrid
```

**‚ö†Ô∏è IMPORTANTE:**
- Usa `&` (AND) y `|` (OR), NO `and` y `or`
- Envuelve cada condici√≥n en par√©ntesis: `(condicion1) & (condicion2)`

**M√©todos √∫tiles con strings:**
```python
# Contiene substring
df[df['nombre'].str.contains('Ana')]

# Empieza con
df[df['email'].str.startswith('admin')]

# Est√° en lista
df[df['ciudad'].isin(['Madrid', 'Barcelona'])]
```

**En este bloque aprender√°s:**
1. Crear condiciones booleanas con operadores de comparaci√≥n
2. Usar `&` (AND) y `|` (OR) para combinar condiciones
3. El m√©todo `.isin()` para buscar en listas
4. Por qu√© necesitas par√©ntesis en filtros compuestos
5. C√≥mo funcionan las m√°scaras booleanas internamente

In [None]:
# Seleccionar columnas
print("Selecci√≥n de una columna:")
print(df_ventas['producto'])
print(f"\nTipo: {type(df_ventas['producto'])}")

print("\nSelecci√≥n de m√∫ltiples columnas:")
print(df_ventas[['producto', 'total_venta']])

In [None]:
# Filtrado con condiciones
print("Productos con ventas mayores a $1000:")
ventas_altas = df_ventas[df_ventas['total_venta'] > 1000]
print(ventas_altas)

print("\nProductos de categor√≠a 'Accesorios':")
accesorios = df_ventas[df_ventas['categoria'] == 'Accesorios']
print(accesorios)

In [None]:
# Filtrado con m√∫ltiples condiciones
print("Accesorios con ventas mayores a $500:")
filtro_complejo = df_ventas[
    (df_ventas['categoria'] == 'Accesorios') & 
    (df_ventas['total_venta'] > 500)
]
print(filtro_complejo)

In [None]:
# Uso de loc e iloc
print("Uso de loc (etiquetas):")
print(df_ventas.loc[0:2, ['producto', 'cantidad']])

print("\nUso de iloc (posiciones):")
print(df_ventas.iloc[0:3, 0:2])

## 4. Agrupaciones y Agregaciones

### üìñ Operaciones con Columnas - Transformando Datos

**¬øPor qu√© crear nuevas columnas?**
Los datos crudos rara vez tienen TODO lo que necesitas:
- Calcular **m√©tricas derivadas** (total = cantidad √ó precio)
- Aplicar **reglas de negocio** (descuento si precio > 100)
- Crear **categor√≠as** (edad ‚Üí 'joven', 'adulto', 'senior')
- Convertir **unidades** (temperatura ¬∞C ‚Üí ¬∞F)

**Formas de crear columnas:**

**1. Operaciones aritm√©ticas:**
```python
df['total'] = df['cantidad'] * df['precio']
df['precio_con_iva'] = df['precio'] * 1.21
```

**2. Operaciones condicionales (np.where):**
```python
df['categoria'] = np.where(df['edad'] < 18, 'Menor', 'Adulto')
# Si edad < 18 ‚Üí 'Menor', si no ‚Üí 'Adulto'
```

**3. Apply con funciones:**
```python
df['nombre_upper'] = df['nombre'].apply(lambda x: x.upper())
```

**4. Operaciones entre columnas:**
```python
df['diferencia'] = df['precio_venta'] - df['costo']
df['margen'] = (df['diferencia'] / df['precio_venta']) * 100
```

**Operadores soportados:**
- `+` Suma
- `-` Resta
- `*` Multiplicaci√≥n
- `/` Divisi√≥n
- `**` Potencia
- `%` M√≥dulo
- `//` Divisi√≥n entera

**Modificar columnas existentes:**
```python
# Reemplazar valores
df['precio'] = df['precio'] * 1.1  # Aumentar 10%

# Renombrar
df = df.rename(columns={'nombre': 'nombre_cliente'})

# Eliminar
df = df.drop(columns=['columna_innecesaria'])
```

**En este bloque ver√°s:**
1. Crear columnas con operaciones aritm√©ticas simples
2. Usar `np.where()` para l√≥gica condicional (if-else)
3. Sintaxis: `np.where(condicion, valor_si_true, valor_si_false)`
4. Aplicar transformaciones a todas las filas simult√°neamente
5. Por qu√© pandas es vectorizado (no necesitas loops)

In [None]:
# Crear dataset m√°s grande para agrupaciones
np.random.seed(42)
n_registros = 100

df_transacciones = pd.DataFrame({
    'fecha': pd.date_range('2024-01-01', periods=n_registros, freq='D'),
    'categoria': np.random.choice(['Electr√≥nica', 'Ropa', 'Alimentos', 'Hogar'], n_registros),
    'producto': [f'Producto_{i}' for i in range(n_registros)],
    'cantidad': np.random.randint(1, 20, n_registros),
    'precio': np.random.uniform(10, 500, n_registros).round(2),
    'region': np.random.choice(['Norte', 'Sur', 'Este', 'Oeste'], n_registros)
})

df_transacciones['total'] = df_transacciones['cantidad'] * df_transacciones['precio']

print("Dataset de transacciones:")
print(df_transacciones.head(10))

In [None]:
# Agrupaci√≥n simple
print("Ventas totales por categor√≠a:")
ventas_por_categoria = df_transacciones.groupby('categoria')['total'].sum()
print(ventas_por_categoria)
print(f"\nTipo: {type(ventas_por_categoria)}")

In [None]:
# M√∫ltiples agregaciones
print("Estad√≠sticas por categor√≠a:")
stats_categoria = df_transacciones.groupby('categoria')['total'].agg([
    ('total_ventas', 'sum'),
    ('promedio', 'mean'),
    ('num_transacciones', 'count'),
    ('max_venta', 'max')
])
print(stats_categoria)

In [None]:
# Agrupaci√≥n por m√∫ltiples columnas
print("Ventas por categor√≠a y regi√≥n:")
ventas_categoria_region = df_transacciones.groupby(['categoria', 'region'])['total'].sum()
print(ventas_categoria_region)

In [None]:
# Usar pivot_table para an√°lisis multidimensional
print("Tabla din√°mica: Ventas por categor√≠a y regi√≥n:")
pivot_ventas = df_transacciones.pivot_table(
    values='total',
    index='categoria',
    columns='region',
    aggfunc='sum',
    fill_value=0
)
print(pivot_ventas)

## 5. Manejo de Datos Faltantes

### üìñ GroupBy - La Operaci√≥n M√°s Poderosa de Pandas

**¬øQu√© es groupby?**
Es el equivalente de **GROUP BY en SQL** - agrupa filas por valores √∫nicos de una columna:
- Ventas **por regi√≥n**
- Salarios **por departamento**
- Usuarios **por pa√≠s**

**Patr√≥n split-apply-combine:**
```
Original DataFrame:
regi√≥n    ventas
Norte     100
Norte     200
Sur       150
Sur       250

‚¨áÔ∏è SPLIT (agrupar por regi√≥n)

Grupo Norte: [100, 200]
Grupo Sur:   [150, 250]

‚¨áÔ∏è APPLY (aplicar funci√≥n, ej: sum)

Norte: 300
Sur:   400

‚¨áÔ∏è COMBINE (combinar resultados)

regi√≥n    ventas
Norte     300
Sur       400
```

**Sintaxis b√°sica:**
```python
df.groupby('columna')['columna_a_agregar'].funcion()
```

**Desglose:**
1. `df.groupby('region')` ‚Üí Agrupa por regi√≥n
2. `['total']` ‚Üí Selecciona columna a operar
3. `.sum()` ‚Üí Aplica funci√≥n de agregaci√≥n

**Funciones de agregaci√≥n comunes:**

| Funci√≥n | Qu√© hace | Ejemplo de uso |
|---------|----------|----------------|
| `.sum()` | Suma total | Ingresos totales |
| `.mean()` | Promedio | Salario promedio |
| `.median()` | Mediana | Precio t√≠pico |
| `.count()` | Cantidad | N√∫mero de transacciones |
| `.min()` | M√≠nimo | Venta m√°s baja |
| `.max()` | M√°ximo | Venta m√°s alta |
| `.std()` | Desviaci√≥n est√°ndar | Variabilidad |
| `.var()` | Varianza | Dispersi√≥n |
| `.size()` | Tama√±o de grupo | Filas por grupo |

**Agrupar por m√∫ltiples columnas:**
```python
df.groupby(['region', 'categoria'])['total'].sum()
```

**Aplicar m√∫ltiples funciones:**
```python
df.groupby('region')['total'].agg(['sum', 'mean', 'count'])
```

**Casos de uso en Data Engineering:**
1. **Reportes por dimensi√≥n**: Ventas por mes, producto, regi√≥n
2. **C√°lculo de KPIs**: AOV (Average Order Value) por segmento
3. **Detecci√≥n de anomal√≠as**: Comparar grupos para encontrar outliers
4. **Feature engineering**: Crear caracter√≠sticas agregadas para ML
5. **Data quality**: Contar registros por categor√≠a

**En este bloque aprender√°s:**
1. Usar `groupby()` para agrupar por una columna
2. Aplicar funciones de agregaci√≥n (sum, mean, count)
3. Agrupar por m√∫ltiples columnas simult√°neamente
4. El patr√≥n split-apply-combine
5. Diferencia entre `.size()` y `.count()`
6. Usar `.agg()` para aplicar m√∫ltiples funciones

In [None]:
# Crear DataFrame con valores faltantes
datos_clientes = {
    'id': [1, 2, 3, 4, 5, 6],
    'nombre': ['Juan', 'Mar√≠a', 'Pedro', None, 'Ana', 'Luis'],
    'edad': [25, 30, None, 28, 35, None],
    'email': ['juan@mail.com', None, 'pedro@mail.com', 'carlos@mail.com', None, 'luis@mail.com'],
    'salario': [50000, 60000, 55000, None, 70000, 48000]
}

df_clientes = pd.DataFrame(datos_clientes)
print("DataFrame con valores faltantes:")
print(df_clientes)

In [None]:
# Detectar valores faltantes
print("Valores nulos por columna:")
print(df_clientes.isnull().sum())

print("\nPorcentaje de valores nulos:")
print((df_clientes.isnull().sum() / len(df_clientes) * 100).round(2))

In [None]:
# Eliminar filas con valores faltantes
df_sin_nulos = df_clientes.dropna()
print(f"Filas originales: {len(df_clientes)}")
print(f"Filas despu√©s de dropna(): {len(df_sin_nulos)}")
print("\nDataFrame sin nulos:")
print(df_sin_nulos)

In [None]:
# Rellenar valores faltantes
df_rellenado = df_clientes.copy()

# Rellenar edad con la media
df_rellenado['edad'].fillna(df_rellenado['edad'].mean(), inplace=True)

# Rellenar nombre con un valor por defecto
df_rellenado['nombre'].fillna('Desconocido', inplace=True)

# Rellenar email con un valor espec√≠fico
df_rellenado['email'].fillna('sin_email@ejemplo.com', inplace=True)

# Rellenar salario con la mediana
df_rellenado['salario'].fillna(df_rellenado['salario'].median(), inplace=True)

print("DataFrame con valores imputados:")
print(df_rellenado)

## 6. Manejo de Duplicados

### üìñ Datos Faltantes (NaN) - El Enemigo Silencioso

**¬øQu√© son los valores nulos?**
Son **ausencias de datos** representadas como `NaN` (Not a Number) o `None`:
- Campos opcionales no completados (tel√©fono, direcci√≥n)
- Errores en recolecci√≥n (sensor desconectado)
- Joins que no hicieron match
- Datos hist√≥ricos perdidos

**¬øPor qu√© son problem√°ticos?**
- **Rompen c√°lculos**: `sum([1, 2, NaN])` puede dar resultados inesperados
- **Sesgan estad√≠sticas**: `mean()` ignora NaN pero cambia el denominador
- **Fallan modelos ML**: La mayor√≠a NO acepta NaN
- **Errores en producci√≥n**: C√≥digo asume valores presentes

**Detectar valores nulos:**

```python
# Por celda
df.isnull()        # True donde hay NaN
df.notnull()       # True donde NO hay NaN

# Por columna (cu√°ntos nulos)
df.isnull().sum()

# Filas con alg√∫n nulo
df[df.isnull().any(axis=1)]

# Porcentaje de nulos
(df.isnull().sum() / len(df)) * 100
```

**Estrategias de manejo:**

**1. Eliminar (dropna):**
```python
# Eliminar filas con alg√∫n NaN
df.dropna()

# Eliminar filas donde TODAS las columnas sean NaN
df.dropna(how='all')

# Eliminar columnas con alg√∫n NaN
df.dropna(axis=1)

# Eliminar solo si hay NaN en columnas espec√≠ficas
df.dropna(subset=['edad', 'salario'])
```

**‚ö†Ô∏è Cuidado:** Si tienes 1000 filas y 10 tienen NaN, ¬øvale la pena perder el 1%?

**2. Rellenar (fillna):**
```python
# Con un valor constante
df.fillna(0)

# Con la media (para num√©ricos)
df['edad'].fillna(df['edad'].mean())

# Con la mediana (resistente a outliers)
df['salario'].fillna(df['salario'].median())

# Con la moda (m√°s frecuente)
df['ciudad'].fillna(df['ciudad'].mode()[0])

# Forward fill (llevar valor anterior)
df.fillna(method='ffill')

# Backward fill (traer valor siguiente)
df.fillna(method='bfill')
```

**3. Imputaci√≥n avanzada:**
```python
# Por grupo
df['salario'] = df.groupby('departamento')['salario'].transform(
    lambda x: x.fillna(x.mean())
)
```

**¬øCu√°ndo usar cada estrategia?**

| Estrategia | Cu√°ndo usarla | Ejemplo |
|------------|---------------|---------|
| **Eliminar** | Pocos nulos (<5%), campo obligatorio | ID, fecha de transacci√≥n |
| **Rellenar con 0** | Ausencia = cero | Descuento aplicado |
| **Rellenar con media/mediana** | Num√©ricos, distribuci√≥n normal | Edad, salario |
| **Rellenar con moda** | Categ√≥ricos | Ciudad, categor√≠a |
| **Forward/Backward fill** | Series temporales | Precio de acciones |
| **Dejar** | Ausencia es informativa | Fecha de cancelaci√≥n |

**Validaci√≥n post-procesamiento:**
```python
# Verificar que no quedan nulos
assert df.isnull().sum().sum() == 0, "¬°A√∫n hay nulos!"
```

**En este bloque aprender√°s:**
1. Detectar nulos con `isnull()` y contar con `.sum()`
2. Eliminar filas/columnas con `dropna()`
3. Rellenar nulos con `fillna()`
4. Estrategias: valor constante, media, mediana, moda
5. Diferencia entre eliminar vs imputar
6. Par√°metros de dropna: `how='all'`, `subset=[]`
7. Por qu√© la mediana es mejor que la media con outliers

In [None]:
# Crear DataFrame con duplicados
datos_duplicados = {
    'id': [1, 2, 3, 2, 4, 3, 5],
    'producto': ['A', 'B', 'C', 'B', 'D', 'C', 'E'],
    'cantidad': [10, 20, 15, 20, 25, 15, 30]
}

df_dup = pd.DataFrame(datos_duplicados)
print("DataFrame con duplicados:")
print(df_dup)

In [None]:
# Detectar duplicados
print("Filas duplicadas:")
print(df_dup[df_dup.duplicated()])

print(f"\nN√∫mero de duplicados: {df_dup.duplicated().sum()}")

In [None]:
# Eliminar duplicados
df_sin_dup = df_dup.drop_duplicates()
print("DataFrame sin duplicados:")
print(df_sin_dup)
print(f"\nFilas originales: {len(df_dup)}")
print(f"Filas sin duplicados: {len(df_sin_dup)}")

## 7. Ordenamiento de Datos

### üìñ Duplicados - Detectando Filas Repetidas

**¬øQu√© son duplicados?**
Son **filas id√©nticas** (o id√©nticas en ciertas columnas) que aparecen m√∫ltiples veces:
- Errores en importaci√≥n (archivo procesado dos veces)
- Bugs en aplicaciones (mismo registro insertado m√∫ltiples veces)
- Falta de constraints en BD (sin PRIMARY KEY)
- Merges incorrectos (joins mal hechos)

**¬øPor qu√© son problem√°ticos?**
- **Sesgan an√°lisis**: Contar "clientes √∫nicos" da resultados incorrectos
- **Inflan m√©tricas**: Ventas totales duplicadas
- **Desperdiciar recursos**: Procesar mismo dato m√∫ltiples veces
- **Violan integridad**: Un usuario no deber√≠a tener 2 IDs

**Detectar duplicados:**

```python
# Filas completamente duplicadas
df.duplicated()  # Retorna Series booleana

# Contar duplicados
df.duplicated().sum()

# Ver las filas duplicadas
df[df.duplicated()]

# Duplicados basados en columnas espec√≠ficas
df.duplicated(subset=['email'])  # Duplicados de email

# Mostrar todas las ocurrencias (no solo la segunda)
df[df.duplicated(subset=['email'], keep=False)]
```

**Par√°metro `keep`:**

| Valor | Qu√© hace | Cu√°ndo usar |
|-------|----------|-------------|
| `'first'` | Marca duplicados excepto primera ocurrencia (default) | Mantener registro m√°s antiguo |
| `'last'` | Marca duplicados excepto √∫ltima ocurrencia | Mantener registro m√°s reciente |
| `False` | Marca TODAS las ocurrencias como duplicadas | Ver todos los duplicados |

**Ejemplo visual:**
```
Original:
  id  nombre
  1   Ana
  2   Luis
  1   Ana    ‚Üê Duplicado
  3   Carlos

duplicated(keep='first'):
  False, False, True, False  ‚Üê Marca el segundo

duplicated(keep=False):
  True, False, True, False   ‚Üê Marca ambos
```

**Eliminar duplicados:**

```python
# Eliminar filas completamente duplicadas
df.drop_duplicates()

# Basado en columnas espec√≠ficas
df.drop_duplicates(subset=['email'])

# Mantener √∫ltima ocurrencia
df.drop_duplicates(subset=['email'], keep='last')

# In-place (modifica el DataFrame original)
df.drop_duplicates(inplace=True)
```

**Casos de uso:**

**1. Deduplicar usuarios:**
```python
# Mantener √∫ltimo registro (m√°s actualizado)
df_usuarios = df.drop_duplicates(subset=['user_id'], keep='last')
```

**2. Encontrar emails repetidos:**
```python
# Ver todos los duplicados
duplicados = df[df.duplicated(subset=['email'], keep=False)]
duplicados.sort_values('email')  # Agrupar para revisar
```

**3. Validar unicidad antes de cargar a BD:**
```python
assert df['id'].duplicated().sum() == 0, "¬°IDs duplicados encontrados!"
```

**Best practices:**
- ‚úÖ **Investiga antes de eliminar**: ¬øPor qu√© hay duplicados?
- ‚úÖ **Log de eliminaci√≥n**: Guarda qu√© se elimin√≥
- ‚úÖ **Define criterio de keep**: ¬øfirst, last, o ninguno?
- ‚úÖ **Valida post-procesamiento**: Asegura que no quedan duplicados
- ‚ö†Ô∏è **Cuidado con None/NaN**: Pandas los considera √∫nicos

**En este bloque aprender√°s:**
1. Detectar duplicados con `duplicated()`
2. Contar duplicados con `.sum()`
3. Ver filas duplicadas filtrando con la m√°scara booleana
4. Eliminar duplicados con `drop_duplicates()`
5. El par√°metro `subset` para especificar columnas
6. Diferencia entre `keep='first'`, `keep='last'` y `keep=False`
7. Por qu√© revisar duplicados antes de eliminarlos

In [None]:
# Ordenar por una columna
print("Ventas ordenadas por total (descendente):")
df_ordenado = df_ventas.sort_values('total_venta', ascending=False)
print(df_ordenado)

In [None]:
# Ordenar por m√∫ltiples columnas
print("Transacciones ordenadas por categor√≠a y total:")
df_multi_orden = df_transacciones.sort_values(
    ['categoria', 'total'],
    ascending=[True, False]
).head(10)
print(df_multi_orden[['categoria', 'producto', 'total']])

## 8. Concatenaci√≥n y Merge de DataFrames

### üìñ Ordenamiento - Organizando tus Datos

**¬øPor qu√© ordenar?**
- **An√°lisis temporal**: Ver evoluci√≥n cronol√≥gica
- **Top N**: Productos m√°s vendidos, salarios m√°s altos
- **Presentaci√≥n**: Reportes ordenados se leen mejor
- **Debugging**: Detectar patrones y anomal√≠as
- **Optimizaci√≥n**: Algunos algoritmos funcionan mejor con datos ordenados

**Dos tipos de ordenamiento:**

**1. Por valores (sort_values):**
```python
# Ascendente (menor a mayor)
df.sort_values('edad')

# Descendente (mayor a menor)
df.sort_values('edad', ascending=False)

# Por m√∫ltiples columnas
df.sort_values(['ciudad', 'edad'])
```

**2. Por √≠ndice (sort_index):**
```python
# Ascendente
df.sort_index()

# Descendente
df.sort_index(ascending=False)
```

**Ordenamiento m√∫ltiple:**
```python
# Orden diferente por columna
df.sort_values(
    by=['ciudad', 'edad'],
    ascending=[True, False]  # Ciudad ‚Üë, Edad ‚Üì
)
```

**Visualizaci√≥n:**
```
Original:
  nombre  edad  ciudad
  Carlos  28    Valencia
  Ana     25    Madrid
  Luis    30    Barcelona

sort_values('edad'):
  Ana     25    Madrid
  Carlos  28    Valencia
  Luis    30    Barcelona

sort_values('edad', ascending=False):
  Luis    30    Barcelona
  Carlos  28    Valencia
  Ana     25    Madrid
```

**Par√°metros √∫tiles:**

| Par√°metro | Qu√© hace | Ejemplo |
|-----------|----------|---------|
| `ascending` | Orden ascendente (True) o descendente (False) | `ascending=False` |
| `inplace` | Modifica el DataFrame original | `inplace=True` |
| `na_position` | D√≥nde poner NaN ('first' o 'last') | `na_position='first'` |
| `key` | Funci√≥n para transformar antes de ordenar | `key=lambda x: x.str.lower()` |

**Casos de uso comunes:**

**1. Top N productos:**
```python
top_10 = df.sort_values('ventas', ascending=False).head(10)
```

**2. Cronol√≥gico:**
```python
df.sort_values('fecha')
```

**3. Alfab√©tico case-insensitive:**
```python
df.sort_values('nombre', key=lambda x: x.str.lower())
```

**4. M√∫ltiples niveles (regi√≥n > ciudad > nombre):**
```python
df.sort_values(['region', 'ciudad', 'nombre'])
```

**sort_values vs sort_index:**

| Aspecto | sort_values | sort_index |
|---------|-------------|------------|
| Ordena por | Valores de columnas | Etiquetas del √≠ndice |
| Uso com√∫n | Ordenar registros | Reorganizar despu√©s de operaciones |
| Ejemplo | Por fecha, precio, nombre | Despu√©s de merge, groupby |

**Best practices:**
- ‚úÖ **No uses inplace=True** si necesitas el original despu√©s
- ‚úÖ **Especifica ascending** expl√≠citamente (claridad)
- ‚úÖ **Maneja NaN**: Decide si van primero o √∫ltimo
- ‚úÖ **Reset index** despu√©s si el orden del √≠ndice ya no tiene sentido

**En este bloque aprender√°s:**
1. Ordenar por valores con `sort_values()`
2. Orden ascendente vs descendente con `ascending`
3. Ordenar por m√∫ltiples columnas
4. Diferente orden por columna (algunas ‚Üë, otras ‚Üì)
5. Diferencia entre sort_values y sort_index
6. Cu√°ndo usar cada tipo de ordenamiento
7. Obtener Top N combinando sort + head()

In [None]:
# Concatenaci√≥n vertical
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'valor': [10, 20, 30]
})

df2 = pd.DataFrame({
    'id': [4, 5, 6],
    'valor': [40, 50, 60]
})

df_concat = pd.concat([df1, df2], ignore_index=True)
print("Concatenaci√≥n vertical:")
print(df_concat)

In [None]:
# Merge (Join)
df_productos = pd.DataFrame({
    'producto_id': [1, 2, 3, 4],
    'nombre': ['Laptop', 'Mouse', 'Teclado', 'Monitor']
})

df_precios = pd.DataFrame({
    'producto_id': [1, 2, 3, 5],
    'precio': [1200, 25, 75, 150]
})

print("Productos:")
print(df_productos)
print("\nPrecios:")
print(df_precios)

In [None]:
# Inner join
df_inner = pd.merge(df_productos, df_precios, on='producto_id', how='inner')
print("Inner Join:")
print(df_inner)

In [None]:
# Left join
df_left = pd.merge(df_productos, df_precios, on='producto_id', how='left')
print("Left Join:")
print(df_left)

## 9. Visualizaci√≥n con Pandas

### üìñ Combinar DataFrames - Concat y Merge

**¬øPor qu√© combinar DataFrames?**
En el mundo real, los datos est√°n **fragmentados**:
- Ventas de enero en un archivo, febrero en otro ‚Üí **Concat**
- Datos de clientes en una tabla, pedidos en otra ‚Üí **Merge/Join**
- M√∫ltiples fuentes que necesitan integrarse

**Dos operaciones principales:**

## 1. Concatenaci√≥n (pd.concat) - Apilar datos

**¬øCu√°ndo usar?**
Cuando tienes **la misma estructura** pero diferentes registros:
- Datos mensuales ‚Üí Combinar en dataset anual
- M√∫ltiples archivos del mismo formato
- Agregar filas nuevas a un DataFrame

**Sintaxis:**
```python
pd.concat([df1, df2], axis=0)  # Vertical (apilar filas)
pd.concat([df1, df2], axis=1)  # Horizontal (a√±adir columnas)
```

**Visualizaci√≥n (axis=0):**
```
df1:              df2:              Resultado:
  id  nombre        id  nombre        id  nombre
  1   Ana           3   Carlos        1   Ana
  2   Luis          4   Mar√≠a         2   Luis
                                      3   Carlos
                                      4   Mar√≠a
```

**Par√°metros √∫tiles:**
- `ignore_index=True`: Reinicia el √≠ndice (0, 1, 2...)
- `keys=['ene', 'feb']`: A√±ade nivel jer√°rquico al √≠ndice

## 2. Merge (pd.merge) - Joins tipo SQL

**¬øCu√°ndo usar?**
Cuando necesitas **relacionar** datos por una clave com√∫n:
- Clientes + Pedidos (ambos tienen `customer_id`)
- Productos + Categor√≠as (ambos tienen `category_id`)
- Usuarios + Transacciones

**Tipos de joins:**

| Tipo | SQL | Pandas | Qu√© hace |
|------|-----|--------|----------|
| **Inner** | INNER JOIN | `how='inner'` | Solo matches (intersecci√≥n) |
| **Left** | LEFT JOIN | `how='left'` | Todas de izquierda + matches |
| **Right** | RIGHT JOIN | `how='right'` | Todas de derecha + matches |
| **Outer** | FULL OUTER JOIN | `how='outer'` | Todas (uni√≥n) |

**Sintaxis:**
```python
pd.merge(
    df_left,
    df_right,
    on='columna_comun',  # Columna para unir
    how='inner'          # Tipo de join
)
```

**Ejemplo visual (Inner Join):**
```
df_clientes:          df_pedidos:           Resultado:
  id  nombre            id_cliente  total     id  nombre  total
  1   Ana               1           100       1   Ana     100
  2   Luis              2           200       2   Luis    200
  3   Carlos            1           150       1   Ana     150
```

**Diferencia entre on, left_on, right_on:**

```python
# Columnas con mismo nombre
pd.merge(df1, df2, on='id')

# Columnas con diferente nombre
pd.merge(df1, df2, left_on='customer_id', right_on='id')

# M√∫ltiples columnas
pd.merge(df1, df2, on=['region', 'fecha'])
```

**Comparaci√≥n Concat vs Merge:**

| Aspecto | Concat | Merge |
|---------|--------|-------|
| Prop√≥sito | Apilar/juntar | Relacionar |
| Estructura | Misma | Puede ser diferente |
| Operaci√≥n | Union/Append | Join |
| Clave | No necesaria | Requiere columna com√∫n |
| SQL equivalente | UNION | JOIN |

**Casos de uso:**

**Concat - Agregar datos hist√≥ricos:**
```python
# Archivos mensuales
df_jan = pd.read_csv('ventas_enero.csv')
df_feb = pd.read_csv('ventas_febrero.csv')
df_q1 = pd.concat([df_jan, df_feb], ignore_index=True)
```

**Merge - Enriquecer con informaci√≥n relacionada:**
```python
# A√±adir nombres de clientes a pedidos
pedidos_enriquecidos = pd.merge(
    df_pedidos,
    df_clientes[['id', 'nombre']],
    left_on='customer_id',
    right_on='id',
    how='left'
)
```

**En este bloque aprender√°s:**
1. Concatenar DataFrames verticalmente con `pd.concat()`
2. Par√°metro `axis`: 0 para filas, 1 para columnas
3. Usar `ignore_index=True` para reiniciar √≠ndice
4. Hacer joins con `pd.merge()`
5. Tipos de joins: inner, left, right, outer
6. Especificar columnas de join con `on`, `left_on`, `right_on`
7. Cu√°ndo usar concat vs merge
8. Visualizar resultados de diferentes tipos de joins

In [None]:
# Gr√°ficos b√°sicos
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Gr√°fico de barras
ventas_por_categoria.plot(kind='bar', ax=axes[0, 0], color='skyblue')
axes[0, 0].set_title('Ventas Totales por Categor√≠a')
axes[0, 0].set_ylabel('Total ($)')

# Gr√°fico de l√≠neas
df_transacciones.groupby('fecha')['total'].sum().plot(ax=axes[0, 1], color='green')
axes[0, 1].set_title('Evoluci√≥n de Ventas Diarias')
axes[0, 1].set_ylabel('Total ($)')

# Histograma
df_transacciones['precio'].plot(kind='hist', bins=20, ax=axes[1, 0], color='coral')
axes[1, 0].set_title('Distribuci√≥n de Precios')
axes[1, 0].set_xlabel('Precio')

# Box plot
df_transacciones.boxplot(column='total', by='categoria', ax=axes[1, 1])
axes[1, 1].set_title('Distribuci√≥n de Ventas por Categor√≠a')
axes[1, 1].set_ylabel('Total ($)')

plt.tight_layout()
plt.show()

## 10. Ejercicios Pr√°cticos

### üìñ Visualizaci√≥n R√°pida con Pandas

**¬øPor qu√© pandas tiene plotting integrado?**
Para **exploraci√≥n r√°pida** sin salir del flujo de an√°lisis:
- No necesitas importar matplotlib para gr√°ficos simples
- Sintaxis m√°s corta: `df.plot()` vs configurar matplotlib
- Perfecto para an√°lisis exploratorio (EDA)

**Integraci√≥n con matplotlib:**
Pandas usa matplotlib por detr√°s, as√≠ que puedes:
- Personalizar con comandos de matplotlib
- Combinar ambas bibliotecas
- Todo lo que funciona en matplotlib funciona aqu√≠

**Tipos de gr√°ficos disponibles:**

| Tipo | M√©todo | Cu√°ndo usar |
|------|--------|-------------|
| **Line** | `.plot()` o `.plot(kind='line')` | Tendencias temporales |
| **Bar** | `.plot(kind='bar')` | Comparar categor√≠as |
| **Histogram** | `.plot(kind='hist')` | Distribuci√≥n de valores |
| **Box** | `.plot(kind='box')` | Detectar outliers, cuartiles |
| **Scatter** | `.plot(kind='scatter')` | Relaci√≥n entre 2 variables |
| **Pie** | `.plot(kind='pie')` | Proporciones (evitar si >5 categor√≠as) |
| **Area** | `.plot(kind='area')` | Tendencias apiladas |

**Sintaxis general:**
```python
df['columna'].plot(
    kind='bar',           # Tipo de gr√°fico
    title='T√≠tulo',       # T√≠tulo
    figsize=(10, 6),      # Tama√±o (ancho, alto)
    color='steelblue',    # Color
    legend=True           # Mostrar leyenda
)
plt.ylabel('Eje Y')
plt.xlabel('Eje X')
plt.show()
```

**Ejemplos r√°pidos:**

**Histograma (distribuci√≥n):**
```python
df['edad'].plot(kind='hist', bins=20, title='Distribuci√≥n de Edades')
```

**Line chart (temporal):**
```python
df.groupby('fecha')['ventas'].sum().plot(title='Ventas Diarias')
```

**Bar chart (categor√≠as):**
```python
df['categoria'].value_counts().plot(kind='bar', title='Productos por Categor√≠a')
```

**Scatter (correlaci√≥n):**
```python
df.plot(kind='scatter', x='precio', y='ventas', alpha=0.5)
```

**Box plot (outliers):**
```python
df[['edad', 'salario']].plot(kind='box')
```

**Personalizaci√≥n com√∫n:**

```python
# Tama√±o de figura
df.plot(figsize=(12, 6))

# Colores personalizados
df.plot(color=['red', 'blue', 'green'])

# Rotaci√≥n de labels
df.plot(kind='bar')
plt.xticks(rotation=45)

# Grid
df.plot(grid=True)

# Estilo
plt.style.use('ggplot')
df.plot()
```

**M√∫ltiples subplots:**
```python
df.plot(subplots=True, layout=(2, 2), figsize=(12, 8))
```

**Best practices:**
- ‚úÖ **T√≠tulos claros**: Qu√© muestra el gr√°fico
- ‚úÖ **Etiquetas con unidades**: "$", "%", "kg", etc.
- ‚úÖ **Tama√±o apropiado**: `figsize=(10, 6)` para legibilidad
- ‚úÖ **Colores consistentes**: Usa paletas profesionales
- ‚ö†Ô∏è **No abuses de pie charts**: Barras son m√°s claras
- ‚ö†Ô∏è **Cuidado con histogramas**: Ajusta `bins` seg√∫n datos

**Cu√°ndo usar pandas.plot vs matplotlib puro:**

| Usa pandas.plot cuando | Usa matplotlib cuando |
|-------------------------|----------------------|
| Exploraci√≥n r√°pida | Presentaci√≥n final |
| Prototipado | Personalizaci√≥n extrema |
| Gr√°ficos simples | M√∫ltiples fuentes de datos |
| Trabajas con Series/DataFrame | Necesitas control total |

**En este bloque aprender√°s:**
1. Crear gr√°ficos directamente desde DataFrames con `.plot()`
2. Diferentes tipos con `kind=`: bar, hist, scatter, box
3. Personalizar con par√°metros: figsize, title, color
4. Combinar pandas.plot con matplotlib para detalles
5. Cu√°ndo usar cada tipo de gr√°fico
6. Shortcuts para an√°lisis exploratorio r√°pido
7. Generar m√∫ltiples gr√°ficos con subplots

In [None]:
# Ejercicio 1: An√°lisis de ventas mensuales
print("=== Ejercicio 1: An√°lisis de Ventas Mensuales ===")

# Agregar columna de mes
df_transacciones['mes'] = df_transacciones['fecha'].dt.month
df_transacciones['mes_nombre'] = df_transacciones['fecha'].dt.month_name()

# Ventas por mes
ventas_mensuales = df_transacciones.groupby('mes_nombre')['total'].agg([
    ('total', 'sum'),
    ('promedio', 'mean'),
    ('transacciones', 'count')
])

print(ventas_mensuales)

In [None]:
# Ejercicio 2: Top 5 productos m√°s vendidos
print("=== Ejercicio 2: Top 5 Productos ===")

top_productos = df_transacciones.groupby('producto').agg({
    'cantidad': 'sum',
    'total': 'sum'
}).sort_values('total', ascending=False).head(5)

print(top_productos)

In [None]:
# Ejercicio 3: An√°lisis por regi√≥n
print("=== Ejercicio 3: Rendimiento por Regi√≥n ===")

analisis_region = df_transacciones.groupby('region').agg({
    'total': ['sum', 'mean', 'count'],
    'cantidad': 'sum'
})

analisis_region.columns = ['_'.join(col) for col in analisis_region.columns]
analisis_region = analisis_region.sort_values('total_sum', ascending=False)

print(analisis_region)

## Resumen y Mejores Pr√°cticas

### Puntos Clave:
1. **Series y DataFrames**: Estructuras fundamentales de pandas
2. **Selecci√≥n**: Usar `loc` para etiquetas, `iloc` para posiciones
3. **Filtrado**: Combinar condiciones con `&` (AND) y `|` (OR)
4. **Agrupaciones**: `groupby()` para an√°lisis agregado
5. **Datos faltantes**: Detectar con `isnull()`, manejar con `fillna()` o `dropna()`
6. **Duplicados**: Detectar con `duplicated()`, eliminar con `drop_duplicates()`

### Mejores Pr√°cticas:
- Siempre explorar los datos con `head()`, `info()`, `describe()`
- Verificar tipos de datos antes de operaciones
- Manejar valores faltantes apropiadamente seg√∫n el contexto
- Usar nombres descriptivos para variables
- Documentar transformaciones complejas
- Validar resultados despu√©s de cada transformaci√≥n

### Recursos Adicionales:
- [Documentaci√≥n oficial de Pandas](https://pandas.pydata.org/docs/)
- [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
- [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

---## üß≠ Navegaci√≥n**‚Üê Anterior:** [‚Üê Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)**Siguiente ‚Üí:** [SQL B√°sico ‚Üí](04_sql_basico.ipynb)**üìö √çndice de Nivel Junior:**- [Introducci√≥n a la Ingenier√≠a de Datos](01_introduccion_ingenieria_datos.ipynb)- [Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)- [Pandas Fundamentos](03_pandas_fundamentos.ipynb) ‚Üê üîµ Est√°s aqu√≠- [SQL B√°sico](04_sql_basico.ipynb)- [Limpieza de Datos](05_limpieza_datos.ipynb)- [Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)- [Git y Control de Versiones](07_git_control_versiones.ipynb)- [APIs y Web Scraping](08_apis_web_scraping.ipynb)- [Proyecto Integrador 1](09_proyecto_integrador_1.ipynb)- [Proyecto Integrador 2](10_proyecto_integrador_2.ipynb)**üéì Otros Niveles:**- [Nivel Junior](../nivel_junior/README.md)- [Nivel Mid](../nivel_mid/README.md)- [Nivel Senior](../nivel_senior/README.md)- [Nivel GenAI](../nivel_genai/README.md)- [Negocio LATAM](../negocios_latam/README.md)

---## üß≠ Navegaci√≥n**‚Üê Anterior:** [‚Üê Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)**Siguiente ‚Üí:** [SQL B√°sico ‚Üí](04_sql_basico.ipynb)**üìö √çndice de Nivel Junior:**- [Introducci√≥n a la Ingenier√≠a de Datos](01_introduccion_ingenieria_datos.ipynb)- [Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)- [Pandas Fundamentos](03_pandas_fundamentos.ipynb) ‚Üê üîµ Est√°s aqu√≠- [SQL B√°sico](04_sql_basico.ipynb)- [Limpieza de Datos](05_limpieza_datos.ipynb)- [Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)- [Git y Control de Versiones](07_git_control_versiones.ipynb)- [APIs y Web Scraping](08_apis_web_scraping.ipynb)- [Proyecto Integrador 1](09_proyecto_integrador_1.ipynb)- [Proyecto Integrador 2](10_proyecto_integrador_2.ipynb)**üéì Otros Niveles:**- [Nivel Junior](../nivel_junior/README.md)- [Nivel Mid](../nivel_mid/README.md)- [Nivel Senior](../nivel_senior/README.md)- [Nivel GenAI](../nivel_genai/README.md)- [Negocio LATAM](../negocios_latam/README.md)

---## üß≠ Navegaci√≥n**‚Üê Anterior:** [‚Üê Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)**Siguiente ‚Üí:** [SQL B√°sico ‚Üí](04_sql_basico.ipynb)**üìö √çndice de Nivel Junior:**- [Introducci√≥n a la Ingenier√≠a de Datos](01_introduccion_ingenieria_datos.ipynb)- [Programaci√≥n en Python para Datos](02_python_manipulacion_datos.ipynb)- [Pandas Fundamentos](03_pandas_fundamentos.ipynb) ‚Üê üîµ Est√°s aqu√≠- [SQL B√°sico](04_sql_basico.ipynb)- [Limpieza de Datos](05_limpieza_datos.ipynb)- [Visualizaci√≥n de Datos](06_visualizacion_datos.ipynb)- [Git y Control de Versiones](07_git_control_versiones.ipynb)- [APIs y Web Scraping](08_apis_web_scraping.ipynb)- [Proyecto Integrador 1](09_proyecto_integrador_1.ipynb)- [Proyecto Integrador 2](10_proyecto_integrador_2.ipynb)**üéì Otros Niveles:**- [Nivel Junior](../nivel_junior/README.md)- [Nivel Mid](../nivel_mid/README.md)- [Nivel Senior](../nivel_senior/README.md)- [Nivel GenAI](../nivel_genai/README.md)- [Negocio LATAM](../negocios_latam/README.md)