# Resumen y Ejercicios de Pandas Avanzado

Este cuaderno contiene un resumen detallado de las funcionalidades avanzadas de Pandas, basado en el material de estudio, incluyendo ejemplos prácticos y ejercicios resueltos.

In [1]:
import pandas as pd
import numpy as np

# Configuración para visualizar mejor los datos
pd.set_option('display.max_columns', None)

## 1. Manipulación de Valores y Etiquetas

En esta sección veremos cómo transformar datos existentes mediante el reemplazo de valores y el renombrado de ejes (índices y columnas).

| Método | Descripción |
| :--- | :--- |
| `replace()` | Reemplaza valores específicos por otros. |
| `map()` | Aplica una función o diccionario a cada elemento de una Serie. |
| `rename()` | Cambia los nombres de filas o columnas mediante un mapeo. |

In [3]:
# Ejemplo de Reemplazo y Renombrado
data = pd.DataFrame({
    'comida': ['bacon', 'pulled pork', 'bacon', 'Pastrami'],
    'onzas': [4, 3, 12, 6]
})

# Reemplazar valores (estandarizar a minúsculas y corregir)
data['comida'] = data['comida'].str.lower().replace({'pastrami': 'jamón'})

# Renombrar columnas
data = data.rename(columns={'comida': 'alimento', 'onzas': 'cantidad'})
data

Unnamed: 0,alimento,cantidad
0,bacon,4
1,pulled pork,3
2,bacon,12
3,jamón,6


## 2. Discretización (Binning)

La discretización consiste en agrupar valores continuos en 'contenedores' o categorías.

*   **`pd.cut()`**: Se usa cuando queremos definir los límites de los intervalos manualmente.
*   **`pd.qcut()`**: Se usa para dividir los datos en cuantiles (mismo número de elementos por grupo).

In [4]:
# Ejercicio Resuelto: Categorizar Edades
edades = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
labels = ['Joven', 'Adulto Joven', 'Adulto', 'Senior']

categorias = pd.cut(edades, bins, labels=labels)
print("Conteo por categorías:")
print(categorias.value_counts())

Conteo por categorías:
Joven           5
Adulto Joven    3
Adulto          3
Senior          1
Name: count, dtype: int64


## 3. Variables Dummy (Indicadoras)

Útiles para convertir variables categóricas en un formato numérico que los algoritmos de Machine Learning puedan entender.

In [5]:
# Ejemplo de Variables Dummy
df = pd.DataFrame({'clave': ['b', 'b', 'a', 'c', 'a', 'b'], 'datos': range(6)})
dummies = pd.get_dummies(df['clave'], prefix='clave')
df_con_dummies = df.join(dummies)
df_con_dummies

Unnamed: 0,clave,datos,clave_a,clave_b,clave_c
0,b,0,False,True,False
1,b,1,False,True,False
2,a,2,True,False,False
3,c,3,False,False,True
4,a,4,True,False,False
5,b,5,False,True,False


## 4. Combinación de Datasets

Pandas permite unir datos de diferentes fuentes de forma similar a SQL.

| Tipo de Unión | Descripción |
| :--- | :--- |
| `inner` | Solo filas con claves comunes en ambos DataFrames. |
| `left` | Todas las filas del izquierdo y coincidencias del derecho. |
| `outer` | Todas las filas de ambos DataFrames. |

In [6]:
# Ejercicio Resuelto: Merge de Clientes y Pedidos
clientes = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nombre': ['Juan', 'Ana', 'Carlos']
})
pedidos = pd.DataFrame({
    'ID_Cliente': [1, 2, 1, 4],
    'Producto': ['TV', 'Radio', 'Laptop', 'Tablet']
})

# Unir tablas
resultado = pd.merge(clientes, pedidos, left_on='ID', right_on='ID_Cliente', how='left')
resultado

Unnamed: 0,ID,Nombre,ID_Cliente,Producto
0,1,Juan,1.0,TV
1,1,Juan,1.0,Laptop
2,2,Ana,2.0,Radio
3,3,Carlos,,


## 5. Agrupamiento y Agregación

El proceso **Split-Apply-Combine** permite resumir información compleja rápidamente.

In [7]:
# Ejercicio Resuelto: Agregación múltiple
ventas = pd.DataFrame({
    'Tienda': ['A', 'A', 'B', 'B', 'A', 'B'],
    'Producto': ['Pan', 'Leche', 'Pan', 'Pan', 'Leche', 'Leche'],
    'Ventas': [100, 150, 200, 50, 300, 120],
    'Stock': [10, 20, 5, 8, 15, 12]
})

# Agrupar por Tienda y Producto con diferentes funciones
resumen = ventas.groupby(['Tienda', 'Producto']).agg({
    'Ventas': ['sum', 'mean'],
    'Stock': 'min'
})
resumen

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas,Ventas,Stock
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,min
Tienda,Producto,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,Leche,450,225.0,15
A,Pan,100,100.0,10
B,Leche,120,120.0,12
B,Pan,250,125.0,5


## 6. Operaciones con Cadenas (.str)

Permite aplicar funciones de texto a toda una columna de forma vectorizada.

In [8]:
# Ejercicio Resuelto: Limpieza de nombres
nombres = pd.Series(['  juan perez  ', 'ANA LOPEZ', ' carlos Garcia '])

# Limpiar espacios y poner formato título
nombres_limpios = nombres.str.strip().str.title()

# Filtrar los que contienen 'Ana'
contiene_ana = nombres_limpios.str.contains('Ana')

print("Nombres limpios:")
print(nombres_limpios)
print("\n¿Contiene 'Ana'?:")
print(contiene_ana)

Nombres limpios:
0       Juan Perez
1        Ana Lopez
2    Carlos Garcia
dtype: object

¿Contiene 'Ana'?:
0    False
1     True
2    False
dtype: bool
