# Transformación y Manipulación de Datos en Pandas

**Curso:** Python para Ciencia de Datos
**Fecha:** 08 de octubre de 2025
**Ruta:** Fundamentos de Data Science e IA
**Repositorio:** `bootcamp-fundamentos-ciencia-de-datos`

## 📋 Índice

1. [Concepto](#concepto)
2. [Creación de Nuevas Columnas](#creacion-columnas)
3. [Transformaciones con Condicionales](#transformaciones-condicionales)
4. [Cambio de Tipos de Datos](#tipos-datos)
5. [Funciones Lambda](#funciones-lambda)
6. [Funciones Personalizadas con Apply](#funciones-personalizadas)
7. [Casos de Uso en Data Science](#casos-uso)
8. [Recursos Adicionales](#recursos)

## Concepto

La **transformación de datos** es el proceso de crear nuevas variables, modificar existentes o cambiar la estructura de un DataFrame para facilitar el análisis.

### ¿Por qué transformar datos?

- ✅ **Crear métricas calculadas**: Ingresos totales, tasas de conversión, etc.
- ✅ **Categorizar información**: Segmentar datos en grupos significativos
- ✅ **Limpiar y estandarizar**: Cambiar formatos, normalizar valores
- ✅ **Enriquecer el dataset**: Añadir columnas derivadas para análisis más profundos
- ✅ **Preparar para modelos ML**: Feature engineering

### Técnicas principales en Pandas:

| Técnica | Uso | Método |
|---------|-----|--------|
| **Operaciones aritméticas** | Crear columnas calculadas | `df['nueva'] = df['a'] * df['b']` |
| **Condicionales** | Columnas booleanas | `df['flag'] = df['col'] > 100` |
| **Conversión de tipos** | Cambiar dtype | `pd.to_datetime()`, `astype()` |
| **Lambda** | Transformaciones rápidas | `df['col'].apply(lambda x: ...)` |
| **Funciones personalizadas** | Lógica compleja | `df['col'].apply(funcion)` |

In [31]:
from data_loader import load_data
import pandas as pd
import numpy as np

In [32]:
# Cargar datos de ejemplo
df = load_data('online_retail.csv')

# Visualizar primeras filas
print("Dataset original:")
print(df.head())
print(f"\nForma del DataFrame: {df.shape}")
print(f"Columnas: {df.columns.tolist()}")

📊 Separador detectado: ','
🔤 Encoding detectado: ascii (100.0% confianza)
⚠️ Error de encoding, intentando con latin-1
Dataset original:
  InvoiceNo StockCode                          Description  Quantity  \
0    536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1    536365     71053                  WHITE METAL LANTERN         6   
2    536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3    536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4    536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

    InvoiceDate  UnitPrice  CustomerID         Country  
0  12/1/10 8:26       2.55     17850.0  United Kingdom  
1  12/1/10 8:26       3.39     17850.0  United Kingdom  
2  12/1/10 8:26       2.75     17850.0  United Kingdom  
3  12/1/10 8:26       3.39     17850.0  United Kingdom  
4  12/1/10 8:26       3.39     17850.0  United Kingdom  

Forma del DataFrame: (541909, 8)
Columnas: ['InvoiceNo', 'StockCode', 'Description', 'Q

---

## Creación de Nuevas Columnas

### Operaciones Aritméticas Básicas

La forma más simple de crear una nueva columna es realizar operaciones matemáticas entre columnas existentes.

In [33]:
# Crear columna de Precio Total (Cantidad × Precio Unitario)
df['Total_Price'] = df['Quantity'] * df['UnitPrice']

print("Nueva columna Total_Price:")
print(df[['Quantity', 'UnitPrice', 'Total_Price']].head())

Nueva columna Total_Price:
   Quantity  UnitPrice  Total_Price
0         6       2.55        15.30
1         6       3.39        20.34
2         8       2.75        22.00
3         6       3.39        20.34
4         6       3.39        20.34


### Estadísticas de la nueva columna

In [34]:
# Analizar la nueva columna
print("📊 Estadísticas de Total_Price:")
print(df['Total_Price'].describe())
print(f"\n💰 Ingresos totales: ${df['Total_Price'].sum():,.2f}")
print(f"💵 Ticket promedio: ${df['Total_Price'].mean():.2f}")

📊 Estadísticas de Total_Price:
count    541909.000000
mean         17.987795
std         378.810824
min     -168469.600000
25%           3.400000
50%           9.750000
75%          17.400000
max      168469.600000
Name: Total_Price, dtype: float64

💰 Ingresos totales: $9,747,747.93
💵 Ticket promedio: $17.99


---

## Transformaciones con Condicionales

### Crear columnas booleanas

Las comparaciones generan columnas de tipo `bool` (True/False) útiles para filtrado y análisis.

In [35]:
# Identificar transacciones de alto valor (> $20)
df['High_Value'] = df['Total_Price'] > 20

print("Columna condicional High_Value:")
print(df[['Total_Price', 'High_Value']].head(10))

Columna condicional High_Value:
   Total_Price  High_Value
0        15.30       False
1        20.34        True
2        22.00        True
3        20.34        True
4        20.34        True
5        15.30       False
6        25.50        True
7        11.10       False
8        11.10       False
9        54.08        True


### Análisis de la columna booleana

In [36]:
# Contar transacciones de alto valor
conteo = df['High_Value'].value_counts()
porcentaje = (df['High_Value'].value_counts(normalize=True) * 100).round(2)

print("📊 Distribución de transacciones:")
print(conteo)
print(f"\n📈 Porcentajes:")
print(porcentaje)

📊 Distribución de transacciones:
High_Value
False    441602
True     100307
Name: count, dtype: int64

📈 Porcentajes:
High_Value
False    81.49
True     18.51
Name: proportion, dtype: float64


### Múltiples condiciones con np.where()

Para lógica más compleja (if-elif-else), usa `np.where()` o `np.select()`.

In [37]:
# Categorizar transacciones en 3 niveles
df['Value_Level'] = np.where(df['Total_Price'] > 50, 'Alto',
                     np.where(df['Total_Price'] > 20, 'Medio', 'Bajo'))

print("Categorización con np.where:")
print(df[['Total_Price', 'Value_Level']].head(10))

Categorización con np.where:
   Total_Price Value_Level
0        15.30        Bajo
1        20.34       Medio
2        22.00       Medio
3        20.34       Medio
4        20.34       Medio
5        15.30        Bajo
6        25.50       Medio
7        11.10        Bajo
8        11.10        Bajo
9        54.08        Alto


In [38]:
# Distribución de niveles
print("\n📊 Distribución por nivel de valor:")
print(df['Value_Level'].value_counts())


📊 Distribución por nivel de valor:
Value_Level
Bajo     441602
Medio     69217
Alto      31090
Name: count, dtype: int64


---

## Cambio de Tipos de Datos

### ¿Por qué importa el tipo de dato?

- 🔢 **int/float**: Operaciones matemáticas
- 📅 **datetime**: Operaciones temporales (filtrar por fecha, extraer mes/año)
- 📝 **string**: Manipulación de texto
- ✅ **bool**: Filtrado y condiciones

### Verificar tipos actuales

In [39]:
# Mostrar información del DataFrame
print("ℹ️ Información de tipos de datos:")
print(df.info())

ℹ️ Información de tipos de datos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 11 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
 8   Total_Price  541909 non-null  float64
 9   High_Value   541909 non-null  bool   
 10  Value_Level  541909 non-null  object 
dtypes: bool(1), float64(3), int64(1), object(6)
memory usage: 41.9+ MB
None


### Convertir a tipo DateTime

La columna `InvoiceDate` está como `object` (string), pero debería ser `datetime` para análisis temporal.

In [40]:
# Antes de la conversión
print(f"Tipo actual de InvoiceDate: {df['InvoiceDate'].dtype}")
print(f"Ejemplo de valor: {df['InvoiceDate'].iloc[0]}")

Tipo actual de InvoiceDate: object
Ejemplo de valor: 12/1/10 8:26


In [41]:
# Convertir a datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

print(f"\n✅ Tipo después de conversión: {df['InvoiceDate'].dtype}")
print(f"Ejemplo de valor: {df['InvoiceDate'].iloc[0]}")

  df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])



✅ Tipo después de conversión: datetime64[ns]
Ejemplo de valor: 2010-12-01 08:26:00


### Ventajas de tener datetime

Ahora podemos extraer componentes temporales fácilmente:

In [42]:
# Extraer componentes de fecha
df['Year'] = df['InvoiceDate'].dt.year
df['Month'] = df['InvoiceDate'].dt.month
df['Day'] = df['InvoiceDate'].dt.day
df['DayOfWeek'] = df['InvoiceDate'].dt.day_name()
df['Hour'] = df['InvoiceDate'].dt.hour

print("Componentes temporales extraídos:")
print(df[['InvoiceDate', 'Year', 'Month', 'Day', 'DayOfWeek', 'Hour']].head())

Componentes temporales extraídos:
          InvoiceDate  Year  Month  Day  DayOfWeek  Hour
0 2010-12-01 08:26:00  2010     12    1  Wednesday     8
1 2010-12-01 08:26:00  2010     12    1  Wednesday     8
2 2010-12-01 08:26:00  2010     12    1  Wednesday     8
3 2010-12-01 08:26:00  2010     12    1  Wednesday     8
4 2010-12-01 08:26:00  2010     12    1  Wednesday     8


In [45]:
# Análisis temporal: Ventas por mes
ventas_por_mes = df.groupby('Month')['Total_Price'].sum().sort_index()
print("\n💰 Ventas totales por mes:")
print(ventas_por_mes)


💰 Ventas totales por mes:
Month
1      560000.260
2      498062.650
3      683267.080
4      493207.121
5      723333.510
6      691123.120
7      681300.111
8      682680.510
9     1019687.622
10    1070704.670
11    1461756.250
12    1182625.030
Name: Total_Price, dtype: float64


### Otros tipos de conversión comunes

In [46]:
# Convertir CustomerID a entero (actualmente float por valores NaN)
# Primero llenar NaN, luego convertir
df['CustomerID_int'] = df['CustomerID'].fillna(0).astype(int)

print("Conversión de CustomerID:")
print(df[['CustomerID', 'CustomerID_int']].head())

Conversión de CustomerID:
   CustomerID  CustomerID_int
0     17850.0           17850
1     17850.0           17850
2     17850.0           17850
3     17850.0           17850
4     17850.0           17850


---

## Funciones Lambda

### ¿Qué es una función Lambda?

Una **función anónima** (sin nombre) que se define en una sola línea para transformaciones rápidas.

**Sintaxis:**
```python
lambda argumentos: expresión

In [47]:
# Crear columna con precio descontado (90% del original)
df['Discounted_Price'] = df['UnitPrice'].apply(lambda x: x * 0.9)

print("Precio con descuento aplicado:")
print(df[['UnitPrice', 'Discounted_Price']].head())

Precio con descuento aplicado:
   UnitPrice  Discounted_Price
0       2.55             2.295
1       3.39             3.051
2       2.75             2.475
3       3.39             3.051
4       3.39             3.051


### Caso 2: Transformaciones con múltiples operaciones

In [48]:
# Calcular impuesto del 19% sobre el Total_Price
df['Tax'] = df['Total_Price'].apply(lambda x: x * 0.19)
df['Price_With_Tax'] = df['Total_Price'].apply(lambda x: x * 1.19)

print("Cálculo de impuestos:")
print(df[['Total_Price', 'Tax', 'Price_With_Tax']].head())

Cálculo de impuestos:
   Total_Price     Tax  Price_With_Tax
0        15.30  2.9070         18.2070
1        20.34  3.8646         24.2046
2        22.00  4.1800         26.1800
3        20.34  3.8646         24.2046
4        20.34  3.8646         24.2046


### Caso 3: Lambda con condicionales

In [49]:
# Aplicar descuento solo si el precio es mayor a $10
df['Smart_Discount'] = df['UnitPrice'].apply(
    lambda x: x * 0.85 if x > 10 else x
)

print("Descuento inteligente (solo precios > $10):")
print(df[['UnitPrice', 'Smart_Discount']].head(10))

Descuento inteligente (solo precios > $10):
   UnitPrice  Smart_Discount
0       2.55            2.55
1       3.39            3.39
2       2.75            2.75
3       3.39            3.39
4       3.39            3.39
5       7.65            7.65
6       4.25            4.25
7       1.85            1.85
8       1.85            1.85
9       1.69            1.69


### Ventajas de Lambda:

✅ **Conciso**: Una línea de código
✅ **Rápido**: Para transformaciones simples
✅ **Legible**: Cuando la lógica es directa

### Cuándo NO usar Lambda:

❌ Lógica compleja (usa función personalizada)
❌ Necesitas reutilizar la función
❌ Dificulta la lectura del código

---

## Funciones Personalizadas con Apply

### ¿Cuándo usar funciones personalizadas?

Cuando la transformación requiere:
- Múltiples condiciones (if-elif-else)
- Lógica compleja
- Legibilidad y reutilización
- Debugging más fácil

### Ejemplo: Categorizar precios

In [50]:
def categorize_price(price):
    """
    Categoriza precios en tres niveles.

    Args:
        price (float): Precio unitario

    Returns:
        str: Categoría ('High', 'Medium', 'Low')
    """
    if price > 50:
        return 'High'
    elif price >= 20:
        return 'Medium'
    else:
        return 'Low'

# Aplicar la función a la columna
df['Price_Category'] = df['UnitPrice'].apply(categorize_price)

print("Categorización de precios:")
print(df[['UnitPrice', 'Price_Category']].head(15))

Categorización de precios:
    UnitPrice Price_Category
0        2.55            Low
1        3.39            Low
2        2.75            Low
3        3.39            Low
4        3.39            Low
5        7.65            Low
6        4.25            Low
7        1.85            Low
8        1.85            Low
9        1.69            Low
10       2.10            Low
11       2.10            Low
12       3.75            Low
13       1.65            Low
14       4.25            Low


In [51]:
# Análisis de la distribución de categorías
print("\n📊 Distribución de categorías de precio:")
print(df['Price_Category'].value_counts())
print("\n📈 Porcentajes:")
print(df['Price_Category'].value_counts(normalize=True) * 100)


📊 Distribución de categorías de precio:
Price_Category
Low       537734
Medium      2902
High        1273
Name: count, dtype: int64

📈 Porcentajes:
Price_Category
Low       99.229575
Medium     0.535514
High       0.234910
Name: proportion, dtype: float64


### Ejemplo 2: Función con múltiples argumentos

In [53]:
def calculate_profit_margin(quantity, unit_price, cost_pct=0.6):
    """
    Calcula el margen de ganancia.

    Args:
        quantity (int): Cantidad vendida
        unit_price (float): Precio unitario
        cost_pct (float): Porcentaje del costo (default 60%)

    Returns:
        float: Margen de ganancia
    """
    revenue = quantity * unit_price
    cost = revenue * cost_pct
    profit = revenue - cost
    return profit

# Apply con múltiples columnas usando lambda
df['Profit_Margin'] = df.apply(
    lambda row: calculate_profit_margin(row['Quantity'], row['UnitPrice']),
    axis=1
)

print("Margen de ganancia calculado:")
print(df[['Quantity', 'UnitPrice', 'Total_Price', 'Profit_Margin']].head())

Margen de ganancia calculado:
   Quantity  UnitPrice  Total_Price  Profit_Margin
0         6       2.55        15.30          6.120
1         6       3.39        20.34          8.136
2         8       2.75        22.00          8.800
3         6       3.39        20.34          8.136
4         6       3.39        20.34          8.136


### Ejemplo 3: Función para análisis de texto

In [54]:
def analyze_description(description):
    """
    Analiza la descripción del producto.

    Returns:
        dict: Información extraída
    """
    if pd.isna(description):
        return 'Unknown'

    description = str(description).upper()

    # Identificar categorías por palabras clave
    if any(word in description for word in ['HEART', 'LOVE', 'CUPID']):
        return 'Romance'
    elif any(word in description for word in ['CHRISTMAS', 'SANTA', 'XMAS']):
        return 'Holiday'
    elif any(word in description for word in ['LUNCH', 'CAKE', 'BAKING']):
        return 'Kitchen'
    else:
        return 'General'

# Aplicar categorización
df['Product_Category'] = df['Description'].apply(analyze_description)

print("Categorización por descripción:")
print(df[['Description', 'Product_Category']].head(10))

Categorización por descripción:
                           Description Product_Category
0   WHITE HANGING HEART T-LIGHT HOLDER          Romance
1                  WHITE METAL LANTERN          General
2       CREAM CUPID HEARTS COAT HANGER          Romance
3  KNITTED UNION FLAG HOT WATER BOTTLE          General
4       RED WOOLLY HOTTIE WHITE HEART.          Romance
5         SET 7 BABUSHKA NESTING BOXES          General
6    GLASS STAR FROSTED T-LIGHT HOLDER          General
7               HAND WARMER UNION JACK          General
8            HAND WARMER RED POLKA DOT          General
9        ASSORTED COLOUR BIRD ORNAMENT          General


In [55]:
# Distribución de categorías de productos
print("\n📦 Distribución de categorías de productos:")
print(df['Product_Category'].value_counts())


📦 Distribución de categorías de productos:
Product_Category
General    414711
Romance     58277
Kitchen     43076
Holiday     24391
Unknown      1454
Name: count, dtype: int64


### Comparación: Lambda vs Función Personalizada

| Aspecto | Lambda | Función Personalizada |
|---------|--------|----------------------|
| **Complejidad** | Simple (1 línea) | Compleja (múltiples líneas) |
| **Legibilidad** | Buena para lógica simple | Mejor para lógica compleja |
| **Reutilización** | Difícil | Fácil |
| **Debugging** | Complicado | Sencillo |
| **Documentación** | No disponible | Docstrings ✅ |
| **Ejemplo** | `lambda x: x * 2` | `def double(x): return x * 2` |

In [56]:
df

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Total_Price,High_Value,...,DayOfWeek,Hour,CustomerID_int,Discounted_Price,Tax,Price_With_Tax,Smart_Discount,Price_Category,Profit_Margin,Product_Category
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.30,False,...,Wednesday,8,17850,2.295,2.9070,18.2070,2.55,Low,6.120,Romance
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,True,...,Wednesday,8,17850,3.051,3.8646,24.2046,3.39,Low,8.136,General
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.00,True,...,Wednesday,8,17850,2.475,4.1800,26.1800,2.75,Low,8.800,Romance
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,True,...,Wednesday,8,17850,3.051,3.8646,24.2046,3.39,Low,8.136,General
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,True,...,Wednesday,8,17850,3.051,3.8646,24.2046,3.39,Low,8.136,Romance
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680.0,France,10.20,False,...,Friday,12,12680,0.765,1.9380,12.1380,0.85,Low,4.080,General
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680.0,France,12.60,False,...,Friday,12,12680,1.890,2.3940,14.9940,2.10,Low,5.040,General
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France,16.60,False,...,Friday,12,12680,3.735,3.1540,19.7540,4.15,Low,6.640,General
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France,16.60,False,...,Friday,12,12680,3.735,3.1540,19.7540,4.15,Low,6.640,General


In [57]:
# Crear dataset de ejemplo
ventas_ecommerce = df[['InvoiceNo', 'InvoiceDate', 'Quantity', 'UnitPrice', 'Country']].copy()
ventas_ecommerce['Total_Price'] = ventas_ecommerce['Quantity'] * ventas_ecommerce['UnitPrice']

print("📦 Dataset de ventas e-commerce:")
print(ventas_ecommerce.head())

📦 Dataset de ventas e-commerce:
  InvoiceNo         InvoiceDate  Quantity  UnitPrice         Country  \
0    536365 2010-12-01 08:26:00         6       2.55  United Kingdom   
1    536365 2010-12-01 08:26:00         6       3.39  United Kingdom   
2    536365 2010-12-01 08:26:00         8       2.75  United Kingdom   
3    536365 2010-12-01 08:26:00         6       3.39  United Kingdom   
4    536365 2010-12-01 08:26:00         6       3.39  United Kingdom   

   Total_Price  
0        15.30  
1        20.34  
2        22.00  
3        20.34  
4        20.34  


**Paso 1: Crear métricas temporales**

In [58]:
# Asegurar que InvoiceDate es datetime
ventas_ecommerce['InvoiceDate'] = pd.to_datetime(ventas_ecommerce['InvoiceDate'])

# Extraer componentes temporales
ventas_ecommerce['Year'] = ventas_ecommerce['InvoiceDate'].dt.year
ventas_ecommerce['Month'] = ventas_ecommerce['InvoiceDate'].dt.month
ventas_ecommerce['DayOfWeek'] = ventas_ecommerce['InvoiceDate'].dt.day_name()
ventas_ecommerce['Hour'] = ventas_ecommerce['InvoiceDate'].dt.hour

# Categorizar horas del día
def categorize_hour(hour):
    if 6 <= hour < 12:
        return 'Mañana'
    elif 12 <= hour < 18:
        return 'Tarde'
    elif 18 <= hour < 24:
        return 'Noche'
    else:
        return 'Madrugada'

ventas_ecommerce['TimeOfDay'] = ventas_ecommerce['Hour'].apply(categorize_hour)

print("⏰ Métricas temporales:")
print(ventas_ecommerce[['InvoiceDate', 'Hour', 'TimeOfDay', 'DayOfWeek']].head())

⏰ Métricas temporales:
          InvoiceDate  Hour TimeOfDay  DayOfWeek
0 2010-12-01 08:26:00     8    Mañana  Wednesday
1 2010-12-01 08:26:00     8    Mañana  Wednesday
2 2010-12-01 08:26:00     8    Mañana  Wednesday
3 2010-12-01 08:26:00     8    Mañana  Wednesday
4 2010-12-01 08:26:00     8    Mañana  Wednesday


**Paso 2: Crear segmentos de clientes por valor de compra**

In [59]:
def segment_customer(total_price):
    """Segmenta clientes por valor de transacción."""
    if total_price >= 100:
        return 'Premium'
    elif total_price >= 50:
        return 'Medio'
    else:
        return 'Básico'

ventas_ecommerce['Customer_Segment'] = ventas_ecommerce['Total_Price'].apply(segment_customer)

print("💎 Segmentación de clientes:")
print(ventas_ecommerce[['Total_Price', 'Customer_Segment']].head(10))

💎 Segmentación de clientes:
   Total_Price Customer_Segment
0        15.30           Básico
1        20.34           Básico
2        22.00           Básico
3        20.34           Básico
4        20.34           Básico
5        15.30           Básico
6        25.50           Básico
7        11.10           Básico
8        11.10           Básico
9        54.08            Medio


**Paso 3: Análisis de patrones**

In [60]:
# Análisis 1: Ventas por hora del día
ventas_por_hora = ventas_ecommerce.groupby('TimeOfDay')['Total_Price'].agg([
    ('Total_Sales', 'sum'),
    ('Avg_Ticket', 'mean'),
    ('Transactions', 'count')
]).round(2)

print("📊 Ventas por momento del día:")
print(ventas_por_hora)

📊 Ventas por momento del día:
           Total_Sales  Avg_Ticket  Transactions
TimeOfDay                                       
Mañana      3555581.32       23.64        150376
Noche        202919.84       16.17         12550
Tarde       5989246.77       15.80        378983


In [None]:
# Análisis 2: Distribución de segmentos por día de la semana
segment_by_day = pd.crosstab(
    ventas_ecommerce['DayOfWeek'],
    ventas_ecommerce['Customer_Segment'],
    normalize='index'
) * 100

print("\n📈 Distribución de segmentos por día de la semana (%):")
print(segment_by_day.round(2))

In [62]:
# Análisis 3: Top 5 países por ingresos
top_countries = ventas_ecommerce.groupby('Country')['Total_Price'].sum().sort_values(ascending=False).head()

print("\n🌍 Top 5 países por ingresos:")
top_countries


🌍 Top 5 países por ingresos:


Country
United Kingdom    8187806.364
Netherlands        284661.540
EIRE               263276.820
Germany            221698.210
France             197403.900
Name: Total_Price, dtype: float64

**🎯 Insights del Caso 1:**

✅ **Patrón temporal**: Identificamos que las tardes tienen mayor actividad
✅ **Segmentación**: La mayoría de clientes son "Básicos", oportunidad de upselling
✅ **Geolocalización**: UK domina las ventas, seguido de otros países europeos
✅ **Aplicación al proyecto**: Estas transformaciones te preparan para calcular CSAT por segmento temporal y de valor

### Caso de Uso 2: Preparación de Datos para Modelo de Churn

**Contexto:** Necesitas preparar un dataset de clientes para predecir si abandonarán el servicio (churn). Esto requiere crear features agregadas por cliente desde transacciones individuales.

**Objetivo:** Transformar datos transaccionales en features a nivel de cliente.

In [71]:
# Filtrar datos con CustomerID válido
clientes_data = df[df['CustomerID'].notna()].copy()

print("📊 Datos de clientes (con ID válido):")
print(f"Total de transacciones: {len(clientes_data)}")
print(f"Clientes únicos: {clientes_data['CustomerID'].nunique()}")

📊 Datos de clientes (con ID válido):
Total de transacciones: 406829
Clientes únicos: 4372


In [72]:
# Crear features agregadas por cliente
customer_features = clientes_data.groupby('CustomerID').agg({
    'InvoiceNo': 'nunique',           # Total de compras
    'Quantity': 'sum',                 # Total de items comprados
    'Total_Price': ['sum', 'mean'],   # Ingresos totales y promedio
    'Country': 'first'                 # País del cliente
})

# IMPORTANTE: Aplanar las columnas multi-nivel y resetear índice
customer_features.columns = ['Total_Purchases', 'Total_Items', 'Total_Revenue', 'Avg_Transaction', 'Country']
customer_features = customer_features.reset_index()  # ✅ Esto convierte CustomerID de índice a columna

print("🎯 Features agregadas por cliente:")
print(customer_features.head(10))

🎯 Features agregadas por cliente:
   CustomerID  Total_Purchases  Total_Items  Total_Revenue  Avg_Transaction  \
0     12346.0                2            0           0.00         0.000000   
1     12347.0                7         2458        4310.00        23.681319   
2     12348.0                4         2341        1797.24        57.975484   
3     12349.0                1          631        1757.55        24.076027   
4     12350.0                1          197         334.40        19.670588   
5     12352.0               11          470        1545.41        16.267474   
6     12353.0                1           20          89.00        22.250000   
7     12354.0                1          530        1079.40        18.610345   
8     12355.0                1          240         459.40        35.338462   
9     12356.0                3         1591        2811.43        47.651356   

          Country  
0  United Kingdom  
1         Iceland  
2         Finland  
3           Ital

**Paso 2: Crear features de comportamiento**

In [73]:
# Feature 1: Frecuencia de compra
clientes_data['InvoiceDate'] = pd.to_datetime(clientes_data['InvoiceDate'])
date_range = (clientes_data['InvoiceDate'].max() - clientes_data['InvoiceDate'].min()).days / 30
customer_features['Purchase_Frequency'] = (customer_features['Total_Purchases'] / date_range).round(2)

# Feature 2: Valor promedio por item
customer_features['Avg_Item_Value'] = (
    customer_features['Total_Revenue'] / customer_features['Total_Items']
).round(2)

# Feature 3: Categorizar por valor
def categorize_customer_value(revenue):
    if revenue >= 5000:
        return 'VIP'
    elif revenue >= 2000:
        return 'Alto Valor'
    elif revenue >= 500:
        return 'Valor Medio'
    else:
        return 'Bajo Valor'

customer_features['Value_Segment'] = customer_features['Total_Revenue'].apply(categorize_customer_value)

print("📊 Features de comportamiento:")
print(customer_features[['CustomerID', 'Purchase_Frequency', 'Avg_Item_Value', 'Value_Segment']].head())

📊 Features de comportamiento:
   CustomerID  Purchase_Frequency  Avg_Item_Value Value_Segment
0     12346.0                0.16             NaN    Bajo Valor
1     12347.0                0.56            1.75    Alto Valor
2     12348.0                0.32            0.77   Valor Medio
3     12349.0                0.08            2.79   Valor Medio
4     12350.0                0.08            1.70    Bajo Valor


**Paso 3: Crear features de engagement**

In [74]:
# Feature 4: Días desde última compra
last_purchase_dates = clientes_data.groupby('CustomerID')['InvoiceDate'].max().reset_index()
last_purchase_dates.columns = ['CustomerID', 'Last_Purchase_Date']

# Calcular días desde última compra
max_date = clientes_data['InvoiceDate'].max()
last_purchase_dates['Days_Since_Last_Purchase'] = (max_date - last_purchase_dates['Last_Purchase_Date']).dt.days

# Hacer merge
customer_features = customer_features.merge(
    last_purchase_dates[['CustomerID', 'Days_Since_Last_Purchase']],
    on='CustomerID',
    how='left'
)

# Feature 5: Engagement Score
def calculate_engagement_score(row):
    """Calcula score de engagement (0-100)."""
    frequency_score = min(row['Purchase_Frequency'] * 10, 40)
    recency_score = max(40 - (row['Days_Since_Last_Purchase'] / 10), 0)
    value_score = min(row['Total_Revenue'] / 100, 20)
    return round(frequency_score + recency_score + value_score, 2)

customer_features['Engagement_Score'] = customer_features.apply(calculate_engagement_score, axis=1)

print("🎯 Features de engagement:")
print(customer_features[['CustomerID', 'Days_Since_Last_Purchase', 'Engagement_Score', 'Value_Segment']].head(10))

🎯 Features de engagement:
   CustomerID  Days_Since_Last_Purchase  Engagement_Score Value_Segment
0     12346.0                       325              9.10    Bajo Valor
1     12347.0                         1             65.50    Alto Valor
2     12348.0                        74             53.77   Valor Medio
3     12349.0                        18             56.58   Valor Medio
4     12350.0                       309             13.24    Bajo Valor
5     12352.0                        35             60.75   Valor Medio
6     12353.0                       203             21.39    Bajo Valor
7     12354.0                       231             28.49   Valor Medio
8     12355.0                       213             24.09    Bajo Valor
9     12356.0                        22             60.20    Alto Valor


In [75]:
# Resumen estadístico del engagement
print("\n📈 Distribución del Engagement Score:")
print(customer_features['Engagement_Score'].describe())

print("\n📊 Clientes por segmento de valor:")
print(customer_features['Value_Segment'].value_counts())


📈 Distribución del Engagement Score:
count    4372.000000
mean       43.756157
std        18.071417
min       -16.480000
25%        32.927500
50%        43.495000
75%        55.967500
max       100.000000
Name: Engagement_Score, dtype: float64

📊 Clientes por segmento de valor:
Value_Segment
Bajo Valor     1832
Valor Medio    1664
Alto Valor      613
VIP             263
Name: count, dtype: int64


**🎯 Resultado del Caso 2:**

✅ **De transacciones a cliente**: Transformamos 541K transacciones en ~4K perfiles de cliente
✅ **Features predictivas**: Creamos métricas que indican probabilidad de churn
✅ **Engagement Score**: Métrica compuesta para priorizar retención
✅ **Aplicación práctica**: Estas transformaciones son fundamentales para modelos de ML

**Conexión con tu proyecto CSAT:**
- Podrías agregar puntajes CSAT por cliente
- Calcular el CSAT promedio por segmento de valor
- Identificar clientes VIP con baja satisfacción (riesgo de churn)

---

## Recursos Adicionales

### Documentación oficial
- [pandas.DataFrame.apply](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html)
- [pandas.to_datetime](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)
- [Working with datetime](https://pandas.pydata.org/docs/user_guide/timeseries.html)
- [Lambda functions in Python](https://docs.python.org/3/tutorial/controlflow.html#lambda-expressions)

### Archivos relacionados en el proyecto
- `12_pd_seleccion_datos_loc_iloc.ipynb`: Selección de datos
- `13_manejo_valores_faltantes.md`: Limpieza de datos
- `data_loader.py`: Módulo de carga de datos

### Próximos temas
- Agrupación y agregación con `groupby()`
- Combinación de DataFrames con `merge()` y `join()`
- Operaciones con strings `.str`

### Funciones útiles para transformaciones

| Función | Uso | Ejemplo |
|---------|-----|---------|
| `apply()` | Aplicar función a columna/fila | `df['col'].apply(func)` |
| `map()` | Mapear valores (dict o función) | `df['col'].map({'A': 1})` |
| `astype()` | Convertir tipo de dato | `df['col'].astype(int)` |
| `pd.to_datetime()` | Convertir a datetime | `pd.to_datetime(df['fecha'])` |
| `np.where()` | Condicional vectorizado | `np.where(cond, val1, val2)` |
| `np.select()` | Múltiples condiciones | `np.select([cond1, cond2], [val1, val2])` |

---