# 🧠 ESPOL – Bootcamp de Data Analytics
## Taller: Pandas III – Combinación y Limpieza de Datos 
**Objetivo:** Aplicar técnicas de unión, concatenación y limpieza de datos utilizando pandas.

**Archivos utilizados:** `pedidos_enero.csv`, `pedidos_febrero.csv`, `pedidos_marzo.csv`, `devoluciones.csv`

---

## 🔹 Nivel 1 – Carga y combinación de datasets

### 1️⃣ Leer los archivos CSV
Lee correctamente los tres archivos de pedidos y el de devoluciones. Verifica su estructura con `.head()`.

In [78]:
import pandas as pd

df_pedidos_enero = pd.read_csv('../data/pedidos_enero.csv')
df_pedidos_febrero = pd.read_csv('../data/pedidos_febrero.csv')
df_pedidos_marzo = pd.read_csv('../data/pedidos_marzo.csv')
df_devoluciones = pd.read_csv('../data/devoluciones.csv')

In [79]:
# Estructura pedidos_enero
df_pedidos_enero.head()

Unnamed: 0,id_pedido,fecha,cliente,pais,producto,cantidad,precio_unitario,total
0,A0001,2025-01-12,Paula del Oliva,Ecuador,Laptop,4,950,3800
1,A0002,2025-01-01,Imelda Pozo Expósito,Perú,Monitor,5,200,1000
2,A0003,2025-01-23,Patricia Esteve Armas,Chile,Teclado,3,35,105
3,A0004,2025-01-18,Emma Acero Cáceres,Ecuador,Tablet,5,250,1250
4,A0005,2025-01-06,Jeremías del Río,Ecuador,Silla ergonómica,5,150,750


In [80]:
# Estructura pedidos_febrero
df_pedidos_febrero.head()

Unnamed: 0,id_pedido,fecha,cliente,pais,producto,cantidad,precio_unitario,total
0,B0001,2025-02-23,Ruth Ferrándiz Valbuena,Argentina,Impresora,4,300,1200
1,B0002,2025-02-19,Sosimo Ramis León,Chile,Silla ergonómica,4,150,600
2,B0003,2025-02-26,Isabela Cámara Zaragoza,Colombia,Silla ergonómica,4,150,600
3,B0004,2025-02-20,Herberto Malo Galán,Ecuador,Router,4,100,400
4,B0005,2025-02-17,Dulce de Bautista,Argentina,Impresora,5,300,1500


In [81]:
# Estructura pedidos_marzo
df_pedidos_marzo.head()

Unnamed: 0,id_pedido,fecha,cliente,pais,producto,cantidad,precio_unitario,total
0,C0001,2025-03-02,Albano Vigil Diaz,Perú,Impresora,4,300,1200
1,C0002,2025-03-10,Lupe Ayuso,Colombia,Webcam,3,70,210
2,C0003,2025-03-23,Nélida Lobo Hernández,Perú,Router,2,100,200
3,C0004,2025-03-16,Adelina Moles Duran,Perú,Monitor,1,200,200
4,C0005,2025-03-19,Febe Méndez,Colombia,Impresora,5,300,1500


In [82]:
# Estructura devoluciones
df_devoluciones.head()

Unnamed: 0,id_pedido,fecha_devolucion,motivo
0,B0802,2025-01-17,No especificado
1,B0191,2025-02-20,Cambio de modelo
2,B0818,2025-02-13,No especificado
3,A0252,2025-01-29,No especificado
4,C0506,2025-02-02,No especificado


### 2️⃣ Combinar pedidos de los tres meses
Utiliza `pd.concat()` para unir los pedidos de enero, febrero y marzo en un solo DataFrame llamado `pedidos_total`.

In [83]:
pedidos_total = pd.concat([df_pedidos_enero, df_pedidos_febrero, df_pedidos_marzo])
pedidos_total.head()

Unnamed: 0,id_pedido,fecha,cliente,pais,producto,cantidad,precio_unitario,total
0,A0001,2025-01-12,Paula del Oliva,Ecuador,Laptop,4,950,3800
1,A0002,2025-01-01,Imelda Pozo Expósito,Perú,Monitor,5,200,1000
2,A0003,2025-01-23,Patricia Esteve Armas,Chile,Teclado,3,35,105
3,A0004,2025-01-18,Emma Acero Cáceres,Ecuador,Tablet,5,250,1250
4,A0005,2025-01-06,Jeremías del Río,Ecuador,Silla ergonómica,5,150,750


### 3️⃣ Verificar el tamaño y estructura
Muestra cuántas filas y columnas tiene el nuevo DataFrame usando `.shape` y verifica algunas filas.

In [84]:
print(f"pedidos_total: {pedidos_total.shape[0]} filas, {pedidos_total.shape[1]} columnas")

pedidos_total: 3000 filas, 8 columnas


## 🔹 Nivel 2 – Unión de datos con merge() y join()

### 4️⃣ Unir pedidos con devoluciones
Usa `merge()` para combinar el DataFrame `pedidos_total` con el de `devoluciones` utilizando la columna `id_pedido`.
Asegúrate de mantener todos los pedidos, incluso los que no tienen devolución.

In [85]:
pedidos_merge = pd.merge(pedidos_total, df_devoluciones, on='id_pedido',how='left')
pedidos_total.head()

Unnamed: 0,id_pedido,fecha,cliente,pais,producto,cantidad,precio_unitario,total
0,A0001,2025-01-12,Paula del Oliva,Ecuador,Laptop,4,950,3800
1,A0002,2025-01-01,Imelda Pozo Expósito,Perú,Monitor,5,200,1000
2,A0003,2025-01-23,Patricia Esteve Armas,Chile,Teclado,3,35,105
3,A0004,2025-01-18,Emma Acero Cáceres,Ecuador,Tablet,5,250,1250
4,A0005,2025-01-06,Jeremías del Río,Ecuador,Silla ergonómica,5,150,750


### 5️⃣ Verificar valores nulos
Identifica cuántos pedidos **no** tienen información de devolución utilizando `.isnull().sum()`.

In [86]:
pedidos_merge.isnull().sum()

id_pedido              0
fecha                  0
cliente                0
pais                   0
producto               0
cantidad               0
precio_unitario        0
total                  0
fecha_devolucion    2800
motivo              2800
dtype: int64

### 6️⃣ Rellenar valores nulos
Rellena los valores nulos en la columna `motivo` con el texto `'No devuelto'` usando `.fillna()`.

In [87]:
pedidos_merge['motivo'] = pedidos_merge['motivo'].fillna('No devuelto')
pedidos_merge.head()

Unnamed: 0,id_pedido,fecha,cliente,pais,producto,cantidad,precio_unitario,total,fecha_devolucion,motivo
0,A0001,2025-01-12,Paula del Oliva,Ecuador,Laptop,4,950,3800,2025-02-20,Entrega retrasada
1,A0002,2025-01-01,Imelda Pozo Expósito,Perú,Monitor,5,200,1000,,No devuelto
2,A0003,2025-01-23,Patricia Esteve Armas,Chile,Teclado,3,35,105,,No devuelto
3,A0004,2025-01-18,Emma Acero Cáceres,Ecuador,Tablet,5,250,1250,,No devuelto
4,A0005,2025-01-06,Jeremías del Río,Ecuador,Silla ergonómica,5,150,750,,No devuelto


### 7️⃣ Crear una columna booleana
Crea una nueva columna llamada `fue_devuelto` que sea **True** si existe un motivo distinto de `'No devuelto'`, y **False** en caso contrario.

In [88]:
pedidos_merge['fue_devuelto'] = pedidos_merge['motivo'] != 'No devuelto'
pedidos_merge.head()

Unnamed: 0,id_pedido,fecha,cliente,pais,producto,cantidad,precio_unitario,total,fecha_devolucion,motivo,fue_devuelto
0,A0001,2025-01-12,Paula del Oliva,Ecuador,Laptop,4,950,3800,2025-02-20,Entrega retrasada,True
1,A0002,2025-01-01,Imelda Pozo Expósito,Perú,Monitor,5,200,1000,,No devuelto,False
2,A0003,2025-01-23,Patricia Esteve Armas,Chile,Teclado,3,35,105,,No devuelto,False
3,A0004,2025-01-18,Emma Acero Cáceres,Ecuador,Tablet,5,250,1250,,No devuelto,False
4,A0005,2025-01-06,Jeremías del Río,Ecuador,Silla ergonómica,5,150,750,,No devuelto,False


## 🔹 Nivel 3 – Limpieza y preparación de datos

### 8️⃣ Buscar duplicados
Verifica si existen filas duplicadas en el DataFrame combinado utilizando `.duplicated().sum()`.

In [89]:
print("Filas duplicadas: ", pedidos_merge.duplicated().sum())

Filas duplicadas:  0


### 9️⃣ Eliminar duplicados (si los hay)
Elimina las filas duplicadas con `.drop_duplicates()`.

In [90]:
pedidos_merge = pedidos_merge.drop_duplicates()
print(f"Filas duplicadas: ", pedidos_merge.duplicated().sum())

Filas duplicadas:  0


### 🔟 Renombrar columnas
Renombra las columnas para que usen nombres más claros (por ejemplo: `'precio_unitario'` → `'precio'`).

In [91]:
pedidos_merge = pedidos_merge.rename(columns={
    'precio_unitario': 'precio',
    'fecha_devolucion': 'fecha_dev'
})
pedidos_merge.head()

Unnamed: 0,id_pedido,fecha,cliente,pais,producto,cantidad,precio,total,fecha_dev,motivo,fue_devuelto
0,A0001,2025-01-12,Paula del Oliva,Ecuador,Laptop,4,950,3800,2025-02-20,Entrega retrasada,True
1,A0002,2025-01-01,Imelda Pozo Expósito,Perú,Monitor,5,200,1000,,No devuelto,False
2,A0003,2025-01-23,Patricia Esteve Armas,Chile,Teclado,3,35,105,,No devuelto,False
3,A0004,2025-01-18,Emma Acero Cáceres,Ecuador,Tablet,5,250,1250,,No devuelto,False
4,A0005,2025-01-06,Jeremías del Río,Ecuador,Silla ergonómica,5,150,750,,No devuelto,False


### 11️⃣ Conversión de tipos de datos
Convierte la columna `precio` y `total` a tipo `float`, y `cantidad` a tipo `int`.

In [92]:
pedidos_merge['precio'] = pedidos_merge['precio'].astype('float')
pedidos_merge['total'] = pedidos_merge['total'].astype('float')
pedidos_merge['cantidad'] = pedidos_merge['cantidad'].astype('int')
pedidos_merge.dtypes

id_pedido        object
fecha            object
cliente          object
pais             object
producto         object
cantidad          int64
precio          float64
total           float64
fecha_dev        object
motivo           object
fue_devuelto       bool
dtype: object

## 🔹 Nivel 4 – Análisis final

### 12️⃣ Cuántos pedidos fueron devueltos
Cuenta cuántos pedidos fueron devueltos (`fue_devuelto == True`).

In [93]:
cantidad_devueltos = pedidos_merge[pedidos_merge['fue_devuelto'] == True].shape[0]
print("Pedidos devueltos: ", cantidad_devueltos)

Pedidos devueltos:  200


### 13️⃣ Motivo de devolución más frecuente
Utiliza `.value_counts()` sobre la columna `motivo` para identificar el motivo más común.

In [94]:
pedidos_merge['motivo'].value_counts()

motivo
No devuelto            2800
Error en la orden        46
No especificado          46
Entrega retrasada        42
Producto defectuoso      38
Cambio de modelo         28
Name: count, dtype: int64

### 14️⃣ Promedio del total de pedidos por país
Aplica `.groupby('pais')['total'].mean()` para calcular el promedio del total de compra por país.

In [95]:
pedidos_merge.groupby('pais')['total'].mean().round(2)

pais
Argentina    645.39
Chile        593.49
Colombia     626.62
Ecuador      639.07
Perú         616.18
Name: total, dtype: float64

## 💬 Bonus – Análisis libre

### 15️⃣ Crea un pequeño análisis libre
Formula una pregunta propia combinando al menos dos conceptos aprendidos (por ejemplo: `groupby` + `merge`, o `fillna` + filtros).

In [96]:
print("¿Cuál es el producto con mayor tasa de devolución por país?")
print(f"Países: {pedidos_merge['pais'].unique()}")

# Calcular total de pedidos por producto y país
pedidos_por_producto_pais = pedidos_merge.groupby(['pais', 'producto']).size().reset_index(name='total_pedidos')

# Calcular devoluciones por producto y país
devoluciones_por_producto_pais = pedidos_merge[pedidos_merge['fue_devuelto'] == True].groupby(['pais', 'producto']).size().reset_index(name='total_devoluciones')

# Combinar ambos DataFrames
analisis_devolucion = pd.merge(pedidos_por_producto_pais, devoluciones_por_producto_pais, on=['pais', 'producto'], how='left')

# Rellenar valores nulos (productos sin devoluciones)
analisis_devolucion['total_devoluciones'] = analisis_devolucion['total_devoluciones'].fillna(0)

# Calcular tasa de devolución
analisis_devolucion['tasa_devolucion'] = (analisis_devolucion['total_devoluciones'] / analisis_devolucion['total_pedidos'] * 100).round(2)

# Encontrar el producto con mayor tasa de devolución por país
producto_max_devolucion_por_pais = analisis_devolucion.loc[analisis_devolucion.groupby('pais')['tasa_devolucion'].idxmax()]

print("\nProducto con mayor tasa de devolución por país:")
print(producto_max_devolucion_por_pais[['pais', 'producto', 'total_pedidos', 'total_devoluciones', 'tasa_devolucion']])

¿Cuál es el producto con mayor tasa de devolución por país?
Países: ['Ecuador' 'Perú' 'Chile' 'Colombia' 'Argentina']

Producto con mayor tasa de devolución por país:
         pais   producto  total_pedidos  total_devoluciones  tasa_devolucion
5   Argentina     Router             59                   5             8.47
10      Chile  Audífonos             70                   6             8.57
20   Colombia  Audífonos             67                   9            13.43
32    Ecuador     Laptop             56                   8            14.29
43       Perú    Monitor             76                  10            13.16
