üí° Uni√≥n y Limpieza de Datos en Pandas

Aqu√≠ vamos a aprender a combinar datos de diferentes fuentes y a limpiar datos para analizarlos mejor. Vamos a dividirlo en partes sencillas.

üîπ 1. M√©todos para Unir Datos en Pandas
Imagina que tienes dos tablas de empleados:

Una con datos personales (df_empleados)

Otra con salarios (df_salarios)

üîπ Ejemplo de las tablas

In [31]:
import pandas as pd


Index(['id', 'nombre', 'departamento'], dtype='object')

In [32]:

df_empleados = pd.DataFrame({
    "id": [1, 2, 3, 4],
    "nombre": ["Ana", "Luis", "Carlos", "Marta"],
    "departamento": ["Ventas", "IT", "RRHH", "IT"]
})
df_empleados = pd.DataFrame(df_empleados)
df_empleados.columns


Index(['id', 'nombre', 'departamento'], dtype='object')

In [33]:
df_salarios = pd.DataFrame({
    "id": [1, 2, 4, 5],
    "salario": [3000, 4000, 3500, 2800]
})
df_salarios = pd.DataFrame(df_salarios)
df_salarios.columns

Index(['id', 'salario'], dtype='object')

üîπ 2. M√©todos de Uni√≥n
üí• Aqu√≠ vienen los tres m√©todos clave para unir tablas:

üìå 1. merge() ‚Üí La forma m√°s flexible para unir dos DataFrames
Permite unir bas√°ndose en una columna clave (id en este caso).

Tipos de uni√≥n con merge()

In [8]:
df_completo = df_empleados.merge(df_salarios, on="id", how="outer")
pd.DataFrame(df_completo)


Unnamed: 0,id,nombre,departamento,salario
0,1,Ana,Ventas,3000.0
1,2,Luis,IT,4000.0
2,3,Carlos,RRHH,
3,4,Marta,IT,3500.0
4,5,,,2800.0


## Tipos de how
- Inner : Solo devuelve las coincidencias (intersecci√≥n). // >>>>>>>>>>>>>
- left : Mantiene todo el DataFrame izquierdo (df_empleados) y a√±ade lo que coincida del derecho. // >>>>>>>>>>>>>>>>><>
- right : Mantiene todo el DataFrame derecho (df_salarios) y a√±ade lo que coincida del izquierdo. // >>>>>>>>>>>>>>>>>>>>>>>>><<<>>>
- outer : Devuelve todo, incluso si no hay coincidencias.

üìå 2. concat() ‚Üí Apilar tablas

Este m√©todo no une por columnas clave, sino que las pega una encima de otra (vertical) o una al lado de otra (horizontal).

In [9]:
df_union_filas = pd.concat([df_empleados, df_salarios], axis=0)  # Une en filas (vertical)
df_union_columnas = pd.concat([df_empleados, df_salarios], axis=1)  # Une en columnas (horizontal)


In [10]:
df_union_filas

Unnamed: 0,id,nombre,departamento,salario
0,1,Ana,Ventas,
1,2,Luis,IT,
2,3,Carlos,RRHH,
3,4,Marta,IT,
0,1,,,3000.0
1,2,,,4000.0
2,4,,,3500.0
3,5,,,2800.0


In [11]:
df_union_columnas

Unnamed: 0,id,nombre,departamento,id.1,salario
0,1,Ana,Ventas,1,3000
1,2,Luis,IT,2,4000
2,3,Carlos,RRHH,4,3500
3,4,Marta,IT,5,2800


üìå 3. join() ‚Üí Unir por √≠ndice
Si los DataFrames tienen el mismo √≠ndice, puedes unirlos de forma m√°s r√°pida.

In [None]:
df_empleados.set_index("id", inplace=True)
df_salarios.set_index("id", inplace=True)
# inplace=True:
# Pandas no modifica el DataFrame original, 
# solo te devuelve una copia con el nuevo √≠ndice.

Si "id" ya es el √≠ndice, no necesitas set_index().

üîπ Soluci√≥n: Si necesitas que vuelva a ser una columna, usa:

In [None]:
# df_empleados.reset_index(inplace=True)

In [None]:
# Ver las columnas
#print(df_empleados.columns)

# Si "id" no est√°, revisa y corrige el nombre
#df_empleados.rename(columns=lambda x: x.strip(), inplace=True)  # Elimina espacios

# Volver a intentar establecer el √≠ndice
#df_empleados.set_index("id", inplace=True)


In [35]:
df_join = df_empleados.join(df_salarios, how="left")  


In [37]:
df_join

Unnamed: 0_level_0,nombre,departamento,salario
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Ana,Ventas,3000.0
2,Luis,IT,4000.0
3,Carlos,RRHH,
4,Marta,IT,3500.0


In [39]:
df_join_right = df_empleados.join(df_salarios, how="right")  

In [40]:
df_join_right

Unnamed: 0_level_0,nombre,departamento,salario
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Ana,Ventas,3000
2,Luis,IT,4000
4,Marta,IT,3500
5,,,2800


### Mantiene lo que hay en el derecho (right) y a√±ade lo que coincida en el izquierdo

üèãÔ∏è‚Äç‚ôÄÔ∏è Ejercicio Pr√°ctico

In [48]:
df_productos = pd.DataFrame({
    "id_producto": [1, 2, 3, 4],
    "nombre": ["Zapatos", "Camisa", "Pantal√≥n", "Gorra"]
})

df_precios = pd.DataFrame({
    "id_producto": [2, 3, 5],
    "precio": [25, 30, 15]
})

In [57]:
df_productos = pd.DataFrame(df_productos)
df_productos

Unnamed: 0_level_0,nombre
id_producto,Unnamed: 1_level_1
1,Zapatos
2,Camisa
3,Pantal√≥n
4,Gorra


In [58]:
df_precios = pd.DataFrame (df_precios)
df_precios

Unnamed: 0_level_0,precio
id_producto,Unnamed: 1_level_1
2,25
3,30
5,15


In [56]:
df_productos.set_index("id_producto", inplace=True)
df_precios.set_index("id_producto", inplace=True)

‚û°Ô∏è Ejercicio:

1. Usa merge() para unir ambas tablas usando un left join.


In [59]:
df_merge = df_productos.merge(df_precios, on="id_producto", how="left")
pd.DataFrame(df_merge)


Unnamed: 0_level_0,nombre,precio
id_producto,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Zapatos,
2,Camisa,25.0
3,Pantal√≥n,30.0
4,Gorra,


2. Usa concat() para unirlas en filas.

In [61]:
df_concat = pd.concat([df_productos, df_precios], axis=1) 
df_concat

Unnamed: 0_level_0,nombre,precio
id_producto,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Zapatos,
2,Camisa,25.0
3,Pantal√≥n,30.0
4,Gorra,
5,,15.0


3. Usa join() tras convertir id_producto en √≠ndice.

In [63]:
df_join = df_productos.join(df_precios, how="left")  
df_join

Unnamed: 0_level_0,nombre,precio
id_producto,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Zapatos,
2,Camisa,25.0
3,Pantal√≥n,30.0
4,Gorra,
