----------------------

# **Combinación de DataFrames en Pandas: concat, merge y join**

-------------------

-------------
------------
## **Data Crossing**
--------------
---------------


Este término se refiere a la combinación de dos conjuntos de datos en general. Tanto **`merge`** como **`join`** son formas de cruzar datos en pandas, pero utilizan diferentes criterios (columnas comunes o índices, respectivamente).

----------------
------------------
## **Merge**
----------------
------------------

- **`merge`** se utiliza para combinar DataFrames basándose en una o más columnas clave.
  
- No requiere que los DataFrames tengan un índice común o relacionado previamente.

- Realiza una operación similar a un JOIN en bases de datos relacionales, pero utilizando columnas clave en lugar de índices.
  
- Admite diferentes tipos de uniones: inner (intersección), outer (unión), left (izquierda), right (derecha).

- Ofrece más flexibilidad que **`join`**, ya que permite especificar las columnas clave para la unión y manejar nombres de columnas duplicados.

- Es útil cuando los DataFrames tienen columnas comunes que se pueden utilizar como claves para combinar los datos.

----------------
------------------
## **Join**
----------------
------------------

- **`join`** se utiliza para combinar DataFrames basándose en sus índices.

- Requiere que los DataFrames tengan un índice común o relacionado.

- Realiza una operación similar a un JOIN en bases de datos relacionales, pero utilizando los índices en lugar de columnas.

- Admite diferentes tipos de uniones: inner (intersección), outer (unión), left (izquierda), right (derecha).

- Es útil cuando los DataFrames ya tienen índices relacionados y se desea combinarlos basándose en esos índices.

---------------
---------------------
## **Concat**
---------------
---------------------

- **`concat`** se utiliza para combinar o apilar DataFrames u otras estructuras de datos de pandas (como Series) en filas o columnas.

- No realiza ninguna operación de unión o combinación basada en valores comunes en columnas o índices.

- Simplemente concatena los objetos de datos uno después del otro (en filas con axis=0) o uno al lado del otro (en columnas con axis=1).

- Es útil cuando se desea combinar datos de diferentes fuentes o reorganizar datos existentes en una sola estructura.

--------------------------------

---------------
---------------------
## **Ejemplo**
---------------
---------------------

----------------------------
### ***Preparación de Datos***
----------------------------

In [3]:
# IMPORAR LIBRERIAS 
import pandas as pd 
from IPython.core.display import HTML

# CREACION DE DICCIONARIOS 
dic1 = {
    "name": ["Katniss Everdeen", "Peeta Mellark", "Primrose Everdeen", "Effie Trinket", "Haymitch Abernathy"],
    "gender": ["female", "male", "female", "female", "male"],
    "age": [18, 18, 13, 36, 40]  
}
dic2 = {
    "name":["Jennifer Lawrence", "Josh Hutcherson", "Willow Shields", "Elizabeth Banks", "Woody Harrelson",],
    "posicion":["Lead", "Lead", "Bit part", "Supporting actor", "Supporting actor"],
    "wage":[1000000, 100000, 30000, 95000, 85000]  
}

# CREAR DATAFRAME 
data1 = pd.DataFrame(dic1)
data2 = pd.DataFrame(dic2)

# DISPLAY DATAFRAMES 
display(HTML(data1.to_html()))
print("--------------------------------------------------------------------")
display(HTML(data2.to_html()))

Unnamed: 0,name,gender,age
0,Katniss Everdeen,female,18
1,Peeta Mellark,male,18
2,Primrose Everdeen,female,13
3,Effie Trinket,female,36
4,Haymitch Abernathy,male,40


--------------------------------------------------------------------


Unnamed: 0,name,posicion,wage
0,Jennifer Lawrence,Lead,1000000
1,Josh Hutcherson,Lead,100000
2,Willow Shields,Bit part,30000
3,Elizabeth Banks,Supporting actor,95000
4,Woody Harrelson,Supporting actor,85000


----------------------------
### ***Concatenación***
----------------------------

In [4]:
# CONCATENACION APILANDO LOS DATAFRAMES UNO DEBAJO DEL OTRO
df_concat_vertical = pd.concat([data1, data2], axis=0) 

# DISPLAY DEL DATAFRAME CONCATENADO
display(HTML(df_concat_vertical.to_html()))

Unnamed: 0,name,gender,age,posicion,wage
0,Katniss Everdeen,female,18.0,,
1,Peeta Mellark,male,18.0,,
2,Primrose Everdeen,female,13.0,,
3,Effie Trinket,female,36.0,,
4,Haymitch Abernathy,male,40.0,,
0,Jennifer Lawrence,,,Lead,1000000.0
1,Josh Hutcherson,,,Lead,100000.0
2,Willow Shields,,,Bit part,30000.0
3,Elizabeth Banks,,,Supporting actor,95000.0
4,Woody Harrelson,,,Supporting actor,85000.0


In [5]:
# CONCATENACION APILANDO LOS DATAFRAMES UNO AL LADO DEL OTRO
df_concat_horizontal = pd.concat([data1, data2],axis=1) 

# DISPLAY DEL DATAFRAME CONCATENADO
display(HTML(df_concat_horizontal.to_html()))

Unnamed: 0,name,gender,age,name.1,posicion,wage
0,Katniss Everdeen,female,18,Jennifer Lawrence,Lead,1000000
1,Peeta Mellark,male,18,Josh Hutcherson,Lead,100000
2,Primrose Everdeen,female,13,Willow Shields,Bit part,30000
3,Effie Trinket,female,36,Elizabeth Banks,Supporting actor,95000
4,Haymitch Abernathy,male,40,Woody Harrelson,Supporting actor,85000


----------------------------
### ***Merge (unión) basado en columnas comunes***
----------------------------

In [6]:
"""
    Realiza una unión interna en los dos DataFrames, conservando solo las filas donde hay valores coincidentes 
    en las columnas comunes (en este caso, 'name').
    Si no hay columnas comunes, el resultado será un DataFrame vacío.
"""

# ESTE EJEMPLO RETORNARA UN DATAFRAME VACIO 
# HACER MERGE 
df_m1 = pd.merge(data1, data2)

# DISPLAY DEL DATAFRAME MERGE
display(HTML(df_m1.to_html()))


Unnamed: 0,name,gender,age,posicion,wage


In [7]:
# CREACION DE DICCIONARIOS 
dic3 = {
    "ID": [1, 2, 3, 4, 5],
    "Nombre": ["Juan", "María", "Luis", "Ana", "Pedro"],
    "Edad": [25, 30, 28, 35, 40],
    "Ciudad": ["Madrid", "Barcelona", "Sevilla", "Valencia", "Bilbao"]
}

dic4 = {
    "ID": [1, 2, 3, 6, 7],
    "Profesión": ["Abogado", "Ingeniero", "Doctor", "Profesor", "Diseñador"],
    "Experiencia": [3, 5, 8, 10, 2],
    "Ciudad": ["Madrid", "Barcelona", "Sevilla", "Granada", "Valencia"]
}

# CREAR DATAFRAME 
data3 = pd.DataFrame(dic3)
data4 = pd.DataFrame(dic4)

# ESTE EJEMPLO RETORNARA DATOS EN COMUN 
# HACER EL MERGE 
df_m2 = pd.merge(data3, data4)

# DISPLAY DEL DATAFRAME MERGE
display(HTML(df_m2.to_html()))

Unnamed: 0,ID,Nombre,Edad,Ciudad,Profesión,Experiencia
0,1,Juan,25,Madrid,Abogado,3
1,2,María,30,Barcelona,Ingeniero,5
2,3,Luis,28,Sevilla,Doctor,8


----------------------------
### ***Merge con especificación de la clave (columna) de unión***
----------------------------

In [8]:
# ESTE EJEMPLO REALIZA UNA UNION INTERNA, PERO ESPECIFICANDO LA COLUMNA ID PARA UNIR

# HACER EL MERGE 
df_m3 = pd.merge(data3, data4, on="ID")

# DISPLAY DEL DATAFRAME MERGE
display(HTML(df_m3.to_html()))

Unnamed: 0,ID,Nombre,Edad,Ciudad_x,Profesión,Experiencia,Ciudad_y
0,1,Juan,25,Madrid,Abogado,3,Madrid
1,2,María,30,Barcelona,Ingeniero,5,Barcelona
2,3,Luis,28,Sevilla,Doctor,8,Sevilla


----------------------------
### ***Merge con prioridad izquierda (left)***
----------------------------

In [9]:
""" 
    Realiza una unión izquierda, donde se conservan todas las filas del DataFrame de la izquierda (data3)
    y se rellenan los valores faltantes del DataFrame de la derecha (data4) con NaN.
"""
# DISPLAY DATAFRAME 3
display(HTML(data3.to_html()))
print("-----------------------------------------------------------------------------")

# DISPLAY DATAFRAME 4
display(HTML(data4.to_html()))
print("----------------------------------------------------------------------------------------------------------")

# HACER EL MERGE 
df_left = pd.merge(data3, data4, on="ID", how="left")

# DISPLAY DEL DATAFRAME MERGE LEFT
print("MERGE LEFT")
display(HTML(df_left.to_html()))

Unnamed: 0,ID,Nombre,Edad,Ciudad
0,1,Juan,25,Madrid
1,2,María,30,Barcelona
2,3,Luis,28,Sevilla
3,4,Ana,35,Valencia
4,5,Pedro,40,Bilbao


-----------------------------------------------------------------------------


Unnamed: 0,ID,Profesión,Experiencia,Ciudad
0,1,Abogado,3,Madrid
1,2,Ingeniero,5,Barcelona
2,3,Doctor,8,Sevilla
3,6,Profesor,10,Granada
4,7,Diseñador,2,Valencia


----------------------------------------------------------------------------------------------------------
MERGE LEFT


Unnamed: 0,ID,Nombre,Edad,Ciudad_x,Profesión,Experiencia,Ciudad_y
0,1,Juan,25,Madrid,Abogado,3.0,Madrid
1,2,María,30,Barcelona,Ingeniero,5.0,Barcelona
2,3,Luis,28,Sevilla,Doctor,8.0,Sevilla
3,4,Ana,35,Valencia,,,
4,5,Pedro,40,Bilbao,,,


----------------------------
### ***Merge con prioridad derecha (right)***
----------------------------

In [10]:
""" 
    Realiza una unión derecha, donde se conservan todas las filas del DataFrame de la derecha (data4) 
    y se rellenan los valores faltantes del DataFrame de la izquierda (data3) con NaN.
"""
# DISPLAY DATAFRAME 3
display(HTML(data3.to_html()))
print("-----------------------------------------------------------------------------")

# DISPLAY DATAFRAME 4
display(HTML(data4.to_html()))
print("----------------------------------------------------------------------------------------------------------")

# HACER EL MERGE 
df_right = pd.merge(data3, data4, on="ID", how="right")

# DISPLAY DEL DATAFRAME MERGE LEFT
print("MERGE RIGHT")
display(HTML(df_right.to_html()))


Unnamed: 0,ID,Nombre,Edad,Ciudad
0,1,Juan,25,Madrid
1,2,María,30,Barcelona
2,3,Luis,28,Sevilla
3,4,Ana,35,Valencia
4,5,Pedro,40,Bilbao


-----------------------------------------------------------------------------


Unnamed: 0,ID,Profesión,Experiencia,Ciudad
0,1,Abogado,3,Madrid
1,2,Ingeniero,5,Barcelona
2,3,Doctor,8,Sevilla
3,6,Profesor,10,Granada
4,7,Diseñador,2,Valencia


----------------------------------------------------------------------------------------------------------
MERGE RIGHT


Unnamed: 0,ID,Nombre,Edad,Ciudad_x,Profesión,Experiencia,Ciudad_y
0,1,Juan,25.0,Madrid,Abogado,3,Madrid
1,2,María,30.0,Barcelona,Ingeniero,5,Barcelona
2,3,Luis,28.0,Sevilla,Doctor,8,Sevilla
3,6,,,,Profesor,10,Granada
4,7,,,,Diseñador,2,Valencia


----------------------------
### ***Merge con unión externa (outer)***
----------------------------

In [11]:
""" 
    Realiza na unión externa, conservando todas las filas de ambos DataFrames 
    y rellenando los valores faltantes con NaN.
"""

# HACER EL MERGE 
df_outer=pd.merge(data3, data4, on="ID", how="outer")

# DISPLAY DEL DATAFRAME MERGE LEFT
print("OUTER MERGE")
display(HTML(df_outer.to_html()))

OUTER MERGE


Unnamed: 0,ID,Nombre,Edad,Ciudad_x,Profesión,Experiencia,Ciudad_y
0,1,Juan,25.0,Madrid,Abogado,3.0,Madrid
1,2,María,30.0,Barcelona,Ingeniero,5.0,Barcelona
2,3,Luis,28.0,Sevilla,Doctor,8.0,Sevilla
3,4,Ana,35.0,Valencia,,,
4,5,Pedro,40.0,Bilbao,,,
5,6,,,,Profesor,10.0,Granada
6,7,,,,Diseñador,2.0,Valencia


----------------------------
### ***Unión con join***
----------------------------

- El método join se utiliza para unir DataFrames basándose en los índices, en lugar de columnas específicas.

- Se establecen los índices de los DataFrames utilizando **`set_index("name")`**.

In [12]:
""" 
    Realiza una unión izquierda por defecto, utilizando los índices establecidos anteriormente.
    Deben ser comparados por index no por columna especifica como en merge.
"""

# CREAR MERGE
df_merge = pd.merge(data1, data2, on="name", how="outer")

# DISPLAY MERGE 
print("MERGE")
display(HTML(df_merge.to_html()))
print("-----------------------------------------------------------------------------")

# CREAR JOIN
df_join = data1.set_index("name").join(data2.set_index("name"))       

# DISPLAY JOIN 
print("JOIN") 
display(HTML(df_join.to_html()))

MERGE


Unnamed: 0,name,gender,age,posicion,wage
0,Effie Trinket,female,36.0,,
1,Elizabeth Banks,,,Supporting actor,95000.0
2,Haymitch Abernathy,male,40.0,,
3,Jennifer Lawrence,,,Lead,1000000.0
4,Josh Hutcherson,,,Lead,100000.0
5,Katniss Everdeen,female,18.0,,
6,Peeta Mellark,male,18.0,,
7,Primrose Everdeen,female,13.0,,
8,Willow Shields,,,Bit part,30000.0
9,Woody Harrelson,,,Supporting actor,85000.0


-----------------------------------------------------------------------------
JOIN


Unnamed: 0_level_0,gender,age,posicion,wage
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Katniss Everdeen,female,18,,
Peeta Mellark,male,18,,
Primrose Everdeen,female,13,,
Effie Trinket,female,36,,
Haymitch Abernathy,male,40,,


In [13]:
"""
    Ejemplo mas detallado del JOIN 
"""

# DEFINIR LOS INDEX
data1 = data1.set_index("name")
data2 = data2.set_index("name")

# CREAR EL JOIN 
df_joined = data1.join(data2, how="outer")

# DISPLAY JOIN 
display(HTML(df_joined.to_html()))

Unnamed: 0_level_0,gender,age,posicion,wage
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Effie Trinket,female,36.0,,
Elizabeth Banks,,,Supporting actor,95000.0
Haymitch Abernathy,male,40.0,,
Jennifer Lawrence,,,Lead,1000000.0
Josh Hutcherson,,,Lead,100000.0
Katniss Everdeen,female,18.0,,
Peeta Mellark,male,18.0,,
Primrose Everdeen,female,13.0,,
Willow Shields,,,Bit part,30000.0
Woody Harrelson,,,Supporting actor,85000.0
