# Merges básicos
La operación de "merge" (fusión) en el contexto de la manipulación de datos se refiere al proceso de combinar dos conjuntos de datos distintos en un solo conjunto. Este proceso es similar a las operaciones JOIN en SQL. Por lo general, se lleva a cabo mediante una o más claves, que son las columnas o índices utilizados para emparejar las filas de los distintos conjuntos de datos.

El objetivo del "merge" es mejorar la utilidad de los datos al permitir que diversas piezas de información se relacionen de manera lógica y estructurada. Este tipo de operación es muy común en análisis de datos, ciencia de datos y otras áreas donde la información almacenada en diferentes tablas o archivos necesita ser consolidada para su análisis.

## Tipos de Merge:

1. Inner Merge: Este tipo de "merge" solo incluye aquellas filas cuyas claves existen en ambos conjuntos de datos. Las filas que no tienen una clave correspondiente en el otro conjunto de datos se excluyen.


2. Left Merge (o Left Join): En este caso, se incluyen todas las filas del conjunto de datos de la izquierda y las filas del conjunto de datos de la derecha que coincidan con ellas. Si no hay coincidencia para una fila en particular del conjunto de datos izquierdo, los valores de las columnas del conjunto de datos de la derecha se rellenarán con "NaN" (Not a Number).


3. Right Merge (o Right Join): Este es el opuesto al "Left Merge". Aquí, se incluyen todas las filas del conjunto de datos de la derecha y las filas del conjunto de datos de la izquierda que coincidan con ellas. Al igual que con el "Left Merge", si no hay coincidencia para una fila en particular, los valores se rellenarán con "NaN".


4. Outer Merge (o Full Outer Join): Este tipo de "merge" incluye todas las filas de ambos conjuntos de datos. Si no hay una coincidencia para una fila en particular de cualquiera de los conjuntos de datos, los valores para las columnas del otro conjunto de datos se rellenarán con "NaN".


5. Cross Merge (o Cartesian Join): Este tipo de "merge" crea un producto cartesiano de las dos tablas, es decir, cada fila del primer conjunto de datos se combina con cada fila del segundo conjunto de datos. Este método raramente se usa en la práctica debido a que puede resultar en un conjunto de datos muy grande.





In [3]:
# Importamos la biblioteca pandas
import pandas as pd

# Creamos dos DataFrames de ejemplo
df1 = pd.DataFrame({
    'ID': [1, 2, 3, 4],
    'Nombre': ['Ana', 'Luis', 'Maria', 'Juan'],
    'Edad': [25, 30, 35, 40]
})

df2 = pd.DataFrame({
    'ID': [3, 4, 5, 6],
    'Profesion': ['Ingeniero', 'Doctor', 'Artista', 'Escritor']
})

# Mostramos los DataFrames originales
print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

# Uso básico de merge para combinar DataFrames en base a la columna 'ID'
# Aquí, solo se mantendrán las filas con IDs que existen en ambos DataFrames.
merged_df = pd.merge(df1, df2, on='ID')
print("\nMerge Básico (Inner Merge):")
print("Mantiene solo las filas cuyos IDs existen en ambos DataFrames.")
print(merged_df)

# Uso de merge con el argumento 'how'
# 'left' significa que se mantendrán todas las filas del primer DataFrame (df1) y se añadirán las columnas del segundo DataFrame (df2).
merged_df_left = pd.merge(df1, df2, on='ID', how='left')
print("\nMerge Left:")
print("Mantiene todas las filas del primer DataFrame y añade información del segundo DataFrame donde sea posible.")
print(merged_df_left)

# 'right' significa que se mantendrán todas las filas del segundo DataFrame (df2) y se añadirán las columnas del primer DataFrame (df1).
merged_df_right = pd.merge(df1, df2, on='ID', how='right')
print("\nMerge Right:")
print("Mantiene todas las filas del segundo DataFrame y añade información del primer DataFrame donde sea posible.")
print(merged_df_right)

# 'outer' significa que se mantendrán todas las filas de ambos DataFrames.
# Si algún DataFrame no tiene información para una fila del otro DataFrame, se llenará con NaN.
merged_df_outer = pd.merge(df1, df2, on='ID', how='outer')
print("\nMerge Outer:")
print("Mantiene todas las filas de ambos DataFrames y añade NaN donde no hay información.")
print(merged_df_outer)

# 'inner' es lo que hace por defecto el método merge si no especificamos el argumento 'how'.
# Mantendrá solo las filas que existen en ambos DataFrames.
merged_df_inner = pd.merge(df1, df2, on='ID', how='inner')
print("\nMerge Inner (de nuevo):")
print("Es el merge básico, solo mantiene las filas que tienen IDs en ambos DataFrames.")
print(merged_df_inner)



DataFrame 1:
   ID Nombre  Edad
0   1    Ana    25
1   2   Luis    30
2   3  Maria    35
3   4   Juan    40

DataFrame 2:
   ID  Profesion
0   3  Ingeniero
1   4     Doctor
2   5    Artista
3   6   Escritor

Merge Básico (Inner Merge):
Mantiene solo las filas cuyos IDs existen en ambos DataFrames.
   ID Nombre  Edad  Profesion
0   3  Maria    35  Ingeniero
1   4   Juan    40     Doctor

Merge Left:
Mantiene todas las filas del primer DataFrame y añade información del segundo DataFrame donde sea posible.
   ID Nombre  Edad  Profesion
0   1    Ana    25        NaN
1   2   Luis    30        NaN
2   3  Maria    35  Ingeniero
3   4   Juan    40     Doctor

Merge Right:
Mantiene todas las filas del segundo DataFrame y añade información del primer DataFrame donde sea posible.
   ID Nombre  Edad  Profesion
0   3  Maria  35.0  Ingeniero
1   4   Juan  40.0     Doctor
2   5    NaN   NaN    Artista
3   6    NaN   NaN   Escritor

Merge Outer:
Mantiene todas las filas de ambos DataFrames y añade NaN

Nota: Si no especificas el argumento on, el método merge de pandas intentará realizar la fusión utilizando todas las columnas con nombres que coincidan en ambos DataFrames. Es decir, pandas buscará columnas que tengan el mismo nombre en ambos DataFrames y utilizará esas columnas como claves para el "merge".

# left_side y right_side

 los parámetros left_index y right_index en el método merge de pandas se usan para realizar la fusión utilizando los índices de los DataFrames en lugar de las columnas. Estos parámetros son especialmente útiles cuando tienes índices significativos en tus DataFrames y deseas realizar la fusión basándote en ellos. 
 

In [4]:
# Importamos la biblioteca pandas
import pandas as pd

# Creamos dos DataFrames de ejemplo con índices significativos
df1 = pd.DataFrame({
    'Nombre': ['Ana', 'Luis', 'Maria', 'Juan'],
    'Edad': [25, 30, 35, 40]
}, index=[1, 2, 3, 4])

df2 = pd.DataFrame({
    'Profesion': ['Ingeniero', 'Doctor', 'Artista', 'Escritor']
}, index=[3, 4, 5, 6])

# Mostramos los DataFrames originales
print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

# Uso de merge con left_index y right_index
# Aquí, estamos fusionando los DataFrames basándonos en sus índices respectivos.
merged_df = pd.merge(df1, df2, left_index=True, right_index=True)
print("\nMerge usando left_index y right_index (Inner Merge por defecto):")
print("Este merge se basa en los índices y mantiene solo aquellos que existen en ambos DataFrames.")
print(merged_df)

# Uso de left_index y right_index con el argumento 'how'
# Realizamos un merge tipo 'left', manteniendo todos los índices del DataFrame izquierdo (df1)
merged_df_left = pd.merge(df1, df2, left_index=True, right_index=True, how='left')
print("\nMerge usando left_index y 'how='left':")
print("Mantiene todos los índices del primer DataFrame y añade información del segundo DataFrame donde sea posible.")
print(merged_df_left)

# Realizamos un merge tipo 'right', manteniendo todos los índices del DataFrame derecho (df2)
merged_df_right = pd.merge(df1, df2, left_index=True, right_index=True, how='right')
print("\nMerge usando right_index y 'how='right':")
print("Mantiene todos los índices del segundo DataFrame y añade información del primer DataFrame donde sea posible.")
print(merged_df_right)

# Realizamos un merge tipo 'outer', que mantiene todos los índices de ambos DataFrames
merged_df_outer = pd.merge(df1, df2, left_index=True, right_index=True, how='outer')
print("\nMerge usando left_index y right_index con 'how='outer':")
print("Mantiene todos los índices de ambos DataFrames y añade NaN donde no hay información.")
print(merged_df_outer)


DataFrame 1:
  Nombre  Edad
1    Ana    25
2   Luis    30
3  Maria    35
4   Juan    40

DataFrame 2:
   Profesion
3  Ingeniero
4     Doctor
5    Artista
6   Escritor

Merge usando left_index y right_index (Inner Merge por defecto):
Este merge se basa en los índices y mantiene solo aquellos que existen en ambos DataFrames.
  Nombre  Edad  Profesion
3  Maria    35  Ingeniero
4   Juan    40     Doctor

Merge usando left_index y 'how='left':
Mantiene todos los índices del primer DataFrame y añade información del segundo DataFrame donde sea posible.
  Nombre  Edad  Profesion
1    Ana    25        NaN
2   Luis    30        NaN
3  Maria    35  Ingeniero
4   Juan    40     Doctor

Merge usando right_index y 'how='right':
Mantiene todos los índices del segundo DataFrame y añade información del primer DataFrame donde sea posible.
  Nombre  Edad  Profesion
3  Maria  35.0  Ingeniero
4   Juan  40.0     Doctor
5    NaN   NaN    Artista
6    NaN   NaN   Escritor

Merge usando left_index y right_inde