# Merges básicos
La operación de "merge" (fusión) en el contexto de la manipulación de datos se refiere al proceso de combinar dos conjuntos de datos distintos en un solo conjunto. Este proceso es similar a las operaciones JOIN en SQL. Por lo general, se lleva a cabo mediante una o más claves, que son las columnas o índices utilizados para emparejar las filas de los distintos conjuntos de datos.

El objetivo del "merge" es mejorar la utilidad de los datos al permitir que diversas piezas de información se relacionen de manera lógica y estructurada. Este tipo de operación es muy común en análisis de datos, ciencia de datos y otras áreas donde la información almacenada en diferentes tablas o archivos necesita ser consolidada para su análisis.

## Aspectos relevantes

Cuando usamos la función pd.merge(datafram_1, datafram_2) podemos hacer un mergeado segun valores en las columnas o valores en la filas, cuando queremos que seán en las columnas usamos el atributo "on" en este método, cuando que queremos que sea fusión usando las filas como base y combinar dos DataFrames utilizando los índices de las filas, puedes usar los atributos left_index y right_index en la función pd.merge().

Normalmente se pone left_index = True y right_index = True para que solo compare los indices de varias tablas

Además, podemos utilizar el atributo "on" para espeficiar por columnas, y si los nombres de las columnas no son exactamente iguales en ambos dataframes podemos usar right_on='Nombre de columna tabla derecha' left_on='Nombre de columna tabla izquierda'.

# Tipos de Merge:
El atributo "how" indica como es el tipo de mergeo (interno, izquierda, derecha, externo), por defecto su valor es inner join que significa union interna, busca aquellos coincidentes en ambos y muestra

## Inner Merge (Intersección):

Este tipo de "merge" solo incluye aquellas filas cuyas claves existen en ambos conjuntos de datos. Las filas que no tienen una clave correspondiente en el otro conjunto de datos se excluyen.

In [43]:
import pandas as pd

# Crear DataFrames de ejemplo
import pandas as pd

data_profesiones = {
    'Nombre': ['Juan', 'María', 'Carlos', 'Ana', 'Pedro', 'Laura', 'Diego', 'Sofía'],
    'Profesion': ['Ingeniero', 'Doctora', 'Abogado', 'Arquitecta', 'Profesor', 'Diseñadora', 'Contador', 'Ingeniera']
}
df_profesiones = pd.DataFrame(data_profesiones)

data_estudios = {
    'Nombre': ['Juan', 'Carlos', 'Pedro', 'Laura', 'Sofía'],
    'Estudio': ['Biología', 'Economía', 'Física', 'Matemáticas', 'Psicología']
}
df_estudios = pd.DataFrame(data_estudios)

print("DataFrame de Profesiones:")
print(df_profesiones)

print("\nDataFrame de Estudios:")
print(df_estudios)

print("\n\n=======================================\n")
print("np.merge(df_profesiones, df_estudios, on='Nombre')\n")
print(pd.merge(df_profesiones, df_estudios, on='Nombre'))

print("=======================================\n")
print("np.merge(df_profesiones, df_estudios, left_index=True, right_index=True)")
pd.merge(df_profesiones, df_estudios, left_index=True, right_index=True)

DataFrame de Profesiones:
   Nombre   Profesion
0    Juan   Ingeniero
1   María     Doctora
2  Carlos     Abogado
3     Ana  Arquitecta
4   Pedro    Profesor
5   Laura  Diseñadora
6   Diego    Contador
7   Sofía   Ingeniera

DataFrame de Estudios:
   Nombre      Estudio
0    Juan     Biología
1  Carlos     Economía
2   Pedro       Física
3   Laura  Matemáticas
4   Sofía   Psicología



np.merge(df_profesiones, df_estudios, on='Nombre')

   Nombre   Profesion      Estudio
0    Juan   Ingeniero     Biología
1  Carlos     Abogado     Economía
2   Pedro    Profesor       Física
3   Laura  Diseñadora  Matemáticas
4   Sofía   Ingeniera   Psicología

np.merge(df_profesiones, df_estudios, left_index=True, right_index=True)


Unnamed: 0,Nombre_x,Profesion,Nombre_y,Estudio
0,Juan,Ingeniero,Juan,Biología
1,María,Doctora,Carlos,Economía
2,Carlos,Abogado,Pedro,Física
3,Ana,Arquitecta,Laura,Matemáticas
4,Pedro,Profesor,Sofía,Psicología



## Left Merge (o Left Join): Los de la tabla primera 
En este caso, se incluyen todas las filas del conjunto de datos de la izquierda y las filas del conjunto de datos de la derecha que coincidan con ellas. Si no hay coincidencia para una fila en particular del conjunto de datos izquierdo, los valores de las columnas del conjunto de datos de la derecha se rellenarán con "NaN" (Not a Number).

In [44]:
import pandas as pd

data_profesiones = {
    'Nombre': ['Juan', 'María', 'Carlos', 'Ana', 'Pedro'],
    'Profesion': ['Ingeniero', 'Doctora', 'Abogado', 'Arquitecta', 'Profesor']
}

df_profesiones = pd.DataFrame(data_profesiones)

data_ciudades = {
    'Nombre': ['Juan', 'Carlos', 'Pedro', 'JesuCristo'],
    'Ciudad': ['México', 'Madrid', 'Buenos Aires', 'Israel']
}

df_ciudades = pd.DataFrame(data_ciudades)


merged_df = pd.merge(df_profesiones, df_ciudades, on='Nombre', how='left')
print(merged_df)

   Nombre   Profesion        Ciudad
0    Juan   Ingeniero        México
1   María     Doctora           NaN
2  Carlos     Abogado        Madrid
3     Ana  Arquitecta           NaN
4   Pedro    Profesor  Buenos Aires


Como se aprecia en el resultado anterior, se ponen todas las filas de la tabla izquierda si o si, despues se busca las coincidentes en la tabla derecha y se asigna valores, las no coincidentes se dejan con un NaN

## Right Join (Los de la tabla derecha)

Right Merge (o Right Join): Este es el opuesto al "Left Merge". Aquí, se incluyen todas las filas del conjunto de datos de la derecha y las filas del conjunto de datos de la izquierda que coincidan con ellas. Al igual que con el "Left Merge", si no hay coincidencia para una fila en particular, los valores se rellenarán con "NaN". Repetimos exactamente le mismo proceso anterior pero con how='right'

In [45]:
import pandas as pd

data_profesiones = {
    'Nombre': ['Juan', 'María', 'Carlos', 'Ana', 'Pedro'],
    'Profesion': ['Ingeniero', 'Doctora', 'Abogado', 'Arquitecta', 'Profesor']
}

df_profesiones = pd.DataFrame(data_profesiones)

data_ciudades = {
    'Nombre': ['Juan', 'Carlos', 'Pedro','JesuCristo'],
    'Ciudad': ['México', 'Madrid', 'Buenos Aires', 'Israel']
}

df_ciudades = pd.DataFrame(data_ciudades)


pd.merge(df_profesiones, df_ciudades, on='Nombre', how='right')


Unnamed: 0,Nombre,Profesion,Ciudad
0,Juan,Ingeniero,México
1,Carlos,Abogado,Madrid
2,Pedro,Profesor,Buenos Aires
3,JesuCristo,,Israel


## Outer Merge (o Full Outer Join):
 Este tipo de "merge" incluye todas las filas de ambos conjuntos de datos. Si no hay una coincidencia para una fila en particular de cualquiera de los conjuntos de datos, los valores para las columnas del otro conjunto de datos se rellenarán con "NaN".

In [46]:
import pandas as pd

data_profesiones = {
    'Nombre': ['Will Ferrell', 'Lady Gaga', 'Barack Obama', 'SpongeBob', 'Einstein'],
    'Profesion': ['Comediante', 'Cantante', 'Ex-Presidente', 'Bajo el mar', 'Científico']
}

df_profesiones = pd.DataFrame(data_profesiones)

data_ciudades = {
    'Nombre': ['Will Ferrell', 'Barack Obama', 'Einstein', 'JesuCristo'],
    'Ciudad': ['Hollywood', 'Washington D.C.', 'Universo', 'Cielo']
}

df_ciudades = pd.DataFrame(data_ciudades)


pd.merge(df_profesiones, df_ciudades, on='Nombre', how='outer')

Unnamed: 0,Nombre,Profesion,Ciudad
0,Will Ferrell,Comediante,Hollywood
1,Lady Gaga,Cantante,
2,Barack Obama,Ex-Presidente,Washington D.C.
3,SpongeBob,Bajo el mar,
4,Einstein,Científico,Universo
5,JesuCristo,,Cielo


## Cross Merge (o Cartesian Join): 
Este tipo de "merge" crea un producto cartesiano de las dos tablas, es decir, cada fila del primer conjunto de datos se combina con cada fila del segundo conjunto de datos. Este método raramente se usa en la práctica debido a que puede resultar en un conjunto de datos muy grande.

## Conflictos entre columnas
Cuando existen dos columnas con el mismo nombre pero con diferentes en valores en el mergeo de dos dataframes tenemos que se generarán columnas adicionales en el DataFrame resultante para manejar estos conflictos. Esto se hace para asegurarse de que no se pierda ninguna información y para que puedas identificar claramente de qué DataFrame provienen los valores en caso de duplicados.

In [47]:
import pandas as pd

data1 = {'ID': [1, 2, 3], 'Valor': [10, 20, 30]}
data2 = {'ID': [2, 3, 4], 'Valor': [200, 300, 400]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

pd.merge(df1, df2, on='ID', how='outer')

Unnamed: 0,ID,Valor_x,Valor_y
0,1,10.0,
1,2,20.0,200.0
2,3,30.0,300.0
3,4,,400.0


Podemos apreciar que hace nombreColumna_x para referirse a los valores de la columna de la primera tabla e nombreColumna_y para referirse a los valores de la segunda tabla

## Unir dataframes con varias columnas
En este caso lo que se debe hacer sería especificar en el atributo "on" un array de columnas, ese array de columnas representarán la condición bajo la cual se conciderán dos filas que se refieren al mismo ente (estudiante, cliente, trabajador, coche, etc) o no.


In [4]:
import pandas as pd
# Crear el primer DataFrame
data1 = {
    "Nombre": ["Jesucristo", "Lady gaga", "María", "Carlos", "Laura", "Luis", "Elena", "Pedro", "Sofía", "David"],
    "Apellidos": ["Gómez", "Pérez", "López", "Martínez", "González", "Rodríguez", "Sánchez", "Fernández", "Ramírez", "Torres"],
    "Profesión": ["Ingeniera", "Abogado", "Médica", "Ingeniero", "Estudiante", "Contador", "Profesora", "Arquitecto", "Diseñadora", "Programador"]
}

df1 = pd.DataFrame(data1)

# Crear el segundo DataFrame
data2 = {
    "Nombre": ["Juan", "María", "Carlos", "Barack Obama", "Pedro", "Sofía", "David", "Ana", "Luis", "Laura"],
    "Apellidos": ["Pérez", "López", "Martínez", "Sánchez", "Fernández", "Ramírez", "Torres", "Gómez", "Rodríguez", "González"],
    "Edad": [30, 28, 35, 42, 29, 27, 31, 28, 32, 23]
}

df2 = pd.DataFrame(data2)

# Realizar un inner join basado en Nombre y Apellidos

pd.merge(df1, df2, on=["Nombre", "Apellidos"], how="inner")





Unnamed: 0,Nombre,Apellidos,Profesión,Edad
0,María,López,Médica,28
1,Carlos,Martínez,Ingeniero,35
2,Laura,González,Estudiante,23
3,Luis,Rodríguez,Contador,32
4,Pedro,Fernández,Arquitecto,29
5,Sofía,Ramírez,Diseñadora,27
6,David,Torres,Programador,31


# Cocatenación
La concatenación de DataFrames en la biblioteca pandas se refiere a la operación de combinar varios DataFrames en uno solo, ya sea en sentido horizontal o vertical. Esto es útil cuando tienes conjuntos de datos separados que deseas unir para realizar análisis o manipulaciones conjuntas. La concatenación te permite crear un DataFrame más grande a partir de DataFrames más pequeños en ciertos aspectos, la concatenación horizontal puede considerarse similar a un "merge", pero existen diferencias importantes entre estas dos operaciones.

### Merge (Combinación):
El merge es una operación más compleja que combina DataFrames en función de una o más columnas comunes (las claves de unión). Puedes especificar cómo deseas que se realice la combinación, como "inner", "outer", "left", o "right". La combinación agrega filas que cumplen las condiciones de las claves de unión. Es útil cuando deseas combinar información de varias fuentes basándote en alguna relación específica entre las columnas.

### Concatenación Horizontal:
La concatenación horizontal (usando pd.concat() con axis=1) combina DataFrames uno al lado del otro, agregando columnas de uno o más DataFrames para crear un nuevo DataFrame. Los DataFrames que se están concatenando deben tener las mismas filas, ya que se basa en la alineación de las filas existentes. La concatenación horizontal es más simple y es apropiada cuando tienes conjuntos de columnas independientes que deseas combinar.


# Tipos de cocatenación

## Concatenación Vertical:
La concatenación vertical se realiza cuando deseas apilar DataFrames uno encima del otro, es decir, agregar filas a lo largo del eje vertical. Los DataFrames deben tener las mismas columnas para poder realizar una concatenación vertical, pero no necesariamente tienen que tener el mismo nombre. La función en pandas para realizar concatenación vertical es pd.concat(). Esto es útil cuando deseas combinar datos de diferentes fuentes que tienen el mismo conjunto de columnas.


In [10]:
import pandas as pd

df1 = pd.DataFrame({'Nombre': ['Ana', 'Juan', 'María'],
                    'Edad': [25, 30, 28]})

df2 = pd.DataFrame({'Nombre': ['Luis', 'Laura'],
                    'Age': [31, 23]})

# Concatenación vertical
pd.concat([df1, df2], axis=0)

Unnamed: 0,Nombre,Edad,Age
0,Ana,25.0,
1,Juan,30.0,
2,María,28.0,
0,Luis,,31.0
1,Laura,,23.0


Notese que si coinciden los nombres de las columnas, entonces se procederá a unirlos verticalmente sobre la misma columna, sin embargo, sino coinciden se crea una nueva columna para ambos.

# Indexar los dataframes cocatenados

In [14]:
import pandas as pd

df1 = pd.DataFrame({'Nombre': ['Ana', 'Juan', 'María'],
                    'Edad': [25, 30, 28]})

df2 = pd.DataFrame({'Nombre': ['Luis', 'Laura'],
                    'Edad': [31, 23]})

# Concatenación vertical con etiquetas "df1" y "df2" como claves
pd.concat([df1, df2], axis=0, keys=['df1', 'df2'])

Unnamed: 0,Unnamed: 1,Nombre,Edad
df1,0,Ana,25
df1,1,Juan,30
df1,2,María,28
df2,0,Luis,31
df2,1,Laura,23
