# Concatenación de dataframes
- juntar, unir o fusionar

### Para dataframes existen 3 formas de concatenar:
- Concat (concatenar)
- Merge (fusionar)
- Join (unir)

## Concat

esta técnica básicamente se centra en bases de datos comunes, tienen las mismas columnas y por lo tanto básicamente hay que juntar las filas

In [1]:
import pandas as pd

In [2]:
# al cambiar un diccionario a un dataframe = llaves --> columnas y valores --> datos dentro de la columna
df1 = pd.DataFrame({"A": ["1A", "2A"], "B" : ["1B", "2B"], "C" : ["1C", "2C"]})
df2 = pd.DataFrame({"A": ["6A", "7A", "8A"], "B" : ["6B", "7B", "8B"], "C" : ["6C", "7C", "8C"]})

In [3]:
df1

Unnamed: 0,A,B,C
0,1A,1B,1C
1,2A,2B,2C


In [4]:
df2

Unnamed: 0,A,B,C
0,6A,6B,6C
1,7A,7B,7C
2,8A,8B,8C


In [6]:
# ingresar en una lista los data frames que se quieren concatenar --> mantiene los índices originales de cada dataframe
pd.concat([df1, df2])

Unnamed: 0,A,B,C
0,1A,1B,1C
1,2A,2B,2C
0,6A,6B,6C
1,7A,7B,7C
2,8A,8B,8C


In [7]:
# si queremos reemplazar los índices 
pd.concat([df1, df2], ignore_index = True)

Unnamed: 0,A,B,C
0,1A,1B,1C
1,2A,2B,2C
2,6A,6B,6C
3,7A,7B,7C
4,8A,8B,8C


In [8]:
df1 = pd.DataFrame({"A": ["1A", "2A"], "B" : ["1B", "2B"], "C" : ["1C", "2C"], "K" : ["1K", "2K"]})
df2 = pd.DataFrame({"A": ["6A", "7A", "8A"], "B" : ["6B", "7B", "8B"], "C" : ["6C", "7C", "8C"]})

In [10]:
# cuando concatenamos dataframes que no tienen el mismo número de columnas
pd.concat([df1, df2], ignore_index = True)

Unnamed: 0,A,B,C,K
0,1A,1B,1C,1K
1,2A,2B,2C,2K
2,6A,6B,6C,
3,7A,7B,7C,
4,8A,8B,8C,


## Merge (fusionar)

Esta técnica fusiona diferentes dataframes a partir de una columna (clave) en común

In [11]:
df1 = pd.DataFrame({"A": ["1A", "2A"], "B" : ["1B", "2B"]})
df2 = pd.DataFrame({"A": ["1A", "2A"], "C" : ["1C", "2C"], "K" : ["1K", "2K"]})

In [12]:
df1

Unnamed: 0,A,B
0,1A,1B
1,2A,2B


In [13]:
df2

Unnamed: 0,A,C,K
0,1A,1C,1K
1,2A,2C,2K


In [14]:
# solo podemos fusionar dataframes de 2 en 2, y debemos especificar en base a que queremos fusionar
pd.merge(df1, df2, on = ["A"])

Unnamed: 0,A,B,C,K
0,1A,1B,1C,1K
1,2A,2B,2C,2K


- en este caso fusionó de forma horizontal

- la base (columna) que se seleccione debe ser común entre ambos dataframes. 

In [15]:
df1 = pd.DataFrame({"A": ["1A", "2A", "3A"], "B" : ["1B", "2B", "3B"]})
df2 = pd.DataFrame({"A": ["1A", "2A"], "C" : ["1C", "2C"], "K" : ["1K", "2K"]})

In [16]:
pd.merge(df1, df2, on = ["A"])

Unnamed: 0,A,B,C,K
0,1A,1B,1C,1K
1,2A,2B,2C,2K


In [19]:
df1 = pd.DataFrame({"A": ["1A", "2A", "3A"], "B" : ["1B", "2B", "3B"]})
df2 = pd.DataFrame({"A": ["5A", "6A"], "C" : ["1C", "2C"], "K" : ["1K", "2K"]})

In [22]:
# how
pd.merge(df1, df2, on = ["A"], how = "right")

Unnamed: 0,A,B,C,K
0,5A,,1C,1K
1,6A,,2C,2K


#### How 

--> "inner": considera la intersección (datos en común) entre el conjunto de datos

--> "outer": considera todos valores de los dataframes

--> "left": todas las columnas pero la info solo del lado izquierdo (del primer dataframe) 

--> "right": todas las columnas pero la info solo del lado derecho (del segundo dataframe) 

--> "cross": 

## Join

La idea de este dataframe es combinar las columnas de dos dataframes indexados

In [23]:
df1 = pd.DataFrame({"Z": ["1A", "2A", "3A"], "B" : ["1B", "2B", "3B"]}, index = ["i1", "i2", "i3"])
df2 = pd.DataFrame({"A": ["1A", "2A"], "C" : ["1C", "2C"], "K" : ["1K", "2K"]}, index = ["i1", "i2"])

In [24]:
df1

Unnamed: 0,Z,B
i1,1A,1B
i2,2A,2B
i3,3A,3B


In [25]:
df2

Unnamed: 0,A,C,K
i1,1A,1C,1K
i2,2A,2C,2K


In [26]:
# método del propio dataframe
df1.join(df2)

Unnamed: 0,Z,B,A,C,K
i1,1A,1B,1A,1C,1K
i2,2A,2B,2A,2C,2K
i3,3A,3B,,,


- a df1 le está uniendo la info de df2 --> por los valores de los índices
- No pueden haber columnas con el mismo nombre, deben ser diferentes

## Entradas y salidas ----------
- llevar los dataframes a un fichero

In [27]:
df3 = df1.join(df2)
df3

Unnamed: 0,Z,B,A,C,K
i1,1A,1B,1A,1C,1K
i2,2A,2B,2A,2C,2K
i3,3A,3B,,,


In [29]:
df3.to_csv("nombre.csv", index = False)

- genera el archivo dentro de la carpeta donde estamos guardando nuestros scripts
- index = False --> elimina los índices

In [30]:
# de un archivo a dataframe
pd.read_csv("otra cosa.csv")

Unnamed: 0,Z,B,A,C,K
0,1A,1B,1A,1C,1K
1,2A,2B,2A,2C,2K
2,3A,3B,,,


- también podemos copiar la ruta del archivo, es importante poner (r"rutaaa....")