<a href="https://colab.research.google.com/github/PabloCaSan/Data-Science-Training/blob/main/Notebook8_Concatenacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Concatenar dataframes**  

## Usando Pandas y NumPy

Importamos las librerías

In [None]:
import pandas as pd
import numpy as np

Una forma de modificar el formato de los decimales con Pandas, es:

In [None]:
pd.options.display.float_format = '{:.2f}'.format

Pero esto también se puede hacer con NumPy usando:

In [None]:
np.set_printoptions(precision=1)


Ahora generemos dos matrices con número aleatorios

In [None]:
A1 = np.random.rand(2,5)*10
A1

array([[6.5, 2.7, 3.6, 4.8, 1.5],
       [3.4, 0.3, 1.2, 2.1, 7.6]])

In [None]:
A2 = np.random.rand(2,5)*-1
A2

array([[-0.3, -0.8, -0.2, -0.2, -0.3],
       [-0.4, -0.6, -0.2, -0.3, -0.8]])

NumPy puede concatenar matrices

In [None]:
np.concatenate([A1, A2])

array([[ 6.5,  2.7,  3.6,  4.8,  1.5],
       [ 3.4,  0.3,  1.2,  2.1,  7.6],
       [-0.3, -0.8, -0.2, -0.2, -0.3],
       [-0.4, -0.6, -0.2, -0.3, -0.8]])

In [None]:
np.concatenate([A1, A2]).shape

(4, 5)

Ahora haremos lo mismo pero con Pandas. Para ello primero creamos series

In [None]:
s1 = pd.Series(A1[0], index = ['a', 'b', 'c', 'd', 'e'])
s1

a   6.50
b   2.72
c   3.64
d   4.83
e   1.50
dtype: float64

In [None]:
s2 = pd.Series(A2[0], index = ['c', 'd', 'e', 'f', 'g'])
s2

c   -0.29
d   -0.75
e   -0.19
f   -0.16
g   -0.30
dtype: float64

Y concatenamos

In [None]:
pd.concat([s1,s2])

a    6.50
b    2.72
c    3.64
d    4.83
e    1.50
c   -0.29
d   -0.75
e   -0.19
f   -0.16
g   -0.30
dtype: float64

Vemos que se hace a lo largo de las filas, pero esto se puede cambiar. Para hacerlo a lo largo de las columnas hacemos:

In [None]:
pd.concat([s1,s2], axis = 1)

Unnamed: 0,0,1
a,6.5,
b,2.72,
c,3.64,-0.29
d,4.83,-0.75
e,1.5,-0.19
f,,-0.16
g,,-0.3


Notemos que se respetan los índices dados anteriormente. Para cambiar esto, debemos resetear los índices:

In [None]:
s1.reset_index()

Unnamed: 0,index,0
0,a,6.5
1,b,2.72
2,c,3.64
3,d,4.83
4,e,1.5


Para quitar los índices (las letras) como columna, hacemos:

In [None]:
s1.reset_index(drop = True)

0   6.50
1   2.72
2   3.64
3   4.83
4   1.50
dtype: float64

Y usando esto, concatenamos nuevamente

In [None]:
pd.concat([s1.reset_index(drop = True), s2.reset_index(drop = True)], axis = 1)

Unnamed: 0,0,1
0,6.5,-0.29
1,2.72,-0.75
2,3.64,-0.19
3,4.83,-0.16
4,1.5,-0.3


Ahora haremos lo mismo pero con dataframes, para ello primero creamos los dataframes

In [None]:
df1 = pd.DataFrame(np.random.rand(3,2)*10, columns = ['a','b'])
df1

Unnamed: 0,a,b
0,2.49,2.23
1,7.25,8.39
2,3.52,7.88


In [None]:
df2 = pd.DataFrame(np.random.rand(3,2)*-1, columns = ['a','b'], index = [2,3,4])
df2

Unnamed: 0,a,b
2,-0.82,-0.59
3,-0.48,-0.39
4,-0.22,-0.11


Y ahora concatenamos

In [None]:
pd.concat([df1,df2])

Unnamed: 0,a,b
0,2.49,2.23
1,7.25,8.39
2,3.52,7.88
2,-0.82,-0.59
3,-0.48,-0.39
4,-0.22,-0.11


Se concatena a lo largo de los renglones, para hacerlo a lo largo de las columnas simplemente hacemos:

In [None]:
pd.concat([df1,df2], axis = 1)

Unnamed: 0,a,b,a.1,b.1
0,2.49,2.23,,
1,7.25,8.39,,
2,3.52,7.88,-0.82,-0.59
3,,,-0.48,-0.39
4,,,-0.22,-0.11


También se puede hacer la intersección (teoría de conjuntos) de los índices de los dataframes

In [None]:
pd.concat([df1,df2], axis = 1, join = 'inner')

Unnamed: 0,a,b,a.1,b.1
2,3.52,7.88,-0.82,-0.59


Por otro lado, también podemos reiniciar los índices como anteriormente

In [None]:
pd.concat([df1.reset_index(drop = True),
           df2.reset_index(drop = True)], 
          axis = 1)

Unnamed: 0,a,b,a.1,b.1
0,2.49,2.23,-0.82,-0.59
1,7.25,8.39,-0.48,-0.39
2,3.52,7.88,-0.22,-0.11


También existe la función *append()* que permite "pegar" una matriz a otra

In [None]:
df1.append(df2)

Unnamed: 0,a,b
0,2.49,2.23
1,7.25,8.39
2,3.52,7.88
2,-0.82,-0.59
3,-0.48,-0.39
4,-0.22,-0.11


Y se puede hacer de forma iterativa

In [None]:
df1.append(df2).append(df1).append(df2)

Unnamed: 0,a,b
0,2.49,2.23
1,7.25,8.39
2,3.52,7.88
2,-0.82,-0.59
3,-0.48,-0.39
4,-0.22,-0.11
0,2.49,2.23
1,7.25,8.39
2,3.52,7.88
2,-0.82,-0.59


Para hacer lo mismo pero sobre las columnas, usamos la transpuesta de la matriz

In [None]:
df1.T.append(df2.T).T

Unnamed: 0,a,b,a.1,b.1
0,2.49,2.23,,
1,7.25,8.39,,
2,3.52,7.88,-0.82,-0.59
3,,,-0.48,-0.39
4,,,-0.22,-0.11
