<a href="https://colab.research.google.com/github/francomanca93/analisis-de-datos/blob/aplicaciones/3-Aplicando-pandas/11_Concatenacion_de_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Concatenación de DataFrames: concat y append

En este notebook se estudia como unir dos dataframes en uno solo. Esto es muy usual cuando se hace análisis de datos y a estos solo los podemos obtener en pequeños paquetes. Utilizando la función **for y append** podemos unirlos en unos solo rapidamente.

In [1]:
import pandas as pd
import numpy as np 

Lo primero que vamos a hacer es configurar pandas y numpy para que veamos pocos numeros decimales.

In [3]:
pd.options.display.float_format = '{:.2f}'.format # para pandas

In [4]:
np.set_printoptions(precision=2) # para numpy

## Concatenacion de vectores y matrices con numpy

Lo primero que vamos a hacer es generar numeros aleatorios con numpy

In [5]:
np.random.rand()  # Numero aleatorio entre 0 y 1

0.4701047447896134

In [6]:
np.random.randn()  # Numero aleatorio entre -1 y 1 

-0.43926915060336563

Sabiendo lo anterior vamos a generar una matriz de 2 x 5

In [9]:
x1 = np.random.rand(2,5) * 100
x1

array([[37.24,  4.96, 25.54, 27.03, 76.9 ],
       [26.24, 11.55, 57.48, 72.77, 70.83]])

Ahora una matriz de igual dimensión que la anterior pero con numeros negativos.

In [10]:
x2 = np.random.rand(2,5) * -1
x2

array([[-0.22, -0.81, -0.96, -0.6 , -0.16],
       [-0.67, -0.14, -0.28, -0.71, -0.21]])

Numpy puede unir las dos matrices utilizando la función **.concatenate()**

In [11]:
np.concatenate([x1,x2])

array([[37.24,  4.96, 25.54, 27.03, 76.9 ],
       [26.24, 11.55, 57.48, 72.77, 70.83],
       [-0.22, -0.81, -0.96, -0.6 , -0.16],
       [-0.67, -0.14, -0.28, -0.71, -0.21]])

Hemos concatenado a lo largo de las filas. Veamos las dimensiones de la matriz generada.

In [12]:
np.concatenate([x1,x2]).shape

(4, 5)

Tambien podemos concatenar a lo largo de las columnas, indicandoles a la función. Luego veamos las dimensiones de la matriz generada.


In [13]:
np.concatenate([x1,x2], axis = 1)

array([[37.24,  4.96, 25.54, 27.03, 76.9 , -0.22, -0.81, -0.96, -0.6 ,
        -0.16],
       [26.24, 11.55, 57.48, 72.77, 70.83, -0.67, -0.14, -0.28, -0.71,
        -0.21]])

In [14]:
np.concatenate([x1,x2], axis = 1).shape

(2, 10)

## Concatenacion de filas y columnas (series) con pandas

Primero transformemos los vectores antes generados en **numpy** en series para poder manipularlos con **pandas**.

In [15]:
s1 = pd.Series(x1[0], index=['a','b','c','d','e'])
s1

a   37.24
b    4.96
c   25.54
d   27.03
e   76.90
dtype: float64

In [16]:
s2 = pd.Series(x2[0], index=['c','d','e','f','g'])
s2

c   -0.22
d   -0.81
e   -0.96
f   -0.60
g   -0.16
dtype: float64

Para hacer una concatenación en pandas utilizamos la función **.concat()**.

In [17]:
pd.concat([s1,s2])

a   37.24
b    4.96
c   25.54
d   27.03
e   76.90
c   -0.22
d   -0.81
e   -0.96
f   -0.60
g   -0.16
dtype: float64

Lo que sucede es que concatenan a lo largo de las filas. Podemos alterar este comportamiento y que se concatenen respetando indices y a lo largo de las columnas de la siguiente manera.

In [18]:
pd.concat([s1,s2], axis=1)

Unnamed: 0,0,1
a,37.24,
b,4.96,
c,25.54,-0.22
d,27.03,-0.81
e,76.9,-0.96
f,,-0.6
g,,-0.16


Se cocatenan respetando los indices puesto

Ahora si queremos concatenar sin respetar el indice lo que podemos hacer es resetear los indices.

In [19]:
s1.reset_index()

Unnamed: 0,index,0
0,a,37.24
1,b,4.96
2,c,25.54
3,d,27.03
4,e,76.9


Y podemos obtener una nueva serie con nuevos indices y eliminamos los indices...

In [20]:
s1.reset_index(drop=True)

0   37.24
1    4.96
2   25.54
3   27.03
4   76.90
dtype: float64

Vamos a crear una nueva concatenación eliminandos los indices.

In [21]:
pd.concat([s1.reset_index(drop=True),s2.reset_index(drop=True)], axis=1)

Unnamed: 0,0,1
0,37.24,-0.22
1,4.96,-0.81
2,25.54,-0.96
3,27.03,-0.6
4,76.9,-0.16


Tengo ahora una concatenación pero ahora ya no respeta el índice, en realidad se respeta el nuevo indice creado (reset_index)

## Concatenacion de dataframe con pandas

Creemos un DataFrame simple con valores aleatorio.

In [22]:
df1 = pd.DataFrame(np.random.rand(3,2)*10, columns=['a','b'])
df1

Unnamed: 0,a,b
0,1.75,2.12
1,5.83,4.54
2,0.17,7.6


Podemos un segundo dataframe con numeros negativos y cambios de indice.

In [23]:
df2 = pd.DataFrame(np.random.rand(3,2)*-1, columns=['a','b'], index=[2,3,4])
df2

Unnamed: 0,a,b
2,-0.85,-0.77
3,-0.57,-0.1
4,-0.89,-0.6


Concatenemos los dataframe anteriores, estos lo haran a lo largo de las filas de forma predenterminada.

In [24]:
pd.concat([df1,df2])

Unnamed: 0,a,b
0,1.75,2.12
1,5.83,4.54
2,0.17,7.6
2,-0.85,-0.77
3,-0.57,-0.1
4,-0.89,-0.6


Si lo queremos hacer a lo largo de las columnas debemos hacerlo como sigue:

In [25]:
pd.concat([df1,df2], axis=1)

Unnamed: 0,a,b,a.1,b.1
0,1.75,2.12,,
1,5.83,4.54,,
2,0.17,7.6,-0.85,-0.77
3,,,-0.57,-0.1
4,,,-0.89,-0.6


Lo que paso en el primer caso es que se repetian indices de filas y se compatian indices de columnas. 

En el segundo caso pasa lo contrario, se comparten los indices de las filas y se repiten los índices de las columnas.

Si hacemos concatenacion de dos dataframe y queremos hacer enfasis de solo los elementos que se comparten, lo hacemos de la siguiente manera.

In [26]:
pd.concat([df1,df2], axis=1, join='inner')

Unnamed: 0,a,b,a.1,b.1
2,0.17,7.6,-0.85,-0.77


Podemos resetear los indices tambien como hicimos antes:

In [27]:
pd.concat([df1.reset_index(drop=True),
           df2.reset_index(drop=True)],
           axis=1, join='inner')

Unnamed: 0,a,b,a.1,b.1
0,1.75,2.12,-0.85,-0.77
1,5.83,4.54,-0.57,-0.1
2,0.17,7.6,-0.89,-0.6


Hay una forma mas simple de unir dos dataframe con una función llamada **append**

In [28]:
df1.append(df2)

Unnamed: 0,a,b
0,1.75,2.12
1,5.83,4.54
2,0.17,7.6
2,-0.85,-0.77
3,-0.57,-0.1
4,-0.89,-0.6


In [30]:
df1.append(df2).append(df2)


Unnamed: 0,a,b
0,1.75,2.12
1,5.83,4.54
2,0.17,7.6
2,-0.85,-0.77
3,-0.57,-0.1
4,-0.89,-0.6
2,-0.85,-0.77
3,-0.57,-0.1
4,-0.89,-0.6


Ahora si queremos hacer un append a los largo de las columnas debemos hacer la transpueta de nuestro dataframe.

In [31]:
df1

Unnamed: 0,a,b
0,1.75,2.12
1,5.83,4.54
2,0.17,7.6


In [32]:
df1.T

Unnamed: 0,0,1,2
a,1.75,5.83,0.17
b,2.12,4.54,7.6


In [33]:
df1.T.append(df2.T)

Unnamed: 0,0,1,2,3,4
a,1.75,5.83,0.17,,
b,2.12,4.54,7.6,,
a,,,-0.85,-0.57,-0.89
b,,,-0.77,-0.1,-0.6


In [34]:
df1.T.append(df2.T).T

Unnamed: 0,a,b,a.1,b.1
0,1.75,2.12,,
1,5.83,4.54,,
2,0.17,7.6,-0.85,-0.77
3,,,-0.57,-0.1
4,,,-0.89,-0.6
