<a href="https://colab.research.google.com/github/edelgado-1975/OVA_ARDUINO_SENA_CSF/blob/main/4_Concatenacion_de_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Concatenación de DataFrames: concat y append

En este notebook se estudia como unir dos dataframes en uno solo. Esto es muy usual cuando se hace análisis de datos y a estos solo los podemos obtener en pequeños paquetes. Utilizando la función **for y append** podemos unirlos en unos solo rapidamente.

In [1]:
import pandas as pd
import numpy as np

Lo primero que vamos a hacer es configurar pandas y numpy para que veamos pocos numeros decimales.

In [2]:
pd.options.display.float_format = '{:.2f}'.format # para pandas

In [3]:
np.set_printoptions(precision=2) # para numpy

## Concatenacion de vectores y matrices con numpy

Lo primero que vamos a hacer es generar numeros aleatorios con numpy

In [None]:
np.random.rand()  # Numero aleatorio entre 0 y 1

In [None]:
np.random.randn()  # Numero aleatorio entre -1 y 1

Sabiendo lo anterior vamos a generar una matriz de 2 x 5

In [None]:
x1 = np.random.rand(2,5) * 100
x1

Ahora una matriz de igual dimensión que la anterior pero con numeros negativos.

In [None]:
x2 = np.random.rand(2,5) * -1
x2

Numpy puede unir las dos matrices utilizando la función **.concatenate()**

In [None]:
np.concatenate([x1,x2])

Hemos concatenado a lo largo de las filas. Veamos las dimensiones de la matriz generada.

In [None]:
np.concatenate([x1,x2]).shape

Tambien podemos concatenar a lo largo de las columnas, indicandoles a la función. Luego veamos las dimensiones de la matriz generada.


In [None]:
np.concatenate([x1,x2], axis = 1)

In [None]:
np.concatenate([x1,x2], axis = 1).shape

## Concatenacion de filas y columnas (series) con pandas

Primero transformemos los vectores antes generados en **numpy** en series para poder manipularlos con **pandas**.

In [None]:
s1 = pd.Series(x1[0], index=['a','b','c','d','e'])
s1

In [None]:
s2 = pd.Series(x2[0], index=['c','d','e','f','g'])
s2

Para hacer una concatenación en pandas utilizamos la función **.concat()**.

In [None]:
pd.concat([s1,s2])

Lo que sucede es que concatenan a lo largo de las filas. Podemos alterar este comportamiento y que se concatenen respetando indices y a lo largo de las columnas de la siguiente manera.

In [None]:
pd.concat([s1,s2], axis=1)

Se cocatenan respetando los indices puesto

Ahora si queremos concatenar sin respetar el indice lo que podemos hacer es resetear los indices.

In [None]:
s1.reset_index()

Y podemos obtener una nueva serie con nuevos indices y eliminamos los indices...

In [None]:
s1.reset_index(drop=True)

Vamos a crear una nueva concatenación eliminandos los indices.

In [None]:
pd.concat([s1.reset_index(drop=True),s2.reset_index(drop=True)], axis=1)

Tengo ahora una concatenación pero ahora ya no respeta el índice, en realidad se respeta el nuevo indice creado (reset_index)

## Concatenacion de dataframe con pandas

Creemos un DataFrame simple con valores aleatorio.

In [None]:
df1 = pd.DataFrame(np.random.rand(3,2)*10, columns=['a','b'])
df1

Podemos un segundo dataframe con numeros negativos y cambios de indice.

In [None]:
df2 = pd.DataFrame(np.random.rand(3,2)*-1, columns=['a','b'], index=[2,3,4])
df2

Concatenemos los dataframe anteriores, estos lo haran a lo largo de las filas de forma predenterminada.

In [None]:
pd.concat([df1,df2])

Si lo queremos hacer a lo largo de las columnas debemos hacerlo como sigue:

In [None]:
pd.concat([df1,df2], axis=1)

Lo que paso en el primer caso es que se repetian indices de filas y se compatian indices de columnas.

En el segundo caso pasa lo contrario, se comparten los indices de las filas y se repiten los índices de las columnas.

Si hacemos concatenacion de dos dataframe y queremos hacer enfasis de solo los elementos que se comparten, lo hacemos de la siguiente manera.

In [44]:
pd.concat([df1,df2], axis=1, join='inner')

Unnamed: 0,a,b,a.1,b.1
2,8.89,6.07,-0.04,-0.03


Podemos resetear los indices tambien como hicimos antes:

In [46]:
pd.concat([df1.reset_index(drop=True),
           df2.reset_index(drop=True)],
           axis=1, join='inner')

Unnamed: 0,a,b,a.1,b.1
0,3.16,4.58,-0.04,-0.03
1,9.55,9.47,-0.92,-0.34
2,8.89,6.07,-0.74,-0.25


Hay una forma mas simple de unir dos dataframe con una función llamada **concat**

In [54]:
result = pd.concat([df1, df2], ignore_index=True)
print(result)


      a     b
0  3.16  4.58
1  9.55  9.47
2  8.89  6.07
3 -0.04 -0.03
4 -0.92 -0.34
5 -0.74 -0.25


In [55]:
result = pd.concat([df1, df2, df2], ignore_index=True)
print(result)

      a     b
0  3.16  4.58
1  9.55  9.47
2  8.89  6.07
3 -0.04 -0.03
4 -0.92 -0.34
5 -0.74 -0.25
6 -0.04 -0.03
7 -0.92 -0.34
8 -0.74 -0.25


Ahora si queremos hacer un append a los largo de las columnas debemos hacer la transpueta de nuestro dataframe.

In [None]:
print(df1)

In [None]:
"""La propiedad .T de un DataFrame en pandas devuelve la transposición del DataFrame.
En otras palabras, convierte las filas en columnas y las columnas en filas."""
print(df1.T)

In [None]:
# Transponer, concatenar y luego transponer de vuelta
result = pd.concat([df1.T, df2.T], axis=1).T
print(result)

In [58]:
# Transponer, concatenar a lo largo de las filas y luego transponer de vuelta
result = pd.concat([df1.T, df2.T], axis=0).T
print(result)

     a    b     a     b
0 3.16 4.58   NaN   NaN
1 9.55 9.47   NaN   NaN
2 8.89 6.07 -0.04 -0.03
3  NaN  NaN -0.92 -0.34
4  NaN  NaN -0.74 -0.25
