In [None]:
# MIT License

# Copyright (c) 2021 GGDSC UNI

# Permission is hereby granted, free of charge, to any person obtaining a copy
# of this software and associated documentation files (the "Software"), to deal
# in the Software without restriction, including without limitation the rights
# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
# copies of the Software, and to permit persons to whom the Software is
# furnished to do so, subject to the following conditions:

# The above copyright notice and this permission notice shall be included in all
# copies or substantial portions of the Software.

# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
# SOFTWARE.

<table align="center">
  <td align="center"><a target="_blank" href="https://gdsc.community.dev/universidad-nacional-de-ingenieria/">
        <img src="https://i.ibb.co/pX2w52P/GDSC.png" style="padding-bottom:5px;" />
      View GDSC UNI</a></td>

  <td align="center"><a target="_blank" href="https://colab.research.google.com/drive/1qI_ihnsZYWDO9vhbeh4u-mdiBo9fKWhs?usp=sharing">
        <img src="https://i.ibb.co/Bf0HK0q/Colaboratory.png"  style="padding-bottom:5px;" />Run in Google Colab </a></td>

  <td align="center"><a target="_blank" href="https://github.com/GDSC-UNI/Pandas-For-Data-Science/PFDS6_Concatenaciones_y_Merge.ipynb">
        <img src="https://i.ibb.co/VHHdRx2/Github.png"  height="110px" style="padding-bottom:5px;"/>View source on GitHub</a></td>
</table>


<h1></h1>

<h1 style="font-size:42px; text-align:center; margin-bottom:30px;"><span style="color:#000080">PFDS6:</span> Concatenaciones y Merge</h1>
<hr>

# Concatenaciones

Una concatenación es encadenar conceptos, ideas, números o códigos para crear una secuencia o conjunto interconectado. Esta idea de concatenación puede ser implementado en python con numpy y panda dependiendo del tipo de dato con el que nos encontramos trabajando. Usaremos numpy cuando queremos concatenar arrays y pandas cuando queremos concatenar Series o DataFrames.

En numpy, las concatenaciones se realizan mediante el método *concatenate* y agregando como parámetros las matrices a concatenar, la concatenación se puede hacer por columnas o por filas especificando el axis.


In [None]:
import numpy as np
import pandas as pd

In [None]:
x_1 = np.array([[np.random.randint(0,20) for j in range(4)] for i in range(3)])  
x_2 = np.array([[np.random.randint(0,20) for j in range(4)] for i in range(3)])
print('-'*30 +'x_1'+'-'*30 )
print(x_1)
print('-'*30 +'x_2'+'-'*30 )
print(x_2)

------------------------------x_1------------------------------
[[16 15  4  0]
 [18 14 11 10]
 [16 11  9 13]]
------------------------------x_2------------------------------
[[18  7  5 19]
 [11 18 13  0]
 [ 9  6  6  2]]


In [None]:
np.concatenate([x_1, x_2])

array([[16, 15,  4,  0],
       [18, 14, 11, 10],
       [16, 11,  9, 13],
       [18,  7,  5, 19],
       [11, 18, 13,  0],
       [ 9,  6,  6,  2]])

In [None]:
np.concatenate([x_1, x_2]).shape

(6, 4)

In [None]:
np.concatenate([x_1, x_2], axis=1)

array([[16, 15,  4,  0, 18,  7,  5, 19],
       [18, 14, 11, 10, 11, 18, 13,  0],
       [16, 11,  9, 13,  9,  6,  6,  2]])

In [None]:
np.concatenate([x_1, x_2], axis=1).shape

(3, 8)

En Pandas, las concatenaciones se hacen mediante el método *concat*. A diferencia de las concatenaciones en numpy, en Pandas se respetan los índices al momento de realizar las concatenaciones. Como se mencionó anteriormente, estas concatenaciones se realizan con las series o DataFrame.


In [None]:
s1 = pd.Series(x_1[0], index=['PC1', 'PC2', 'PC3', 'PC4'])
s2 = pd.Series(x_2[0], index=['PC1','PC2','PC3','PC4'])
print('-'*30 +'s1'+'-'*30 )
print(s1)
print('-'*30 +'s2'+'-'*30 )
print(s2)

------------------------------s1------------------------------
PC1    16
PC2    15
PC3     4
PC4     0
dtype: int32
------------------------------s2------------------------------
PC1    18
PC2     7
PC3     5
PC4    19
dtype: int32


In [None]:
pd.concat([s1,s2])

PC1    16
PC2    15
PC3     4
PC4     0
PC1    18
PC2     7
PC3     5
PC4    19
dtype: int32

In [None]:
pd.concat([s1, s2], axis=1)

Unnamed: 0,0,1
PC1,16,18
PC2,15,7
PC3,4,5
PC4,0,19


Para realizar concatenaciones sin importar los índices, debemos de agregar como parámetros las series sin los índices, para esto usamos el método *reset_index*.

In [None]:
s1.reset_index(drop=True)

0    16
1    15
2     4
3     0
dtype: int32

In [None]:
pd.concat([s1.reset_index(drop=True), s2.reset_index(drop=True)], axis=1)

Unnamed: 0,0,1
0,16,18
1,15,7
2,4,5
3,0,19


Los DataFrame no son muy ajenos a las series en cuanto a las concatenaciones, la única diferencia es que tenemos que ingresar como parámetros las columnas y los índices.

In [None]:
pd.options.display.float_format = '{:,.2f}'.format
df1 = pd.DataFrame(np.random.rand(3,4)*20, columns=['PC1', 'PC2', 'PC3', 'PC4'],index=['Alejandro', 'Ruben', 'Fernanda'])
df1

Unnamed: 0,PC1,PC2,PC3,PC4
Alejandro,2.19,1.68,13.28,5.25
Ruben,0.1,19.6,18.18,18.5
Fernanda,18.13,7.28,10.28,11.43


In [None]:
df2 = pd.DataFrame(np.random.rand(3,4)*20, columns=['PC1', 'PC2', 'PC3', 'PC4'],index=['Mariana', 'Mauricio', 'Fernanda'])
df2

Unnamed: 0,PC1,PC2,PC3,PC4
Mariana,2.5,19.19,12.72,12.4
Mauricio,8.12,4.76,0.23,11.01
Fernanda,19.94,16.03,12.41,9.4


In [None]:
pd.concat([df1, df2])

Unnamed: 0,PC1,PC2,PC3,PC4
Alejandro,2.19,1.68,13.28,5.25
Ruben,0.1,19.6,18.18,18.5
Fernanda,18.13,7.28,10.28,11.43
Mariana,2.5,19.19,12.72,12.4
Mauricio,8.12,4.76,0.23,11.01
Fernanda,19.94,16.03,12.41,9.4


In [None]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,PC1,PC2,PC3,PC4,PC1.1,PC2.1,PC3.1,PC4.1
Alejandro,2.19,1.68,13.28,5.25,,,,
Ruben,0.1,19.6,18.18,18.5,,,,
Fernanda,18.13,7.28,10.28,11.43,19.94,16.03,12.41,9.4
Mariana,,,,,2.5,19.19,12.72,12.4
Mauricio,,,,,8.12,4.76,0.23,11.01


Al agregarle a la concatenación el parámetro *join='inner'* nos da como retorno la concatenación de las filas que tienen en común los DataFrame.

In [None]:
pd.concat([df1, df2], axis=1, join='inner')

Unnamed: 0,PC1,PC2,PC3,PC4,PC1.1,PC2.1,PC3.1,PC4.1
Fernanda,18.13,7.28,10.28,11.43,19.94,16.03,12.41,9.4


In [None]:
pd.concat([df1.reset_index(drop=True), df2.reset_index(drop=True)], axis=1)

Unnamed: 0,PC1,PC2,PC3,PC4,PC1.1,PC2.1,PC3.1,PC4.1
0,2.19,1.68,13.28,5.25,2.5,19.19,12.72,12.4
1,0.1,19.6,18.18,18.5,8.12,4.76,0.23,11.01
2,18.13,7.28,10.28,11.43,19.94,16.03,12.41,9.4


Una forma más acortada de realizar las concatenaciones es usando *append*.

In [None]:
df1.append(df2)

Unnamed: 0,PC1,PC2,PC3,PC4
Alejandro,2.19,1.68,13.28,5.25
Ruben,0.1,19.6,18.18,18.5
Fernanda,18.13,7.28,10.28,11.43
Mariana,2.5,19.19,12.72,12.4
Mauricio,8.12,4.76,0.23,11.01
Fernanda,19.94,16.03,12.41,9.4


In [None]:
df1.append(df2).append(df2)

Unnamed: 0,PC1,PC2,PC3,PC4
Alejandro,17.63,8.9,17.43,6.27
Ruben,15.48,19.73,8.22,5.17
Fernanda,5.72,4.31,16.78,14.74
Mariana,10.46,18.78,11.52,18.13
Mauricio,13.75,1.88,10.61,12.25
Fernanda,2.31,2.82,15.52,18.43
Mariana,10.46,18.78,11.52,18.13
Mauricio,13.75,1.88,10.61,12.25
Fernanda,2.31,2.82,15.52,18.43


In [None]:
df1.T.append(df2.T).T

Unnamed: 0,PC1,PC2,PC3,PC4,PC1.1,PC2.1,PC3.1,PC4.1
Alejandro,2.19,1.68,13.28,5.25,,,,
Ruben,0.1,19.6,18.18,18.5,,,,
Fernanda,18.13,7.28,10.28,11.43,19.94,16.03,12.41,9.4
Mariana,,,,,2.5,19.19,12.72,12.4
Mauricio,,,,,8.12,4.76,0.23,11.01


# Merge

Si nuestro objetivo no es solo concatenar sino que queremos fusionar nuestros datos en un solo DataFrame, el método correcto a usar es *merge()* Para conocer más acerca de él, crearemos un DataFrame llamado df_left y otro llamado df_right, los cuales vamos a fusionar en un solo DataFrame.

In [None]:
df_left = pd.DataFrame(
    {'X':['x0','x1','x2','x3'],
    'W':['w0','w1','w2','w3'],
    'Y':['y0','y1','y2','y3'],
    'Mix':['y2','y3','a2','a3']},
    index = ['y2','y3','a2','a3'])
df_left

Unnamed: 0,X,W,Y,Mix
y2,x0,w0,y0,y2
y3,x1,w1,y1,y3
a2,x2,w2,y2,a2
a3,x3,w3,y3,a3


In [None]:
df_right = pd.DataFrame(
    {'Z':['z2','z3','z4','z5'],
     'A':['a2','a3','a4','a5'],
     'Y':['y2','y3','y4','y5']},
    index = [2,3,4,5])
df_right

Unnamed: 0,Z,A,Y
2,z2,a2,y2
3,z3,a3,y3
4,z4,a4,y4
5,z5,a5,y5


In [None]:
pd.merge(df_left, df_right)

Unnamed: 0,X,W,Y,Mix,Z,A
0,x2,w2,y2,a2,z2,a2
1,x3,w3,y3,a3,z3,a3


Al hacer Merge, este tiene por defecto los siguientes parámetros *how="inner"*, el cual indica que obtendremos la intersección de los DataFrames y 'on' que indica en qué nivel de columna o índice se hará la unión, este valor, debe encontrarse en ambos DataFrames para que se pueda hacer el merge, el valor predeterminado de este son todos los índices o columnas en los que existan coincidencias.

In [None]:
pd.merge(df_left, df_right, how='inner', on='Y')

Unnamed: 0,X,W,Y,Mix,Z,A
0,x2,w2,y2,a2,z2,a2
1,x3,w3,y3,a3,z3,a3


Si usamos el parámetro *left_on* especificamos el nombre de nivel o índice para unir el DataFrame izquierdo y con *right_on*, especificamos el nombre de nivel de columna o índice para unir el DataFrame Derecho. Como ejemplo haremos un merge en el que uniremos las coincidencias en cuanto a los valores de la columna Mix con la columna Y y después con la columna A.

In [None]:
pd.merge(df_left, df_right, how='inner', left_on='Mix', right_on='Y')

Unnamed: 0,X,W,Y_x,Mix,Z,A,Y_y
0,x0,w0,y0,y2,z2,a2,y2
1,x1,w1,y1,y3,z3,a3,y3


In [None]:
pd.merge(df_left, df_right, how='inner', left_on='Mix', right_on='A')

Unnamed: 0,X,W,Y_x,Mix,Z,A,Y_y
0,x2,w2,y2,a2,z2,a2,y2
1,x3,w3,y3,a3,z3,a3,y3


Podemos especificar el cómo queremos el merge mediante el parámetro *how*, como se mencionó anteriormente, este tiene por defecto la intersección (inner). A continuación se muestra un gráfico con las diferentes formas de hacer el merge y el valor del parámetro *how* para cada caso.

<h1></h1>

<center>
<img src="https://i.ibb.co/kQf31td/Merge.png" alt="Merge" border="0">
</center>

<h1></h1>

In [None]:
df_left = pd.DataFrame(
    {'X':['x0','x1','x2','x3'],
    'W':['w0','w1','w2','w3'],
    'Y':['y0','y1','y2','y3']},
     index = [0,1,2,3])

df_left

Unnamed: 0,X,W,Y
0,x0,w0,y0
1,x1,w1,y1
2,x2,w2,y2
3,x3,w3,y3


In [None]:
pd.merge(df_left, df_right, how='inner', on='Y')

Unnamed: 0,X,W,Y,Z,A
0,x2,w2,y2,z2,a2
1,x3,w3,y3,z3,a3


In [None]:
pd.merge(df_left, df_right, how='left', on='Y')

Unnamed: 0,X,W,Y,Z,A
0,x0,w0,y0,,
1,x1,w1,y1,,
2,x2,w2,y2,z2,a2
3,x3,w3,y3,z3,a3


In [None]:
pd.merge(df_left, df_right, how='right', on='Y')

Unnamed: 0,X,W,Y,Z,A
0,x2,w2,y2,z2,a2
1,x3,w3,y3,z3,a3
2,,,y4,z4,a4
3,,,y5,z5,a5


In [None]:
pd.merge(df_left, df_right, how='outer', on='Y')

Unnamed: 0,X,W,Y,Z,A
0,x0,w0,y0,,
1,x1,w1,y1,,
2,x2,w2,y2,z2,a2
3,x3,w3,y3,z3,a3
4,,,y4,z4,a4
5,,,y5,z5,a5


Por último, el parámetro *on* puede recibir un solo valor o una lista tal como mostrará en el ejemplo siguiente, además podemos modificar los sufijos que se generan al hacer un merge con el parámetro *suffixes*.

In [None]:
df_left = pd.DataFrame(
                      {'X': ['x0', 'x1', 'x2', 'x3'],
                        'W': ['w0', 'w1', 'w2', 'w3'], 
                        'Y': ['y0', 'y1', 'y2', 'y3'],
                        'A': ['a0', 'a1', 'a2', 'a3'],})
df_left

Unnamed: 0,X,W,Y,A
0,x0,w0,y0,a0
1,x1,w1,y1,a1
2,x2,w2,y2,a2
3,x3,w3,y3,a3


In [None]:
pd.merge(df_left, df_right, how='outer', on=['Y','A'])

Unnamed: 0,X,W,Y,A,Z
0,x0,w0,y0,a0,
1,x1,w1,y1,a1,
2,x2,w2,y2,a2,z2
3,x3,w3,y3,a3,z3
4,,,y4,a4,z4
5,,,y5,a5,z5


In [None]:
pd.merge(df_left, df_right, how='outer', on='A', suffixes=['_left','_right'])

Unnamed: 0,X,W,Y_left,A,Z,Y_right
0,x0,w0,y0,a0,,
1,x1,w1,y1,a1,,
2,x2,w2,y2,a2,z2,y2
3,x3,w3,y3,a3,z3,y3
4,,,,a4,z4,y4
5,,,,a5,z5,y5
