# Append, Concat, & Merge 

Estas tres funciones de pandas son de suma importancia al trabajar con varias bases de datos a la vez, son las herramientas de las que haremos uso al tener que unir `DataFrames`, y haremos un repaso en como usar estas funciones.

## Append

`Append` a mi pareces es la más intuitiva y simple de las tres, esta la usamos con el fin de agregar columnas a nuestro `DataFrame`

In [1]:
import pandas as pd
import numpy as np

Crearemos dos dataframes que tengan las mismas columnas

In [2]:
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df

Unnamed: 0,A,B
0,1,2
1,3,4


In [3]:
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
df.append(df2)

Unnamed: 0,A,B
0,1,2
1,3,4
0,5,6
1,7,8


Podemos ver que las filas fueron agregadas al final, notemos que el indice no se cambió, por lo que tenemos indices repetidos

In [4]:
df.append(df2).loc[0]

Unnamed: 0,A,B
0,1,2
0,5,6


Pandas puede manejar esto, y al invocar ese indice nos entrega ambos valores, pero en general queremos que el indice sea único para cada valor, para esto podemos usar `ignore_index=True`, que hace lo que dice en el nombre

In [5]:
df.append(df2, ignore_index=True)

Unnamed: 0,A,B
0,1,2
1,3,4
2,5,6
3,7,8


Tambien es bueno saber que, si usamos `append` para `DataFrames` con columnas distintas, los valores "faltantes" seran rellenados con `NaN`, en ambas direcciones

In [6]:
df3 = pd.DataFrame([[5, 6, 'a'], [7, 8, 'b']], columns=list('ABC'))
df3

Unnamed: 0,A,B,C
0,5,6,a
1,7,8,b


In [7]:
df.append(df3, ignore_index=True) #agregando con mas columnas

Unnamed: 0,A,B,C
0,1,2,
1,3,4,
2,5,6,a
3,7,8,b


In [8]:
df3.append(df, ignore_index=True) #agregando con menos columnas

Unnamed: 0,A,B,C
0,5,6,a
1,7,8,b
2,1,2,
3,3,4,


## Concat

`Concat` es similar a `Append`, pero más poderoso. En buenas a primeras parece que hacen lo mismo, agregar una `DataFrame` al final de otro

In [9]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat([s1, s2])

0    a
1    b
0    c
1    d
dtype: object

Y de la misma forma tenemos que usar `ignore_index=True` si es que los datos compartian indices

In [10]:
pd.concat([s1, s2], ignore_index=True)

0    a
1    b
2    c
3    d
dtype: object

Pero la primera gran diferencia es que esta funcion tiene un entendimiento de que los `DataFrames` que estamos juntando son distintos, motivo por el cual podemos entregarle el argunmento `keys`, que nos permite usar indices multiples para referirnos a cada `Dataframe` que usamos

In [11]:
pd.concat([s1, s2], keys=['s1', 's2'])

s1  0    a
    1    b
s2  0    c
    1    d
dtype: object

In [12]:
df1 = pd.DataFrame([['a', 1], ['b', 2]]
                  , columns=['letter', 'number']
                 )
df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [13]:
df2 = pd.DataFrame([['c', 3], ['d', 4]]
                   , columns=['letter', 'number']
                  )
df2

Unnamed: 0,letter,number
0,c,3
1,d,4


In [14]:
df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']] 
                   , columns=['letter', 'number', 'animal']
                  )
df3

Unnamed: 0,letter,number,animal
0,c,3,cat
1,d,4,dog


La otra gran diferencia, es que podemos unir varias `DataFrames` a la vez, y notemos que tambien rellenan los `NaN` 

In [15]:
pd.concat([df1, df2 ,df3], sort=False)

Unnamed: 0,letter,number,animal
0,a,1,
1,b,2,
0,c,3,
1,d,4,
0,c,3,cat
1,d,4,dog


## Merge

`Merge` es, a mi parecer, la más compleja de las dos. No porque es dificl de entender, sino por el millar de formas que hay de hacerlo. Hoy explicaré las 4 principales: `inner`, `left`, `rigth`, y `outer`, pero hay varias más. Para esto la documentacion de *Pandas* no es lo mejor, así que les dejo esta respuesta de [*StackOverflow*](https://stackoverflow.com/questions/53645882/pandas-merging-101) (que es de donde saqué las imagenes) por si quieres ver el resto de las posibilidades.

Crearemos dos `Dataframes` distintos y veremos cuales son las formas de hacer un `Merge`

### Inner

In [16]:
np.random.seed(0)
left = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': np.random.randn(4)})    
right = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': np.random.randn(4)})

<img src="images/inner.png" width="400">

In [17]:
left.merge(right, on='key') 
# inner es el valor por defecto pero podemos ser más especificos 
# left.merge(right, on='key', how='inner')

Unnamed: 0,key,value_x,value_y
0,B,0.400157,1.867558
1,D,2.240893,-0.977278


### Left

<img src="images/left.png" width="400">

In [18]:
left.merge(right, on='key', how='left')

Unnamed: 0,key,value_x,value_y
0,A,1.764052,
1,B,0.400157,1.867558
2,C,0.978738,
3,D,2.240893,-0.977278


In [19]:
### Rigth

<img src="images/rigth.png" width="400">

In [20]:
left.merge(right, on='key', how='right')

Unnamed: 0,key,value_x,value_y
0,B,0.400157,1.867558
1,D,2.240893,-0.977278
2,E,,0.950088
3,F,,-0.151357


### Outer

<img src="images/outer.png" width="400">

In [21]:
left.merge(right, on='key', how='outer')

Unnamed: 0,key,value_x,value_y
0,A,1.764052,
1,B,0.400157,1.867558
2,C,0.978738,
3,D,2.240893,-0.977278
4,E,,0.950088
5,F,,-0.151357


# Ejercicios

## Actividad 1

## Actividad 2

## Actividad 3