In [None]:
import pandas as pd

# Introducción

En este laboratorio queremos que aprendas e investigues algunos conceptos en el contexto de Pandas: **concatenar**, **unir** y **fusionar**. Queremos revisar estos conceptos porque hará que el trabajo posterior en la transformación de los conjuntos de datos sea mucho más eficiente.

# Tutorial sobre Concat, Merge y Join

## Concatenando

Concatenar dos dataframes combina dos dataframes de modo que añadimos las filas de un dataframe al final del otro. Nuestros nombres de columnas tienen que ser idénticos para que esta función funcione correctamente.

A continuación, se muestra un ejemplo de la función `concat()` en pandas

https://pandas.pydata.org/docs/reference/api/pandas.concat.html

In [None]:
df1 = pd.DataFrame({'A': ['a'+str(x) for x in range(3)],
                    'B': ['b'+str(x) for x in range(3)],
                    'C': ['c'+str(x) for x in range(3)]},
                     index=[0, 1, 2])

df2 = pd.DataFrame({'A': ['a'+str(x) for x in range(3, 6)],
                    'B': ['b'+str(x) for x in range(3, 6)],
                    'C': ['c'+str(x) for x in range(3, 6)]},
                     index=[3, 4, 5])

df3 = pd.DataFrame({'D': ['d'+str(x) for x in range(3)],
                    'E': ['e'+str(x) for x in range(3)],
                    'F': ['f'+str(x) for x in range(3)]},
                     index=[0, 1, 2])

df4 = pd.DataFrame({'D': ['d'+str(x) for x in range(3, 6)],
                    'E': ['e'+str(x) for x in range(3, 6)],
                    'F': ['f'+str(x) for x in range(3, 6)]},
                     index=[3, 4, 5])

print(df1, '\n---\n', df2, '\n---\n', df3, '\n---\n',df4)

    A   B   C
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2 
---
     A   B   C
3  a3  b3  c3
4  a4  b4  c4
5  a5  b5  c5 
---
     D   E   F
0  d0  e0  f0
1  d1  e1  f1
2  d2  e2  f2 
---
     D   E   F
3  d3  e3  f3
4  d4  e4  f4
5  d5  e5  f5


Vamos a intentar concatenar `df1` y `df2`, así como `df3` y `df4`.

In [None]:
pd.concat([df1, df2], axis=0) # axis=0 para que sea verticalmente.

Unnamed: 0,A,B,C
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3
4,a4,b4,c4
5,a5,b5,c5


In [None]:
pd.concat([df3, df4], axis=0) # axis=0 para que sea verticalmente.

Unnamed: 0,D,E,F
0,d0,e0,f0
1,d1,e1,f1
2,d2,e2,f2
3,d3,e3,f3
4,d4,e4,f4
5,d5,e5,f5


Del resultado anterior, ves que el segundo dataframe se añade al final del primero.

Ahora intentemos concatenar `df1`, `df2`, `df3` y `df4` todos juntos.

In [None]:
pd.concat([df1, df2, df3, df4], axis=0) # axis=0 para que sea verticalmente.

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,c0,,,
1,a1,b1,c1,,,
2,a2,b2,c2,,,
3,a3,b3,c3,,,
4,a4,b4,c4,,,
5,a5,b5,c5,,,
0,,,,d0,e0,f0
1,,,,d1,e1,f1
2,,,,d2,e2,f2
3,,,,d3,e3,f3


¿Qué encontramos?

* El método `concat` de Pandas respeta los índices de todos los ejes.
    * Debido a que `df3` y `df4` tienen índices de columnas diferentes a `df1` y `df2`, `concat` los colocó en columnas diferentes.
    * `df3` y `df4` también retienen sus índices de fila originales de 0-5 en lugar de continuar desde el último índice de `df2`.
* `concat` crea `NaN` en los lugares donde faltan valores.

Intenta también suministrar `ignore_index=True` a `concat`. ¿Cómo es diferente el resultado?

-> Respuesta: *La diferencia con `ignore_index=True` es que ignora los índices originales de los dataframes que se concatenan y los numera de nuevo.*

In [None]:
pd.concat([df1, df2, df3, df4], axis=0, ignore_index=True)

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,c0,,,
1,a1,b1,c1,,,
2,a2,b2,c2,,,
3,a3,b3,c3,,,
4,a4,b4,c4,,,
5,a5,b5,c5,,,
6,,,,d0,e0,f0
7,,,,d1,e1,f1
8,,,,d2,e2,f2
9,,,,d3,e3,f3


## Fusionando y Uniendo

Pandas tiene dos funciones para unir conjuntos de datos: `merge()` y `join()`. Realizan la misma tarea pero tienen diferentes opciones y sintaxis.

A continuación, se muestra un ejemplo de `merge` y `join`.
SUGERENCIA (usa la columna que se repite en ambos dataframes)

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html

In [None]:
left = pd.DataFrame({'idx': ['i'+str(x) for x in range(3)],
                     'A': ['a'+str(x) for x in range(3)],
                     'B': ['b'+str(x) for x in range(3)]})


right = pd.DataFrame({'idx': ['i'+str(x) for x in range(1,4)],
                     'C': ['c'+str(x) for x in range(1,4)],
                     'D': ['d'+str(x) for x in range(1,4)]})

In [None]:
left

Unnamed: 0,idx,A,B
0,i0,a0,b0
1,i1,a1,b1
2,i2,a2,b2


In [None]:
right

Unnamed: 0,idx,C,D
0,i1,c1,d1
1,i2,c2,d2
2,i3,c3,d3


`join` es idéntico a `merge`. Pero al usar join, necesitamos establecer explícitamente la columna de índice de los dataframes para unir usando `set_index`:

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html

In [None]:
left.merge(right)

Unnamed: 0,idx,A,B,C,D
0,i1,a1,b1,c1,d1
1,i2,a2,b2,c2,d2


In [None]:
#left.join(right)
# Sale error porque tanto left como right tienen una columna igual llamada 'idx'

ValueError: columns overlap but no suffix specified: Index(['idx'], dtype='object')

In [None]:
# Se elimina el idx de right para poder unir
left.join(right.drop("idx", axis=1))

# Entonces se unen por posición y quedan descuadradas las columnas 0↔1, 1↔2, 2↔3

Unnamed: 0,idx,A,B,C,D
0,i0,a0,b0,c1,d1
1,i1,a1,b1,c2,d2
2,i2,a2,b2,c3,d3


In [None]:
# Se setea el índice a 'idx'
left.set_index('idx', inplace=True)
right.set_index('idx', inplace=True)

# Se hace el join (por defecto left join)
left.join(right)

# Entonces quedan ordenadas las columnas pero:
# → No hay valores para idx0 para C y D ya que right no tiene idx0.
# → Se para en idx 2 ya que left no tiene idx3.
# Es decir, se usan los idx de left rellenando con lo de right.

Unnamed: 0_level_0,A,B,C,D
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
i0,a0,b0,,
i1,a1,b1,c1,d1
i2,a2,b2,c2,d2


In [None]:
# Realizando lo anterior pero al revés
right.join(left)

# Entonces quedan ordenadas las columnas pero:
# → No hay valores para idx3 para A y B ya que left no tiene 3.
# → No hay idx0 ya que right no tiene idx0.
# Es decir, se usan los idx de right rellenando con lo de left.

Unnamed: 0_level_0,C,D,A,B
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
i1,c1,d1,a1,b1
i2,c2,d2,a2,b2
i3,c3,d3,,


In [None]:
# Si se hace un inner join, solo se unen en los índices que coinciden.
left.join(right, how="inner")

Unnamed: 0_level_0,A,B,C,D
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
i1,a1,b1,c1,d1
i2,a2,b2,c2,d2


In [None]:
# Si se hace un outer join se unen todos los índices de ambos.
left.join(right, how="outer")

Unnamed: 0_level_0,A,B,C,D
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
i0,a0,b0,,
i1,a1,b1,c1,d1
i2,a2,b2,c2,d2
i3,,,c3,d3


In [None]:
# Si se hace un left join, solo se unen en los índices de left.
left.join(right, how="left")

Unnamed: 0_level_0,A,B,C,D
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
i0,a0,b0,,
i1,a1,b1,c1,d1
i2,a2,b2,c2,d2


In [None]:
# Si se hace un right join, solo se unen en los índices de right.
left.join(right, how="right")

Unnamed: 0_level_0,A,B,C,D
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
i1,a1,b1,c1,d1
i2,a2,b2,c2,d2
i3,,,c3,d3


Y como ves, `join` descarta la fila de `right` con el índice no coincidente `i3`. Retiene la fila de `left` con el índice no coincidente `i0` pero usa `NaN` para los datos faltantes después de unirse.

#### Hay otras opciones que podemos explorar con las funciones `merge()` y `join()`.

Específicamente, podemos especificar `how`. Este argumento en la función nos indica si estamos realizando una unión interna, izquierda, derecha o externa.

También podemos especificar una columna diferente para unir en la función `merge()` usando los argumentos `left_on` y `right_on`. Consulta las siguientes documentaciones si quieres explorar más:

[pandas.DataFrame.merge](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html)

[pandas.DataFrame.join](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.join.html)

## Pregunta Bonus

Ahora, si miras atrás en `merge` y `join`, te das cuenta de que para realizar estas funciones en un conjunto de dataframes, estos dataframes deben compartir una columna común como índice. Solo las filas que tienen los mismos valores de índice se unirán. Esto es similar a la [función `join` en MySQL](https://www.w3schools.com/sql/sql_join.asp), ¿no es así?

La pregunta de bonificación para ti es averiguar cómo unir y concatenar `df1`, `df2`, `df3` y `df4` que creamos al principio de este desafío. Tu producto final debería verse así:

![df1-2-3-4.png](../images/df1-2-3-4.png)

In [None]:
df12 = pd.concat([df1, df2], axis=0) # Concatenación de filas
df34 = pd.concat([df3, df4], axis=0) # Concatenación de filas

print(df12, '\n---\n', df34)

    A   B   C
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3
4  a4  b4  c4
5  a5  b5  c5 
---
     D   E   F
0  d0  e0  f0
1  d1  e1  f1
2  d2  e2  f2
3  d3  e3  f3
4  d4  e4  f4
5  d5  e5  f5


In [None]:
pd.concat([df12, df34], axis=1)  # Concatenación de columnas

Unnamed: 0,A,B,C,D,E,F
0,a0,b0,c0,d0,e0,f0
1,a1,b1,c1,d1,e1,f1
2,a2,b2,c2,d2,e2,f2
3,a3,b3,c3,d3,e3,f3
4,a4,b4,c4,d4,e4,f4
5,a5,b5,c5,d5,e5,f5
