In [1]:
import pandas as pd

# Introducción

En este laboratorio queremos que aprendas e investigues algunos conceptos en el contexto de Pandas: **concatenar**, **unir** y **fusionar**. Queremos revisar estos conceptos porque hará que el trabajo posterior en la transformación de los conjuntos de datos sea mucho más eficiente.

# Tutorial sobre Concat, Merge y Join

## Concatenando

Concatenar dos dataframes combina dos dataframes de modo que añadimos las filas de un dataframe al final del otro. Nuestros nombres de columnas tienen que ser idénticos para que esta función funcione correctamente.

A continuación, se muestra un ejemplo de la función `concat()` en pandas

https://pandas.pydata.org/docs/reference/api/pandas.concat.html

In [13]:
df1 = pd.DataFrame({'A': ['a'+str(x) for x in range(3)],
                    'B': ['b'+str(x) for x in range(3)],
                    'C': ['c'+str(x) for x in range(3)]},
                     index=[0, 1, 2])

df2 = pd.DataFrame({'A': ['a'+str(x) for x in range(3, 6)],
                    'B': ['b'+str(x) for x in range(3, 6)],
                    'C': ['c'+str(x) for x in range(3, 6)]},
                     index=[3, 4, 5])

df3 = pd.DataFrame({'D': ['d'+str(x) for x in range(3)],
                    'E': ['e'+str(x) for x in range(3)],
                    'F': ['f'+str(x) for x in range(3)]},
                     index=[0, 1, 2])

df4 = pd.DataFrame({'D': ['d'+str(x) for x in range(3, 6)],
                    'E': ['e'+str(x) for x in range(3, 6)],
                    'F': ['f'+str(x) for x in range(3, 6)]},
                     index=[3, 4, 5])

# print(df1, '\n---\n', df2, '\n---\n', df3, '\n---\n',df4)

Vamos a intentar concatenar `df1` y `df2`, así como `df3` y `df4`.

In [3]:
# Concatenar los DataFrames
concatenated_df = pd.concat([df1, df2, df3, df4])

# Imprimir el DataFrame concatenado
print(concatenated_df)

     A    B    C    D    E    F
0   a0   b0   c0  NaN  NaN  NaN
1   a1   b1   c1  NaN  NaN  NaN
2   a2   b2   c2  NaN  NaN  NaN
3   a3   b3   c3  NaN  NaN  NaN
4   a4   b4   c4  NaN  NaN  NaN
5   a5   b5   c5  NaN  NaN  NaN
0  NaN  NaN  NaN   d0   e0   f0
1  NaN  NaN  NaN   d1   e1   f1
2  NaN  NaN  NaN   d2   e2   f2
3  NaN  NaN  NaN   d3   e3   f3
4  NaN  NaN  NaN   d4   e4   f4
5  NaN  NaN  NaN   d5   e5   f5


Del resultado anterior, ves que el segundo dataframe se añade al final del primero.

Ahora intentemos concatenar `df1`, `df2`, `df3` y `df4` todos juntos.

Nota que se suministra el parámetro `sort=False` para silenciar un mensaje de advertencia sobre un cambio futuro en Pandas. No hace ninguna diferencia en el resultado.

In [4]:
# Concatenar los DataFrames
concatenated_df = pd.concat([df1, df2, df3, df4], sort=False)

# Imprimir el DataFrame concatenado
print(concatenated_df)

     A    B    C    D    E    F
0   a0   b0   c0  NaN  NaN  NaN
1   a1   b1   c1  NaN  NaN  NaN
2   a2   b2   c2  NaN  NaN  NaN
3   a3   b3   c3  NaN  NaN  NaN
4   a4   b4   c4  NaN  NaN  NaN
5   a5   b5   c5  NaN  NaN  NaN
0  NaN  NaN  NaN   d0   e0   f0
1  NaN  NaN  NaN   d1   e1   f1
2  NaN  NaN  NaN   d2   e2   f2
3  NaN  NaN  NaN   d3   e3   f3
4  NaN  NaN  NaN   d4   e4   f4
5  NaN  NaN  NaN   d5   e5   f5


¿Qué encontramos?

* El método `concat` de Pandas respeta los índices de todos los ejes.
    * Debido a que `df3` y `df4` tienen índices de columnas diferentes a `df1` y `df2`, `concat` los colocó en columnas diferentes.
    * `df3` y `df4` también retienen sus índices de fila originales de 0-5 en lugar de continuar desde el último índice de `df2`.
* `concat` crea `NaN` en los lugares donde faltan valores.

Intenta también suministrar `ignore_index=True` a `concat`. ¿Cómo es diferente el resultado?

In [5]:
# Concatenar los DataFrames con ignore_index=True
concatenated_df_ignore_index = pd.concat([df1, df2, df3, df4], ignore_index=True, sort=False)

# Imprimir el DataFrame concatenado con ignore_index=True
print(concatenated_df_ignore_index)

      A    B    C    D    E    F
0    a0   b0   c0  NaN  NaN  NaN
1    a1   b1   c1  NaN  NaN  NaN
2    a2   b2   c2  NaN  NaN  NaN
3    a3   b3   c3  NaN  NaN  NaN
4    a4   b4   c4  NaN  NaN  NaN
5    a5   b5   c5  NaN  NaN  NaN
6   NaN  NaN  NaN   d0   e0   f0
7   NaN  NaN  NaN   d1   e1   f1
8   NaN  NaN  NaN   d2   e2   f2
9   NaN  NaN  NaN   d3   e3   f3
10  NaN  NaN  NaN   d4   e4   f4
11  NaN  NaN  NaN   d5   e5   f5


## Fusionando y Uniendo

Pandas tiene dos funciones para unir conjuntos de datos: `merge()` y `join()`. Realizan la misma tarea pero tienen diferentes opciones y sintaxis.

A continuación, se muestra un ejemplo de `merge` y `join`.
SUGERENCIA (usa la columna que se repite en ambos dataframes)

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html

In [7]:
left = pd.DataFrame({'idx': ['i'+str(x) for x in range(3)],
                     'A': ['a'+str(x) for x in range(3)],
                     'B': ['b'+str(x) for x in range(3)]})


right = pd.DataFrame({'idx': ['i'+str(x) for x in range(1,4)],
                     'C': ['c'+str(x) for x in range(1,4)],
                     'D': ['d'+str(x) for x in range(1,4)]})

In [9]:
left

Unnamed: 0,idx,A,B
0,i0,a0,b0
1,i1,a1,b1
2,i2,a2,b2


In [10]:
right

Unnamed: 0,idx,C,D
0,i1,c1,d1
1,i2,c2,d2
2,i3,c3,d3


`join` es idéntico a `merge`. Pero al usar join, necesitamos establecer explícitamente la columna de índice de los dataframes para unir usando `set_index`:

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html

In [8]:
# Usar merge() para combinar los DataFrames
merge_result = pd.merge(left, right, on='idx')

# Usar join() para combinar los DataFrames
join_result = left.set_index('idx').join(right.set_index('idx'), lsuffix='_left', rsuffix='_right')

# Imprimir los resultados
print("Resultado de merge():")
print(merge_result)
print("\nResultado de join():")
print(join_result)

Resultado de merge():
  idx   A   B   C   D
0  i1  a1  b1  c1  d1
1  i2  a2  b2  c2  d2

Resultado de join():
      A   B    C    D
idx                  
i0   a0  b0  NaN  NaN
i1   a1  b1   c1   d1
i2   a2  b2   c2   d2


Y como ves, `join` descarta la fila de `right` con el índice no coincidente `i3`. Retiene la fila de `left` con el índice no coincidente `i0` pero usa `NaN` para los datos faltantes después de unirse.

#### Hay otras opciones que podemos explorar con las funciones `merge()` y `join()`.

Específicamente, podemos especificar `how`. Este argumento en la función nos indica si estamos realizando una unión interna, izquierda, derecha o externa.

También podemos especificar una columna diferente para unir en la función `merge()` usando los argumentos `left_on` y `right_on`. Consulta las siguientes documentaciones si quieres explorar más:

[pandas.DataFrame.merge](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html)

[pandas.DataFrame.join](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.join.html)

## Pregunta Bonus

Ahora, si miras atrás en `merge` y `join`, te das cuenta de que para realizar estas funciones en un conjunto de dataframes, estos dataframes deben compartir una columna común como índice. Solo las filas que tienen los mismos valores de índice se unirán. Esto es similar a la [función `join` en MySQL](https://www.w3schools.com/sql/sql_join.asp), ¿no es así?

La pregunta de bonificación para ti es averiguar cómo unir y concatenar `df1`, `df2`, `df3` y `df4` que creamos al principio de este desafío. Tu producto final debería verse así:

![df1-2-3-4.png](../images/df1-2-3-4.png)

In [15]:
import pandas as pd

# Agregar una columna de índice a cada DataFrame
df1['idx'] = range(len(df1))
df2['idx'] = range(len(df1), len(df1) + len(df2))
df3['idx'] = range(len(df1) + len(df2), len(df1) + len(df2) + len(df3))
df4['idx'] = range(len(df1) + len(df2) + len(df3), len(df1) + len(df2) + len(df3) + len(df4))

In [16]:
df1

Unnamed: 0,A,B,C,idx
0,a0,b0,c0,0
1,a1,b1,c1,1
2,a2,b2,c2,2


In [17]:
df2

Unnamed: 0,A,B,C,idx
3,a3,b3,c3,3
4,a4,b4,c4,4
5,a5,b5,c5,5


In [18]:
df3

Unnamed: 0,D,E,F,idx
0,d0,e0,f0,6
1,d1,e1,f1,7
2,d2,e2,f2,8


In [19]:
df4

Unnamed: 0,D,E,F,idx
3,d3,e3,f3,9
4,d4,e4,f4,10
5,d5,e5,f5,11


In [30]:
import pandas as pd

# Agregar una columna de índice a cada DataFrame
df1['idx'] = range(len(df1))
df2['idx'] = range(len(df1), len(df1) + len(df2))
df3['idx'] = range(len(df3))
df4['idx'] = range(len(df1), len(df1) + len(df2))


In [32]:
top = df1.set_index('idx').join(df3.set_index('idx'))

In [33]:
bottom = df2.set_index('idx').join(df4.set_index('idx'))

In [35]:
pd.concat([top, bottom])

Unnamed: 0_level_0,A,B,C,D,E,F
idx,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,a0,b0,c0,d0,e0,f0
1,a1,b1,c1,d1,e1,f1
2,a2,b2,c2,d2,e2,f2
3,a3,b3,c3,d3,e3,f3
4,a4,b4,c4,d4,e4,f4
5,a5,b5,c5,d5,e5,f5
