In [1]:
from os import chdir
chdir("../..")

In [4]:
# Importar función definida por el usuario 
# Paquete: Utils
# Módulo: display.py
# Función: horizontal

from utils.display import horizontal
from pandas import DataFrame
from pandas import merge

Supongamos que tenemos los siguientes DataFrames:

In [5]:
df_department = DataFrame({
    'department_id': [1, 2, 3, 4, 5],
    'department_name': ['Sistemas', 'Recursos Humanos', 'Producción', 'Ventas', 'Compras']
})

df_employee = DataFrame({
    'employee_id': [1, 2, 3, 4, 5, 6, 7, 8],
    'employee_name': ['Axel Romeo', 'Roberto Mujia', 'Alondra Rosas', 'Rodrigo Lara', 'Mónica Galindo', 'Rosarío Galicia', 'Fernando Roa', 'Paola León'],
    'department_id': [1, 1, 2, 3, 4, None, 6, None]
})

In [6]:
df_department

Unnamed: 0,department_id,department_name
0,1,Sistemas
1,2,Recursos Humanos
2,3,Producción
3,4,Ventas
4,5,Compras


In [7]:
df_employee

Unnamed: 0,employee_id,employee_name,department_id
0,1,Axel Romeo,1.0
1,2,Roberto Mujia,1.0
2,3,Alondra Rosas,2.0
3,4,Rodrigo Lara,3.0
4,5,Mónica Galindo,4.0
5,6,Rosarío Galicia,
6,7,Fernando Roa,6.0
7,8,Paola León,


El DataFrame `df_department` contiene información sobre los departamentos, mientras que el DataFrame `df_employee` contiene información sobre los empleados, incluyendo el departamento al que pertenecen. Todos los datos podemos representarlos de la siguiente forma:

<img src="../../images/empleados-departamentos.png" alt="Drawing" style="width: 600px;"/>

Organizando la informaciñon en un modelo relacional, los DataFrames obtienen la siguiente estructura:

In [8]:
horizontal([df_department, df_employee])

Unnamed: 0,department_id,department_name
0,1,Sistemas
1,2,Recursos Humanos
2,3,Producción
3,4,Ventas
4,5,Compras

Unnamed: 0,employee_id,employee_name,department_id
0,1,Axel Romeo,1.0
1,2,Roberto Mujia,1.0
2,3,Alondra Rosas,2.0
3,4,Rodrigo Lara,3.0
4,5,Mónica Galindo,4.0
5,6,Rosarío Galicia,
6,7,Fernando Roa,6.0
7,8,Paola León,


Caso de Uso:

Supongamos que nos solocitan un reporte con una lista de todos los empleados junto con el nombre de su departamento.

1. Nuestra primer opción es hacer un _INER JOIN_, lo cual nos arrojaria algo parecido a esto :

<img src="../../images/inner_join.png" alt="Drawing" style="width: 800px;"/>

lo que en código Python se resume al siguiente código 

In [12]:
# Realizar el INNER JOIN para combinar los DataFrames
result = merge(df_employee, df_department, on='department_id', how='inner')

# Mostrar el resultado
display(result[['employee_name', 'department_name']])

Unnamed: 0,employee_name,department_name
0,Axel Romeo,Sistemas
1,Roberto Mujia,Sistemas
2,Alondra Rosas,Recursos Humanos
3,Rodrigo Lara,Producción
4,Mónica Galindo,Ventas


El resultado será una tabla que muestra el nombre de cada empleado junto con el nombre de su respectivo departamento. Los registros que no tienen un departamento válido (cuando department_id es None) se omitirán en este `INNER JOIN`.



2. Tambien podemos hacer un _LEFT JOIN_, lo cual nos arrojaria algo parecido a esto :

<img src="../../images/left_join.png" alt="Drawing" style="width: 800px;"/>

lo que en código _pytho se resume a :

In [13]:
left_join_result = df_employee.merge(df_department, on='department_id', how='left')
display(left_join_result[['employee_name', 'department_name']])

Unnamed: 0,employee_name,department_name
0,Axel Romeo,Sistemas
1,Roberto Mujia,Sistemas
2,Alondra Rosas,Recursos Humanos
3,Rodrigo Lara,Producción
4,Mónica Galindo,Ventas
5,Rosarío Galicia,
6,Fernando Roa,
7,Paola León,


3. Otra opción sería pobrar con un `RIGHT INNER`, lo cual cambiaría los resultados de la forma siguiente:

<img src="../../images/right_join.png" alt="Drawing" style="width: 800px;"/>

su código python sería el siguiente:

In [14]:
right_join_result = df_employee.merge(df_department, on='department_id', how='right')
display(right_join_result[['employee_name', 'department_name']])


Unnamed: 0,employee_name,department_name
0,Axel Romeo,Sistemas
1,Roberto Mujia,Sistemas
2,Alondra Rosas,Recursos Humanos
3,Rodrigo Lara,Producción
4,Mónica Galindo,Ventas
5,,Compras


4.- Nuestra cuarto pero no última opción seria utilizar un `FULL JOIN`. Que tomaría en cuenta todos los datos. 

<img src="../../images/full_join.png" alt="Drawing" style="width: 800px;"/>

Expreséndolo en código pyhton, sería de la siguiente forma:

In [15]:
full_outer_join_result = df_employee.merge(df_department, on='department_id', how='outer')
display(full_outer_join_result[['employee_name', 'department_name']])


Unnamed: 0,employee_name,department_name
0,Axel Romeo,Sistemas
1,Roberto Mujia,Sistemas
2,Alondra Rosas,Recursos Humanos
3,Rodrigo Lara,Producción
4,Mónica Galindo,Ventas
5,Rosarío Galicia,
6,Paola León,
7,Fernando Roa,
8,,Compras


Las opciones restantes se muestran a continuación

<img src="../../images/sqljoins.jpeg" alt="Drawing" style="width: 600px;"/>

# ¿Cúal es la opción correcta?