In [2]:
import pandas as pd
import numpy as np


En este ejemplo, estamos creando dos DataFrames (df1 y df2) con datos similares a tablas de SQL. El DataFrame df1 tiene cuatro filas y dos columnas (key y value), mientras que el DataFrame df2 tiene cuatro filas y dos columnas (key y value).

In [3]:
# Crear dos DataFrames con datos similares a tablas de SQL
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value': [1, 2, 3, 4]
})

df2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value': [5, 6, 7, 8]
})

# Mostrar los dos DataFrames
print('df1:')
print(df1)
print('df2:')
print(df2)


df1:
  key  value
0   A      1
1   B      2
2   C      3
3   D      4
df2:
  key  value
0   B      5
1   D      6
2   E      7
3   F      8


Inner join: se obtienen solamente las filas que tienen una clave común en ambos DataFrames.

In [4]:
# Realizar un inner join
inner_join = pd.merge(df1, df2, on='key', how='inner')
print('Inner Join:')
print(inner_join)

Inner Join:
  key  value_x  value_y
0   B        2        5
1   D        4        6


Left join: se obtienen todas las filas del DataFrame izquierdo (df1) y las filas del DataFrame derecho (df2) que tienen una clave común.

In [5]:
# Realizar un left join
left_join = pd.merge(df1, df2, on='key', how='left')
print('Left Join:')
print(left_join)

Left Join:
  key  value_x  value_y
0   A        1      NaN
1   B        2      5.0
2   C        3      NaN
3   D        4      6.0


Right join: se obtienen todas las filas del DataFrame derecho (df2) y las filas del DataFrame izquierdo (df1) que tienen una clave común.

In [6]:
# Realizar un right join
right_join = pd.merge(df1, df2, on='key', how='right')
print('Right Join:')
print(right_join)

Right Join:
  key  value_x  value_y
0   B      2.0        5
1   D      4.0        6
2   E      NaN        7
3   F      NaN        8


Outer join: se obtienen todas las filas de ambos DataFrames, y se rellenan los valores faltantes con NaN si una fila no tiene una clave común en el otro DataFrame.

In [7]:
# Realizar un outer join
outer_join = pd.merge(df1, df2, on='key', how='outer')
print('Outer Join:')
print(outer_join)

Outer Join:
  key  value_x  value_y
0   A      1.0      NaN
1   B      2.0      5.0
2   C      3.0      NaN
3   D      4.0      6.0
4   E      NaN      7.0
5   F      NaN      8.0


Merge join: utilizamos el método merge() de Pandas para realizar un join en lugar de la función pd.merge()

In [8]:
# Utilizar el método merge para realizar un join
merge_join = df1.merge(df2, on='key', how='outer')
print('Merge Join:')
print(merge_join)

Merge Join:
  key  value_x  value_y
0   A      1.0      NaN
1   B      2.0      5.0
2   C      3.0      NaN
3   D      4.0      6.0
4   E      NaN      7.0
5   F      NaN      8.0


# Varios Datasets

En este ejemplo, estamos creando tres DataFrames (df1, df2 y df3) con datos similares a tablas de SQL. Cada DataFrame tiene una columna de clave (key1, key2 y key3) y una columna de valor (value1, value2 y value3).

Luego, estamos realizando un inner join en las columnas key1, key2 y key3 de cada DataFrame utilizando la función pd.merge() tres veces y encadenando las operaciones de join. En cada llamada a pd.merge(), especificamos las columnas de clave utilizando los parámetros left_on y right_on, y el tipo de join utilizando el parámetro how.

In [9]:

# Crear tres DataFrames con datos similares a tablas de SQL
df1 = pd.DataFrame({
    'key1': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})

df2 = pd.DataFrame({
    'key2': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})

df3 = pd.DataFrame({
    'key3': ['C', 'D', 'F', 'G'],
    'value3': [9, 10, 11, 12]
})

# Mostrar los tres DataFrames
print('df1:')
print(df1)
print('df2:')
print(df2)
print('df3:')
print(df3)

# Realizar un inner join con tres DataFrames
inner_join = pd.merge(pd.merge(df1, df2, left_on='key1', right_on='key2', how='inner'),
                      df3, left_on='key2', right_on='key3', how='inner')

# Mostrar el resultado del inner join
print('Inner Join:')
print(inner_join)
    

df1:
  key1  value1
0    A       1
1    B       2
2    C       3
3    D       4
df2:
  key2  value2
0    B       5
1    D       6
2    E       7
3    F       8
df3:
  key3  value3
0    C       9
1    D      10
2    F      11
3    G      12
Inner Join:
  key1  value1 key2  value2 key3  value3
0    D       4    D       6    D      10


# Ejemplo

In [10]:

# Crear un DataFrame de estudiantes
students = pd.DataFrame({
    'id': np.arange(1, 6),
    'name': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve'],
    'class_id': [101, 101, 102, 103, 103]
})

# Crear un DataFrame de clases
classes = pd.DataFrame({
    'id': [101, 102, 103, 104],
    'name': ['Math', 'Science', 'History', 'English']
})

# Crear un DataFrame de calificaciones
grades = pd.DataFrame({
    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'student_id': [1, 2, 3, 4, 5, 1, 3, 5, 2, 4],
    'class_id': [101, 101, 102, 103, 103, 102, 101, 103, 102, 101],
    'grade': [90, 85, 80, 75, 95, 87, 88, 79, 92, 83]
})

# Mostrar los DataFrames
print('Students:')
print(students)
print('Classes:')
print(classes)
print('Grades:')
print(grades)


Students:
   id     name  class_id
0   1    Alice       101
1   2      Bob       101
2   3  Charlie       102
3   4     Dave       103
4   5      Eve       103
Classes:
    id     name
0  101     Math
1  102  Science
2  103  History
3  104  English
Grades:
   id  student_id  class_id  grade
0   1           1       101     90
1   2           2       101     85
2   3           3       102     80
3   4           4       103     75
4   5           5       103     95
5   6           1       102     87
6   7           3       101     88
7   8           5       103     79
8   9           2       102     92
9  10           4       101     83


# Merge de estudiantes y clases en función de class_id

In [11]:
# Merge de estudiantes y clases en función de class_id
merged = pd.merge(students, classes, left_on='class_id', right_on='id', how='outer')
print('Merged:')
print(merged)



Merged:
   id_x   name_x  class_id  id_y   name_y
0   1.0    Alice     101.0   101     Math
1   2.0      Bob     101.0   101     Math
2   3.0  Charlie     102.0   102  Science
3   4.0     Dave     103.0   103  History
4   5.0      Eve     103.0   103  History
5   NaN      NaN       NaN   104  English


# Join de estudiantes y clases en función de class_id

# Inner join de estudiantes y calificaciones en función de student_id y class_id


In [12]:
# Inner join de estudiantes y calificaciones en función de student_id y class_id
inner_join = pd.merge(students, grades, on=['id', 'class_id'], how='inner')
print('Inner Join:')
inner_join

Inner Join:


Unnamed: 0,id,name,class_id,student_id,grade
0,1,Alice,101,1,90
1,2,Bob,101,2,85
2,3,Charlie,102,3,80
3,4,Dave,103,4,75
4,5,Eve,103,5,95


# Listas con pd.Concat

pd.concat() es una función de Pandas que se utiliza para concatenar DataFrames en función de su índice o de una columna específica. A diferencia de pd.merge(), pd.concat() no realiza operaciones de unión basadas en las claves de las columnas.

In [13]:
# Crear tres DataFrames con datos similares a tablas de SQL
df1 = pd.DataFrame({
    'key1': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})

df2 = pd.DataFrame({
    'key2': ['B', 'D', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})

df3 = pd.DataFrame({
    'key3': ['C', 'D', 'F', 'G'],
    'value3': [9, 10, 11, 12]
})

# Mostrar los tres DataFrames
print('df1:')
print(df1)
print('df2:')
print(df2)
print('df3:')
print(df3)


df1:
  key1  value1
0    A       1
1    B       2
2    C       3
3    D       4
df2:
  key2  value2
0    B       5
1    D       6
2    E       7
3    F       8
df3:
  key3  value3
0    C       9
1    D      10
2    F      11
3    G      12


Para replicar el inner join, podemos utilizar pd.concat() con los parámetros join='inner' y axis=1. Esto concatenará los DataFrames en función de sus columnas comunes.

In [14]:
# Realizar un inner join con tres DataFrames utilizando pd.concat()
inner_join = pd.concat([df1.set_index('key1'), df2.set_index('key2'), df3.set_index('key3')],
                       join='inner', axis=1).reset_index()

# Mostrar el resultado del inner join
print('Inner Join:')
print(inner_join)

Inner Join:
  index  value1  value2  value3
0     D       4       6      10


# Tarea

Completa los joins usando pd.concat

Para replicar el left join, podemos utilizar pd.concat() con los parámetros join='left' y axis=1. Esto concatenará los DataFrames en función de sus columnas comunes y agregará las filas del DataFrame de la izquierda que no tengan correspondencia en el DataFrame de la derecha.

In [31]:
# Realizar un inner join con tres DataFrames utilizando pd.concat()
left_join = pd.concat([df1.set_index('key1'), df2.set_index('key2'), df3.set_index('key3')],
                       join='outer', axis=1).reset_index().dropna(subset="value1")

# Mostrar el resultado del inner join
print('Left Join:')
print(left_join)

Left Join:
  index  value1  value2  value3
0     A     1.0     NaN     NaN
1     B     2.0     5.0     NaN
2     C     3.0     NaN     9.0
3     D     4.0     6.0    10.0


# Right join con pd.concat

In [33]:
# Realizar un inner join con tres DataFrames utilizando pd.concat()
right_join = pd.concat([df1.set_index('key1'), df2.set_index('key2'), df3.set_index('key3')],
                       join='outer', axis=1).reset_index().dropna(subset="value3")

# Mostrar el resultado del inner join
print('Right Join:')
print(right_join)

Right Join:
  index  value1  value2  value3
2     C     3.0     NaN     9.0
3     D     4.0     6.0    10.0
5     F     NaN     8.0    11.0
6     G     NaN     NaN    12.0


# Outer Join con pd.concat

In [25]:
# Realizar un inner join con tres DataFrames utilizando pd.concat()
outer_join = pd.concat([df1.set_index('key1'), df2.set_index('key2'), df3.set_index('key3')],
                       join='outer', axis=1).reset_index()

# Mostrar el resultado del inner join
print('Outer Join:')
print(outer_join)

Outer Join:
  index  value1  value2  value3
0     A     1.0     NaN     NaN
1     B     2.0     5.0     NaN
2     C     3.0     NaN     9.0
3     D     4.0     6.0    10.0
4     E     NaN     7.0     NaN
5     F     NaN     8.0    11.0
6     G     NaN     NaN    12.0
