## 18 - Cómo hacer Merge de DataFrames

In [1]:
import pandas as pd

In [2]:
# Creación de dataset

staff_df = pd.DataFrame([{"Name": "Kelly", "Role": "Director of HR"},
                          {"Name": "Sally", "Role": "Course liasion"},
                          {"Name": "James", "Role": "Grader"}])

staff_df = staff_df.set_index("Name")

student_df = pd.DataFrame([{"Name": "James", "School": "Business"},
                           {"Name": "Mike", "School": "Law"},
                          {"Name": "Sally", "School": "Engineering"}])

student_df = student_df.set_index("Name")

print(staff_df.head())
print(student_df.head())

                 Role
Name                 
Kelly  Director of HR
Sally  Course liasion
James          Grader
            School
Name              
James     Business
Mike           Law
Sally  Engineering


### Outer

In [4]:
# Aquí obtenemos un dataset con todos los registros de los dos dataset

pd.merge(staff_df, student_df, how = "outer", left_index = True, right_index = True)

# pandas reconoce que James y Sally están en ambos datasets, y coloca a cada uno en una
# sola fila y ambas columnas. Por su parte, Kelly y Mike solo tienen valores en una sola
# columna cada uno, quedando un NaN en la otra columna.

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
James,Grader,Business
Kelly,Director of HR,
Mike,,Law
Sally,Course liasion,Engineering


### Inner

In [5]:
"""Aquí obtenemos un dataset con los registros en común en ambos dataset.
Se devuelve un DataFrame solo con Sally y James, ya que esos dos registros tienen
valores en ambos datasets"""

pd.merge(staff_df, student_df, how = "inner", left_index = True, right_index = True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Sally,Course liasion,Engineering
James,Grader,Business


### Left

In [7]:
"""Aquí obtenemos un dataset con los registros del dataset izquierdo y con la información
de las columnas correspondientes del dataset derecho. En este caso, los nombres a verse
serían los de Kelly, Sally y James"""

pd.merge(staff_df, student_df, how = "left", left_index = True, right_index = True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kelly,Director of HR,
Sally,Course liasion,Engineering
James,Grader,Business


### Right

In [8]:
"""Aquí obtenemos un dataset con los registros del dataset derecho y con la información
de las columnas correspondientes del dataset izquierdo. En este caso, los nombres a verse
serían los de James, Mike y Sally"""

pd.merge(staff_df, student_df, how = "right", left_index = True, right_index = True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
James,Grader,Business
Mike,,Law
Sally,Course liasion,Engineering


### Right sin index

In [9]:
# Eliminamos los índices asignados previamente en los dos dataset

staff_df = staff_df.reset_index()
student_df = student_df.reset_index()

In [10]:
# Aquí obtenemos un dataset con los registros del dataset derecho y con la información
# de las columnas correspondientes del dataset izquierdo

pd.merge(staff_df, student_df, how = "right", on = "Name")

Unnamed: 0,Name,Role,School
0,James,Grader,Business
1,Mike,,Law
2,Sally,Course liasion,Engineering


___

## 19 - Parte 2

### Creación de otros dataset

In [13]:
staff_df_2 = pd.DataFrame([{"Name": "Kelly", "Role": "Director of HR", "Location": "State Street"},
                          {"Name": "Sally", "Role": "Course liation", "Location": "Washington Avenue"},
                          {"Name": "James", "Role": "Grader", "Location": "Washington Avenue"}])

student_df_2 = pd.DataFrame([{"Name": "James", "School": "Business", "Location": "1024 Billiard Avenue"},
                          {"Name": "Mike", "School": "Law", "Location": "Fraternity House #22"},
                          {"Name": "Sally", "School": "Engineering", "Location": "512 Wilson Crescent"}])

### Left sin Index

In [14]:
# Aquí obtenemos el dataset con los registros del dataset izquiero y con la información 
# que corresponde de las columnas del dataset derecho

pd.merge(staff_df_2, student_df_2, how = "left", on = "Name")

Unnamed: 0,Name,Role,Location_x,School,Location_y
0,Kelly,Director of HR,State Street,,
1,Sally,Course Ilation,Washington Avenue,Engineering,512 Wilson Crescent
2,James,Grader,Washington Avenue,Business,1024 Billiard Avenue


### Creación de otros dataset

In [17]:
staff_df_3 = pd.DataFrame([{"First Name": "Kelly", "Last Name": "Desjardins", "Role": "Director of HR"},
                          {"First Name": "Sally", "Last Name": "Brooks", "Role": "Course liasion"},
                          {"First Name": "James", "Last Name": "Wilde", "Role": "Grader"}])

student_df_3 = pd.DataFrame([{"First Name": "James", "Last Name": "Hammond", "School": "Business"},
                            {"First Name": "Mike", "Last Name": "Smith", "School": "Law"},
                            {"First Name": "Sally", "Last Name": "Brooks", "School": "Engineering"}])

### Inner con lista

In [25]:
# Aquí creamos un dataframe en donde se ubican los registros exactos según la lista

pd.merge(staff_df_3, student_df_3, how = "inner", on = ["First Name", "Last Name"])

# Solo muestra a Sally Brooks, ya que es el único registro que tiene los mismos datos en ambos datasets

Unnamed: 0,First Name,Last Name,Role,School
0,Sally,Brooks,Course liasion,Engineering
