In [2]:
import pandas
import numpy 

def makeDataFrame(cols, indices):
    data = {
        col: [str(col) + str(index) for index in indices]
        for col in cols
    }
    return pandas.DataFrame(data, indices)

makeDataFrame("ABC", range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [3]:
"""High-performance, in-memory join và merge operations"""

"""Các loại joins"""

"""One to one joins"""
"""Giống với column-wise concatnation"""
dataFrame1 = pandas.DataFrame({
    "employee": ["Bob", "Jake", "Lisa", "Sue"],
    "group": ["Accounting", "Engineering", "Engineering", "HR"]
})
dataFrame2 = pandas.DataFrame({
    "employee": ["Lisa", "Bob", "Jake", "Sue"],
    "hire_date": [2004, 2008, 2012, 2014]
})

dataFrame3 = pandas.merge(dataFrame1, dataFrame2)
dataFrame3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [4]:
"""Many to one joins"""

dataFrame4 = pandas.DataFrame({
    "group": ["Accounting", "Engineering", "HR"],
    "supervisor": ["Carly", "Guido", "Steve"]
})
pandas.merge(dataFrame3, dataFrame4)

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


In [5]:
"""Many to many joins"""
dataFrame5 = pandas.DataFrame({
    "group": ["Accounting", "Accounting", "Engineering", "Engineering", "HR", "HR"],
    "skills": ["math", "spreadsheets", "coding", "linux", "spreadsheets", "organization"]
})

pandas.merge(dataFrame1, dataFrame5)

"""Điều khiển cách join operations hoạt động"""
"""Xác định merge key"""

"""on keyword """
pandas.merge(dataFrame1, dataFrame2, on = "employee")

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [6]:
"""left on, right on"""
"""joined dataframe có thể chứa luôn cả left_on và right_on property"""
"""ĐIều này khá dư thừa vì 2 thằng đó giống nhau mà -> drop là đẹp"""
dataFrame3 = pandas.DataFrame({
    "name": ["Bob", "Jake", "Lisa", "Sue"],
    "salary": [70000, 80000, 120000, 90000]
})
pandas.merge(dataFrame1, dataFrame3, left_on = "employee", right_on = "name").drop("name", axis = 1)

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


In [7]:
"""Merge by index: left_index, right_index"""
dataFrame1a = dataFrame1.set_index("employee")
dataFrame2a = dataFrame2.set_index("employee")

pandas.merge(dataFrame1a, dataFrame2a, left_index = True, right_index = True)


Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


In [8]:
"""merge với left, right index có thể ngắn gọn bằng phương thức join()"""
dataFrame1a.join(dataFrame2a)

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


In [9]:
"""Kết hợp left_index/right_index với left_on/right_on"""
pandas.merge(dataFrame1a, dataFrame3, left_index = True, right_on = "name")



Unnamed: 0,group,name,salary
0,Accounting,Bob,70000
1,Engineering,Jake,80000
2,Engineering,Lisa,120000
3,HR,Sue,90000


In [10]:
"""Xác định How to join ?"""
"""Mặc định inner"""
"""Ngoài ra còn có outer, left, right"""

"""Outer với tất cả các entries của cả hai đều có mặt trong kết quả"""
"""Left - tất cả các entries của left đều có mặt trong kết quả"""

'Left - tất cả các entries của left đều có mặt trong kết quả'

In [None]:
"""Xử lý overlapping column names: suffixes keyword"""
dataFrame8 = pandas.DataFrame({
    'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'rank': [1, 2, 3, 4]
})
dataFrame9 = pandas.DataFrame({
    'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
    'rank': [3, 1, 4, 2]
})
pandas.merge(dataFrame8, dataFrame9, on = "name", suffixes = {"_L", "_R"})


