In [1]:
import pandas as pd
import numpy as np

class display(object):
    """여러 객체를 HTML 형태로 표시"""

    # HTML 템플릿 문자열
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}{1}
    """

    def __init__(self, *args):
        # 여러 개의 객체 이름을 args에 저장
        self.args = args

    def _repr_html_(self):
        # 각 객체를 HTML 문자열로 변환한 뒤 연결
        return '\n'.join(
            self.template.format(a, eval(a)._repr_html_())  # 객체 이름과 실제 객체의 HTML 출력
            for a in self.args
        )

    def __repr__(self):
        # 터미널 등에서의 문자열 표현
        return '\n\n'.join(
            a + '\n' + repr(eval(a))  # 객체 이름과 객체의 문자열 표현
            for a in self.args
        )

In [5]:
# 직원의 이름과 소속 그룹을 담은 DataFrame 생성
df1 = pd.DataFrame({
    'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],          # 직원 이름 리스트
    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']  # 각 직원의 소속 그룹 리스트
})

# 직원의 이름과 채용 연도를 담은 두 번째 DataFrame 생성
df2 = pd.DataFrame({
    'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],          # 직원 이름 리스트
    'hire_date': [2004, 2008, 2012, 2014]                # 각 직원의 채용 연도 리스트
})

# 첫 번째 DataFrame(df1) 출력
print(df1)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR


In [4]:
print(df2)

  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [6]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [7]:
df4 = pd.DataFrame({'group':['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
print(df3)
print(df4)
print(pd.merge(df3, df4))

  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014
         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve
  employee        group  hire_date supervisor
0      Bob   Accounting       2008      Carly
1     Jake  Engineering       2012      Guido
2     Lisa  Engineering       2004      Guido
3      Sue           HR       2014      Steve


In [10]:
# df1 DataFrame 출력
print(df1)  # 직원 이름과 소속 그룹이 포함된 첫 번째 DataFrame 출력

# df5 DataFrame 생성 및 출력
df5 = pd.DataFrame({
    'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],  # 각 직원의 그룹 정보 리스트
    'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']  # 각 그룹별 기술 리스트
})

print(df5)  # 그룹과 기술 정보가 포함된 두 번째 DataFrame 출력

# df1과 df5를 병합하여 새로운 DataFrame 생성 및 출력
print(pd.merge(df1, df5))  # 'group' 열을 기준으로 df1과 df5를 내부 조인하여 병합한 결과 출력

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
         group        skills
0   Accounting          math
1   Accounting  spreadsheets
2  Engineering        coding
3  Engineering         linux
4           HR  spreadsheets
5           HR  organization
  employee        group        skills
0      Bob   Accounting          math
1      Bob   Accounting  spreadsheets
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR  spreadsheets
7      Sue           HR  organization


In [11]:
print(df1)
print(df2)
print(pd.merge(df1, df2, on = 'employee'))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014
  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


In [14]:
# df3 DataFrame 생성 및 출력
df3 = pd.DataFrame({
    'name': ['Bob', 'Jake', 'Lisa', 'Sue'],                   # 직원 이름 리스트
    'salary': [70000, 80000, 120000, 90000]                   # 각 직원의 급여 리스트
})

# df1 DataFrame 출력
print(df1)  # 직원 이름과 소속 그룹이 포함된 첫 번째 DataFrame 출력

# df3 DataFrame 출력
print(df3)  # 직원 이름과 급여가 포함된 세 번째 DataFrame 출력

# df1과 df3을 'employee'와 'name' 열을 기준으로 병합하여 새로운 DataFrame 생성 및 출력
print(pd.merge(df1, df3, left_on='employee', right_on='name'))  
# 'employee' 열과 'name' 열을 기준으로 내부 조인(inner join)을 수행하여 df1과 df3을 병합

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000
  employee        group  name  salary
0      Bob   Accounting   Bob   70000
1     Jake  Engineering  Jake   80000
2     Lisa  Engineering  Lisa  120000
3      Sue           HR   Sue   90000


In [13]:
pd.merge(df1, df3, left_on = 'employee', right_on = 'name').drop('name', axis = 1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


In [15]:
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')

print(df1a)
print(df2a)


                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014


In [16]:
# df1a DataFrame 출력
print(df1a)  # 'employee' 열을 인덱스로 설정한 df1a를 출력

# df2a DataFrame 출력
print(df2a)  # 'employee' 열을 인덱스로 설정한 df2a를 출력

# df1a와 df2a를 인덱스를 기준으로 병합하여 새로운 DataFrame 생성 및 출력
print(pd.merge(df1a, df2a, left_index=True, right_index=True))  # 인덱스를 기준으로 내부 조인(inner join)을 수행하여 두 DataFrame을 병합한 결과를 출력

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014
                group  hire_date
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


In [17]:
# df1a DataFrame 출력
print(df1a)  # 'employee' 열을 인덱스로 설정한 df1a DataFrame의 내용을 콘솔에 출력합니다.
# 출력 예시:
#           group
# employee         
# Bob    Accounting
# Jake  Engineering
# Lisa  Engineering
# Sue           HR

# df2a DataFrame 출력
print(df2a)  # 'employee' 열을 인덱스로 설정한 df2a DataFrame의 내용을 콘솔에 출력합니다.
# 출력 예시:
#            hire_date
# employee            
# Lisa           2004
# Bob            2008
# Jake           2012
# Sue            2014

# df1a와 df2a를 인덱스를 기준으로 병합하여 새로운 DataFrame 생성 및 출력
print(df1a.join(df2a))  
# df1a의 인덱스('employee')와 df2a의 인덱스('employee')를 기준으로 병합하여 새로운 DataFrame을 생성합니다.
# 병합된 DataFrame의 내용을 콘솔에 출력합니다.
# 출력 예시:
#           group  hire_date
# employee                   
# Bob    Accounting        2008
# Jake  Engineering        2012
# Lisa  Engineering        2004
# Sue           HR        2014

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014
                group  hire_date
employee                        
Bob        Accounting       2008
Jake      Engineering       2012
Lisa      Engineering       2004
Sue                HR       2014


In [18]:
print(df1a)
print(df3)
print(pd.merge(df1a, df3, left_index = True, right_on = 'name'))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000
         group  name  salary
0   Accounting   Bob   70000
1  Engineering  Jake   80000
2  Engineering  Lisa  120000
3           HR   Sue   90000


In [21]:
# df6 DataFrame 생성
df6 = pd.DataFrame({
    'name': ['Peter', 'Paul', 'Mary'],  # 이름 리스트
    'food': ['fish', 'beans', 'bread']  # 음식 리스트
}, columns=['name', 'food'])  # 열 순서 지정

# df7 DataFrame 생성
df7 = pd.DataFrame({
    'name': ['Mary', 'Joseph'],  # 이름 리스트
    'drink': ['wine', 'beer']    # 음료 리스트
}, columns=['name', 'drink'])      # 열 순서 지정

# df6 출력
print(df6)

# df7 출력
print(df7)

# df6과 df7을 'name' 열을 기준으로 병합
print(pd.merge(df6, df7))

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
   name   food drink
0  Mary  bread  wine


In [22]:
# df6 DataFrame 출력
print(df6)  # 'name'과 'food' 열을 가진 df6 DataFrame의 내용을 출력합니다.
# 예시 출력:
#     name       food
# 0  Peter        fish
# 1   Paul       beans
# 2   Mary       bread

# df7 DataFrame 출력
print(df7)  # 'name'과 'drink' 열을 가진 df7 DataFrame의 내용을 출력합니다.
# 예시 출력:
#      name  drink
# 0   Mary   wine
# 1  Joseph  beer

# df6과 df7을 'name' 열을 기준으로 내부 조인(inner join)하여 병합한 결과를 출력
print(pd.merge(df6, df7, how='inner'))  
# 'name' 열을 기준으로 df6과 df7을 병합합니다.
# 내부 조인(inner join)을 사용하므로, 양쪽 DataFrame에 모두 존재하는 'name' 값에 대해서만 병합이 이루어집니다.
# 예시 출력:
#    name   food  drink
# 0  Mary  bread   wine

Unnamed: 0,name,food,drink
0,Mary,bread,wine


In [23]:
# df6 DataFrame 출력
print(df6)  # 'name'과 'food' 열을 가진 df6 DataFrame의 내용을 콘솔에 출력합니다.
# 예시 출력:
#     name       food
# 0  Peter        fish
# 1   Paul       beans
# 2   Mary       bread

# df7 DataFrame 출력
print(df7)  # 'name'과 'drink' 열을 가진 df7 DataFrame의 내용을 콘솔에 출력합니다.
# 예시 출력:
#      name  drink
# 0   Mary   wine
# 1  Joseph  beer

# df6과 df7을 'name' 열을 기준으로 외부 조인(outer join)하여 병합한 결과를 출력
print(pd.merge(df6, df7, how='outer'))
# 외부 조인을 사용하면 양쪽 DataFrame에 있는 모든 행이 포함되며, 일치하지 않는 데이터는 NaN으로 표시됩니다.
# 예시 출력:
#      name       food  drink
# 0  Peter        fish    NaN
# 1   Paul       beans    NaN
# 2   Mary       bread   wine
# 3 Joseph         NaN   beer

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
     name   food drink
0   Peter   fish   NaN
1    Paul  beans   NaN
2    Mary  bread  wine
3  Joseph    NaN  beer


In [24]:
# df6 DataFrame 출력
print(df6)  # 'name'과 'food' 열을 가진 df6 DataFrame을 출력합니다.
# 예시 출력:
#     name       food
# 0  Peter        fish
# 1   Paul       beans
# 2   Mary       bread

# df7 DataFrame 출력
print(df7)  # 'name'과 'drink' 열을 가진 df7 DataFrame을 출력합니다.
# 예시 출력:
#      name  drink
# 0   Mary   wine
# 1  Joseph   beer

# df6과 df7을 'name' 열을 기준으로 왼쪽 외부 조인(left join)하여 병합한 결과를 출력
print(pd.merge(df6, df7, how='left'))  # 왼쪽 DataFrame(df6)의 모든 행을 유지하면서, 오른쪽 DataFrame(df7)과 'name' 열을 기준으로 병합합니다.
# 예시 출력:
#      name       food  drink
# 0  Peter        fish    NaN
# 1   Paul       beans    NaN
# 2   Mary       bread   wine
# 3 Joseph         NaN   beer

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
    name   food drink
0  Peter   fish   NaN
1   Paul  beans   NaN
2   Mary  bread  wine


In [25]:
# df6 DataFrame 출력
print(df6)  # 'name'과 'food' 열을 가진 df6 DataFrame의 내용을 콘솔에 출력합니다.
# 예시 출력:
#     name       food
# 0  Peter        fish
# 1   Paul       beans
# 2   Mary       bread

# df7 DataFrame 출력
print(df7)  # 'name'과 'drink' 열을 가진 df7 DataFrame의 내용을 콘솔에 출력합니다.
# 예시 출력:
#      name  drink
# 0   Mary   wine
# 1  Joseph   beer

# df6과 df7을 'name' 열을 기준으로 오른쪽 외부 조인(right join)하여 병합한 결과를 출력
print(pd.merge(df6, df7, how='right'))  
# 오른쪽 외부 조인(right join)을 사용하면 오른쪽 DataFrame(df7)의 모든 행이 포함되며,
# 왼쪽 DataFrame(df6)에 일치하는 데이터가 없는 경우 NaN으로 표시됩니다.
# 예시 출력:
#      name   food drink
# 0   Mary  bread  wine
# 1 Joseph     NaN beer

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread
     name drink
0    Mary  wine
1  Joseph  beer
     name   food drink
0    Mary  bread  wine
1  Joseph    NaN  beer


In [26]:
# df8 DataFrame 생성
df8 = pd.DataFrame({
    'name': ['Bob', 'Jake', 'Lisa', 'Sue'],  # 직원의 이름 리스트
    'rank': [1, 2, 3, 4]                      # 각 직원의 순위를 나타내는 리스트
})

# df9 DataFrame 생성
df9 = pd.DataFrame({
    'name': ['Bob', 'Jake', 'Lisa', 'Sue'],  # 직원의 이름 리스트 (df8과 동일)
    'rank': [3, 1, 4, 2]                      # 각 직원의 다른 순위를 나타내는 리스트
})

# df8 출력
print(df8)  # df8 DataFrame의 내용을 콘솔에 출력
# 출력 예시:
#    name  rank
# 0   Bob     1
# 1  Jake     2
# 2  Lisa     3
# 3   Sue     4

# df9 출력
print(df9)  # df9 DataFrame의 내용을 콘솔에 출력
# 출력 예시:
#    name  rank
# 0   Bob     3
# 1  Jake     1
# 2  Lisa     4
# 3   Sue     2

# df8과 df9를 'name' 열을 기준으로 병합하여 새로운 DataFrame 생성 및 출력
print(pd.merge(df8, df9, on='name'))
# 병합 결과 예시:
#    name  rank_x  rank_y
# 0   Bob       1       3
# 1  Jake       2       1
# 2  Lisa       3       4
# 3   Sue       4       2

# 상세 주석 설명:

# 1. df8 DataFrame 생성
#    - 'name' 열에는 직원의 이름이 담겨 있습니다.
#    - 'rank' 열에는 각 직원의 순위가 담겨 있습니다.
#    - 예를 들어, Bob의 순위는 1입니다.

# 2. df9 DataFrame 생성
#    - 'name' 열과 'rank' 열은 df8과 동일한 구조를 가지고 있습니다.
#    - 그러나 'rank' 값이 df8과 다르게 설정되어 있습니다.
#    - 예를 들어, Bob의 순위는 3으로 변경되었습니다.

# 3. df8 출력
#    - 생성된 df8 DataFrame의 내용을 확인하기 위해 출력합니다.
#    - 직원의 이름과 그에 따른 순위가 출력됩니다.

# 4. df9 출력
#    - 생성된 df9 DataFrame의 내용을 확인하기 위해 출력합니다.
#    - 직원의 이름과 그에 따른 다른 순위가 출력됩니다.

# 5. df8과 df9 병합
#    - `pd.merge()` 함수를 사용하여 df8과 df9를 병합합니다.
#    - 병합 기준 열은 'name'으로 설정하여, 두 DataFrame에서 동일한 이름을 가진 행끼리 병합됩니다.
#    - 병합 결과에서는 'rank' 열이 두 개 생기며, 각각 'rank_x' (df8의 rank)와 'rank_y' (df9의 rank)로 표시됩니다.
#    - 예를 들어, Bob의 경우 df8에서 rank_x는 1이고 df9에서 rank_y는 3입니다.
#    - 이와 같이 병합된 DataFrame을 통해 각 직원의 두 가지 순위를 한눈에 비교할 수 있습니다.

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4
   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2
   name  rank_x  rank_y
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2


In [27]:
# df8 DataFrame 출력
print(df8)  # 'name'과 'rank' 열을 가진 df8 DataFrame을 출력합니다.
# 예시 출력:
#    name  rank
# 0   Bob     1
# 1  Jake     2
# 2  Lisa     3
# 3   Sue     4

# df9 DataFrame 출력
print(df9)  # 'name'과 'rank' 열을 가진 df9 DataFrame을 출력합니다.
# 예시 출력:
#    name  rank
# 0   Bob     3
# 1  Jake     1
# 2  Lisa     4
# 3   Sue     2

# df8과 df9를 'name' 열을 기준으로 병합하여 새로운 DataFrame 생성 및 출력
print(pd.merge(df8, df9, on='name', suffixes=["_L", "_R"]))
# 'name' 열을 기준으로 df8과 df9를 내부 조인(inner join) 방식으로 병합합니다.
# 공통된 'name' 값을 가진 행들만 병합되며, 중복된 'rank' 열은 접미사 '_L'과 '_R'이 붙습니다.
# 예시 출력:
#    name  rank_L  rank_R
# 0   Bob       1       3
# 1  Jake       2       1
# 2  Lisa       3       4
# 3   Sue       4       2

   name  rank
0   Bob     1
1  Jake     2
2  Lisa     3
3   Sue     4
   name  rank
0   Bob     3
1  Jake     1
2  Lisa     4
3   Sue     2
   name  rank_L  rank_R
0   Bob       1       3
1  Jake       2       1
2  Lisa       3       4
3   Sue       4       2
