# DataFrame 결합 / 병합 / 연결 방안
실제 DataSet 들은 , 두 DataSet이 다른 DataFrame에 존재하는 등 위치가 다른 경우가 많음.

이럴 경우에 어떻게 DataFrame을 결합할지에 대해 학습하고 기록해 두었음.

DataFrame 결합방법은 크게 세가지로 나뉨.

1. 결합
2. 연결
3. 병합

차례대로 각 방법에 대해 정리하고 기록해 두었음.


In [1]:
# Import Pandas
import pandas as pd

## 1. DataFrame 결합
각기다른 DataFrame을 결합하는 방안에 대해 학습


아래 메서드로 각기다른 DataFrame 연결 가능
- ignore_index 파라미터로 True를 주면, Index 재 설정 가능 (default : False)
```
pd.concat([dataFrame_name_1, dataFrame_name_2, ...], ignore_index=True|False)
```

.append() 메서드를 통해 연결 가능
- .append() 메서드 달린 DataFrame이 먼저 들어가고, 이후에 파라미터로 들어가는 DataFrame이 들어감.
```
bank_all_df = bank2_df.append(bank1_df, ignore_index=True)
bank_all_df
```

In [3]:
# test용 첫번째 DataFrame 생성
raw_data = {'Bank Client ID' : ['1', '2', '3', '4', '5'],
    'First Name': ['Nancy', 'Alex', 'Shep', 'Max', 'Allen'],
    'Last Name': ['Rob','Ali', 'George', 'Mitch', 'Steve']}

raw_data

bank1_df = pd.DataFrame(raw_data, columns= ['Bank Client ID', 'First Name', 'Last Name'])
bank1_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve


In [4]:
# test용 두번째 DataFrame 생성
raw_data = {'Bank Client ID' : ['6', '7', '8', '9', '10'],
    'First Name': ['Bill', 'Dina', 'Serah', 'Heather', 'Holly'],
    'Last Name': ['Christian','Mo', 'Steve', 'Bob', 'Michelle']}

raw_data

bank2_df = pd.DataFrame(raw_data, columns= ['Bank Client ID', 'First Name', 'Last Name'])
bank2_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Serah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [5]:
# pd.concat([dataFrame_name_1, dataFrame_name_2, ...]) 메서드로 위에서 만든 두개의 bank1_df, bank2_df DataFrame을 하나로 합칠 수 있음.
# 여러개의 DataFrame을 하나로 합치는것이 가능함.
# 그러나 기본적으로 각 DataFrame의 index값은 변하지 않음.
bank_all_df = pd.concat([bank1_df, bank2_df])
bank_all_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Serah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [6]:
bank_all_df = pd.concat([bank1_df, bank2_df], ignore_index=True)
bank_all_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve
5,6,Bill,Christian
6,7,Dina,Mo
7,8,Serah,Steve
8,9,Heather,Bob
9,10,Holly,Michelle


In [8]:
# 결과 확인 , 길이
len(bank_all_df)

10

In [10]:
# .append() 메서드를 통해 연결 가능
# .append() 메서드 달린 DataFrame이 먼저 들어가고, 이후에 파라미터로 들어가는 DataFrame이 들어감.
# ignore_index 파라미터도 동일하게 작동
bank_all_df = bank2_df.append(bank1_df, ignore_index=True)
bank_all_df

  bank_all_df = bank2_df.append(bank1_df, ignore_index=True)


Unnamed: 0,Bank Client ID,First Name,Last Name
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Serah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle
5,1,Nancy,Rob
6,2,Alex,Ali
7,3,Shep,George
8,4,Max,Mitch
9,5,Allen,Steve


In [13]:
my_dic = {'Last Name':['JinSeong', 'test', 'testName'],
          'First Name':['Ju','t','tN'],
          'Bank Client ID': ['312','12', '133']}

bank3_df = pd.DataFrame(my_dic, columns = ['Bank Client ID', 'First Name', 'Last Name'])
bank3_df


bank_all_df.append(bank3_df, ignore_index=True)

  bank_all_df.append(bank3_df, ignore_index=True)


Unnamed: 0,Bank Client ID,First Name,Last Name
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Serah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle
5,1,Nancy,Rob
6,2,Alex,Ali
7,3,Shep,George
8,4,Max,Mitch
9,5,Allen,Steve


## 2. Multi Indexing으로 각기 다른 DataFrame 연결하기
멀티 인덱싱을 통해 DataFrame을 연결하는 방안

인덱싱 레이어를 추가해서 결합하는 방법.
- 기존 Index컬럼을 제외해고 대분류를 만드는 느낌임.

```
# 인덱싱 레이어 추가
# 기존의 Index를 제외하고 새로운 컬럼을 생성해서 인덱스를 또 생성함.
# pd.concat() 파라미터중 key 로 리스트가 들어가는데, 이 key가 인덱싱 레이어
bank_all_df = pd.concat([bank1_df, bank2_df], keys = ['Customers Group 1', 'Customers Group 2'])
bank_all_df
```



In [14]:
# 테스트용 데이터프레임 1
bank1_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve


In [15]:
# 테스트용 데이터프레임 2
bank2_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Serah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [17]:
# 인덱싱 레이어 추가
# 기존의 Index를 제외하고 새로운 컬럼을 생성해서 인덱스를 또 생성함.
# pd.concat() 파라미터중 key 로 리스트가 들어가는데, 이 key가 인덱싱 레이어
# 결과를 확인해보면 key에 들어간 값이 각 DataFrame앞에 붙어서 결합된것을 볼 수 있음.
bank_all_df = pd.concat([bank1_df, bank2_df], keys = ['Customers Group 1', 'Customers Group 2'])
bank_all_df

Unnamed: 0,Unnamed: 1,Bank Client ID,First Name,Last Name
Customers Group 1,0,1,Nancy,Rob
Customers Group 1,1,2,Alex,Ali
Customers Group 1,2,3,Shep,George
Customers Group 1,3,4,Max,Mitch
Customers Group 1,4,5,Allen,Steve
Customers Group 2,0,6,Bill,Christian
Customers Group 2,1,7,Dina,Mo
Customers Group 2,2,8,Serah,Steve
Customers Group 2,3,9,Heather,Bob
Customers Group 2,4,10,Holly,Michelle


In [18]:
# .loc() 메서드로 특정 인덱스 레이어를 선택하면, 해당 인덱스 레이어를 가져올 수 있음.
# : 의 의미는 , Python 슬라이스라고 보면 됨. Customers Group 1 부터 Customers Group 1의 끝까지 가져와라 라는 의미
# 주의할것은 실제 슬라이스는 아니라서, 슬라이스 동작 (1:, 1:3 ... ) 은 먹히지 않음.
bank_all_df.loc[('Customers Group 1'), :]

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve


In [21]:
# : 부분에 특정 값을 넣어서, 특정 행을 꺼내올 수 있음.
# 0번째 행 (FirstName : Nancy , BankClientId : 1 , LastName : Rob) 을 꺼내옴
bank_all_df.loc['Customers Group 1', 0]

Bank Client ID        1
First Name        Nancy
Last Name           Rob
Name: (Customers Group 1, 0), dtype: object

In [23]:
# Index 값이 아닌 컬럼값을 넣어주면, 해당 컬럼값의 값을 다 가져올 수 있음.
bank_all_df.loc[('Customers Group 2', 'First Name')]

0       Bill
1       Dina
2      Serah
3    Heather
4      Holly
Name: First Name, dtype: object

In [27]:
my_dic = {'Last Name':['JinSeong', 'test', 'testName'],
          'First Name':['Ju','t','tN'],
          'Bank Client ID': ['312','12', '133']}



bank_all_df2 = pd.concat([bank1_df, bank2_df, bank3_df], keys = ['Customers Group 1','Customers Group 2', 'Customers Group 3'])
bank_all_df2

Unnamed: 0,Unnamed: 1,Bank Client ID,First Name,Last Name
Customers Group 1,0,1,Nancy,Rob
Customers Group 1,1,2,Alex,Ali
Customers Group 1,2,3,Shep,George
Customers Group 1,3,4,Max,Mitch
Customers Group 1,4,5,Allen,Steve
Customers Group 2,0,6,Bill,Christian
Customers Group 2,1,7,Dina,Mo
Customers Group 2,2,8,Serah,Steve
Customers Group 2,3,9,Heather,Bob
Customers Group 2,4,10,Holly,Michelle


In [28]:
bank_all_df2.loc[('Customers Group 3'), :]

Unnamed: 0,Bank Client ID,First Name,Last Name
0,312,Ju,JinSeong
1,12,t,test
2,133,tN,testName


## 3. Data Merging (병합)
각기 다른 DataFrame을 특정 컬럼(열) 을 기준으로 합치는 방안.



```
# Bank Client ID 를 기준으로 두개의 DataFrame을 마지함.
# pd.merge() 메서드를 사용하는데, 파라미터 순서로
# 먼저 마지 대상이 되는 DataFrame을 넣고, 그다음 붙일 DataFrmae을 넣어줌. 세번째로 마지 기준이 되는 컬럼을 on = '' 뒤에 값으로 넣어줌.
# 예시에서는 Bank Client ID 를 기준으로 두었음.
bank_all_df = pd.merge(bank_all_df, bank_salary_df, on = 'Bank Client ID')
bank_all_df
```



In [31]:
# Test용 DataFrame 결합
# 기존의 방법과 동일함.
bank_all_df = pd.concat([bank1_df, bank2_df], ignore_index= True)
bank_all_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve
5,6,Bill,Christian
6,7,Dina,Mo
7,8,Serah,Steve
8,9,Heather,Bob
9,10,Holly,Michelle


In [35]:
# 새롭게 붙을 DataFrame 생성
raw_data = {'Bank Client ID': ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10'],
            'Annual Salary [$/year]': [25000, 35000, 45000, 48000, 49000, 32000, 33000, 34000, 23000, 22000]}

raw_data

bank_salary_df = pd.DataFrame(raw_data, columns=['Bank Client ID', 'Annual Salary [$/year]'])
bank_salary_df

Unnamed: 0,Bank Client ID,Annual Salary [$/year]
0,1,25000
1,2,35000
2,3,45000
3,4,48000
4,5,49000
5,6,32000
6,7,33000
7,8,34000
8,9,23000
9,10,22000


In [36]:
# Bank Client ID 를 기준으로 두개의 DataFrame을 마지함.
# pd.merge() 메서드를 사용하는데, 파라미터 순서로
# 먼저 마지 대상이 되는 DataFrame을 넣고, 그다음 붙일 DataFrmae을 넣어줌. 세번째로 마지 기준이 되는 컬럼을 on = '' 뒤에 값으로 넣어줌.
# 예시에서는 Bank Client ID 를 기준으로 두었음.
bank_all_df = pd.merge(bank_all_df, bank_salary_df, on = 'Bank Client ID')
bank_all_df

Unnamed: 0,Bank Client ID,First Name,Last Name,Annual Salary [$/year]
0,1,Nancy,Rob,25000
1,2,Alex,Ali,35000
2,3,Shep,George,45000
3,4,Max,Mitch,48000
4,5,Allen,Steve,49000
5,6,Bill,Christian,32000
6,7,Dina,Mo,33000
7,8,Serah,Steve,34000
8,9,Heather,Bob,23000
9,10,Holly,Michelle,22000


In [42]:
new_info = {'Bank Client ID': ['1', '2', '3', '4', '5', '6', '7', '8', '9',' 10'],
    'credit card debt': ['1', '2', '3', '4', '5', '6', '7', '8', '9',' 10'],
            'age': ['154', '223', '31', '42', '51', '61', '73', '82', '92',' 101']}

new_info_df = pd.DataFrame(new_info, columns=['Bank Client ID','credit card debt', 'age'])
new_info_df

Unnamed: 0,Bank Client ID,credit card debt,age
0,1,1,154
1,2,2,223
2,3,3,31
3,4,4,42
4,5,5,51
5,6,6,61
6,7,7,73
7,8,8,82
8,9,9,92
9,10,10,101


In [43]:
new_bank_all_df = pd.merge(bank_all_df, new_info_df , on = 'Bank Client ID')
new_bank_all_df

Unnamed: 0,Bank Client ID,First Name,Last Name,Annual Salary [$/year],credit card debt,age
0,1,Nancy,Rob,25000,1,154
1,2,Alex,Ali,35000,2,223
2,3,Shep,George,45000,3,31
3,4,Max,Mitch,48000,4,42
4,5,Allen,Steve,49000,5,51
5,6,Bill,Christian,32000,6,61
6,7,Dina,Mo,33000,7,73
7,8,Serah,Steve,34000,8,82
8,9,Heather,Bob,23000,9,92
