# 1. 데이터프레임 병합

In [35]:
# Import Pandas
import pandas as pd

In [36]:
# 새로운 데이터 프레임을 만들기
# 데이터 프레임 정의 : https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
raw_data = {'Bank Client ID': ['1', '2', '3', '4', '5'],
            'First Name': ['Nancy', 'Alex', 'Shep', 'Max', 'Allen'], 
            'Last Name': ['Rob', 'Ali', 'George', 'Mitch', 'Steve']}

# 컬럼을 다음으로 지정한다.
bank1_df = pd.DataFrame(raw_data, columns = ['Bank Client ID', 'First Name', 'Last Name'])
bank1_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve


In [37]:
# 새로운 데이터 프레임을 생성하기
raw_data = {
        'Bank Client ID': ['6', '7', '8', '9', '10'],
        'First Name': ['Bill', 'Dina', 'Sarah', 'Heather', 'Holly'], 
        'Last Name': ['Christian', 'Mo', 'Steve', 'Bob', 'Michelle'],
        }

bank2_df = pd.DataFrame(raw_data, columns = ['Bank Client ID', 'First Name', 'Last Name'])
bank2_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Sarah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [38]:
# 두 데이터 프레임을 병합한다.
# 병합 대상의 columns가 존재하지 않는 경우 NaN으로 채워진다.
# 여기서 index는 두 데이터 프레임이 가지고 있는 인덱스로 채워진다.
bank_all_df = pd.concat([bank1_df, bank2_df])
bank_all_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve
0,6,Bill,Christian
1,7,Dina,Mo
2,8,Sarah,Steve
3,9,Heather,Bob
4,10,Holly,Michelle


In [39]:
# 두 데이터 프레임을 연결
# ignore_index = True 설정을 하게되면 인덱스를 설정하게된다.
bank_all_df = pd.concat([bank1_df, bank2_df], ignore_index=True)
bank_all_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve
5,6,Bill,Christian
6,7,Dina,Mo
7,8,Sarah,Steve
8,9,Heather,Bob
9,10,Holly,Michelle


In [40]:
len(bank_all_df)

10

# 2. 멀티 인덱싱을 통한 데이터 프레임 병합
데이터를 더 직관적으로 구조화할 수 있고,<br>
복잡한 데이터를 효율적으로 조회, 그룹화, 통계 처리할 수 있으며, <br>
데이터 분석 성능도 최적화된다.

In [41]:
# 그룹핑을 통한 인덱싱
bank_all_df = pd.concat([bank1_df, bank2_df], keys = ["Customers Group 1", "Customers Group 2"])
bank_all_df

Unnamed: 0,Unnamed: 1,Bank Client ID,First Name,Last Name
Customers Group 1,0,1,Nancy,Rob
Customers Group 1,1,2,Alex,Ali
Customers Group 1,2,3,Shep,George
Customers Group 1,3,4,Max,Mitch
Customers Group 1,4,5,Allen,Steve
Customers Group 2,0,6,Bill,Christian
Customers Group 2,1,7,Dina,Mo
Customers Group 2,2,8,Sarah,Steve
Customers Group 2,3,9,Heather,Bob
Customers Group 2,4,10,Holly,Michelle


In [42]:
# 그룹 인덱싱
bank_all_df.loc["Customers Group 1"]

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve


In [43]:
# 다중 인덱싱을 사용하여 요소에 액세스
bank_all_df.loc[("Customers Group 1"),0]

Bank Client ID        1
First Name        Nancy
Last Name           Rob
Name: (Customers Group 1, 0), dtype: object

In [44]:
# 다중 인덱싱을 사용하여 요소에 액세스
bank_all_df.loc[("Customers Group 2"), 'First Name']

0       Bill
1       Dina
2      Sarah
3    Heather
4      Holly
Name: First Name, dtype: object

In [45]:
# 다중 인덱스의 열의 범위까지 인덱싱
bank_all_df.loc[("Customers Group 1"), :"First Name"]

Unnamed: 0,Bank Client ID,First Name
0,1,Nancy
1,2,Alex
2,3,Shep
3,4,Max
4,5,Allen


# 3. 데이터 병합

In [46]:
# 두 데이터 프레임을 연결한다.
# ignore_index 인덱싱 설정
bank_all_df = pd.concat([bank1_df, bank2_df], ignore_index = True)
bank_all_df

Unnamed: 0,Bank Client ID,First Name,Last Name
0,1,Nancy,Rob
1,2,Alex,Ali
2,3,Shep,George
3,4,Max,Mitch
4,5,Allen,Steve
5,6,Bill,Christian
6,7,Dina,Mo
7,8,Sarah,Steve
8,9,Heather,Bob
9,10,Holly,Michelle


In [47]:
# 은행 고객에 대한 추가 정보(연봉)를 추가한다고 가정하고
# 해당 데이터를 데이터프레임으로 표현한다.
# 여기 raw_data와 columns의 레이블이 같아야 한다.
raw_data = {
        'Bank Client ID': ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10'],
        'Annual Salary [$/year]': [25000, 35000, 45000, 48000, 49000, 32000, 33000, 34000, 23000, 22000]}
bank_salary_df = pd.DataFrame(raw_data, columns = ['Bank Client ID','Annual Salary [$/year]'])
bank_salary_df

Unnamed: 0,Bank Client ID,Annual Salary [$/year]
0,1,25000
1,2,35000
2,3,45000
3,4,48000
4,5,49000
5,6,32000
6,7,33000
7,8,34000
8,9,23000
9,10,22000


In [48]:
# 은행 고객 ID의 모든 데이터를 병합하기
# on = 병합할 기준 키값 
bank_all_df = pd.merge(bank_all_df, bank_salary_df, on = 'Bank Client ID')
bank_all_df


Unnamed: 0,Bank Client ID,First Name,Last Name,Annual Salary [$/year]
0,1,Nancy,Rob,25000
1,2,Alex,Ali,35000
2,3,Shep,George,45000
3,4,Max,Mitch,48000
4,5,Allen,Steve,49000
5,6,Bill,Christian,32000
6,7,Dina,Mo,33000
7,8,Sarah,Steve,34000
8,9,Heather,Bob,23000
9,10,Holly,Michelle,22000
