## 데이터 병합
------
- **concat**
- **merge**
- **join**
- **numpy array** 

- 데이터 병합하는 방법 - 대용량 데이터 다룰 때 유용하게 사용할 수 있음
- 크게 3가지 문법 데이터 병합 진행시
    - merge
    - concat
    - join 
    - 어떤 게 좋은 게 아니라 상황 (즉 데이터 분석가의 목적에 따라)에 따라 맞는 함수를 사용하시면 됩니다.
    - 고려해야 하는 부분은 잘못된 데이터 병합을 통해 문제가 발생할 수 있다.
    - 데이터 병합은 필수입니다. ML/DL 필수로 데이터 병합과정이 들어갈 것, 분석도 당연히 들어갑니다.
    - 내가 원하는 분석 데이터셋을 만들기 위해서는 흩어진 DB 테이블을 합쳐야 하는 경우가 발생할 것 -> sql로도 하겠지만 Python으로 데이터사이언스적인 분석을 진행할 경우는 많이 사용할 것

In [1]:
import pandas as pd 

df1 = pd.DataFrame({'A':[1,2,3],'B':[4,5,6]})
df2 = pd.DataFrame({'A':[4,5],'B':[6,7]})
df3 = pd.DataFrame({'A':[11,12],'B':[6,7],'C':[100,200]})

### Concat
#### 데이터프레임(덩어리) + 데이프레임(덩어리)
#### 데이터프레임(덩어리)
#### + 
#### 데이터프레임(덩어리)
#### axis = 0 행
#### axis = 1 열
#### concat([데이터프레임1, 데이터프레임2 .... 데이터프레임n])

In [4]:
display(df1, df2, df3)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


Unnamed: 0,A,B
0,4,6
1,5,7


Unnamed: 0,A,B,C
0,11,6,100
1,12,7,200


In [5]:
## df1+ df2
pd.concat([df1,df2],axis=0) #행기준 디폴트 

## 인덱싱이 0,1,2, 0,1

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
0,4,6
1,5,7


In [6]:
#열기준 디폴트 
pd.concat([df1,df2],axis=1) 

Unnamed: 0,A,B,A.1,B.1
0,1,4,4.0,6.0
1,2,5,5.0,7.0
2,3,6,,


### 3개 붙여보기

In [7]:
display(pd.concat([df1,df2,df3],axis=0))#행기준 디폴트 
display(pd.concat([df1,df2,df3],axis=1))#행기준 디폴트 

Unnamed: 0,A,B,C
0,1,4,
1,2,5,
2,3,6,
0,4,6,
1,5,7,
0,11,6,100.0
1,12,7,200.0


Unnamed: 0,A,B,A.1,B.1,A.2,B.2,C
0,1,4,4.0,6.0,11.0,6.0,100.0
1,2,5,5.0,7.0,12.0,7.0,200.0
2,3,6,,,,,


In [8]:
display(df1, df2, df3)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


Unnamed: 0,A,B
0,4,6
1,5,7


Unnamed: 0,A,B,C
0,11,6,100
1,12,7,200


### 인덱스를  재정렬
- ignore_index = True 리인덱싱 방법

In [9]:
display(pd.concat([df1,df2,df3],axis=0,ignore_index = True))

Unnamed: 0,A,B,C
0,1,4,
1,2,5,
2,3,6,
3,4,6,
4,5,7,
5,11,6,100.0
6,12,7,200.0


# merge
- concat와 다르게 merge의 가장 큰 차이(특징) join 키가 존재한다. sql pk, 공통의 컬럼으로 데이터를 병합할 수 있다.
- 공통의 컬럼 기준
- 그 컬럼의 기준을 통해서 데이터를 병합
- 처음 작성한 데이터프레임이 기준이 된다. (첫 번째가 된다.)

    - left - 병합할 첫 번째 데이터 프레임
    - right - 병합할 두 번째 데이터 프레임
    - how - 병합 방법 ( 디폴트는 inner, 'left' ,'right', 'outer', 'inner')
    - on - 공통 컬럼 지정하는 것, 지정하지 않으면 알아서 공통 열을 사용한다. 
    - left_on - 공통열을 지정하는데 두 테이블의 컬럼명이 다르지만 공통인 경우는 직접 지정을하여서 컬럼을 세팅해야 한다. (왼쪽 테이블 공통 컬럼)
    - right_on - 공통열을 지정하는데 두 테이블의 컬럼명이 다르지만 공통인 경우는 직접 지정을하여서 컬럼을 세팅해야 한다.(오른쪽 테이블 공통 컬럼)
    - left_index - 위와 위치는 동일하지만 index로 병합하는 것
    - right_index -  위와 위치는 동일하지만 index로 병합하는 것

In [10]:
df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','최길동','오길동'],
                   '분반':['프로그래밍','데이터분석','데이터사이언스','인공지능','데이터리터러시']})

df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','최길동','오길동'],
                   '점수':[100,80,90,80,75]})

In [11]:
display(df1, df2)

Unnamed: 0,이름,분반
0,홍길동,프로그래밍
1,박길동,데이터분석
2,이길동,데이터사이언스
3,최길동,인공지능
4,오길동,데이터리터러시


Unnamed: 0,이름,점수
0,홍길동,100
1,박길동,80
2,이길동,90
3,최길동,80
4,오길동,75


### 기본적인 merge : 알아서 공통의 컬럼이 이름이기 때문에 잡아준다.

In [12]:
pd.merge(df1,df2)

Unnamed: 0,이름,분반,점수
0,홍길동,프로그래밍,100
1,박길동,데이터분석,80
2,이길동,데이터사이언스,90
3,최길동,인공지능,80
4,오길동,데이터리터러시,75


### [데이터가 다른 케이스의 예외들 살펴보기]

In [13]:
df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','최길동','오길동'],
                   '분반':['프로그래밍','데이터분석','데이터사이언스','인공지능','데이터리터러시']})

df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','유길동','김길동'],
                   '점수':[100,80,90,80,75]})

df3 = pd.DataFrame({'이름':['홍길동','임길동','이길동','유길동','김길동'],
                   '벌점':[5,10,2,6,9]})

In [14]:
display(df1, df2, df3)

Unnamed: 0,이름,분반
0,홍길동,프로그래밍
1,박길동,데이터분석
2,이길동,데이터사이언스
3,최길동,인공지능
4,오길동,데이터리터러시


Unnamed: 0,이름,점수
0,홍길동,100
1,박길동,80
2,이길동,90
3,유길동,80
4,김길동,75


Unnamed: 0,이름,벌점
0,홍길동,5
1,임길동,10
2,이길동,2
3,유길동,6
4,김길동,9


In [15]:
pd.merge(df1,df2)

Unnamed: 0,이름,분반,점수
0,홍길동,프로그래밍,100
1,박길동,데이터분석,80
2,이길동,데이터사이언스,90


In [16]:
display(df1, df2, df3)

Unnamed: 0,이름,분반
0,홍길동,프로그래밍
1,박길동,데이터분석
2,이길동,데이터사이언스
3,최길동,인공지능
4,오길동,데이터리터러시


Unnamed: 0,이름,점수
0,홍길동,100
1,박길동,80
2,이길동,90
3,유길동,80
4,김길동,75


Unnamed: 0,이름,벌점
0,홍길동,5
1,임길동,10
2,이길동,2
3,유길동,6
4,김길동,9


In [17]:
pd.merge(df1,df2,df3) # 에러가 남

ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [18]:
display(df1, df2, df3)

Unnamed: 0,이름,분반
0,홍길동,프로그래밍
1,박길동,데이터분석
2,이길동,데이터사이언스
3,최길동,인공지능
4,오길동,데이터리터러시


Unnamed: 0,이름,점수
0,홍길동,100
1,박길동,80
2,이길동,90
3,유길동,80
4,김길동,75


Unnamed: 0,이름,벌점
0,홍길동,5
1,임길동,10
2,이길동,2
3,유길동,6
4,김길동,9


### how inner 교집합

In [20]:
pd.merge(df1,df2, how='inner')

Unnamed: 0,이름,분반,점수
0,홍길동,프로그래밍,100
1,박길동,데이터분석,80
2,이길동,데이터사이언스,90


In [21]:
pd.merge(df1,df2, how='left')

Unnamed: 0,이름,분반,점수
0,홍길동,프로그래밍,100.0
1,박길동,데이터분석,80.0
2,이길동,데이터사이언스,90.0
3,최길동,인공지능,
4,오길동,데이터리터러시,


In [22]:
pd.merge(df1,df2, how='right')

Unnamed: 0,이름,분반,점수
0,홍길동,프로그래밍,100
1,박길동,데이터분석,80
2,이길동,데이터사이언스,90
3,유길동,,80
4,김길동,,75


In [23]:
pd.merge(df1,df2, how='outer')

Unnamed: 0,이름,분반,점수
0,홍길동,프로그래밍,100.0
1,박길동,데이터분석,80.0
2,이길동,데이터사이언스,90.0
3,최길동,인공지능,
4,오길동,데이터리터러시,
5,유길동,,80.0
6,김길동,,75.0


In [24]:
## 공통 컬럼 join도 2개 이상으로 만들 수 있다. 

df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','최길동','오길동'],
                    '학번':[1,2,3,4,5],
                   '분반':['프로그래밍','데이터분석','데이터사이언스','인공지능','데이터리터러시']})

df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','유길동','김길동'],
                    '학번':[1,2,3,7,8],
                   '점수':[100,80,90,80,75]})

df3 = pd.DataFrame({'이름':['홍길동','임길동','이길동','유길동','김길동'],
                   '벌점':[5,10,2,6,9]})

In [25]:
display(df1, df2)

Unnamed: 0,이름,학번,분반
0,홍길동,1,프로그래밍
1,박길동,2,데이터분석
2,이길동,3,데이터사이언스
3,최길동,4,인공지능
4,오길동,5,데이터리터러시


Unnamed: 0,이름,학번,점수
0,홍길동,1,100
1,박길동,2,80
2,이길동,3,90
3,유길동,7,80
4,김길동,8,75


In [26]:
pd.merge(df1,df2,on=['이름','학번']) # on 안에 두 개 이상 Join 컬럼이 필요하면 작성하면 된다.

Unnamed: 0,이름,학번,분반,점수
0,홍길동,1,프로그래밍,100
1,박길동,2,데이터분석,80
2,이길동,3,데이터사이언스,90


In [27]:
df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','유길동','김길동'],
                    '학회원학번':[1,2,3,7,8],
                   '점수':[100,80,90,80,75]})

df3 = pd.DataFrame({'학생이름':['홍길동','임길동','이길동','유길동','김길동'],
                    '분반학번':[1,8,3,7,8],
                    '벌점':[5,10,2,6,9]})

In [28]:
display(df2, df3)

Unnamed: 0,이름,학회원학번,점수
0,홍길동,1,100
1,박길동,2,80
2,이길동,3,90
3,유길동,7,80
4,김길동,8,75


Unnamed: 0,학생이름,분반학번,벌점
0,홍길동,1,5
1,임길동,8,10
2,이길동,3,2
3,유길동,7,6
4,김길동,8,9


### 공통의 컬럼이 없으면 에러가 발생한다

In [29]:
pd.merge(df2,df3)

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [30]:
display(df2, df3)

Unnamed: 0,이름,학회원학번,점수
0,홍길동,1,100
1,박길동,2,80
2,이길동,3,90
3,유길동,7,80
4,김길동,8,75


Unnamed: 0,학생이름,분반학번,벌점
0,홍길동,1,5
1,임길동,8,10
2,이길동,3,2
3,유길동,7,6
4,김길동,8,9


### on을 통해 다른 컬럼명의 경우 지정할 수 있다.

In [31]:
pd.merge(df2, df3, left_on ='이름',right_on='학생이름', how='outer')

Unnamed: 0,이름,학회원학번,점수,학생이름,분반학번,벌점
0,홍길동,1.0,100.0,홍길동,1.0,5.0
1,박길동,2.0,80.0,,,
2,이길동,3.0,90.0,이길동,3.0,2.0
3,유길동,7.0,80.0,유길동,7.0,6.0
4,김길동,8.0,75.0,김길동,8.0,9.0
5,,,,임길동,8.0,10.0


### index 기준으로 지정할 수 있다.

In [32]:
df2_idx =df2.set_index('이름') # 데이터프레임에서 인덱스를 지정하는 것
df2_idx.reset_index() #인덱스를 다시 푸는 방법

Unnamed: 0,이름,학회원학번,점수
0,홍길동,1,100
1,박길동,2,80
2,이길동,3,90
3,유길동,7,80
4,김길동,8,75


### 인덱스가 지정된 경우에는 left_index 인자 이용해서 병합할 수 있다.

In [33]:
pd.merge(df2_idx, df3, left_index=True, right_on='학생이름')

Unnamed: 0,학회원학번,점수,학생이름,분반학번,벌점
0,1,100,홍길동,1,5
2,3,90,이길동,3,2
3,7,80,유길동,7,6
4,8,75,김길동,8,9


## join
- on - 병합할 때 사용할 열 이름, 지정하지 않으면 인덱스 기준으로 병합
- how - 동일
- suffix - 컬럼을 지정하라는 뜻

### 지정을 하지 않고 바로 join을 하면 인덱스 기준으로 합쳐서 모든 값들이 다 출력됨.

In [34]:
df2.join(df3) 

Unnamed: 0,이름,학회원학번,점수,학생이름,분반학번,벌점
0,홍길동,1,100,홍길동,1,5
1,박길동,2,80,임길동,8,10
2,이길동,3,90,이길동,3,2
3,유길동,7,80,유길동,7,6
4,김길동,8,75,김길동,8,9


### 컬럼을 지정하지 않으면 계속해서 인덱스 기준으로 붙여진다.
- df2.join(df3, how='inner', on='이름')

In [35]:
df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','유길동','김길동'],
                    '학회원학번':[1,2,3,7,8],
                   '점수':[100,80,90,80,75]})

df3 = pd.DataFrame({'이름':['홍길동','임길동','이길동','유길동','김길동'],
                    '분반학번':[1,8,3,7,8],
                    '벌점':[5,10,2,6,9]})

In [36]:
# 인덱스를 '이름'으로 설정 후 join 수행
df2_indexed = df2.set_index('이름')
df3_indexed = df3.set_index('이름')

# inner join
result = df2_indexed.join(df3_indexed, how='inner')
print(result)

     학회원학번   점수  분반학번  벌점
이름                       
홍길동      1  100     1   5
이길동      3   90     3   2
유길동      7   80     7   6
김길동      8   75     8   9


In [37]:
result_outer = df2_indexed.join(df3_indexed, how='outer')
print(result_outer)

     학회원학번     점수  분반학번    벌점
이름                           
김길동    8.0   75.0   8.0   9.0
박길동    2.0   80.0   NaN   NaN
유길동    7.0   80.0   7.0   6.0
이길동    3.0   90.0   3.0   2.0
임길동    NaN    NaN   8.0  10.0
홍길동    1.0  100.0   1.0   5.0


In [38]:
result_left = df2_indexed.join(df3_indexed, how='left')
print(result_left)

     학회원학번   점수  분반학번   벌점
이름                        
홍길동      1  100   1.0  5.0
박길동      2   80   NaN  NaN
이길동      3   90   3.0  2.0
유길동      7   80   7.0  6.0
김길동      8   75   8.0  9.0


In [39]:
result_right = df2_indexed.join(df3_indexed, how='right')
print(result_right)

     학회원학번     점수  분반학번  벌점
이름                         
홍길동    1.0  100.0     1   5
임길동    NaN    NaN     8  10
이길동    3.0   90.0     3   2
유길동    7.0   80.0     7   6
김길동    8.0   75.0     8   9


In [40]:
result_suffixes = df2_indexed.join(df3_indexed, how='inner', lsuffix='_df2', rsuffix='_df3')
print(result_suffixes)

     학회원학번   점수  분반학번  벌점
이름                       
홍길동      1  100     1   5
이길동      3   90     3   2
유길동      7   80     7   6
김길동      8   75     8   9


In [41]:
## 데이터 프레임을 세 개 정도 한 번에 합치고 싶은 경우!

df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','최길동','오길동'],
                   '분반':['프로그래밍','데이터분석','데이터사이언스','인공지능','데이터리터러시']})

df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','유길동','김길동'],
                   '점수':[100,80,90,80,75]})

df3 = pd.DataFrame({'이름':['홍길동','임길동','이길동','유길동','김길동'],
                   '벌점':[5,10,2,6,9]})

In [42]:
from functools import reduce

#병합할 데이터프레임을 한 번에 넣는다.

dfs =[df1, df2, df3]
mg_df_all =reduce(lambda left, right : pd.merge(left, right, on='이름',how='inner'),dfs)

In [43]:
mg_df_all

Unnamed: 0,이름,분반,점수,벌점
0,홍길동,프로그래밍,100,5
1,이길동,데이터사이언스,90,2


### 데이터 병합에서 실수할 수 있는 부분

In [44]:
df3['이름'].drop_duplicates()

0    홍길동
1    임길동
2    이길동
3    유길동
4    김길동
Name: 이름, dtype: object

In [45]:
df1_d = pd.DataFrame({'이름':['홍길동','홍길동','홍길동','최길동','오길동'],
                   '분반':['프로그래밍','데이터분석','데이터사이언스','인공지능','데이터리터러시']})

df2_d = pd.DataFrame({'이름':['홍길동','이길동','이길동','유길동','김길동'],
                   '점수':[100,80,90,80,75]})

df3_d = pd.DataFrame({'이름':['홍길동','임길동','이길동','유길동','유길동'],
                   '벌점':[5,10,2,6,9]})

### 데이터를 병합할 때 꼭 pk 공통으로 사용할 컬럼이 중복값이 있는지를 사전에 확인을 해야 한다!!

In [46]:
pd.merge(df1_d, df2_d)

Unnamed: 0,이름,분반,점수
0,홍길동,프로그래밍,100
1,홍길동,데이터분석,100
2,홍길동,데이터사이언스,100


In [47]:
pd.merge(df2_d, df3_d)

Unnamed: 0,이름,점수,벌점
0,홍길동,100,5
1,이길동,80,2
2,이길동,90,2
3,유길동,80,6
4,유길동,80,9


## Numpy 로 데이터 병합
- array(배열)
- 1차원, 2차원간의 연산과 병합 진행할 때 사용
- np.concatenate
- np.hstack
- np.vstack
- np.column_stack

In [48]:
import numpy as np
np.array(df1)

array([['홍길동', '프로그래밍'],
       ['박길동', '데이터분석'],
       ['이길동', '데이터사이언스'],
       ['최길동', '인공지능'],
       ['오길동', '데이터리터러시']], dtype=object)

In [49]:
array1 = np.array([[1,2,3],[4,5,6]])
array2 = np.array([[7,8,9],[10,11,12]])

In [50]:
array1

array([[1, 2, 3],
       [4, 5, 6]])

In [51]:
array2

array([[ 7,  8,  9],
       [10, 11, 12]])

In [52]:
np.concatenate((array1, array2), axis=0) # 배열의 행(row) 방향으로 결합

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [53]:
np.concatenate((array1, array2), axis=1) # 배열의 열(column) 방향으로 결합

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [54]:
np.hstack((array1, array2)) # 두 배열을 수평(horizontal) 방향으로 이어붙임 => 열(column) 방향으로 결합(축 axis=1 과 동일)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [55]:
np.vstack((array1, array2)) # 두 배열을 수직(vertical) 방향으로 이어붙임 => 행(row) 방향으로 결합됩니다. (축 axis=0 과 동일)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

### 컬럼으로 나눠서 데이터를 병합할 수 있다.

In [56]:
np.column_stack((array1[0], array2[0]))

array([[1, 7],
       [2, 8],
       [3, 9]])

In [57]:
array1[0]

array([1, 2, 3])

In [58]:
array2[0]

array([7, 8, 9])

In [59]:
np.column_stack((array1[1], array2[1]))

array([[ 4, 10],
       [ 5, 11],
       [ 6, 12]])