## 데이터프레임 합치기

- 데이터가 여러 군데 나누어져 있을 때 합치거나 데이터를 연결해야하는 경우가 있다. 판다스에서 데이터프레임을 합치거나 연결할 때 사용하는 함수와 메소드는 여러가지가 있다.
- concat(), merge(), join()등을 예를 들수 있다.

### 데이터프레임 연결

- 서로 다른 데이터프레임들의 구성 형태와 속성이 균일하다면, 행 또는 열 중에 어느 한방향으로 이어 붙여도 데이터의 일관성을 유지할 수 있다.
- 기존 데이터프레임의 형태를 유지하면서 이어 붙이는 개념으로 판다스 concat() 함수를 활용한다. pandas.concat(데이터프레임 리스트)
- 축 방향을 지정하지 않으면 기본옵션 (axis=0)이 적용되어  위아해 행방향으로 연결된다. 각 데이터프레임의 행 인덱스는 형태를 유지한다.
- join='outer' 옵션이 기본 적용되어, df1의 열이름(A,B,C), df2의 열 이름(B,C,D,E)의 합집합으로 연결 데이터프레임의 열이름의 배열 (A,B,C,D,E)를 구성한다.
- join='inner' 옵션의 경우 데이터프레임에 공통으로 속하느 교집합(B,C)가 기준이 된다.

In [1]:
# 라이브러리 불러오기
import pandas as pd

# 데이터프레임 만들기
df1 = pd.DataFrame({'a': ['a0', 'a1', 'a2', 'a3'],
                    'b': ['b0', 'b1', 'b2', 'b3'],
                    'c': ['c0', 'c1', 'c2', 'c3']},
                    index=[0, 1, 2, 3])
 
df2 = pd.DataFrame({'a': ['a2', 'a3', 'a4', 'a5'],
                    'b': ['b2', 'b3', 'b4', 'b5'],
                    'c': ['c2', 'c3', 'c4', 'c5'],
                    'd': ['d2', 'd3', 'd4', 'd5']},
                    index=[2, 3, 4, 5])

print(df1, '\n')
print(df2, '\n')

# 2개의 데이터프레임을 위 아래 행 방향으로 이어 붙이듯 연결하기 
result1 = pd.concat([df1, df2])
print(result1, '\n')

    a   b   c
0  a0  b0  c0
1  a1  b1  c1
2  a2  b2  c2
3  a3  b3  c3 

    a   b   c   d
2  a2  b2  c2  d2
3  a3  b3  c3  d3
4  a4  b4  c4  d4
5  a5  b5  c5  d5 

    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
2  a2  b2  c2   d2
3  a3  b3  c3   d3
4  a4  b4  c4   d4
5  a5  b5  c5   d5 



df1의 열중 'd'열이 없기 때문에 concat과정에서 NaN 값으로 채워진다.

ignore_index=True 옵션은 기존 행 인덱스를 무시하고 새로운 행인덱스를 설정한다.

In [2]:
# ignore_index=True 옵션 설정하기 
result2 = pd.concat([df1, df2], ignore_index=True)
print(result2, '\n')


    a   b   c    d
0  a0  b0  c0  NaN
1  a1  b1  c1  NaN
2  a2  b2  c2  NaN
3  a3  b3  c3  NaN
4  a2  b2  c2   d2
5  a3  b3  c3   d3
6  a4  b4  c4   d4
7  a5  b5  c5   d5 



axis=1옵션을 사용하면 데이터프레임을 좌우 열 방향으로 연결한다. 따라서 기존 열 이름 배열이 그대로 유지된다. 연결되는 데이터프레임의 행인덱스는, join='outer' 옵션이 기본값으로 적용되어 각 데이터프레임의 행인덱들의 합집합으로 구성된다.

In [3]:
# 2개의 데이터프레임을 좌우 열 방향으로 이어 붙이듯 연결하기 
result3 = pd.concat([df1, df2], axis=1)
print(result3, '\n')

     a    b    c    a    b    c    d
0   a0   b0   c0  NaN  NaN  NaN  NaN
1   a1   b1   c1  NaN  NaN  NaN  NaN
2   a2   b2   c2   a2   b2   c2   d2
3   a3   b3   c3   a3   b3   c3   d3
4  NaN  NaN  NaN   a4   b4   c4   d4
5  NaN  NaN  NaN   a5   b5   c5   d5 



여기서 join='inner'로 설정하면 행 인덱스의 교집합을 기준으로 교집합을 기준으로 사용한다.

In [4]:
# join='inner' 옵션 적용하기(교집합)
result3_in = pd.concat([df1, df2], axis=1, join='inner')
print(result3_in, '\n')


    a   b   c   a   b   c   d
2  a2  b2  c2  a2  b2  c2  d2
3  a3  b3  c3  a3  b3  c3  d3 



데이터프레임과 시리즈를 좌우 열 방향으로 연결할 수도 있다. 데이터 프레임에 열을 추가하는 것과 같다. 이때 시리즈이름이 데이터 프레임의 열이름으로 변환된다. 데이터프레임의 행 인덱스와 시리즈의 인덱스가 같아야한다. 없을경우 NaN처리가 되니 알아두자.

시리즈와 시리즈를 axis=1옵션으로 concat하면 데이터프레임이되지만, axis=0 이면 긴 시리즈형태를 갖는다.

In [5]:
# 시리즈 만들기
sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name='e')
sr2 = pd.Series(['f0', 'f1', 'f2'], name='f', index=[3, 4, 5])
sr3 = pd.Series(['g0', 'g1', 'g2', 'g3'], name='g')

# df1과 sr1을 좌우 열 방향으로 연결하기
result4 = pd.concat([df1, sr1], axis=1)
print(result4, '\n')

# df2과 sr2을 좌우 열 방향으로 연결하기
result5 = pd.concat([df2, sr2], axis=1, sort=True)
print(result5, '\n')

# sr1과 sr3을 좌우 열 방향으로 연결하기
result6 = pd.concat([sr1, sr3], axis=1)
print(result6, '\n')

result7 = pd.concat([sr1, sr3], axis=0)
print(result7, '\n')

    a   b   c   e
0  a0  b0  c0  e0
1  a1  b1  c1  e1
2  a2  b2  c2  e2
3  a3  b3  c3  e3 

    a   b   c   d    f
2  a2  b2  c2  d2  NaN
3  a3  b3  c3  d3   f0
4  a4  b4  c4  d4   f1
5  a5  b5  c5  d5   f2 

    e   g
0  e0  g0
1  e1  g1
2  e2  g2
3  e3  g3 

0    e0
1    e1
2    e2
3    e3
0    g0
1    g1
2    g2
3    g3
dtype: object 

