### 데이터세트 결합 : Concat과 Append
판다스는 이러한 유형의 데이터 랭글링을 빠르고 간단하게 할 수 있는 함수와 메서드를 제공한다.  
*랭글링: 원데이터(raw data)를 또 다른 형태로 전환하거나 매핑하는 과정을 말하는 것으로 또 다른 말로 data munging 데이터 먼징이라고 함 

### 복습 NumPy 배열 연결

In [1]:
import pandas as pd
import numpy as np

x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

첫 번째 인수는 연결한 배열의 리스트나 튜플이다 axis 키워드를 사용해서 결과를 어느 축에 따라 연결할 것인지 결정 할  수 있다.

In [2]:
x = [[1, 2],
     [3, 4]]
np.concatenate([x, x], axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

In [5]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


### pd.concat을 이용한 간단한 연결
NumPy와 구문이 비슷하지만 다양한 옵션을 가진 pd.concat()함수가 있다.

In [6]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [7]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
display('df1', 'df2', 'pd.concat([df1, df2])')

'df1'

'df2'

'pd.concat([df1, df2])'

### 인덱서 복제
np.concatenate와 pd.concat의 중요한 차이는 Pandas에서의 연결은 그 결과가 복제된 인덱스를 가지더라도 인덱스를 유지하는데 있다.

In [8]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index  # make duplicate indices!
display('x', 'y', 'pd.concat([x, y])')

'x'

'y'

'pd.concat([x, y])'

결과에서 인덱스가 반복된다. 이것은 데이터프레임내에서는 유효하지만 결과가 바람직하지 않은 경우가 종종 있다. pd.concat()은 이 문제를 처리하는 몇가지 방법을 제공한다.  
1. 반복을 에러로 잡아낸다.  
pd.concat()의 결과에서 인덱스가 겹치지 않는지 간단히 검증하고 싶으면 verify_integrity 플래그를 지정하면된다. 이 플래그를 True로 설정하면 연결 작업에서 중복 인덱스가 있을 때 예외가 발생한다. 확인을 위해 오류를 잡아내고 메세지를 출력하자

In [9]:
try:
    pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


2. 인덱스를 무시한다.  
인덱스 자체가 중요하지 않은 겨웅에는 그냥 인덱스를 무시하고 싶을 것이다. ignore_index플래그를 사용해 이 옵션을 지정할 수 있다. 이 플래그를 True로 설정하면 연결작업은 결과 Series에 새로운 정수 인덱스를 생성한다.

In [10]:
display('x', 'y', 'pd.concat([x, y], ignore_index=True)')

'x'

'y'

'pd.concat([x, y], ignore_index=True)'

3. 다중 인덱스 키를 추가한다.  
데이터 소스에 대한 레이블을 지정하는데 keys옵션을 사용하는 것이다. 결과는 데이터를 포함하는 계층적 인덱스를 가진 시리즈가 된다.

In [11]:
display('x', 'y', "pd.concat([x, y], keys=['x', 'y'])")

'x'

'y'

"pd.concat([x, y], keys=['x', 'y'])"

결과는 다중 인덱스를 가지는 DataFrame이며 147쪽 계층적 인덱싱에서 살펴본 도구를 사용해 이 데이터를 관심 있는 표현 방식으로 전환할 수 있다.

### 조인을 이용한 연결 168p