# 데이터 결합(Concat, Append)
#### [ Series, Dataframe 데이터 기본연결 ] 
#### [ 인덱스 복제 ]
#### [ 조인을 이용한 연결 - concat()]
#### [ append() 메서드 ]

In [1]:
import pandas as pd
import numpy as np

print("pandas ver : ",pd.__version__)
print("numpy ver : ",np.__version__)

pandas ver :  0.24.2
numpy ver :  1.16.4


In [25]:
# Dataframe 객체 생성
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


### [ Series, Dataframe 데이터 기본연결 ] 

- Series, Dataframe 객체를 간단하게 연결
- **`pandas.concat()`**
  - `pandas.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True)`

In [26]:
# 결과 정보 보기
class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

- **Series연결**

In [27]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
print("ser1 : \n",ser1)
print()
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
print("ser2 : \n",ser2)
print()
result = pd.concat([ser1, ser2])
print("result : \n",result)

ser1 : 
 1    A
2    B
3    C
dtype: object

ser2 : 
 4    D
5    E
6    F
dtype: object

result : 
 1    A
2    B
3    C
4    D
5    E
6    F
dtype: object


- **Dataframe 연결**

- 기본적인 연결은 행단위(axis=0)로 연결됨

In [28]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
display('df1', 'df2', 'pd.concat([df1, df2])')

Unnamed: 0,A,B
1,A1,B1
2,A2,B2

Unnamed: 0,A,B
3,A3,B3
4,A4,B4

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


- 열단위(axis=1)로 연결

In [29]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
display('df3', 'df4', 'pd.concat([df3, df4], axis=1)')

Unnamed: 0,A,B
0,A0,B0
1,A1,B1

Unnamed: 0,C,D
0,C0,D0
1,C1,D1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


In [35]:
print(pd.concat([df3, df4], axis=1))

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


### [ 인덱스 복제 ]
- numpy.concatenate 와 pandas.concat 의 차이점은 연결되었어도 복제된 인덱스를 가지더라도 인덱스를 유지함

In [36]:
arr1 = np.array([1,2,3])
arr2 = np.array([4,5,6])
result_arr = np.concatenate([arr1,arr2])
print(result_arr)
print(type(result_arr))

[1 2 3 4 5 6]
<class 'numpy.ndarray'>


In [44]:
# Dataframe 선언
x = make_df('AB',[0,1])
y = make_df('cd',[2,3])
print(x)
print()
print(y)

    A   B
0  A0  B0
1  A1  B1

    c   d
2  c2  d2
3  c3  d3


In [45]:
# Dataframe 합치기
result_df1 = pd.concat([x,y])
print(result_df1)

     A    B    c    d
0   A0   B0  NaN  NaN
1   A1   B1  NaN  NaN
2  NaN  NaN   c2   d2
3  NaN  NaN   c3   d3


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


In [42]:
# x index 값
x.index.values

array([0, 1])

In [43]:
# y index 값 
y.index.values

array([2, 3])

- 복제 인덱스 생성

In [46]:
# x index를 y에 복제
y.index = x.index

In [47]:
print(x.index.values)
print(y.index.values)

[0 1]
[0 1]


In [57]:
# 기존 인덱스를 이용하여 값에 접근 -> 에러
print('y["c"][2] : ',y['c'][2])

KeyError: 2

In [55]:
# x의 index 를 복제한 값으로 접근 
print(y)
print()
print('y["c"][1] : ',y['c'][1])

    c   d
0  c2  d2
1  c3  d3

y["c"][1] :  c3


- x, y Dataframe 결합

In [58]:
result_df2 = pd.concat([x, y])
print(result_df2)

     A    B    c    d
0   A0   B0  NaN  NaN
1   A1   B1  NaN  NaN
0  NaN  NaN   c2   d2
1  NaN  NaN   c3   d3


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


- 결합한 result_df2 Dataframe의 index 가 반복되고 있음

In [59]:
result_df2['c'][0]

0    NaN
0     c2
Name: c, dtype: object

- 컬럼 c에 index가 0인 값을 접근하면 2개의 결과가 출력됨
- 인덱스가 복제가 되었을때 반복되는 인덱스가 발생 할 수 있기때문에 바람직하지 않은 결과를 가져옴
- **인덱스 반복되는 상황을 에러로 처리** 할 수 있음 
  - `verify_integerity=True` 파라미터를 이용하여 에러로 처리함

In [66]:
# index 중복 에러를 출력
try:
    pd.concat([x,y], verify_integrity=True)
except ValueError as e:
    print("ValueError : ", e)


ValueError :  Indexes have overlapping values: Int64Index([0, 1], dtype='int64')


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  This is separate from the ipykernel package so we can avoid doing imports until


- **index 무시하고 합치기**
  - `ignore_index=True` 파리미터를 이용하여 합칠때 index를 무시하고 새로운 정수형 인덱스를 생성

In [67]:
result_df3 = pd.concat([x,y], ignore_index=True)
print(result_df3)

     A    B    c    d
0   A0   B0  NaN  NaN
1   A1   B1  NaN  NaN
2  NaN  NaN   c2   d2
3  NaN  NaN   c3   d3


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


- 다중인덱스를 이용하여 합쳐서 중복되는 인덱스를 구분

In [68]:
result_df4 = pd.concat([x,y], keys=['x','y'])
print(result_df4)

       A    B    c    d
x 0   A0   B0  NaN  NaN
  1   A1   B1  NaN  NaN
y 0  NaN  NaN   c2   d2
  1  NaN  NaN   c3   d3


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


In [78]:
# Dataframe[컬럼명][다중인덱스1][다중인덱스2]
result_df4['c']['y'][0]

'c2'

In [85]:
# .iloc[ 행 , 열 ] : 인덱스 번호(암묵적 접근)로 접근
#df2 =health_data.iloc[2:4, 4:]
result_df4.iloc[2:3, 2:3]

Unnamed: 0,Unnamed: 1,c
y,0,c2


In [88]:
# .loc[ 행 , 열 ] : 인덱스 키로 접근, 튜플 형태로 명시적으로 표현 가능(튜플 안에서 슬라이싱은 안됨,에러발생)
#val = health_data.loc[(2013,2) , ('Bob','HR') ]
result_df4.loc[('y',0),('c')]

'c2'

### [ 조인을 이용한 연결 ]
- 서로 다른 컬럼명을 가진 데이터를 연결
- 데이터를 합쳤을 경우 채울값이 없을경우 NaN으로 표시됨

In [91]:
a = make_df('ABC',[0,1,2])
b = make_df('Bde',[3,4,5])
print("a : ")
print(a)
print()
print("b : ")
print(b)

a : 
    A   B   C
0  A0  B0  C0
1  A1  B1  C1
2  A2  B2  C2

b : 
    B   d   e
3  B3  d3  e3
4  B4  d4  e4
5  B5  d5  e5


In [92]:
result_df5 = pd.concat([a,b])
print("result_df : ")
print(result_df5)

result_df : 
     A   B    C    d    e
0   A0  B0   C0  NaN  NaN
1   A1  B1   C1  NaN  NaN
2   A2  B2   C2  NaN  NaN
3  NaN  B3  NaN   d3   e3
4  NaN  B4  NaN   d4   e4
5  NaN  B5  NaN   d5   e5


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


- `join=outer`과 `join_axes=None` 옵션을 이용하여 NaN 값을 바꿀 수 있음
  - join = {'outer', 'inner'}
  - join_axes = list of index objects

In [95]:
# join = inner (교집합으로 합침)
# join = outer (합집합으로 합침, Default 값)
result_join = pd.concat([a,b], join='inner')
print(result_join)
print(type(result_join))

    B
0  B0
1  B1
2  B2
3  B3
4  B4
5  B5
<class 'pandas.core.frame.DataFrame'>


In [96]:
# join_axes=[컬럼지정]
result_join2 = pd.concat([a,b], join_axes=[a.columns])
print(result_join2)

     A   B    C
0   A0  B0   C0
1   A1  B1   C1
2   A2  B2   C2
3  NaN  B3  NaN
4  NaN  B4  NaN
5  NaN  B5  NaN


### [ append() 메서드 ]

- pd.concat([a,b]) 와 동일하게 **`append()`**를 이용하여 합침
- 기존 데이터 객체에 새로운 데이터를 추가 되는것은 아니고 **새롭게 합쳐진 데이터를 반환함**
- `DataFrame.append(self, other, ignore_index=False, verify_integrity=False, sort=None)`
- `Series.append(self, to_append, ignore_index=False, verify_integrity=False)`

In [106]:
print(pd.concat([a,b]))

     A   B    C    d    e
0   A0  B0   C0  NaN  NaN
1   A1  B1   C1  NaN  NaN
2   A2  B2   C2  NaN  NaN
3  NaN  B3  NaN   d3   e3
4  NaN  B4  NaN   d4   e4
5  NaN  B5  NaN   d5   e5


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


In [110]:
a_b = a.append(b)
print(a_b)
print(type(a_b))

     A   B    C    d    e
0   A0  B0   C0  NaN  NaN
1   A1  B1   C1  NaN  NaN
2   A2  B2   C2  NaN  NaN
3  NaN  B3  NaN   d3   e3
4  NaN  B4  NaN   d4   e4
5  NaN  B5  NaN   d5   e5
<class 'pandas.core.frame.DataFrame'>


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  sort=sort)


In [108]:
print(a)

    A   B   C
0  A0  B0  C0
1  A1  B1  C1
2  A2  B2  C2


- append() 를 여러번 사용하여 데이터를 추가하지 않고 pd.concat()으로 합치는것이 좀더 효율적임(append 는 인덱스를 만들고 버퍼를 생성함)