In [1]:
import pandas as pd
import numpy as np

In [2]:
#DataFrame을 생성하는 함수 정의
def make_df(cols,ind):
    """빠르게 DataFrame 생성"""
    data={c:[str(c)+str(i) for i in ind]
         for c in cols}
    return pd.DataFrame(data,ind)

#DataFrame 예제
make_df('ABC',range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


# 복습: NumPy 배열 연결

In [3]:
x=[1,2,3]
y=[4,5,6]
z=[7,8,9]
np.concatenate([x,y,z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
#첫 번째 인수는 연결한 배열의 리스트나 튜플이다
#axis 키워드를 사용해 결과를 어느 축에 따라 연결할 것인지 지정할 수 있다
x=[[1,2],
  [3,4]]
np.concatenate([x,x],axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

# pd.concat을 이용한 간단한 열결

In [5]:
#pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False,
#          keys=None,levels=None,names=None,verify_integrity=False,copy=True)
#Series나 DataFrame 객체를 간단하게 연결
ser1=pd.Series(['A','B','C'],index=[1,2,3])
ser2=pd.Series(['D','E','F'],index=[4,5,6])
pd.concat([ser1,ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [6]:
df1=make_df('AB',[1,2])
df2=make_df('AB',[3,4])
print(df1); print(df2); print(pd.concat([df1,df2]))

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [7]:
#기본적으로 연결은 행 단위(axis=0)로 일어나지만 어느 축을 따라 연결할 것인지 지정 가능
df3=make_df('AB',[0,1])
df4=make_df('CD',[0,1])
print(df3); print(df4); print(pd.concat([df3,df4],axis=1))

    A   B
0  A0  B0
1  A1  B1
    C   D
0  C0  D0
1  C1  D1
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


In [8]:
#인덱스 복제
x=make_df('AB',[0,1])
y=make_df('AB',[2,3])
y.index=x.index   #복제 인덱스 생성
print(x)
print(y)
print(pd.concat([x,y]))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [9]:
#인덱스 자체가 중요하지 않은 경우에는 ignore_index=True로 설정하여 연결 작업 결과 Series에 새로우 정수 인덱스 생성
print(x)
print(y)
print(pd.concat([x,y],ignore_index=True))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3


In [10]:
#데이터 소스에 대한 레이블을 지정하는 데 keys옵션을 사용하면 그 데이터를 포함하는 계층적 인덱스를 가진 시리즈가 될 것이다
print(x)
print(y)
print(pd.concat([x,y],keys=['x','y']))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
      A   B
x 0  A0  B0
  1  A1  B1
y 0  A2  B2
  1  A3  B3


In [11]:
#조인을 이용한 연결
df5=make_df('ABC',[1,2])
df6=make_df('BCD',[3,4])
print(df5)
print(df6)
print(pd.concat([df5,df6]))  #채울 값이 없는 항목은 기본적으로 NA 값으로 채워진다

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
     A   B   C    D
1   A1  B1  C1  NaN
2   A2  B2  C2  NaN
3  NaN  B3  C3   D3
4  NaN  B4  C4   D4


In [12]:
#기본적으로 조인은 입력 열의 합집합 (join='outer')이지만, join='inner'를 사용해 이를 열의 교집합으로 변경
#남은 열의 인덱스를 직접 지정 가능 , join_axes메서드 사용
print(df5)
print(df6)
print(pd.concat([df5,df6],join='inner'))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
    B   C   D
3  B3  C3  D3
4  B4  C4  D4
    B   C
1  B1  C1
2  B2  C2
3  B3  C3
4  B4  C4


In [13]:
#append() 메서드
#원래의 객체를 변경하지 않는 대신 결합된 데이터를 가지는 새로운 객제를 만든다
print(df1)
print(df2)
print(df1.append(df2))

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4
