In [1]:
import pandas as pd
import numpy as np

### pandas.concat
> pandas.concat(objs, *, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=None)   

단순 결합으로 두 데이터 프레임을 단순 연결.

objs : 결합할 데이터 프레임   
axis : 0일 경우 행에 추가, 1일 경우 열에 추가. 기본값 0   
join : 교집합으로 결합하는 inner과 합집합으로 결합하는 outer 설정 가능. 기본값 outer   
ignore_index : 기존 index를 무시하고 재설정할건지 여부를 불리언 값으로 결정. False의 경우 기존 인덱스를 유지. True의 경우 결합된 데이터프레임에 대해 새로 인덱스가 생성. 기본값 False   
keys : 사용시 튜플 포함. 전달된 키를 인덱스로 사용. 기본값 없음   
level : multiindex를 구성하는데 사용할 고유값. 기본값 없음
name : level에 대한 이름. list 형식으로 입력. 기본값 없음   
verify_integrity : 중복된 인덱스 발생을 방지하기 위한 옵션 True를 사용시 중복된 컬럼이 있을 경우 error 메세지 출력   
sort : bool 값으로 사용, 컬럼명을 기준으로 정렬할지 여부를 결정. 
copy :   

In [2]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])
pd.concat([s1, s2]) 

0    a
1    b
0    c
1    d
dtype: object

In [3]:
pd.concat([s1, s2], ignore_index=True) #ignore_index = True를 통해 인덱스 새로 부여

0    a
1    b
2    c
3    d
dtype: object

In [4]:
pd.concat([s1, s2], keys=['s1', 's2']) # 병합한 각각의 데이터에 대한 추가적인 index를 부여. 

s1  0    a
    1    b
s2  0    c
    1    d
dtype: object

In [5]:
pd.concat([s1, s2], keys=['s1', 's2'], names=['Series name', 'Row ID']) #각 index에 대해 이름 부여

Series name  Row ID
s1           0         a
             1         b
s2           0         c
             1         d
dtype: object

In [6]:
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number']) # columns를 이용하여 컬럼에 이름 부여
df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])
df3 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']], columns=['letter', 'number', 'animal'])
df4 = pd.DataFrame([['bird', 'polly'], ['monkey', 'george']], columns=['animal', 'name'])
df5 = pd.DataFrame([1], index=['a'])
df6 = pd.DataFrame([2], index=['a'])

for i in range(1,7):    
    print('df', str(i) , '\n' ,locals()['df'+str(i)], '\n')

df 1 
   letter  number
0      a       1
1      b       2 

df 2 
   letter  number
0      c       3
1      d       4 

df 3 
   letter  number animal
0      c       3    cat
1      d       4    dog 

df 4 
    animal    name
0    bird   polly
1  monkey  george 

df 5 
    0
a  1 

df 6 
    0
a  2 



In [7]:
pd.concat([df1, df2])

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [8]:
tmp1 = pd.concat([df1, df3], sort=False) #sort는 column 순서의 정렬을 결정하는 명령어. 
tmp2 = pd.concat([df1, df3], sort=True)
print(tmp1,'\n')
print(tmp2)

  letter  number animal
0      a       1    NaN
1      b       2    NaN
0      c       3    cat
1      d       4    dog 

  animal letter  number
0    NaN      a       1
1    NaN      b       2
0    cat      c       3
1    dog      d       4


In [9]:
pd.concat([df1, df3], join="inner") #교집합 결합. 

Unnamed: 0,letter,number
0,a,1
1,b,2
0,c,3
1,d,4


In [None]:
pd.concat([df1, df4], axis=1) #axis =1인경우 열 단위로 데이터를 추가. 기본값 0인경우는 행 단위로 데이터를 추가. 


Unnamed: 0,letter,number,animal,name
0,a,1,bird,polly
1,b,2,monkey,george


In [13]:
pd.concat([df5, df6], verify_integrity=True) #index에서 중복을 방지하기 위한 명령어. 중복된 index가 존재하면 error 출력

ValueError: Indexes have overlapping values: Index(['a'], dtype='object')

### pandas.merge

>DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=None, indicator=False, validate=None)

right : 데이터 프레임 혹은 시리즈 이름   
how : {‘left’, ‘right’, ‘outer’, ‘inner’, ‘cross’}, 기본값 ‘inner’    
    - left : 왼쪽 프레임에서 기준 키 사용.    
    - right : 오른쪽 프레임에서 기준 키 사용   
    - outer : 양쪽 프레임에서 결합한 키를 사용. 합집합 개념   
    - inner : 양쪽 프레임에서 공통된 키를 사용. 교집합 개념.   
    - corss : 왼쪽 키의 순서를 유지하고 두 프레임에서의 데카르트 곱을 생성.
on : 컬럼이나 인덱스 이름을 사용. 단 양쪽 데이터 프레임 모두에 존재 해야 함.    
left_ on : 왼쪽 데이터 프레임에서 조인할 열의 또는 인덱스의 이름. 레이블 또는 list 또는 배열 사용   
right_on : 오른쪽 데이터 프레임에서 조인할 열의 이름 또는 인덱스의 이름. 레이블 또는 list 또는 배열 사용   
left_indesx: 왼쪽 데이터 프레임의 index를 조인키로 사용
right _index : 오른쪽 데이터 프레임의 index를 조인키로 사용.
sort : 결과 dataframe에서 조인키를 사전식으로 정렬. 
suffixes: 기본값 (“_x”, “_y”), 각 컬럼의 출신을 구분하기 위해 붙이는 구분자
copy :    
indicator: True일 경우 각 행의 소스에 대한 정보가 있는 "_merge"라는 열을 출력 dataframe에 추가. 문자열 인수를 통해 이름 지정 가능. 기본값 false   
validate: 지정된 경우 병합이 지정된 유형인지 확인. 
    - one_to_one : 양쪽 데이터 세트에서 병합키가 고유한지 확인. 
    - one_to_many : 왼쪽 데이터 세트에서 병합키가 고유한지 확인
    - many-to-one :  오른쪽 데이터 세트에서 병합키가 고유한지 확인
    - many-to-many : 검사가 수행 x


In [30]:
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],'value': [5, 6, 7, 8]})

df3 = pd.DataFrame({'a': ['foo', 'bar'], 'b': [1, 2]})
df4 = pd.DataFrame({'a': ['foo', 'baz'], 'c': [3, 4]})

df5 = pd.DataFrame({'left': ['foo', 'bar']})
df6 = pd.DataFrame({'right': [7, 8]})

In [31]:
df1.merge(df2, left_on='lkey', right_on='rkey')

Unnamed: 0,lkey,value_x,rkey,value_y
0,foo,1,foo,5
1,foo,1,foo,8
2,bar,2,bar,6
3,baz,3,baz,7
4,foo,5,foo,5
5,foo,5,foo,8


In [32]:
df1.merge(df2, left_on='lkey', right_on='rkey', suffixes=('_left', '_right')) #기존 컬럼에는 _left, 추가한 컬럼에는 _right 추가. 

Unnamed: 0,lkey,value_left,rkey,value_right
0,foo,1,foo,5
1,foo,1,foo,8
2,bar,2,bar,6
3,baz,3,baz,7
4,foo,5,foo,5
5,foo,5,foo,8


In [33]:
df1.merge(df2, left_on='lkey', right_on='rkey', suffixes=(False, False)) #컬럼에 중복이 있을 경우 suffixes가 부여되지 않으면 error이 발생. 


ValueError: columns overlap but no suffix specified: Index(['value'], dtype='object')

In [34]:
df3.merge(df4, how='inner', on='a')

Unnamed: 0,a,b,c
0,foo,1,3


In [None]:
df5.merge(df6, how='cross') #기존 값마다 새로 겹치는 데이터 프레임의 값을 전부 할당. 

Unnamed: 0,left,right
0,foo,7
1,foo,8
2,bar,7
3,bar,8
