In [1]:
import pandas as pd

In [2]:
df1 = pd.DataFrame(dict(v1 = [100, 200, 500],
                        v2 = ["a", "b", "c"]))
df2 = pd.DataFrame(dict(v1 = [100, 200, 900],
                        col2 = ["a", "b", "c"]))

### concat()
데이터프레임 객체를 이어붙이는 작업을 하며 "axis"인자로 이어붙이는 방향을 지정할 수 있다. 이 때, 각 객체의 인덱스 때문에 제대로 작업이 수행되지 않는 경우가 발생할 수 있기 때문에 주의한다.  
※ .reset_index() 메서드 사용 권장.
  
이어붙이는 데이터프레임은 한 번에 3개 이상도 가능하다. 단, 데이터프레임 객체는 리스트 객체의 원소 형태로 함수에 입력해야 한다.
> pd.concat(\[ 데이터프레임1, 데이터프레임2 \])

In [3]:
pd.concat([df1, df2]) # axis의 기본값은 0이고 변수명 매칭이 되지 않았음.

Unnamed: 0,v1,v2,col2
0,100,a,
1,200,b,
2,500,c,
0,100,,a
1,200,,b
2,900,,c


In [4]:
pd.concat([df1, df2], 
          ignore_index = True) # ignore_index는 결과 객체의 row 인덱스 초기화

Unnamed: 0,v1,v2,col2
0,100,a,
1,200,b,
2,500,c,
3,100,,a
4,200,,b
5,900,,c


In [5]:
df3 = df2.copy()
df3.columns = df1.columns # df1의 변수명을 df3에 덮어씀.
pd.concat([df1, df2])

Unnamed: 0,v1,v2,col2
0,100,a,
1,200,b,
2,500,c,
0,100,,a
1,200,,b
2,900,,c


In [6]:
pd.concat([df1, df2], axis = 1)

Unnamed: 0,v1,v2,v1.1,col2
0,100,a,100,a
1,200,b,200,b
2,500,c,900,c


In [12]:
df_con = pd.concat([df1, df2], axis = 1)
df_con

Unnamed: 0,v1,v2,v1.1,col2
0,100,a,100,a
1,200,b,200,b
2,500,c,900,c


In [13]:
df_con = df_con.rename(columns = {"v1": "v3"})
df_con

Unnamed: 0,v3,v2,v3.1,col2
0,100,a,100,a
1,200,b,200,b
2,500,c,900,c


In [19]:
df_con.columns = ["v1", "v2", "v3", "col2"]
df_con

Unnamed: 0,v1,v2,v3,col2
0,100,a,100,a
1,200,b,200,b
2,500,c,900,c


concat() 함수 결과로 나온 데이터프레임의 경우 인덱스(변수명 포함)가 같은 것이 있을 경우 향후 연산에서 문제가 생길 수 있기 때문에 이를 반드시 처리하고 다음 단계의 연산을 수행해야 함.

### join()
SQL에서 사용하는 테이블간의 Join 연산과 같다. 다양한 Join연산이 있으나 데이터분석에서는 거의 대부분 Left Join과 Inner Join을 사용한다. 간혹 복수개의 변수를 기준으로 특정 데이터프레임의 차집합을 구하고자 할 때 semi Anti Join을 사용할 수도 있다.
* .join(): 데이터프레임의 index를 기준으로 Join 연산
* .merge(): 데이터프레임의 변수를 기준으로 Join 연산  
 ※ 보통 .merge() 를 많이 사용

In [7]:
# Inner Join이 기본
df1.merge(df2) # 변수명을 생략할 경우 공동 변수명을 기준으로 Join 연산

Unnamed: 0,v1,v2,col2
0,100,a,a
1,200,b,b


In [8]:
df1.merge(df2, how = "left")

Unnamed: 0,v1,v2,col2
0,100,a,a
1,200,b,b
2,500,c,


In [9]:
df1.merge(df2, on = "v1") # 두 객체의 변수명이 같은경우 "on" 인자 사용 가능

Unnamed: 0,v1,v2,col2
0,100,a,a
1,200,b,b


In [10]:
# 두 객체의 변수명이 다른 경우 "left_on" 인자와 "right_on" 인자 사용 필수
df1.merge(df2, left_on = "v2", right_on = "col2")

Unnamed: 0,v1_x,v2,v1_y,col2
0,100,a,100,a
1,200,b,200,b
2,500,c,900,c


Join 연산을 실시할 때 변수명이 겹치게 되면 left에 해당하는 객체의 변수명에는 접미사 "\_x"가 붙고 right에 해당하는 변수명에는 접미사 "\_y"가 자동으로 붙는다. 그래서 되도록이면 Join연산 전에 변수명을 유심히 보고 사전조치하는 것이 좋다.