In [1]:
import pandas as pd

# 데이터프레임 연결하기(concat)
* pd.**concat(데이터프레임리스트)**     
데이터프레임이 **동일한 컬럼명 기준으로** 행으로 연결된다.   
<br>
* pd.concat(데이터프레임리스트, <b>axis=1</b>)
<br>
데이터프레임이 <b>동일한 인덱스 기준으로</b> 열로 연결된다.  

## 행으로 연결하기

In [2]:
# 샘플 데이터
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])
df3 = pd.DataFrame([['e', 5, '!'], ['f', 6, '@']], columns=['letter', 'number', 'etc'])

In [3]:
df1

Unnamed: 0,letter,number
0,a,1
1,b,2


In [4]:
df2

Unnamed: 0,letter,number
0,c,3
1,d,4


In [5]:
df3

Unnamed: 0,letter,number,etc
0,e,5,!
1,f,6,@


### 컬럼명 기준으로 연결하기

In [8]:
df_rowconcat = pd.concat([df1,df2,df3])
df_rowconcat

Unnamed: 0,letter,number,etc
0,a,1,
1,b,2,
0,c,3,
1,d,4,
0,e,5,!
1,f,6,@


### 공통된 컬럼만 남기기
* <b>join='inner'</b> 

In [10]:
df_rowconcat = pd.concat([df1,df2,df3], join='inner')

In [11]:
df_rowconcat.loc[0]

Unnamed: 0,letter,number
0,a,1
0,c,3
0,e,5


### 인덱스 재지정
* **ignore_index=True** 

In [14]:
df_rowconcat = pd.concat([df1,df2,df3], join='inner',ignore_index=True)
df_rowconcat

Unnamed: 0,letter,number
0,a,1
1,b,2
2,c,3
3,d,4
4,e,5
5,f,6


## 열로 연결하기

In [16]:
# 샘플 데이터
df4 = pd.DataFrame({'age':[20,21,22]},index = ['amy','james','david'])
df5 = pd.DataFrame({'phone':['010-111-1111','010-222-2222','010-333-3333']},index = ['amy','james','david']
)
df6 = pd.DataFrame({'job':['student','programmer','ceo','designer']},index = ['amy','james','david','J']
)

In [17]:
df4

Unnamed: 0,age
amy,20
james,21
david,22


In [18]:
df5

Unnamed: 0,phone
amy,010-111-1111
james,010-222-2222
david,010-333-3333


In [19]:
df6

Unnamed: 0,job
amy,student
james,programmer
david,ceo
J,designer


### 인덱스를 기준으로 연결하기

In [23]:
df_column_concat = pd.concat([df4,df5,df6], axis=1)
df_column_concat

Unnamed: 0,age,phone,job
amy,20.0,010-111-1111,student
james,21.0,010-222-2222,programmer
david,22.0,010-333-3333,ceo
J,,,designer


### 공통된 인덱스만 남기기

In [25]:
df_column_concat = pd.concat([df4,df5,df6], axis=1, join='inner')
df_column_concat

Unnamed: 0,age,phone,job
amy,20,010-111-1111,student
james,21,010-222-2222,programmer
david,22,010-333-3333,ceo


# 공통된 열을 기준으로 연결하기(merge)

* pd.**merge**(left,right,on=기준컬럼,how=연결방법)
* 2개의 데이터프레임을 연결한다.

In [26]:
df = pd.read_csv('data/scores.csv')
df7 = df.loc[[1,2,3]][['name','eng']]
df8 = df.loc[[1,2,4]][['name','math']]

In [27]:
df7

Unnamed: 0,name,eng
1,Charles,80.0
2,Danial,100.0
3,Evan,100.0


In [28]:
df8

Unnamed: 0,name,math
1,Charles,75.0
2,Danial,100.0
4,Henry,60.0


## 공통 데이터만으로 연결
* how='inner'(default)

In [29]:
pd.merge(df7, df8, on='name')

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0


In [30]:
pd.merge(df7, df8, on='name', how='inner')

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0


## 모든 행 연결
* how='outer'

In [31]:
pd.merge(df7, df8, on='name', how='outer')

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0
2,Evan,100.0,
3,Henry,,60.0


## 왼쪽 데이터프레임 기준으로 연결

In [32]:
pd.merge(df7, df8, on='name', how='left')

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0
2,Evan,100.0,


## 오른쪽 데이터프레임 기준으로 연결

In [33]:
pd.merge(df7, df8, on='name', how='right')

Unnamed: 0,name,eng,math
0,Charles,80.0,75.0
1,Danial,100.0,100.0
2,Henry,,60.0
