### concat 함수 기초

#### 행 방향 데이터 병합

In [1]:
import pandas as pd
df1 = pd.DataFrame({"A":[1,2,3], "B":[1,2,3]})
df2 = pd.DataFrame({"A":[4,5], "B":[4,5]})
display(df1)
display(df2)

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3


Unnamed: 0,A,B
0,4,4
1,5,5


In [2]:
display(pd.concat([df1, df2], axis = 0, ignore_index = True))
display(pd.concat([df1, df2], axis = 0, ignore_index = False))

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5


Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
0,4,4
1,5,5


#### 열 방향 데이터 병합

In [3]:
df1 = pd.DataFrame({"A":[1,2,3], "B":[4,5,6]})
df2 = pd.DataFrame({"C":[7,8,9]})
display(pd.concat([df1, df2], axis = 1, ignore_index = True))
display(pd.concat([df1, df2], axis = 1, ignore_index = False))

Unnamed: 0,0,1,2
0,1,4,7
1,2,5,8
2,3,6,9


Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [4]:
df2.index = ["a", "b", "c"]
display(pd.concat([df1, df2], axis = 1, ignore_index = False))

Unnamed: 0,A,B,C
0,1.0,4.0,
1,2.0,5.0,
2,3.0,6.0,
a,,,7.0
b,,,8.0
c,,,9.0


### concat 함수 응용: 여러 파일 불러와서 병합하기

In [5]:
import os
os.listdir("../../데이터/판다스") 

['base_sample.csv',
 'tsv_샘플.txt',
 '날짜_샘플.csv',
 '변수10개_샘플.csv',
 '병합예제_1.csv',
 '병합예제_2.csv',
 '병합예제_3.csv',
 '병합예제_4.csv',
 '병합예제_5.csv',
 '재무제표샘플_대원미디어.csv',
 '재무제표샘플데이터.csv',
 '주가리포트_샘플.txt',
 '한글_샘플.csv']

In [6]:
my_path = "../../데이터/판다스"
merged_df = pd.DataFrame()
for file in os.listdir(my_path):
    if "병합예제" in file:
        df = pd.read_csv(my_path + "/" + file)
        merged_df = pd.concat([merged_df, df], axis = 0, ignore_index = True)
display(merged_df)

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8
8,9,9
9,10,10


### merge 함수

#### on 인자

In [7]:
df1 = pd.DataFrame({"직원": ["김철수", "박철수", "김민수", "이민수"],
                    "부서": ["회계", "데이터분석", "데이터분석", "인사"]})
df2 = pd.DataFrame({"직원": ["박철수", "이민수", "김민수", "김철수"],
                     "입사년도": [2004, 2008, 2012, 2014]})
merged_df = pd.merge(df1, df2, on = "직원")
display(merged_df) 

Unnamed: 0,직원,부서,입사년도
0,김철수,회계,2014
1,박철수,데이터분석,2004
2,김민수,데이터분석,2012
3,이민수,인사,2008


In [8]:
df3 = pd.DataFrame({"직원": ["김철수", "김민수", "김철수", "김민수"],
                   "부서": ["인사", "인사", "데이터분석", "데이터분석"],
                   "입사년도": [2004, 2008, 2010, 2006]})
df4 = pd.DataFrame({"직원": ["김철수", "김철수", "김민수", "김민수"],
                   "부서": ["인사", "데이터분석", "인사", "데이터분석"],
                   "월급": [500, 400, 350, 300]})
merged_df = pd.merge(df3, df4, on = ["직원", "부서"])
display(merged_df)

Unnamed: 0,직원,부서,입사년도,월급
0,김철수,인사,2004,500
1,김민수,인사,2008,350
2,김철수,데이터분석,2010,400
3,김민수,데이터분석,2006,300


#### left_on과 right_on 인자

In [9]:
df1.rename({"직원":"성함"}, axis = 1, inplace = True)
merged_data = pd.merge(df1, df2, left_on = ["성함"], right_on = ["직원"])
display(merged_data)

Unnamed: 0,성함,부서,직원,입사년도
0,김철수,회계,김철수,2014
1,박철수,데이터분석,박철수,2004
2,김민수,데이터분석,김민수,2012
3,이민수,인사,이민수,2008


In [10]:
merged_data.drop("직원", axis = 1, inplace = True)

In [11]:
df3.rename({"직원":"성함", "부서":"부서/팀"}, axis = 1, inplace = True)
merged_data  = pd.merge(df3, df4, left_on = ["성함", "부서/팀"], right_on = ["직원", "부서"])
display(merged_data)

Unnamed: 0,성함,부서/팀,입사년도,직원,부서,월급
0,김철수,인사,2004,김철수,인사,500
1,김민수,인사,2008,김민수,인사,350
2,김철수,데이터분석,2010,김철수,데이터분석,400
3,김민수,데이터분석,2006,김민수,데이터분석,300


In [12]:
display(pd.merge(df3, df4, left_on = ["성함", "부서/팀"], right_on = ["부서", "직원"]))

Unnamed: 0,성함,부서/팀,입사년도,직원,부서,월급


#### left_index와 right_index 인자

In [13]:
df1 = pd.DataFrame({"직원": ["김철수", "박철수", "김민수", "이민수"],
                   "부서": ["회계", "데이터분석", "데이터분석", "인사"]})
df2 = pd.DataFrame({"직원": ["박철수", "이민수", "김민수", "김철수"],
                    "입사년도": [2004, 2008, 2012, 2014]})
df1.set_index("직원", inplace = True)
display(df1)

Unnamed: 0_level_0,부서
직원,Unnamed: 1_level_1
김철수,회계
박철수,데이터분석
김민수,데이터분석
이민수,인사


In [14]:
merged_data = pd.merge(df1, df2, left_index = True, right_on = "직원")
display(merged_data)

Unnamed: 0,부서,직원,입사년도
3,회계,김철수,2014
0,데이터분석,박철수,2004
2,데이터분석,김민수,2012
1,인사,이민수,2008


In [15]:
display(df1.reset_index())

Unnamed: 0,직원,부서
0,김철수,회계
1,박철수,데이터분석
2,김민수,데이터분석
3,이민수,인사


#### 조인 방법 결정: how

In [16]:
df1 = pd.DataFrame({"key":[1,2,3], "x":[1,2,3]})
df2 = pd.DataFrame({"key":[2,3,4], "y":[2,3,4]})

In [17]:
display(pd.merge(df1, df2, on = "key", how = "inner"))

Unnamed: 0,key,x,y
0,2,2,2
1,3,3,3


In [18]:
display(pd.merge(df1, df2, on = "key", how = "left"))

Unnamed: 0,key,x,y
0,1,1,
1,2,2,2.0
2,3,3,3.0


In [19]:
display(pd.merge(df1, df2, on = "key", how = "right"))

Unnamed: 0,key,x,y
0,2,2.0,2
1,3,3.0,3
2,4,,4


In [20]:
display(pd.merge(df1, df2, on = "key", how = "outer"))

Unnamed: 0,key,x,y
0,1,1.0,
1,2,2.0,2.0
2,3,3.0,3.0
3,4,,4.0
