## merge : column 끼리 합칠 때 사용
* concat 는 행으로 합칠 때 사용(concat 에서 축 설정을 통해 merge 형태도 구현 가능함)

```
pd.merge(
    left,
    right,
    how: str = 'inner',    how : {'left', 'right', 'outer', 'inner'}, default 'inner'
    on=None,
    left_on=None,
    right_on=None,
    left_index: bool = False,
    right_index: bool = False,
    sort: bool = False,
    suffixes=('_x', '_y'),
    copy: bool = True,
    indicator: bool = False,
    validate=None,
)
```

### 첫번째 예제

In [1]:
import pandas as pd

In [3]:
adf = pd.DataFrame({"x1":['A','B','C'], "x2":[1,2,3]})
adf

Unnamed: 0,x1,x2
0,A,1
1,B,2
2,C,3


In [4]:
bdf = pd.DataFrame({"x1":['A','B','D'], "x2":['T','F','T']})
bdf

Unnamed: 0,x1,x2
0,A,T
1,B,F
2,D,T


In [5]:
# how : left : 여기서는 adf 기준으로 조인하기
# on : x1 을 기준으로 join

pd.merge(adf, bdf, how='left', on='x1')

Unnamed: 0,x1,x2_x,x2_y
0,A,1,T
1,B,2,F
2,C,3,


In [6]:
# how : right : 여기서는 bdf 기준으로 조인하기

pd.merge(adf, bdf, how='right', on='x1')

Unnamed: 0,x1,x2_x,x2_y
0,A,1.0,T
1,B,2.0,F
2,D,,T


In [7]:
# how : inner(둘다 해당하는 값으로만 조인)

pd.merge(adf, bdf, how='inner', on='x1')

Unnamed: 0,x1,x2_x,x2_y
0,A,1,T
1,B,2,F


In [23]:
# how : outer(두 프레임에 있는 모든 값 포함)

pd.merge(adf, bdf, how='outer', on='x1')

Unnamed: 0,x1,x2_x,x2_y
0,A,1.0,T
1,B,2.0,F
2,C,3.0,
3,D,,T


* Filterling Join

In [8]:
bdf.x1

0    A
1    B
2    D
Name: x1, dtype: object

In [9]:
adf.x1

0    A
1    B
2    C
Name: x1, dtype: object

In [10]:
# adf.x 안에 bdf.x1 값과 일치한 값이 있으면 True
# 아니면 False

adf[adf.x1.isin(bdf.x1)]

Unnamed: 0,x1,x2
0,A,1
1,B,2


In [11]:
# ~ : 제외하고

adf[~adf.x1.isin(bdf.x1)]

Unnamed: 0,x1,x2
2,C,3


* 두 번째 실습 : indicator 옵션 활용하기 + query() + drop()

In [12]:
ydf = pd.DataFrame({"x1":['A','B','C'], "x2":[1,2,3]})
ydf

Unnamed: 0,x1,x2
0,A,1
1,B,2
2,C,3


In [13]:
zdf = pd.DataFrame({"x1":['B','C','D'], "x2":[2,3,4]})
zdf

Unnamed: 0,x1,x2
0,B,2
1,C,3
2,D,4


In [14]:
# 기본값이 inner join 이므로 공통된 값이 있는 것만 merge됨

pd.merge(ydf, zdf)

Unnamed: 0,x1,x2
0,B,2
1,C,3


In [19]:
# outer이기 때문에 모두다 merge 됨

pd.merge(ydf, zdf, how='outer')

Unnamed: 0,x1,x2
0,A,1
1,B,2
2,C,3
3,D,4


In [21]:
# outer 기준, indicator (outer로 할 때 어떤 값만 있는지 확인)

pd.merge(ydf, zdf, how='outer',indicator=True)

Unnamed: 0,x1,x2,_merge
0,A,1,left_only
1,B,2,both
2,C,3,both
3,D,4,right_only


In [22]:
# query() 조건을 줘서 원하는 부분만 가져오기

pd.merge(ydf, zdf, how='outer',indicator=True).query('_merge == "left_only"')

Unnamed: 0,x1,x2,_merge
0,A,1,left_only


In [18]:
# outer, outer 한 설명, query(조건 맞춰 가져오기), 컬럼 생성된 것 drop

pd.merge(
    ydf, zdf, how='outer',
    indicator=True).query('_merge == "left_only"').drop(columns=['_merge'])

Unnamed: 0,x1,x2
0,A,1


<hr style="border-color:red;border-width:5px">

## 데이터 프레임 연결

```
1) concat 
① df1.concat(df2)
② pd.concat([데이터프레임1, 데이터프레임2])

2) merge
merge(데이터프레임1, 데이터프레임2) : 두 데이터프레임에 동일한 이름을 가진 컬럼을 기준으로 두 데이터프레임을 합침
```

### concat

In [3]:
# 결합할 데이터로드

df1 = pd.DataFrame({
    "id": [1, 2, 3],
    "customer_id": [1, 2, 3],
    "customer_name": [
        "Robert",
        "Peter",
        "Dave",
    ],
})
df1

Unnamed: 0,id,customer_id,customer_name
0,1,1,Robert
1,2,2,Peter
2,3,3,Dave


In [4]:
df2 = pd.DataFrame({
    "id": [1, 2, 4],
    "order_id": [100, 200, 300],
    "order_date": ["2021-01-21", "2021-02-03", "2020-10-01"]
})

df2

Unnamed: 0,id,order_id,order_date
0,1,100,2021-01-21
1,2,200,2021-02-03
2,4,300,2020-10-01


* concat() : 두 데이터 프레임을 연결해서 하나의 데이터프레임으로 만들 수 있음
* 두 데이터 프레임을 위/아래 또는 왼쪽/오른쪽으로 연결하기만 함
* pd.concat([데이터프레임1, 데이터프레임2])

````
pd.concat(
    objs: Union[Iterable[~FrameOrSeries], Mapping[Union[Hashable, NoneType], ~FrameOrSeries]],
    axis=0,
    join='outer',
    ignore_index: bool = False,
    keys=None,
    levels=None,
    names=None,
    verify_integrity: bool = False,
    sort: bool = False,
    copy: bool = True,
)
````

In [5]:
# 기본 형태로 연결

pd.concat([df1,df2])

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1.0,Robert,,
1,2,2.0,Peter,,
2,3,3.0,Dave,,
0,1,,,100.0,2021-01-21
1,2,,,200.0,2021-02-03
2,4,,,300.0,2020-10-01


In [6]:
# 축을 지정하여 연결하기

pd.concat([df1,df2],axis=0)

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1.0,Robert,,
1,2,2.0,Peter,,
2,3,3.0,Dave,,
0,1,,,100.0,2021-01-21
1,2,,,200.0,2021-02-03
2,4,,,300.0,2020-10-01


In [7]:
# 옵션을 사용하여 연결
# axis : 0(디폴트) 위 -> 아래
#        1 왼쪽 -> 오른쪽

pd.concat([df1, df2], axis=1)

Unnamed: 0,id,customer_id,customer_name,id.1,order_id,order_date
0,1,1,Robert,1,100,2021-01-21
1,2,2,Peter,2,200,2021-02-03
2,3,3,Dave,4,300,2020-10-01


### merge

#### inner join

In [9]:
# Inner Join : id가 일치하는 것끼리 합침

pd.merge(df1,df2) # pd.merge(df1,df2,on="id",how="inner") 이렇게 하는 것과 동일

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1,Robert,100,2021-01-21
1,2,2,Peter,200,2021-02-03


#### outer join

In [10]:
# outer : 각 df의 왼쪽 컬럼을 기준으로 df1과 df2 모든 행을 다 보여주는 것

pd.merge(df1, df2, how="outer")

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1.0,Robert,100.0,2021-01-21
1,2,2.0,Peter,200.0,2021-02-03
2,3,3.0,Dave,,
3,4,,,300.0,2020-10-01


In [11]:
# left Outer Join : 왼쪽 df를 기준으로 연결

pd.merge(df1, df2, how="left")

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1,Robert,100.0,2021-01-21
1,2,2,Peter,200.0,2021-02-03
2,3,3,Dave,,


In [12]:
# right Outer Join : 오른쪽 df를 기준으로 연결

pd.merge(df1, df2, how="right")

Unnamed: 0,id,customer_id,customer_name,order_id,order_date
0,1,1.0,Robert,100,2021-01-21
1,2,2.0,Peter,200,2021-02-03
2,4,,,300,2020-10-01


#### 인덱스가 있다면?

In [13]:
# 인덱스 생성하기
df1 = df1.set_index("id")
df1

Unnamed: 0_level_0,customer_id,customer_name
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1,Robert
2,2,Peter
3,3,Dave


In [14]:
df2 = df2.set_index("id")
df2

Unnamed: 0_level_0,order_id,order_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,100,2021-01-21
2,200,2021-02-03
4,300,2020-10-01


In [15]:
# index 를 기준으로 inner 처리(how default가 inner 니까 안 써줘도)

pd.merge(df1, df2, left_index=True, right_index=True)

Unnamed: 0_level_0,customer_id,customer_name,order_id,order_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,Robert,100,2021-01-21
2,2,Peter,200,2021-02-03


In [16]:
pd.merge(df1, df2, left_index=True, right_index=True, how="outer")

Unnamed: 0_level_0,customer_id,customer_name,order_id,order_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1.0,Robert,100.0,2021-01-21
2,2.0,Peter,200.0,2021-02-03
3,3.0,Dave,,
4,,,300.0,2020-10-01


In [17]:
pd.merge(df1, df2, left_index=True, right_index=True, how="left")

Unnamed: 0_level_0,customer_id,customer_name,order_id,order_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,Robert,100.0,2021-01-21
2,2,Peter,200.0,2021-02-03
3,3,Dave,,


In [18]:
pd.merge(df1, df2, left_index=True, right_index=True, how="right")

Unnamed: 0_level_0,customer_id,customer_name,order_id,order_date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1.0,Robert,100,2021-01-21
2,2.0,Peter,200,2021-02-03
4,,,300,2020-10-01
