# Pandas 기초익히기

In [2]:
import pandas as pd
import numpy as np

pandas 와 Numpy를 import했습니다. 이 두 모듈은 자주 사용하는 모듈이면서 둘을 함께 쓰면 유용할 때가 많습니다.

In [7]:
series = pd.Series([10.48,2.21,3.55,5.67,np.nan,6.03,8.99], index=['Mon','Thu','Wed','Thur','Fir','Sat','Sun'])
series

Mon     10.48
Thu      2.21
Wed      3.55
Thur     5.67
Fir       NaN
Sat      6.03
Sun      8.99
dtype: float64

In [8]:
print(series['Wed'])

3.55


pandas의 데이터 유형 중 기초가 되는 것이 Series입니다. 대괄호로 만드는 파이썬의 list 데이터로 만들 수 있습니다. 중간에 Nan(Not A Number)도 넣었습니다.

In [3]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

또 pandas에는 날짜형의 데이터인 date_range가 있습니다. 기본 날짜를 지정하고 periods 옵션으로 6일간이라고 지정합니다.

In [4]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
2013-01-01,1.464969,0.061732,0.063378,-0.0075
2013-01-02,0.861871,-0.199582,1.275674,0.159782
2013-01-03,1.888868,-1.308289,0.026591,-1.226074
2013-01-04,-0.241076,-0.039942,1.052858,-0.410958
2013-01-05,1.144599,-0.692333,0.286625,0.064217
2013-01-06,-0.179605,-0.567768,0.756948,0.564878


이제 DataFrame 유형의 데이터를 만듭니다. 6행4열의 random 변수를 만들고, 컬럼에는 columns = ['A', 'B', 'C', 'D']로 지정하고, index 명령으로 만든 날짜형 데이터인 dates를 index=dates 옵션을 이용해서 지정했습니다.

In [5]:
df.head(3)

Unnamed: 0,A,B,C,D
2013-01-01,1.464969,0.061732,0.063378,-0.0075
2013-01-02,0.861871,-0.199582,1.275674,0.159782
2013-01-03,1.888868,-1.308289,0.026591,-1.226074


head() 명령을 사용하면 기본적으로 첫 5행을 보여줍니다. 괄호안에 숫자를 넣어두면 그 숫자만큼의 행을 볼수 있습니다.

In [6]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [7]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

그리고 index, columns 명령을 이용하면 pandas의 DataFrame의 컬럼과 인덱스를 확인할 수 있습니다.

In [8]:
df.values

array([[ 1.46496887,  0.06173156,  0.06337758, -0.00749953],
       [ 0.86187143, -0.19958213,  1.27567416,  0.15978182],
       [ 1.88886783, -1.30828913,  0.02659085, -1.22607446],
       [-0.24107634, -0.0399416 ,  1.05285847, -0.41095776],
       [ 1.14459886, -0.69233299,  0.28662474,  0.06421656],
       [-0.17960493, -0.56776759,  0.75694779,  0.56487819]])

그리고 그 안에 들어가는 내용은 values 명령으로 확인할 수 있습니다. 또, info() 명령을 사용하면 DataFrame의 개요를 알 수 있습니다.

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 6 entries, 2013-01-01 to 2013-01-06
Freq: D
Data columns (total 4 columns):
A    6 non-null float64
B    6 non-null float64
C    6 non-null float64
D    6 non-null float64
dtypes: float64(4)
memory usage: 240.0 bytes


describe() 명령을 사용하면 통계적 개요를 확인할 수 있습니다. 개수(count)와 평균(mean)뿐만 아니라 min, max와 각 1/4지점, 표준편차까지 한 번에 알 수 있습니다.

In [10]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.823271,-0.457697,0.577012,-0.142609
std,0.870702,0.510221,0.52878,0.616266
min,-0.241076,-1.308289,0.026591,-1.226074
25%,0.080764,-0.661192,0.119189,-0.310093
50%,1.003235,-0.383675,0.521786,0.028359
75%,1.384876,-0.079852,0.978881,0.135891
max,1.888868,0.061732,1.275674,0.564878


이 때 values가 숫자가 아니라 문자라고 하더라도 그에 맞는 개요가 나타납니다.

In [11]:
df.sort_values(by='B', ascending=False)

Unnamed: 0,A,B,C,D
2013-01-01,1.464969,0.061732,0.063378,-0.0075
2013-01-04,-0.241076,-0.039942,1.052858,-0.410958
2013-01-02,0.861871,-0.199582,1.275674,0.159782
2013-01-06,-0.179605,-0.567768,0.756948,0.564878
2013-01-05,1.144599,-0.692333,0.286625,0.064217
2013-01-03,1.888868,-1.308289,0.026591,-1.226074


sort_values 명령은 by로 지정된 컬럼을 기준으로 정렬합니다. ascending 옵션을 사용하면 내림차순이나 오름차순으로 정렬시킬수 있습니다.

In [12]:
df

Unnamed: 0,A,B,C,D
2013-01-01,1.464969,0.061732,0.063378,-0.0075
2013-01-02,0.861871,-0.199582,1.275674,0.159782
2013-01-03,1.888868,-1.308289,0.026591,-1.226074
2013-01-04,-0.241076,-0.039942,1.052858,-0.410958
2013-01-05,1.144599,-0.692333,0.286625,0.064217
2013-01-06,-0.179605,-0.567768,0.756948,0.564878


그냥 변수명을 적고 실행(shift+enter)하면 그 내용이 나타납니다. 내용이 너무 많은 경우는 Jupyter Notebook에서 내용을 줄여서 보여줍니다.

In [13]:
df['A']

2013-01-01    1.464969
2013-01-02    0.861871
2013-01-03    1.888868
2013-01-04   -0.241076
2013-01-05    1.144599
2013-01-06   -0.179605
Freq: D, Name: A, dtype: float64

DataFrame으로 선언된 변수의 경우 변수명 뒤에 ['A']와 같이 붙여주면 해당 컬럼만 Series로 보여줍니다. 물론 head()라는 명령이 있지만 중간부터 보고싶다면 행의 범위만 지정해서 df[0:3]이라고 하면 됩니다.

In [14]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,1.464969,0.061732,0.063378,-0.0075
2013-01-02,0.861871,-0.199582,1.275674,0.159782
2013-01-03,1.888868,-1.308289,0.026591,-1.226074


만약 2013.01.02부터 2013.01.04까지의 행을 보고 싶다면 df['20130102':'20130104']라고 하면 됩니다.

In [15]:
df['20130102':'20130104']

Unnamed: 0,A,B,C,D
2013-01-02,0.861871,-0.199582,1.275674,0.159782
2013-01-03,1.888868,-1.308289,0.026591,-1.226074
2013-01-04,-0.241076,-0.039942,1.052858,-0.410958


앞에서 만든 dates 변수를 이용하면 특정 날짜의 데이터만 보고 싶으면 df.loc 명령을  사용하면 됩니다. loc는 location옵션으로 슬라이싱할 때 loc 옵션을 이용해서 위치값을 지정할 수 있습니다.

In [16]:
df.loc[dates[0]]

A    1.464969
B    0.061732
C    0.063378
D   -0.007500
Name: 2013-01-01 00:00:00, dtype: float64

A, B열의 모든 행을 보고 싶다면 df.loc[:,['A', 'B']]라고 하면 됩니다.

In [17]:
df.loc[:,['A', 'B']]

Unnamed: 0,A,B
2013-01-01,1.464969,0.061732
2013-01-02,0.861871,-0.199582
2013-01-03,1.888868,-1.308289
2013-01-04,-0.241076,-0.039942
2013-01-05,1.144599,-0.692333
2013-01-06,-0.179605,-0.567768


In [18]:
df.loc['20130102':'20130104',['A', 'B']]

Unnamed: 0,A,B
2013-01-02,0.861871,-0.199582
2013-01-03,1.888868,-1.308289
2013-01-04,-0.241076,-0.039942


2013년 1월 2일부터 2013년 1월4일 까지의 데이터 중 A와 B칼럼의 데이터만 선택하는 것입니다.

In [19]:
df.loc['20130102', ['A','B']]

A    0.861871
B   -0.199582
Name: 2013-01-02 00:00:00, dtype: float64

또 2013년 1월 2일의 A,B 컬럼의 내용을 확인하는 것입니다.

In [20]:
df.loc[dates[0], 'A']

1.464968869095269

그러나 loc 명령과 달리 행과 열의 번호를 이용해서 데이터에 바로 접근하고 싶을 수 있는데, 그 명령이 iloc입니다. iloc을 사용하면 행이나 열의 범위를 지정하면 됩니다. 특히 콜론(:)을 사용하면 전체를 의미합니다. 

In [21]:
df.iloc[3]

A   -0.241076
B   -0.039942
C    1.052858
D   -0.410958
Name: 2013-01-04 00:00:00, dtype: float64

먼저 iloc에 단지 숫자만 표시하면 3번행을 의미합니다(0번 부터 시작하니까 4번행이 됩니다).

In [22]:
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,-0.241076,-0.039942
2013-01-05,1.144599,-0.692333


또 3번째부터 5번째 앞, 즉 3번째부터 4번째까지 행과 0번부터 1번까지 열의 데이터만 가져올 수 있습니다.

In [23]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,0.861871,1.275674
2013-01-03,1.888868,0.026591
2013-01-05,1.144599,0.286625


또 범위가 아니라 콤마(,)로 행이나 열을 지정해서 데이터를 가져올 수 있습니다. 행이나 열에 대해 한쪽은 전체를 의미하게 하고 싶을때는 그냥 콜론만 사용하면 됩니다.

In [24]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,0.861871,-0.199582,1.275674,0.159782
2013-01-03,1.888868,-1.308289,0.026591,-1.226074


이렇게 행은 범위를 주고, 열은 콜론으로 전체를 의미하게 하는 것입니다.

In [25]:
df.iloc[:,1:3]

Unnamed: 0,B,C
2013-01-01,0.061732,0.063378
2013-01-02,-0.199582,1.275674
2013-01-03,-1.308289,0.026591
2013-01-04,-0.039942,1.052858
2013-01-05,-0.692333,0.286625
2013-01-06,-0.567768,0.756948


DataFrame에서 특정 조건을 만족하는 데이터만 얻을 수 있습니다. 컬럼을 지정할 때 df['A']처럼 할 수도 있고, df.A와 같이 할 수도 있습니다. 컬럼 A에서 0보다 큰 행만 얻는 것입니다.

In [26]:
df[df.A > 0]

Unnamed: 0,A,B,C,D
2013-01-01,1.464969,0.061732,0.063378,-0.0075
2013-01-02,0.861871,-0.199582,1.275674,0.159782
2013-01-03,1.888868,-1.308289,0.026591,-1.226074
2013-01-05,1.144599,-0.692333,0.286625,0.064217


데이터 전체에서 조건을 걸면 만족하지 않은 곳은 NaN 처리가 됩니다.

In [27]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-01,1.464969,0.061732,0.063378,
2013-01-02,0.861871,,1.275674,0.159782
2013-01-03,1.888868,,0.026591,
2013-01-04,,,1.052858,
2013-01-05,1.144599,,0.286625,0.064217
2013-01-06,,,0.756948,0.564878


DataFrame을 복사할 때는 그냥 = 기호를 이용해서 복사하면 실제 데이터의 내용이 복사되는 것이 아니라 데이터 위치만 복사되기 때문에 원본 데이터는 하나만 있게 됩니다.

In [28]:
df2 = df.copy()

데이터의 내용까지 복사하라는 지령은 copy() 옵션을 붙여 넣으면 됩니다.

In [29]:
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
df2

Unnamed: 0,A,B,C,D,E
2013-01-01,1.464969,0.061732,0.063378,-0.0075,one
2013-01-02,0.861871,-0.199582,1.275674,0.159782,one
2013-01-03,1.888868,-1.308289,0.026591,-1.226074,two
2013-01-04,-0.241076,-0.039942,1.052858,-0.410958,three
2013-01-05,1.144599,-0.692333,0.286625,0.064217,four
2013-01-06,-0.179605,-0.567768,0.756948,0.564878,three


원래 있는 DataFrame에서 새로운 컬럼을 추가하는 것은 위의 것 처럼 하면 됩니다.

In [30]:
df2['E'].isin(['two', 'four'])

2013-01-01    False
2013-01-02    False
2013-01-03     True
2013-01-04    False
2013-01-05     True
2013-01-06    False
Freq: D, Name: E, dtype: bool

이렇게 만든 E 컬럼에서 two와 four가 있는지 조건을 걸고 싶을 때는 isin 명령을 쓰면 좋습니다.

In [31]:
df2[df2['E'].isin(['two', 'four'])]

Unnamed: 0,A,B,C,D,E
2013-01-03,1.888868,-1.308289,0.026591,-1.226074,two
2013-01-05,1.144599,-0.692333,0.286625,0.064217,four


그 결과는 True/False로 반환되는데 이것을 이용하면 조건에 맞는 데이터를 선택할 수 있습니다.

In [32]:
df

Unnamed: 0,A,B,C,D
2013-01-01,1.464969,0.061732,0.063378,-0.0075
2013-01-02,0.861871,-0.199582,1.275674,0.159782
2013-01-03,1.888868,-1.308289,0.026591,-1.226074
2013-01-04,-0.241076,-0.039942,1.052858,-0.410958
2013-01-05,1.144599,-0.692333,0.286625,0.064217
2013-01-06,-0.179605,-0.567768,0.756948,0.564878


df 변수에서 좀 더 통계 느낌의 데이터를 볼 때는 특정 함수를 적용시키면 좋습니다. 이 때 사용하는 것이 apply 명령입니다. 누적합을 알고 싶을때는 numpy의 cumsum을 이용하면 됩니다.

In [33]:
df.apply(np.cumsum)

Unnamed: 0,A,B,C,D
2013-01-01,1.464969,0.061732,0.063378,-0.0075
2013-01-02,2.32684,-0.137851,1.339052,0.152282
2013-01-03,4.215708,-1.44614,1.365643,-1.073792
2013-01-04,3.974632,-1.486081,2.418501,-1.48475
2013-01-05,5.119231,-2.178414,2.705126,-1.420533
2013-01-06,4.939626,-2.746182,3.462074,-0.855655


특별히 최대값과 최소값의 차이(혹은 거리)를 알고 싶다면 one-line 함수인 lambda를 이용할 수도 있습니다.

In [34]:
df.apply(lambda x: x.max() - x.min())

A    2.129944
B    1.370021
C    1.249083
D    1.790953
dtype: float64

진도를 나가기 전에 pandas의 고급 기능 중 하나를 알고 가면 좋을것 같습니다.

In [39]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index=[0,1,2,3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}, index=[4,5,6,7])
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']}, index=[8,9,10,11])

연습용 데이터를 3개 만들겠습니다.

In [40]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [41]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [42]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


이렇게 만든 데이터를 열 방향으로 단순히 합치는 것은 concat 명령입니다.

In [43]:
result = pd.concat([df1, df2, df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


단순하게 아무 옵션 없이 그냥 사용하면 열방향으로 병합합니다.

In [44]:
result = pd.concat([df1, df2, df3], keys=['x', 'y', 'z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


특별히 concat 명령에 key 옵션으로 구분할 수 있습니다. 이렇게 key 지정된 구분은 다중 index가 되어서 level을 형성합니다. 이를 확인하면,

In [45]:
result.index

MultiIndex(levels=[['x', 'y', 'z'], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]],
           labels=[[0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2], [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]])

In [46]:
result.index.get_level_values(0)

Index(['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y', 'z', 'z', 'z', 'z'], dtype='object')

In [47]:
result.index.get_level_values(1)

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11], dtype='int64')

In [48]:
df4 = pd.DataFrame({'B': ['A0', 'A1', 'A2', 'A3'],
                    'D': ['B0', 'B1', 'B2', 'B3'],
                    'F': ['C0', 'C1', 'C2', 'C3']},index=[2,3,6,7])
result = pd.concat([df1, df4], axis=1)

In [49]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [50]:
df4

Unnamed: 0,B,D,F
2,A0,B0,C0
3,A1,B1,C1
6,A2,B2,C2
7,A3,B3,C3


옵션인 axis=1을 주어서 concat시켜보면,

In [51]:
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,A0,B0,C0
3,A3,B3,C3,D3,A1,B1,C1
6,,,,,A2,B2,C2
7,,,,,A3,B3,C3


이런 결과를 얻게 됩니다. df1의 index가 0,1,2,3이고 df4의 index가 2,3,6,7 인데 concat 명령은 index를 기준으로 데이터를 합치기 때문입니다. 그래서 값을 가질 수 없는 곳에는 NaN이 저장됩니다. 이 때 공통된 index로 합치고 공통되지 않은 index의 데이터는 버리도록 하는 옵션이 join='inner' 옵션입니다.

In [52]:
result = pd.concat([df1, df4], axis=1, join='inner')
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,A0,B0,C0
3,A3,B3,C3,D3,A1,B1,C1


또 join_axes = [df1.index] 옵션으로 df1의 인덱스에 맞추도록 할 수도 있습니다.

In [53]:
result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,A0,B0,C0
3,A3,B3,C3,D3,A1,B1,C1


concat 명령을 사용하는데 열 방향으로 합치면서 sort = True라고 옵션을 잡으면 두 데이터의 index를 무시하고 합친후 다시 index를 부여합니다. 이때는 열을 기준으로 합치게 됩니다.

In [57]:
result = pd.concat([df1, df4], sort = True)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,A0,,B0,C0
3,,A1,,B1,C1
6,,A2,,B2,C2
7,,A3,,B3,C3


이제 다른 명령을 하나 더 학습하겠습니다. 일단 데이터를 두 개 만듭니다.

In [72]:
left = pd.DataFrame({'key': ['K0', 'K4', 'K2', 'K3'],
                     'A' : ['A0', 'A1', 'A2', 'A3'],
                     'B' : ['B0', 'B1', 'B2', 'B3']})
right = pd.DataFrame({'C' : ['C0', 'C1', 'C2', 'C3'],
                     'D' : ['D0', 'D1', 'D2', 'D3'],
                     'key': ['K0', 'K1', 'K2', 'K3']})

In [73]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K4,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [74]:
right

Unnamed: 0,C,D,key
0,C0,D0,K0
1,C1,D1,K1
2,C2,D2,K2
3,C3,D3,K3


이렇게 만든 두 데이터에 공통으로 있는 컬럼인 key를 기준으로 merge 명령에서 merge 기준을 설정하는 on 옵션을 합치면 공통된 key에 대해서만 합치게 됩니다.

In [75]:
pd.merge(left, right, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


합치는 두 데이터를 하나씩 기준으로 합칠수도 있습니다. 이때 how 옵션으로 한쪽 데이터를 설정하면 됩니다.

In [76]:
pd.merge(left, right, how='left', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [77]:
pd.merge(left, right, how='right', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
3,K1,,,C1,D1


또 merge한 데이터 결과를 모두 가지는 outer옵션이 있습니다. 이 옵션을 사용하면 마치 합집합처럼 merge가 되며 공통된 요소가 아닌 곳은 NaN 처리가 됩니다.

In [78]:
pd.merge(left, right, how='outer', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K1,,,C1,D1


그리고 outer의 반대로 inner 옵션이 있습니다. 이 옵션은 교집합처럼 공통된 요소만 가집니다.

In [79]:
pd.merge(left, right, how='inner', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
