In [165]:
import pandas as pd

In [166]:
# Pandas 의 Series 생성
series1 = pd.Series([1,2,3,4,5])
series1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [167]:
# 인덱스 지정해서 Series 생성
series2=pd.Series([1,2,3,4,5], index=['일','이','삼','사','오'])
series2

일    1
이    2
삼    3
사    4
오    5
dtype: int64

In [168]:
population=pd.Series([9904312,3448737,2890451,2466052], index=['서울','부산','인천', '대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [169]:
# Series 정보 확인
# 값, 인덱스, 타입
# values, index, dtype
population.values # 값확인

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [170]:
population.index # 인덱스 확인

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [171]:
population.dtype #타입 확인

dtype('int64')

In [172]:
#Series의 컬럼 이름 지정
population.name='인구'
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [173]:
population.index.name='도시'
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [174]:
# 시리즈 연산
population/1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [175]:
# 시리즈 인덱싱
population[1] # 인덱스 번호 사용
population['부산'] #같은결과,  지정 인덱스 사용

3448737

In [176]:
# 리스트를 활용한 인덱싱
# 순서, 횟수 무관
# 작성한 순서대로 출력
# 작성한 횟수만큼 출력
population[['서울','부산']] 

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [177]:
population[[0,3,1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [178]:
# Boolean 인덱싱
# 인구수가 250만 이상인 도시의 정보 출력
population[population >= 2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [179]:
# 인구수가 500만 이하의 도시 정보 출력
population[population<=5000000]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [180]:
# 인구수가 250만 이상이고 500만 이하의 도시 정보 출력
population[(population>=2500000) & (population<=5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [181]:
# 시리즈 슬라이싱
# 인덱스 번호로 슬라이싱[첫번째 수 : 끝 수+1]
# 지정한 인덱스로 슬라이싱[첫번째 값 : 끝나는값]
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [182]:
population[1:3]
population['부산':'대구']

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [183]:
# 딕셔너리 객체로 Series 생성
# 인덱스 부여가 자동으로 완성
# key = 인덱스
# values = 값
data= {'서울':9631482,'부산':3393191,'인천':2632035,'대전':1490158}
population2=pd.Series(data)
population2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [184]:
# population2 : 2010년 인구
# population : 2015년 인구
# 2015년과 2010년도의 인구 증가를 계산
# 같은 인덱스와 값을 가지고 있는 것들끼리 계산
ds=population-population2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [185]:
print(population.index)
print(population2.index)

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
Index(['서울', '부산', '인천', '대전'], dtype='object')


In [186]:
# notnull() : null이 아니면 True, null이면 False
# isnull() : null이 아니면 False, null이면 True

In [187]:
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [188]:
ds[ds.isnull()]

대구   NaN
대전   NaN
dtype: float64

In [189]:
# 2015년도와 2010년도의 읜구 증가율 계산
# 단 없는 값은 출력 X
# 인구 증가율은 (2015년인구-2010년인구)/2010년*100 
rs=((population-population2)/population2)*100
rs[rs.notnull()]

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [190]:
#Series값 갱신, 추가, 삭제
# 대구의 값 갱신
rs['대구'] = 1.41  

In [191]:
rs

대구    1.410000
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [192]:
# 값 추가 -> 기존의 있는값에 추가
rs['광주'] = 2.08
rs

대구    1.410000
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
광주    2.080000
dtype: float64

In [193]:
# 값 삭제 -> del 사용
del rs['대전']
rs

대구    1.410000
부산    1.636984
서울    2.832690
인천    9.818107
광주    2.080000
dtype: float64

### DataFrame

In [194]:
# 딕셔너리를 통해서 DataFrame만들기
data={
    "2015" : [9904312,3448737,2890451,2466052],
    "2010" : [9631482,3393191,2632035,2431774]
}
df=pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [195]:
#DataFrame 생성후 index 설정
df.index = ['서울','부산','인천','대구']
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [196]:
# DataFrame 생성시 index 지정, column 지정
data =[
    [9904312,3448737,2890451,2466052],
    [9631482,3393191,2632035,2431774]
]

ind = ['2015','2010']
col = ['서울', '부산', '인천', '대구']
df2=pd.DataFrame(data, index= ind, columns= col)
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [197]:
# 전치 col<->ind  : T
# T : 데이터 프레임에만 사용가능, 데이터프레임의 속성
# transpose() : 전치가 가능한 모든 데이터에 적용 가능
df2.T
df2=df2.transpose() #같은 값
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [198]:
# 데이터프레임 정보 확인 
# 값 확인 : values
# 인덱스 확인 : index
# 컬럼 확인 : columns

In [199]:
df2.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [200]:
df2.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [201]:
df2.columns

Index(['2015', '2010'], dtype='object')

In [202]:
# 데이터프레임에 값 추가
# 컬럼을 기준으로 값 추가
# 기존에 가지고있는 컬럼을 입력시 값의 수정이 이루어짐
df2['2005']=[9762546,3512547,2517680,2450000]
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [203]:
# 인덱싱 슬라이싱
# 칼럼으로 인덱싱하기
df2["2010"] # 하나의 컬럼 출력시 Series로 출력

서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [204]:
# 리스트를 사용한 인덱싱
# 데이터 프레임으로 출력
df2[["2015","2005"]]

Unnamed: 0,2015,2005
서울,9904312,9762546
부산,3448737,3512547
인천,2890451,2517680
대구,2466052,2450000


In [205]:
#인덱스를 기준으로 하는 슬라이싱
df2[0:2]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [206]:
#인덱서 (1. iloc, 2.loc)
# iloc : 인덱스 번호 사용
# loc : 지정한 인덱스 사용

In [207]:
df2

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2450000


In [208]:
# loc[index,columns ] 
df2.loc["서울":"부산", "2015":"2010"]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [209]:
# iloc 인덱서를 사용해서 동일한 결과값 출력
df2.iloc[:2,:2]

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191


In [210]:
# 데이터프레임 불리언인덱싱
# 2010년 인구가 2500000만 이상인 데이터 출력

In [211]:
bol=df2.loc[:, '2010']>=2500000
bol

서울     True
부산     True
인천     True
대구    False
Name: 2010, dtype: bool

In [212]:
df2.loc[bol,:]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [213]:
# read_csv()
pn=pd.read_csv('population_number.csv', encoding='euc-kr', index_col='도시')
pn

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [214]:
# 값의 갯수 세기
# value_counts
pn.loc[:,'지역'].value_counts()

수도권    2
경상권    2
Name: 지역, dtype: int64

In [266]:
# 정렬
# sort_values() : 값을 기준으로 오름차순 정렬 
pn.loc[:,'2010'].sort_values()

도시
대구    2431774.0
인천    2632035.0
서울    9631482.0
부산          NaN
Name: 2010, dtype: float64

In [270]:
# 내림차순 정렬
# ascending = 기본값 True
pn.loc[:,'2010'].sort_values(ascending=False)

도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64

In [272]:
pn.sort_values(by='2010')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [273]:
# 두개의 기준으로 데이터 살펴보기
pn.sort_values(by=['지역', '2010'])

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


In [274]:
# 인덱스 값을 기준으로 정렬
pn.sort_index()

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338


In [275]:
pn.sort_index(ascending=False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [279]:
score= pd.read_csv("score.csv",index_col='과목', encoding='euc-kr')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
수학,45,44,73,39
영어,76,92,45,69
국어,47,92,45,69
사회,92,81,85,40
과학,11,79,47,26


In [281]:
import numpy as np

In [285]:
# 학급별 과목 점수 총계 - sum()함수
result=np.sum(score)
result

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [287]:
# 순위에 맞게 출력
score.sum().sort_values(ascending=False)

2반    388
3반    295
1반    271
4반    243
dtype: int64

In [294]:
# 과목별 점수 총계
score.sum(axis=1)
# = np.sum(score.axis=1) -> 같은 결과

과목
수학    201
영어    282
국어    253
사회    298
과학    163
dtype: int64

In [297]:
# 컬럼 추가
score['합계']=np.sum(score.loc[:,:'4반'],axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
수학,45,44,73,39,201
영어,76,92,45,69,282
국어,47,92,45,69,253
사회,92,81,85,40,298
과학,11,79,47,26,163


In [302]:
score['평균']= score.loc[:,:'4반'].mean(axis=1)
# score['평균']=np.sum(score.loc[:,:'4반'],axis=1)/4 -> 같은 결과
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45,44,73,39,201,50.25
영어,76,92,45,69,282,70.5
국어,47,92,45,69,253,63.25
사회,92,81,85,40,298,74.5
과학,11,79,47,26,163,40.75


In [305]:
# 인덱스를 추가하는 방법 -> .loc
# axis=1 행
# axis=0 열
score.loc['반 평균']=score.loc[:,:'평균'].mean(axis=0)
# score.loc['반평균'] = score.mean() -> 같은 결과
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반 평균,54.2,77.6,59.0,48.6,239.4,59.85


In [None]:
# 과목별로 가장 큰값과 가장 작은값의 차이를 구하기

In [307]:
# 기장 큰값 구하기
# max()
score.max(axis=1)

과목
수학      201.0
영어      282.0
국어      253.0
사회      298.0
과학      163.0
반 평균    239.4
dtype: float64

In [308]:
# 가장 작은값 구하기
# min()
score.min(axis=1)

과목
수학      39.0
영어      45.0
국어      45.0
사회      40.0
과학      11.0
반 평균    48.6
dtype: float64

In [310]:
max_score=score.loc[:'과학',:'4반'].max(axis=1)
max_score

과목
수학    73.0
영어    92.0
국어    92.0
사회    92.0
과학    79.0
dtype: float64

In [313]:
min_score=score.loc[:'과학',:'4반'].min(axis=1)
min_score

과목
수학    39.0
영어    45.0
국어    45.0
사회    40.0
과학    11.0
dtype: float64

In [314]:
max_score-min_score

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [None]:
# apply()
# 행이나 열 단위로 복잡한 처리를 하고 싶을 때 사용
# 적영시킬 데이터에 행/ 열 단위로 함수를 적용시켜줌

In [316]:
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
수학,45.0,44.0,73.0,39.0,201.0,50.25
영어,76.0,92.0,45.0,69.0,282.0,70.5
국어,47.0,92.0,45.0,69.0,253.0,63.25
사회,92.0,81.0,85.0,40.0,298.0,74.5
과학,11.0,79.0,47.0,26.0,163.0,40.75
반 평균,54.2,77.6,59.0,48.6,239.4,59.85


In [315]:
def max_min(x):
    return x.max()-x.min()

In [317]:
score.loc[:'과학',:'4반'].apply(max_min, axis=1)

과목
수학    34.0
영어    47.0
국어    47.0
사회    52.0
과학    68.0
dtype: float64

In [None]:
# 결측치를 채우는 함수
# fillna()

In [318]:
data_dic={'A':[1,3,3,4,4], 'B':[1,2,2,3,3], 'C':[1,2,4,4,5]}
df=pd.DataFrame(data_dic)
df

Unnamed: 0,A,B,C
0,1,1,1
1,3,2,2
2,3,2,4
3,4,3,4
4,4,3,5


In [320]:
df['A'].value_counts()

3    2
4    2
1    1
Name: A, dtype: int64

In [322]:
df1=df.apply(pd.value_counts)
df1

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [323]:
df1.fillna(100) # 값을 출력하고 저장하지 않음

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,100.0,2.0,1.0
3,2.0,2.0,100.0
4,2.0,100.0,2.0
5,100.0,100.0,1.0


In [324]:
# 카테고리 데이터 만들기
ages = [0,2,10,21,23,37,31,61,20,41,32,100] 
bins = [0,15,25,35,60,99] #0초과 15이하... 15초과 25이하....
# 구분할 기준 5가지로 구분 (0~15 : 미성년자. 15~25 : 청년, 25~35 : 중년. 35~60 : 장년, 60~99 :노년)
labels = ['미성년자','청년','중년','장년','노년'] 

In [325]:
pd.cut(x=ages, bins = bins, labels= labels)

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [326]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])


In [327]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [330]:
# 데이터프레임 합치기
# concat()
result=pd.concat([df1,df2,df3])

In [331]:
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [332]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])

In [333]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [334]:
pd.concat([df1,df4],axis=1)# 인덱스를 기준으로 데이터 합치기

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [335]:
# 같은 인덱스를 가지고있는 값만 출력
pd.concat([df1,df4],axis=1,join='inner')

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [336]:
# 인덱스 초기화
pd.concat([df1,df4],axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5,6
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [337]:
pd.concat([df1,df4], ignore_index=True)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [338]:
pd.concat([df1,df4])

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [339]:
# value를 기준으로 데이터 합치기
df5 = pd.DataFrame({'key': ['K0','K2','K3','K4'],
'A':['A0','A1','A2','A3'],
'B':['B0','B1','B2','B3']})


df6 = pd.DataFrame({'key': ['K0','K1','K2','K3'],
'C':['C0','C1','C2','C3'],
'D':['D0','D1','D2','D3']})


In [341]:
# merge
# 데이터를 기준으로 df합침
# 기준이 같은것만 출력 : how : outer 
# 값이 같은것들만 출력
pd.merge(df5,df6,on = 'key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3


In [342]:
# 모든 데이터 출력
pd. merge(df5,df6, how='outer')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,B3,,
4,K1,,,C1,D1


In [343]:
# how : left,right
pd.merge(df5,df6,how='left')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,B3,,


In [344]:
pd.merge(df5,df6,how='right')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A1,B1,C2,D2
3,K3,A2,B2,C3,D3
