## 정렬

### 값 기준 정렬 ( sort_values )

**기본 사용법**  

df.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)

*   by : 정렬 기준이될 레이블입니다.
*   axis : {0 : index / 1: columns} 정렬할 레이블입니다. 0이면 행, 1이면 열을 기준으로 정렬합니다.
*   inplace : 원본을 대체할지 여부입니다. True일 경우 원본을 대체하게 됩니다.
*   kind : 알고리즘 모드 입니다. 모드는 총 4종으로 quicksort, mergesort, heapsort, stable이 있는데, 속도와 효율성의 차이를 갖습니다. 기본적으로 quicksort이며, 자세한건 numpy doc에서 확인 가능합니다.
*   na_position : {first / last} Na값의 위치입니다. 기본값은 last로 정렬시 맨 뒤에 위치합니다.
*   ignore_index : 인덱스의 무시 여부입니다. True일 경우 인덱스의 순서와 상관없이 0,1,2,... 로 정해집니다.
*   key : 이 인수를 통해 정렬방식으로 함수를 사용할 수 있습니다. lamba의 사용이 가능합니다.


In [None]:
import numpy as np
import pandas as pd

In [None]:
na = np.NaN
data = [[-3,'A',17],
        [na,'D',31],
        [ 7,'D',-8],
        [15,'Z', 3],
        [ 0, na,-7]]
col = ['col1','col2','col3']
row = ['row1','row2','row3','row4','row5']
df = pd.DataFrame(data = data, index = row, columns= col)
print(df)

정렬의 기준이 되는 by에는 레이블명이 되는 str이 올수도 있고, 레이블명들의 list가 올 수 있습니다.  
list형태가 올 경우, 첫 값부터 정렬합니다.

In [None]:
print(df.sort_values(by='col3'))

In [None]:
print(df.sort_values(by=['col2','col3']))

axis인수를 사용하여 어떤축을 기준으로 정렬할지 설정이 가능합니다.  
단, 문자와 숫자의 혼용시 오류가 발생합니다. ※ Na는 무시됩니다.  
열 기준 col3으로 오름차순 정렬

In [None]:
print(df.sort_values(by='col3',axis=0))

행 기준 row1의 오름차순 정렬. 문자와 숫자의 혼용으로 오류가 발생합니다.

In [None]:
print(df.sort_values(by='row1',axis=1))

행 기준 row5의 오름차순 정렬. 문자와 NaN의 혼용이기 때문에 정상적으로 정렬됩니다.

In [None]:
print(df.sort_values(by='row5',axis=1))

ascending인수를 이용하여 오름차순과 내림차순을 설정할 수 있습니다.
기본값은 True로 오름차순입니다. 내림차순의 경우 False로 아래와 같습니다.

In [None]:
print(df.sort_values(by='col3',ascending=False))

na_position인수를 이용하여 결측값의 위치를 지정할 수 있습니다.  
결측값이 맨 뒤(기본값)

In [None]:
print(df.sort_values(by='col1',na_position='last'))

결측값이 맨 앞

In [None]:
print(df.sort_values(by='col1',na_position='first'))

ignore_index인수를 사용하여 인덱스를 미사용 할 수 있습니다.  
어떤식으로 정렬 되더라도 인덱스는 0, 1, 2, 3, ... 순서로 표시됩니다.

In [None]:
print(df.sort_values(by='col3',ignore_index=True))

key인수를 사용하여 정렬에 함수를 이용할 수 있습니다

In [None]:
print(df.sort_values(by='col2',key=lambda col: col.str.lower()))

inplace 인수를 사용해서 원본을 대체할지의 여부를 설정할 수 있습니다.

In [None]:
df.sort_values(by='col3',inplace=True)
print(df)

### 인덱스 기준 정렬 ( sort_index )

**기본 사용법**  

df.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)

*   axis : {0 : index / 1: columns} 정렬할 레이블입니다. 0이면 행, 1이면 열을 기준으로 정렬합니다.
*   level : multi index의 경우 정렬을 진행할 level입니다.
*   ascending : 오름차순으로할지 여부 입니다. 기본은 True로 오름차순입니다.
*   inplace : 원본을 대체할지 여부입니다. True일 경우 원본을 대체하게 됩니다.
*   kind : 알고리즘 모드 입니다. 모드는 총 4종으로 quicksort, mergesort, heapsort, stable이 있는데,속도와 효율성의 차이를 갖습니다. 기본적으로 quicksort이며, 자세한건 numpy doc에서 확인 가능합니다.
*   na_position : {first / last} Na값의 위치입니다. 기본값은 last로 정렬시 맨 뒤에 위치합니다.
*   sort_remaining : multi index의 경우 다른 레벨에 대해서도 정렬을할지 여부입니다. True로 할 경우
한 레벨에 대한 정렬이 완료되면, 다른 레벨도 정렬합니다.
*   ignore_index : 인덱스의 무시 여부입니다. True일 경우 인덱스의 순서와 상관없이 0,1,2,... 로 정해집니다.


In [None]:
na = np.NaN
index_tuples = [('row1', 'val1'), ('row1', 'val2'), ('row3', 'val3'), ('row3', 'val1'), ('row3', 'val2'), ('row2', 'val5'),('row2', 'val2')]
values = [ [1,2,3], [4,na,6], [7,8,9], [na,11,12], [13,14,15], [16,17,18], [19,20,21]]
index = pd.MultiIndex.from_tuples(index_tuples) # 인덱스 설정
df = pd.DataFrame(values, columns=['col4', 'col1', 'col2'], index = index)
print(df)

level을 지정하므로써 해당 level에서의 정렬이 가능합니다.  
level이 0인 경우 row기준으로 정렬되는것을 확인 할 수 있습니다.

In [None]:
print(df.sort_index(axis=0, level=0))

level이 1인 경우 val기준으로 정렬되는것을 확인 할 수 있습니다.

In [None]:
print(df.sort_index(axis=0, level=1))

level과 ascending의 값을 list형태로 입력하므로써, 각 level에 다른 정렬방식의 사용이 가능합니다.  
level이 1인 val이 내림차순 정렬되고, level이 0인 row가 오름차순 정렬된것을 확인 할 수 있습니다.

In [None]:
print(df.sort_index(axis=0, level=[1,0],ascending=[False,True]))

multi index에서 sort_remaining인수를 True로 할 경우 level별로 순차적으로 정렬이 진행됩니다.  
만약 level을 따로 지정했다면, 해당 level부터 정렬한 후 나머지 level을 순차적으로 정렬합니다.  
row정렬 후 val의 정렬까지 완료된 것을 확인할 수 있습니다.  

In [None]:
print(df.sort_index(axis=0, sort_remaining=True))

## 정렬 후 추출 ( nlargest, nsmallest )

**기본 사용법**  
df.nlargest(n, columns, keep='first')  
df.nsmallest(n, columns, keep='first')  

*   n : 정렬 후 출력할 행의 수 입니다.
*   columns : 정렬의 기준이 될 열 입니다.
*   keep :{ first, last, all } 동일한 값일경우 어느 행을 출력할지 정합니다.   first면 위부터, last면 아래부터, all이면 모두 출력합니다.

In [None]:
col = ['col1','col2','col3']
row = ['row3','row5','row1','row4','row2']
data = [[ 1, 21, 7],
        [ 2, 33, 3],
        [ 2,  7,97],
        [ 4, 56,31],
        [ 5, 18, 5]]
df = pd.DataFrame(data=data, index=row, columns=col)
print(df)

keep인수를 통해 중복일경우의 출력할 행을 지정할 수 있습니다.  
처음 발생한 값부터 출력(위쪽값 출력)


In [None]:
print(df.nlargest(n=3,columns='col1',keep='first'))

마지막에 발생한 값부터 출력(아래쪽 값 출력)

In [None]:
print(df.nlargest(n=3,columns='col1',keep='last'))

중복값 모두 출력

In [None]:
print(df.nlargest(n=3,columns='col1',keep='all'))

여러 열을 동시에 고려하여 정렬하고자 한다면 list를 사용하면됩니다.  
col1과 col3 모두에서 큰 값 기준 정렬할 경우 아래와 같습니다.  

In [None]:
print(df.nlargest(n=3,columns=['col1','col3']))

# 결합

## 함수를 이용한 열 단위 결합 ( combine )

**기본 사용법**  
self.combine(other, func, fill_value=None, overwrite=True)

*   other : 결합 할 DataFrame객체 입니다.
*   func : 결합에 이용할 함수 입니다.
*   fill_value : 결합하기전 Na의 값을 이 값으로 대체합니다.
*   overwrite : other에 존재하지 않는 self의 열의 값을 NaN으로 대체합니다.


In [None]:
n=np.NaN
col = ['col1','col2','col3']
row = ['row1','row2','row3']
data1 = [[1,3,4],
         [n,8,2],
         [2,6,7]]
data2 = [[7,2,3],
         [2,4,2],
         [3,1,5]]
df1 = pd.DataFrame(data1,row,col)
df2 = pd.DataFrame(data2,row,col)
print(df1)
print("-------------------------")
print(df2)

func 인수에 np.maximum을 입력하여 df1과 df2의 요소를 비교, 큰 값으로 결합하여 보겠습니다.

In [None]:
print(df1.combine(df2,np.maximum))

fill_value에 값을 입력하면, 결측치가 해당 값으로 채워진 후 결합이 진행됩니다.

In [None]:
print(df1.combine(df2,np.maximum,fill_value=9))

overwrite인수는 other에 존재하지 않는 self의 열의 요소를 NaN으로 변경하는 메서드입니다.  
먼저 이해를 돕기 위해 2x2 데이터인 df3을 만들어 보겠습니다.

In [None]:
col3 = ['col1','col2']
row3 = ['row1','row2']
data3 = [[1,2],
         [3,4]]
df3 = pd.DataFrame(data3, row3, col3)
print(df3)

overwrite가 False일 경우 존재하지 않는 열에 대해서는 기존값으로 채워집니다.

In [None]:
print(df1.combine(df3, np.maximum,overwrite=False))

overwrite가 True일 경우 존재하지 않는 열에 대해서는 NaN으로 채워집니다.  
col3의 값이 모두 NaN으로 채워진 것을 확인할 수 있습니다.

In [None]:
print(df1.combine(df3, np.maximum,overwrite=True))

## 다른 객체로 결측치 덮어쓰기 ( combine_first )

self.combine_first(other)  
other : self객체의 결측치를 덮어쓸 객체 입니다.

In [None]:
n=np.NaN
col = ['col1','col2','col3']
row = ['row1','row2','row3']
data1 = [[n,n,1],
         [n,n,1],
         [1,1,1]]
data2 = [[2,2,2],
         [2,n,2],
         [2,1,2]]
df1 = pd.DataFrame(data1,row,col)
df2 = pd.DataFrame(data2,row,col)
print(df1)
print(df2)

self객체의 NaN값을 other객체의 같은위치의 인수로 덮어쓰기 합니다.  
만약 self에서 NaN인 값이 other에서도 NaN이라면 NaN을 출력합니다.

In [None]:
print(df1.combine_first(df2))

## 인덱스기준 병합 ( join )

**기본 사용법**
self.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)  

*   other : self와 합칠 객체 입니다.
*   on : self의 열이나 인덱스 중에서 other의 어떤 열을 기준으로 결합할지 입니다.
즉, other의 (인덱스 기준이 아닌) 열 기준으로 결합할 때 on인수를 사용합니다.
*   how : {left : self기준 / right : other기준 / inner : 교집합 / outer : 합집합} 출력할 인덱스의 기준입니다.
*   lsuffix / rsffix : 이름이 중복되는 열이 있을 때 그 열에 추가로 붙일 접미사입니다.
*   lsuffix는 self의 열에 붙을 접미사고, rsuffix는 other의 열에 붙을 접미사입니다.
*   sort : 출력되는 데이터의 index를 사전적으로 정렬할지 여부입니다.


In [None]:
df1 = pd.DataFrame({'col1':[1,2,3]},index=['row3','row2','row1'])
print(df1)

In [None]:
df2 = pd.DataFrame({'col2':[13,14]},index=['row4','row3'])
print(df2)

In [None]:
df3 = pd.DataFrame({'col1':[23,24]},index=['row4','row3'])
print(df3)

how인수를 통해 인덱스의 기준을 어떤 값으로 할지 정할 수 있습니다.  
how = left인 경우 ( 기본값 ) df1의 인덱스를 기준으로 합니다.

In [None]:
print(df1.join(df2,how='left'))

how = right인 경우 df2의 인덱스를 기준으로 합니다.

In [None]:
print(df1.join(df2,how='right'))

how = outer인 경우 df1와 df2의 인덱스의 합집합을 기준으로 합니다.

In [None]:
print(df1.join(df2,how='outer'))

how = inner인 경우 df1와 df2의 인덱스의 교집합을 기준으로 합니다.

In [None]:
print(df1.join(df2,how='inner'))

sort인수를 True로 설정할 경우 인덱스의 값을 사전적으로 정렬 할 수 있습니다.  
sort가 False 인경우(기본값)

In [None]:
print(df1.join(df2,how='left'))

sort가 True 인경우 인덱스가 정렬 된 것을 확인할 수 있습니다.

In [None]:
print(df1.join(df2,how='left',sort=True))

df1과 df3은 col1이라는 이름이 중복된 열을 가지기 때문에, join메서드를 사용할 경우 오류가 발생하게 됩니다.  
이때, lsuffix / rsuffix 인수를 입력함으로서 기존 열 이름에 접미사를 붙일 수 있습니다.

In [None]:
print(df1.join(df3,how='outer',lsuffix="_left",rsuffix='_right'))

인덱스가 아닌 열 기준으로 결합하기(+ on 인수의 사용) 먼저 IDX라는 이름의 열을 갖는 두 객체를 생성해보겠습니다.

In [None]:
df4 = pd.DataFrame({'IDX':['A','B','C'],'col1':[1,2,3]})
print(df4)

In [None]:
df5 = pd.DataFrame({'IDX':['C','D'],'col2':[13,14]})
print(df5)

join메서드는 기본적으로 index를 기준으로 결합하기 때문에, 열 기준으로 결합하기 위해서는
set_index메서드를 활용해 열을 인덱스로 변경하여 join메서드를 사용하면 됩니다.

In [None]:
print(df4.set_index('IDX').join(df5.set_index('IDX')))

하지만 위와 같이 진행 할 경우 기존 인덱스가 열 값으로 변경됩니다.  
이를 방지하고 순수하게 열 기준으로 병합하려면 on 인수를 사용하면 됩니다.

In [None]:
print(df4.join(df5.set_index('IDX'),on = 'IDX'))

## 객체병합 ( merge ) 

**기본 사용법**  

left.merge(right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

*   right: left와 함께 병합할 객체입니다.

*   how : 병합시 기준이 될 인덱스를 정하는 방식입니다. left는 기존객체, right는 병합할 객체, inner은 두 객체의 인덱스의 교집합, outer은 두 객체의 인덱스의 합집합, cross는 행렬곱 입니다.
*   on : 열 기준 병합시 기준으로할 열의 이름이 양측이 동일하다면, on인수에 입력함으로써 기준 열을 정할 수 있습니다.
*   left_on / right_on : 열기준 병합 시 기준으로 할 열의 양측 이름이 다르다면, 각각 어떤 열을 기준으로 할지 정해줍니다.
열의 이름을 입력하면 됩니다.
*   left_index / right_index : 인덱스 기준 병합 시 True로 하면 해당 객체의 인덱스가 병합 기준이됩니다.  
※ 즉 left_on을 입력하고 right_index를 True로 한다면 열-인덱스 기준 병합도 가능합니다.
*   sort : 병합 후 인덱스의 사전적 정렬 여부입니다. join메서드와 기능이 동일하므로 참고 바랍니다.
*   suffixes : 병합할 객체들간 이름이 중복되는 열이 있다면, 해당 열에 붙일 접미사를 정합니다. 기본적으로 join 메서드의 lsuffix / rsuffix와 기능이 동일하지만, suffixes인수는 튜플로 두 값을
한번에 입력한다는 차이가 있습니다.
*   copy : 사본을 생성할지 여부입니다.
*   indicator : True로 할경우 병합이 완료된 객체에 추가로 열을 하나 생성하여 병합 정보를 출력합니다.
*   validate : {'1:1' / '1:m' / 'm:1' / 'm:m'} 병합 방식에 맞는지 확인할 수 있습니다. 만약 validate에 입력한 병합방식과, 실제 병합 방식이 다를경우 오류가 발생됩니다.
예를들어, validate="1:m"으로 입력하였는데, 실제로 m:1 병합방식일 경우 오류가 발생됩니다.











In [None]:
df1 = pd.DataFrame({'IDX1':['a','b','c','a'],'VAL':[1,2,3,4]})
print(df1)

In [None]:
df2 = pd.DataFrame({'IDX2':['a','c','d'],'VAL':[5,6,7]})
print(df2)

df1에서는 IDX1을, df2에서는 IDX2를 기준으로 하여 두 객체를 병합.  
IDX1과 IDX2의 값을 매칭하여 병합된 후 이름이 같은 VAL열에 대해서는 _x와 _y가 붙은것을 확인

In [None]:
print(df1.merge(df2, left_on='IDX1',right_on='IDX2'))

suffixes에 ('_left', '_right')를 입력하므로써 열 이름에 _left, _right를 붙일 수 있습니다.

In [None]:
print(df1.merge(df2, left_on='IDX1',right_on='IDX2',suffixes=('_left','_right')))

left_index / right_index를 통해 인덱스 기준으로 두 객체를 병합할 수 있습니다.  
먼저 병합할 두 객체를 만들어보겠습니다.

In [None]:
df3 = pd.DataFrame({'VAL1':[1,2,3]},index=['row1','row2','row3'])
print(df3)

In [None]:
df4 = pd.DataFrame({'VAL2':[4,5,6]},index=['row2','row3','row4'])
print(df4)

left_index와 right_index를 True로 입력하여 두 객체 모두 인덱스를 기준으로 병합할 수 있습니다.

In [None]:
print(df3.merge(df4, left_index=True,right_index=True))

left_on / right_on 과 left_index / right_index를 이용하여 양쪽의 기준을 설정해줌으로서, 인덱스와 열의 혼합 병합도 가능합니다.  
예시를 위해서 새 객체 두개를 만들어보겠습니다.  
df5는 인덱스를, df6은 열을 기준으로 하겠습니다.  

In [None]:
df5 = pd.DataFrame({'VAL1':[1,2,3]},index=['row1','row2','row3'])
print(df5)

In [None]:
df6 = pd.DataFrame({'IDX':['row2','row3','row4'],'VAL2':[4,5,6]})
print(df6)

이제 left_index는 True로하여 인덱스를 기준으로하고 right_on은 IDX로 하여 열 기준으로 병합하겠습니다.

In [None]:
print(df5.merge(df6, left_index=True,right_on='IDX'))

how인수를 사용하여 병합된 객체의 인덱스의 기준을 정할 수 있습니다.
먼저 예시에 이용될 두 객체를 만들어 보겠습니다.

In [None]:
df7 = pd.DataFrame({'IDX':['a','b','c','a'],'VAL':[1,2,3,4]})
print(df7)

In [None]:
df8 = pd.DataFrame({'IDX':['a','c','d'],'VAL':[5,6,7]})
print(df8)

how=left인 경우 왼쪽 객체의 인덱스를 기준으로 합니다.

In [None]:
print(df7.merge(df8,how='left',on='IDX'))

how=right인 경우 오른쪽 객체의 인덱스를 기준으로 합니다.

In [None]:
print(df7.merge(df8,how='right',on='IDX'))

how=inner인 경우 양쪽 객체 모두가 공통으로 갖는 인덱스를 기준으로 합니다.(교집합)

In [None]:
print(df7.merge(df8,how='inner',on='IDX'))

how=outer인 경우 양쪽 객체의 인덱스 모두를 기준으로 합니다.(합집합)

In [None]:
print(df7.merge(df8,how='outer',on='IDX'))

indicator인수를 True로 할 경우 마지막 열에 _merge열을 추가하여 병합 정보를 출력합니다.

In [None]:
print(df7.merge(df8,how='outer',on='IDX',indicator=True))

validate인수에 값을 입력하여 해당 병합방식이 맞는지 검증이 가능합니다. 병합 방식이 다를경우 오류를 출력합니다.  
1:m인지 검증

In [None]:
print(df7.merge(df8,how='outer',on='IDX',validate='1:m'))

m:1인지 검증. 병합 방식이 m:1이 맞기 때문에 결과값을 출력합니다.

In [None]:
print(df7.merge(df8,how='outer',on='IDX',validate='m:1'))

how인수중 cross는 행렬의 곱집합을 의미합니다. 단순히 말하면 행렬의 모든 경우의수를 출력합니다.
예시를 위해 두 객체를 생성해보겠습니다.

In [None]:
df9 = pd.DataFrame({'IDX1':['a','b']})
print(df9)

In [None]:
df10 = pd.DataFrame({'IDX2':['c','d']})
print(df10)

이제 how인수에 cross를 입력하므로써 두 객체의 행렬곱을 출력하겠습니다.

In [None]:
print(df9.merge(df10,how='cross'))

## 객체 병합_결측제어 기능 ( align )

**기본 사용법**    

self.align(other, join='outer', axis=None, level=None, copy=True, fill_value=None, method=None, limit=None, fill_axis=0, broadcast_axis=None)  


*   other : self와 함께 정렬할 객체 입니다.  

*   join : {inner / left / right / outer} 정렬 기준이 될 인덱스 입니다. inner이면 교집합, left면 self의 인덱스, right면 other의 인덱스, outer이면 합집합으로 인덱스를 사용합니다.
*   axis : {0 : index / 1 : columns} 정렬할 레이블입니다. 기본값으로 두 축 모두 정렬합니다.
*   level : multi index의 경우 실행할 수준(level)을 설정합니다.
*   copy : 사본을 생성할지의 여부입니다.
*   fill_value : 결측치를 어떤 값으로 채울지의 여부입니다. 기존 객체에 포함된 결측치의 경우는 바뀌지 않습니다.
*   method : {ffill / bfill} 결측치를 어떻게 채울지 여부입니다. ffill의 경우 위의값과 동일하게, bfill의 경우 아래 값과 동일하게 채웁니다.
*   limit : 결측치를 몇개나 채울지 여부입니다. limit에 설정된 갯수만큼만 결측치를 변경합니다.
*   fill_axis : {0 : index / 1 : columns} method와 limit를 가로로 적용할지 세로로 적용할지 여부입니다.
*   broadcast_axis : {0 : index / 1 : columns} 어느 축을 기준으로 브로드캐스트할지 여부입니다.








In [None]:
n=np.NaN
col1 = ['col1','col2','col3']
row1 = ['row1','row2','row3']
data1 = [[1,2,3],[5,6,7],[9,n,11]]

col2 = ['col2','col3','col4']
row2 = ['row3','row4','row5']
data2 = [[10,11,12],[14,n,16],[18,19,20]]

df1 = pd.DataFrame(data1,row1,col1)
df2 = pd.DataFrame(data2,row2,col2)

In [None]:
print(df1)
print("-------------------------")
print(df2)

join 인수를 이용해 {outer : 합집합 / left : df1기준 / right : df2기준 / inner : 교집합} 인 index로 출력합니다.  
두개의 데이터를 튜플 형태로 반환하기 때문에 리스트 슬라이싱으로 따로 print를 진행해보겠습니다.  
outer로 출력시 레이블이 df1과 df2 모두의 합집합으로 사용되고 있는것을 알 수 있습니다.

In [None]:
print(df1.align(df2,join='outer')[0])
print(df1.align(df2,join='outer')[1])

left로 출력시 df1의 레이블만 사용되는 것을 알 수 있습니다.

In [None]:
print(df1.align(df2,join='left')[0])
print(df1.align(df2,join='left')[1])

right로 출력시 df2의 레이블만 사용되는 것을 알 수 있습니다.

In [None]:
print(df1.align(df2,join='right')[0])
print(df1.align(df2,join='right')[1])

inner로 출력시 레이블이 df1과 df2 모두의 교집합으로 사용되고 있는것을 알 수 있습니다.

In [None]:
print(df1.align(df2,join='inner')[0])
print(df1.align(df2,join='inner')[1])

axis인수를 통해 정렬을 진행 할 축을 정할 수 있습니다. 기본적으로 두축 모두 입니다.  
df1에 대해서만 inner로 출력하여 확인해보겠습니다.  
axis를 0으로 하였을 경우 행 기준 inner인 row3만 정렬되었습니다.

In [None]:
print(df1.align(df2,join='inner',axis=0)[0])

axis를 1으로 하였을 경우 열 기준 inner인 col2, col3만 정렬되었습니다.

In [None]:
print(df1.align(df2,join='inner',axis=1)[0])

fill_value를 사용해서 결측치를 원하는 값으로 변경이 가능합니다.  
단, 기존 객체에 입력되어있던 결측치의 경우 변경되지 않습니다.

In [None]:
print(df1.align(df2,join='outer',fill_value='X')[0])
print(df1.align(df2,join='outer',fill_value='X')[1])

method인수는 {ffill / bfill}를 이용해 위쪽 또는 아래쪽 값으로 결측치 보정이 가능합니다.  
limit인수의 경우는 method인수를 통해 결측치 보정할 때, 몇개의 값을 보정할지 설정합니다.  
ffill로 입력 시 결측값을 바로 위의 값과 동일하게, bfill로 입력 시 결측값을 바로 아래 값과 동일하게 변경 된것을 확인할 수 있습니다.  

In [None]:
print(df1.align(df2,join='outer',method='ffill')[0])
print(df1.align(df2,join='outer',method='bfill')[1])

limit 설정시 각 레이블에 대해서 아래와 같이 설정한 갯수만 변경 됩니다.

In [None]:
print(df1.align(df2,join='outer',method='bfill',limit=1)[1])

fill_axis는 method및 limit를 어느축 기준으로 실행할지 여부입니다. 즉, 가로로 할지 세로로할지 여부입니다.

In [None]:
print(df1.align(df2,join='outer',method='ffill',fill_axis=0)[0])
print(df1.align(df2,join='outer',method='ffill',fill_axis=1)[0])

## 업데이트 (update)

**기본 사용법**  

self.update(other, join='left', overwrite=True, filter_func=None, errors='ignore')  



*   other : self에 덮어씌울 객체 입니다.  

*   join : {left} 기준이 될 인덱스 입니다. left만 선택 가능하므로 무시해도됩니다.
*   overwrite : {True / False} 덮어씌울 방식입니다. True면 self의 모든 데이터에 other을 덮어씌웁니다. False면 self에서 Na인 값에 대해서만 덮어씌우기를 진행합니다.
*   filter_func : 덮어씌울값을 함수로 정할 수 있습니다.
*   errors : {raise / ignore} raise일 경우 self와 other 모두 Na가 아닌 값이 있을경우 오류를 발생시킵니다.


In [None]:
df1 = pd.DataFrame({'A':[1,2,3],'B':[n,5,6]})
print(df1)

In [None]:
df2 = pd.DataFrame({'B':[24,n,26],'C':[37,38,39]})
print(df2)

overwrite인수가 True면 df1과 df2가 이름을 공유하는 열에 대해서 df2의 값을 df1에 덮어씌웁니다.  
False일 경우 df1에서 Na인 값에 대해서만 덮어씌우기를 진행합니다.  
※ df2에서 Na인 값의 경우 덮어씌워지지 않습니다.  
overwrite=True일 경우(기본값)

In [None]:
df1.update(df2,overwrite=True)
print(df1)

filter_func에 함수를 넣음으로서 원하는 값만 업데이트가 가능합니다.  
6인 값에 대해서만 업데이트를 하도록 filter_func를 설정하겠습니다

In [None]:
df1.update(df2,filter_func=lambda x: x==6)
print(df1)

errors인수를 raise로 할 경우 df1과 df2 모두 같은 위치에 Na가 아닌 값이 있을 경우 오류를 발생시킵니다.

In [None]:
df1.update(df2,errors='raise')
print(df1)

# 가공

## 열 삽입 (insert)

**기본 사용법**  

df.insert(loc, column, value, allow_duplicates=False)

*   loc : 삽입될 열의 위치  

*   column : 삽입될 열의 이름
*   val : 삽입될 열의 값
*   allow_duplicates : {True or False} 기본값은 False로 True일경우 중복 열의 삽입을 허용합니다.







In [None]:
data = [[1,2,3],[4,5,6],[7,8,9]]
col = ['col1','col2','col3']
row = ['row1','row2','row3']
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

loc=3으로해서 4열로 설정, column을 통해 이름을 col4로하고 value로 값을 설정하여 열을 추가해보겠습니다.

In [None]:
df.insert(3,'col4',[10,11,12])
print(df)

여기서 allow_duplicates=True하면 중복된 이름으로 col3이 추가되는것을 확인 할 수 있습니다.

In [None]:
df.insert(3,'col3',[10,11,12],allow_duplicates=True)
print(df)

## 열 꺼내기(pop)

**기본 사용법**  

df.pop(item)

item : 꺼낼 열의 이름입니다.

In [None]:
data = [[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16]]
col = ['col1','col2','col3','col4']
row = ['row1','row2','row3','row4']
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

item에 col3을 입력하여 열을 꺼내보겠습니다.  
pop한 것을 변수에 넣어 출력해 보면 해당 열이 출력 되는것을 확인 할 수 있습니다.

In [None]:
item = df.pop('col3')
print(item)

원본이었던 df는 어떻게 되었을까요?   
pop함수는 원본에서 꺼낸다는 의미이기 때문에, col3이 원본에서 삭제된것을 알 수 있습니다.

In [None]:
print(df)

## 복사 (copy)

**기본 사용법**  
df.copy(deep=True)  


deep : {True or False} 기본값 True  

deep = True인 경우를 deep copy라고 하며 원본과는 완전하게 별개인 복사본이 생성됩니다. 사본과 원본의 수정은 서로에게 영향을 끼치지 않습니다.  

deep = False인 경우를 shallow copy라고 하며 원본의 데이터 및 인덱스를 복사하지않고 새 객체를 호출합니다.
즉, 원본의 데이터가 수정되면 사본의 데이터도 수정되며, 그 반대도 마찬가지 입니다.

In [None]:
sr = pd.Series([1, 2], index=["col1", "col2"])
deep = sr.copy(deep=True)
shallow = sr.copy(deep=False)
print(sr)

In [None]:
sr[0] = 9
shallow[1] = 8
deep[1]=7

In [None]:
print(sr)

sr에서 변경한 내용이 사본인 shallow에도 적용된 것을 확인할 수 있습니다.

In [None]:
print(shallow)

원본이나 다른 사본의 변경내용과 무관하게 자기 자신의 변경내용만이 적용된 것을 확인할 수 있습니다.

In [None]:
print(deep)

In [None]:
col = ['col1','col2','col3']
row = ['row1','row2','row3']
df = pd.DataFrame(data=[[1,2,3],[4,5,6],[7,8,9]],index=row,columns=col)
deep = df.copy(deep=True)
shallow = df.copy(deep=False)

In [None]:
print(df)

In [None]:
df['col1']['row1']=99
shallow['col2']['row2']=88
deep['col2']['row2']=77

In [None]:
print(df)

df에서 변경한 내용이 사본인 shallow에도 적용된 것을 확인할 수 있습니다.

In [None]:
print(shallow)

원본이나 다른 사본의 변경내용과 무관하게 자기 자신의 변경내용만이 적용된 것을 확인할 수 있습니다.

In [None]:
print(deep)

## 행/열 삭제 (drop)

**기본 사용법**  

df.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')  



*   labels : 삭제할 레이블명입니다. axis를 지정해주어야합니다.  

*   axis : {0 : index / 1 : columns} labels인수를 사용할경우 지정할 축입니다.
*   index : 인덱스명을 입력해서 바로 삭제를 할 수 있습니다.
*   columns : 컬럼명을 입력해서 바로 삭제를 할 수 있습니다.
*   level : 멀티인덱스의 경우 레벨을 지정해서 진행할 수 있습니다.
*   inplace : 원본을 변경할지 여부입니다. True일경우 원본이 변경됩니다.
*   errors : 삭제할 레이블을 찾지 못할경우 오류를 띄울지 여부입니다. ignore할 경우 존재하는 레이블만 삭제됩니다.  
※ axis=0 + labels 는 index인수와 역할이 같고 axis=1 + labels는 columns와 역할이 같습니다.






In [None]:
sr = pd.Series([1, 2], index=["col1", "col2"])
deep = sr.copy(deep=True)
shallow = sr.copy(deep=False)
print(sr)

In [None]:
row = ['row1','row2','row3']
col = ['col1','col2','col3']
data = [[1,2,3],[4,5,6],[7,8,9]]
df = pd.DataFrame(data=data, index=row, columns=col)
print(df)

labels인수로 삭제할 레이블명을 지정해주게되면, axis인수를 통해 해당 레이블(축)을 지정해주어야합니다.  
row2 를 삭제해보겠습니다.

In [None]:
print(df.drop(labels='row2',axis=0))

col2를 삭제해보겠습니다.

In [None]:
print(df.drop(labels='col2',axis=1))

index인수와 columns인수를 사용하면 labels인수와 axis 사용 없이 삭제가 가능합니다.
index를 사용해서 row3을 삭제해보겠습니다.

In [None]:
print(df.drop(index='row3'))

columns를 이용해 col3을 삭제해보겠습니다.

In [None]:
print(df.drop(columns='col3'))

삭제하고자하는 레이블이 존재하지 않으면 오류가 발생하게됩니다.   errors='ignore'로 설정하면 오류를 발생하지 않습니다.  
row3, row4를 삭제해보겠습니다.(row4는 존재하지 않음)

In [None]:
print(df.drop(labels=['row3','row4'],errors='raise'))

row4가 존재하지 않기 때문에 오류가 발생하였습니다.   
errors='ignore'로 실행해보겠습니다.

In [None]:
print(df.drop(labels=['row3','row4'],errors='ignore'))

inplace인수는 Pandas객체의 공통사항으로 원본의 변경여부를 의미합니다.  
True일 경우 반환값 없이 원본이 변경됩니다.

In [None]:
df.drop(labels=['col1','col2'],axis=1,inplace=True)
print(df)

## 행 추가 ( append )

**기본 사용법**  

self.append(other, ignore_index=False, verify_integrity=False, sort=False)

*   other : self 객체에 행 기준으로 합칠 객체입니다.  
  
*   ignore_index : 기존 인덱스를 사용할지 여부 입니다. False로 할 경우 0,1,2,..,n 이 부여됩니다.
*   verify_integrity : 합칠 때 이름이 중복되는 인덱스가 있을 경우 오류를 발생시킬지 여부 입니다.
*   sort : 열을 사전적으로 정렬할 지 여부입니다.







In [None]:
df = pd.DataFrame(data=[[1,2],[3,4]], index=['row1','row2'], columns=['col1','col3'])
print(df)

In [None]:
df2 = pd.DataFrame(data=[[5,6]],index=['row3'],columns=['col2','col4'])
print(df2)

In [None]:
print(df.append(df2))

sort인수를 사용하면 열을 사전적으로 정렬 할 수 있습니다.

In [None]:
print(df.append(df2,sort=True))

ignore_index인수를 사용하면 기존 index를 무시할 수 있습니다.

In [None]:
print(df.append(df2,sort=True,ignore_index=True))

verify_integrity 인수를 True로 설정하면 이름이 중복되는 인덱스가 존재할 경우 오류를 발생시킵니다.  
먼저 중복되는 인덱스가 있는 2x2 객체를 하나 생성하겠습니다.

In [None]:
df3 = pd.DataFrame(data=[[7,8],[9,0]], index=['row2','row3'], columns=['col1','col3'])
print(df3)

verify_integrity가 True일 경우

In [None]:
print(df.append(df3,verify_integrity=True))

## 자르기 ( truncate )


 **기본 사용법**  

df.truncate(before=None, after=None, axis=None, copy=True)  


*   before : 이 기준 이전을 삭제합니다.  

*   after : 이 기준 이후를 삭제합니다.
*   axis : 자를 축 입니다.
*   copy : 사본을 생성할지 여부입니다.









In [None]:
row = ['row1','row2','row3','row4']
col = ['col1','col2','col3','col4']
data = [[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16]]
df = pd.DataFrame(data=data, index=row, columns=col)
print(df)

행 자르기 (row2 이전, row3이후 자르기)

In [None]:
print(df.truncate(before='row2',after='row3',axis=0))

열 자르기 (col2 이전, col3이후 자르기)

In [None]:
print(df.truncate(before='col2',after='col3',axis=1))

## 중복행 제거 ( drop_duplicate )

**기본 사용법**  

df.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)


*   subset : 중복값을 검사할 열 입니다. 기본적으로 모든 열을 검사합니다.  

*   keep : {first / last} 중복제거를할때 남길 행입니다. first면 첫값을 남기고 last면 마지막 값을 남깁니다.
*   inplace : 원본을 변경할지의 여부입니다.
*   ignore_index : 원래 index를 무시할지 여부입니다. True일 경우 0,1,2, ... , n으로 부여됩니다.







In [None]:
col = ['col1','col2','col3']
data = [['A','x','-'],['A','x','-'],['B','x','앞'],['B','y','-'],['B','y','뒤']]
df = pd.DataFrame(data=data, columns=col)
print(df)

subset에 입력된 컬럼명을 기준으로 해당 컬럼의 중복값을 검사하게됩니다.   
subset이 따로 입력되지 않는 경우는 모든 열에대해 값이 중복인 행을 제거합니다.

In [None]:
print(df.drop_duplicates())

subset에 특정 컬럼명만 입력할 경우, 해당 열에대해서만 중복값 검사를 수행합니다.

In [None]:
print(df.drop_duplicates(subset='col2'))

subset에 리스트를 입력할 경우 해당 열들에대해서 모두 중복인 경우만 삭제를 진행합니다.

In [None]:
print(df.drop_duplicates(subset=['col1','col2']))

keep인수를 통해서 중복값을 제거하고 남길 행을 선택할 수 있습니다.  
keep='first'인 경우 처음 값을 남깁니다. (기본값)

In [None]:
print(df.drop_duplicates(subset='col1',keep='first'))

keep='last'인 경우 마지막 값을 남깁니다.

In [None]:
print(df.drop_duplicates(subset='col1',keep='last'))

추가로 ignore_index=True로 할 경우 결과값의 인덱스를 0, 1, 2, ... , n으로 설정합니다.

In [None]:
print(df.drop_duplicates(subset='col1',keep='last',ignore_index=True))

Pandas 공통사항으로 inplace인수를 사용할 경우 원본에 변경이 적용됩니다.

In [None]:
df.drop_duplicates(subset='col3',inplace=True)
print(df)

## 차원축소, 스칼라 변환 ( squeeze )

**기본 사용법**  

df.squeeze(axis=None)

axis : 압축을 진행할 축 입니다.  

선행작업으로 drop 함수가 필요

In [None]:
df=pd.DataFrame(data=[[1,2],[3,4]],index=['row1','row2'],columns=['col1','col2'])
print(df)

1개의 열이나 1개의 행만 있는 DataFrame객체를 squeeze하면 Series 객체가 됩니다.  
먼저 row1을 drop하여 1행짜리 DataFrame을 만들고 squeeze하겠습니다.


In [None]:
df_row = df.drop(index='row1')
print(df_row)

In [None]:
print(df_row.squeeze())

col1과 row1을 삭제해서 요소1개짜리 DataFrame을 생성하고, squeeze를 실행하면 스칼라값이 반환됩니다.

In [None]:
df_col_row = df.drop(index='row1',columns='col1')
print(df_col_row)

In [None]:
print(df_col_row.squeeze())

## 새 열 할당 ( assign )

**기본 사용법**  

df.assign(kwargs)

kwargs : 새열이름 = 내용 형식으로 입력되는 키워드입니다. 콤마(,)를 통해 여러개를 입력할 수 있습니다.

In [None]:
df = pd.DataFrame(index=['row1','row2','row3'],data={'col1':[1,2,3]})
print(df)

lambda를 이용해 col1에 +2를 한 값으로 col2를 생성해보겠습니다.

In [None]:
print(df.assign(col2=lambda x : x.col1+2))

lambda를 사용하지 않고 아래와같이 새 열을 추가할 수 있습니다.

In [None]:
print(df.assign(col3=df['col1']*(-2)))

쉼표로 구분을 지으면서 여러개의 열을 할당할 수 있습니다.

In [None]:
print(df.assign(col2=lambda x : x.col1+2,col3=df['col1']*(-2)))

만약 추가할 새 열의 이름이 기존열과 중복된다면, 새 값으로 덮어씌워집니다.

In [None]:
print(df.assign(col1=[0,0,0]))

## 값 변경 ( replace )

**기본 사용법**  

df.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')  

*   to_replace : 변경전 기존 값입니다.  

*   value : 변경될 값입니다.
*   inplace : 원본을 변경할지 여부입니다.
*   limit : method 사용시 변경 될 갯수 입니다.
*   regex : regex 문법을 이용하여 변경값을 정합니다.








In [None]:
col = ['col1','col2','col3','col4']
row = ['row1','row2','row3','row4']
data = [['A','w',1,'alpha'],['B','x',2,'beta'],['C','y',3,'gamma'],['D','z',4,'delta']]
df = pd.DataFrame(data=data, index=row, columns=col)
print(df)

객체 전체에서 1을 99로 변경해보겠습니다.

In [None]:
print(df.replace(to_replace=1,value=99))

to_replace값이 list형태이고 value값이 단일값이면 전체가 동일하게 변경됩니다.
A, B, y, z를 -로 변경해보겠습니다.

In [None]:
print(df.replace(to_replace=['A','B','y','z'],value='-'))

to_replace값과 value값이 모두 같은 길이의 list형태일 경우 각각 같은 순서의 값으로 변경됩니다.  
A, B, y, z를 각각 a, b, Y, Z로 변경해보겠습니다.

In [None]:
print(df.replace(to_replace=['A','B','y','z'],value=['a','b','Y','Z']))

method가 ffill일 경우 to_replace값을 바로 위 값으로 변경하며, bfill일 경우 to_replace값을 바로 아래 값으로 변경합니다.  
method가 ffill인 경우

In [None]:
print(df.replace(to_replace=['x','y'],method='ffill'))

method가 bfill인 경우

In [None]:
print(df.replace(to_replace=['x','y'],method='bfill'))

method인수를 사용할때 limit인수를 통해 변경될 갯수를 지정할 수 있습니다.   
limit=1을 통해 1개만 변경해보겠습니다.

In [None]:
print(df.replace(to_replace=['x','y'],method='bfill',limit=1))

to_replace에 dict형태를 입력하여 value값 설정 없이 변경이 가능합니다.  
A를 a로, z를 Z로 변경해보겠습니다.

In [None]:
print(df.replace(to_replace={'A':'a','z':'Z'}))

dict안에 dict를 넣음으로써 특정 열의 특정값을 원하는 값으로 변경 할 수 있습니다.  
col3을 대상으로 1을 -로, 4를 +로 변경해보겠습니다.

In [None]:
print(df.replace(to_replace={'col3':{1:'-',4:'+'}}))

dict를 통해 각 열의 변경 원하는 값을 지정 후 value를 통해 변경이 가능합니다.  
col1열에서 B를, col2열에서 w를 100으로 변경해보겠습니다.

In [None]:
print(df.replace(to_replace={'col1':'B','col2':'w'},value=100))

regex를 사용할 경우 정규표현식으로 원하는 값을 지정해서 변경 할 수 있습니다.  
to_replace를 r'[e]'로 지정하고value를-로 하여 문자열에e가 포함될 경우-로 바꿔보겠습니다.  
※이때 regex=True로 해서 활성화를 진행해주어야 합니다.

In [None]:
print(df.replace(to_replace=r'[e]',value='-',regex=True))

to_replace를 사용하지 않고 단순히 regex에 정규표현식을 입력하여도 동일한 결과를 얻을 수 있습니다.

In [None]:
print(df.replace(regex=r'[e]', value='-'))

Pandas 공통사항으로 inplcace=True일 경우 원본을 변경하게 됩니다.

In [None]:
df.replace(regex=r'[e]', value='-',inplace=True)
print(df)

# 확인

## 최대/최소값이 포함된 행/열 ( idxmax / idxmin )

**기본 사용법**  
df.idxmax(axis=0, skipna=True)  

df.idxmin(axis=0, skipna=True)  


*   axis : {0 : index / 1:columns} 기준이 될 축입니다.  

*   skipna : 결측치의 무시 여부입니다. True면 결측치가 포함된 열은 무시하고 False면 NaN를 출력합니다.



In [None]:
n=np.NaN
idx =  ['row1','row2','row3']
col =  ['col1','col2','col3']
data = [[1,2,200],[100,5,6],[7,300,n]]
df = pd.DataFrame(data, idx, col)
print(df)

axis=0인경우(기본값) 열에서 최대/최소 값에 해당되는 행을 출력합니다.

In [None]:
print(df.idxmax(axis=0))

In [None]:
print(df.idxmin(axis=0))

axis=1인경우 행에서 최대/최소 값에 해당되는 열을 출력합니다.

In [None]:
print(df.idxmax(axis=1))

In [None]:
print(df.idxmin(axis=1))

skipna인수는 기본값이 True로 결측값이 포함된 행/열을 연산에서 무시합니다. False일 경우 NaN를 출력하게됩니다.

In [None]:
print(df.idxmax(axis=1,skipna=False))

## 비어있는지 확인 ( empty )

**기본 사용법**

df.empty

In [None]:
data_empty=[['','',''],['','',''],['','','']]
df = pd.DataFrame(data = data_empty, index = ['row1', 'row2', 'row3'], columns=['col1','col2','col3'])
print(df)

In [None]:
print(df.empty)

In [None]:
df = pd.DataFrame(data = np.nan, index = ['row1', 'row2', 'row3'], columns=['col1','col2','col3'])
print(df)

In [None]:
print(df.empty)

In [None]:
df1 = pd.DataFrame(index = ['row1', 'row2', 'row3']) # 열이 없는 객체
print(df1)

In [None]:
print(df1.empty)

In [None]:
df2 = pd.DataFrame(columns=['col1','col2','col3']) # 행이 없는 객체
print(df2)

In [None]:
print(df2.empty)

행이나 열이 없는 경우는 아예 구성하는 요소가 없기 때문에 df.empty가 True로 반환되는것을 볼 수 있습니다.

## 일치하는 요소 확인 ( isin )

**기본 사용법**  

df.isin(values)  



*   value : Iterable, Series, DataFrame, dict등이 올 수 있습니다.
*   Series일 경우 : Index가 일치해야 합니다.
*   DataFrame일 경우 : Index와 열 레이블이 일치해야 합니다.
*   Dict일 경우 : key는 열 레이블 입니다.


In [None]:
data = [[1,1,1],[2,3,4],[5,3,6]]
col = ['col1','col2','col3']
row = ['row1','row2','row3']
df = pd.DataFrame(data=data,index=row,columns=col)
print(df)

In [None]:
result = df.isin([1,3])
print(result)

dict를 사용해서 col1에서는 2,3인 경우, col3에서는 1,6이 포함된 요소를 확인해보겠습니다.

In [None]:
result = df.isin({'col1':[2,3],'col3':[1,6]})
print(result)

In [None]:
match_col = ['col1','col3']
match_row = ['row1','row3']
match_data = [[2,3],[1,6]]
match_df = pd.DataFrame(data=match_data,index=match_row,columns=match_col)
print(match_df)

In [None]:
result = df.isin(match_df)

## 요소의 True / False 확인 ( all / any )

**기본 사용법**  

df.all(axis=0, bool_only=None, skipna=True, level=None, kwargs)  

df.any(axis=0, bool_only=None, skipna=True, level=None, kwargs)



*   axis : {0 : index / 1:columns} 기준이 될 축입니다.  

*   bool_only : True면 축의 모든 값이 bool인 경우에만 계산을 수행합니다. None면 모든 경우를 고려합니다.
예를들어 0과 공백()은 False로 고려되고 결측값(pd.NA)은 True로 고려되는 등 입니다.
*   skipna : 결측치의 무시 여부입니다. True면 결측치가 포함된 열은 무시됩니다.
*   level : Multi Index에서 레벨의 선택입니다.
*   kwargs : 추가 키워드는 효과가 없지만 NumPy와의 호환성을 위해 허용될 수 있습니다.









In [None]:
[N,T,F]=[pd.NA,True,False]
idx = ['row1','row2','row3','row4']
data = {'col1':[T,T,T,T], 'col2':[F,F,F,F],'col3':[F,T,T,T],'col4':[T,N,T,T],'col5':[T,T,'',T],'col6':[T,T,T,0]}
df = pd.DataFrame(data=data, index=idx)
print(df)

all은 축의 값이 전부 True면 True를 반환하고 any는 하나라도 True면 True를 반환합니다.  
0과 공백()은 False로, 결측값(pd.NA)은 True로 분류됩니다.

In [None]:
print(df.all())

In [None]:
print(df.any())

In [None]:
print(df.any(axis=1))

In [None]:
print(df.all(bool_only=True))

skipna=True인 경우 결측치는 True로서 계산되며, skipna=False인 경우 결측치가 포함된 축이 계산에서 제외됩니다.

In [None]:
print(df.all(skipna=True))

In [None]:
print(df.all(skipna=False))

## 결측값이 아닌 요소의 수 (count)

**기본 사용법**

df.count(axis=0, level=None, numeric_only=False)  

*   axis : 적용할 축입니다.  

*   level : Multi Index의 경우 레벨을 설정할 수 있습니다.
*   numeric_only : True일 경우 int, float, bool 형태인 경우만 출력합니다.



In [None]:
[N,T,F]=[pd.NA,True,False]
idx = ['row1','row2','row3','row4']
data = {'col1':[1,N,N,4.0],'col2':['A','B','C',N],'col3':[N,N,N,7],'col4':[1,2.4,3.6,4]}
df = pd.DataFrame(data,idx)
print(df)

axis에 대해서 기본값은 0으로 열에 대해서 결측치가 아닌 값의 갯수를 구합니다.

In [None]:
print(df.count())

axis=1인 경우 행에 대해서 결측치가 아닌 값의 갯수를 구합니다.

In [None]:
print(df.count(axis=1))

numeric_only=True인 경우 int, float, bool로 구성된 행/열에 대해서만 계산값을 반환합니다.

In [None]:
print(df.count(numeric_only=True))

## 일치 여부 ( equals )

**기본 사용법**  

df.equals(other) 

other : df와 일치하는지 비교할 객체입니다.

In [None]:
df1 = pd.DataFrame(data=[[1,N],[3,T]])
df2 = pd.DataFrame(data=[[1,N],[3,T]])
df3 = pd.DataFrame(data=[[1,N],[3.0,T]])
print(df1)
print(df3)

객체가 완벽히 같을 경우에 True를 반환한다.

In [None]:
print(df1.equals(df2))

요소의 type이 다르기 때문에 False를 반환한다.

In [None]:
print(df1.equals(df3))

## 중복행 확인 ( duplicated )

**기본 사용법**  

df.duplicated(subset=None, keep='first')  

*   subset : 특정 열만을 대상으로 할 수 있습니다. list의 사용도 가능합니다.  

*   keep : {first : 위부터 검사 / last : 아래부터 검사} 검사 순서를 정합니다. first일 경우 위부터 확인해서 중복행이 나오면 True를 반환하며, last일 경우 아래부터 확인합니다.




In [None]:
idx = ['row1','row2','row3','row4','row5']
col = ['col1','col2','col3']
data= [['A','가',1],['A','가',1],['A','나',2],['B','나',3],['B','다',4]]
df = pd.DataFrame(data, idx, col)
print(df)

기본적으로 keep='first' 이며 위에서부터 행을 확인하여 중복인 행이 나오면 True를 반환합니다.

In [None]:
print(df.duplicated(keep='first'))

keep='last' 일 경우 아래부터 행을 확인하여 중복인 행이 나오면 True를 반환합니다.

In [None]:
print(df.duplicated(keep='last'))

subset을 이용하여 특정 열을 대상으로만 중복행의 확인이 가능합니다.

In [None]:
print(df.duplicated(subset=['col1','col3']))