<a href="https://colab.research.google.com/github/TaeWoo1/goorm/blob/main/260109.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##### 정렬(sort)  

###### 값 기준 정렬(sort_values)

**DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last',ignore_index=False, key=None)**  

sort_values 메서드는 값을 기준으로 레이블을 정렬하는 메서드

**기본 사용법**  

df.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last',ignore_index=False, key=None)  

- by : 정렬 기준이 될 레이블
- axis : {0 : index / 1 : columns} 정렬할 레이블
- inplace : 원본을 대체할 지 여부
- kind : 알고리즘 모드. quicksort(기본), mergesort, heapsort, stable
- na_position : {first/last}  Na 값 위치. 기본값은 last로 정렬시 맨 뒤에 위치
- ignore_index : 인덱스 무시 여부. True의 경우 인덱스 순서와 상관없이 0,1,2,...
 - key : 정렬방식으로 함수를 사용

In [68]:
import numpy as np
import pandas as pd

na = np.nan
data = [[-3,'A', 17],
        [na,'D', 31],
        [ 7,'D', -8],
        [15,'Z', 3 ],
        [ 0, na, -7]]
col = ['col1', 'col2', 'col3']
row = ['row1',' row2', 'row3' ,'row4', 'row5']
df = pd.DataFrame(data = data, index = row, columns = col)
print(df)

       col1 col2  col3
row1   -3.0    A    17
 row2   NaN    D    31
row3    7.0    D    -8
row4   15.0    Z     3
row5    0.0  NaN    -7


정렬의 기준이 되는 by에는 레이블 명이 되는 str이 올 수도 있고, 레이블명들의 list가 올 수도 있음.  

list 형태가 올 경우, 첫 값부터 정렬

In [69]:
print(df.sort_values(by = 'col3'))

       col1 col2  col3
row3    7.0    D    -8
row5    0.0  NaN    -7
row4   15.0    Z     3
row1   -3.0    A    17
 row2   NaN    D    31


In [70]:
print(df.sort_values(by = ['col2', 'col3']))

       col1 col2  col3
row1   -3.0    A    17
row3    7.0    D    -8
 row2   NaN    D    31
row4   15.0    Z     3
row5    0.0  NaN    -7


axis인수를 사용하여 어떤 축을 기준으로 정렬할 지 설정 가능.  
문자와 숫자 혼용시 오류

In [71]:
print(df.sort_values(by = 'col3', axis = 0))

       col1 col2  col3
row3    7.0    D    -8
row5    0.0  NaN    -7
row4   15.0    Z     3
row1   -3.0    A    17
 row2   NaN    D    31


In [72]:
# print(df.sort_values(by = 'row1', axis = 1))

In [73]:
print(df.sort_values(by = 'row5', axis = 1))

       col3  col1 col2
row1     17  -3.0    A
 row2    31   NaN    D
row3     -8   7.0    D
row4      3  15.0    Z
row5     -7   0.0  NaN


ascending 인수를 이용하여 오름차순과 내림차순 설정 가능

In [74]:
print(df.sort_values(by = 'col3', ascending= False))

       col1 col2  col3
 row2   NaN    D    31
row1   -3.0    A    17
row4   15.0    Z     3
row5    0.0  NaN    -7
row3    7.0    D    -8


na_position 으로 결측값의 위치 지정

In [75]:
print(df.sort_values(by = 'col1', na_position = 'last'))


       col1 col2  col3
row1   -3.0    A    17
row5    0.0  NaN    -7
row3    7.0    D    -8
row4   15.0    Z     3
 row2   NaN    D    31


In [76]:
print(df.sort_values(by = 'col1', na_position = 'first'))

       col1 col2  col3
 row2   NaN    D    31
row1   -3.0    A    17
row5    0.0  NaN    -7
row3    7.0    D    -8
row4   15.0    Z     3


ignore_index로 인덱스 미사용

In [77]:
print(df.sort_values(by = 'col1', ignore_index = True))

   col1 col2  col3
0  -3.0    A    17
1   0.0  NaN    -7
2   7.0    D    -8
3  15.0    Z     3
4   NaN    D    31


key인수로 정렬에 함수 이용

In [78]:
print(df.sort_values(by = 'col2', key = lambda col: col.str.lower()))

       col1 col2  col3
row1   -3.0    A    17
 row2   NaN    D    31
row3    7.0    D    -8
row4   15.0    Z     3
row5    0.0  NaN    -7


inplace 인수를 사용해서 원본 대체 여부

In [79]:
df.sort_values(by = 'col3', inplace = True)
print(df)

       col1 col2  col3
row3    7.0    D    -8
row5    0.0  NaN    -7
row4   15.0    Z     3
row1   -3.0    A    17
 row2   NaN    D    31


###### 인덱스 기준 정렬(sort_index)

**DataFrame.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last',ignore_index=False, key=None)**  

sort_index 메서드는 인덱스을 기준으로 레이블을 정렬하는 메서드

**기본 사용법**  

df.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last',ignore_index=False, key=None)  

- axis : {0 : index / 1 : columns} 정렬할 레이블
- level : multi index의 경우 정렬을 진행할 level
- inplace : 원본을 대체할 지 여부
- kind : 알고리즘 모드. quicksort(기본), mergesort, heapsort, stable
- na_position : {first/last}  Na 값 위치. 기본값은 last로 정렬시 맨 뒤에 위치
- ignore_index : 인덱스 무시 여부. True의 경우 인덱스 순서와 상관없이 0,1,2,...
 - key : 정렬방식으로 함수를 사용

- na_position, ignore_index, inplace, key 인수의 경우 sort_value와 사용이 동일
- na_position, ignore_index는 multi index에서 작동하지 않음

In [80]:
na = np.nan
index_tuples = [('row1','val1'), ('row1','val2'), ('row3','val3'),('row3','val1'),
 ('row3','val2'), ('row2','val5'), ('row2','val2')]
values = [[1,2,3], [4,na,6], [7,8,9], [na,11,12], [13,14,15], [16,17,18], [19,20,21]]
index = pd.MultiIndex.from_tuples(index_tuples)
df = pd.DataFrame(values, columns = ['col4','col1','col2'], index = index)

print(df)

           col4  col1  col2
row1 val1   1.0   2.0     3
     val2   4.0   NaN     6
row3 val3   7.0   8.0     9
     val1   NaN  11.0    12
     val2  13.0  14.0    15
row2 val5  16.0  17.0    18
     val2  19.0  20.0    21


level 지정

In [81]:
print(df.sort_index(axis = 0, level = 0))

           col4  col1  col2
row1 val1   1.0   2.0     3
     val2   4.0   NaN     6
row2 val2  19.0  20.0    21
     val5  16.0  17.0    18
row3 val1   NaN  11.0    12
     val2  13.0  14.0    15
     val3   7.0   8.0     9


In [82]:
print(df.sort_index(axis = 0, level = 1))

           col4  col1  col2
row1 val1   1.0   2.0     3
row3 val1   NaN  11.0    12
row1 val2   4.0   NaN     6
row2 val2  19.0  20.0    21
row3 val2  13.0  14.0    15
     val3   7.0   8.0     9
row2 val5  16.0  17.0    18


level별 ascending - 각 level에 다른 정렬방식의 사용

In [83]:
print(df.sort_index(axis = 0, level = [1,0], ascending = [False, True]))

           col4  col1  col2
row2 val5  16.0  17.0    18
row3 val3   7.0   8.0     9
row1 val2   4.0   NaN     6
row2 val2  19.0  20.0    21
row3 val2  13.0  14.0    15
row1 val1   1.0   2.0     3
row3 val1   NaN  11.0    12


sort_remaining인수를 True로 할 경우 level별로 순차적으로 정렬 진행  

level을 따로 지정했다면, 해당 level부터 정렬한 후 나머지 level을 순차적으로 정렬

In [84]:
print(df.sort_index(axis = 0, sort_remaining=True))

           col4  col1  col2
row1 val1   1.0   2.0     3
     val2   4.0   NaN     6
row2 val2  19.0  20.0    21
     val5  16.0  17.0    18
row3 val1   NaN  11.0    12
     val2  13.0  14.0    15
     val3   7.0   8.0     9


###### 정렬 후 추출(nlargest, nsmallest)

**DataFrame.nlargest(n, columns, keep='first')**  

**DataFrame.nsmallest(n, columns, keep='first')**  

nlargest, nsmallest 메서드는 데이터를 오름차순/내림차순 정렬 후, 위에서 n개의 행을 출력하는 메더드  

사실상 df.sort_values(columns, ascending = True/False).head(n)과 동일

**기본 사용법**  

df.nlargest(n, columns, keep='first')

df.nsmallest(n, columns, keep='first')  

- n: 정렬 후 출력할 행의 수
- columns : 정렬의 기준이 될 열
- keep : {first, last, all} 동일한 값일 경우 어느 행을 출력할 지 결정

In [85]:
col = ['col1', 'col2', 'col3']
row = ['row3', 'row5', 'row1' ,'row4', 'row2']

data = [[ 1, 21,  7],
        [ 2, 33,  3],
        [ 2,  7, 97],
        [ 4, 56, 31],
        [ 5, 18,  5]]
df = pd.DataFrame(data = data, index = row, columns = col)
print(df)

      col1  col2  col3
row3     1    21     7
row5     2    33     3
row1     2     7    97
row4     4    56    31
row2     5    18     5


keep인수를 통해 중복일 경우의 출력할 행을 지정

In [86]:
print(df.nlargest(n=3, columns = 'col1', keep = 'first'))

      col1  col2  col3
row2     5    18     5
row4     4    56    31
row5     2    33     3


In [87]:
print(df.nlargest(n=3, columns = 'col1', keep = 'last'))

      col1  col2  col3
row2     5    18     5
row4     4    56    31
row1     2     7    97


In [88]:
print(df.nlargest(n=3, columns = 'col1', keep = 'all'))

      col1  col2  col3
row2     5    18     5
row4     4    56    31
row5     2    33     3
row1     2     7    97


list를 사용해서 여러 열을 동시에 고려하여 정렬

In [89]:
print(df.nlargest(n=3, columns = ['col1','col3']))

      col1  col2  col3
row2     5    18     5
row4     4    56    31
row1     2     7    97


##### 결합(combine)

###### 함수를 이용한 열 단위 결합(combine)

**DataFrmae.combine(other, func, fill_value=None, overwrite=True)**  

combine 메서드는 두 pandas 객체를 func함수를 이용하여 결합하는 메서드

**기본 사용법**  

self.combine(other, func, fill_value=None, overwrite)  

- other : 결합할 DataFrame객체
- func : 결합에 이용할 함수
- fill_value : 결합하기 전 Na값을 이 값으로 대체
- overwrite : other에 존재하지 않는 self의 열의 값을 Nan으로 대체

In [90]:
col = ['col1', 'col2', 'col3']
row = ['row1', 'row2', 'row3']

data1 = [[1, 3, 4],
         [na,8, 2],
         [2, 7, 7]]
data2 = [[7, 2, 3],
         [2 ,4, 2],
         [3, 1, 5]]
df1 = pd.DataFrame(data1, row, col)
df2 = pd.DataFrame(data2, row, col)
print(df1)
print(df2)

      col1  col2  col3
row1   1.0     3     4
row2   NaN     8     2
row3   2.0     7     7
      col1  col2  col3
row1     7     2     3
row2     2     4     2
row3     3     1     5


In [91]:
print(df1.combine(df2, np.maximum))

      col1  col2  col3
row1   7.0     3     4
row2   NaN     8     2
row3   3.0     7     7


fill_value로 결측치 채우고 결합

In [92]:
print(df1.combine(df2, np.maximum, fill_value = 9))

      col1  col2  col3
row1   7.0     3     4
row2   9.0     8     2
row3   3.0     7     7


overwrite인수는 other에 존재하지 않는 self의 열의 요소를 NaN으로 변경

In [93]:
col3 = ['col1','col2']
row3 = ['row1','row2']
data3 = [[1,2],
         [3,4]]
df3 = pd.DataFrame(data3, row3, col3)

print(df3)

      col1  col2
row1     1     2
row2     3     4


In [94]:
print(df1.combine(df3, np.maximum, overwrite = False))

      col1  col2  col3
row1   1.0   3.0     4
row2   NaN   8.0     2
row3   NaN   NaN     7


In [95]:
print(df1.combine(df3, np.maximum, overwrite = True))


      col1  col2  col3
row1   1.0   3.0   NaN
row2   NaN   8.0   NaN
row3   NaN   NaN   NaN


###### 다른 객체로 결측치 덮어쓰기(combine_first)

**DataFrame.combine_first(other)**  

combine_first 메서드는 other의 값으로 self(df)의 Nan 값을 덮어쓰는 메서드

In [96]:
n = np.nan

col = ['col1','col2','col3']
row = ['row1','row2','row3']

data1 = [[n,n,1],
         [n,n,1],
         [1,1,1],]
data2 = [[2,2,2],
         [2,n,2],
         [2,1,2]]

df1 = pd.DataFrame(data1, row, col)
df2 = pd.DataFrame(data2, row, col)

print(df1)
print(df2)

      col1  col2  col3
row1   NaN   NaN     1
row2   NaN   NaN     1
row3   1.0   1.0     1
      col1  col2  col3
row1     2   2.0     2
row2     2   NaN     2
row3     2   1.0     2


self 객체의 nan 값을 other 객체의 같은 위치의 인수로 덮어쓰기

In [97]:
print(df1.combine_first(df2))

      col1  col2  col3
row1   2.0   2.0     1
row2   2.0   NaN     1
row3   1.0   1.0     1


###### 인덱스 기준 병합(join)

**DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)**

join메서드는 두 객체를 인덱스 기준으로 병합하는 메서드

self.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)  

- other : self 와 합칠 객체
- on : self 의 열이나 인덱스 중에서 other 의 어떤 열을 기준으로 결합할지 즉, other의 열 기준으로 결합할 때 on 인수를 사용.
- how : {left : self기준 / right : other기준 / inner : 교집합 / outer : 합집합} 출력할 인덱스의 기준.
- lsuffix / rsffix : 이름이 중복되는 열이 있을 때 그 열에 추가로 붙일 접미사
- lsuffix 는 self 의 열에 붙을 접미사고, rsuffix 는 other 의 열에 붙을 접미사
- sort : 출력되는 데이터의 index를 사전적으로 정렬할지 여부

In [98]:
df1 = pd.DataFrame({'col1' : [1,2,3]}, index = ['row3', 'row2','row1'])
df2 = pd.DataFrame({'col2' : [13,14]}, index = ['row4', 'row3'])
df3 = pd.DataFrame({'col1' : [23,24]}, index = ['row4', 'row3'])

print(df1)
print(df2)
print(df3)


      col1
row3     1
row2     2
row1     3
      col2
row4    13
row3    14
      col1
row4    23
row3    24


how인수를 통해 인덱스의 기준을 어떤 값으로 할 지 정할 수 있음

In [99]:
print(df1.join(df2, how = 'left'))
print('-'*20)
print(df1.join(df2, how = 'right'))

      col1  col2
row3     1  14.0
row2     2   NaN
row1     3   NaN
--------------------
      col1  col2
row4   NaN    13
row3   1.0    14


In [100]:
print(df1.join(df2, how = 'outer'))
print('-'*20)
print(df1.join(df2, how = 'inner'))

      col1  col2
row1   3.0   NaN
row2   2.0   NaN
row3   1.0  14.0
row4   NaN  13.0
--------------------
      col1  col2
row3     1    14


lsuffix / rsuffix 인수를 통해 중복 열 구분

In [101]:
print(df1.join(df3, how = 'outer', lsuffix = "_left", rsuffix = '_right'))


      col1_left  col1_right
row1        3.0         NaN
row2        2.0         NaN
row3        1.0        24.0
row4        NaN        23.0


인덱스가 아닌 열 기준으로 결합하기(+ on 인수의 사용)

In [102]:
df4 = pd.DataFrame({'IDX' : ['A','B','C'], 'col1': [1,2,3]})
df5 = pd.DataFrame({'IDX' : ['C','D'], 'col2': [13,14]})

print(df4)
print(df5)

  IDX  col1
0   A     1
1   B     2
2   C     3
  IDX  col2
0   C    13
1   D    14


join 메서드는 index를 기준으로 결합하기 때문에, 열 기준으로 결합하기 위해서는 set_index 메서드를 활용해 열을 인덱스로 변경

In [103]:
print(df4.set_index('IDX').join(df5.set_index('IDX')))

     col1  col2
IDX            
A       1   NaN
B       2   NaN
C       3  13.0


이처럼 하면 기존 인덱스가 열 값으로 변경되기 때문에 on 인수 사용

In [104]:
print(df4.join(df5.set_index('IDX'), on = 'IDX'))


  IDX  col1  col2
0   A     1   NaN
1   B     2   NaN
2   C     3  13.0


###### 객체병합(merge)

**DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True,
indicator=False, validate=None)**  

merge 메서드는 두 객체를 병합하는 메서드. join 과 비슷하지만 더 세부적인 설정이 가능한 메서드로,  

인덱스-열 기준 병합도 가능하며, indicator 인수를 통한 병합정보확인, validate 를 통한 병합방식 확인등이 가능

left.merge(right, how='inner', on=None, left_on=None, right_on=None,
left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True,
indicator=False, validate=None)  

- right : left 와 함께 병합할 객체.

- how : 병합시 기준이 될 인덱스를 정하는 방식. left는 기준객체, right는 병합할 객체, inner는 두 객체의 인덱스의 교집합, outer은 두 객체의 인덱스의 합집합, cross는 행렬곱.

- on : 열 기준 병합시 기준으로할 열의 이름이 양측이 동일하다면, on 인수에 입력함으로써 기준 열을 정함.

- left_on / right_on : 열 기준 병합 시 기준으로 할 열의 양측 이름이 다르다면, 각각 어떤 열을 기준으로 할지 정해줍니다. 열의 이름을 입력.

- left_index / right_index : 인덱스 기준 병합 시 True 로 하면 해당 객체의 인덱스가 병합 기준.

> ※ 즉 left_on 을 입력하고 right_index 를 True 로 한다면 열-인덱스 기준 병합도 가능.

- sort : 병합 후 인덱스의 사전적 정렬 여부. join 메서드와 기능이 동일.

- suffixes : 병합할 객체들간 이름이 중복되는 열이 있다면, 해당 열에 붙일 접미사를 정함.
기본적으로 join 메서드의 lsuffix / rsuffix 와 기능이 동일하지만, suffixes 인수는 튜플로 두 값을 한번에 입력한다는 차이

- copy : 사본을 생성할지 여부.

- indicator : True 로 할경우 병합이 완료된 객체에 추가로 열을 하나 생성하여 병합 정보를 출력

- validate : {'1:1' / '1:m' / 'm:1' / 'm:m'} 병합 방식에 맞는지 확인. 만약 validate 에 입력한 병합방식과, 실제 병합 방식이 다를경우 오류.  
예를들어, validate="1:m" 으로 입력하였는데, 실제로 m:1 병합방식일 경우 오류

열 기준으로 병합(left_on / right_on)

In [105]:
df1 = pd.DataFrame({'IDX1' : ['a','b','c','a'], 'VAL':[1,2,3,4]})
df2 = pd.DataFrame({'IDX2' : ['a','c','d'], 'VAL':[5,6,7]})

print(df1)
print('-'*20)
print(df2)

  IDX1  VAL
0    a    1
1    b    2
2    c    3
3    a    4
--------------------
  IDX2  VAL
0    a    5
1    c    6
2    d    7


suffixes를 통한 동명인 열 구분

In [106]:
print(df1.merge(df2, left_on = 'IDX1', right_on = 'IDX2', suffixes = ('_left','_right')))

  IDX1  VAL_left IDX2  VAL_right
0    a         1    a          5
1    c         3    c          6
2    a         4    a          5


인덱스 기준으로 병합(left_index / right_index)

In [107]:
df3 = pd.DataFrame({'VAL' : [1,2,3]}, index=['row1','row2','row3'])
df4 = pd.DataFrame({'VAL2' : [4,5,6]}, index=['row2','row3','row4'])
print(df3)
print(df4)

      VAL
row1    1
row2    2
row3    3
      VAL2
row2     4
row3     5
row4     6


In [108]:
print(df3.merge(df4, left_index = True, right_index=True))

      VAL  VAL2
row2    2     4
row3    3     5


열과 인덱스를 혼합하여 병합

In [109]:
df5 = pd.DataFrame({'VAL1':[1,2,3]}, index = ['row1','row2','row3'])
df6 = pd.DataFrame({'IDX':['row2', 'row3','row4'], 'VAL2':[4,5,6]})
print(df5)
print(df6)


      VAL1
row1     1
row2     2
row3     3
    IDX  VAL2
0  row2     4
1  row3     5
2  row4     6


In [110]:
print(df5.merge(df6, left_index = True, right_on = 'IDX'))

   VAL1   IDX  VAL2
0     2  row2     4
1     3  row3     5


how 인수를 사용하여 병합된 객체의 인덱스의 기준을 정할 수 있음

In [111]:
df7 = pd.DataFrame({'IDX':['a','b','c','a'], 'VAL' : [1,2,3,4]})
df8 = pd.DataFrame({'IDX':['a','c','d'], 'VAL' : [5,6,7]})

print(df7)
print('-'*20)
print(df8)


  IDX  VAL
0   a    1
1   b    2
2   c    3
3   a    4
--------------------
  IDX  VAL
0   a    5
1   c    6
2   d    7


In [112]:
print(df7.merge(df8, how = 'left', on = 'IDX'))
print('-'*20)
print(df7.merge(df8, how = 'right', on = 'IDX'))

  IDX  VAL_x  VAL_y
0   a      1    5.0
1   b      2    NaN
2   c      3    6.0
3   a      4    5.0
--------------------
  IDX  VAL_x  VAL_y
0   a    1.0      5
1   a    4.0      5
2   c    3.0      6
3   d    NaN      7


In [113]:
print(df7.merge(df8, how = 'inner', on = 'IDX'))
print('-'*20)
print(df7.merge(df8, how = 'outer', on = 'IDX'))

  IDX  VAL_x  VAL_y
0   a      1      5
1   c      3      6
2   a      4      5
--------------------
  IDX  VAL_x  VAL_y
0   a    1.0    5.0
1   a    4.0    5.0
2   b    2.0    NaN
3   c    3.0    6.0
4   d    NaN    7.0


In [114]:
print(df7.merge(df8, how = 'outer', on = 'IDX', indicator = True))

  IDX  VAL_x  VAL_y      _merge
0   a    1.0    5.0        both
1   a    4.0    5.0        both
2   b    2.0    NaN   left_only
3   c    3.0    6.0        both
4   d    NaN    7.0  right_only


validate를 통한 병합 방식 검증

In [115]:
# print(df7.merge(df8, how = 'outer', on = 'IDX', validate = '1:m'))

In [116]:
print(df7.merge(df8, how = 'outer', on = 'IDX', validate = 'm:1'))

  IDX  VAL_x  VAL_y
0   a    1.0    5.0
1   a    4.0    5.0
2   b    2.0    NaN
3   c    3.0    6.0
4   d    NaN    7.0


how인수에 cross를 적용하는 경우

In [117]:
df9 = pd.DataFrame({'IDX1':['a','b']})
df10 = pd.DataFrame({'IDX2':['c','d']})
print(df9)
print('-' * 20)
print(df10)

  IDX1
0    a
1    b
--------------------
  IDX2
0    c
1    d


In [118]:
print(df9.merge(df10, how = 'cross'))

  IDX1 IDX2
0    a    c
1    a    d
2    b    c
3    b    d


###### align

**DataFrame.align(other, join='outer', axis=None, level=None, copy=True, fill_value=None, method=None, limit=None, fill_axis=0, broadcast_axis=None)**

align 메서드는 두 객체를 특정 기준들에 맞추어 정렬하는 메서드.  
두개의 데이터를 튜플 형태로 반환

self.align(other, join='outer', axis=None, level=None, copy=True, fill_value=None, method=None, limit=None, fill_axis=0, broadcast_axis=None)  

- other : self 와 함께 정렬할 객체.

- join : {inner / left / right / outer} 정렬 기준이 될 인덱스. inner이면 교집합, left면 self 의 인덱스, right면 other 의 인덱스, outer이면 합집합으로 인덱스를 사용.

- axis : {0 : index / 1 : columns} 정렬할 레이블. 기본값으로 두 축 모두 정렬

- level : multi index의 경우 실행할 수준(level)을 설정.

- copy : 사본을 생성할지의 여부.

- fill_value : 결측치를 어떤 값으로 채울지의 여부. 기존 객체에 포함된 결측치의 경우는 바뀌지 않음

- method : {ffill / bfill} 결측치를 어떻게 채울지 여부. ffill의 경우 위의값과 동일하게, bfill의 경우 아래 값과 동일하게 채움

- limit : 결측치를 몇개나 채울지 여부. limit 에 설정된 갯수만큼만 결측치를 변경.

- fill_axis : {0 : index / 1 : columns} method 와 limit 를 가로로 적용할지 세로로 적용할지 여부.

- broadcast_axis : {0 : index / 1 : columns} 어느 축을 기준으로 브로드캐스트할지 여부  
브로드캐스트란 서로 차원이 다른 두 객체에 대해서 저차원 데이터의 차원을 고차원 데이터에 맞추는 과정.

In [119]:
n = np.nan
col1 = ['col1','col2','col3']
row1 = ['row1','row2','row3']
data1 = [[1,2,3],[5,6,7],[9,n,11]]

col2 = ['col2','col3','col4']
row2 = ['row3','row4','row5']
data2 = [[10,11,12],[14,n,16],[18,19,20]]

df1 = pd.DataFrame(data1, row1, col1)
df2 = pd.DataFrame(data2, row2, col2)

print(df1)
print('-'*20)
print(df2)


      col1  col2  col3
row1     1   2.0     3
row2     5   6.0     7
row3     9   NaN    11
--------------------
      col2  col3  col4
row3    10  11.0    12
row4    14   NaN    16
row5    18  19.0    20


join 인수의 사용을 통한 레이블 설정

In [120]:
print(df1.align(df2, join = 'outer')[0])
print('-'*30)
print(df1.align(df2, join = 'outer')[1])

      col1  col2  col3  col4
row1   1.0   2.0   3.0   NaN
row2   5.0   6.0   7.0   NaN
row3   9.0   NaN  11.0   NaN
row4   NaN   NaN   NaN   NaN
row5   NaN   NaN   NaN   NaN
------------------------------
      col1  col2  col3  col4
row1   NaN   NaN   NaN   NaN
row2   NaN   NaN   NaN   NaN
row3   NaN  10.0  11.0  12.0
row4   NaN  14.0   NaN  16.0
row5   NaN  18.0  19.0  20.0


In [121]:
print(df1.align(df2, join = 'left')[0])
print('-'*30)
print(df1.align(df2, join = 'left')[1])

      col1  col2  col3
row1     1   2.0     3
row2     5   6.0     7
row3     9   NaN    11
------------------------------
      col1  col2  col3
row1   NaN   NaN   NaN
row2   NaN   NaN   NaN
row3   NaN  10.0  11.0


In [122]:
print(df1.align(df2, join = 'right')[0])
print('-'*30)
print(df1.align(df2, join = 'right')[1])

      col2  col3  col4
row3   NaN  11.0   NaN
row4   NaN   NaN   NaN
row5   NaN   NaN   NaN
------------------------------
      col2  col3  col4
row3    10  11.0    12
row4    14   NaN    16
row5    18  19.0    20


In [123]:
print(df1.align(df2, join = 'inner')[0])
print('-'*30)
print(df1.align(df2, join = 'inner')[1])

      col2  col3
row3   NaN    11
------------------------------
      col2  col3
row3    10  11.0


axis 인수를 통한 정렬 축 설정

In [124]:
print(df1.align(df2, join = 'inner', axis = 0)[0])
print('-'*30)
print(df1.align(df2, join = 'inner', axis = 1)[0])

      col1  col2  col3
row3     9   NaN    11
------------------------------
      col2  col3
row1   2.0     3
row2   6.0     7
row3   NaN    11


fill_value를 사용한 결측치 입력

In [125]:
print(df1.align(df2, join = 'outer', fill_value = 'X')[0])
print('-'*30)
print(df1.align(df2, join = 'outer', fill_value = 'X')[1])

     col1 col2 col3 col4
row1    1  2.0    3    X
row2    5  6.0    7    X
row3    9  NaN   11    X
row4    X    X    X    X
row5    X    X    X    X
------------------------------
     col1 col2  col3 col4
row1    X    X     X    X
row2    X    X     X    X
row3    X   10  11.0   12
row4    X   14   NaN   16
row5    X   18  19.0   20


method / limit 인수를 사용한 결측치 보정

In [126]:
print(df1.align(df2, join = 'outer', method = 'ffill')[0])
print('-'*30)
print(df1.align(df2, join = 'outer', method = 'ffill')[1])

      col1  col2  col3  col4
row1   1.0   2.0   3.0   NaN
row2   5.0   6.0   7.0   NaN
row3   9.0   6.0  11.0   NaN
row4   9.0   6.0  11.0   NaN
row5   9.0   6.0  11.0   NaN
------------------------------
      col1  col2  col3  col4
row1   NaN   NaN   NaN   NaN
row2   NaN   NaN   NaN   NaN
row3   NaN  10.0  11.0  12.0
row4   NaN  14.0  11.0  16.0
row5   NaN  18.0  19.0  20.0


  print(df1.align(df2, join = 'outer', method = 'ffill')[0])
  print(df1.align(df2, join = 'outer', method = 'ffill')[1])


In [127]:
print(df1.align(df2, join = 'outer', method = 'bfill', limit = 1)[0])
print('-'*30)
print(df1.align(df2, join = 'outer', method = 'bfill', limit = 1)[1])

      col1  col2  col3  col4
row1   1.0   2.0   3.0   NaN
row2   5.0   6.0   7.0   NaN
row3   9.0   NaN  11.0   NaN
row4   NaN   NaN   NaN   NaN
row5   NaN   NaN   NaN   NaN
------------------------------
      col1  col2  col3  col4
row1   NaN   NaN   NaN   NaN
row2   NaN  10.0  11.0  12.0
row3   NaN  10.0  11.0  12.0
row4   NaN  14.0  19.0  16.0
row5   NaN  18.0  19.0  20.0


  print(df1.align(df2, join = 'outer', method = 'bfill', limit = 1)[0])
  print(df1.align(df2, join = 'outer', method = 'bfill', limit = 1)[1])


fill_axis 인수의 사용

In [128]:
print(df1.align(df2, join = 'outer', method = 'ffill', fill_axis =0)[0])
print('-'*30)
print(df1.align(df2, join = 'outer', method = 'ffill', fill_axis =1)[0])

      col1  col2  col3  col4
row1   1.0   2.0   3.0   NaN
row2   5.0   6.0   7.0   NaN
row3   9.0   6.0  11.0   NaN
row4   9.0   6.0  11.0   NaN
row5   9.0   6.0  11.0   NaN
------------------------------
      col1  col2  col3  col4
row1   1.0   2.0   3.0   3.0
row2   5.0   6.0   7.0   7.0
row3   9.0   9.0  11.0  11.0
row4   NaN   NaN   NaN   NaN
row5   NaN   NaN   NaN   NaN


  print(df1.align(df2, join = 'outer', method = 'ffill', fill_axis =0)[0])
  print(df1.align(df2, join = 'outer', method = 'ffill', fill_axis =1)[0])


###### 업데이트(update)

**DataFrame.update(other, join='left', overwrite=True, filter_func=None, errors='ignore')**  

update 메서드는 DataFrame의 열을 other 객체의 동일한 열의 값으로 덮어씌우는 메서드. 반환값 없이 원본이 변경

self.update(other, join='left', overwrite=True, filter_func=None, errors='ignore')  

- other : self 에 덮어씌울 객체  

- join : {left} 기준이 될 인덱스. left만 선택 가능하므로 무시.

- overwrite : {True / False} 덮어씌울 방식. True면 self 의 모든 데이터에 other 을 덮어씌움. False면 self 에서 Na 인 값에 대해서만 덮어씌우기를 진행.

- filter_func : 덮어씌울값을 함수로.

- errors : {raise / ignore} raise일 경우 self 와 other 모두 Na 가 아닌 값이 있을경우 오류를 발생.

In [136]:
df1 = pd.DataFrame({'A':[1,2,3], 'B':[n,5,6]})
df2 = pd.DataFrame({'B':[24,n,26], 'C':[37,38,39]})

print(df1)
print(df2)

   A    B
0  1  NaN
1  2  5.0
2  3  6.0
      B   C
0  24.0  37
1   NaN  38
2  26.0  39


Overwrite 인수로 업데이트 방식 설정

In [140]:
df1.update(df2, overwrite = True)
print(df1)

   A     B
0  1  24.0
1  2   5.0
2  3  26.0


In [142]:
df1 = pd.DataFrame({'A':[1,2,3], 'B':[n,5,6]})
df2 = pd.DataFrame({'B':[24,n,26], 'C':[37,38,39]})

In [143]:
df1.update(df2, overwrite = False)
print(df1)

   A     B
0  1  24.0
1  2   5.0
2  3   6.0


filter_func으로 원하는 값만 업데이트

In [145]:
df1 = pd.DataFrame({'A':[1,2,3], 'B':[n,5,6]})
df2 = pd.DataFrame({'B':[24,n,26], 'C':[37,38,39]})

In [146]:
df1.update(df2, filter_func = lambda x : x == 6)
print(df1)

   A     B
0  1   NaN
1  2   5.0
2  3  26.0


errors인수의 사용법 raise

In [None]:
df1 = pd.DataFrame({'A':[1,2,3], 'B':[n,5,6]})
df2 = pd.DataFrame({'B':[24,n,26], 'C':[37,38,39]})

In [148]:
# df1.update(df2, errors = 'raise')
# print(df1)

##### 가공(Modify)

###### 업데이트 (update)

**DataFrame.insert(loc, column, value, allow_duplicates=False)**  

insert 메서드는 DataFrame의 특정 위치에 열을 삽입하는 메서드  
DataFrame에 해당 열이 이미 존재할 경우 allow_duplicates = True가 아니면 value error

**기본 사용법**  
df.insert(loc, column, value, allow_duplicates = False)  

- loc : 삽입될 열의 위치
- column : 삽입될 열의 이름
- val : 삽입될 열의 값
- allow_duplicates : {True or False} 기본값은 False로 True일 경우 중복 열의 삽입을 허용

In [152]:
data = [[1,2,3],[4,5,6],[7,8,9]]
col = ['col1','col2','col3']
row = ['row1','row2','row3']
df = pd.DataFrame(data = data, index = row, columns = col)
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


In [153]:
df.insert(3, 'col4', [10,11,12])
print(df)

      col1  col2  col3  col4
row1     1     2     3    10
row2     4     5     6    11
row3     7     8     9    12


allow_duplicates를 활용하면 중복된 이름으로 col 추가 가능

In [154]:
df.insert(3,'col3', [10,11,12], allow_duplicates=True)
print(df)

      col1  col2  col3  col3  col4
row1     1     2     3    10    10
row2     4     5     6    11    11
row3     7     8     9    12    12


###### 열 꺼내기(pop)  

**DataFrame.pop(item)**  

pop 메서드는 DataFrame에서 열 레이블을 꺼냄.

**기본 사용법**  
df.pop(item)  
- item : 꺼낼 열의 이름

In [155]:
data = [[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16]]
col = ['col1','col2','col3', 'col4']
row = ['row1','row2','row3', 'row4']
df = pd.DataFrame(data = data, index = row, columns = col)
print(df)

      col1  col2  col3  col4
row1     1     2     3     4
row2     5     6     7     8
row3     9    10    11    12
row4    13    14    15    16


In [156]:
item = df.pop('col3')
print(item)
print('-'*20)
print(df)

row1     3
row2     7
row3    11
row4    15
Name: col3, dtype: int64
--------------------
      col1  col2  col4
row1     1     2     4
row2     5     6     8
row3     9    10    12
row4    13    14    16


###### 복사(copy)

**DataFrame.copy(deep = True)**  

pandas 객체를 복제. deep, shallow

**기본 사용법**  
df.copy(deep = True)

- deep = True 인 경우 deep copy; 완전하게 별개인 복사본

- deep = True 인 경우 shallow copy; 원본의 데이터 및 인덱스를 복사하지 않고 새 객체를 호출



In [157]:
sr = pd.Series([1,2], index = ['col1','col2'])
deep = sr.copy(deep = True)
shallow = sr.copy(deep = False)
print(sr)


col1    1
col2    2
dtype: int64


In [158]:
sr[0] = 9
shallow[1] = 8
deep[1] = 7

  sr[0] = 9
  shallow[1] = 8
  deep[1] = 7


In [160]:
print(sr)
print(shallow)
print(deep)

col1    9
col2    8
dtype: int64
col1    9
col2    8
dtype: int64
col1    1
col2    7
dtype: int64


In [161]:
data = [[1,2,3],[4,5,6],[7,8,9]]
col = ['col1','col2','col3']
row = ['row1','row2','row3']
df = pd.DataFrame(data = data, index = row, columns = col)
deep = df.copy(deep = True)
shallow = df.copy(deep = False)

In [162]:
df['col1']['row1'] = 99
shallow['col2']['row2'] = 88
deep['col2']['row2'] = 77

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df['col1']['row1'] = 99
You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because

In [163]:
print(shallow)
print(deep)

      col1  col2  col3
row1    99     2     3
row2     4    88     6
row3     7     8     9
      col1  col2  col3
row1     1     2     3
row2     4    77     6
row3     7     8     9


###### 행/열 삭제(drop)

**DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')**  

drop 메서드는 데이터프레임에서 열을 삭제하는 메서드  
pop 메서드와는 다르게 원본이 변경되지 않음

In [167]:
sr = pd.Series([1,2], index = ['col1','col2'])
deep = sr.copy(deep = True)
shallow = sr.copy(deep = False)
print(sr)

col1    1
col2    2
dtype: int64


In [168]:
row = ['row1','row2','row3']
col = ['col1','col2','col3']
data = [[1,2,3],[4,5,6],[7,8,9]]
df = pd.DataFrame(data = data, index = row, columns = col)
print(df)

      col1  col2  col3
row1     1     2     3
row2     4     5     6
row3     7     8     9


In [169]:
print(df.drop(labels='row2', axis = 0))
print(df.drop(labels='col2', axis = 1))

      col1  col2  col3
row1     1     2     3
row3     7     8     9
      col1  col3
row1     1     3
row2     4     6
row3     7     9


errors = 'ignore'로 설정하면 오류를 발생하지 않음

In [170]:
#print(df.drop(labels=['row3', 'row4'], errors = 'raise'))
print(df.drop(labels=['row3', 'row4'], errors = 'ignore'))

      col1  col2  col3
row1     1     2     3
row2     4     5     6


inplace 인수로 원본 변경

In [171]:
df.drop(labels = ['col1', 'col2'], axis = 1, inplace = True)
print(df)

      col3
row1     3
row2     6
row3     9


##### 가공(modify)

###### 행추가(append)

**DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=False)**  

append 메서드는 데이터프레임에 행을 추가하는  메서드.  

두 데이터프레임 객체를 행 기준으로 합치는 개념


-> pandas 2.0부터 제거

###### 자르기(truncate)

**DataFrame.truncate(before = None, after = None, axis = None, copy = None)**  

truncate 메서드는 행이나 열에 대해서 앞뒤를 자르는 메서드

In [179]:
data = [[1,2,3,4],[5,6,7,8],[9,10,11,12],[13,14,15,16]]
col = ['col1','col2','col3', 'col4']
row = ['row1','row2','row3', 'row4']
df = pd.DataFrame(data = data, index = row, columns = col)
print(df)

      col1  col2  col3  col4
row1     1     2     3     4
row2     5     6     7     8
row3     9    10    11    12
row4    13    14    15    16


In [181]:
print(df.truncate(before = 'row2', after = 'row3', axis = 0))
print(df.truncate(before = 'col2', after = 'col3', axis = 1))

      col1  col2  col3  col4
row2     5     6     7     8
row3     9    10    11    12
      col2  col3
row1     2     3
row2     6     7
row3    10    11
row4    14    15


###### 중복행 제거(drop_duplicates)

**DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)**  

drop_duplicates 메서드는 내용이 중복되는 행을 제거하는 메서드

df.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)  

- subset : 중복값을 검사할 열. 기본적으로 모든 열을 검사.

- keep : {first / last} 중복제거를할때 남길 행. first면 첫값을 남기고 last면 마지막 값을 남김.

- inplace : 원본을 변경할지의 여부입니다.

- ignore_index : 원래 index를 무시할지 여부. True 일 경우 0,1,2, ... , n으로 부여.

In [182]:
col = ['col1', 'col2', 'col3']
data = [['A','x','-'],['A','x','-'],['B','x','앞'],['B','y','-'],['B','y','뒤']]
df = pd.DataFrame(data = data, columns = col)
print(df)

  col1 col2 col3
0    A    x    -
1    A    x    -
2    B    x    앞
3    B    y    -
4    B    y    뒤


In [183]:
print(df.drop_duplicates(subset = 'col2'))

  col1 col2 col3
0    A    x    -
3    B    y    -


In [184]:
print(df.drop_duplicates(subset = ['col1','col2']))

  col1 col2 col3
0    A    x    -
2    B    x    앞
3    B    y    -


keep인수를 통해 남길 행 선택

In [185]:
print(df.drop_duplicates(subset = 'col1', keep = 'first'))
print(df.drop_duplicates(subset = 'col1', keep = 'last'))

  col1 col2 col3
0    A    x    -
2    B    x    앞
  col1 col2 col3
1    A    x    -
4    B    y    뒤


ignore_index로 결과값의 인덱스 조정

In [186]:
print(df.drop_duplicates(subset = 'col1', keep = 'last', ignore_index = True))


  col1 col2 col3
0    A    x    -
1    B    y    뒤


###### 차원축소, 스칼라 변환(squeeze)

**DataFrame.squeeze(axis=None)**

squeeze 메서드는 차원을 축소(압축)하는 메서드. 한개의 행이나 열만 있는 DataFrame을 squeeze 하면 Series 객체가 되며, 1개 인덱스만 있는 Series를 squeeze 하면 스칼라값이 됨.  1행,1열만 있는 DataFrame 객체를 squeeze 하면 스칼라 값이 됨.  

**기본 사용법**  
df.squeeze(axis=None)
- axis : 압축을 진행할 축

In [187]:
row = ['row1', 'row2']
col = ['col1', 'col2']
data = [[1,2],[3,4]]
df = pd.DataFrame(data = data, columns = col, index = row)
print(df)

      col1  col2
row1     1     2
row2     3     4


데이터프레임을 series로

In [188]:
df_row = df.drop(index = 'row1')
print(df_row)

      col1  col2
row2     3     4


In [189]:
print(df_row.squeeze())

col1    3
col2    4
Name: row2, dtype: int64


In [191]:
df_col = df.drop(columns = 'col1')
print(df_col)

      col2
row1     2
row2     4


In [192]:
print(df_row.squeeze())

col1    3
col2    4
Name: row2, dtype: int64


In [193]:
df_col_row = df.drop(index = 'row1', columns = 'col1')
print(df_col_row)

      col2
row2     4


In [194]:
print(df_col_row.squeeze())

4
