In [1]:
import pandas as pd
import numpy as np

In [2]:
na = np.NaN
data = [[-3,'A',17],
        [na,'D',31],
        [ 7,'D',-8],
        [15,'Z', 3],
        [ 0, na,-7]]
col = ['col1','col2','col3']
row = ['row1','row2','row3','row4','row5']
df = pd.DataFrame(data = data, index = row, columns= col)
print(df)

      col1 col2  col3
row1  -3.0    A    17
row2   NaN    D    31
row3   7.0    D    -8
row4  15.0    Z     3
row5   0.0  NaN    -7


In [3]:
#by = 정렬의 기준, str이 올 수도 있고 레이블명의 list가 올 수 있음
print(df.sort_values(by='col3'))

      col1 col2  col3
row3   7.0    D    -8
row5   0.0  NaN    -7
row4  15.0    Z     3
row1  -3.0    A    17
row2   NaN    D    31


In [4]:
print(df.sort_values(by=['col2','col3']))

      col1 col2  col3
row1  -3.0    A    17
row3   7.0    D    -8
row2   NaN    D    31
row4  15.0    Z     3
row5   0.0  NaN    -7


In [5]:
#axis인수 사용-> 어떤 축응로 정렬할지 설정
print(df.sort_values(by='col3', axis=0))

      col1 col2  col3
row3   7.0    D    -8
row5   0.0  NaN    -7
row4  15.0    Z     3
row1  -3.0    A    17
row2   NaN    D    31


In [6]:
print(df.sort_values(by='row1', axis=1)) #오류 발생함. 행 기준 row1의 오름차순 정렬

TypeError: '>' not supported between instances of 'numpy.ndarray' and 'str'

In [7]:
print(df.sort_values(by='row5', axis=1))

      col3  col1 col2
row1    17  -3.0    A
row2    31   NaN    D
row3    -8   7.0    D
row4     3  15.0    Z
row5    -7   0.0  NaN


In [8]:
#ascending인수의 사용, True=오름차순
print(df.sort_values(by='col3', ascending= False))

      col1 col2  col3
row2   NaN    D    31
row1  -3.0    A    17
row4  15.0    Z     3
row5   0.0  NaN    -7
row3   7.0    D    -8


In [9]:
print(df.sort_values(by='col1', na_position='last'))

      col1 col2  col3
row1  -3.0    A    17
row5   0.0  NaN    -7
row3   7.0    D    -8
row4  15.0    Z     3
row2   NaN    D    31


In [10]:
#결측값이 맨 앞
print(df.sort_values(by='col1', na_position='first'))

      col1 col2  col3
row2   NaN    D    31
row1  -3.0    A    17
row5   0.0  NaN    -7
row3   7.0    D    -8
row4  15.0    Z     3


In [11]:
#ignore_index인수의 사용
print(df.sort_values(by='col3', ignore_index=True))

   col1 col2  col3
0   7.0    D    -8
1   0.0  NaN    -7
2  15.0    Z     3
3  -3.0    A    17
4   NaN    D    31


In [12]:
#key인수의 사용
print(df.sort_values(by='col2', key=lambda col : col.str.lower()))

      col1 col2  col3
row1  -3.0    A    17
row2   NaN    D    31
row3   7.0    D    -8
row4  15.0    Z     3
row5   0.0  NaN    -7


In [13]:
#inplace인수의 사용
df.sort_values(by='col3', inplace=True)

# 0702.인덱스 기준 정렬 sort_index

In [14]:
na = np.NaN
index_tuples = [('row1', 'val1'), ('row1', 'val2'), ('row3', 'val3'), ('row3', 'val1'), ('row3', 'val2'), ('row2', 'val5'),('row2', 'val2')]
values = [ [1,2,3], [4,na,6], [7,8,9], [na,11,12], [13,14,15], [16,17,18], [19,20,21]]
index = pd.MultiIndex.from_tuples(index_tuples) # 인덱스 설정
df = pd.DataFrame(values, columns=['col4', 'col1', 'col2'], index = index)
print(df)

           col4  col1  col2
row1 val1   1.0   2.0     3
     val2   4.0   NaN     6
row3 val3   7.0   8.0     9
     val1   NaN  11.0    12
     val2  13.0  14.0    15
row2 val5  16.0  17.0    18
     val2  19.0  20.0    21


In [15]:
#level의 지정
print(df.sort_index(axis=0, level=0))

           col4  col1  col2
row1 val1   1.0   2.0     3
     val2   4.0   NaN     6
row2 val2  19.0  20.0    21
     val5  16.0  17.0    18
row3 val1   NaN  11.0    12
     val2  13.0  14.0    15
     val3   7.0   8.0     9


In [16]:
print(df.sort_index(axis=0, level=1))

           col4  col1  col2
row1 val1   1.0   2.0     3
row3 val1   NaN  11.0    12
row1 val2   4.0   NaN     6
row2 val2  19.0  20.0    21
row3 val2  13.0  14.0    15
     val3   7.0   8.0     9
row2 val5  16.0  17.0    18


In [17]:
#level =1 내림차순, level=0 오름차순
print(df.sort_index(axis=0, level=[1,0], ascending=[False, True]))

           col4  col1  col2
row2 val5  16.0  17.0    18
row3 val3   7.0   8.0     9
row1 val2   4.0   NaN     6
row2 val2  19.0  20.0    21
row3 val2  13.0  14.0    15
row1 val1   1.0   2.0     3
row3 val1   NaN  11.0    12


In [18]:
#sort_remaining인수의 사용
print(df.sort_index(axis=0, sort_remaining=True))

           col4  col1  col2
row1 val1   1.0   2.0     3
     val2   4.0   NaN     6
row2 val2  19.0  20.0    21
     val5  16.0  17.0    18
row3 val1   NaN  11.0    12
     val2  13.0  14.0    15
     val3   7.0   8.0     9


# 0703. 정렬 후 추출

In [19]:
col = ['col1','col2','col3']
row = ['row3','row5','row1','row4','row2']
data = [[ 1, 21, 7],
        [ 2, 33, 3],
        [ 2,  7,97],
        [ 4, 56,31],
        [ 5, 18, 5]]
df = pd.DataFrame(data=data, index=row, columns=col)
print(df)

      col1  col2  col3
row3     1    21     7
row5     2    33     3
row1     2     7    97
row4     4    56    31
row2     5    18     5


In [20]:
#keep인수를 통해 중복일 경우 출력할 행 지정 가능
print(df.nlargest(n=3, columns='col1', keep='first'))

      col1  col2  col3
row2     5    18     5
row4     4    56    31
row5     2    33     3


In [21]:
#마지막에 발생한 값부터 출력
print(df.nlargest(n=3, columns='col1', keep='last'))

      col1  col2  col3
row2     5    18     5
row4     4    56    31
row1     2     7    97


In [22]:
#중복값 모두 출력
print(df.nlargest(n=3, columns='col1', keep='all'))

      col1  col2  col3
row2     5    18     5
row4     4    56    31
row5     2    33     3
row1     2     7    97


In [23]:
#여러 열을 동시에 고려하여 정렬한다.
print(df.nlargest(n=3, columns=['col1','col3']))

      col1  col2  col3
row2     5    18     5
row4     4    56    31
row1     2     7    97


# 0801 함수를 이용한 열 단위 결합

In [24]:
n=np.NaN
col = ['col1','col2','col3']
row = ['row1','row2','row3']
data1 = [[1,3,4],
         [n,8,2],
         [2,6,7]]
data2 = [[7,2,3],
         [2,4,2],
         [3,1,5]]
df1 = pd.DataFrame(data1,row,col)
df2 = pd.DataFrame(data2,row,col)

In [25]:
print(df1)

      col1  col2  col3
row1   1.0     3     4
row2   NaN     8     2
row3   2.0     6     7


In [26]:
print(df2)

      col1  col2  col3
row1     7     2     3
row2     2     4     2
row3     3     1     5


In [27]:
#func인수에 np.maximum을 입력하여 df1와 df2의 요소를 비교
print(df1.combine(df2, np.maximum))

      col1  col2  col3
row1   7.0     3     4
row2   NaN     8     2
row3   3.0     6     7


In [28]:
#fill_value 이용하여 결측치 채우기
print(df1.combine(df2, np.maximum, fill_value=9))

      col1  col2  col3
row1   7.0     3     4
row2   9.0     8     2
row3   3.0     6     7


In [29]:
#overwrite인수의 사용, other에 존재하지 않는 self의 열의 요소를 NaN으로 변경
col3=['col1', 'col2']
row3=['row1', 'row2']
data3 = [[1,2],
        [3,4]]
df3 = pd.DataFrame(data3, row3, col3)
print(df3)

      col1  col2
row1     1     2
row2     3     4


In [30]:
#overwrite=False일 경우 존재하지 않는 열에 대해서 기존값으로 채워짐
print(df1.combine(df3, np.maximum, overwrite=False))

      col1  col2  col3
row1   1.0   3.0     4
row2   NaN   8.0     2
row3   NaN   NaN     7


In [31]:
#overwrite=True일 경우 존재하지 않는 열에 대해서 NaN으로 채워짐
print(df1.combine(df3, np.maximum, overwrite=True))

      col1  col2  col3
row1   1.0   3.0   NaN
row2   NaN   8.0   NaN
row3   NaN   NaN   NaN


# 0802 다른 객체로 결측치 덮어쓰기

In [32]:
n=np.NaN
col = ['col1','col2','col3']
row = ['row1','row2','row3']
data1 = [[n,n,1],
         [n,n,1],
         [1,1,1]]
data2 = [[2,2,2],
         [2,n,2],
         [2,1,2]]
df1 = pd.DataFrame(data1,row,col)
df2 = pd.DataFrame(data2,row,col)

In [33]:
print(df1)

      col1  col2  col3
row1   NaN   NaN     1
row2   NaN   NaN     1
row3   1.0   1.0     1


In [34]:
print(df2)

      col1  col2  col3
row1     2   2.0     2
row2     2   NaN     2
row3     2   1.0     2


In [35]:
#기본적인 사용법 self객체의 NaN값을 other 객체의 같은 위치의 인수로 덮어쓰기 함
print(df1.combine_first(df2))

      col1  col2  col3
row1   2.0   2.0     1
row2   2.0   NaN     1
row3   1.0   1.0     1


# 0803 인덱스기준 병합

In [36]:
#join 메서드 = 두 객체를 인덱스 기준으로 병합하는 메서드

In [37]:
df1 = pd.DataFrame({'col1':[1,2,3]}, index=['row3', 'row2', 'row1'])
print(df1)

      col1
row3     1
row2     2
row1     3


In [38]:
df2 = pd.DataFrame({'col2':[13,14]},index=['row4','row3'])
print(df2)

      col2
row4    13
row3    14


In [39]:
df3 = pd.DataFrame({'col1':[23,24]},index=['row4','row3'])
print(df3)

      col1
row4    23
row3    24


In [40]:
#how이용해서 join 함
print(df1.join(df2, how='left'))

      col1  col2
row3     1  14.0
row2     2   NaN
row1     3   NaN


In [41]:
print(df1.join(df2, how='left', sort=True))

      col1  col2
row1     3   NaN
row2     2   NaN
row3     1  14.0


In [42]:
#isuffix / rsuffix인수를 통해 중복 열을 구분하기
#lsuffix=  접미사 붙이기
print(df1.join(df3, how='outer', lsuffix="_left", rsuffix='_right'))

      col1_left  col1_right
row1        3.0         NaN
row2        2.0         NaN
row3        1.0        24.0
row4        NaN        23.0


In [43]:
df4 = pd.DataFrame({'IDX':['A','B','C'],'col1':[1,2,3]})
print(df4)

  IDX  col1
0   A     1
1   B     2
2   C     3


In [44]:
df5 = pd.DataFrame({'IDX':['C','D'],'col2':[13,14]})
print(df5)


  IDX  col2
0   C    13
1   D    14


In [45]:
#join 메서드는 기본적으로 index를 기준으로 결합 -> 열 기준으로 결합하기 위해서는 set_index 메서드 활용
print(df4.set_index('IDX').join(df5.set_index('IDX')))

     col1  col2
IDX            
A       1   NaN
B       2   NaN
C       3  13.0


In [46]:
print(df4.join(df5.set_index('IDX'), on='IDX'))

  IDX  col1  col2
0   A     1   NaN
1   B     2   NaN
2   C     3  13.0


# 0804 객체병합

In [47]:
df1 = pd.DataFrame({'IDX1':['a','b','c','a'],'VAL':[1,2,3,4]})
print(df1)

  IDX1  VAL
0    a    1
1    b    2
2    c    3
3    a    4


In [48]:
df2 = pd.DataFrame({'IDX2':['a','c','d'],'VAL':[5,6,7]})
print(df2)

  IDX2  VAL
0    a    5
1    c    6
2    d    7


In [49]:
print(df1.merge(df2, left_on='IDX1', right_on='IDX2'))

  IDX1  VAL_x IDX2  VAL_y
0    a      1    a      5
1    a      4    a      5
2    c      3    c      6


In [50]:
#suffixes를 통한 동명인 열 구분
print(df1.merge(df2, left_on='IDX1', right_on='IDX2', suffixes=('_left', '_right')))

  IDX1  VAL_left IDX2  VAL_right
0    a         1    a          5
1    a         4    a          5
2    c         3    c          6


In [51]:
#인덱스 기준으로 병합(left_Index/right_index)
df3= pd.DataFrame({'VAL1':[1,2,3]},index=['row1','row2','row3'])
print(df3)

      VAL1
row1     1
row2     2
row3     3


In [52]:
df4 = pd.DataFrame({'VAL2':[4,5,6]},index=['row2','row3','row4'])
print(df4)

      VAL2
row2     4
row3     5
row4     6


In [53]:
#left_index, right_index를 True로 입력하여 두 객체 모두 인덱스를 기준으로 병합 가능
print(df3.merge(df4, left_index=True, right_index=True))

      VAL1  VAL2
row2     2     4
row3     3     5


In [54]:
#열과 인덱스를 혼합하여 병합하기
df5=pd.DataFrame({'VAL1':[1,2,3]},index=['row1', 'row2','row3'])
print(df5)

      VAL1
row1     1
row2     2
row3     3


In [55]:
df6 = pd.DataFrame({'IDX':['row2','row3','row4'],'VAL2':[4,5,6]})
print(df6)

    IDX  VAL2
0  row2     4
1  row3     5
2  row4     6


In [56]:
print(df5.merge(df6, left_index=True,right_on='IDX'))

   VAL1   IDX  VAL2
0     2  row2     4
1     3  row3     5


In [57]:
df7 = pd.DataFrame({'IDX':['a','b','c','a'],'VAL':[1,2,3,4]})
print(df7)

  IDX  VAL
0   a    1
1   b    2
2   c    3
3   a    4


In [58]:
df8 = pd.DataFrame({'IDX':['a','c','d'],'VAL':[5,6,7]})
print(df8)

  IDX  VAL
0   a    5
1   c    6
2   d    7


In [59]:
#how=left인 경우 왼쪽 개체의 인덱스 기준으로 함
print(df7.merge(df8, how='left', on='IDX'))

  IDX  VAL_x  VAL_y
0   a      1    5.0
1   b      2    NaN
2   c      3    6.0
3   a      4    5.0


In [60]:
print(df7.merge(df8,how='right',on='IDX'))

  IDX  VAL_x  VAL_y
0   a    1.0      5
1   a    4.0      5
2   c    3.0      6
3   d    NaN      7


In [61]:
print(df7.merge(df8,how='inner',on='IDX'))

  IDX  VAL_x  VAL_y
0   a      1      5
1   a      4      5
2   c      3      6


In [62]:
print(df7.merge(df8,how='outer',on='IDX'))

  IDX  VAL_x  VAL_y
0   a    1.0    5.0
1   a    4.0    5.0
2   b    2.0    NaN
3   c    3.0    6.0
4   d    NaN    7.0


In [63]:
#validate를 통한 병합방식 검증
#valideate인수에 값을 입력하여 해당 병합방식이 맞는지 검증함
print(df7.merge(df8, how='outer', on='IDX', validate='1:m'))
#병합방식이 달라서 오류를 출력함.

MergeError: Merge keys are not unique in left dataset; not a one-to-many merge

In [64]:
print(df7.merge(df8, how='outer', on='IDX', validate='m:1'))

  IDX  VAL_x  VAL_y
0   a    1.0    5.0
1   a    4.0    5.0
2   b    2.0    NaN
3   c    3.0    6.0
4   d    NaN    7.0


In [65]:
#how인수에 cross를 적용하는 경우
#how인수 중 cross = 행렬의 곱집합, 
df9 = pd.DataFrame({'IDX1':['a','b']})
print(df9)

  IDX1
0    a
1    b


In [66]:
df10 = pd.DataFrame({'IDX2':['c','d']})
print(df10)

  IDX2
0    c
1    d


In [67]:
print(df9.merge(df10,how='cross'))

  IDX1 IDX2
0    a    c
1    a    d
2    b    c
3    b    d


# 0805 객체 병합, 결측제어 가능
- aling = 두 객체를 특정 기준들에 맞추어 정렬하는 메서드

In [68]:
n=np.NaN
col1 = ['col1','col2','col3']
row1 = ['row1','row2','row3']
data1 = [[1,2,3],[5,6,7],[9,n,11]]

col2 = ['col2','col3','col4']
row2 = ['row3','row4','row5']
data2 = [[10,11,12],[14,n,16],[18,19,20]]

df1 = pd.DataFrame(data1,row1,col1)
df2 = pd.DataFrame(data2,row2,col2)

In [69]:
print(df1)

      col1  col2  col3
row1     1   2.0     3
row2     5   6.0     7
row3     9   NaN    11


In [70]:
print(df2)

      col2  col3  col4
row3    10  11.0    12
row4    14   NaN    16
row5    18  19.0    20


In [71]:
#join인수의 사용을 통한 레이블 설정
#join인수를 이용-> outer = 합집합, left = df1 기준, right = df2 기준, inner=교집합
print(df1.align(df2, join='outer')[0])
print(df1.align(df2, join='outer')[1])

      col1  col2  col3  col4
row1   1.0   2.0   3.0   NaN
row2   5.0   6.0   7.0   NaN
row3   9.0   NaN  11.0   NaN
row4   NaN   NaN   NaN   NaN
row5   NaN   NaN   NaN   NaN
      col1  col2  col3  col4
row1   NaN   NaN   NaN   NaN
row2   NaN   NaN   NaN   NaN
row3   NaN  10.0  11.0  12.0
row4   NaN  14.0   NaN  16.0
row5   NaN  18.0  19.0  20.0


In [72]:
print(df1.align(df2,join='left')[0])
print(df1.align(df2,join='left')[1])

      col1  col2  col3
row1     1   2.0     3
row2     5   6.0     7
row3     9   NaN    11
      col1  col2  col3
row1   NaN   NaN   NaN
row2   NaN   NaN   NaN
row3   NaN  10.0  11.0


In [73]:
print(df1.align(df2,join='right')[0])
print(df1.align(df2,join='right')[1])

      col2  col3  col4
row3   NaN  11.0   NaN
row4   NaN   NaN   NaN
row5   NaN   NaN   NaN
      col2  col3  col4
row3    10  11.0    12
row4    14   NaN    16
row5    18  19.0    20


In [74]:
print(df1.align(df2,join='inner')[0])
print(df1.align(df2,join='inner')[1])

      col2  col3
row3   NaN    11
      col2  col3
row3    10  11.0


In [75]:
#axis인수의 사용을 통한 정렬 축 설정
print(df1.align(df2, join='inner', axis=0)[0]) #axis=0으로 하였을 경우 행 기준 inner인 row3만 정렬됨

      col1  col2  col3
row3     9   NaN    11


In [76]:
print(df1.align(df2, join='inner', axis=1)[0])

      col2  col3
row1   2.0     3
row2   6.0     7
row3   NaN    11


In [78]:
#fill_value를 사용한 결측지 입력
print(df1.align(df2, join='outer', fill_value='X')[0])
print(df1.align(df2,join='outer',fill_value='X')[1])

     col1 col2 col3 col4
row1    1  2.0    3    X
row2    5  6.0    7    X
row3    9  NaN   11    X
row4    X    X    X    X
row5    X    X    X    X
     col1 col2  col3 col4
row1    X    X     X    X
row2    X    X     X    X
row3    X   10  11.0   12
row4    X   14   NaN   16
row5    X   18  19.0   20


In [79]:
#method/limit인수를 사용한 결측지 보정
#method인수는 {ffill/bfill}를 이용해 위쪽 또는 아래쪽 값으로 결측지 보정 가능함
#ㅣlimit인수 = method 인수를 통해 결측지 보정할 때, 몇 개의 값 보정할지 설정함
print(df1.align(df2, join='outer', method='ffill')[0])
print(df1.align(df2, join='outer', method='bfill')[1])

      col1  col2  col3  col4
row1   1.0   2.0   3.0   NaN
row2   5.0   6.0   7.0   NaN
row3   9.0   6.0  11.0   NaN
row4   9.0   6.0  11.0   NaN
row5   9.0   6.0  11.0   NaN
      col1  col2  col3  col4
row1   NaN  10.0  11.0  12.0
row2   NaN  10.0  11.0  12.0
row3   NaN  10.0  11.0  12.0
row4   NaN  14.0  19.0  16.0
row5   NaN  18.0  19.0  20.0


In [80]:
#limit설정시 각 레이블에 대해 설정한 갯수만 변경됨
print(df1.align(df2, join='outer', method='bfill', limit=1)[1])

      col1  col2  col3  col4
row1   NaN   NaN   NaN   NaN
row2   NaN  10.0  11.0  12.0
row3   NaN  10.0  11.0  12.0
row4   NaN  14.0  19.0  16.0
row5   NaN  18.0  19.0  20.0


In [82]:
#fill_axis인수의 사용 => method 및 limit를 어느 축 기준으로 실행할지 여부
#가로로 할지 세로로 할지 여부
print(df1.align(df2,join='outer',method='ffill',fill_axis=0)[0]) #세로로 결과

      col1  col2  col3  col4
row1   1.0   2.0   3.0   NaN
row2   5.0   6.0   7.0   NaN
row3   9.0   6.0  11.0   NaN
row4   9.0   6.0  11.0   NaN
row5   9.0   6.0  11.0   NaN


In [83]:
print(df1.align(df2,join='outer',method='ffill',fill_axis=1)[0]) #가로로 결과

      col1  col2  col3  col4
row1   1.0   2.0   3.0   3.0
row2   5.0   6.0   7.0   7.0
row3   9.0   9.0  11.0  11.0
row4   NaN   NaN   NaN   NaN
row5   NaN   NaN   NaN   NaN


# 0806 업데이트
- update  = dataframe의 열을 other 객체의 동일한 열의 값으로 덮어씌우는 메서드


In [84]:
df1 = pd.DataFrame({'A':[1,2,3],'B':[n,5,6]})
print(df1)

   A    B
0  1  NaN
1  2  5.0
2  3  6.0


In [85]:
df2 = pd.DataFrame({'B':[24,n,26],'C':[37,38,39]})
print(df2)

      B   C
0  24.0  37
1   NaN  38
2  26.0  39


In [86]:
#overwrite인수로 업데이트 방식 설정
#overwrite 인수가 true면 df1과 df2가 이름을 공유하는 열에 대해서 df2의 값을 df1에 덮어씌움
#False일 경우 df1에서 Na인 값에 대해서만 덮어씌우기를 진행
df1.update(df2, overwrite=True)

In [87]:
print(df1) #기본값

   A     B
0  1  24.0
1  2   5.0
2  3  26.0


In [89]:
df1.update(df2, overwrite=False)
print(df1)

   A     B
0  1  24.0
1  2   5.0
2  3  26.0


In [90]:
df1.update(df2, filter_func=lambda x : x==6)
print(df1)

   A     B
0  1  24.0
1  2   5.0
2  3  26.0


In [91]:
#error 인수 -> errors인수를 raise로 할 경우 df1와 df2 모두 같은 위치에 Na가 아닌 값이
#있을 경우 오류 발생시킴
df1.update(df2, errors='raise')
print(df1)

ValueError: Data overlaps.