In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

## 5.1 정렬 처리

In [5]:
obj1 = pd.Series([40,10,20,30], index=['가','다','나','라'])
obj1.sort_values()

다    10
나    20
라    30
가    40
dtype: int64

In [6]:
obj1.sort_values(ascending=False)

가    40
라    30
나    20
다    10
dtype: int64

In [7]:
obj1 # 원본은 그대로

가    40
다    10
나    20
라    30
dtype: int64

In [8]:
obj1.argsort()

가    1
다    2
나    3
라    0
dtype: int64

In [9]:
obj1.idxmin()

'다'

In [10]:
obj1.idxmax()

'가'

In [11]:
obj2 = pd.Series([40,10,20,30], index=['c','a','b','d'])
obj2

c    40
a    10
b    20
d    30
dtype: int64

In [12]:
obj2.sort_index()

a    10
b    20
c    40
d    30
dtype: int64

In [13]:
obj2.sort_index(ascending=False)

d    30
c    40
b    20
a    10
dtype: int64

In [14]:
data = np.arange(8).reshape((2,4))
data

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [15]:
frame = pd.DataFrame(data, index=['three','one'], columns=['d','a','b','c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [16]:
frame.sort_values(by='a')

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [17]:
data1 = data.astype(np.float)
data1[0,1] = np.nan
data1

array([[ 0., nan,  2.,  3.],
       [ 4.,  5.,  6.,  7.]])

In [19]:
frame1 = pd.DataFrame(data1, index=['three','one'], columns=['d','a','b','c'])
frame1

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [20]:
frame1.sort_values(by='a') # NaN이 제일 큰 수로 처리됨

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


In [21]:
frame1.sort_values(by='a', na_position='last') # 누락 값의 위치가 고정됨

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


In [22]:
frame1.sort_values(by='a', na_position='first') # 누락 값의 위치가 고정됨

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [23]:
frame2 = pd.DataFrame([{'가':3, '나':15, '다':3}, {'가':3, '나':10, '다':5}, {'가':1, '나':20, '다':5}, {'가':2, '나':15, '다':7}, {'가':2, '나':100, '다':9}])
frame2

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [24]:
frame2.sort_values(['가','나'], ascending=[False, True])

Unnamed: 0,가,나,다
1,3,10,5
0,3,15,3
3,2,15,7
4,2,100,9
2,1,20,5


In [25]:
frame3 = pd.DataFrame([{'가':3, '나':15, '다':3}, {'가':3, '나':10, '다':5}, {'가':1, '나':20, '다':5}, {'가':2, '나':15, '다':7}, {'가':2, '나':100, '다':9}], columns=['다','가','나'])
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [26]:
frame3.sort_index(axis=0) # 새로운 객체 만들어 반환

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [27]:
frame3.sort_index(axis=1) # 열 기준 정렬 

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [28]:
frame2.sort_index().sort_index(axis=1) # 행과 열을 연달아 처리 

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [30]:
data1 = {'이름':['길동','옥주','현웅','주몽','지원'],'학번':[2012,2012,2013,2014,2014],'과제건수':[1,5,2,3,4],'점수':[25,94,57,62,70]}
frame3 = pd.DataFrame(data1)
frame3

Unnamed: 0,이름,학번,과제건수,점수
0,길동,2012,1,25
1,옥주,2012,5,94
2,현웅,2013,2,57
3,주몽,2014,3,62
4,지원,2014,4,70


In [31]:
frame3['점수'].rank(ascending=False)

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

In [32]:
frame3['순위'] = frame3['점수'].rank(ascending=False)
frame3

Unnamed: 0,이름,학번,과제건수,점수,순위
0,길동,2012,1,25,5.0
1,옥주,2012,5,94,1.0
2,현웅,2013,2,57,4.0
3,주몽,2014,3,62,3.0
4,지원,2014,4,70,2.0


In [34]:
frame3.sort_values(by='순위') # 새로운 객체로 반환 

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


In [35]:
frame4 = frame3.sort_values(by='순위')
frame4.index = [0,1,2,3,4]
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
0,옥주,2012,5,94,1.0
1,지원,2014,4,70,2.0
2,주몽,2014,3,62,3.0
3,현웅,2013,2,57,4.0
4,길동,2012,1,25,5.0


In [36]:
data = {'가':pd.Series([1.], index=['a']), '나':pd.Series([1.,2.], index=['a','b']), '다':pd.Series([1.,2.,3.,4.],index=['a','b','c','d'])}
df = pd.DataFrame(data)
df

Unnamed: 0,가,나,다
a,1.0,1.0,1.0
b,,2.0,2.0
c,,,3.0
d,,,4.0


In [37]:
df['나'] = pd.Series([3,4,5,6], index=list('abcd'), dtype='float') # 기존 데이터프레임 변경
df

Unnamed: 0,가,나,다
a,1.0,3.0,1.0
b,,4.0,2.0
c,,5.0,3.0
d,,6.0,4.0


In [38]:
# 특정 열만을 갖는 하나의 데이터 프레임을 하나 더 만듬
df1 = df[['나','다']]
df1

Unnamed: 0,나,다
a,3.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [39]:
df1.at['a','나'] = 100 
df1

Unnamed: 0,나,다
a,100.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [41]:
df1.at[['b','c'],'나'] = 99 # 각각의 원소 갱신
df1

Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


In [42]:
pd.set_option('chained', None)

In [43]:
a = df1.나.shift(-1) # 밑에서 위로 이동시킬 때에는 음수로 표시해서 처리

In [44]:
a

a    99.0
b    99.0
c     6.0
d     NaN
Name: 나, dtype: float64

In [45]:
df1['나'] = a
df1

Unnamed: 0,나,다
a,99.0,1.0
b,99.0,2.0
c,6.0,3.0
d,,4.0


In [46]:
a = df1.나.shift(1) # 위에서 아래로 이동
a

a     NaN
b    99.0
c    99.0
d     6.0
Name: 나, dtype: float64