# 5장 데이터의 재구성
## 이 번 장의 목표
* 데이터 분석 목적에 따라 아래 작업을 실시한다.
    * 데이터 정렬
    * 데이터 재구성

In [1]:
import pandas as pd

## 예제 5-1 시리즈의 값 정렬 

In [2]:
obj1 = pd.Series([40,10,20,30], index=['가','다','나','라'])

In [3]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [4]:
# 정렬된 값을 반환
obj1.sort_values()

다    10
나    20
라    30
가    40
dtype: int64

In [5]:
# 자기 자신의 값은 유지
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [6]:
obj1.sort_values(ascending=False)

가    40
라    30
나    20
다    10
dtype: int64

In [7]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [8]:
# 원본에 sort된 인덱스
obj1.argsort()

가    1
다    2
나    3
라    0
dtype: int64

In [9]:
obj2 = obj1.copy()
obj2

가    40
다    10
나    20
라    30
dtype: int64

In [10]:
org_sort_idx=obj1.argsort()

In [11]:
obj2[org_sort_idx]

다    10
나    20
라    30
가    40
dtype: int64

In [12]:
# 최소값을 가지고 있는 인덱스
obj1.idxmin()

'다'

In [13]:
obj1[obj1.idxmin()]

10

In [81]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [14]:
# 최대값을 가지고 있는 인덱스
obj1.idxmax()

'가'

In [15]:
# 최대값을 가지고 있는 인덱스의 값
obj1[obj1.idxmax()]

40

## 예제 5-2 시리즈의 인덱스 정렬 

In [16]:
obj2 = pd.Series([40,10,20,30], index=['c','a','b','d'])

In [17]:
obj2

c    40
a    10
b    20
d    30
dtype: int64

In [18]:
obj2.sort_index()

a    10
b    20
c    40
d    30
dtype: int64

In [84]:
obj2.sort_index(ascending=False)

d    30
c    40
b    20
a    10
dtype: int64

## 예제 5-3 데이터프레임의 값 정렬

In [20]:
import numpy as np

In [21]:
# reshape : 2개의 값을 지정하게되면 ... 2행 X 4열 array 생성
data = np.arange(8).reshape((2,4))

In [22]:
data

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [23]:
frame = pd.DataFrame(data, 
                     index=['three','one'], 
                     columns=['d','a','b','c'])

In [24]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [25]:
# a열을 기준으로 오름 차순정렬
frame.sort_values(by='a')

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [26]:
# a열을 기준으로 내림 차순 정렬
frame.sort_values(by='a', ascending=False)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [27]:
data1 = data.astype(np.float64)

In [28]:
data1[0,1] = np.nan

In [29]:
data1

array([[ 0., nan,  2.,  3.],
       [ 4.,  5.,  6.,  7.]])

In [30]:
frame1 = pd.DataFrame(data1, 
                     index=['three','one'], 
                     columns=['d','a','b','c'])

In [31]:
frame1

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [32]:
# NaN을 가장 큰수로 처리함
frame1.sort_values(by='a')

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


In [33]:
# NaN을 가장 마지막으로 처리하도록 지정함
frame1.sort_values(by='a',na_position='last')

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


In [34]:
# NaN을 가장 처음으로 처리하도록 지정함
frame1.sort_values(by='a',na_position='first')

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [35]:
frame2 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}])

In [36]:
frame2

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [37]:
# 가 열을 기준으로 내림차순
frame2.sort_values(['가'], ascending=[False])

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
3,2,15,7
4,2,100,9
2,1,20,5


In [86]:
# 가 열을 기준으로 내림차순한 결과에서 가열 행의 값이 같다면 나열은 오름차순으로 정렬
# ascending : False => 내림차순 True => 오름차순
# 오름차순과 내림차순을 한번에 지정 할 수 있다.
frame2.sort_values(['가','나'], ascending=[False,True])

Unnamed: 0,가,나,다
1,3,10,5
0,3,15,3
3,2,15,7
4,2,100,9
2,1,20,5


## 예제 5-4 데이터프레임의  인덱스 정렬

In [91]:
frame3 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}],
                     columns=['다','가','나'])

In [92]:
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [93]:
# 행 정렬
frame3.sort_index(axis=0)

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [94]:
frame4 = frame3.sort_index(axis=0, ascending=False)
frame4

Unnamed: 0,다,가,나
4,9,2,100
3,7,2,15
2,5,1,20
1,5,3,10
0,3,3,15


In [95]:
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [96]:
frame2.sort_index(axis=1)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [97]:
frame4

Unnamed: 0,다,가,나
4,9,2,100
3,7,2,15
2,5,1,20
1,5,3,10
0,3,3,15


In [98]:
# 행을 정렬한 결과에 열을 정렬
# 메소드 채이닝을 이용하여 행과 열을 동시에 정렬
frame4.sort_index().sort_index(axis=1)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


## 예제 5-5 데이터프레임의  순위 및 이동  처리

In [104]:
data1 = {'이름': ['길동', '옥주', '현웅', '주몽', '지원'], 
        '학번': [2012, 2012, 2013, 2014, 2014], 
        '과제건수': [1, 5, 2, 3, 4],
        '점수': [25, 94, 57, 62, 70]}

In [105]:
frame3 = pd.DataFrame(data1)

In [106]:
frame3

Unnamed: 0,이름,학번,과제건수,점수
0,길동,2012,1,25
1,옥주,2012,5,94
2,현웅,2013,2,57
3,주몽,2014,3,62
4,지원,2014,4,70


In [107]:
# ascending = False => 내림차순
# 점수가 높은순으로 float로 보여줌.
frame3['점수'].rank(ascending=False)

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

In [108]:
# 순위라는 열에 점수에 대한 순위 정보를 추가함
frame3['순위'] = frame3['점수'].rank(ascending=False)

In [109]:
frame3

Unnamed: 0,이름,학번,과제건수,점수,순위
0,길동,2012,1,25,5.0
1,옥주,2012,5,94,1.0
2,현웅,2013,2,57,4.0
3,주몽,2014,3,62,3.0
4,지원,2014,4,70,2.0


In [110]:
frame3.sort_values(by="순위")

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


In [111]:
frame4 = frame3.sort_values(by="순위")

In [112]:
# 행 인덱스가 이쁘게 정렬되어있지않다.
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


In [113]:
# 다시 순차적인 인덱스로 정렬하고 싶을 경우
frame4.index = [0,1,2,3,4]

In [114]:
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
0,옥주,2012,5,94,1.0
1,지원,2014,4,70,2.0
2,주몽,2014,3,62,3.0
3,현웅,2013,2,57,4.0
4,길동,2012,1,25,5.0


In [115]:
# 순차적인 인덱스를 첫번째 인덱스를 논리적인 1로 부터 시작하여 마지막 인덱스를 자동으로 설정
frame4.index = range(1,frame4.index.values.size+1)
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
2,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
4,현웅,2013,2,57,4.0
5,길동,2012,1,25,5.0


In [116]:
data = {'가' : pd.Series([1.], index=['a']),
        '나' : pd.Series([1., 2.], index=['a', 'b']),
        '다' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}


In [117]:
df = pd.DataFrame(data)

In [118]:
df

Unnamed: 0,가,나,다
a,1.0,1.0,1.0
b,,2.0,2.0
c,,,3.0
d,,,4.0


In [119]:
# '나' 열 전체 값을 갱신한다.
df['나'] = pd.Series([3,4,5,6],index=list('abcd'),dtype='float')

In [120]:
df

Unnamed: 0,가,나,다
a,1.0,3.0,1.0
b,,4.0,2.0
c,,5.0,3.0
d,,6.0,4.0


In [121]:
df1 = df[["나", "다"]]


In [122]:
df1

Unnamed: 0,나,다
a,3.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [123]:
# at 속성에 특정 행, 열의 이름을 지정하여 값을 할당할 경우 해당 값으로 갱신
df1.at['a','나'] = 100

In [124]:
df1

Unnamed: 0,나,다
a,100.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [125]:
# 아래와 같이 행의 요소를 리스트로 지정했을 경우에 각각 모든 값이 갱신이됨
# 기본 옵션으로는 Warning이 발생함
df1.at[['b','c'],['나']] = 99

In [126]:
df1

Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


In [127]:
# 위의 예제 Warning을 제거하려면 아래 코드 입력
pd.set_option('chained',None)

In [128]:
df1

Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


In [129]:
# 열의 값을 아래에서 위로 shift 할 경우, 빈 값은 NaN으로 채워짐
a = df1.나.shift(-1)

In [130]:
a

a    99.0
b    99.0
c     6.0
d     NaN
Name: 나, dtype: float64

In [131]:
# 열의 값을 위에서 아래로 shift 할 경우, 빈 값은 NaN으로 채워짐
df1.나.shift(1)

a      NaN
b    100.0
c     99.0
d     99.0
Name: 나, dtype: float64

In [138]:
a

a     NaN
b    99.0
c    99.0
d     6.0
Name: 나, dtype: float64

In [132]:
df1['나'] = a

In [133]:
df1

Unnamed: 0,나,다
a,99.0,1.0
b,99.0,2.0
c,6.0,3.0
d,,4.0


In [134]:
a = df1.나.shift(1) 

In [135]:
a

a     NaN
b    99.0
c    99.0
d     6.0
Name: 나, dtype: float64

In [136]:
df1['나'] = a

In [137]:
df1

Unnamed: 0,나,다
a,,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0
