# 데이터의 재구성
* 데이터 분석 목적에 따라 아래 작업을 실시한다.
    * 데이터 정렬
    * 데이터 재구성

In [1]:
import pandas as pd

## 예제 5-1 시리즈의 값 정렬 

In [3]:
obj1 = pd.Series([40,10,20,30],
                index = ['가','나','다','라'])
obj1

가    40
나    10
다    20
라    30
dtype: int64

values 기준 오름차순으로 정렬된 값 반환

In [4]:
obj1.sort_values()

나    10
다    20
라    30
가    40
dtype: int64

원본은 유지

In [5]:
obj1

가    40
나    10
다    20
라    30
dtype: int64

ascending=False => values 기준 내림차순으로 정렬된 값 반환

In [6]:
obj1.sort_values(ascending=False)

가    40
라    30
다    20
나    10
dtype: int64

똑같이 원본은 유지

In [7]:
obj1

가    40
나    10
다    20
라    30
dtype: int64

In [8]:
obj1.argsort()

가    1
나    2
다    3
라    0
dtype: int64

In [9]:
obj2 = obj1.copy()
obj2

가    40
나    10
다    20
라    30
dtype: int64

obj2[org_sort_idx] => values 값 기준으로 오름차순 정렬되어 인덱스 순서도 바뀜

In [10]:
org_sort_idx = obj1.argsort()
obj2[org_sort_idx]

나    10
다    20
라    30
가    40
dtype: int64

행 인덱스 중 최소값 반환

In [11]:
obj1.idxmin()

'나'

[행 인덱스 반환] => 해당 행의 values 값 반환

In [12]:
obj1[obj1.idxmin()]

10

## 예제 5-2 시리즈의 인덱스 정렬 

In [13]:
obj2 = pd.Series([40,10,20,30],
                index = ['c','a','b','c'])
obj2

c    40
a    10
b    20
c    30
dtype: int64

인덱스가 오름차순으로 정렬

In [14]:
obj2.sort_index()

a    10
b    20
c    40
c    30
dtype: int64

ascending=False => 인덱스가 내림차순으로 정렬

In [15]:
obj2.sort_index(ascending=False)

c    40
c    30
b    20
a    10
dtype: int64

## 예제 5-3 데이터프레임의 값 정렬

In [16]:
import numpy as np

arange(8) => 0 ~ 7 까지 생성  
reshape(2,4) => 2 행 4 열 생성

In [20]:
data = np.arange(8).reshape(2,4)
data

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [21]:
frame = pd.DataFrame(data,
                    index = ['three','one'],
                    columns = ['d','a','b','c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


a 열을 기준으로 행까지 오름차순으로 정렬

In [22]:
frame.sort_values(by = 'a')

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


a 열을 기준으로 행까지 내림차순으로 정렬

In [23]:
frame.sort_values(by='a', ascending=False)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


astype => 타입 변경

In [25]:
data1 = data.astype(np.float64)
data1

array([[0., 1., 2., 3.],
       [4., 5., 6., 7.]])

In [26]:
data1[0,1] = np.nan
data1

array([[ 0., nan,  2.,  3.],
       [ 4.,  5.,  6.,  7.]])

In [27]:
frame1 = pd.DataFrame(data1,
                     index=['three','one'], 
                     columns=['d','a','b','c'])
frame1

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


디폴트로 NaN 을 가장 큰수로 처리

In [28]:
frame1.sort_values(by = 'a')

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


na_position='last' => NaN 을 가장 마지막으로 처리하도록 지정

In [29]:
frame1.sort_values(by='a',na_position='last')

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


na_position='first' => NaN 을 가장 처음으로 처리하도록 지정

In [30]:
frame1.sort_values(by='a',na_position='first')

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [31]:
frame2 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}])
frame2

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


가 열을 기준으로 내림차순

In [32]:
frame2.sort_values(['가'],ascending=False)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
3,2,15,7
4,2,100,9
2,1,20,5


가 열을 기준으로 내림차순한 결과에서  
가 열의 행의 값이 같다면  
나 열은 오름차순으로 정렬 

In [33]:
frame2.sort_values(['가','나'],ascending=[False,True])

Unnamed: 0,가,나,다
1,3,10,5
0,3,15,3
3,2,15,7
4,2,100,9
2,1,20,5


## 예제 5-4 데이터프레임의  인덱스 정렬

In [34]:
frame3 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}],
                     columns=['다','가','나'])
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


행인덱스를 오름차순으로 정렬

In [35]:
frame3.sort_index(axis = 0)

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


행인덱스를 내림차순으로 정렬

In [36]:
frame4 = frame3.sort_index(axis = 0,ascending=False)
frame4

Unnamed: 0,다,가,나
4,9,2,100
3,7,2,15
2,5,1,20
1,5,3,10
0,3,3,15


행인덱스를 정렬한 결과에 열인덱스를 정렬

In [38]:
frame4.sort_index().sort_index(axis = 1)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


## 예제 5-5 데이터프레임의  순위 및 이동  처리

In [39]:
data1 = {'이름': ['길동', '옥주', '현웅', '주몽', '지원'], 
        '학번': [2012, 2012, 2013, 2014, 2014], 
        '과제건수': [1, 5, 2, 3, 4],
        '점수': [25, 94, 57, 62, 70]}
data1

{'이름': ['길동', '옥주', '현웅', '주몽', '지원'],
 '학번': [2012, 2012, 2013, 2014, 2014],
 '과제건수': [1, 5, 2, 3, 4],
 '점수': [25, 94, 57, 62, 70]}

In [40]:
frame3 = pd.DataFrame(data1)
frame3

Unnamed: 0,이름,학번,과제건수,점수
0,길동,2012,1,25
1,옥주,2012,5,94
2,현웅,2013,2,57
3,주몽,2014,3,62
4,지원,2014,4,70


rank() => 데이터의 순위를 구해줌  
ascending=False => 높은 점수가 1.0

In [43]:
frame3['점수'].rank(ascending=False)

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

디폴트는 낮은 점수가 1.0

In [44]:
frame3['점수'].rank()

0    1.0
1    5.0
2    2.0
3    3.0
4    4.0
Name: 점수, dtype: float64

순위라는 열에 점수에 대한 순위정보를 추가함

In [45]:
frame3['순위'] = frame3['점수'].rank(ascending = False)
frame3

Unnamed: 0,이름,학번,과제건수,점수,순위
0,길동,2012,1,25,5.0
1,옥주,2012,5,94,1.0
2,현웅,2013,2,57,4.0
3,주몽,2014,3,62,3.0
4,지원,2014,4,70,2.0


by = '순위' => 순위 기준으로 정렬

In [46]:
frame3.sort_values(by = '순위')

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


In [47]:
frame4 = frame3.sort_values(by="순위")
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


다시 순차적인 인덱스로 정렬하고 싶을 경우  
재할당

In [49]:
frame4.index = [0,1,2,3,4]
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
0,옥주,2012,5,94,1.0
1,지원,2014,4,70,2.0
2,주몽,2014,3,62,3.0
3,현웅,2013,2,57,4.0
4,길동,2012,1,25,5.0


순차적인 인덱스를 첫번째 인덱스를 논리적인 1 부터 시작하여  
마지막 인덱스를 자동으로 설정

In [50]:
frame4.index = range(1,frame4.index.values.size+1)
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
2,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
4,현웅,2013,2,57,4.0
5,길동,2012,1,25,5.0


In [51]:
data = {'가' : pd.Series([1.], index=['a']),
        '나' : pd.Series([1., 2.], index=['a', 'b']),
        '다' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
data

{'가': a    1.0
 dtype: float64,
 '나': a    1.0
 b    2.0
 dtype: float64,
 '다': a    1.0
 b    2.0
 c    3.0
 d    4.0
 dtype: float64}

In [52]:
df = pd.DataFrame(data)
df

Unnamed: 0,가,나,다
a,1.0,1.0,1.0
b,,2.0,2.0
c,,,3.0
d,,,4.0


나 열 전체값을 갱신

In [53]:
df['나'] = pd.Series([3,4,5,6],
                   index = list('abcd'),
                   dtype = 'float')
df

Unnamed: 0,가,나,다
a,1.0,3.0,1.0
b,,4.0,2.0
c,,5.0,3.0
d,,6.0,4.0


In [55]:
df1 = df[['나','다']]
df1

Unnamed: 0,나,다
a,3.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


at 속성에 특정 행, 열의 이름을 지정하여 값을 할당할 경우 해당 값으로 갱신  
a 행의 나 열의 값을 100 으로 재할당

In [56]:
df1.at['a','나'] = 100
df1

Unnamed: 0,나,다
a,100.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


행의 요소를 리스트로 지정했을 경우 각각 모든 값이 갱신됨  
기본 옵션으로는 warning 이 발생

In [57]:
df1.at[['b','c'],['나']] = 99
df1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1.at[['b','c'],['나']] = 99


Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


이 코드를 먼저 수행하고 위 코드 수행해야 warning 사라짐

In [58]:
pd.set_option('chained',None)

In [59]:
df1.at[['b','c'],['나']] = 99
df1

Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


열의 값을 아래에서 위로(-1) shift 할 경우, 빈 값은 NaN 으로 채워짐

In [60]:
a = df1.나.shift(-1)
a

a    99.0
b    99.0
c     6.0
d     NaN
Name: 나, dtype: float64

열의 값을 위에서 아래로(1) shift 할 경우, 빈 값은 NaN으로 채워짐

In [61]:
df1.나.shift(1)

a      NaN
b    100.0
c     99.0
d     99.0
Name: 나, dtype: float64

In [62]:
df1['나'] = a
df1

Unnamed: 0,나,다
a,99.0,1.0
b,99.0,2.0
c,6.0,3.0
d,,4.0
