# 5장 데이터의 재구성

## 이번 장의 목표

* 데이터 분석 목적에 따라 아래 작업을 실시한다
    - 데이터 정렬
    - 데이터 재구성

In [2]:
import pandas as pd

# 예제 5-1 시리즈의 값 정렬

In [3]:
obj1 = pd.Series([40,10,20,30], index = ['가','다','나','라'])

In [4]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [5]:
# 오름차순으로(기본) 정렬된 값을 반환하기
obj1.sort_values()

다    10
나    20
라    30
가    40
dtype: int64

In [6]:
# 자기 자신의 값은 유지
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [7]:
# 내림차순으로 정렬된 값을 반환하기
obj1.sort_values(ascending = False)

가    40
라    30
나    20
다    10
dtype: int64

In [8]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [9]:
obj1.argsort()
# argsort()로 나온 결과 인덱스와 기존 인덱스가 다를 수 있다

가    1
다    2
나    3
라    0
dtype: int64

In [10]:
obj2 = obj1.copy()
obj2

가    40
다    10
나    20
라    30
dtype: int64

In [11]:
org_sort_index = obj1.argsort()
# argsort()로 나온 결과를 변수에 할당
org_sort_index

가    1
다    2
나    3
라    0
dtype: int64

In [12]:
obj1.idxmin()
# idxmin()함수는 최소값 데이터를 가지고 있는 인덱스를 반환한다.

'다'

In [13]:
obj1[obj1.idxmin()]

10

In [14]:
obj1[obj1.idxmax()]

40

---

# 예제 5-2 시리즈의 인덱스 정렬

In [15]:
obj2 = pd.Series([40,10,20,30], index = ['c','a','b','d'])

In [16]:
obj2

c    40
a    10
b    20
d    30
dtype: int64

In [17]:
# 인덱스를 오름차순으로 정렬
obj2.sort_index()

a    10
b    20
c    40
d    30
dtype: int64

In [18]:
# 인덱스를 내림차순으로 정렬
obj2.sort_index(ascending = False)

d    30
c    40
b    20
a    10
dtype: int64

---

# 예제 5-3 데이터프레임의 값 정렬

In [19]:
import numpy as np

In [20]:
data = np.arange(8).reshape((2,4))
# 데이터범위.reshape(n행번호,n열번호) 함수는 n행 n열의 인덱스를 생성한다

In [21]:
data

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [22]:
frame = pd.DataFrame(data,
                     index = ['three','one'],
                     columns = ['d','a','b','c'])

In [23]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [24]:
# a열을 기준으로 오름차순으로 행 정렬
frame.sort_values(by = 'a')

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [25]:
# a열을 기준으로 내림차순으로 행 정렬
frame.sort_values(by = 'a',ascending = False)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [26]:
data1 = data.astype(np.float64)
# astype(np.데이터타입) 데이터 타입변경

In [27]:
data1[0,1] = np.nan
# nan 값을 적용하려면 float64 타입이어야한다

In [28]:
data1

array([[ 0., nan,  2.,  3.],
       [ 4.,  5.,  6.,  7.]])

In [29]:
frame1 = pd.DataFrame(data1,
                      index = ['three','one'],
                      columns = ['d','a','b','c'])

In [30]:
frame1

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [31]:
# 정렬시에는 NaN을 가장 큰 수로 처리한다
frame1.sort_values(by = 'a')

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


In [32]:
# na_position 인수를 활용해 NaN을 가장 마지막으로 처리하도록 지정할 수 있다
frame1.sort_values(by = 'a', na_position = 'last')

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


In [33]:
# NaN을 가장 처음으로 처리하도록 지정하기
frame1.sort_values(by = 'a', na_position = 'first')

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [34]:
frame2 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}])

In [35]:
frame2

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [36]:
# 가 열을 기준으로 내림차순 졍럴하기
frame2.sort_values(['가'], ascending = False)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
3,2,15,7
4,2,100,9
2,1,20,5


In [37]:
# 가 열을 기준으로 내림차순한 결과에서 가 열의 값이 같다면
# 나 열은 오름차순으로 정렬하기
frame2.sort_values(['가','나'], ascending =[False,True])
# 복수 기준으로 더 많이 추가가 가능하다

Unnamed: 0,가,나,다
1,3,10,5
0,3,15,3
3,2,15,7
4,2,100,9
2,1,20,5


# 예제 5-4 데이터프레임의 인덱스 정렬

In [38]:
frame3 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}],
                     columns=['다','가','나'])

In [39]:
# 딕셔너리는 특성상 순서가 정해져 있지 않으므로
# 컬럼을 지정하지 않는다면 랜덤한 순서로 출력된다.

In [40]:
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [41]:
# 행 정렬
frame3.sort_index(axis = 0)

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [42]:
frame4 = frame3.sort_index(axis = 0, ascending = False)
frame4

Unnamed: 0,다,가,나
4,9,2,100
3,7,2,15
2,5,1,20
1,5,3,10
0,3,3,15


In [43]:
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [44]:
# 열 정렬
frame3.sort_index(axis =1)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [45]:
frame4

Unnamed: 0,다,가,나
4,9,2,100
3,7,2,15
2,5,1,20
1,5,3,10
0,3,3,15


In [46]:
# 행을 정렬한 결과에 열을 정렬해보기
# 메소드 체이닝을 이용하여 행과 열을 동시에 정렬해보기
frame4.sort_index().sort_index(axis = 1)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


# 예제 5-5 데이터 프레임의 순위 및 이동 처리

In [47]:
data1 = {'이름': ['길동', '옥주', '현웅', '주몽', '지원'], 
        '학번': [2012, 2012, 2013, 2014, 2014], 
        '과제건수': [1, 5, 2, 3, 4],
        '점수': [25, 94, 57, 62, 70]}

In [48]:
frame3 = pd.DataFrame(data1)

In [49]:
frame3

Unnamed: 0,이름,학번,과제건수,점수
0,길동,2012,1,25
1,옥주,2012,5,94
2,현웅,2013,2,57
3,주몽,2014,3,62
4,지원,2014,4,70


In [50]:
# 데이터프레임['열이름'].rank() 열이름의 값의 높은 것부터 순위를 float형으로 반환한다
# ascending 인자는 기본값은 True이고 오름차순으로 정렬한다(제일 적은 수가 1순위)
# 그외에 인자로 method 가 있으며 method인자의 설정값은 다음과 같다
# 평균(method='average') : 동점 관측치 간의 그룹 내 평균 순위 부여 (default 설정)
# 최소값(method='min') : 동점 관측치 그룹 내 최소 순위 부여
# 최대값(method='max') : 동점 관측치 그룹 내 최대 순위 부여
# 첫번째 값 (method='first') : 동점 관측치 중에서 데이터 상에서 먼저 나타나는 관측치부터 순위 부여
# 조밀하게 (method='dense') : 최소값('min')과 같은 방법으로 순위부여하나,
#                            'min'과는 다르게 그룹 간 순위가 '1'씩 증가함

frame3['점수'].rank(ascending = False)

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

In [51]:
# 순위라는 열을 추가하고 점수에 대한 순위 정보를 추가함
frame3['순위'] = frame3['점수'].rank(ascending = False)

In [52]:
frame3

Unnamed: 0,이름,학번,과제건수,점수,순위
0,길동,2012,1,25,5.0
1,옥주,2012,5,94,1.0
2,현웅,2013,2,57,4.0
3,주몽,2014,3,62,3.0
4,지원,2014,4,70,2.0


In [53]:
# 순위 값으로 정렬하기
frame3.sort_values(by = '순위')

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


In [54]:
frame4 = frame3.sort_values(by = '순위')
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


In [55]:
# 인덱스를 새로 만들고 싶을 경우
frame4.index = [0,1,2,3,4]
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
0,옥주,2012,5,94,1.0
1,지원,2014,4,70,2.0
2,주몽,2014,3,62,3.0
3,현웅,2013,2,57,4.0
4,길동,2012,1,25,5.0


In [56]:
frame4.index = range(1,frame4.index.size+1)
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
2,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
4,현웅,2013,2,57,4.0
5,길동,2012,1,25,5.0


In [57]:
frame4['순위']

1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
Name: 순위, dtype: float64

In [58]:
data3 = frame4['순위'].astype(np.int64)
data3

1    1
2    2
3    3
4    4
5    5
Name: 순위, dtype: int64

In [59]:
frame4['순위'] = data3
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1
2,지원,2014,4,70,2
3,주몽,2014,3,62,3
4,현웅,2013,2,57,4
5,길동,2012,1,25,5


In [60]:
data = {'가' : pd.Series([1.], index=['a']),
        '나' : pd.Series([1., 2.], index=['a', 'b']),
        '다' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

In [61]:
df = pd.DataFrame(data)
df

Unnamed: 0,가,나,다
a,1.0,1.0,1.0
b,,2.0,2.0
c,,,3.0
d,,,4.0


In [62]:
# 나열 전체 값을 갱신
df['나'] = pd.Series([3,4,5,6], index = list('abcd'), dtype = 'float')

In [63]:
df

Unnamed: 0,가,나,다
a,1.0,3.0,1.0
b,,4.0,2.0
c,,5.0,3.0
d,,6.0,4.0


In [64]:
df1 = df[["나", "다"]]
df1

Unnamed: 0,나,다
a,3.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [65]:
# at 속성에 특정 행, 열의 이름을 지정하여 값을 할당할 경우 해당 값으로 갱신
df1.at['a','나'] = 100
df1

Unnamed: 0,나,다
a,100.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [66]:
# 아래와 같이 행의 요소를 리스트로 지정했을 경우에 각각 모든 값이 갱신이됨
# 그러나 기본 옵션으로는 Warning이 발생함
df1.at[['b','c'],['나']] = 99
df1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1.at[['b','c'],['나']] = 99


Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


In [67]:
# 위의 예제 Warning을 제거하려면 아래 코드 입력
pd.set_option('chained',None)

In [68]:
df1

Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


In [69]:
# 열의 값을 아래에서 위로 shift 할 경우, 빈 값은 NaN으로 채워짐
a = df1.나.shift(-1)
a

a    99.0
b    99.0
c     6.0
d     NaN
Name: 나, dtype: float64

In [70]:
df1['나'] = a
df1

Unnamed: 0,나,다
a,99.0,1.0
b,99.0,2.0
c,6.0,3.0
d,,4.0


In [71]:
# 열의 값을 위에서 아래로 shift 할 경우, 빈 값은 NaN으로 채워짐
b = df1.나.shift(1)

In [72]:
df1['나'] = b
df1

Unnamed: 0,나,다
a,,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


# 예제 5-6 피벗을 이용한 재구조화

#### 피벗: 데이터 열 중에서 두개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 방식

![image.png](attachment:image.png)

In [73]:
df10 = pd.DataFrame([
    ['index_1','col_1','10'],
    ['index_2','col_1','20'],
    ['index_1','col_2','30'],
    ['index_2','col_2','40']
], columns = ['index','cols','value'])

In [74]:
df10

Unnamed: 0,index,cols,value
0,index_1,col_1,10
1,index_2,col_1,20
2,index_1,col_2,30
3,index_2,col_2,40


In [75]:
df10_pivoted = df10.pivot(index = 'index', columns = 'cols', values = 'value')

In [76]:
df10_pivoted

cols,col_1,col_2
index,Unnamed: 1_level_1,Unnamed: 2_level_1
index_1,10,30
index_2,20,40
