# 5장 데이터의 재구성

## 이번 장의 목표

* 데이터 분석 목적에 따라 아래 작업을 실시한다
    - 데이터 정렬
    - 데이터 재구성

In [281]:
import pandas as pd

# 예제 5-1 시리즈의 값 정렬

In [282]:
obj1 = pd.Series([40,10,20,30], index = ['가','다','나','라'])

In [283]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [284]:
# 오름차순으로(기본) 정렬된 값을 반환하기
obj1.sort_values()

다    10
나    20
라    30
가    40
dtype: int64

In [285]:
# 자기 자신의 값은 유지
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [286]:
# 내림차순으로 정렬된 값을 반환하기
obj1.sort_values(ascending = False)

가    40
라    30
나    20
다    10
dtype: int64

In [287]:
obj1

가    40
다    10
나    20
라    30
dtype: int64

In [288]:
obj1.argsort()
# argsort()로 나온 결과 인덱스와 기존 인덱스가 다를 수 있다

가    1
다    2
나    3
라    0
dtype: int64

In [289]:
obj2 = obj1.copy()
obj2

가    40
다    10
나    20
라    30
dtype: int64

In [290]:
org_sort_index = obj1.argsort()
# argsort()로 나온 결과를 변수에 할당
org_sort_index

가    1
다    2
나    3
라    0
dtype: int64

In [291]:
obj1.idxmin()
# idxmin()함수는 최소값 데이터를 가지고 있는 인덱스를 반환한다.

'다'

In [292]:
obj1[obj1.idxmin()]

10

In [293]:
obj1[obj1.idxmax()]

40

---

# 예제 5-2 시리즈의 인덱스 정렬

In [294]:
obj2 = pd.Series([40,10,20,30], index = ['c','a','b','d'])

In [295]:
obj2

c    40
a    10
b    20
d    30
dtype: int64

In [296]:
# 인덱스를 오름차순으로 정렬
obj2.sort_index()

a    10
b    20
c    40
d    30
dtype: int64

In [297]:
# 인덱스를 내림차순으로 정렬
obj2.sort_index(ascending = False)

d    30
c    40
b    20
a    10
dtype: int64

---

# 예제 5-3 데이터프레임의 값 정렬

In [298]:
import numpy as np

In [299]:
data = np.arange(8).reshape((2,4))
# 데이터범위.reshape(n행번호,n열번호) 함수는 n행 n열의 인덱스를 생성한다

In [300]:
data

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [301]:
frame = pd.DataFrame(data,
                     index = ['three','one'],
                     columns = ['d','a','b','c'])

In [302]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [303]:
# a열을 기준으로 오름차순으로 행 정렬
frame.sort_values(by = 'a')

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [304]:
# a열을 기준으로 내림차순으로 행 정렬
frame.sort_values(by = 'a',ascending = False)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [305]:
data1 = data.astype(np.float64)
# astype(np.데이터타입) 데이터 타입변경

In [306]:
data1[0,1] = np.nan
# nan 값을 적용하려면 float64 타입이어야한다

In [307]:
data1

array([[ 0., nan,  2.,  3.],
       [ 4.,  5.,  6.,  7.]])

In [308]:
frame1 = pd.DataFrame(data1,
                      index = ['three','one'],
                      columns = ['d','a','b','c'])

In [309]:
frame1

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [310]:
# 정렬시에는 NaN을 가장 큰 수로 처리한다
frame1.sort_values(by = 'a')

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


In [311]:
# na_position 인수를 활용해 NaN을 가장 마지막으로 처리하도록 지정할 수 있다
frame1.sort_values(by = 'a', na_position = 'last')

Unnamed: 0,d,a,b,c
one,4.0,5.0,6.0,7.0
three,0.0,,2.0,3.0


In [312]:
# NaN을 가장 처음으로 처리하도록 지정하기
frame1.sort_values(by = 'a', na_position = 'first')

Unnamed: 0,d,a,b,c
three,0.0,,2.0,3.0
one,4.0,5.0,6.0,7.0


In [313]:
frame2 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}])

In [314]:
frame2

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [315]:
# 가 열을 기준으로 내림차순 졍럴하기
frame2.sort_values(['가'], ascending = False)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
3,2,15,7
4,2,100,9
2,1,20,5


In [316]:
# 가 열을 기준으로 내림차순한 결과에서 가 열의 값이 같다면
# 나 열은 오름차순으로 정렬하기
frame2.sort_values(['가','나'], ascending =[False,True])
# 복수 기준으로 더 많이 추가가 가능하다

Unnamed: 0,가,나,다
1,3,10,5
0,3,15,3
3,2,15,7
4,2,100,9
2,1,20,5


# 예제 5-4 데이터프레임의 인덱스 정렬

In [317]:
frame3 = pd.DataFrame([{'가':3, '나':15, '다': 3},
                       {'가':3, '나':10, '다': 5},
                       {'가':1, '나':20, '다': 5},
                       {'가':2, '나':15, '다': 7},
                       {'가':2, '나':100,'다': 9}],
                     columns=['다','가','나'])

In [318]:
# 딕셔너리는 특성상 순서가 정해져 있지 않으므로
# 컬럼을 지정하지 않는다면 랜덤한 순서로 출력된다.

In [319]:
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [320]:
# 행 정렬
frame3.sort_index(axis = 0)

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [321]:
frame4 = frame3.sort_index(axis = 0, ascending = False)
frame4

Unnamed: 0,다,가,나
4,9,2,100
3,7,2,15
2,5,1,20
1,5,3,10
0,3,3,15


In [322]:
frame3

Unnamed: 0,다,가,나
0,3,3,15
1,5,3,10
2,5,1,20
3,7,2,15
4,9,2,100


In [323]:
# 열 정렬
frame3.sort_index(axis =1)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


In [324]:
frame4

Unnamed: 0,다,가,나
4,9,2,100
3,7,2,15
2,5,1,20
1,5,3,10
0,3,3,15


In [325]:
# 행을 정렬한 결과에 열을 정렬해보기
# 메소드 체이닝을 이용하여 행과 열을 동시에 정렬해보기
frame4.sort_index().sort_index(axis = 1)

Unnamed: 0,가,나,다
0,3,15,3
1,3,10,5
2,1,20,5
3,2,15,7
4,2,100,9


# 예제 5-5 데이터 프레임의 순위 및 이동 처리

In [326]:
data1 = {'이름': ['길동', '옥주', '현웅', '주몽', '지원'], 
        '학번': [2012, 2012, 2013, 2014, 2014], 
        '과제건수': [1, 5, 2, 3, 4],
        '점수': [25, 94, 57, 62, 70]}

In [327]:
frame3 = pd.DataFrame(data1)

In [328]:
frame3

Unnamed: 0,이름,학번,과제건수,점수
0,길동,2012,1,25
1,옥주,2012,5,94
2,현웅,2013,2,57
3,주몽,2014,3,62
4,지원,2014,4,70


In [329]:
# 데이터프레임['열이름'].rank() 열이름의 값의 높은 것부터 순위를 float형으로 반환한다
# ascending 인자는 기본값은 True이고 오름차순으로 정렬한다(제일 적은 수가 1순위)
# 그외에 인자로 method 가 있으며 method인자의 설정값은 다음과 같다
# 평균(method='average') : 동점 관측치 간의 그룹 내 평균 순위 부여 (default 설정)
# 최소값(method='min') : 동점 관측치 그룹 내 최소 순위 부여
# 최대값(method='max') : 동점 관측치 그룹 내 최대 순위 부여
# 첫번째 값 (method='first') : 동점 관측치 중에서 데이터 상에서 먼저 나타나는 관측치부터 순위 부여
# 조밀하게 (method='dense') : 최소값('min')과 같은 방법으로 순위부여하나,
#                            'min'과는 다르게 그룹 간 순위가 '1'씩 증가함

frame3['점수'].rank(ascending = False)

0    5.0
1    1.0
2    4.0
3    3.0
4    2.0
Name: 점수, dtype: float64

In [330]:
# 순위라는 열을 추가하고 점수에 대한 순위 정보를 추가함
frame3['순위'] = frame3['점수'].rank(ascending = False)

In [331]:
frame3

Unnamed: 0,이름,학번,과제건수,점수,순위
0,길동,2012,1,25,5.0
1,옥주,2012,5,94,1.0
2,현웅,2013,2,57,4.0
3,주몽,2014,3,62,3.0
4,지원,2014,4,70,2.0


In [332]:
# 순위 값으로 정렬하기
frame3.sort_values(by = '순위')

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


In [333]:
frame4 = frame3.sort_values(by = '순위')
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
4,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
2,현웅,2013,2,57,4.0
0,길동,2012,1,25,5.0


In [334]:
# 인덱스를 새로 만들고 싶을 경우
frame4.index = [0,1,2,3,4]
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
0,옥주,2012,5,94,1.0
1,지원,2014,4,70,2.0
2,주몽,2014,3,62,3.0
3,현웅,2013,2,57,4.0
4,길동,2012,1,25,5.0


In [335]:
frame4.index = range(1,frame4.index.size+1)
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1.0
2,지원,2014,4,70,2.0
3,주몽,2014,3,62,3.0
4,현웅,2013,2,57,4.0
5,길동,2012,1,25,5.0


In [336]:
frame4['순위']

1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
Name: 순위, dtype: float64

In [337]:
data3 = frame4['순위'].astype(np.int64)
data3

1    1
2    2
3    3
4    4
5    5
Name: 순위, dtype: int64

In [338]:
frame4['순위'] = data3
frame4

Unnamed: 0,이름,학번,과제건수,점수,순위
1,옥주,2012,5,94,1
2,지원,2014,4,70,2
3,주몽,2014,3,62,3
4,현웅,2013,2,57,4
5,길동,2012,1,25,5


In [339]:
data = {'가' : pd.Series([1.], index=['a']),
        '나' : pd.Series([1., 2.], index=['a', 'b']),
        '다' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

In [340]:
df = pd.DataFrame(data)
df

Unnamed: 0,가,나,다
a,1.0,1.0,1.0
b,,2.0,2.0
c,,,3.0
d,,,4.0


In [341]:
# 나열 전체 값을 갱신
df['나'] = pd.Series([3,4,5,6], index = list('abcd'), dtype = 'float')

In [342]:
df

Unnamed: 0,가,나,다
a,1.0,3.0,1.0
b,,4.0,2.0
c,,5.0,3.0
d,,6.0,4.0


In [343]:
df1 = df[["나", "다"]]
df1

Unnamed: 0,나,다
a,3.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [344]:
# at 속성에 특정 행, 열의 이름을 지정하여 값을 할당할 경우 해당 값으로 갱신
df1.at['a','나'] = 100
df1

Unnamed: 0,나,다
a,100.0,1.0
b,4.0,2.0
c,5.0,3.0
d,6.0,4.0


In [345]:
# 아래와 같이 행의 요소를 리스트로 지정했을 경우에 각각 모든 값이 갱신이됨
# 그러나 기본 옵션으로는 Warning이 발생함
df1.at[['b','c'],['나']] = 99
df1

Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


In [346]:
# 위의 예제 Warning을 제거하려면 아래 코드 입력
pd.set_option('chained',None)

In [347]:
df1

Unnamed: 0,나,다
a,100.0,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


In [348]:
# 열의 값을 아래에서 위로 shift 할 경우, 빈 값은 NaN으로 채워짐
a = df1.나.shift(-1)
a

a    99.0
b    99.0
c     6.0
d     NaN
Name: 나, dtype: float64

In [349]:
df1['나'] = a
df1

Unnamed: 0,나,다
a,99.0,1.0
b,99.0,2.0
c,6.0,3.0
d,,4.0


In [350]:
# 열의 값을 위에서 아래로 shift 할 경우, 빈 값은 NaN으로 채워짐
b = df1.나.shift(1)

In [351]:
df1['나'] = b
df1

Unnamed: 0,나,다
a,,1.0
b,99.0,2.0
c,99.0,3.0
d,6.0,4.0


# 예제 5-6 피벗을 이용한 재구조화

#### 피벗: 데이터 열 중에서 두개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 방식

![image.png](attachment:image.png)

In [352]:
df10 = pd.DataFrame([
    ['index_1','col_1','10'],
    ['index_2','col_1','20'],
    ['index_1','col_2','30'],
    ['index_2','col_2','40']
], columns = ['index','cols','value'])

In [353]:
df10

Unnamed: 0,index,cols,value
0,index_1,col_1,10
1,index_2,col_1,20
2,index_1,col_2,30
3,index_2,col_2,40


In [354]:
df10_pivoted = df10.pivot(index = 'index', columns = 'cols', values = 'value')

In [355]:
df10_pivoted

cols,col_1,col_2
index,Unnamed: 1_level_1,Unnamed: 2_level_1
index_1,10,30
index_2,20,40


In [356]:
df = pd.DataFrame([
        ['20180901', 'A',   10],
        ['20180901', 'B',  100],
        ['20180901', 'C', 1000],
        ['20180902', 'A',   20],
        ['20180902', 'B',  200],
        ['20180902', 'C', 2000],
        ['20180903', 'A',   30],
        ['20180903', 'B',  300],
        ['20180903', 'C', 3000],
], columns=['date', 'typecode', 'volume'])

In [357]:
df

Unnamed: 0,date,typecode,volume
0,20180901,A,10
1,20180901,B,100
2,20180901,C,1000
3,20180902,A,20
4,20180902,B,200
5,20180902,C,2000
6,20180903,A,30
7,20180903,B,300
8,20180903,C,3000


In [358]:
# 분석하고자하는 값은 volume이며 분석기준은 data,typecode
# 해석 : 날짜별 typecode별 volume
df_pivoetd = df.pivot(index = 'date', columns = 'typecode', values = 'volume')

In [359]:
df_pivoetd

typecode,A,B,C
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
20180901,10,100,1000
20180902,20,200,2000
20180903,30,300,3000


In [360]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [361]:
# 피벗 분석을 분석할 때 대상이 되는 열의 데이터의 유형을 범주형 데이터를 선택한다.
# 2개의 열중에 데이터의 값이 많은 범주형 데이터를 일반적으로 행의 인덱스로 선택한다.
# 데이터프레임명.pivot(행기준,열기준,값기준)
df1.pivot('도시','연도','인구')
# 연도가 2005, 2010년, 2015년으로 전개되는데 해당값이 없다면 NaN으로 표시된다.
# 예) 2005년 인천의 값

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [362]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천","부산"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010","2015"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 2632003,1000000],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권","경상권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632003,수도권
8,부산,2015,1000000,경상권


In [363]:
# 중복이 되는 행의 값이 있을 경우 pivot이 불가능
#df1.pivot('도시','연도','인구')

In [364]:
# 이럴 경우 pivot_table()에서 aggfunc로 통계지표를 얻을 수 있음
df2 = df1.pivot_table(values = '인구',index = '도시',columns = '연도',aggfunc ='sum')
df2

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,4448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632003.0,2890451.0


## groupby: 데이터를 그룹별로 분할하여 독립된 그룹에 대하여 별도로 데이터를 처리

#### 그룹별 통계량을 확인할 때 확인하는 함수

#### 동작원리

![image.png](attachment:image.png)

In [365]:
import seaborn as sns
df = sns.load_dataset('tips')
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [366]:
# sex를 기준으로 수치형 데이터에 대한 통계자료를 제공
df.groupby('sex').mean()

Unnamed: 0_level_0,total_bill,tip,size
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,20.744076,3.089618,2.630573
Female,18.056897,2.833448,2.45977


In [367]:
# groupby 자체로는 의미가 없음
df.groupby('sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000240B002CB80>

In [368]:
# smoker,day,time,size기준으로도 그룹화할 수 있을 듯

In [369]:
df.groupby('smoker').mean()

Unnamed: 0_level_0,total_bill,tip,size
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Yes,20.756344,3.00871,2.408602
No,19.188278,2.991854,2.668874


In [370]:
df_time = df.groupby('time').mean()
df_time

Unnamed: 0_level_0,total_bill,tip,size
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lunch,17.168676,2.728088,2.411765
Dinner,20.797159,3.10267,2.630682


In [371]:
df_time['total_bill'][0]

17.168676470588235

In [372]:
df.groupby('size').mean()

Unnamed: 0_level_0,total_bill,tip
size,Unnamed: 1_level_1,Unnamed: 2_level_1
1,7.2425,1.4375
2,16.448013,2.582308
3,23.277632,3.393158
4,28.613514,4.135405
5,30.068,4.028
6,34.83,5.225


In [373]:
import seaborn as sns

In [374]:
titanic = sns.load_dataset('titanic')

In [375]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [376]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [377]:
# 모든 수치형 열에 대한 평균값을 집계
titanic_s = titanic.groupby('survived').mean()
titanic_s

Unnamed: 0_level_0,pclass,age,sibsp,parch,fare,adult_male,alone
survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,2.531876,30.626179,0.553734,0.32969,22.117887,0.817851,0.681239
1,1.950292,28.34369,0.473684,0.464912,48.395408,0.25731,0.476608


In [378]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [380]:
# sex열의 값을 행인덱스 기준, class열의 값을 열인덱스로 지정하여
# survived 값에대한 집계방식을 sum으로 지정함
titanic_ = titanic.pivot_table(values = 'survived',
                               index = 'sex',
                               columns = 'class',
                               aggfunc ='sum')
titanic_

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,91,70,72
male,45,17,47


In [381]:
titanic_.sum().sum()

342

In [382]:
titanic['survived'].sum()

342

## Stack/Unstack

### Stack : 열을 행인덱스로 전환, Unstack : 행을 열인덱스로 전환

In [385]:
weight = pd.read_csv('../data/weight_loss.csv',encoding='cp949')

In [386]:
weight.head()

Unnamed: 0,이름,월,주,몸무게
0,지완,1월,1주,70
1,찬준,1월,1주,60
2,지완,1월,2주,69
3,찬준,1월,2주,59
4,지완,1월,3주,69


In [390]:
# 주 열의 값중 '4주'인 값만 필터
week4 = weight.query('주 == "4주"')
# 데이터프레임명.query(조건 '"검색어")
week4

Unnamed: 0,이름,월,주,몸무게
6,지완,1월,4주,69
7,찬준,1월,4주,59
14,지완,2월,4주,66
15,찬준,2월,4주,56
22,지완,3월,4주,64
23,찬준,3월,4주,54
30,지완,4월,4주,62
31,찬준,4월,4주,52


In [391]:
week4.pivot(index = '월',columns = '이름', values = '몸무게')

이름,지완,찬준
월,Unnamed: 1_level_1,Unnamed: 2_level_1
1월,69,59
2월,66,56
3월,64,54
4월,62,52


In [392]:
week4.pivot_table(index='월',columns='이름',values="몸무게")

이름,지완,찬준
월,Unnamed: 1_level_1,Unnamed: 2_level_1
1월,69,59
2월,66,56
3월,64,54
4월,62,52


# 예제 5-7 스택을 이용한 재구조화

![image.png](attachment:image.png)

In [394]:
week4

Unnamed: 0,이름,월,주,몸무게
6,지완,1월,4주,69
7,찬준,1월,4주,59
14,지완,2월,4주,66
15,찬준,2월,4주,56
22,지완,3월,4주,64
23,찬준,3월,4주,54
30,지완,4월,4주,62
31,찬준,4월,4주,52


In [398]:
week5 = week4.set_index(['이름','월'])
week5.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,주,몸무게
이름,월,Unnamed: 2_level_1,Unnamed: 3_level_1
지완,1월,4주,69
찬준,1월,4주,59
지완,2월,4주,66
찬준,2월,4주,56
지완,3월,4주,64


In [400]:
# stack을 하면 주, 몸무게가 행의 멀티 인덱스로 들어가게 된다
week5_st = week5.stack()
week5_st

이름  월      
지완  1월  주      4주
        몸무게    69
찬준  1월  주      4주
        몸무게    59
지완  2월  주      4주
        몸무게    66
찬준  2월  주      4주
        몸무게    56
지완  3월  주      4주
        몸무게    64
찬준  3월  주      4주
        몸무게    54
지완  4월  주      4주
        몸무게    62
찬준  4월  주      4주
        몸무게    52
dtype: object

In [401]:
type(week5_st)

pandas.core.series.Series

In [402]:
week5_st.index.get_level_values(0)

Index(['지완', '지완', '찬준', '찬준', '지완', '지완', '찬준', '찬준', '지완', '지완', '찬준', '찬준',
       '지완', '지완', '찬준', '찬준'],
      dtype='object', name='이름')

In [403]:
week5_st.index.get_level_values(1)

Index(['1월', '1월', '1월', '1월', '2월', '2월', '2월', '2월', '3월', '3월', '3월', '3월',
       '4월', '4월', '4월', '4월'],
      dtype='object', name='월')

In [404]:
week5_st.index.get_level_values(2)

Index(['주', '몸무게', '주', '몸무게', '주', '몸무게', '주', '몸무게', '주', '몸무게', '주', '몸무게',
       '주', '몸무게', '주', '몸무게'],
      dtype='object')

In [405]:
week5_st.values

array(['4주', 69, '4주', 59, '4주', 66, '4주', 56, '4주', 64, '4주', 54, '4주',
       62, '4주', 52], dtype=object)

In [406]:
week5

Unnamed: 0_level_0,Unnamed: 1_level_0,주,몸무게
이름,월,Unnamed: 2_level_1,Unnamed: 3_level_1
지완,1월,4주,69
찬준,1월,4주,59
지완,2월,4주,66
찬준,2월,4주,56
지완,3월,4주,64
찬준,3월,4주,54
지완,4월,4주,62
찬준,4월,4주,52


In [407]:
week5_st.head(3)

이름  월      
지완  1월  주      4주
        몸무게    69
찬준  1월  주      4주
dtype: object

In [410]:
to_week5 = week5_st.to_frame()
to_week5.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
이름,월,Unnamed: 2_level_1,Unnamed: 3_level_1
지완,1월,주,4주
지완,1월,몸무게,69
찬준,1월,주,4주
찬준,1월,몸무게,59
지완,2월,주,4주


In [411]:
to_week5.index.levels

FrozenList([['지완', '찬준'], ['1월', '2월', '3월', '4월'], ['주', '몸무게']])

In [412]:
to_week5.columns

RangeIndex(start=0, stop=1, step=1)

In [413]:
week5

Unnamed: 0_level_0,Unnamed: 1_level_0,주,몸무게
이름,월,Unnamed: 2_level_1,Unnamed: 3_level_1
지완,1월,4주,69
찬준,1월,4주,59
지완,2월,4주,66
찬준,2월,4주,56
지완,3월,4주,64
찬준,3월,4주,54
지완,4월,4주,62
찬준,4월,4주,52
