In [1]:
import numpy as np
import pandas as pd

### 데이터 재구성 (Reshaping)

#### pivot_table() 
: 스프레드 시트 스타일의 피벗 테이블을 DataFrame으로 만듬

In [3]:
df = pd.DataFrame({
    "A": ["foo", "foo", "foo", "foo", "foo",
          "bar", "bar", "bar", "bar"],
    "B": ["one", "one", "one", "two", "two",
          "one", "one", "two", "two"],
    "C": ["small", "large", "large", "small",
          "small", "large", "small", "small",
          "large"],
    "D": [1, 2, 2, 3, 3, 4, 5, 6, 7],
    "E": [2, 4, 5, 5, 6, 6, 8, 9, 9]
})
df

Unnamed: 0,A,B,C,D,E
0,foo,one,small,1,2
1,foo,one,large,2,4
2,foo,one,large,2,5
3,foo,two,small,3,5
4,foo,two,small,3,6
5,bar,one,large,4,6
6,bar,one,small,5,8
7,bar,two,small,6,9
8,bar,two,large,7,9


In [4]:
table = pd.pivot_table(df, index='A', columns=['B', 'C'], values='D')
table

B,one,one,two,two
C,large,small,large,small
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
bar,4.0,5.0,7.0,6.0
foo,2.0,1.0,,3.0


- pivot_table() : aggfunc : default numpy.mean
- 데이터 집계시 사용할 함수

In [5]:
table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum)
table

  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum)


Unnamed: 0_level_0,C,large,small
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,5.0
bar,two,7.0,6.0
foo,one,4.0,1.0
foo,two,,6.0


- fill_value = 0 -> NaN을 0으로 채움

In [6]:
table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0)
table

  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0)


Unnamed: 0_level_0,C,large,small
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4,5
bar,two,7,6
foo,one,4,1
foo,two,0,6


- margins : default False
- 행/열 별 총합

In [7]:
table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True)
table

  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True)
  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True)
  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True)


Unnamed: 0_level_0,C,large,small,All
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,4,5,9
bar,two,7,6,13
foo,one,4,1,5
foo,two,0,6,6
All,,15,18,33


In [8]:
table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True, margins_name='Total')
table

  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True, margins_name='Total')
  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True, margins_name='Total')
  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True, margins_name='Total')


Unnamed: 0_level_0,C,large,small,Total
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,4,5,9
bar,two,7,6,13
foo,one,4,1,5
foo,two,0,6,6
Total,,15,18,33


- melt() : 열을 행으로 모으는 기능 수행
    - id_vars : 위치를 그대로 유지할 열 이름
    - value_vars : 행으로 위치를 변경할 열 이름
    - var_name : value_vars로 위치를 변경한 열 이름
    - value_name : var_name으로 위치를 변경한 열의 데이터 이름

In [9]:
person = pd.DataFrame({
    'first': ['John', 'Mary'],
    'last': ['Doe', 'Bo'],
    'height': [5.5, 6.0],
    'weight': [130, 150]
})
person

Unnamed: 0,first,last,height,weight
0,John,Doe,5.5,130
1,Mary,Bo,6.0,150


In [10]:
melt_data = person.melt(id_vars=['first', 'last'])
melt_data

Unnamed: 0,first,last,variable,value
0,John,Doe,height,5.5
1,Mary,Bo,height,6.0
2,John,Doe,weight,130.0
3,Mary,Bo,weight,150.0


In [11]:
melt_data = person.melt(id_vars=['first', 'last'], var_name='body', value_name='size')
melt_data

Unnamed: 0,first,last,body,size
0,John,Doe,height,5.5
1,Mary,Bo,height,6.0
2,John,Doe,weight,130.0
3,Mary,Bo,weight,150.0


In [12]:
melt_data = person.melt(id_vars=['first', 'last'], var_name='body', value_name='size', value_vars='height')
melt_data

Unnamed: 0,first,last,body,size
0,John,Doe,height,5.5
1,Mary,Bo,height,6.0


#### stack() / unstack()
- stack() : column (열) 을 index (행)의 최하위 층으로 stacking(쌓는다)
    - 데이터를 세로로 길게 만들기
    - 데이터 열을 행으로 피벗 (또는 회전)
- unstack() : index (행) 을 column (열)의 최하위 층으로 unstacking(풀어낸다)
    - 데이터를 가로로 넓게 만들기
    - 데이터 행을 열로 피벗

In [14]:
df

Unnamed: 0,A,B,C,D,E
0,foo,one,small,1,2
1,foo,one,large,2,4
2,foo,one,large,2,5
3,foo,two,small,3,5
4,foo,two,small,3,6
5,bar,one,large,4,6
6,bar,one,small,5,8
7,bar,two,small,6,9
8,bar,two,large,7,9


In [16]:
table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True, margins_name='Total')
table

  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True, margins_name='Total')
  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True, margins_name='Total')
  table = pd.pivot_table(df, index=['A', 'B'], columns='C', values='D', aggfunc=np.sum, fill_value=0, margins=True, margins_name='Total')


Unnamed: 0_level_0,C,large,small,Total
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,4,5,9
bar,two,7,6,13
foo,one,4,1,5
foo,two,0,6,6
Total,,15,18,33


In [17]:
stack_data = table.stack()
stack_data

A      B    C    
bar    one  large     4
            small     5
            Total     9
       two  large     7
            small     6
            Total    13
foo    one  large     4
            small     1
            Total     5
       two  large     0
            small     6
            Total     6
Total       large    15
            small    18
            Total    33
dtype: int64

In [18]:
table = stack_data.unstack()
table

Unnamed: 0_level_0,C,large,small,Total
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Total,,15,18,33
bar,one,4,5,9
bar,two,7,6,13
foo,one,4,1,5
foo,two,0,6,6


In [19]:
# level = -1 (기본값으로 최하위 계층) : 최상위 계층의 level = 0부터 시작
table = stack_data.unstack(0)
table

Unnamed: 0_level_0,A,Total,bar,foo
B,C,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,large,15.0,,
,small,18.0,,
,Total,33.0,,
one,large,,4.0,4.0
one,small,,5.0,1.0
one,Total,,9.0,5.0
two,large,,7.0,0.0
two,small,,6.0,6.0
two,Total,,13.0,6.0


In [20]:
table = stack_data.unstack(1)
table

Unnamed: 0_level_0,B,Unnamed: 2_level_0,one,two
A,C,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Total,large,15.0,,
Total,small,18.0,,
Total,Total,33.0,,
bar,large,,4.0,7.0
bar,small,,5.0,6.0
bar,Total,,9.0,13.0
foo,large,,4.0,0.0
foo,small,,1.0,6.0
foo,Total,,5.0,6.0


In [21]:
table = stack_data.unstack('C')
table

Unnamed: 0_level_0,C,large,small,Total
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Total,,15,18,33
bar,one,4,5,9
bar,two,7,6,13
foo,one,4,1,5
foo,two,0,6,6


- cut(), qcut() : 데이터 구간 나누기
    - cut() : 데이터를 구간 길이에 따라 나눔
        - `cut(x, bins, labels)` 
            - x : cut 함수는 나누고자 하는 숫자 값을 포함하는 배열을 인지로 받음
            - bins : 나누고자 하는 방식
                - bins에 양의 정수를 넣어주면 데이터의 최소값과 최대값으로 이루어진 전체 구간을 정수 개수만큼 등간격으로 나누어줌
                - 배열을 넣어주면 배열의 인접한 값을 이용하여 구간을 만들어 줌
            - labels : 구간의 이름을 설정
    - qcut() : 데이터를 빈도수에 따라 나눔
        - `qcut(x, q, labels)`
            - qcut함수 : cut과 비슷한 방법으로 사용
            - cut과 다른 점은 cut에서 bins의 역할을 qcut에서는 q인자가 하고 있다
            - q에 양의 정수를 넣는다면 그 정수 개수만큼의 구간을 생성하며 각 구간에는 동일한 데이터 개수가 들어가게 된다
            - 만약 데이터 개수가 100개고 q에 4를 넣는다면 각 구간 별로 동일하게 25(=100/4)개수 만큼 들어가게 된다
            - 만약 배열을 넣는다면 그 배열은 오름차순으로 정렬되어 있어야하며 인접한 값을 분위수로 취급하여 구간을 만들게 된다.

In [22]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8])  ## 데이터
cut = pd.cut(a, bins=3)  ## 데이터를 최소 최대 구간으로 3등분한다.
cut

[(0.993, 3.333], (0.993, 3.333], (0.993, 3.333], (3.333, 5.667], (3.333, 5.667], (5.667, 8.0], (5.667, 8.0], (5.667, 8.0]]
Categories (3, interval[float64, right]): [(0.993, 3.333] < (3.333, 5.667] < (5.667, 8.0]]

In [23]:
cut.describe()

Unnamed: 0_level_0,counts,freqs
categories,Unnamed: 1_level_1,Unnamed: 2_level_1
"(0.993, 3.333]",3,0.375
"(3.333, 5.667]",2,0.25
"(5.667, 8.0]",3,0.375


In [24]:
a1 = np.array([1, 2, 3, 4, 5, 6, 7, 8])  ## 데이터
## 데이터를 (0, 2), (2, 4), (4, 8) 구간으로 쪼갠다.
cut1 = pd.cut(a1, bins=[0, 2, 4, 8], labels=['bad', 'med', 'good'])
cut1

['bad', 'bad', 'med', 'med', 'good', 'good', 'good', 'good']
Categories (3, object): ['bad' < 'med' < 'good']

In [25]:
cut1.describe()

Unnamed: 0_level_0,counts,freqs
categories,Unnamed: 1_level_1,Unnamed: 2_level_1
bad,2,0.25
med,2,0.25
good,4,0.5


In [26]:
df = pd.DataFrame()
df['name'] = ['kim', 'lee', 'John', 'park', 'choi', 'jung', 'sim']
df['score'] = [20, 35, 14, 90, 100, 66, 77]
df

Unnamed: 0,name,score
0,kim,20
1,lee,35
2,John,14
3,park,90
4,choi,100
5,jung,66
6,sim,77


In [28]:
df['interval'] = pd.cut(df['score'], 5)
df['rank'] = pd.cut(df['score'], 5, labels=['A', 'B', 'C', 'D', 'E'][::-1])
df

Unnamed: 0,name,score,interval,rank
0,kim,20,"(13.914, 31.2]",E
1,lee,35,"(31.2, 48.4]",D
2,John,14,"(13.914, 31.2]",E
3,park,90,"(82.8, 100.0]",A
4,choi,100,"(82.8, 100.0]",A
5,jung,66,"(65.6, 82.8]",B
6,sim,77,"(65.6, 82.8]",B


In [34]:
df1 = pd.DataFrame()
df1['name'] = ['kim', 'lee', 'John', 'park', 'choi', 'jung', 'sim']
df1['score'] = [20, 35, 14, 90, 100, 66, 77]
df1

Unnamed: 0,name,score
0,kim,20
1,lee,35
2,John,14
3,park,90
4,choi,100
5,jung,66
6,sim,77


In [35]:
df1['interval'] = pd.cut(df1['score'], bins=[0, 60, 70, 80, 90, 101])
df1['성적'] = pd.cut(df1['score'], bins=[0, 60, 70, 80, 90, 101], labels=["수", "우", "미", "양", "가"][::-1])
df1

Unnamed: 0,name,score,interval,성적
0,kim,20,"(0, 60]",가
1,lee,35,"(0, 60]",가
2,John,14,"(0, 60]",가
3,park,90,"(80, 90]",우
4,choi,100,"(90, 101]",수
5,jung,66,"(60, 70]",양
6,sim,77,"(70, 80]",미


In [36]:
np.random.seed(100)

a = np.random.uniform(0, 1, 100)  ## 데이터 생성
cut = pd.qcut(a, q=3)  ## 데이터를 3등분하는 구간 생성
cut

[(0.286, 0.602], (0.00372, 0.286], (0.286, 0.602], (0.602, 0.992], (0.00372, 0.286], ..., (0.602, 0.992], (0.00372, 0.286], (0.602, 0.992], (0.00372, 0.286], (0.602, 0.992]]
Length: 100
Categories (3, interval[float64, right]): [(0.00372, 0.286] < (0.286, 0.602] < (0.602, 0.992]]

In [37]:
np.random.seed(100)

a2 = np.random.uniform(0, 1, 100)  ## 데이터 생성
cut = pd.qcut(a2, q=[0, 0.25, 0.75, 1])  ## 사분위 갯수로 구간 생성
cut

[(0.233, 0.686], (0.233, 0.686], (0.233, 0.686], (0.686, 0.992], (0.00372, 0.233], ..., (0.233, 0.686], (0.233, 0.686], (0.233, 0.686], (0.00372, 0.233], (0.233, 0.686]]
Length: 100
Categories (3, interval[float64, right]): [(0.00372, 0.233] < (0.233, 0.686] < (0.686, 0.992]]

In [38]:
df = pd.DataFrame()
df['class'] = np.random.choice(['a', 'b', 'c', 'd'], 100)
df['value'] = np.random.uniform(0, 1, 100)
df

Unnamed: 0,class,value
0,b,0.189674
1,a,0.410771
2,c,0.594680
3,a,0.716586
4,c,0.486891
...,...,...
95,b,0.190053
96,d,0.711900
97,c,0.858295
98,c,0.559056


In [39]:
df = df.sort_values('value')  ## 오름차순 정렬
labels = ['group1', 'group2', 'group3', 'group4', 'group5']  ## 그룹 명칭
df['group'] = pd.qcut(range(len(df)), q=5, labels=labels)
df

Unnamed: 0,class,value,group
85,c,0.025172,group1
83,d,0.028412,group1
58,c,0.035627,group1
88,b,0.060885,group1
55,c,0.070199,group1
...,...,...,...
24,c,0.961642,group5
79,d,0.966693,group5
29,c,0.979070,group5
57,a,0.979624,group5
