In [1]:
import pandas as pd
import numpy as np

# pandas 데이터 재구조화(reshaping)

- 피버팅(pivoting)
- 스태킹(stacking)과 언스태킹(unstacking)
- 멜팅(melting)과 와이드투롱(wide_to_long)
- 교차표(crosstab)
- explode

## 3. 멜팅(melting)

- 식별자 변수로 사용될 id를 기준으로 원래 데이터셋에 있던 여러 개의 컬럼 이름을 'variable' 컬럼에 위에서 아래로 길게 쌓아놓고, 'value' 컬럼에 id와 variable에 해당하는 값을 넣어주는 방식으로 데이터를 재구조화

### **melt()**

DataFrame.**melt(id_vars=None, value_vars=None, var_name=None, value_name='value'**, col_level=None, ignore_index=True)

- id_vars : identifier variables로 사용될 컬럼(들)
- value_vars : unpivot할 컬럼(들). 지정하지 않는 경우 id_vars에 지정하지 않은 모든 컬럼(들)이 됨
- var_name : 기본값은 'None'. 'variable' 컬럼의 이름, 지정하지 않는 경우 frame.columns.name 또는 'variable'
- value_name : 기본값은 'value'. 'value'컬럼의 이름
- col_level : 컬럼들이 멀티인덱스인 경우 melt할 레벨
- ignore_index :  기본값은 True. True인 경우 원래 인덱스 무시하나 False인 경우 원래 인덱스 유지함

https://pandas.pydata.org/docs/reference/api/pandas.melt.html

#### 예제 데이터1

In [7]:
data = {'STUDENT_ID':['S_1', 'S_1', 'S_2', 'S_2'], 'TEACHER_ID':['T_1', 'T_2', 'T_1', 'T_2'], 'CLASS_ROOM':[101, 102, 201, 203],    
        'TIME':[1, 2, 3, 4]}
        
df = pd.DataFrame(data)
df

Unnamed: 0,STUDENT_ID,TEACHER_ID,CLASS_ROOM,TIME
0,S_1,T_1,101,1
1,S_1,T_2,102,2
2,S_2,T_1,201,3
3,S_2,T_2,203,4


- melt(id_vars=[ ])

In [9]:
pd.melt(df,id_vars=['STUDENT_ID','TEACHER_ID'])

Unnamed: 0,STUDENT_ID,TEACHER_ID,variable,value
0,S_1,T_1,CLASS_ROOM,101
1,S_1,T_2,CLASS_ROOM,102
2,S_2,T_1,CLASS_ROOM,201
3,S_2,T_2,CLASS_ROOM,203
4,S_1,T_1,TIME,1
5,S_1,T_2,TIME,2
6,S_2,T_1,TIME,3
7,S_2,T_2,TIME,4


- melt(id_vars=[ ], **var_name=**)

In [10]:
pd.melt(df, id_vars=['STUDENT_ID','TEACHER_ID'], var_name=['COL_NAME'])

Unnamed: 0,STUDENT_ID,TEACHER_ID,COL_NAME,value
0,S_1,T_1,CLASS_ROOM,101
1,S_1,T_2,CLASS_ROOM,102
2,S_2,T_1,CLASS_ROOM,201
3,S_2,T_2,CLASS_ROOM,203
4,S_1,T_1,TIME,1
5,S_1,T_2,TIME,2
6,S_2,T_1,TIME,3
7,S_2,T_2,TIME,4


- melt(id_vars=[ ], var_name= , **value_name=** )

In [12]:
pd.melt(df, id_vars=['STUDENT_ID','TEACHER_ID'], var_name='COL_NAME', value_name='COL')

Unnamed: 0,STUDENT_ID,TEACHER_ID,COL_NAME,COL
0,S_1,T_1,CLASS_ROOM,101
1,S_1,T_2,CLASS_ROOM,102
2,S_2,T_1,CLASS_ROOM,201
3,S_2,T_2,CLASS_ROOM,203
4,S_1,T_1,TIME,1
5,S_1,T_2,TIME,2
6,S_2,T_1,TIME,3
7,S_2,T_2,TIME,4


In [13]:
df

Unnamed: 0,STUDENT_ID,TEACHER_ID,CLASS_ROOM,TIME
0,S_1,T_1,101,1
1,S_1,T_2,102,2
2,S_2,T_1,201,3
3,S_2,T_2,203,4


- melt(id_vars=[ ], **ignore_index=True | False** )

In [17]:
pd.melt(df, id_vars=['STUDENT_ID','TEACHER_ID'], ignore_index=False)

Unnamed: 0,STUDENT_ID,TEACHER_ID,variable,value
0,S_1,T_1,CLASS_ROOM,101
1,S_1,T_2,CLASS_ROOM,102
2,S_2,T_1,CLASS_ROOM,201
3,S_2,T_2,CLASS_ROOM,203
0,S_1,T_1,TIME,1
1,S_1,T_2,TIME,2
2,S_2,T_1,TIME,3
3,S_2,T_2,TIME,4


## 4. Wide-to-long

- melt()와 유사함
- 컬럼 매칭을 위한 사용자 조작이 가능

### **wide_to_long()**

pandas.wide_to_long(df, stubnames, i, j, sep='', suffix='\\d+')

- df : dataframe
- stubnames : stub 이름(들), wide 포맷 변수들은 stub 이름으로 시작할 것으로 가정함
- i : id 변수(들)로 사용될 컬럼(들)
- j : sub-observation 변수 이름. long 포맷에 suffix 이름
- sep : wide포맷에서 변수 이름 구분을 위해 사용하는 문자
- suffix : 정규표현식
  
https://pandas.pydata.org/docs/reference/api/pandas.wide_to_long.html#pandas.wide_to_long

#### 예제 데이터1

In [27]:
data = {   'AA2000' : ['a', 'b', 'c'],   'AA2010' : ['x', 'y', 'z'],   'BB2000' : [2.5, 3.3, 7.7],   
        'BB2010' : [.1, 1.1, 4.1],   'VALUE'     : [10, 20, 30]      } 
df = pd.DataFrame(data)
df

Unnamed: 0,AA2000,AA2010,BB2000,BB2010,VALUE
0,a,x,2.5,0.1,10
1,b,y,3.3,1.1,20
2,c,z,7.7,4.1,30


In [28]:
wldf = pd.wide_to_long(df,stubnames=['AA','BB'],i='VALUE', j='year')

In [29]:
wldf

Unnamed: 0_level_0,Unnamed: 1_level_0,AA,BB
VALUE,year,Unnamed: 2_level_1,Unnamed: 3_level_1
10,2000,a,2.5
20,2000,b,3.3
30,2000,c,7.7
10,2010,x,0.1
20,2010,y,1.1
30,2010,z,4.1


----

## 5. 교차표 crosstab

- 2개 이상의 요인을 위한 교차표(cross tabulation) 계산

### **crosstab()**

pandas.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False)

- index : 행
- columns : 열
- values : factor에 의해 집계할 값들
- aggfunc : 계산 함수
- margins : 행/열 소계
- dropna : 모두 결측치를 갖는 컬럼은 포함하지 않음

https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html

#### 예제 데이터1. 일차원 데이터들을 이용한 교차표

In [34]:
data = {    'gender' : ['M', 'M', 'M', 'M', 'W', 'W', 'W', 'W'],    'score' : ['A', 'C', 'B', 'B', 'A', 'C', 'C', 'B']}
df = pd.DataFrame(data)
df

Unnamed: 0,gender,score
0,M,A
1,M,C
2,M,B
3,M,B
4,W,A
5,W,C
6,W,C
7,W,B


In [35]:
pd.crosstab(index=df['gender'], columns=['score'])

col_0,score
gender,Unnamed: 1_level_1
M,4
W,4


In [37]:
pd.crosstab(index=df['gender'], columns=['score'], margins=True)

col_0,score,All
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
M,4,4
W,4,4
All,8,8


- pd.crosstab(, **dropna=False**)

In [38]:
pd.crosstab(index=df['gender'], columns=['score'], dropna=False)

col_0,score
gender,Unnamed: 1_level_1
M,4
W,4


- pd.crosstab(, **normalize=True**)

In [39]:
pd.crosstab(index=df['gender'], columns=['score'],normalize=True)

col_0,score
gender,Unnamed: 1_level_1
M,0.5
W,0.5


## 6. explode

- 데이터프레임의 컬럼 내에 리스트와 같은 값들을 갖는 경우 컬럼의 리스트 요소들을 행으로 분리
- 리스트와 같은 요소를 시리즈의 값으로 갖는 경우 행으로 분리

### **explode()**
- Series.explode(ignore_index=False)
- DataFrame.explode(column, ignore_index=False)
- https://pandas.pydata.org/docs/reference/api/pandas.Series.explode.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.htm

#### 예제 데이터1. 컬럼의 값으로 리스트를 갖는 데이터프레임

#### 예제 데이터2. 시리즈의 행 요소가 리스트를 포함하는 경우

#### 예제 데이터3. 콤마로 구분된 문자열을 값으로 갖는 데이터프레임

**참고. df.assign()**
- 데이터프레임에 새로운 컬럼을 할당
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.assign.html

----