# pandas 데이터 재구조화(reshaping)

- 피버팅(pivoting)
- 스태킹(stacking)과 언스태킹(unstacking)
- 멜팅(melting)과 와이드투롱(wide_to_long)
- 교차표(crosstab)
- explode

## 3. 멜팅(melting)

- 식별자 변수로 사용될 id를 기준으로 원래 데이터셋에 있던 여러 개의 컬럼 이름을 'variable' 컬럼에 위에서 아래로 길게 쌓아놓고, 'value' 컬럼에 id와 variable에 해당하는 값을 넣어주는 방식으로 데이터를 재구조화

![image.png](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F25177F4E5863D58A0C)

- 출처 : https://rfriend.tistory.com/278

### **melt()**

DataFrame.**melt(id_vars=None, value_vars=None, var_name=None, value_name='value'**, col_level=None, ignore_index=True)

- id_vars : identifier variables로 사용될 컬럼(들)
- value_vars : unpivot할 컬럼(들). 지정하지 않는 경우 id_vars에 지정하지 않은 모든 컬럼(들)이 됨
- var_name : 기본값은 'None'. 'variable' 컬럼의 이름, 지정하지 않는 경우 frame.columns.name 또는 'variable'
- value_name : 기본값은 'value'. 'value'컬럼의 이름
- col_level : 컬럼들이 멀티인덱스인 경우 melt할 레벨
- ignore_index :  기본값은 True. True인 경우 원래 인덱스 무시하나 False인 경우 원래 인덱스 유지함

https://pandas.pydata.org/docs/reference/api/pandas.melt.html

![image.png](https://pandas.pydata.org/pandas-docs/stable/_images/reshaping_melt.png)

#### 예제 데이터1

- melt(id_vars=[ ])

- melt(id_vars=[ ], **var_name=**)

- melt(id_vars=[ ], var_name= , **value_name=** )

#### 예제 데이터2

- melt(id_vars=[ ], **ignore_index=True | False** )

## 4. Wide-to-long

- melt()와 유사함
- 컬럼 매칭을 위한 사용자 조작이 가능

![image.png](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F23592A3C58662F7831)

- 출처 : https://rfriend.tistory.com/279

### **wide_to_long()**

pandas.wide_to_long(df, stubnames, i, j, sep='', suffix='\\d+')

- df : dataframe
- stubnames : stub 이름(들), wide 포맷 변수들은 stub 이름으로 시작할 것으로 가정함
- i : id 변수(들)로 사용될 컬럼(들)
- j : sub-observation 변수 이름. long 포맷에 suffix 이름
- sep : wide포맷에서 변수 이름 구분을 위해 사용하는 문자
- suffix : 정규표현식
  
https://pandas.pydata.org/docs/reference/api/pandas.wide_to_long.html#pandas.wide_to_long

#### 예제 데이터1

#### 예제 데이터2

#### 예제 데이터3

#### 예제 데이터4. suffixes로 정수를 갖지 않는 경우

----

## 5. 교차표 crosstab

- 2개 이상의 요인을 위한 교차표(cross tabulation) 계산

![image.png](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Ft1.daumcdn.net%2Fcfile%2Ftistory%2F274D52335866360E16)

### **crosstab()**

pandas.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False)

- index : 행
- columns : 열
- values : factor에 의해 집계할 값들
- aggfunc : 계산 함수
- margins : 행/열 소계
- dropna : 모두 결측치를 갖는 컬럼은 포함하지 않음

https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html

#### 예제 데이터1. 일차원 데이터들을 이용한 교차표

#### 예제 데이터2. 데이터 프레임을 사용한 교차표 생성

#### 예제 데이터3. 범주형 데이터를 이용한 교차표 생성

- pd.crosstab()

- pd.crosstab(, **dropna=False**)

- pd.crosstab(, **normalize=True**)

- pd.crosstab(**values= , aggfunc=**)

- pd.crosstab(**margins=**)

## 6. explode

- 데이터프레임의 컬럼 내에 리스트와 같은 값들을 갖는 경우 컬럼의 리스트 요소들을 행으로 분리
- 리스트와 같은 요소를 시리즈의 값으로 갖는 경우 행으로 분리

### **explode()**
- Series.explode(ignore_index=False)
- DataFrame.explode(column, ignore_index=False)
- https://pandas.pydata.org/docs/reference/api/pandas.Series.explode.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.htm

#### 예제 데이터1. 컬럼의 값으로 리스트를 갖는 데이터프레임

#### 예제 데이터2. 시리즈의 행 요소가 리스트를 포함하는 경우

#### 예제 데이터3. 콤마로 구분된 문자열을 값으로 갖는 데이터프레임

**참고. df.assign()**
- 데이터프레임에 새로운 컬럼을 할당
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.assign.html

----