## 데이터 셋
- [sample1.csv](https://docs.google.com/spreadsheets/d/1u6v9RclTm7_V-YgSvDT-OFVyHiLgDnXIHyE5iqxQLr0/edit?usp=sharing) - 학업성취도
- [sample2.csv](https://docs.google.com/spreadsheets/d/1Hb3FObTwaKLZQHv5bDFP2lx1kxFyrz94o95Cw0xXNQ8/edit?usp=sharing) - 연도별사원성과
- [sample3.csv](https://docs.google.com/spreadsheets/d/1YdCJa7uKjb8k7nsonZSQ8O2OYgdkRDEvr_oKOher-wM/edit?usp=sharing) - 역대한국야구순위

In [None]:
import pandas as pd

In [None]:
# sample1.csv - 학업성취도
students = pd.read_csv('sample1.csv', index_col='학생번호')

# sample2.csv - 연도별사원성과
company = pd.read_csv('sample2.csv', index_col='사원번호')

# sample3.csv - 역대한국야구순위
league = pd.read_csv('sample3.csv', index_col='팀이름')

# pokemon
pokemons = pd.read_csv('Pokemon.csv', index_col='Name')

# richest
richest = pd.read_csv('TopRichestInWorld.csv', index_col='Name')
# richest.drop(columns=['Source'], inplace=True)

In [None]:
richest.head()

## .stack()
- stack : 쌓아간다? 뭘 쌓는다는 걸까?
- 데이터프레임의 구조를 재조정하는 데 유용
- columns에 다중 인덱스가 있는 데이터프레임에서 사용하면 컬럼 인덱스가 로우 인덱스의 레벨로 이동.
- 컬럼을 로우로 "압축"하는 작업을 수행


### DataFrame.stack(level=-1, dropna=_NoDefault.no_default, sort=_NoDefault.no_default, future_stack=False)
- 컬럼에서 지정된 레벨(들)을 인덱스로 스택(stack)한다.  
- 현재의 데이터프레임과 비교하여 하나 이상의 새로운 내부 레벨을 가지는 다중 레벨 인덱스를 가진 재구성된 데이터프레임 또는 시리즈를 반환합니다. 새로운 내부 레벨은 현재 데이터프레임의 컬럼을 피벗(pivot)하여 생성된다.
  - 만약 컬럼이 단일 레벨이라면, 결과는 시리즈(Series).
  - 만약 컬럼이 다중 레벨이라면, 새로운 인덱스 레벨은 지정된 레벨에서 가져오며 결과는 데이터프레임(DataFrame).

**Parameters**  
`level : int, str, list, default -1`  
-컬럼 축에서 인덱스 축으로 스택(stack)할 레벨 지정.  
-하나의 인덱스 또는 레이블, 또는 인덱스 또는 레이블의 리스트로 정의

`dropna : bool, default True`  
-결과 프레임/시리즈에서 결측값을 가진 행을 삭제할지 여부.  
-컬럼 레벨을 인덱스 축에 스택(stack)하면 원본 데이터프레임에 없는 인덱스와 컬럼 값의 조합이 생성될 수 있다. 

`sort : bool, default True`  
-결과 MultiIndex의 레벨을 정렬할지 여부.    

`future_stack : bool, default False`  
-현재 구현체를 대체할 새로운 구현체를 사용할지 여부.  
-True인 경우, dropna와 sort는 결과에 영향을 미치지 않으며 지정하지 않아야 한다. 

**Returns : DataFrame or Series**    
스택(stack)된 데이터프레임 또는 시리즈.

## .stack() 기본 사용

In [None]:
# 다중 레벨 컬럼을 가진 데이터프레임 생성
data = {
    ('A', 'col1'): [1, 5],
    ('A', 'col2'): [2, 6],
    ('B', 'col1'): [3, 7],
    ('B', 'col2'): [4, 8]
}

df = pd.DataFrame(data)

In [None]:
df

1. index 0행 영역에서 columns -> index로 재조정
2. index 1행 영역에서 columns -> index로 재조정
3. unstack()은 되돌아갑니다.

## stack() unstack() 가벼운 데이터로 이해하기

In [None]:
# 예시 데이터
data = {
    ('Math', 'Quiz 1'): [80, 90, 70],
    ('Math', 'Quiz 2'): [75, 85, 65],
    ('English', 'Quiz 1'): [90, 85, 80],
    ('English', 'Quiz 2'): [95, 80, 75]
}

df = pd.DataFrame(data, index=['Alice', 'Bob', 'Charlie'])

In [None]:
df

In [None]:
# 1. 원본 -> stack()


In [None]:
# 2. 원본 -> stack() -> unstack()


In [None]:
# 3. 원본 -> stack() -> stack()


In [None]:
# 4. 원본 -> unstack()


## 단일 레벨의 Columns을 stack()하면?

## unstack(), .droplevel(level, axis)
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.droplevel.html

## level값에 따른 stack, unstack변화

In [None]:
richest = pd.read_csv('TopRichestInWorld.csv', index_col=['Industry', 'Name'])
richest

In [None]:
# 기본 unstack(level=-1)


In [None]:
# 지정 unstack(level=0)


- 기존 열은 level 0
- unstack()으로 지정된 index는 level 1
- 교차가 되지 않는 값은 NA로 지정된다.

In [None]:
# 특정 산업에 대한 정보만 확인


In [None]:
# 물론 이렇게 특정 분야의 데이터를 확인할 수 있다.


In [None]:
# 이를 stack()하면 조금 차이가 있다.
