## 데이터 셋
- [sample1.csv](https://docs.google.com/spreadsheets/d/1u6v9RclTm7_V-YgSvDT-OFVyHiLgDnXIHyE5iqxQLr0/edit?usp=sharing) - 학업성취도
- [sample2.csv](https://docs.google.com/spreadsheets/d/1Hb3FObTwaKLZQHv5bDFP2lx1kxFyrz94o95Cw0xXNQ8/edit?usp=sharing) - 연도별사원성과
- [sample3.csv](https://docs.google.com/spreadsheets/d/1YdCJa7uKjb8k7nsonZSQ8O2OYgdkRDEvr_oKOher-wM/edit?usp=sharing) - 역대한국야구순위

In [1]:
import pandas as pd

## melt()
- https://pandas.pydata.org/docs/reference/api/pandas.melt.html
- 넓은 형식으로 구성된 데이터프레임을 긴 형식으로 변환하여 데이터를 재구성
- 함수를 사용하면 하나 이상의 열을 식별자 변수(`id_vars`)로 설정하고, 나머지 열인 측정 변수(`value_vars`)를 행 방향으로 언피벗하여 두 개의 비-식별자 열인 `variable`과 `value`만 남게 되는 형태로 데이터프레임을 변환


### pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)
**Parameters**  
`id_vars` : tuple, list, or ndarray, optional  
Column(s) to use as identifier variables.
식별자 변수로 사용할 열을 지정하는 매개변수

`value_vars` : tuple, list, or ndarray, optional  
Column(s) to unpivot. If not specified, uses all columns that are not set as id_vars.  
언피벗할 열을 지정하는 매개변수. 지정하지 않으면 id_vars로 설정되지 않은 모든 열이 사용.

`var_name` : scalar  
Name to use for the ‘variable’ column. If None it uses frame.columns.name or ‘variable.  
'variable' 열에 사용할 이름을 지정하는 매개변수. None이면 frame.columns.name 또는 'variable'가 사용됨

`value_name` : scalar, default ‘value’  
Name to use for the ‘value’ column.  
 'value' 열에 사용할 이름을 지정하는 매개변수. 기본값은 'value'

`col_level` : int or str, optional  
If columns are a MultiIndex then use this level to melt.  
열이 MultiIndex인 경우 해당 레벨을 사용하여 언피벗하는 매개변수.

`ignore_index` : bool, default True  
If True, original index is ignored. If False, the original index is retained. Index labels will be repeated as necessary.  
True로 설정하면 원래의 인덱스가 무시. False로 설정하면 원래의 인덱스가 유지. 필요에 따라 인덱스 레이블이 반복.

**Returns**  
DataFrame : Unpivoted DataFrame.

## 언비펏..? Unpivot..?
데이터프레임의 구조를 변형하여 wide(넓은) 형식에서 long(긴) 형식으로 데이터를 재구성하는 작업

일반적으로 wide(넓은) 형식의 데이터 프레임은
- 각 행이 고유한 식별자를 가지고 있고, 
- 각 열은 실제 관측값이 있는 열로 구성. 

반대로 long 형식의 데이터프레임은 
- 각 행이 하나의 관측값을 가지고 있고
- 식별자 변수와 측정 변수를 나타내는 열로 구성

그래서 Unpivot 작업이란
- 데이터프레임에서 측정 변수를 열에서 행 방향으로 이동시켜 long 형식으로 변환하는 것을 의미
- 이를 통해 데이터의 구조를 변경, 분석, 시각화 작업에 더 적합한 형태로 데이터를 재구성

## 간단한 예제 실습

In [3]:
# 예시 데이터 생성
data = {
    '이름': ['Spencer', 'Lune', 'Mark'],
    '국어': [66, 90, 95],
    '영어': [77, 80, 65],
    '수학': [99, 80, 75]
}

df = pd.DataFrame(data)

In [5]:
df

Unnamed: 0,이름,국어,영어,수학
0,Spencer,66,77,99
1,Lune,90,80,80
2,Mark,95,65,75


In [7]:
# wide 형식 데이터프레임 출력
df

Unnamed: 0,이름,국어,영어,수학
0,Spencer,66,77,99
1,Lune,90,80,80
2,Mark,95,65,75


In [15]:
# long형식 데이터프레임 출력 sql의 조인개념

df.melt(id_vars=['이름'], value_vars=['국어','영어','수학'], var_name='과목', value_name='점수')

Unnamed: 0,이름,과목,점수
0,Spencer,국어,66
1,Lune,국어,90
2,Mark,국어,95
3,Spencer,영어,77
4,Lune,영어,80
5,Mark,영어,65
6,Spencer,수학,99
7,Lune,수학,80
8,Mark,수학,75


- melt() 함수를 사용하여 wide 형식의 데이터프레임을 long 형식으로 변환
    1. `id_vars` 매개변수에 `'이름'`을 지정하여 식별자 변수로 설정 
    1. `value_vars` 매개변수에 `['국어', '영어', '수학']`를 지정하여 언피벗할 열을 선택
    1. `var_name` 매개변수에 '과목'을, `value_name` 매개변수에 '점수'를 지정하여 열 이름을 변경
- 변환된 long 형식의 데이터프레임은 각 행이 하나의 관측값을 가지며, 이름, 과목, 점수 열로 구성
- 보다 유연하게 데이터를 분석하거나 시각화하는 등의 작업을 수행할 수 있다.

In [17]:
# 만일 value_vars를 누락시키면?
df.melt(id_vars=['이름'], var_name='과목', value_name='점수')

Unnamed: 0,이름,과목,점수
0,Spencer,국어,66
1,Lune,국어,90
2,Mark,국어,95
3,Spencer,영어,77
4,Lune,영어,80
5,Mark,영어,65
6,Spencer,수학,99
7,Lune,수학,80
8,Mark,수학,75


## 복잡한 데이터 실습

In [19]:
# sample3.csv - 역대한국야구순위
league=pd.read_csv('sample3.csv')
league

Unnamed: 0,팀이름,2017,2018,2019,2020,2021
0,NC 다이노스,4,10,5,1,7
1,두산 베어스,2,2,1,2,2
2,KT 위즈,10,9,6,3,1
3,LG 트윈스,6,8,4,4,4
4,키움 히어로즈,7,4,2,5,5
5,KIA 타이거즈,1,5,7,6,9
6,롯데 자이언츠,3,8,10,7,8
7,삼성 라이온즈,9,7,8,8,3
8,SSG 랜더스,5,1,3,9,6
9,한화 이글스,8,3,9,10,10


In [21]:
league.melt(id_vars='팀이름', value_vars=['2017','2018','2019','2020','2021'], var_name='시즌', value_name='순위')

Unnamed: 0,팀이름,시즌,순위
0,NC 다이노스,2017,4
1,두산 베어스,2017,2
2,KT 위즈,2017,10
3,LG 트윈스,2017,6
4,키움 히어로즈,2017,7
5,KIA 타이거즈,2017,1
6,롯데 자이언츠,2017,3
7,삼성 라이온즈,2017,9
8,SSG 랜더스,2017,5
9,한화 이글스,2017,8


In [27]:
# 코드 정리
cols=league.columns.drop('팀이름')

In [29]:
league.melt(id_vars='팀이름' , value_vars=cols)

Unnamed: 0,팀이름,variable,value
0,NC 다이노스,2017,4
1,두산 베어스,2017,2
2,KT 위즈,2017,10
3,LG 트윈스,2017,6
4,키움 히어로즈,2017,7
5,KIA 타이거즈,2017,1
6,롯데 자이언츠,2017,3
7,삼성 라이온즈,2017,9
8,SSG 랜더스,2017,5
9,한화 이글스,2017,8
