# Restructuring Data into Tidy Form
## 정돈된 형태로 데이터 재구성

### Stack, melt, unstack, pivot

- 정돈된 데이터를 발견하면 pandas 도구를 사용해 데이터를 재구성해야 정돈해야 한다. pandas 에서 정돈을 위해 제공하는 주요 도구는 DataFrame 메서드인 stack, melt, unstack, pivot 이다. 

### rename, rename_axis, reset_index, set_index

- 보다 복잡한 정돈은 텍스트를 완전히 분해해야 한다. str 액세서가 필요다. rename, rename_axis, reset_index, set_index 같은 다른 헬퍼 메서드는 정돈된 데이터를 마지막으로 다듬는 데 도움이 된다.

## 8.1 stack 을 이용해 변숫값을 변수 이름으로 정돈

In [26]:
import pandas as pd 
import numpy as np

path = 'C:/Users/HS/Documents/GitHub/Python-Study/Pandas-Cookbook/data'

In [28]:
state_fruit = pd.read_csv(path + '/state_fruit.csv', index_col = 0)
state_fruit

Unnamed: 0,Apple,Orange,Banana
Texas,12,10,40
Arizona,9,7,12
Florida,0,14,190


### 방법  
1. 주 이름이 DataFrame 의 인덱스라는 점에 주목.  
이 주들은 수직으로 잘 위치해 있어서 재구성할 필요가 없다. 
문제는 열 이름이다. stack 메서드는 모든 열 이름을 받아 단일 인덱스 라벨로 수직으로 재구성한다. 

In [14]:
# stack 메서드는 모든 열 이름을 받아 단일 인덱스 라벨로 수직으로 재구성
state_fruit.stack()

Texas    Apple      12
         Orange     10
         Banana     40
Arizona  Apple       9
         Orange      7
         Banana     12
Florida  Apple       0
         Orange     14
         Banana    190
dtype: int64

2. 이제 MultiIndex 를 가진 Series 가 만들어졌다. 인덱스는 이제 2 레벨이다. 원래의 인덱스는 이전 열 이름을 위한 공간을 만들어주기 위해 왼쪽으로 밀려났다.  
이 명령어 하나를 통해 이제 근본적으로 정돈된 데이터가 형성됐다. 각 변수, 주, 과일, 몸무게는 수직이다. reset_index 메서드를 사용해 결과를 DataFrame 으로 바꿔보자.

In [18]:
state_fruit_tidy = state_fruit.stack().reset_index()
state_fruit_tidy

Unnamed: 0,level_0,level_1,0
0,Texas,Apple,12
1,Texas,Orange,10
2,Texas,Banana,40
3,Arizona,Apple,9
4,Arizona,Orange,7
5,Arizona,Banana,12
6,Florida,Apple,0
7,Florida,Orange,14
8,Florida,Banana,190


3. 이제 구조는 올바르지만 열 이름이 무의미하다. 이를 적절한 식별자로 바꾸자.

In [20]:
state_fruit_tidy.columns = ['state', 'fruit', 'weight']
state_fruit_tidy

Unnamed: 0,state,fruit,weight
0,Texas,Apple,12
1,Texas,Orange,10
2,Texas,Banana,40
3,Arizona,Apple,9
4,Arizona,Orange,7
5,Arizona,Banana,12
6,Florida,Apple,0
7,Florida,Orange,14
8,Florida,Banana,190


4. 열 속성을 변경하는 대신 다소 덜 알려져 있지만, rename_axis Series 메서드를 사용해 reset_index 를 사용하기 전에 인덱스 이름을 설정할 수 있다. 

In [25]:
state_fruit.stack().rename_axis(['state', 'fruit']).reset_index(name = 'weight')

Unnamed: 0,state,fruit,weight
0,Texas,Apple,12
1,Texas,Orange,10
2,Texas,Banana,40
3,Arizona,Apple,9
4,Arizona,Orange,7
5,Arizona,Banana,12
6,Florida,Apple,0
7,Florida,Orange,14
8,Florida,Banana,190


## 추가 사항 

In [29]:
state_fruit2 = pd.read_csv(path + '/state_fruit2.csv', index_col = 0)
state_fruit2

Unnamed: 0_level_0,Apple,Orange,Banana
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Texas,12,10,40
Arizona,9,7,12
Florida,0,14,190


In [35]:
state_fruit2.index

Index(['Texas', 'Arizona', 'Florida'], dtype='object', name='State')

In [36]:
state_fruit2.stack()

State          
Texas    Apple      12
         Orange     10
         Banana     40
Arizona  Apple       9
         Orange      7
         Banana     12
Florida  Apple       0
         Orange     14
         Banana    190
dtype: int64

## 8.2 melt 를 사용해 변숫값을 열 이름으로 정돈

In [48]:
# 변환이 필요한 열을 파악한다. 
state_fruit2.reset_index()

Unnamed: 0,State,Apple,Orange,Banana
0,Texas,12,10,40
1,Arizona,9,7,12
2,Florida,0,14,190


In [49]:
state_fruit2.reset_index().melt(id_vars = ['State'],
                                value_vars = ['Apple', 'Orange', 'Banana'])

Unnamed: 0,State,variable,value
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


In [50]:
state_fruit2.reset_index().melt(
                            id_vars = ['State'],  # id_vars 는 재구성하지 않고 열로서 유지하고 싶은 이름의 리스트
                            value_vars = ['Apple', 'Orange', 'Banana'],  # value_vars 는 단일 열로 재구성하고 싶은 열들의 이름을 가진 리스트
                            var_name = 'Fruit',   
                            value_name = 'Weight') 

Unnamed: 0,State,Fruit,Weight
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


In [51]:
state_fruit2.melt()

Unnamed: 0,variable,value
0,Apple,12
1,Apple,9
2,Apple,0
3,Orange,10
4,Orange,7
5,Orange,14
6,Banana,40
7,Banana,12
8,Banana,190


In [56]:
state_fruit2.reset_index().melt(id_vars = 'State')

Unnamed: 0,State,variable,value
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


## 추가사항

wide_to_long 함수는 변수 그룹의 이름이 이 레시피에서처럼 모두 동일한 수치로 끝날 때 작동한다.

In [57]:
df = pd.read_csv(path + '/stackme.csv', index_col = 0)
df

Unnamed: 0_level_0,Country,a1,b2,Test,d,e
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
TX,US,0.45,0.3,Test1,2,6
MA,US,0.03,1.2,Test2,9,7
ON,CAN,0.7,4.2,Test3,4,2


In [59]:
df2 = df.rename(columns = {'a1' : 'group1_a1', 'b2' : 'group1_b2', 
                           'd' : 'group2_a1', 'e' : 'group2_b2'})
df2

Unnamed: 0_level_0,Country,group1_a1,group1_b2,Test,group2_a1,group2_b2
State,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
TX,US,0.45,0.3,Test1,2,6
MA,US,0.03,1.2,Test2,9,7
ON,CAN,0.7,4.2,Test3,4,2
