# 정돈된 데이터 (Tidy data) 개요
대부분 실행환경에서의 많은 데이터 셋은 세부적 분석을 작업을 하기 전에 상당한 양의 데이터 재구성을 할 필요가 있다. 경우에 따라서는 전체 프로젝트 자체가 오로지 다른 사람들이 가공하기 쉬운 형태로 데이터를 재구성하는 일일 때도 있다.

데이터 재구성의 목적은 **정돈된 데이터-tidy data-**를 만드는 것이다.     
tidy data란 용어는 해들리 위컴이 분석이 용이한 형태로 구성되 있는 데이터셋을 설명하기 위해 만든 용어이다. [논문 링크](http://vita.had.co.nz/papers/tidy-data.pdf)

## 정돈된 데이터란?
- 각 변수(데이터의 속성)는 열을 형성한다.
- 각 관측값(하나의 데이터)은 행을 형성한다.
- 각 관측 단위별(데이터 Entity)로 별도의 테이블(표)을 구성한다. => 단일 관측

### 변수, 관측값, 관측단위
- 변수: Feature, 컬럼
- 변수 이름: 성별, 인종, 연봉, 직위 같은 레이블
- 변수 값  
    - 관측 때마다 달라지는 값
    - 성: 남성/여성
    - 인종: 황인/흑인/백인
    - 연봉: 삼천만원, 4천만원...
- 단일 관측
    - 하나의 Entity, 하나의 데이터를 말한다. => 이것을 **단일 관측 단위**라고 한다.
        - DataFrame(Pandas), Table(데이터베이스), 표(엑셀)로 표현된다.
    - 단일 관측 대상은 여러개의 속성들로 구성되며 그 속성을 변수,Feature, 컬럼이라고 한다.
        - 단일 관측은 하나의 데이터 대한 모든 변숫값의 모음
        - 관측(관찰) 대상의 단위 => 하나의 데이터 => 변수들로 구성됨
    - ex) 종업원, 손님, 제품 ..
        - **종업원정보(근무시간같은)와 고객정보(구매 액수)를 같은 테이블에 병합하는 것은 단일 관측이라 할수 없다.** -> **정돈된 데이터의 원칙에 위배된다.**
    

### 정돈되지 않은 데이터의 가장 흔한 형태
1. 열 이름이 변수 이름이 아니라 값인 경우
1. 열 이름에 복수 개의 변수가 저장된 경우
1. 변수가 행과 열에 모두 저장된 경우
1. 같은 테이블에 복수 형식의 관측단위가 저장된 경우
    - 하나의 테이블에 여러 데이터(관측단위)가 병합된 것
1. 단일 관측 단위가 복수 테이블에 저장된 경우
    - 하나의 데이터의 변수들이 여러 테이블에 나눠 저장된 경우
    
## 데이터를 정돈한다의 의미
단순히 데이터셋의 값을 바꾸거나 결측치를 채운다는 것만을 말하지 않는다. 데이터를 정돈하는 것은 데이터의 형태나 구조를 정돈 원칙에 맞게 변형시키는 것이다. -> **데이터가 올바른 형태로 주어진다면 분석이 쉬워진다.**

## [Pandas의 정돈을 위한 메소드](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html)
- stack()
- melt()
- unstack()
- pivot()
- pivot_table()
- 텍스트 분해를 위한 str accessor
- 정돈된 데이터를 다듬는 메소드
    - rename()
    - rename_axis()
    - reset_index()
    - set_index() 

# [stack()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html)
- 컬럼명을 index(행명)으로 전환
    - 기존 index가 있으면 하위 레벨로 들어간다. (기존 것이 상위 레벨)
- 컬럼명을 컬럼의 값으로 전치시킬때도 사용할 수 있다.
- 매개변수
    - dropna=False : stacking 시 생성되는 NA(결측치)는 제거되지 않게 한다. (default: True => 제거)


In [1]:
import pandas as pd

state_fruit = pd.read_csv('data/state_fruit.csv', 
                          index_col=0) # 0번째 컬럼을 index명으로 사용
state_fruit

# Apple, Orange, Banana => 컬럼이 아니라 컬럼의 값 => 값이 의미하는 것을 알수가 없다.

Unnamed: 0,Apple,Orange,Banana
Texas,12,10,40
Arizona,9,7,12
Florida,0,14,190


In [3]:
s1 = state_fruit.stack()
s1.to_csv('test.csv')

In [4]:
s1

Texas    Apple      12
         Orange     10
         Banana     40
Arizona  Apple       9
         Orange      7
         Banana     12
Florida  Apple       0
         Orange     14
         Banana    190
dtype: int64

In [8]:
# s1을 DataFrame으로 변환
# Series 를 DataFrame으로 변환: series.to_frame()
# s1.to_frame()  #컬럼이 하나인 DataFrame
s1.to_frame(name='price')

Unnamed: 0,Unnamed: 1,price
Texas,Apple,12
Texas,Orange,10
Texas,Banana,40
Arizona,Apple,9
Arizona,Orange,7
Arizona,Banana,12
Florida,Apple,0
Florida,Orange,14
Florida,Banana,190


In [5]:
# DataFrame의 index를 컬럼으로 변환 (Texas, Arizona, Florida, Apple, Orange, Banana=> 값)
state_fruit_tidy = s1.to_frame(name='price').reset_index()
state_fruit_tidy.rename(columns={'level_0':'state', 'level_1':'fruit'}, inplace=True)  #컬럼명 변경
state_fruit_tidy

Unnamed: 0,state,fruit,price
0,Texas,Apple,12
1,Texas,Orange,10
2,Texas,Banana,40
3,Arizona,Apple,9
4,Arizona,Orange,7
5,Arizona,Banana,12
6,Florida,Apple,0
7,Florida,Orange,14
8,Florida,Banana,190


# [unstack()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unstack.html)
- stack() 반대로 index를 컬럼으로 변환한다.
- 매개변수 
    - level: multi-index일 경우 컬럼으로 만들 레벨을 지정한다. 기본값은 -1 로 가장 안쪽의 index를 이동시킨다.

In [6]:
s = state_fruit_tidy.set_index(['state', 'fruit'])  # 두개 이상의 컬럼을 index명으로 만들경우 리스트에 컬럼명들을 묶어서 전달.
s

Unnamed: 0_level_0,Unnamed: 1_level_0,price
state,fruit,Unnamed: 2_level_1
Texas,Apple,12
Texas,Orange,10
Texas,Banana,40
Arizona,Apple,9
Arizona,Orange,7
Arizona,Banana,12
Florida,Apple,0
Florida,Orange,14
Florida,Banana,190


In [19]:
s.unstack()

Unnamed: 0_level_0,price,price,price
fruit,Apple,Banana,Orange
state,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Arizona,9,12,7
Florida,0,190,14
Texas,12,40,10


# [melt()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.melt.html) - 컬럼명을 컬럼의 값으로 변환한다.

- stack()과 같이 컬럼 명을 단일 컬럼의 값으로 변환한다.
- 변환할 컬럼들을 지정할 수 있어 stack()보다 더 유연하다.


## 매개변수
- id_vars: 값으로 변환하지 않고 그대로 유지하고자 하는 컬럼명(열이름)들의 리스트
    - *식별변수*라고도 한다.
    - 지정한 변수(컬럼)은 같은 열에 남게 되지만, value_vars에 전달된 각 열에 대해 반복적으로 나타난다.
- value_vars: 단일 컬럼의 값으로 변경하고자 하는 컬럼명 리스트
    - value_vars에 지정한 컬럼이 value가 되고 그 컬럼의 값들은 다른 컬럼으로 생성된다.
    - id_vars와 value_vars에 **지정 안된** 컬럼은 제거된다.
        - 제거 되지 않고 **단독 컬럼으로 유지되길 바라는 컬럼은 id_vars**로 지정한다.
- var_name: value_vars로 단일열이 된 열의 이름 지정(지정 안하면 컬럼명은 **variable**)
- value_name: value_vars에 지정된 열들의 값들이 변환된 컬럼의 이름 지정(지정안하면 컬럼명은 **value**)


>
> - melt 한 경우 **index명은 무시된다.** => RangeIndex로 대체된다.
>    - index를 유지하려면 **reset_index**를 이용해 value로 뺀 뒤 해야 한다.
> - stack은 열이름을 index명으로 정돈(변경) 한다.
        

In [12]:
sf.columns[0]

'Unnamed: 0'

In [13]:
import pandas as pd

sf = pd.read_csv('data/state_fruit.csv')
sf.rename(columns={sf.columns[0]:'state'}, inplace=True)
sf


Unnamed: 0,state,Apple,Orange,Banana
0,Texas,12,10,40
1,Arizona,9,7,12
2,Florida,0,14,190


In [14]:
# column명: Apple, Orange, Banana => 컬럼의 값 , state 컬럼은 그대로 유지
sf.melt(id_vars=['state'],   # 컬럼으로 유지될 컬럼명
        value_vars=['Apple', 'Orange', 'Banana'],  # 컬럼의 값으로 만들 컬럼명. 
       )

Unnamed: 0,state,variable,value
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


In [15]:
# value_vars와 id_vars 에 지정하지 않은 컬럼들은 제거된다.
sf.melt(id_vars=['state'], value_vars=['Apple', 'Orange'])

Unnamed: 0,state,variable,value
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14


In [18]:
state_fruit_melt = sf.melt(id_vars=['state'], value_vars=['Apple', 'Orange', 'Banana'],
                    var_name='fruits', #value_var에 지정한 컬럼명을 값으로  가지는 컬럼의 이름
                    value_name='price' # value_var에 지정한 컬럼들의 값들을 가지는 컬럼의 이름
                   )
state_fruit_melt

Unnamed: 0,state,fruits,price
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


# pivot - index, column, value가 될 컬럼들을 지정해 재구조화
- 데이터프레임 재구조화가 목적
- 데이터 프레임에서 두개이상의 범주형 변수를 그룹으로 묶어 특정 값을 보려고 할때 사용할 수 있다.
    - pivot_table은 그룹으로 묶은 뒤 특정 변수의 통계량을 본다면 pivot은 그 값을 그대로 본다.
- melt()된 것을 원상복구 시킬때도 사용할 수 있다.

## pivot 매개변수
- index: 문자열. 행이름으로 사용할 컬럼 -> 열이 index로 이동하는 형태가 된다.
- columns: 문자열. 컬럼명으로 사용할 컬럼
- values : Value에 올 컬럼명

In [19]:
state_fruit_melt

Unnamed: 0,state,fruits,price
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


In [20]:
df = state_fruit_melt.pivot(index='state', #state 컬럼의 고유값들을 index명으로 만든다.
                            columns='fruits',#fruits 컬럼의 고유값들을 columns 명으로 만든다.
                            values='price'   #dataframe의 값으로 price 컬럼의 값들을 사용. (state-fruits의 같은 행의 price값을 cross하는 cell의 값으로 넣는다.)
                           )
df

fruits,Apple,Banana,Orange
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Arizona,9,12,7
Florida,0,190,14
Texas,12,40,10
