# 정돈된 데이터 (Tidy data) 개요
대부분 실행환경에서의 많은 데이터 셋은 세부적 분석을 작업을 하기 전에 상당한 양의 데이터 재구성을 할 필요가 있다. 경우에 따라서는 전체 프로젝트 자체가 오로지 다른 사람들이 사용하기 쉬운 형태로 데이터를 재구성하는 일일 경우도 있다.

데이터 재구성의 목적은 **정돈된 데이터(tidy data)** 를 만드는 것이다.     
Tidy data란 용어는 해들리 위컴이 **분석이 용이한 형태로 구성되 있는 데이터셋**을 설명하기 위해 만든 용어이다. [논문 링크](http://vita.had.co.nz/papers/tidy-data.pdf)

In [2]:
#걍 한마디로, 여러가지 데이터를 모으다 보니, 결측치나 빠진 데이터가 생길 수 밖에 없는데, 이를 정리하기 위한 것이다.
#데이터를 모으다 보면, 어쩔 수 없이 중복된 데이터가 생길 수 밖에 없다.
#데이터는 관리는 따로따로 하다가, 합쳐야 할 때, 그 때만 집합시켜서 데이터를 합쳐야 한다.

## 정돈된 데이터란?
- 각 **변수**(데이터의 속성)는 열을 형성한다.
- 각 **관측값**(하나의 데이터)은 행을 형성한다.
- 각 **관측 단위별**로 별도의 테이블(표)을 구성한다. 
    - 단일 관측

### 변수, 관측값, 관측단위
- **변수**
    - Feature, 컬럼, 속성
    - 데이터를 구성하는 요소들
    - **변수 이름**
        - 성별, 인종, 연봉, 직위 같은 레이블
    - **변수 값** 
        - 관측 때마다 달라지는 값
            - 각 변수가 가질 수 있는 값
        - 예
            - 성: 남성/여성 (범주형)
            - 인종: 황인/흑인/백인
            - 연봉: 삼천만원, 사천만원...
            - 키: 100.0 ~ 250.0 (연속형)

- **단일 관측**
    - 하나의 관측단위, 하나의 데이터를 말한다.
        - DataFrame(Pandas), Table(데이터베이스), Table(엑셀)로 표현된다.
    - 단일 관측 대상은 여러개의 속성들로 구성되며 그 속성을 변수라고 한다.
        - 단일 관측은 하나의 데이터 대한 모든 변수(속성)들의 모음
    - 예)
        - 고객, 제품, 계좌
    - **종업원정보(근무시간같은)와 고객정보(구매 액수)를 같은 테이블에 병합하는 것은 단일 관측이라 할수 없다.** -> **정돈된 데이터의 원칙에 위배된다.**
    

In [3]:
#단일 관측을 위배하면, 데이터가 더러워질 가능성이 높기 때문에 좋지 않다.


## 정돈되지 않은 데이터의 가장 흔한 형태
1. 열 이름이 변수 이름이 아니라 값인 경우
1. 열 이름에 복수 개의 변수가 저장된 경우
1. 변수가 행과 열에 모두 저장된 경우
1. 같은 테이블에 복수의 관측단위가 저장된 경우
    - 하나의 테이블에 여러 데이터(관측단위)가 병합된 것
1. 단일 관측 단위가 복수 테이블에 저장된 경우
    - 하나의 데이터의 변수들이 여러 테이블에 나눠 저장된 경우

In [5]:
#약간 뒷담이긴 한데 공공데이터가 이런 결측치가 많다 ㅋㅋㅋ
#위의 형식대로 데이터가 되지 않도록 잘 바꿔줘야 한다잉.

    
### 데이터를 정돈한다의 의미
단순히 데이터셋의 값을 바꾸거나 결측치를 채운다는 것만을 말하지 않는다. 데이터를 정돈하는 것은 데이터의 형태나 구조를 정돈 원칙에 맞게 변형시키는 것이다. 
- **데이터가 올바른 형태로 주어진다면 분석이 쉬워진다.** (당연한 건데, 간과하기 쉬운 것이다.)
- 다양한 형태의 조회에 적용할 수 있도록 데이터셋을 만들어 준다.

# [DataFrame의 구조 변경을 위한 메소드](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html)
- stack()
- melt()
- unstack()
- pivot()
- pivot_table()
- crosstab()
- 텍스트 분해를 위한 str accessor
- 정돈된 데이터를 다듬는 메소드
    - rename()
    - rename_axis()
    - reset_index()
    - set_index() 

## [stack()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html)
- 컬럼명을 index(행명)으로 전환
    - 기존 index가 있으면 하위 레벨로 들어간다. (기존 것이 상위 레벨)
- 컬럼명을 컬럼의 값으로 전치시킬때도 사용할 수 있다.
- 매개변수
    - dropna=False : 처리 시 생성되는 NA(결측치)는 제거되지 않게 한다. (default: True => 제거)


In [3]:
import pandas as pd
import numpy as np

df = pd.read_csv("saved_data/state_fruit.csv",index_col=0)

In [4]:
df

Unnamed: 0,Apple,Orange,Banana
Texas,12,10,40
Arizona,9,7,12
Florida,0,14,190


In [9]:
#stack을 적극적으로 사용해보자.
#column을 index로 만들어준다.
#dataframe을 series로 만들어준다.
s1=df.stack()

s2=s1.to_frame("count") #series를 dataframe으로 바꿔준다.
#count로 값의 컬럼명을 명명한다.
#arg로 문자열 ->컬럼명.(생략시 0이 된다.)

s2

Unnamed: 0,Unnamed: 1,count
Texas,Apple,12
Texas,Orange,10
Texas,Banana,40
Arizona,Apple,9
Arizona,Orange,7
Arizona,Banana,12
Florida,Apple,0
Florida,Orange,14
Florida,Banana,190


In [12]:
tidy_df = s2.reset_index() #index name을 컬럼으로 변경한다.

tidy_df.columns = ["state","fruit","count"]
tidy_df #이런 식으로 데이터를 변경할 수 있다.

Unnamed: 0,state,fruit,count
0,Texas,Apple,12
1,Texas,Orange,10
2,Texas,Banana,40
3,Arizona,Apple,9
4,Arizona,Orange,7
5,Arizona,Banana,12
6,Florida,Apple,0
7,Florida,Orange,14
8,Florida,Banana,190


In [20]:
#rename_axis는 index 축의 이름, column의 축의 이름을 변경할 때 쓴다. (index/column 이름의 이름)
#변경을 해서 변한 사항을 잘 보도록 하자.
#rename_axis와 reset_index을 하는 것과 안하는 것의 차이를 잘 보도록 하자. 그 차이를 보면 잘 이해가 갈 것이다.
df.stack().rename_axis(["state","fruit"]).reset_index(name="count")

Unnamed: 0,state,fruit,count
0,Texas,Apple,12
1,Texas,Orange,10
2,Texas,Banana,40
3,Arizona,Apple,9
4,Arizona,Orange,7
5,Arizona,Banana,12
6,Florida,Apple,0
7,Florida,Orange,14
8,Florida,Banana,190


## unstack()
- stack() 반대로 index를 컬럼으로 변환한다.
- 매개변수 
    - level: multi-index일 경우 컬럼으로 만들 레벨을 지정한다. 기본값은 -1 로 가장 안쪽의 index를 이동시킨다.

In [21]:
s = tidy_df.set_index(['state','fruit'])
s.unstack()
s.unstack(level=0)

Unnamed: 0_level_0,count,count,count
state,Arizona,Florida,Texas
fruit,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Apple,9,0,12
Banana,12,190,40
Orange,7,14,10


In [25]:
#droplevel==>컬럼이나 index 명이 multi index일 때 특정 level의 것을 제거하는 메소드.
s.unstack().droplevel(level=0,axis=1)
#stack의 반대가 바로 unstack이다.

fruit,Apple,Banana,Orange
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Arizona,9,12,7
Florida,0,190,14
Texas,12,40,10


## [melt()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.melt.html) - 컬럼명을 컬럼의 값으로 변환한다.

- 컬럼 명을 단일 컬럼의 값으로 변환한다.
- 변환할 컬럼들을 지정할 수 있어 stack()보다 더 유연하다.


### 매개변수
- **id_vars**: 값으로 변환하지 않고 그대로 유지하고자 하는 컬럼명(열이름)들의 리스트
    - *식별변수*라고도 한다.
    - 지정한 변수(컬럼)은 같은 열에 남게 되지만, value_vars에 전달된 각 열에 대해 반복적으로 나타난다.
- **value_vars**: 단일 컬럼의 값으로 변경하고자 하는 컬럼명 리스트
    - value_vars에 지정한 컬럼이 value가 되고 그 컬럼의 값들은 다른 컬럼으로 생성된다.
    - id_vars를 지정하지 않고 value_vars만 지정하면 value_vars에 **지정 안된** 컬럼은 제거된다.
        - 제거 되지 않고 **단독 컬럼으로 유지되길 바라는 컬럼은 id_vars**로 지정한다.
- **var_name**: value_vars로 단일열이 된 열의 이름 지정(지정 안하면 컬럼명은 **variable**)
- **value_name**: value_vars에 지정된 열들의 값들이 변환된 컬럼의 이름 지정(지정안하면 컬럼명은 **value**)


>
> - melt 한 경우 **index명은 무시된다.** => RangeIndex로 대체된다.
>    - index를 유지하려면 **reset_index**를 이용해 value로 뺀 뒤 해야 한다.
> - stack은 열이름을 index명으로 정돈(변경) 한다.
        

In [30]:
df2=df.rename_axis(index="state").reset_index()

df2

Unnamed: 0,state,Apple,Orange,Banana
0,Texas,12,10,40
1,Arizona,9,7,12
2,Florida,0,14,190


In [33]:
#melt메소드는 어떻게 쓰는지, 이 예시를 잘 보면서 감을 잡아 보자.
#특히, 바로 윗 셀과 잘 비교해보면서 감을 잡아보자.

#state: 유지
df2.melt(id_vars=["state"],#컬럼으로 그대로 유지
        value_vars=["Apple","Orange","Banana"]) #컬럼의 값으로 내릴 컬럼명들을 지정한다.

Unnamed: 0,state,variable,value
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


In [36]:
#var_name과 value_name도 잘 살펴보면 좋다.
df2.melt(id_vars=["state"],#컬럼으로 그대로 유지
        value_vars=["Apple","Orange","Banana"],#컬럼의 값으로 내릴 컬럼명들을 지정한다.
        var_name="fruit", #컬럼명을 값으로 가지는 컬럼의 이름을 정한다. 생략 시 variable로 정해진다.
        value_name="count") #값들을 값으로 가지는 컬럼의 이름. (생략 시 value) 


Unnamed: 0,state,fruit,count
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


In [39]:
#id_vars을 생략하면 value_vars에 지정한 컬럼 이외의 것들은 제거가 된다. (state,banana가 제거됨.)
df2.melt(value_vars=['Apple','Orange'])

Unnamed: 0,variable,value
0,Apple,12
1,Apple,9
2,Apple,0
3,Orange,10
4,Orange,7
5,Orange,14


In [46]:
#id_vars만 설정을 하면, id_vars에 지정이 안된 모든 컬럼들이 variable의 값으로 들어간다.
df2.melt(id_vars=['state'])
df3=df2.melt(id_vars=['state'])
df3

Unnamed: 0,state,variable,value
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


In [48]:
df3.columns = ['state','fruit','count']
df3

Unnamed: 0,state,fruit,count
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


In [51]:
df3.pivot_table(index="state",columns="fruit",values="count")
#pivot_table을 어떻게 하는지, 예시의 코드를 잘 보면서 숙지하자.

fruit,Apple,Banana,Orange
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Arizona,9,12,7
Florida,0,190,14
Texas,12,40,10


In [52]:
#위의 코드의 결과와 표와, 원본을 잘 확인하자.

df3

Unnamed: 0,state,fruit,count
0,Texas,Apple,12
1,Arizona,Apple,9
2,Florida,Apple,0
3,Texas,Orange,10
4,Arizona,Orange,7
5,Florida,Orange,14
6,Texas,Banana,40
7,Arizona,Banana,12
8,Florida,Banana,190


## pivot - index, column, value가 될 컬럼들을 지정해 재구조화
- 데이터프레임 재구조화가 목적
- 데이터 프레임에서 두개이상의 범주형 변수를 그룹으로 묶어 특정 값을 보려고 할때 사용할 수 있다.
    - pivot_table은 그룹으로 묶은 뒤 특정 변수의 통계량을 본다면 pivot은 그 값을 그대로 본다.
- melt()된 것을 원상복구 시킬때도 사용할 수 있다.

### pivot 매개변수
- **index**: 문자열. 행이름으로 사용할 컬럼 -> 열이 index로 이동하는 형태가 된다.
- **columns**: 문자열. 컬럼명으로 사용할 컬럼
- **values** : Value에 올 컬럼명

## crosstab()
- 범주형 값들 고유값 별 빈도표를 만든다.

### 매개변수
- **index**: 행에 들어올 1차원 배열
- **columns**: 열에 들어올 1차원 배열
- **rownames**: index 이름 지정. 생략하면 index의 고유값들로 설정된다.
- **colnames**: column 이름 지정. 생략하면 columns의 고유값들로 설정된다.
- **margins**: 총합계 행과 열을 추가할지 여부. True-추가, False-추가안함(기본값)
- **normalize**: 빈도수를 비율로 나타낸다.

In [53]:
#값을 10개를 넣을 것이다. (학생,자영업,회사원)
job = ['학생','자영업','자영업','회사원','회사원','학생','학생','학생','자영업','회사원']

In [56]:
pass1 = ['pass','fail','fail','fail','pass','pass','pass','pass','fail','pass']

In [58]:
df=pd.DataFrame({
    "job":job,
    "pass":pass1
})

In [59]:
df

Unnamed: 0,job,pass
0,학생,pass
1,자영업,fail
2,자영업,fail
3,회사원,fail
4,회사원,pass
5,학생,pass
6,학생,pass
7,학생,pass
8,자영업,fail
9,회사원,pass


In [60]:

#crosstab에 관한 코드. 잘 파악하기!
pd.crosstab(index=df['job'],columns=df['pass'])

pass,fail,pass
job,Unnamed: 1_level_1,Unnamed: 2_level_1
자영업,3,0
학생,0,4
회사원,1,2


In [61]:
pd.crosstab(index=df['job'],columns=df['pass'],margins=True)

pass,fail,pass,All
job,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
자영업,3,0,3
학생,0,4,4
회사원,1,2,3
All,4,6,10


In [69]:
#이런 식으로도 할 수 있다.
pd.crosstab(job,pass_yn,rownames=['직업'],colnames=['통과여부'])

NameError: name 'pass_yn' is not defined

In [None]:
#나머지 코드는 slack에 올라온 코드를 잘 보도록 하자.