# 데이터 전처리(3) - 데이터 재구조화
- 피벗 테이블
- melt
- stack, unstack
- 교차표

## #01. 분석 준비

### 1. 패키지 설치

In [1]:
from pandas import DataFrame, read_excel
from pandas import merge, concat, pivot_table, crosstab, melt

## #02. 피벗 테이블

### 1. 샘플 데이터 추출

In [43]:
df = read_excel("https://data.hossam.kr/city_people.xlsx")
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,2632035,수도권


2. 피벗테이블 기본
- 인덱스, 컬럼, 값으로 사용할 필드를\
각각 지정해 데이터를 재배치

In [44]:
pivot_table(df,                # 피벗할 데이터프레임
            index = '도시',     # 행 위치에 들어갈 열
            columns = '연도',   # 열 위치에 들어갈 열
            values = '인구'     # 데이터로 사용할 열
)

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,2632035.0,2890451.0


3. 중복 데이터의 집계 방법 지정하기
- 집계함수(aggfunc)

In [45]:
pivot_table(df,              # 피벗할 데이터프레임
            index = '지역',   # 행 위치에 들어갈 열
            columns = '연도', # 열 위치에 들어갈 열
            values = '인구',   # 데이터로 사용할 열
            aggfunc='mean'   # 데이터가 두 개 이상일 경우 집계함수 지정
)

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547.0,3393191.0,3448737.0
수도권,9762546.0,6131758.5,6397381.5


4. 복수 집계 함수 지정

In [46]:
pivot_table(df,
            index = '지역',
            columns = '연도',
            values = '인구',
            aggfunc=['sum', 'mean']
)

Unnamed: 0_level_0,sum,sum,sum,mean,mean,mean
연도,2005,2010,2015,2005,2010,2015
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
경상권,3512547,3393191,3448737,3512547.0,3393191.0,3448737.0
수도권,9762546,12263517,12794763,9762546.0,6131758.5,6397381.5


5. 복수 인덱스 지정

In [47]:
pivot_table(df,                        # 피벗할 데이터프레임
            index = ['지역', '연도'],   # 행 위치에 들어갈 열
            columns = '도시',           # 열 위치에 들어갈 열
            values = '인구',            # 데이터로 사용할 열
            aggfunc =  ['mean', 'sum']  # 데이터 집계함수
)

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,sum,sum,sum
Unnamed: 0_level_1,도시,부산,서울,인천,부산,서울,인천
지역,연도,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
경상권,2005,3512547.0,,,3512547.0,,
경상권,2010,3393191.0,,,3393191.0,,
경상권,2015,3448737.0,,,3448737.0,,
수도권,2005,,9762546.0,,,9762546.0,
수도권,2010,,9631482.0,2632035.0,,9631482.0,2632035.0
수도권,2015,,9904312.0,2890451.0,,9904312.0,2890451.0


## #05 교차표(crosstab)
- 범주형 자료를 갖는 데이터에 대해 각\
범주별로 빈도수를 계산해 표현한 표

1. 샘플 데이터 가져오기

In [48]:
df = read_excel("https://data.hossam.kr/score.xlsx")
df

Unnamed: 0,gender,score
0,M,A
1,M,C
2,M,B
3,M,B
4,W,A
5,W,C
6,W,C
7,W,B


2. 교차표 만들기 (교차표는 범주형)
- index 파라미터와 columns 파라미터를 지정

In [49]:
crosstab(index=df['gender'], columns=df['score'])

score,A,B,C
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
M,1,2,1
W,1,1,2


3. 파라미터 설정
- rownames : 인덱스 이름 설정
- colnames : 컬럼 이름 설정
- margins : 집계 결과 포함 여부(True/False)

In [50]:
crosstab(index=df['gender'], columns=df['score'],
         rownames=['성별'], colnames=['점수'], margins=True)

점수,A,B,C,All
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,1,2,1,4
W,1,1,2,4
All,2,3,3,8


4. 비율 표시
- normalize = True 파라미터 사용

In [51]:
crosstab(index=df['gender'], columns=df['score'],
         rownames=['성별'], colnames=['점수'], margins=True,
         normalize=True)

점수,A,B,C,All
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,0.125,0.25,0.125,0.5
W,0.125,0.125,0.25,0.5
All,0.25,0.375,0.375,1.0
