## Pivot & Melt

In [8]:
import pandas as pd


# 이해를 돕기 위한 대체 df
df = pd.DataFrame({
    "gender": ["남", "남", "남", "여", "여", "여"],
    "age": ["10대", "20대", "30대", "10대", "20대", "30대"],
    "height": ["170Cm", "173Cm", "172Cm", "160Cm", "163Cm", "162Cm"],
    "weight": ["68Kg", "70Kg", "80Kg", "55Kg", "53Kg", "55Kg"]})

df.head()

Unnamed: 0,gender,age,height,weight
0,남,10대,170Cm,68Kg
1,남,20대,173Cm,70Kg
2,남,30대,172Cm,80Kg
3,여,10대,160Cm,55Kg
4,여,20대,163Cm,53Kg


### Pivot

In [9]:
df.pivot(index="gender", columns="age", values="height")

age,10대,20대,30대
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남,170Cm,173Cm,172Cm
여,160Cm,163Cm,162Cm


### 복수의 피벗 컬럼

In [10]:
df.pivot(index="gender", columns="age", values=["height", 'weight'])

Unnamed: 0_level_0,height,height,height,weight,weight,weight
age,10대,20대,30대,10대,20대,30대
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
남,170Cm,173Cm,172Cm,68Kg,70Kg,80Kg
여,160Cm,163Cm,162Cm,55Kg,53Kg,55Kg


In [13]:
# index 미지정시 변환되는 데이터 구조가 이상해진다.

df.pivot(columns='age', values="height")

age,10대,20대,30대
0,170Cm,,
1,,173Cm,
2,,,172Cm
3,160Cm,,
4,,163Cm,
5,,,162Cm


## melt

In [15]:
# id_vars에는 남길 열을 적어둔다.
df.melt(id_vars=['gender','age'])

Unnamed: 0,gender,age,variable,value
0,남,10대,height,170Cm
1,남,20대,height,173Cm
2,남,30대,height,172Cm
3,여,10대,height,160Cm
4,여,20대,height,163Cm
5,여,30대,height,162Cm
6,남,10대,weight,68Kg
7,남,20대,weight,70Kg
8,남,30대,weight,80Kg
9,여,10대,weight,55Kg


### id 및 value 컬럼 지정

In [17]:
# 설정 안 된 컬럼은 사라진다.
df.melt(id_vars=['gender','age'], value_vars=['height'])

Unnamed: 0,gender,age,variable,value
0,남,10대,height,170Cm
1,남,20대,height,173Cm
2,남,30대,height,172Cm
3,여,10대,height,160Cm
4,여,20대,height,163Cm
5,여,30대,height,162Cm


In [19]:
import pandas as pd

# 이해를 돕기 위한 대체 df
df = pd.DataFrame({
    "gender": ["남", "남", "남", "남", "남", "여", "여", "여", "여"],
    "age":["20대", "30대", "40대", "20대", "30대", "20대", "30대", "40대", "40대"],
    "value":[11, 13, 12, 12, 14, 12, 13, 11, 12]
})
df


Unnamed: 0,gender,age,value
0,남,20대,11
1,남,30대,13
2,남,40대,12
3,남,20대,12
4,남,30대,14
5,여,20대,12
6,여,30대,13
7,여,40대,11
8,여,40대,12


In [21]:
pd.crosstab(df.gender, df.age)
# 빈도수가 나온다.

age,20대,30대,40대
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
남,2,2,1
여,1,1,2


In [26]:
pd.crosstab(df.gender, df.age, 
            rownames=["성별"], colnames=["연령대"], 
            margins=True, margins_name = "총합")

연령대,20대,30대,40대,총합
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
남,2,2,1,5
여,1,1,2,4
총합,3,3,3,9


### index-1개 columns 복수개 컬럼 지정

In [28]:
# 열이 다중 열이 된다.
pd.crosstab(df.gender, [df.age, df.value])

age,20대,20대,30대,30대,40대,40대
value,11,12,13,14,11,12
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
남,1,1,1,1,0,1
여,0,1,1,0,1,1


In [29]:
pd.crosstab(df.gender, df.age, margins=True, normalize=True)

# 각 데이터가 전체 대비 몇 %에 해당하는지를 나타낸다.

age,20대,30대,40대,All
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
남,0.222222,0.222222,0.111111,0.555556
여,0.111111,0.111111,0.222222,0.444444
All,0.333333,0.333333,0.333333,1.0
