In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({"지점": ["A", "A", "B", "B"],
                   "상품": ["P1", "P2", "P1", "P2"],
                   "Q1": [112, 134, 156, 178],
                   "Q2": [212, 234, 256, 278],
                   "Q3": [312, 334, 356, 378],
                   "Q4": [412, 434, 456, 478]})
df

Unnamed: 0,지점,상품,Q1,Q2,Q3,Q4
0,A,P1,112,212,312,412
1,A,P2,134,234,334,434
2,B,P1,156,256,356,456
3,B,P2,178,278,378,478


.melt() 메서드는 wide form의 자료구조를 long form의 자료구조로 변환하는 것이며 별도의 산술연산을 실시하지 않음.

In [3]:
df.melt(id_vars = ["지점", "상품"])

Unnamed: 0,지점,상품,variable,value
0,A,P1,Q1,112
1,A,P2,Q1,134
2,B,P1,Q1,156
3,B,P2,Q1,178
4,A,P1,Q2,212
5,A,P2,Q2,234
6,B,P1,Q2,256
7,B,P2,Q2,278
8,A,P1,Q3,312
9,A,P2,Q3,334


In [4]:
df.melt(id_vars = ["지점", "상품"],
        var_name = "분기",
        value_name = "매출")

Unnamed: 0,지점,상품,분기,매출
0,A,P1,Q1,112
1,A,P2,Q1,134
2,B,P1,Q1,156
3,B,P2,Q1,178
4,A,P1,Q2,212
5,A,P2,Q2,234
6,B,P1,Q2,256
7,B,P2,Q2,278
8,A,P1,Q3,312
9,A,P2,Q3,334


In [5]:
df_melt = df.melt(id_vars = ["지점", "상품"],
                  var_name = "분기",
                  value_name = "매출")
df_melt.head(2)

Unnamed: 0,지점,상품,분기,매출
0,A,P1,Q1,112
1,A,P2,Q1,134


In [6]:
df_melt_sorted = df_melt.sort_values(["지점", "상품"])
df_melt_sorted.head()

Unnamed: 0,지점,상품,분기,매출
0,A,P1,Q1,112
4,A,P1,Q2,212
8,A,P1,Q3,312
12,A,P1,Q4,412
1,A,P2,Q1,134


In [7]:
df_melt.groupby(["지점", "분기"])["매출"].mean()

지점  분기
A   Q1    123.0
    Q2    223.0
    Q3    323.0
    Q4    423.0
B   Q1    167.0
    Q2    267.0
    Q3    367.0
    Q4    467.0
Name: 매출, dtype: float64

.pivot() 메서드는 .melt() 와 유사하고 별도의 산술연산이 없으나 .melt() 메서드 대비 보다 자유로운 자료구조 변환(pivoting)이 가능함. 즉, 실행 결과로 얻어지는 객체의 자료구조 형태는 wide form, long form 모두 가능하다.

In [8]:
df.pivot(index = "지점", columns = "상품", values = "Q1")

상품,P1,P2
지점,Unnamed: 1_level_1,Unnamed: 2_level_1
A,112,134
B,156,178


자료구조 변환시 index 기준 중복된 행이 있다면 .pivot() 메서드 사용에 한계가 있고 이를 극복하기 위해 요약연산을 제공하는 .pivot_table() 메서드를 사용할 수 있음.

In [9]:
df_melt.pivot_table(index = "지점", columns = "분기", values = "매출",
                    aggfunc = "mean")

분기,Q1,Q2,Q3,Q4
지점,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,123,223,323,423
B,167,267,367,467


In [10]:
df_melt.pivot_table(index = "분기", columns = "지점", values = "매출",
                    aggfunc = "mean")

지점,A,B
분기,Unnamed: 1_level_1,Unnamed: 2_level_1
Q1,123,167
Q2,223,267
Q3,323,367
Q4,423,467


.pivot_table() 메서드의 "aggfunc" 인자에는 Pandas Series객체에서 제공하는 산술연산 메서드의 경우 문자열로 메서드를 지정할 수 있으며, 그 외의 특수한 연산이 필요한 경우 lambda 함수 또는 사용자 정의 함수를 할당하여 연산할 수 있다.

In [11]:
df_melt.pivot_table(index = "분기", columns = "지점", values = "매출",
                    aggfunc = lambda x: x.mean() + 10000)

지점,A,B
분기,Unnamed: 1_level_1,Unnamed: 2_level_1
Q1,10123,10167
Q2,10223,10267
Q3,10323,10367
Q4,10423,10467


In [12]:
def mean_10000(x):
    return x.mean() + 10000

df_melt.pivot_table(index = "분기", columns = "지점", values = "매출",
                    aggfunc = mean_10000)

지점,A,B
분기,Unnamed: 1_level_1,Unnamed: 2_level_1
Q1,10123,10167
Q2,10223,10267
Q3,10323,10367
Q4,10423,10467
