# groupby를 활용한 조건부 통계

## groupby는 조건부 통계량을 계산하기 위한 방법
## 분할, 적용, 결합의 3단계로 구성됨

<li>사용 방법: df.groupby(분할 기준 컬럼)[적용 기준 칼럼].집계함수</li>
<li>주요입력: by:분할 기준 컬럼(목록)</li>
<li>as_index: 분할 기준 컬럼들을 인덱스로 사용할 것인지 여부 (default: True)</li>
<li>여러 개의 집계 함수나 사용자 정의 함수를 쓰고 싶다면 agg 함수를 사용해야 함</li>

## pivot_table과 groupby의 차이점

<li> 결과값은 pivot_table과 groupby는 동일함</li>
<li> 그러나 출력 값의 형태에 차이가 있으므로 상황에 맞게 구별해 사용 </li>
<li> pivot_table은 출력 결과 자체가 결과물인 경우, groupby는 중간 산출물로써 사용</li>
<li> pivot_table은 heatmap과 같은 시각화에 더 유리한 데이터 구조</li>

In [2]:
import os
import pandas as pd
os.chdir(r"D:\bigdata\jupyter\data_preprocessing\1. 데이터 핸들링\데이터")

In [3]:
df = pd.read_csv("온라인_판매기록.csv", encoding="ANSI", engine='python')
df.head()

Unnamed: 0,쇼핑몰,제품,수량,판매금액,쇼핑몰 유형
0,쿠팡,제품_16,8,1134400,쿠팡
1,쿠팡,제품_57,8,439200,쿠팡
2,쿠팡,제품_25,4,495200,쿠팡
3,쿠팡,제품_18,4,578000,쿠팡
4,쿠팡,제품_90,2,75000,쿠팡


# 쇼핑몰 유형에 따른 수량의 평균

In [7]:
# as_index를 False로 지정하지 않으면 '쇼핑몰 유형'은 인덱스로, 평균값은 시리즈 형태의 값으로 출력됨
df.groupby(['쇼핑몰 유형'])['수량'].mean()

쇼핑몰 유형
동물병원      5.512889
온라인II     5.807143
온라인사이트    5.477670
유통대리점     5.493333
전시회       5.556701
쿠팡        5.396389
할인점       5.288525
할인점II     5.469565
Name: 수량, dtype: float64

# 쇼핑몰 유형에 따른 수량의 평균 as_index=False

In [6]:
# as_index=False로 하면 인덱스는 숫자로 들어감
df.groupby(['쇼핑몰 유형'], as_index=False)['수량'].mean()

Unnamed: 0,쇼핑몰 유형,수량
0,동물병원,5.512889
1,온라인II,5.807143
2,온라인사이트,5.47767
3,유통대리점,5.493333
4,전시회,5.556701
5,쿠팡,5.396389
6,할인점,5.288525
7,할인점II,5.469565


# 쇼핑몰 유형에 따른 수량의 평균, 최대값

In [10]:
# mean과 max 두 개의 연산 함수를 사용하므로 agg를 써야 함
df.groupby(['쇼핑몰 유형'])[['수량','판매금액']].agg(['mean','max'])

Unnamed: 0_level_0,수량,수량,판매금액,판매금액
Unnamed: 0_level_1,mean,max,mean,max
쇼핑몰 유형,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
동물병원,5.512889,10,439390.844444,1515000
온라인II,5.807143,10,475726.428571,1530000
온라인사이트,5.47767,10,454746.019417,1533000
유통대리점,5.493333,10,462627.384615,1530000
전시회,5.556701,10,447135.051546,1486000
쿠팡,5.396389,10,433447.802198,1533000
할인점,5.288525,10,427162.295082,1533000
할인점II,5.469565,10,440754.782609,1515000


### 쇼핑몰 유형과 제품에 따른 수량, 판매금액의 최대값-최소값을 구하는 사용자 함수적용

In [12]:
def my_func(value):
    return max(value) - min(value)
df.groupby(['쇼핑몰 유형', '제품'])[['수량','판매금액']].agg(my_func)

Unnamed: 0_level_0,Unnamed: 1_level_0,수량,판매금액
쇼핑몰 유형,제품,Unnamed: 2_level_1,Unnamed: 3_level_1
동물병원,제품_01,7,512400
동물병원,제품_02,8,129600
동물병원,제품_03,9,351900
동물병원,제품_04,8,341600
동물병원,제품_05,8,860800
...,...,...,...
할인점II,제품_93,0,0
할인점II,제품_95,2,194600
할인점II,제품_97,0,0
할인점II,제품_98,0,0


In [13]:
# as_index=False로 해서 인덱스를 숫자로 만드는 경우
def my_func(value):
    return max(value) - min(value)
df.groupby(['쇼핑몰 유형', '제품'], as_index=False)[['수량','판매금액']].agg(my_func)

Unnamed: 0,쇼핑몰 유형,제품,수량,판매금액
0,동물병원,제품_01,7,512400
1,동물병원,제품_02,8,129600
2,동물병원,제품_03,9,351900
3,동물병원,제품_04,8,341600
4,동물병원,제품_05,8,860800
...,...,...,...,...
757,할인점II,제품_93,0,0
758,할인점II,제품_95,2,194600
759,할인점II,제품_97,0,0
760,할인점II,제품_98,0,0
