# 판다스 (데이터프레임) 피벗 테이블과 그룹 분석

In [1]:
import pandas as pd
import numpy as np

In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

#### 피벗 테이블

- 데이터 재구조화  
- 원본 데이터에서 원하는 열을 선택하여 원하는 형태로 행과 열을 배치해서 새로운 형태의 데이터를 만드는 것  
- 많은 양의 데이터에서 필요한 데이터만 추출하여 새로운 형태의 표를 보여주는 기능
- 원본 데이터로부터 원하는 형태의 가공된 데이터 추출 가능
    - 데이터의 형태를 변경하기 위해 많이 사용하는 방법     


### Pandas에서 제공하는 피벗 테이블 기능 :  pivot_table() 메소드 

pivot_table(data, values, index, columns, aggfun, fill_value, margins, margins_name)  
    - data : 분석할 데이터 프레임. 메서드 형식일때는 필요하지 않음 ex)df1.pivot_table()  
    - values : 분석할 데이터 프레임에서 분석할 열  
    - index :  행 인덱스로 들어갈 키열 또는 키열의 리스트  
    - columns : 열 인덱스로 들어갈 키열 또는 키열의 리스트    
    - aggfunc : 분석 메소드. mean이 기본 함수   
    - fill_value : NaN 대체값 지정    
    - margins : 모든 데이터를 분석한 결과를 행열로 추가할 지 여부  
    - margins_name : margins가 추가될 때 그 열(행)의 이름   



### pivot_table() 사용방법
(1) df.pivot_table()  
(2) pd.pivot_table()

- 두개의 키를 사용해서 데이터를 선택  
    - 행 인덱스, 열 인덱스  
- 인덱스 명을 제외한 나머지 값(data)은 수치 data 만 사용함  
- 기본 함수가 평균(mean)함수 이기 때문에 각 데이터의 평균값이 반환  

#### 피벗 테이블 예제 1

In [3]:
# 데이터프레임 생성

data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


### 각 도시에 대한 연도별 인구 데이터  추출

- 행과 열 인덱스만 보면 어떤 도시의 어떤 시점의 인구인지 쉽게 알 수 있도록  
    - 행 인덱스 : 도시  
    - 열 인덱스 : 연도   
    - 데이터 : 인구 (인구 수)  

In [5]:
# 인수명 명시
df1.pivot_table(index='도시', columns='연도', values='인구')
pd.pivot_table(df1, index='도시', columns='연도', values='인구')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [9]:
# 인스명 생략 시 기본 순서 : pivot_table(데이터(values), 행인덱스(index), 열인덱스(columns))
df1.pivot_table('인구', '도시', '연도')
pd.pivot_table(df1, '인구', '도시', '연도')
# 주의! : 순서 다르면 오류

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [13]:
# 다중인덱스 : index=지역, 도시 
df1.pivot_table(index=['지역', '도시'], columns='연도', values='인구')
df1.pivot_table('인구', ['지역', '도시'], '연도')

pd.pivot_table(df1, index=['지역', '도시'], columns='연도', values='인구')
pd.pivot_table(df1, '인구', ['지역', '도시'], '연도')

Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


In [15]:
# 다중인덱스 : 연도, 도시 
# 다중인덱스 사용해서 피벗 테이블 생성
df1.pivot_table(index=['연도','도시'] , values='인구')
pd.pivot_table(df1, index=['연도','도시'],values='인구')

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547.0
2005,서울,9762546.0
2010,부산,3393191.0
2010,서울,9631482.0
2010,인천,263203.0
2015,부산,3448737.0
2015,서울,9904312.0
2015,인천,2890451.0


Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547.0
2005,서울,9762546.0
2010,부산,3393191.0
2010,서울,9631482.0
2010,인천,263203.0
2015,부산,3448737.0
2015,서울,9904312.0
2015,인천,2890451.0


#### 피벗 테이블 예제 2

In [16]:
import pandas as pd
import seaborn as sns

# 타이타닉 데이터 중 일부 열만 추출해서 사용
df = sns.load_dataset('titanic')[['age','sex','class','fare','survived']]
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [17]:
# 선실 등급별로 숙박객의  성별 평균 나이 계산

# 먼저 df.head() 데이터만 사용해서 평균 계산되는지 확인
df_head = df.head()
df_head

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [19]:
df2 = pd.pivot_table(df_head,  # 피벗할 데이터프레임
                    index='class',
                    columns='sex',
                    values='age',
                    aggfunc='mean') # 데이터 집계 함수 : 디폴트가 mean (생략 가능)
df2

df2 = pd.pivot_table(df_head,  # 피벗할 데이터프레임
                    index='class',
                    columns='sex',
                    values='age') # 데이터 집계 함수 : 디폴트가 mean (생략 가능)
df2

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,36.5,
Third,26.0,28.5


sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,36.5,
Third,26.0,28.5


In [20]:
# 전체 df에 적용
# 선실 등급별로 숙박객의 성별 평균 나이 계산
df2 = pd.pivot_table(df,  # 피벗할 데이터프레임
                    index='class',
                    columns='sex',
                    values='age',
                    aggfunc='mean') # 데이터 집계 함수 : 디폴트가 mean (생략 가능)
df2

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,34.611765,41.281386
Second,28.722973,30.740707
Third,21.75,26.507589


In [23]:
# 각 선실 등급별 숙박객의 성별에 따른 생존자 수 평균과 합계 계산
df.pivot_table(index='class',
               columns='sex',
               values='survived'
               ,aggfunc=['mean','sum'])

pd.pivot_table(df, 
               index='class',
               columns='sex',
               values='survived',
               aggfunc=['mean','sum'])

Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


In [30]:
# First class의 여성의 생존자 수 평균과 합계가 맞는지 확인
df[(df['class'] == 'First') & (df['sex'] == 'female')]['survived'].mean()
df[(df['class'] == 'First') & (df['sex'] == 'female')]['survived'].sum() 

# 또는
df.loc[(df['class'] == 'First') & (df['sex'] == 'female'), 'survived'].mean()
df.loc[(df['class'] == 'First') & (df['sex'] == 'female'), 'survived'].sum()

# 0.968085
# 91

# df.loc[행, 열].mean()
# df.loc[First & feamale인 행, survied].sum()

# df[행][열].sum()

0.9680851063829787

91

0.9680851063829787

91

In [31]:
# 선실 등급에 따른 성별에 대해 생존여부별로 나이와 티켓값의 평균과 최대값 산출
pd.pivot_table(df, 
               index=['class', 'sex'],
               columns='survived',
               values=['age', 'fare'],
               aggfunc=['mean','max'])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


In [32]:
# 또는
# 선실 등급에 따른 성별에 대해 생존여부별로 나이와 티켓값의 평균과 최대값 산출
pd.pivot_table(df, 
               index=['class'],
               columns=['sex','survived'],
               values=['age', 'fare'],
               aggfunc=['mean','max'])

Unnamed: 0_level_0,mean,mean,mean,mean,mean,mean,mean,mean,max,max,max,max,max,max,max,max
Unnamed: 0_level_1,age,age,age,age,fare,fare,fare,fare,age,age,age,age,fare,fare,fare,fare
sex,female,female,male,male,female,female,male,male,female,female,male,male,female,female,male,male
survived,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1
class,Unnamed: 1_level_4,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4,Unnamed: 9_level_4,Unnamed: 10_level_4,Unnamed: 11_level_4,Unnamed: 12_level_4,Unnamed: 13_level_4,Unnamed: 14_level_4,Unnamed: 15_level_4,Unnamed: 16_level_4
First,25.666667,34.939024,44.581967,36.248,110.604167,105.978159,62.89491,74.63732,50.0,63.0,71.0,80.0,151.55,512.3292,263.0,512.3292
Second,36.0,28.080882,33.369048,16.022,18.25,22.288989,19.488965,21.0951,57.0,55.0,70.0,62.0,26.0,65.0,73.5,39.0
Third,23.818182,19.329787,27.255814,22.274211,19.773093,12.464526,12.204469,15.579696,48.0,63.0,74.0,45.0,69.55,31.3875,69.55,56.4958


In [None]:
######################################################################################

### 그룹 분석

- 만약 키가 지정하는 조건에 맞는 데이터가 하나 이상이라서 데이터 그룹을 이루는 경우에는   
- 그룹의 특성을 보여주는 그룹분석(group analysis)을 수행해야 함  
---
- 판다스에서의 그룹 분석 기능 : groupby() 메서드 사용  
- 그룹 분석 단계  
    (1) 분석하고자 하는 시리즈나 데이터프레임에 groupby() 메서드를 사용하여 그룹화 수행   
        - 그룹 객체 반환  (객체를 그대로 사용 못함)  
    (2) 그룹 객체에 대해 그룹 연산을 수행

#### groupby() 메소드
- 데이터를 그룹별로 분류하는 역할
- groupby() 메소드 인수
    - 열 또는 열 리스트
    - 행 인덱스
- 연산 결과로 그룹 데이터를 나타내는 GroupBy 클래스 객체 반환
- 객체에는 그룹별로 연산할 수 있는 그룹 연산 메소드가 포함 

#### GroupBy 클래스 객체의 그룹 연산 메서드

- size(), count() : 그룹 데이터의 개수 반환  
    - count() : Null 값이 아닌 행만 반환  
    - size() : Null 값인 행도 모두 포함해서 반환  
- mean(), median(), min(), max() : 그룹 데이터의 평균, 중앙값, 최소, 최대 값 반환  
- sum(), prod(), std(),var(), quantile() : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수 반환  
- first(), last() : 그룹 데이터 중 가장 첫 번째, 마지막 데이터 반환  


#### 이 외에도 많이 사용되는 그룹 연산

- agg(), aggregate()  
    - 만약 원하는 그룹연산이 없는 경우 함수를 만들고 이 함수를 agg에 전달  
    - 또는 여러가지 그룹연산을 동시에 하고 싶은 경우 함수 이름 문자열의 리스트 전달  

- describe()  
    - 하나의 그룹 대표값이 아니라 여러 개의 값을 데이터프레임으로 반환  

- apply()  
    - describe() 처럼 하나의 대표값이 아닌 데이터프레임을 출력하지만 원하는 그룹 연산이 없는 경우에 사용

- transform()  
    - 그룹에 대한 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터 자체를 변형

In [33]:
# df 생성 - 고객 정보를 담고 있는 df
df1 =pd.DataFrame({
    '고객번호' : [1001,1002,1003,1004,1005,1006,1007],
    '이름' : ['둘리','도우너','또치','길동','희동','마이콜','영희']})
df1

# df 생성 - 예금 정보 df
df2 = pd.DataFrame({
    '고객번호':[1001,1001,1005,1006,1008,1001],
    '금액' : [10000,20000,15000,5000,100000,30000]})
df2

df = pd.merge(df1, df2, how='inner')
df

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [37]:
# 먼저 데이터로 그룹화하는 과정 확인
# 고객번호로 그룹화해서 금액 합계 출력
pd.DataFrame(df.groupby(['고객번호'])['금액'].sum())

# 고객번호, 이름 으로(2개) 그룹화해서 금액 합계 출력
pd.DataFrame(df.groupby(['고객번호', '이름'])['금액'].sum())

Unnamed: 0_level_0,금액
고객번호,Unnamed: 1_level_1
1001,60000
1005,15000
1006,5000


Unnamed: 0_level_0,Unnamed: 1_level_0,금액
고객번호,이름,Unnamed: 2_level_1
1001,둘리,60000
1005,희동,15000
1006,마이콜,5000


In [34]:
# 그룹화한 결과 : GroupBy 객체 반환
df.groupby(['고객번호'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000012D8E890E50>

In [39]:
g1 = df.groupby(['고객번호'])

# groups 속성 사용 그룹화된 객체의 속성 확인
g1.groups
# 1001: [0, 1, 2] 행 (행인덱스 값)

{1001: [0, 1, 2], 1005: [3], 1006: [4]}

In [43]:
# 각 그룹의  내용 확인
g1.groups[1001]
g1.groups[1005]

Index([0, 1, 2], dtype='int64')

Index([3], dtype='int64')

In [45]:
# 특정 그룹 선택 : get_group() 사용
g1.get_group(1001)
g1.get_group(1005)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000


Unnamed: 0,고객번호,이름,금액
3,1005,희동,15000


### 그룹객체에 함수 적용 : apply() / agg()
- group객체.apply(적용함수) / group객체.agg(적용함수)
  - 개별 원소가 아닌 그룹에 적용

- agg() : 숫자 타입의 스칼라 값(하나의 값)만 리턴하는 함수를 적용 
    - 데이터프레임을 반환하는 함수에는 사용 불가
- apply()
  - 스칼라값 반환 함수 및 데이터프레임 반환하는 함수에 사용 

#### 그룹객체에 함수 적용 예1 

In [47]:
# 타이타닉 일부 데이터 사용
df = sns.load_dataset('titanic')[['age','sex','class','fare','survived']]
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [49]:
# 선실(class : 등급)별 개수 확인
df['class'].value_counts().sort_index()

class
First     216
Second    184
Third     491
Name: count, dtype: int64

In [50]:
# df의  기초통계 정보 확인
df.describe()

Unnamed: 0,age,fare,survived
count,714.0,891.0,891.0
mean,29.699118,32.204208,0.383838
std,14.526497,49.693429,0.486592
min,0.42,0.0,0.0
25%,20.125,7.9104,0.0
50%,28.0,14.4542,0.0
75%,38.0,31.0,1.0
max,80.0,512.3292,1.0


In [54]:
# 선실별로 그룹화한 후
# 각 그룹에 대한 기초통계 정보 확인
t_g = df.groupby('class', observed=True)
t_g

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000012D8ED33890>

In [None]:
# observed 인수
# - Categorical 데이터의  경우, 관측되지 않은 카테고리 포함 여부 지정
# - False가 디폴트였는데 deprecated 되었다고 경고
# - True : 관측값만 표시
# - False : 관측되지 않은 값도 표시
# - 예 : 열 값이 : a a b b b c c가 있는 경우
#         - 그룹화할 때 카테고리 변수 a b c d 로 그룹화하는 경우
#         - d는 열 값에 포함되어 있지 않을 때 True/False 결과가 다름
#         - 그룹화해서 count 하는 경우
#           - observed=False (관측되지 않은 값도 표시)
#             a 2
#             b 3
#             c 2
#             d 0
#           - observed=True (관측된 값만 표시)
#             a 2
#             b 3
#             c 2

# 지금 우리가 사용하는 데이터와 카테고리 변수는 열값으로 사용하기 때문에
# True/False 결과가 동일함 

In [55]:
# First 그룹의 기초통계 정보 확인 : describe()
# t_g 그룹 객체의 get_group() 사용
t_g.get_group('First').describe()

Unnamed: 0,age,fare,survived
count,186.0,216.0,216.0
mean,38.233441,84.154687,0.62963
std,14.802856,78.380373,0.484026
min,0.92,0.0,0.0
25%,27.0,30.92395,0.0
50%,37.0,60.2875,1.0
75%,49.0,93.5,1.0
max,80.0,512.3292,1.0


In [56]:
# 그룹을 대상으로
# 각 그룹에 대한 기초통계 정보 확인
# apply() 사용해서 그룹별로 적용
t_g.apply(lambda x: x.describe())

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,count,186.0,216.0,216.0
First,mean,38.233441,84.154687,0.62963
First,std,14.802856,78.380373,0.484026
First,min,0.92,0.0,0.0
First,25%,27.0,30.92395,0.0
First,50%,37.0,60.2875,1.0
First,75%,49.0,93.5,1.0
First,max,80.0,512.3292,1.0
Second,count,173.0,184.0,184.0
Second,mean,29.87763,20.662183,0.472826


In [57]:
# 성별로 그룹화한 후
# 각 그룹에 대해 기초통계 정보 확인
t_s = df.groupby('sex', observed=True)
t_s.apply(lambda x: x.describe())

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,count,261.0,314.0,314.0
female,mean,27.915709,44.479818,0.742038
female,std,14.110146,57.997698,0.438211
female,min,0.75,6.75,0.0
female,25%,18.0,12.071875,0.0
female,50%,27.0,23.0,1.0
female,75%,37.0,55.0,1.0
female,max,63.0,512.3292,1.0
male,count,453.0,577.0,577.0
male,mean,30.726645,25.523893,0.188908


#### 그룹객체에 함수 적용 예 2

#### apply() / agg() 예제

In [58]:
import seaborn as sns
iris = sns.load_dataset("iris")
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


sepal_length : 꽃받침 길이  
sepal_width : 꽃받침 너비  
petal_length : 꽃잎 길이  
petal_width : 꽃잎 너비  
species : 아이리스 종류(setosa, versicolor, virginica)  

In [60]:
# 품종(species)별로 그룹화
i_g = iris.groupby(iris.species)

# 그룹별 평균 출력
i_g.mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [61]:
# 그룹 키 출력
i_g.groups.keys()

dict_keys(['setosa', 'versicolor', 'virginica'])

In [62]:
# versicolor 품종만 출력 (head())
i_g.get_group('versicolor').head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
50,7.0,3.2,4.7,1.4,versicolor
51,6.4,3.2,4.5,1.5,versicolor
52,6.9,3.1,4.9,1.5,versicolor
53,5.5,2.3,4.0,1.3,versicolor
54,6.5,2.8,4.6,1.5,versicolor


In [66]:
# versicolor 품종의 sepal_width(꽃받침 너비)의 최대값
# 그룹화해서 추출 : i_g 그룹 객체 사용
i_g.get_group('versicolor')['sepal_width'].max()

# 그룹화하지 않고 추출 : iris df 사용
iris[iris['species']=='versicolor'].loc[:,'sepal_width'].max()
iris.loc[iris['species'] =='versicolor', 'sepal_width'].max()

3.4

3.4

3.4

#### 사용자 정의 함수 생성해서 agg()/apply()에 적용

In [72]:
# 적용할 함수 생성 : 스칼라값 반환 함수
def max_min_ratio(x): # x : 시리즈
    return x.max() / x.min()  # 반환값 : 스칼라 값

In [73]:
# max_min_ration() 함수 테스트
max_min_ratio(iris.sepal_length) # sepal_length 열 : 시리즈 
# 1개 값 반환 : 스칼라 값 

1.8372093023255816

In [75]:
# 그룹 객체의  각 그룹에 대해 열별로 max_min_ratio() 함수 호출
# 함수 반환값이 스칼라 값인 경우 : agg(), aggregate(), apply() 다 사용 가능
# 각 그룹에 적용
i_g.agg(max_min_ratio)
i_g.aggregate(max_min_ratio)
i_g.apply(max_min_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [77]:
# df를 반환하는 함수 생성
def length_top5(df):
    return df.sort_values('petal_length', ascending=False)[:5]
    # petal_length 값으로 내림차순 정렬 후 5개행 반환 : top5

In [78]:
# length_top5 함수 테스트
length_top5(iris)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
117,7.7,3.8,6.7,2.2,virginica
105,7.6,3.0,6.6,2.1,virginica
131,7.9,3.8,6.4,2.0,virginica


In [79]:
# 그룹 객체의 각 그룹에 적용 
# df를 반환하기 때문에 apply() 만 사용 가능
i_g.apply(length_top5)

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,24,4.8,3.4,1.9,0.2,setosa
setosa,44,5.1,3.8,1.9,0.4,setosa
setosa,23,5.1,3.3,1.7,0.5,setosa
setosa,5,5.4,3.9,1.7,0.4,setosa
setosa,20,5.4,3.4,1.7,0.2,setosa
versicolor,83,6.0,2.7,5.1,1.6,versicolor
versicolor,77,6.7,3.0,5.0,1.7,versicolor
versicolor,72,6.3,2.5,4.9,1.5,versicolor
versicolor,52,6.9,3.1,4.9,1.5,versicolor
versicolor,70,5.9,3.2,4.8,1.8,versicolor


In [81]:
# df 반환하는 함수에 agg() 사용 못 함 (오류)
# i_g.agg(length_top5)

In [38]:
#############################################################################

## 그룹함수  및 피봇 테이블 이용 간단한 분석 예제

#### 식당에서 식사 후 내는 팁(tip)과 관련된 데이터 이용

- seaborn 패키지 내 tips 데이터셋 사용

    - total_bill: 식사대금

    - tip: 팁

    - sex: 성별

    - smoker: 흡연/금연 여부

    - day: 요일

    - time: 시간

    - size: 테이블 당 인원

In [82]:
# seabor 패키지의 tips 데이터셋 사용
tips = sns.load_dataset('tips')
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [83]:
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [84]:
tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


##### 분석 내용
(1) 식사 대금 대비 팁을 누가 더 많이 주는가? 여성/남성, 흡연자/비흡연자  
(2) 식사 대금 대비 팁의 비율이 언제 가장 높아지는가? 요일

- 가공 필드 생성 : 식사대금 대비 팁의 비율
    - tip_pct = 팁 / 식사대금

In [85]:
# 식사대금 대비 팁의 비율을 계산하고
# tip_pct 라는  이름으로 열 추가
tips['tips_pct'] = tips['tip'] / tips['total_bill']
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tips_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


#### (1) 식사 대금 대비 팁을 누가 더 많이 주는가? 여성/남성, 흡연자/비흡연자

In [88]:
# 성별로 그룹화하고 그룹별로 출력 
grouped_tips = tips.groupby('sex', observed=True)
grouped_tips.get_group('Male').head(3)
grouped_tips.get_group('Female').head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tips_pct
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tips_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
11,35.26,5.0,Female,No,Sun,Dinner,4,0.141804


In [90]:
# 성별 인원수 파악
grouped_tips.size() # 그룹내 원소의 개수 반환
grouped_tips.count() # 모든 열에 결측치가 없으므로 모든 열의 성별 인원수는 동일

sex
Male      157
Female     87
dtype: int64

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tips_pct
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


In [91]:
# 흡연 유무에 따른 성별 인원수 파악
ss_group = tips.groupby(['smoker','sex'],observed=True)
ss_group.size()

smoker  sex   
Yes     Male      60
        Female    33
No      Male      97
        Female    54
dtype: int64

In [94]:
# total_bill에 대해 흡연 유무에 따른 성별 인원수를 피봇 테이블로 구현
tips.pivot_table(index='smoker', 
                 columns='sex', 
                 values='total_bill', 
                 aggfunc='count')

tips.pivot_table(index='sex', 
                 columns='smoker', 
                 values='total_bill', 
                 aggfunc='count')
# tip에 대해 흡연 유무에 따른 성별 인원수를 피봇 테이블로 구현
tips.pivot_table(index='sex', 
                 columns='smoker', 
                 values='tip', 
                 aggfunc='count')

# 결과 동일 : 성별이 같은 행에 적용되므로 values 값에 상관 없음
# values 인수는 형식에 필요

sex,Male,Female
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1
Yes,60,33
No,97,54


smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,60,97
Female,33,54


smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,60,97
Female,33,54


In [95]:
# 성별 팁 비율의 평균 계산 
# 성별로 그룹화하고 팁비율의 평균 계산
tips.groupby('sex', observed=True)['tips_pct'].mean()

# 결론
# 식사금액 대비 팁 비율의 평균 : 여성이 약간 높음
# 여성이 식사대비 팁을 약간 더 많이 준다

sex
Male      0.157651
Female    0.166491
Name: tips_pct, dtype: float64

In [97]:
# 흡연 유무에 따른 팁 비율의 평균 계산
tips.groupby('smoker', observed=True)['tips_pct'].mean()

# 결론
# 흡연자의 팁비율이 비흡연자에 비해 근소하게 높음
# 흡연자가 팁을 조금 더 준다 

smoker
Yes    0.163196
No     0.159328
Name: tips_pct, dtype: float64

In [98]:
# 피봇 테이블 사용해서
# 성별과 흡연 유무에 따른 팁 비율의 평균 계산
pd.pivot_table(tips, 
               values='tips_pct',
               index='sex',
               columns='smoker',
               aggfunc='mean')
# 결론
# 남성의 경우 비흡연자의 팁 비율이 약간 높고
# 여성의 경우 흡연자의 팁 비율이 더 높음
# 여성 흡연자가 팁을 제일 많이 준다 


smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


#### (2) 식사 대금 대비 팁의 비율이 언제 가장 높아지는가?

In [99]:
# 요일별 손님 수 확인 
tips.groupby('day', observed=True).size()
# 손님은 토요일에 제일 많다

day
Thur    62
Fri     19
Sat     87
Sun     76
dtype: int64

In [100]:
# 전체 손님수 
len(tips)

244

In [101]:
# 요일별 여성/남성 손님 비율 계산 
tips.groupby(['day', 'sex'], observed=True).size() / len(tips) * 100
# 결론
# 여성 손님은 목요일에 많고 (남성보다 약간 많지만 다른 요일에 비해 많음)
# 남성 손님은 주말에 많음

day   sex   
Thur  Male      12.295082
      Female    13.114754
Fri   Male       4.098361
      Female     3.688525
Sat   Male      24.180328
      Female    11.475410
Sun   Male      23.770492
      Female     7.377049
dtype: float64

In [102]:
# 요일별 평균 팁 비율
tips.groupby('day', observed=True)['tips_pct'].mean()

# 금요일이 근소한 차이로 제일 높음

day
Thur    0.161276
Fri     0.169913
Sat     0.153152
Sun     0.166897
Name: tips_pct, dtype: float64

In [106]:
# 요일별, 성별, 흡연유무로 그룹화한 평균 팁비율 계산 
tips.groupby(['day','sex','smoker'],observed=True)['tips_pct'].mean()

# 팁비율  최대 / 최소
tips.groupby(['day','sex','smoker'],observed=True)['tips_pct'].mean().max()
tips.groupby(['day','sex','smoker'],observed=True)['tips_pct'].mean().min()

# 결론
# max  : 0.23707 : 일요일 여성 흡연자가 팁을 제일 많이 줌
# 다음으로 금요일 여성 흡연자가 팁을 많이 줌
# min : 0.138004 : 금요일 남성 비흡연자가 팁을 제일 적게 줌

day   sex     smoker
Thur  Male    Yes       0.164417
              No        0.165706
      Female  Yes       0.163073
              No        0.155971
Fri   Male    Yes       0.144730
              No        0.138005
      Female  Yes       0.209129
              No        0.165296
Sat   Male    Yes       0.139067
              No        0.162132
      Female  Yes       0.163817
              No        0.147993
Sun   Male    Yes       0.173964
              No        0.158291
      Female  Yes       0.237075
              No        0.165710
Name: tips_pct, dtype: float64

0.2370747288133867

0.13800497742174694