# Grouping & Pivot

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

series grouping

In [2]:
df = pd.DataFrame({ "학과" : ["컴퓨터","체육교육과","컴퓨터","체육교육과","컴퓨터"],
                    "학년" : [1, 2, 3, 2, 3],
                    "이름" : ["홍길동","김연아","최길동","아이유","신사임당"],
                    "학점" : [1.5, 4.4, 3.7, 4.5, 3.8]})
df

Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,홍길동,1.5
1,체육교육과,2,김연아,4.4
2,컴퓨터,3,최길동,3.7
3,체육교육과,2,아이유,4.5
4,컴퓨터,3,신사임당,3.8


In [3]:
# 학과를 기준으로 grouping
df.groupby('학과')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000235E86DF688>

In [4]:
# 사이즈 확인
df.groupby('학과').size()

학과
체육교육과    2
컴퓨터      3
dtype: int64

In [7]:
# 인덱스 확인
df.groupby('학과').groups

{'체육교육과': Int64Index([1, 3], dtype='int64'),
 '컴퓨터': Int64Index([0, 2, 4], dtype='int64')}

In [8]:
# 집계함수 사용
df.groupby('학과').mean()

Unnamed: 0_level_0,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
체육교육과,2.0,4.45
컴퓨터,2.333333,3.0


In [9]:
df.groupby('학과').sum()

Unnamed: 0_level_0,학년,학점
학과,Unnamed: 1_level_1,Unnamed: 2_level_1
체육교육과,4,8.9
컴퓨터,7,9.0


In [10]:
# 멀티로 grouping - 학과와 학년으로 묶어서 학점을 평균냈다
df.groupby(['학과', '학년']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,학점
학과,학년,Unnamed: 2_level_1
체육교육과,2,4.45
컴퓨터,1,1.5
컴퓨터,3,3.75


### iris 데이터로

In [44]:
import seaborn as sns
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [12]:
# 데이터 확인
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [13]:
# grouping 후 집계함수 써보기
iris.groupby('species').mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [17]:
# 직접 정의한 함수로 계산할 수 있다

# 함수 정의 : 최대값 / 최소값

def maxmin(x):
    return x.max()/x.min()

iris.groupby('species').agg(maxmin)


Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


### apply, agg
- `agg`는 집계함수. max, min, sum, mean 처럼 열 전체와 관련있는건 agg를 쓰고,
아닌 것들은 `apply`를 쓴다고 생각하자.  
- 그리고 수치형은 `agg`, 아닌 건 `apply`

In [28]:
# groupby한 것을 describe로 확인할 수 있다
iris.groupby('species').describe().T

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


종 별로 꽃잎 길이가 가장 큰 데이터 3개를 뽑아내기

In [31]:
iris.groupby('species').max()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.8,4.4,1.9,0.6
versicolor,7.0,3.4,5.1,1.8
virginica,7.9,3.8,6.9,2.5


In [37]:
iris.sort_values(by='petal_length', ascending = False)[:3]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
131,7.9,3.8,6.4,2.0,virginica
135,7.7,3.0,6.1,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica


In [47]:
def max3(x):
    return x.sort_values(by='petal_length', ascending = False)[:3]

In [50]:
iris.groupby(iris.species).apply(max3)

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,24,4.8,3.4,1.9,0.2,setosa
setosa,44,5.1,3.8,1.9,0.4,setosa
setosa,23,5.1,3.3,1.7,0.5,setosa
versicolor,83,6.0,2.7,5.1,1.6,versicolor
versicolor,77,6.7,3.0,5.0,1.7,versicolor
versicolor,72,6.3,2.5,4.9,1.5,versicolor
virginica,118,7.7,2.6,6.9,2.3,virginica
virginica,117,7.7,3.8,6.7,2.2,virginica
virginica,122,7.7,2.8,6.7,2.0,virginica


지금은 수치형데이터를 조작해서 수치형 데이터를 리턴하는 함수가 아니니까 apply를 쓴다

### transform
- 데이터 프레임 자체를 변화시키는 함수
- 원본 프레임과 크기가 같다

### 범주 생성 함수
- `cut()` : 동일 길이(범주)로 나누어서 범주를 만들어서 그룹에 대한 통계량을 보여준다
- `qcut()` : 동일 갯수로 나누어서 범주를 만들어서 그룹에 대한 통계량을 보여준다

각 붓꽃 꽃잎 길이가 해당 종 내에서 대/중/소 어느것에 해당하는지에 대한 프레임 생성


In [53]:
iris.groupby('species').groups

{'setosa': Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
             17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
             34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
            dtype='int64'),
 'versicolor': Int64Index([50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66,
             67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83,
             84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99],
            dtype='int64'),
 'virginica': Int64Index([100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112,
             113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125,
             126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138,
             139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149],
            dtype='int64')}

In [56]:
# qcut 사용법 
pd.qcut(iris.sepal_length, 3, labels= ['소', '중', '대']).astype(str)

0      소
1      소
2      소
3      소
4      소
      ..
145    대
146    중
147    대
148    중
149    중
Name: sepal_length, Length: 150, dtype: object

In [60]:
def get_category(x):
    return pd.qcut(x, 3, labels=['소', '중', '대']).astype(str)

In [63]:
iris.groupby('species').petal_length.apply(get_category)

0      소
1      소
2      소
3      중
4      소
      ..
145    소
146    소
147    소
148    중
149    소
Name: petal_length, Length: 150, dtype: object

In [64]:
iris['category'] =iris.groupby('species').petal_length.transform(get_category)
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,category
0,5.1,3.5,1.4,0.2,setosa,소
1,4.9,3.0,1.4,0.2,setosa,소
2,4.7,3.2,1.3,0.2,setosa,소
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,소
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,소
146,6.3,2.5,5.0,1.9,virginica,소
147,6.5,3.0,5.2,2.0,virginica,소
148,6.2,3.4,5.4,2.3,virginica,중


이번엔 apply랑 transform이네
- transform 은 한 번에 한 시리즈에만 동작
- 만약에 a컬럼에서 b컬럼을 빼는 함수를 쓰고 싶다면 불가능

붓꽃 데이터에서 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎 폭(sepal_width) 등의 평균을 구하라

In [66]:
iris.groupby('species').mean()[['sepal_length', 'sepal_width']]

Unnamed: 0_level_0,sepal_length,sepal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,5.006,3.428
versicolor,5.936,2.77
virginica,6.588,2.974


groupby 한번 더 정리

In [67]:
df

Unnamed: 0,학과,학년,이름,학점
0,컴퓨터,1,홍길동,1.5
1,체육교육과,2,김연아,4.4
2,컴퓨터,3,최길동,3.7
3,체육교육과,2,아이유,4.5
4,컴퓨터,3,신사임당,3.8


In [69]:
df.groupby('학과')
# 데이터프레임 리턴

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000235EB3AC6C8>

In [72]:
df.groupby('학과').agg([np.mean, np.sum])
# 여러 집계함수도 list 안에 넣어서 쓸 수 있다.
# 이렇게 함수 호출할 때는 () 쓰지 않는다

Unnamed: 0_level_0,학년,학년,학점,학점
Unnamed: 0_level_1,mean,sum,mean,sum
학과,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
체육교육과,2.0,4,4.45,8.9
컴퓨터,2.333333,7,3.0,9.0


### pivot
- 데이터프레임에서 두 개의 열을 이용하여 행/열 인덱스가 reshape된 테이블을 의미한다
- 새로운 테이블에서 새로운 기준으로 집계
- pivot(index, columns, values)
- pivot_table(data, values, index, columns, aggfunc='mean')

In [74]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [81]:
# 성별과 객실 등급에 따른 승객 수 집계
titanic01 = titanic.groupby(['sex', 'pclass']).size().reset_index(name = 'cnt')
titanic01

Unnamed: 0,sex,pclass,cnt
0,female,1,94
1,female,2,76
2,female,3,144
3,male,1,122
4,male,2,108
5,male,3,347


In [82]:
# df.pivot(index, columns, values)

titanic01.pivot('sex', 'pclass', 'cnt')
# 다 컬럼에 있던건데 sex는 인덱스로 이동했다

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,94,76,144
male,122,108,347


In [93]:
titanic02 = titanic.groupby(['sex', 'survived']).size().reset_index(name = 'cnt')
titanic02

Unnamed: 0,sex,survived,cnt
0,female,0,81
1,female,1,233
2,male,0,468
3,male,1,109


In [94]:
titanic02.pivot('sex', 'survived', 'cnt')

survived,0,1
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,81,233
male,468,109


### pivot_table

pivot_table option
- data: 데이터 프레임
- values: 분석 할 열
- index
- columns
- aggfunc: 집계함수
- fill_value: NaN에 대한 대체값
- margins: 분석결과를 오른쪽과 아래에 붙일지 여부
- margins_name: 마진 열(행)의 이름

In [102]:
# 성별과 생존여부에 따른 승객 수 집계 (pivot_table)
# pivot_table 쓸 때 value에 들어갈 값 없으면 넣어줘야해

titanic['cnt'] = 1
titanic.pivot_table('cnt', 'sex', 'survived', aggfunc = 'count')

survived,0,1
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,81,233
male,468,109


In [103]:
# 성별과 객실 등급에 따른 승객 수 집계

titanic.pivot_table('cnt', 'sex', 'pclass', aggfunc = 'count')

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,94,76,144
male,122,108,347


In [104]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
pivot_sample_df = pd.DataFrame(data, columns=columns)
pivot_sample_df


Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [105]:
# pivot_table 써보기

pivot_sample_df.pivot_table('인구','도시', '연도')

# 집계함수 안쓰면 원래 값이 나온다(reshape기능만 한 것)

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [108]:
pivot_sample_df.pivot_table('인구', '도시', '연도', margins = True, 
                           margins_name = '평균')
# margin은 평균이 나온다

연도,2005,2010,2015,평균
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,3451492.0
서울,9762546.0,9631482.0,9904312.0,9766113.0
인천,,263203.0,2890451.0,1576827.0
평균,6637546.5,4429292.0,5414500.0,5350809.0


### tips data 불러오기

In [109]:
tips = sns.load_dataset('tips')
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [110]:
# 식사대금 대비 팁의 비율이 어떤 경우에 가장 높은지 찾기

# 먼저 식사대금 대비 팁 컬럼을 만들어야 한다.
tips['tip_ratio'] = tips['tip']/tips['total_bill']
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_ratio
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


In [115]:
tips.groupby('sex').mean()

Unnamed: 0_level_0,total_bill,tip,size,tip_ratio
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,20.744076,3.089618,2.630573,0.157651
Female,18.056897,2.833448,2.45977,0.166491


In [116]:
# 성별과 흡연유무로 나누어서 데이터의 개수를 세어보자
tips.groupby(['sex', 'smoker']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,day,time,size,tip_ratio
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,Yes,60,60,60,60,60,60
Male,No,97,97,97,97,97,97
Female,Yes,33,33,33,33,33,33
Female,No,54,54,54,54,54,54


In [118]:
# 성별과 흡연유무로 나누어서 데이터의 개수를 세어보자 (pivot_table)
tips.pivot_table('tip_ratio', 'sex', 'smoker', aggfunc = 'count', margins = True)

# 여기서 margin값은 sum

smoker,Yes,No,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,60,97,157
Female,33,54,87
All,93,151,244


In [120]:
# 성별과 흡연 여부에 따른 평균 팁의 비율
tips.groupby(['sex', 'smoker'])[['tip_ratio']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_ratio
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152771
Male,No,0.160669
Female,Yes,0.18215
Female,No,0.156921


In [122]:
# 성별과 흡연 여부에 따른 평균 팁의 비율 (pivot_table)
tips.pivot_table('tip_ratio', 'sex', 'smoker', aggfunc = 'mean')

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


### 실습

In [123]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


1. qcut 명령으로 세 개의 나이 그룹을 만든다.



2. 성별, 선실, 나이 그룹에 의한 생존율을 데이터프레임으로 계산한다. 
 - 행에는 성별 및 나이 그룹에 대한 다중 인덱스를 사용하고 열에는 
선실 인덱스를 사용한다. 
생존률은 해당 그룹의 생존 인원수를 전체 인원수로 나눈 값이다.


3. 성별 및 선실에 의한 생존율을 피봇 데이터 형태로 만든다.



In [127]:
# qcut 명령으로 세 개의 나이 그룹을 만든다.

titanic['age_group'] =pd.qcut(titanic['age'], 3, labels=['A', 'B', 'C'])
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_group
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,A
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,C
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,B
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,C
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,C


In [128]:
# 성별, 선실, 나이 그룹에 의한 생존율을 데이터프레임으로 계산한다.
# 행에는 성별 및 나이 그룹에 대한 다중 인덱스를 사용하고 
# 열에는 선실 인덱스를 사용한다. 
# 생존률은 해당 그룹의 생존 인원수를 전체 인원수로 나눈 값이다.

titanic.pivot_table('survived', ['sex', 'age_group'], 'pclass', aggfunc = 'mean')

Unnamed: 0_level_0,pclass,1,2,3
sex,age_group,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,A,0.954545,1.0,0.508475
female,B,0.947368,0.909091,0.481481
female,C,0.977273,0.857143,0.25
male,A,0.5,0.357143,0.158879
male,B,0.5,0.076923,0.195652
male,C,0.347826,0.0625,0.055556


In [129]:
# 성별 및 선실에 의한 생존율을 피봇 데이터 형태로 만든다.

titanic.pivot_table('survived', 'sex', 'pclass', aggfunc = 'mean')

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447
