### 피봇테이블
피봇테이블(pivot table)이란 데이터 열 중에서 두 개의 열을 각각 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐놓은 것을 말한다.

In [2]:
import pandas as pd

data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


이 데이터를 도시 이름이 열 인덱스가 되고 연도가 행 인덱스가 되어 행과 열 인덱스만 보면 어떤 도시의 어떤 시점의 인구를 쉽게 알 수 있도록 피봇테이블로 만들어보자. pivot 명령으로 사용하고 행 인덱스 인수로는 "도시", 열 인덱스 인수로는 "연도", 데이터 이름으로 "인구"를 입력하면 된다.

In [3]:
df1.pivot("도시", "연도", "인구")  # 2005년 인천 인구 데이터는 없기 때문에 NaN

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


사실 피봇테이블은 다음과 같이 set_index 명령과 unstack 명령을 사용해서 만들 수도 있다.

In [4]:
df1.set_index(["도시", "연도"])[["인구"]].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [5]:
df1.set_index(["도시", "연도"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구,지역
도시,연도,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,2015,9904312,수도권
서울,2010,9631482,수도권
서울,2005,9762546,수도권
부산,2015,3448737,경상권
부산,2010,3393191,경상권
부산,2005,3512547,경상권
인천,2015,2890451,수도권
인천,2010,263203,수도권


In [6]:
df1.set_index(["도시", "연도"])[["인구"]]  # 인구만 도출, 지역은 제외

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
도시,연도,Unnamed: 2_level_1
서울,2015,9904312
서울,2010,9631482
서울,2005,9762546
부산,2015,3448737
부산,2010,3393191
부산,2005,3512547
인천,2015,2890451
인천,2010,263203


행 인덱스와 열 인덱스는 데이터를 찾는 키(key)의 역할을 한다. 따라서 키 값으로 데이터가 단 하나만 찾아져야 한다. 만약 행 인덱스와 열 인덱스 조건을 만족하는 데이터가 2개 이상인 경우에는 에러가 발생한다. 예를 들어 위 데이터프레임에서 ("지역", "연도")를 키로 하면 ("수도권", "2015")에 해당하는 값이 두 개 이상이므로 다음과 같이 에러가 발생한다.

In [8]:
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [10]:
try:
    df1.pivot("지역", "연도", "인구")
except Exception as e:
    print("Error: ", e)

Error:  Index contains duplicate entries, cannot reshape


### 그룹분석

키의 조건에 맞는 데이터가 하나 이상이라서 데이터 그룹을 이루는 경우에는 그룹의 특성을 보여주는 그룹분석(group analysis)을 한다.

1. 분석하고자 하는 시리즈나 데이터프레임에 groupby 메서드를 호출하여 그룹화를 한다.
2. 그룹 객체에 대해 그룹연산을 수행한다.

#### groupby 메서드

데이터를 그룹 별로 분류

#### 그룹연산 메서드
groupby 결과, 즉 GroupBy 클래스 객체의 뒤에 붙일 수 있는 그룹연산 메서드는 다양하다. 다음은 자주 사용되는 그룹연산 메서드들이다.

+ size, count: 그룹 데이터의 갯수
+ mean, median, min, max: 그룹 데이터의 평균, 중앙값, 최소, 최대
+ sum, prod, std, var, quantile : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수
+ first, last: 그룹 데이터 중 가장 첫번째 데이터와 가장 나중 데이터

이 외에도 많이 사용되는 것으로는 다음과 같은 그룹연산이 있다.

+ agg, aggregate
+ describe
+ apply
+ transform

그룹에 대한 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터 자체를 변형한다.


In [14]:
import numpy as np

np.random.seed(0)
df2 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
}, columns=["key1", 'key2', 'data1', 'data2'])
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [15]:
groups = df2.groupby(df2.key1)
groups  # generating groupby class object 

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x111836b38>

In [16]:
groups.groups  # 각 그룹 데이터의 인덱스를 저장

{'A': Int64Index([0, 1, 4], dtype='int64'),
 'B': Int64Index([2, 3], dtype='int64')}

In [17]:
# 각 그룹별 합계 구하기, data1과 data2를 구분해서 합계를 구함
groups.sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [19]:
# groupby 메서드와 그룹연산 메서드를 연쇄적으로 호출도 가능
df2.groupby(df2.key1).sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [21]:
# 데이터 하나만 그룹 연산일 경우
df2.data1.groupby(df2.key1).sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [22]:
# 그룹분석한 결과에서 데이터 하나만 도출도 가능, 위의 결과와 동일.. 분석후 하나만 도출할 것인지, 하나만 대상으로 분석하여 도출할 것인지 선택 가능
df2.groupby(df2.key1).sum()['data1']

key1
A    8
B    7
Name: data1, dtype: int64

In [23]:
df2.groupby(df2.key1)['data1'].sum() # 위와 동일

key1
A    8
B    7
Name: data1, dtype: int64

### Practice 1

key1의 값을 기준으로 data1의 값을 분류하여 합계를 구한 결과를 시리즈가 아닌 데이터프레임으로 구한다.

In [24]:
df2_new = pd.DataFrame(df2.groupby(df2.key1)['data1'].sum())

In [25]:
df2_new

Unnamed: 0_level_0,data1
key1,Unnamed: 1_level_1
A,8
B,7


이번에는 여러 키 (key1, key2) 값에 따른 data1의 합계를 구하자. 분석하고자 하는 키가 복수이면 리스트를 사용한다.

In [26]:
df2.groupby([df2.key1, df2.key2]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,6,60
A,two,2,20
B,one,3,30
B,two,4,40


이 결과를 unstack 명령으로 피봇 데이블 형태로 만들수도 있다.

In [28]:
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [29]:
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack("key2")  # unstack() : key2를 열로 변환

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [38]:
# df2.pivot("key1", "key2", "data2")    에러 발생, data1, data2 값이 두개 이상 존재(A, one)

In [39]:
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [40]:
# 지역별 합계 구하기
df1["인구"].groupby(df1["지역"]).sum()

지역
경상권    10354475
수도권    32451994
Name: 인구, dtype: int64

In [42]:
# 지역별, 연도별 합계 구하기
df1["인구"].groupby([df1["지역"], df1["연도"]]).sum()  # 두개 이상을 기준으로 설정할 경우 리스트로 넣어줘야 함

지역   연도  
경상권  2005     3512547
     2010     3393191
     2015     3448737
수도권  2005     9762546
     2010     9894685
     2015    12794763
Name: 인구, dtype: int64

In [43]:
# 위의 결과에서 연도만 행을 열로 변환
df1["인구"].groupby([df1["지역"], df1["연도"]]).sum().unstack("연도") 

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


150 송이의 붓꽃(iris)에 대해 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width), 꽃잎폭(sepal_width), 꽃잎폭(sepal_width)을 측정한 데이터 분석

In [44]:
import seaborn as sns
iris = sns.load_dataset('iris')

In [45]:
# 각 종별로 가장 큰 값과 가장 작은 값의 비율 구하는 함수 만들기. 이를 구하는 그룹연산 method가 없기 때문에 만들어서 agg 에 적용

def peak_to_peak_ratio(x):
    return x.max() / x.min()

In [46]:
iris.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [48]:
iris.groupby(iris.species).agg(peak_to_peak_ratio) # 종별로 최대 최소값 비율 구하기 :setosa종이 꽃잎 넓이 비율이 큼

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [49]:
iris.groupby(iris.species).describe().T  # 각 종별로 기본 기술통계 값 한번에 출력

Unnamed: 0,species,setosa,versicolor,virginica
petal_length,count,50.0,50.0,50.0
petal_length,mean,1.462,4.26,5.552
petal_length,std,0.173664,0.469911,0.551895
petal_length,min,1.0,3.0,4.5
petal_length,25%,1.4,4.0,5.1
petal_length,50%,1.5,4.35,5.55
petal_length,75%,1.575,4.6,5.875
petal_length,max,1.9,5.1,6.9
petal_width,count,50.0,50.0,50.0
petal_width,mean,0.246,1.326,2.026


apply 메서드를 사용하면 describe 메서드처럼 하나의 그룹에 대해 하나의 대표값(스칼라 값)을 구하는 게 아니라 데이터프레임을 만들 수 있다.

In [52]:
def top3_petal_length(df):
    return df.sort_values(by="petal_length", ascending=False)[:3]

In [53]:
iris.groupby(iris.species).apply(top3_petal_length)  # 각 종별로 petal_length를 기준으로 상위 3개만 도출

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,24,4.8,3.4,1.9,0.2,setosa
setosa,44,5.1,3.8,1.9,0.4,setosa
setosa,23,5.1,3.3,1.7,0.5,setosa
versicolor,83,6.0,2.7,5.1,1.6,versicolor
versicolor,77,6.7,3.0,5.0,1.7,versicolor
versicolor,72,6.3,2.5,4.9,1.5,versicolor
virginica,118,7.7,2.6,6.9,2.3,virginica
virginica,117,7.7,3.8,6.7,2.2,virginica
virginica,122,7.7,2.8,6.7,2.0,virginica


transform 메서드는 그룹별 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터프레임 자체를 변화시킨다.

In [56]:
def q3cut(s):
    return pd.qcut(s, 3, labels=['소', '중', '대'])

In [58]:
# petal_length를 기준으로 각 종별로 소중대 그룹 분리하여 열로 추가하기
iris["petal_length_class"] = iris.groupby(iris.species)['petal_length'].transform(q3cut)
iris[["petal_length", "petal_length_class"]].tail(10)

Unnamed: 0,petal_length,petal_length_class
140,5.6,중
141,5.1,소
142,5.1,소
143,5.9,대
144,5.7,중
145,5.2,소
146,5.0,소
147,5.2,소
148,5.4,중
149,5.1,소


In [59]:
iris.tail(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
140,6.7,3.1,5.6,2.4,virginica,중
141,6.9,3.1,5.1,2.3,virginica,소
142,5.8,2.7,5.1,1.9,virginica,소
143,6.8,3.2,5.9,2.3,virginica,대
144,6.7,3.3,5.7,2.5,virginica,중
145,6.7,3.0,5.2,2.3,virginica,소
146,6.3,2.5,5.0,1.9,virginica,소
147,6.5,3.0,5.2,2.0,virginica,소
148,6.2,3.4,5.4,2.3,virginica,중
149,5.9,3.0,5.1,1.8,virginica,소


In [63]:
iris["petal_length_class_2"] = iris.petal_length.transform(q3cut)  

#이 경우는 각 종별로 소중대를 구분하는 것이 아니라 전체를 소중대로 구분하기 때문에 다른 결과를 도출

In [62]:
iris.tail(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class,petal_length_class_2
140,6.7,3.1,5.6,2.4,virginica,중,대
141,6.9,3.1,5.1,2.3,virginica,소,대
142,5.8,2.7,5.1,1.9,virginica,소,대
143,6.8,3.2,5.9,2.3,virginica,대,대
144,6.7,3.3,5.7,2.5,virginica,중,대
145,6.7,3.0,5.2,2.3,virginica,소,대
146,6.3,2.5,5.0,1.9,virginica,소,대
147,6.5,3.0,5.2,2.0,virginica,소,대
148,6.2,3.4,5.4,2.3,virginica,중,대
149,5.9,3.0,5.1,1.8,virginica,소,대


### Practice 2

붓꽃(iris) 데이터에서 붓꽃 종(species)별로 꽃잎길이(sepal_length), 꽃잎폭(sepal_width) 등의 평균을 구하라. 만약 붓꽃 종(species)이 표시되지 않았을 때 이 수치들을 이용하여 붓꽃 종을 찾아낼 수 있을지 생각하라.

In [66]:
iris.groupby(iris.species)["sepal_length"].mean()

species
setosa        5.006
versicolor    5.936
virginica     6.588
Name: sepal_length, dtype: float64

In [67]:
iris.groupby(iris.species)["sepal_width"].mean()

species
setosa        3.428
versicolor    2.770
virginica     2.974
Name: sepal_width, dtype: float64

In [69]:
iris.groupby(iris.species)["petal_length"].mean()

species
setosa        1.462
versicolor    4.260
virginica     5.552
Name: petal_length, dtype: float64

In [70]:
iris.groupby(iris.species)["petal_width"].mean()

species
setosa        0.246
versicolor    1.326
virginica     2.026
Name: petal_width, dtype: float64

In [72]:
iris.groupby(iris.species).mean() # 한꺼번에 알고 싶을 때는 다음과 같이 도출 가능
# 종이 알려지지 않을 경우에는 분산을 구하여 어느 위치에 있는지 파악하면 종을 찾아낼 수 있을 듯...

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [73]:
iris.groupby(iris.species).std()  # 표준편차 : 평균을 기준으로 편차가 어느 정도 발생하는지 파악하여 종 파악 가능

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.35249,0.379064,0.173664,0.105386
versicolor,0.516171,0.313798,0.469911,0.197753
virginica,0.63588,0.322497,0.551895,0.27465


### pivot_table
Pandas는 pivot 명령과 groupby 명령의 중간 성격을 가지는 pivot_table 명령도 제공한다.

pivot_table 명령은 groupby 명령처럼 그룹분석을 하지만 최종적으로는 pivot 명령처럼 피봇테이블을 만든다.

+ pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, margins_name='All')
    
    * data: 분석할 데이터프레임 (메서드일 때는 필요하지 않음)
    
    * values: 분석할 데이터프레임에서 분석할 열
    
    * index: 행 인덱스로 들어갈 키 열 또는 키 열의 리스트
    
    * columns: 열 인덱스로 들어갈 키 열 또는 키 열의 리스트
    
    * aggfunc: 분석 메서드
    
    * fill_value: NaN 대체 값
    
    * margins: 모든 데이터를 분석한 결과를 오른쪽과 아래에 붙일지 여부
    
    * margins_name: 마진 열(행)의 이름
    

만약 조건에 따른 데이터가 유일하게 선택되지 않으면 그룹연산을 하며 이 때 aggfunc 인수로 정의된 함수를 수행하여 대표값을 계산한다.

In [74]:
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [75]:
df1.pivot_table("인구", "도시", "연도")  # 이 경우 데이터를 맨 앞에 넣음 다음으로 피봇할 열 기준을 설정

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [76]:
df1.pivot("도시", "연도", "인구")   # pivot 의 경우 도시, 연도, 인구 순으로 인구를 맨 마지막에 넣음

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


margins=True 인수를 주면 aggfunc로 주어진 분석 방법을 해당 열의 모든 데이터, 해당 행의 모든 데이터 그리고 전체 데이터에 대해 적용한 결과를 같이 보여준다. aggfunc가 주어지지 않았으면 평균을 계산한다.

In [77]:
df1.pivot_table("인구", "도시", "연도", margins=True, margins_name="합계")  # 연도별 합계를 나타내지만 결과적으로는 도시별 평균값이 도출 

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,3451492.0
서울,9762546.0,9631482.0,9904312.0,9766113.0
인천,,263203.0,2890451.0,1576827.0
합계,6637546.5,4429292.0,5414500.0,5350809.0


In [78]:
df1["인구"].mean()  #아래 행의 끝 열 값이 전체 평균값과 동일

5350808.625

행 인덱스나 열 인덱스에 리스트를 넣으면 다중 인덱스 테이블을 만든다.

In [79]:
df1.pivot_table("인구", index=["연도", "도시"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


In [81]:
df1.pivot_table("인구", index=["도시", "연도"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
도시,연도,Unnamed: 2_level_1
부산,2005,3512547
부산,2010,3393191
부산,2015,3448737
서울,2005,9762546
서울,2010,9631482
서울,2015,9904312
인천,2010,263203
인천,2015,2890451


### TIP 데이터 예제
식당에서 식사 후 내는 팁(tip)과 관련된 데이터를 이용하여 좀더 구체적으로 그룹분석 방법을 살펴본다. 우선 Seaborn 패키지에 설치된 샘플 데이터를 로드한다. 이 데이터프레임에서 각각의 컬럼은 다음을 뜻한다.

+ total_bill: 식사대금
+ tip: 팁
+ sex: 성별
+ smoker: 흡연/금연 여부
+ day: 요일
+ time: 시간
+ size: 인원

In [82]:
tips = sns.load_dataset('tips')
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


분석의 목적 : 식사 대금 대비 팁의 비율이 가장 높아지지는 경우를 찾는 것이다. 우선 식사대금과 팁의 비율을 나타내는 tip_pct를 추가.

In [83]:
tips["tip_pct"] = tips.tip / tips.total_bill
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.0,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.0,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204
243,18.78,3.0,Female,No,Thur,Dinner,2,0.159744


In [84]:
# 기술통계 알아보기
tips.describe()
# 팁이 가장 높은 비율은 0.71, 낮은 비율은 0.04, 평균은 0.16

Unnamed: 0,total_bill,tip,size,tip_pct
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,0.160803
std,8.902412,1.383638,0.9511,0.061072
min,3.07,1.0,1.0,0.035638
25%,13.3475,2.0,2.0,0.129127
50%,17.795,2.9,2.0,0.15477
75%,24.1275,3.5625,3.0,0.191475
max,50.81,10.0,6.0,0.710345


In [91]:
# 성별을 나누어 데이터 갯수 알아보기
tips.groupby(tips.sex).count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_pct
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


데이터 갯수의 경우 NaN 데이터가 없다면 모두 같은 값이 나올 것이다. 이 때는 size 명령을 사용하면 더 간단히 표시된다. size 명령은 NaN이 있어도 상관하지 않는다.

In [92]:
tips.groupby(tips.sex).size() # 남성이 여성이 두배 정도 많음

sex
Male      157
Female     87
dtype: int64

In [93]:
# 성별과 흡연여부로 나누어 데이터 갯수 알아보기
tips.groupby(["sex", "smoker"]).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [96]:
# 위의 결과를 피봇테이블 형태로 바꾸기
tips.pivot_table("tip_pct", "sex", "smoker", margins=True, aggfunc="count")

smoker,No,Yes,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Female,54,33,87
Male,97,60,157
All,151,93,244


In [97]:
# 성별과 흡연여부에 따라 팁 비율 살펴보기
tips.groupby(tips.sex)["tip_pct"].mean()

sex
Male      0.157651
Female    0.166491
Name: tip_pct, dtype: float64

In [98]:
tips.groupby(tips.smoker)["tip_pct"].mean()

smoker
Yes    0.163196
No     0.159328
Name: tip_pct, dtype: float64

In [99]:
# 동시에 팁 비율 알아보기
tips.groupby([tips.sex, tips.smoker])['tip_pct'].mean()  # 흡연자이면서 여성인 경우가 가장 팁 비율이 높음

sex     smoker
Male    Yes       0.152771
        No        0.160669
Female  Yes       0.182150
        No        0.156921
Name: tip_pct, dtype: float64

In [101]:
# 위의 결과를 pivot table로 변환
tips.pivot_table("tip_pct", index=["sex", "smoker"])  # 피봇테이블을 사용하면 mean을 별도로 구할 필요가 없음

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Female,No,0.156921
Female,Yes,0.18215
Male,No,0.160669
Male,Yes,0.152771


In [102]:
tips.pivot_table("tip_pct", "sex", "smoker")  # smoker를 열 기준으로 전환

smoker,No,Yes
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,0.156921,0.18215
Male,0.160669,0.152771


여성 혹은 흡연자의 팁 비율이 높은 것을 볼 수 있다. 하지만 이 데이터에는 평균을 제외한 분산(variance) 등의 다른 통계값이 없으므로 describe 명령으로 여러가지 통계값을 한 번에 알아본다.

In [105]:
tips.groupby(["sex"])['tip_pct'].describe() # 상대적으로 남성 분산이 큼

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Male,157.0,0.157651,0.064778,0.035638,0.121389,0.153492,0.18624,0.710345
Female,87.0,0.166491,0.053632,0.056433,0.140416,0.155581,0.194266,0.416667


In [106]:
tips.groupby(["smoker"])['tip_pct'].describe()  # 비흡연자는 분산이 적으나 흡연자는 분산이 큼

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Yes,93.0,0.163196,0.085119,0.035638,0.106771,0.153846,0.195059,0.710345
No,151.0,0.159328,0.03991,0.056797,0.136906,0.155625,0.185014,0.29199


In [107]:
tips.groupby(["sex", "smoker"])['tip_pct'].describe() # 상대적으로 남성 흡연자의 분산이 크며, 다음으로 여성 흡연자 분산이 큼

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Male,Yes,60.0,0.152771,0.090588,0.035638,0.101845,0.141015,0.191697,0.710345
Male,No,97.0,0.160669,0.041849,0.071804,0.13181,0.157604,0.18622,0.29199
Female,Yes,33.0,0.18215,0.071595,0.056433,0.152439,0.173913,0.198216,0.416667
Female,No,54.0,0.156921,0.036421,0.056797,0.139708,0.149691,0.18163,0.252672


### Practice 3
1. 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴본다.
2. 어떤 요인이 가장 크게 작용하는지 판단할 수 있는 방법이 있는가?

In [108]:
# 먼저 요일과 점심/저녁 여부로 그룹핑하여 팁 비율 알아보기
tips.groupby([tips.day, tips.time])["tip_pct"].size()

day   time  
Thur  Lunch     61
      Dinner     1
Fri   Lunch      7
      Dinner    12
Sat   Dinner    87
Sun   Dinner    76
Name: tip_pct, dtype: int64

In [109]:
tips.pivot_table("tip_pct", index=[tips.day, tips.time])  #팁 비율 평균 알아보기 : 금요일 점심시간의 팁 비율이 가장 높음

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
day,time,Unnamed: 2_level_1
Sun,Dinner,0.166897
Sat,Dinner,0.153152
Thur,Dinner,0.159744
Thur,Lunch,0.161301
Fri,Dinner,0.158916
Fri,Lunch,0.188765


In [110]:
# 기술통계 알아보기
tips.groupby([tips.day, tips.time])['tip_pct'].describe()  # 금요일 점심시간의 편차는 그다지 크지 않음

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Thur,Lunch,61.0,0.161301,0.038972,0.072961,0.137741,0.153846,0.193424,0.266312
Thur,Dinner,1.0,0.159744,,0.159744,0.159744,0.159744,0.159744,0.159744
Fri,Lunch,7.0,0.188765,0.045885,0.117735,0.167289,0.187735,0.210996,0.259314
Fri,Dinner,12.0,0.158916,0.047024,0.103555,0.123613,0.144742,0.179199,0.26348
Sat,Dinner,87.0,0.153152,0.051293,0.035638,0.123863,0.151832,0.188271,0.325733
Sun,Dinner,76.0,0.166897,0.084739,0.059447,0.119982,0.161103,0.187889,0.710345


In [118]:
# 인원수와 팁 비율 관계 알아보기
tips.groupby("size")["tip_pct"].describe()  # tips.size로 그룹바이는 작동 안함

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
size,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,4.0,0.217292,0.080342,0.137931,0.170779,0.202752,0.249265,0.325733
2,156.0,0.165719,0.066848,0.035638,0.135223,0.156104,0.195036,0.710345
3,38.0,0.152157,0.045459,0.056433,0.124758,0.159323,0.186135,0.230742
4,37.0,0.145949,0.042395,0.077459,0.11775,0.146699,0.169797,0.280535
5,5.0,0.141495,0.067733,0.06566,0.106572,0.121389,0.172194,0.241663
6,4.0,0.156229,0.042153,0.103799,0.131654,0.162891,0.187466,0.195335


In [119]:
# 인원수가 한명일때 가장 킴이 많고 점점 줄어들다가 6명일 때 다소 커짐. 
# 분산은 한명일 때 가장 크기도 함 정확하게 판단 어려운 것이 1명일 경우 샘플 갯수가 너무 적음
# 오히려 두명인 경우가 샘플 수가 가장 많으면서 두번째로 팁이 많은 것을 보아 해당 인원수가 팁을 많이 주는 것으로 판단 가능

이번에는 각 그룹에서 가장 많은 팁과 가장 적은 팁의 차이를 알아보자. 이 계산을 해 줄 수 있는 그룹연산 함수가 없으므로 함수를 직접 만들고 agg 메서드를 사용한다.

In [120]:
def peak_to_peak(x):
    return x.max() - x.min()

In [123]:
tips.groupby([tips.sex, tips.smoker])[["tip"]].agg(peak_to_peak)

Unnamed: 0_level_0,Unnamed: 1_level_0,tip
sex,smoker,Unnamed: 2_level_1
Male,Yes,9.0
Male,No,7.75
Female,Yes,5.5
Female,No,4.2


In [122]:
# 가장 큰 차이를 나타내는 그룹은 흡연자이면서 남성.. 여성은 상대적으로 일정함

만약 여러가지 그룹연산을 동시에 하고 싶다면 다음과 같이 리스트를 이용한다.

In [126]:
tips.groupby(["sex", "smoker"]).agg(["mean", peak_to_peak])[["total_bill"]]  # 정의한 함수는 ""는 필요없음

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,total_bill
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,peak_to_peak
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2
Male,Yes,22.2845,43.56
Male,No,19.791237,40.82
Female,Yes,17.977879,41.23
Female,No,18.105185,28.58


만약 데이터 열마다 다른 연산을 하고 싶다면 열 라벨과 연산 이름(또는 함수)를 딕셔너리로 넣는다.

In [127]:
tips.groupby(["sex", "smoker"]).agg(
{'tip_pct': 'mean', 'total_bill': peak_to_peak})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,total_bill
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,0.152771,43.56
Male,No,0.160669,40.82
Female,Yes,0.18215,41.23
Female,No,0.156921,28.58


In [128]:
# 여성 비흡연자가 차이가 크지 않으면서 팁 비율도 어느정도 내고 있음

In [129]:
tips.pivot_table(["tip_pct", "size"], ["sex", "day"], "smoker") # 성별/요일별 팁 비율과 인원수 살펴보기

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,Yes,No,Yes,No
sex,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Female,Sun,2.5,3.071429,0.237075,0.16571
Female,Sat,2.2,2.307692,0.163817,0.147993
Female,Thur,2.428571,2.48,0.163073,0.155971
Female,Fri,2.0,2.5,0.209129,0.165296
Male,Sun,2.6,2.883721,0.173964,0.158291
Male,Sat,2.62963,2.65625,0.139067,0.162132
Male,Thur,2.3,2.5,0.164417,0.165706
Male,Fri,2.125,2.0,0.14473,0.138005


In [130]:
tips.pivot_table('size', ['time', 'sex', 'smoker'], 'day', aggfunc='sum', fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,day,Thur,Fri,Sat,Sun
time,sex,smoker,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dinner,Female,No,2,2,30,43
Dinner,Female,Yes,0,8,33,10
Dinner,Male,No,0,4,85,124
Dinner,Male,Yes,0,12,71,39
Lunch,Female,No,60,3,0,0
Lunch,Female,Yes,17,6,0,0
Lunch,Male,No,50,0,0,0
Lunch,Male,Yes,23,5,0,0


### Practice 4
타이타닉 승객 데이터를 이용하여 다음 분석을 실시하라. 데이터는 다음과 같이 받을 수 있다.

1. qcut 명령으로 세 개의 나이 그룹을 만든다.
2. 성별, 선실, 나이 그룹에 의한 생존율을 데이터프레임으로 계산한다. 행에는 성별 및 나이 그룹에 대한 다중 인덱스를 사용하고 열에는 선실 인덱스를 사용한다.
3. 성별 및 선실에 의한 생존율을 피봇 데이터 형태로 만든다.

In [131]:
titanic = sns.load_dataset('titanic')

In [132]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [133]:
# qcut으로 세개 나이 그룹으로 만들기
titanic["age_group"] = pd.qcut(titanic.age, 3, labels=["소", "중", "대"])

In [134]:
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_group
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,중
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,소
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,중
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,중


In [136]:
# 성별, 선실, 나이그룹에 따른 생존률 데이터 프레임 계산
titanic.groupby(titanic.sex)['survived'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
female,314.0,0.742038,0.438211,0.0,0.0,1.0,1.0,1.0
male,577.0,0.188908,0.391775,0.0,0.0,0.0,0.0,1.0


In [137]:
# 여성 생존률 0.74, 남성 생존률 0.19

In [140]:
# 한꺼번에 생존률 살펴보기
titanic.pivot_table('survived', ["sex", "class"], 'age_group')

Unnamed: 0_level_0,age_group,소,중,대
sex,class,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,Third,0.508475,0.25,0.481481
female,First,0.954545,0.977273,0.947368
female,Second,1.0,0.857143,0.909091
male,Third,0.158879,0.055556,0.195652
male,First,0.5,0.347826,0.5
male,Second,0.357143,0.0625,0.076923


In [None]:
# 여성인 경우 일등석이 연령대 상관없이 대부분 생존율이 높고, 3등석과 아주 차이가 남
# 남성인 경우 일등석이 높기는 하나 여성의 3등석 수준