In [1]:
import numpy as np
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"
import seaborn as sns

### 피봇테이블
- 가지고 있는 데이터원본을 원하는 형태의 가공된 정보를 보여주는 것
  - 자료의 형태를 변경하기 위해 많이 사용하는 방법
- 좌측표는 제품이 생산될 때 마다 코드, 크기, 생산 수량을 기록 오른쪽은 지역별로 제품생산코드를 요약하여어떤 제품을 몇번 생산했는지 요약
![image.png](attachment:image.png)

- 좌측표는 제품이 생산될 때 마다 코드, 크기, 생산 수량을 기록 오른쪽은 제품 크기별로 각 제품이 몇번 생산되었는지 요약
![image-2.png](attachment:image-2.png)

- 방법 : 두개의 키를 사용해서 데이터를 선택
- pivot_table(data,values=None,index=None,columns=None,aggfunc='mean',margins=False,margins_name='A
  - data : 분석할 데이터 프레임. 메서드 형식일때는 필요하지 않음 ex)df1.pivot_table()
  - values : 분석할 데이터 프레임에서 분석할 열
  - index : 행 인덱스로 들어갈 키열 또는 키열의 리스트
  - columns : 열 인덱스로 들어갈 키열 또는 키열의 리스트
  - fill_value : NaN이 표출될 때 대체값 지정
  - margins : 모든 데이터를 분석한 결과를 행으로 표출할 지 여부
  - margins_name : margins가 표출될 때 그 열(행)의 이름`

#### 피봇테이블을 작성할 때 반드시 설정해야 되는 인수
- data : 사용 데이터 프레임
- index : 행 인덱스로 사용할 필드(기준 필드로 작용됨)
- 인덱스 명을 제외한 나머지 값(data)은 수치 data 만 사용함
- 기본 함수가 평균(mean)함수 이기 때문에 각 데이터의 평균값이 반환

In [2]:
data = { 
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"], 
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"], 
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203], 
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [3]:
# 각 도시에 대한 연도별 인구 평균
df1.pivot_table(index="도시", columns='연도', values='인구')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [4]:
# 각 지역별 도시에 대한 연도별 인구 평균
df1.pivot_table(index=['지역',"도시"], columns='연도', values='인구')

Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


In [5]:
df = sns.load_dataset('titanic')[['age','sex','class','fare','survived']]
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [6]:
# 선실 등급별로 숙박객의 성별 평균 나이
pdf1=pd.pivot_table(df,# 피벗할 데이터 프레임
                    index='class',# 행 인덱스로 사용
                    columns='sex',# 컬럼으로 사용
                    values='age',# 계산데이터로 사용할 열
                    aggfunc='mean'# 데이터 집계함수
                    )
pdf1

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,34.611765,41.281386
Second,28.722973,30.740707
Third,21.75,26.507589


In [7]:
# 각 선실 등급별로 숙박객의 성별에 따른 생존자 수와 생존율 
pdf1=pd.pivot_table(df,# 피벗할 데이터 프레임
                    index='class',# 행 인덱스로 사용
                    columns='sex',# 컬럼으로 사용
                    values='survived',# 계산데이터로 사용할 열
                    aggfunc=['mean','sum']# 데이터 집계함수
                    )
pdf1

Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


In [8]:
# 선실 등급에 따른 성별에 대해 생존여부열로 나이와 티켓값의 평균과 최대값을 산출
pdf3=pd.pivot_table(df,# 피벗할 데이터 프레임
                    index=['class','sex'],# 행 인덱스로 사용
                    columns='survived',# 컬럼으로 사용
                    values=['age','fare'],# 계산데이터로 사용할 열
                    aggfunc=['mean','max']# 데이터 집계함수
                    )
pdf3

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958


### 그룹 분석
- 만약 키가 지정하는 조건에 맞는 데이터가 하나 이상이라서 데이터 그룹을 이루는 경우에는 그룹의 특성을보여주는 그룹분석(group analysis)을 해야 함
  - 그룹분석은 피봇테이블과 달리 키에 의해서 결정되는 데이터가 여러개가 있을 경우 미리 지정한 연산을통해 그 그룹 데이터의 대표값을 계산 하는 것
- 판다스에서는 groupby 메서드를 사용하여 아래 내용 처럼 그룹분석을 진행
  - 분석하고자 하는 시리즈나 데이터프레임에 groupby 메서드를 호출하여 그룹화 수행
  - 그룹 객체에 대해 그룹연산을 수행

#### groupby 메서드
- groupby 메서드는 데이터를 그룹 별로 분류하는 역할을 함
- groupby 메서드의 인수
  - 열 또는 열의 리스트
  - 행 인덱스
- 연산 결과로 그룹 데이터를 나타내는 GroupBy 클래스 객체를 반환
  - 이 객체에는 그룹별로 연산을 할 수 있는 그룹연산 메서드가 있음
#### GroupBy 클래스 객체의 그룹연산 메서드
- size, count: 그룹 데이터의 갯수
- mean, median, min, max: 그룹 데이터의 평균, 중앙값, 최소, 최대
- sum, prod, std, var, quantile : 그룹 데이터의 합계, 곱, 표준편차, 분산, 사분위수
- first, last: 그룹 데이터 중 가장 첫번째 데이터와 가장 나중 데이터

#### 이 외에도 많이 사용되는 그룹 연산
- agg, aggregate
  - 만약 원하는 그룹연산이 없는 경우 함수를 만들고 이 함수를 agg에 전달한다.
  - 또는 여러가지 그룹연산을 동시에 하고 싶은 경우 함수 이름 문자열의 리스트를 전달한다.
- describe
  - 하나의 그룹 대표값이 아니라 여러개의 값을 데이터프레임으로 구한다.
- apply
  - describe 처럼 하나의 대표값이 아닌 데이터프레임을 출력하지만 원하는 그룹연산이 없는 경우에 사용한다.
- transform
  - 그룹에 대한 대표값을 만드는 것이 아니라 그룹별 계산을 통해 데이터 자체를 변형한다

In [9]:
np.random.seed(0)
df2 = pd.DataFrame({ 
    'key1': ['A', 'A', 'B', 'B', 'A'], 
    'key2': ['one', 'two', 'one', 'two', 'one'], 
    'data1': [1, 2, 3, 4, 5], 
    'data2': [10, 20, 30, 40, 50]})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [10]:
groups = df2.groupby(df2.key1)
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fb119f24970>

In [11]:
# groups 속성을 확인하면 그룹핑된 요약을 볼 수 있음
groups.groups
# 딕셔너리 반환
# {그룹명 : 그룹에 포함된 행인덱스}
groups.groups.keys()
groups.groups['A']

{'A': [0, 1, 4], 'B': [2, 3]}

dict_keys(['A', 'B'])

Int64Index([0, 1, 4], dtype='int64')

In [12]:
pd.DataFrame(groups)

Unnamed: 0,0,1
0,A,key1 key2 data1 data2 0 A one 1 ...
1,B,key1 key2 data1 data2 2 B one 3 ...


In [13]:
pd.DataFrame(groups).loc[0].values

array(['A',   key1 key2  data1  data2
            0    A  one      1     10
            1    A  two      2     20
            4    A  one      5     50], dtype=object)

In [14]:
pd.DataFrame(groups).loc[1].values

array(['B',   key1 key2  data1  data2
            2    B  one      3     30
            3    B  two      4     40], dtype=object)

In [15]:
pd.DataFrame(groups).loc[1].values[1]

Unnamed: 0,key1,key2,data1,data2
2,B,one,3,30
3,B,two,4,40


In [16]:
# groupby 객체에 연산 메서드를 적용시켜 요약 결과를 확인
groups.sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [17]:
groups['data1'].sum() # data1 선택 후 계산
groups.sum()['data1'] # 전체 데이터 계산 후 data1 선택

key1
A    8
B    7
Name: data1, dtype: int64

key1
A    8
B    7
Name: data1, dtype: int64

In [18]:
groups[['data1']].sum()
groups[['data2']].sum()

Unnamed: 0_level_0,data1
key1,Unnamed: 1_level_1
A,8
B,7


Unnamed: 0_level_0,data2
key1,Unnamed: 1_level_1
A,80
B,70


### 그룹 함수 예제
- apply()/agg()
  - DF 등에 벡터라이징 연산을 적용하는 함수(axis = 0/1 이용하여 행/열 적용가능)
  - agg 함수는 숫자 타입의 스칼라만 리턴하는 함수를 적용
    - apply의 특수한 경우
  - 스칼라 : 하나의 수치(數値)만으로 완전히 표시되는 양. 방향의 구별이 없는 물리적 수량임.질량·에너지·밀도(密度)·전기량(電氣量) 따위.

In [19]:
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [20]:
#iris 품조별로 그룹
i_groups = iris.groupby(iris.species)

In [21]:
i_groups.mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [22]:
# pd.DataFrame(i_groups)
# pd.DataFrame(i_groups).loc[1].values
# pd.DataFrame(i_groups).loc[1].values[1]['sepal_width']
pd.DataFrame(i_groups).loc[1].values[1]['sepal_width'].max()

3.4

In [23]:
i_groups.petal_length.sum()

species
setosa         73.1
versicolor    213.0
virginica     277.6
Name: petal_length, dtype: float64

In [24]:
# i_groups.max()
# i_groups.min()
i_groups.max()/i_groups.min()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [25]:
def peak_to_ratio(x): #x 는 시리즈
    return x.max()/x.min() # 함수 반환 값이 수치 스칼라 타입

In [26]:
peak_to_ratio(iris.sepal_length)

1.8372093023255816

In [27]:
# 그룹 객체의 각 그룹에 대해 열별로 peak_to_peak_ratio 함수 호출
i_groups.agg(peak_to_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [28]:
i_groups.apply(peak_to_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [29]:
def top_3_petal_length(df):
    return df.sort_values(by='petal_length',ascending = False)[:3]


In [30]:
top_3_petal_length(iris)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
117,7.7,3.8,6.7,2.2,virginica


In [31]:
i_groups.apply(top_3_petal_length)

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,24,4.8,3.4,1.9,0.2,setosa
setosa,44,5.1,3.8,1.9,0.4,setosa
setosa,23,5.1,3.3,1.7,0.5,setosa
versicolor,83,6.0,2.7,5.1,1.6,versicolor
versicolor,77,6.7,3.0,5.0,1.7,versicolor
versicolor,72,6.3,2.5,4.9,1.5,versicolor
virginica,118,7.7,2.6,6.9,2.3,virginica
virginica,117,7.7,3.8,6.7,2.2,virginica
virginica,122,7.7,2.8,6.7,2.0,virginica


In [32]:
# i_groups.agg(top3_petal_length)
# agg에 적용된 함수의 반환값이 수치 스칼라가 아니기때문에
# ValueError: Buffer has wrong number of dimensions (expected 1, got 2)

- apply 예제 2

In [33]:
def q3cut(s):
    return pd.qcut(s,3,labels=['대','중','소']).astype(str)

In [34]:
iris.groupby(iris.species).petal_length.apply(q3cut)

0      대
1      대
2      대
3      중
4      대
      ..
145    대
146    대
147    대
148    중
149    대
Name: petal_length, Length: 150, dtype: object

In [35]:
q3cut(iris.petal_length)

0      대
1      대
2      대
3      대
4      대
      ..
145    소
146    소
147    소
148    소
149    소
Name: petal_length, Length: 150, dtype: object

In [36]:
iris.head(1)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa


In [37]:
iris['petal_length_class'] = iris.groupby(iris.species).petal_length.apply(q3cut)
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,대
1,4.9,3.0,1.4,0.2,setosa,대
2,4.7,3.2,1.3,0.2,setosa,대
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,대


### 그룹함수 및 피봇 테이블 이용 간단한 분석 예제

#### 식당에서 식사 후 내는 팁(tip)과 관련된 데이터이용
- seaborn 패키지 내 tips 데이터셋 사용
  - total_bill: 식사대금
  - tip: 팁
  - sex: 성별
  - smoker: 흡연/금연 여부
  - day: 요일
  - time: 시간
  - size: 인원

In [38]:
tips = sns.load_dataset("tips")
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


#### 식사 대금 대비 팁의 비율이 언제 가장 높아지는가?
- 가공 필드 생성 : 식사대금 대비 팁의 비율
  - tip_pt = 팁 / 식사대금

In [39]:
tips['tip_pt']=tips['tip']/tips['total_bill']
tips.head()
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pt
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pt
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.0,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.0,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204
243,18.78,3.0,Female,No,Thur,Dinner,2,0.159744


In [40]:
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   tip_pt      244 non-null    float64 
dtypes: category(4), float64(3), int64(1)
memory usage: 9.3 KB


In [41]:
tips.describe()

Unnamed: 0,total_bill,tip,size,tip_pt
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,0.160803
std,8.902412,1.383638,0.9511,0.061072
min,3.07,1.0,1.0,0.035638
25%,13.3475,2.0,2.0,0.129127
50%,17.795,2.9,2.0,0.15477
75%,24.1275,3.5625,3.0,0.191475
max,50.81,10.0,6.0,0.710345


In [42]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pt
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


In [43]:
test_df = pd.DataFrame(tips.groupby('sex'))
test_df.loc[1][1].head(2)
test_df.loc[0][1].head(2)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pt
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pt
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587


In [44]:
# 성별 인원수를 계산
# 모든열에 결측치가 없으므로 모든열의 성별 인원수는 동일
tips.groupby('sex').count()
tips.groupby('sex').size() #그룹내의 원소의 개수를 반환

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_pt
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


sex
Male      157
Female     87
dtype: int64

In [45]:
# 흡연 유무에 따른 성별 인원
t_gp=tips.groupby(['sex','smoker'])
# pd.DataFrame(t_gp).loc[3][1]
t_gp.size()
# 남성 여성 모두 비 흡연자수가 많다

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [46]:
# 흡연 유무에 따른 성별 인원을 피봇테이블로 구현
tips.pivot_table('total_bill',index='sex',columns='smoker',aggfunc='count')

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,60,97
Female,33,54


In [47]:
# 성별 팁 비율의 평균
tips.groupby('sex')['tip_pt'].mean()
# 여성이 식사금액 대비 팁 비율의 평균이 근소하게 높다

sex
Male      0.157651
Female    0.166491
Name: tip_pt, dtype: float64

In [48]:
# 흡연 유무에 따른 팁 비율의 평균
tips.groupby('smoker')['tip_pt'].mean()

# 흡연자가 비 흡연자에 비해 팁비율이 근소하게 높다

smoker
Yes    0.163196
No     0.159328
Name: tip_pt, dtype: float64

In [49]:
# 성별과 흡연 유무에 따른 팁 비율의 평균
tips.pivot_table(values='tip_pt',index='sex',columns='smoker')

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


#### 여성 혹은 흡연자의 팁 비율이 조금 높고, 여성 흡연자가 팁을 많이 줌

In [50]:
# 요일별 손님 수
tips.groupby('day').size()

day
Thur    62
Fri     19
Sat     87
Sun     76
dtype: int64

In [51]:
len(tips)

244

In [52]:
# 요일별 여성/남성 손님 비율
tips.groupby(['day','sex']).size()/len(tips)*100
# 여성 손님은 목요일에 비중이 높고 주말은 남성손님의 비중이 높다

day   sex   
Thur  Male      12.295082
      Female    13.114754
Fri   Male       4.098361
      Female     3.688525
Sat   Male      24.180328
      Female    11.475410
Sun   Male      23.770492
      Female     7.377049
dtype: float64

In [53]:
# 요일별 테이블당 평균 인원 수
tips.groupby('day')['size'].mean()

day
Thur    2.451613
Fri     2.105263
Sat     2.517241
Sun     2.842105
Name: size, dtype: float64

In [54]:
# 요일별 평균 팁 비율
tips.groupby('day')['size'].mean()

day
Thur    2.451613
Fri     2.105263
Sat     2.517241
Sun     2.842105
Name: size, dtype: float64

In [55]:
# 요일별 평균 식사금액과  평균 팁
tips.groupby('day')[['total_bill','tip']].mean()

Unnamed: 0_level_0,total_bill,tip
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,17.682742,2.771452
Fri,17.151579,2.734737
Sat,20.441379,2.993103
Sun,21.41,3.255132


In [56]:
tips.groupby(['day','sex','smoker'])['tip_pt'].mean()

day   sex     smoker
Thur  Male    Yes       0.164417
              No        0.165706
      Female  Yes       0.163073
              No        0.155971
Fri   Male    Yes       0.144730
              No        0.138005
      Female  Yes       0.209129
              No        0.165296
Sat   Male    Yes       0.139067
              No        0.162132
      Female  Yes       0.163817
              No        0.147993
Sun   Male    Yes       0.173964
              No        0.158291
      Female  Yes       0.237075
              No        0.165710
Name: tip_pt, dtype: float64

In [57]:
# 평균 통계량만 확인 했으므로 다른 통계값도 확인
tips.groupby(['sex','smoker'])[['tip_pt']].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pt,tip_pt,tip_pt,tip_pt,tip_pt,tip_pt,tip_pt,tip_pt
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Male,Yes,60.0,0.152771,0.090588,0.035638,0.101845,0.141015,0.191697,0.710345
Male,No,97.0,0.160669,0.041849,0.071804,0.13181,0.157604,0.18622,0.29199
Female,Yes,33.0,0.18215,0.071595,0.056433,0.152439,0.173913,0.198216,0.416667
Female,No,54.0,0.156921,0.036421,0.056797,0.139708,0.149691,0.18163,0.252672
