1. 평균 팁
2. 요일 별 평균 팁
3. 점심/저녁의 팁 평균
4. 흡연자 비율
5. 성별 흡연 여부에 따른 평균
6. 총 결제금액을 기준으로 내림차순 정렬
7. 식당이 주에 몇일 영업하는지 추출
8. 총 결제 금액을 3등분하여 'low', 'medium', 'high'의 평균 팁
9. 총 결제 금액 별 tip 평균

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
tips = sns.load_dataset('tips')

In [2]:
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [3]:
tips.head(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


- total_bill: 결제 금액
- tip: 팁
- sex: 결제한 사람의 성별
- smoker: 흡연 여부
- day: 요일
- time: Lunch/Dinner
- size: 인원 수

# 평균 팁

In [5]:
round(tips['tip'].mean(), 2)
# 전체 평균 팁은 약 3$이다.

3.0

# 요일 별 평균 팁

In [7]:
round(tips.groupby('day')['tip'].mean(), 2)
# 일요일의 팁 평균이 가장 높고 목요일이 가장 적다.
# 목,금,토,일 주 4일만 영업함

day
Thur    2.77
Fri     2.73
Sat     2.99
Sun     3.26
Name: tip, dtype: float64

# 점심/저녁의 팁 평균

In [8]:
round(tips.groupby('time')['tip'].mean(), 2)
# 점심시간대 보다 저녁시간에 평균 팁이 더 높다.

time
Lunch     2.73
Dinner    3.10
Name: tip, dtype: float64

## 평균 팁이 가장 높은 요일과 시간대

In [9]:
round(tips.groupby(['day','time'])['tip'].mean(), 2).sort_values(ascending = False)
# 일요일 저녁의 팁 평균이 가장 높다.
# 주말엔 점심 장사를 하지 않는다.

day   time  
Sun   Dinner    3.26
Thur  Dinner    3.00
Sat   Dinner    2.99
Fri   Dinner    2.94
Thur  Lunch     2.77
Fri   Lunch     2.38
Sat   Lunch      NaN
Sun   Lunch      NaN
Name: tip, dtype: float64

# 흡연자 비율

In [12]:
tips.groupby('smoker').size()

smoker
Yes     93
No     151
dtype: int64

In [14]:
round(tips.groupby('smoker').size() / 244 * 100, 2)
# 과반수가 비흡연자다.

smoker
Yes    38.11
No     61.89
dtype: float64

# 성별과 흡연 여부에 따른 평균 팁

In [16]:
round(tips.groupby(['sex', 'smoker'])['tip'].mean(), 2)
# 비흡연자 남성의 평균 팁이 가장 높고 비흡연자 여성의 평균 팁이 가장 낮다.

sex     smoker
Male    Yes       3.05
        No        3.11
Female  Yes       2.93
        No        2.77
Name: tip, dtype: float64

# 총 결제금액을 기준으로 내림차순 정렬

In [18]:
tips.sort_values('total_bill', ascending=False)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
170,50.81,10.00,Male,Yes,Sat,Dinner,3
212,48.33,9.00,Male,No,Sat,Dinner,4
59,48.27,6.73,Male,No,Sat,Dinner,4
156,48.17,5.00,Male,No,Sun,Dinner,6
182,45.35,3.50,Male,Yes,Sun,Dinner,3
...,...,...,...,...,...,...,...
149,7.51,2.00,Male,No,Thur,Lunch,2
111,7.25,1.00,Female,No,Sat,Dinner,1
172,7.25,5.15,Male,Yes,Sun,Dinner,2
92,5.75,1.00,Female,Yes,Fri,Dinner,2


In [19]:
tips['tip'].max()
# 총 결제 금액이 가장 많은 테이블이 팁을 가장 많이 냈다.

10.0

# 식당이 주에 몇일 영업하는지 추출
- 문제 2번에서 목, 금, 토, 일 주 4일 영업함을 알아냄

# 총 결제 금액을 3등분하여 'low', 'medium', 'high'의 평균 팁

In [4]:
tot_bill = tips['total_bill'].tolist()
tot_q = np.quantile(tot_bill,[0.75, 0.25])

In [5]:
tot_q[0]

24.127499999999998

In [14]:
high = tips[tips['total_bill'] >= tot_q[0]] 
high

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
7,26.88,3.12,Male,No,Sun,Dinner,4
11,35.26,5.00,Female,No,Sun,Dinner,4
23,39.42,7.58,Male,No,Sat,Dinner,4
...,...,...,...,...,...,...,...
219,30.14,3.09,Female,Yes,Sat,Dinner,4
237,32.83,1.17,Male,Yes,Sat,Dinner,2
238,35.83,4.67,Female,No,Sat,Dinner,3
239,29.03,5.92,Male,No,Sat,Dinner,3


In [11]:
medium = tips[(tips['total_bill'] >= tot_q[1]) & (tips['total_bill'] < tot_q[0])]
medium

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2
...,...,...,...,...,...,...,...
231,15.69,3.00,Male,Yes,Sat,Dinner,3
234,15.53,3.00,Male,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [12]:
low = tips[tips['total_bill'] < tot_q[1]]
low

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
1,10.34,1.66,Male,No,Sun,Dinner,3
6,8.77,2.00,Male,No,Sun,Dinner,2
10,10.27,1.71,Male,No,Sun,Dinner,2
16,10.33,1.67,Female,No,Sun,Dinner,3
27,12.69,2.00,Male,No,Sat,Dinner,2
...,...,...,...,...,...,...,...
228,13.28,2.72,Male,No,Sat,Dinner,2
232,11.61,3.39,Male,No,Sat,Dinner,2
233,10.77,1.47,Male,No,Sat,Dinner,2
235,10.07,1.25,Male,No,Sat,Dinner,2


In [16]:
print(f"low 평균 팁: {round(low['tip'].mean(), 2)}")
print(f"medium 평균 팁: {round(medium['tip'].mean(), 2)}")
print(f"high 평균 팁: {round(high['tip'].mean(), 2)}")
# 대체적으로 총 결제 금액이 많을 수록 평균 팁이 높다.

low 평균 팁: 1.92
medium 평균 팁: 2.92
high 평균 팁: 4.24


# 총 결제 금액 별 tip 평균

In [18]:
tips.groupby('total_bill')['tip'].mean()

total_bill
3.07      1.000
5.75      1.000
7.25      3.075
7.51      2.000
7.56      1.440
          ...  
45.35     3.500
48.17     5.000
48.27     6.730
48.33     9.000
50.81    10.000
Name: tip, Length: 229, dtype: float64

In [20]:
tips['round_totalbill'] = round(tips['total_bill'], -1)

In [21]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,round_totalbill
0,16.99,1.01,Female,No,Sun,Dinner,2,20.0
1,10.34,1.66,Male,No,Sun,Dinner,3,10.0
2,21.01,3.5,Male,No,Sun,Dinner,3,20.0
3,23.68,3.31,Male,No,Sun,Dinner,2,20.0
4,24.59,3.61,Female,No,Sun,Dinner,4,20.0


In [22]:
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,round_totalbill
239,29.03,5.92,Male,No,Sat,Dinner,3,30.0
240,27.18,2.0,Female,Yes,Sat,Dinner,2,30.0
241,22.67,2.0,Male,Yes,Sat,Dinner,2,20.0
242,17.82,1.75,Male,No,Sat,Dinner,2,20.0
243,18.78,3.0,Female,No,Thur,Dinner,2,20.0


In [23]:
tips.groupby('round_totalbill')['tip'].mean()
# 총 결제 금액이 클 수록 팁 평균이 크다.

round_totalbill
0.0     1.000000
10.0    2.063544
20.0    3.025596
30.0    4.001538
40.0    4.316364
50.0    6.846000
Name: tip, dtype: float64