# TOC
* 데이터 읽어오기
* 데이터 미리보기
* SELECT
* WHERE
* ORDER BY
* 간단한 분석 해보기

### 렉처 중간에 문제가 숨어 있습니다. 문제를 풀면서 따라오세요!

In [62]:
import pandas as pd

# 데이터 읽어오기

In [63]:
url = ('https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv')
tips = pd.read_csv(url)

# 데이터 미리보기

In [64]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [65]:
# 컬럼별 의미 생각해보기. 도대체 'size'는 뭘까?
tips.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

In [66]:
tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


# SELECT

In [67]:
tips[['total_bill', 'tip']].head(5)

Unnamed: 0,total_bill,tip
0,16.99,1.01
1,10.34,1.66
2,21.01,3.5
3,23.68,3.31
4,24.59,3.61


In [68]:
# 팁, 도대체 얼마나 주는걸까 갑자기 궁금해졌다.
tips['tip_percentage'] = tips['tip'] * 100.0 / tips['total_bill']

In [69]:
# 약 16% 정도 주네요.
tips['tip_percentage'].mean()

16.08025817225047

# WHERE

In [70]:
'''sql
SELECT *
FROM tips
WHERE tips.smoker = 'Yes'
'''

"sql\nSELECT *\nFROM tips\nWHERE tips.smoker = 'Yes'\n"

In [71]:
# Yes 아니면 No네요. 절반반 흡연자는 없는가 봅니다.
tips['smoker'].unique()

array(['No', 'Yes'], dtype=object)

In [72]:
# 흡연자만 보겠습니다. 너무 많으니까 위에 세개 결과만 보겠습니다.
tips[tips['smoker'] == 'Yes'].head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_percentage
56,38.01,3.0,Male,Yes,Sat,Dinner,4,7.89266
58,11.24,1.76,Male,Yes,Sat,Dinner,2,15.658363
60,20.29,3.21,Male,Yes,Sat,Dinner,2,15.820601


In [73]:
# 여성 흡연자를 볼까요? SQL로는 이렇게 작성 할 수 있을겁니다.

'''sql
SELECT *
FROM tips
WHERE tips.smoker = 'Yes'
AND tips.sex = 'Female'
'''

# Pandas로도 여러 조건을 중첩하여 필터링을 할 수 있습니다.
tips[(tips['smoker'] == 'Yes') & (tips['sex'] == 'Female')].head(5)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_percentage
67,3.07,1.0,Female,Yes,Sat,Dinner,1,32.57329
72,26.86,3.14,Female,Yes,Sat,Dinner,2,11.690246
73,25.28,5.0,Female,Yes,Sat,Dinner,2,19.778481
92,5.75,1.0,Female,Yes,Fri,Dinner,2,17.391304
93,16.32,4.3,Female,Yes,Fri,Dinner,2,26.348039


In [74]:
# 원리는 이렇습니다. AND 연산은 &로, OR 연산은 |(vertical bar)로 할 수 있습니다.
print('True & True = ' + str(bool(True & True)))
print('True & False = ' + str(bool(True & False)))
print('True & True = ' + str(bool(False & False)))

True & True = True
True & False = False
True & True = False


### Q0. 질문있나요!

In [75]:
# 질문이 없다면 제가 설명을 덜 한 것...

### Q1. 팁을 안주고 간 사람도 데이터에 들어있나요?

In [76]:
# Answer

### Q2. 컬럼 time에는 어떤 값들이 들어있나요?

In [77]:
# Answer

# GROUP BY

### Q3. 요일별로 팁을 주고 간 손님 수를 계산하는 SQL을 적어보세요.

In [81]:
'''sql
Please Write Answer Here
'''

'sql\nPlease Write Answer Here\n'

In [82]:
# Pandas로는 이렇게 쓸 수 있습니다.
tips.groupby('day').size()

day
Fri     19
Sat     87
Sun     76
Thur    62
dtype: int64

### Q4. 데이터에는 여자 손님이 몇 명, 남자 손님이 몇 명인가요? SQL로 적어보세요.

In [83]:
'''sql
Please Write Answer Here
'''

'sql\nPlease Write Answer Here\n'

In [84]:
# Pandas로는 이렇게 쓸 수 있습니다.
tips.groupby('sex').size()

sex
Female     87
Male      157
dtype: int64

### Q5. 여자 손님과 남자 손님 중 누가 팁을 전체 계산액에 비해 많이 줄까요? SQL로 적어주세요.

In [85]:
'''sql
Please Write Answer Here
'''

'sql\nPlease Write Answer Here\n'

In [86]:
# Pandas로는 이렇게 쓸 수 있습니다.
tips.groupby('sex')['tip_percentage'].mean()

sex
Female    16.649074
Male      15.765055
Name: tip_percentage, dtype: float64

해석: 여자 손님은 평균적으로 계산액의 16.64%의 팁을 남기고, 남자 손님은 15.76%를 남깁니다.

### Q6. 팁은 흡연자가 많이 줄까요? 비흡연자가 많이 줄까요?

In [87]:
# Answer

### 팁은 보통 여성이, 그리고 흡연자가 많이 주는 것 처럼 보입니다. 그럼 두 가지 요인을 같이 살펴볼까요?

In [88]:
# 이렇게 두 컬럼을 기준으로 GROUP BY 연산을 할 수도 있습니다.
tips.groupby(['sex', 'smoker'])['tip_percentage'].mean()

sex     smoker
Female  No        15.692097
        Yes       18.215035
Male    No        16.066872
        Yes       15.277118
Name: tip_percentage, dtype: float64

해석: 팁을 계산액에 비해 평균적으로 가장 많이 남기는 그룹은 팁을 18.21%나 남기는 여성 흡연자 그룹이네요. 팁을 가장 짜게 준 그룹은 남성 흡연자 그룹입니다. 흡연을 할수록 팁을 많이 남기는게 아니라, 흡연을 하는 여성일수록 팁을 많이 남긴다는 결론을 낼 수 있겠네요. 팁을 후하게 주는 그룹은 (흡연여성) > (비흡연남성) > (비흡연여성) > (흡연남성) 순입니다.

### Q7. 실험해보고 싶은 질문이 더 있나요?

In [89]:
# 상상의 나래를 펼쳐보세요!