# Seaborn 패키지의 tips 데이터 분석

1. 필요한 패키지, 모듈, 데이터프레임 불러오기

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import statsmodels.api as sm
tips = sns.load_dataset("tips") 

2. 주어진 데이터프레임 확인하기

In [None]:
tips

3. 데이터프레임 객체에 대한 정보를 확인하기

In [None]:
tips.info()

3.1 누락된 데이터가 있는지 확인한다

In [None]:
tips.isnull().sum()

4. 데이터프레임의 간단한 기술통계량을 확인한다

In [None]:
tips.describe()

5. 팁의 분포를 히스토그램을 그려서 확인해본다

In [None]:
plt.hist(tips['tip'], bins=10)
plt.show()

6. 히스토그램의 bin이 작으면 놓치는 정보가 발생할 수 있다  
   bin의 크기를 키워본다

In [None]:
plt.hist(tips['tip'], bins=100)
plt.title('Hist of tips')
plt.xlabel('tips')
plt.ylabel('freq')
plt.show()

7. 손님의 성별 분포와 성별에 따라 팁이 다른지 확인한다.

In [None]:
print(tips['sex'].value_counts())
male = tips[tips.sex=='Male']
female = tips[tips.sex=='Female']

In [None]:
tips.groupby('sex').tip.mean()
malecount=int(male.describe().tip.iloc[0])
femalecount=int(female.describe().tip.iloc[0])
plt.plot(range(malecount),male.tip,'p')
plt.plot(range(femalecount),female.tip,'p')
plt.grid(True)
print(max(male.tip))
print(max(female.tip)) 

In [None]:
plt.boxplot([tips[tips['sex'] == 'Female']['tip'],
             tips[tips['sex'] == 'Male']['tip']],
             labels = ['Female', 'Male'])
plt.show()

8. 요일별로 손님이 얼마나 왔는지 확인해본다

In [None]:
day_count = tips['day'].value_counts()
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.pie(day_count.values, labels=day_count.index, autopct='%1.0f%%')
day_count

9. 음식값의 분포를 확인해본다

In [None]:
plt.hist(tips['total_bill'], bins=100)
plt.show()

10. 흡연자 비율이 얼마나 되는지 확인해본다.

In [None]:
print(tips['smoker'].value_counts())
plt.hist(tips['smoker'], bins = 3)
plt.show()

11. 어느 시간대에 손님이 얼마나 왔는지 확인해본다.

In [None]:
print(tips['time'].value_counts())
plt.hist(tips['time'], bins = 3)
plt.show()

12. 손님들의 인원 구성은 어떻게 되는지 확인해본다.

In [None]:
print(tips['size'].value_counts())
plt.hist(tips['size'], bins = 10)
plt.show()

13. 음식값과 팁과의 관계를 확인해본다.

In [None]:
plt.scatter(tips['total_bill'], tips['tip'])
tips['total_bill'].corr(tips['tip'])

In [None]:
fig, ax = plt.subplots(2,2)
ax[0,0].hist(tips['total_bill'], bins=10)
ax[0,0].set_title("Histogram of total bill")
ax[0,1].hist(tips['tip'], bins=10)
ax[0,1].set_title("Histogram of tip")
ax[1,0].boxplot(tips['total_bill'])
ax[1,0].set_xlabel("total bill")
ax[1,1].boxplot(tips['tip'])
ax[1,1].set_xlabel("tip")

14. 음식값과 요일의 관계를 확인해본다.

In [None]:
sns.boxplot(x="day", 
            y="total_bill", 
            hue="sex",
            data=tips)
plt.show()

15. 팁과 흡연유무의 관계를 확인해본다.

In [None]:
plt.boxplot([tips[tips['smoker'] == 'No']['tip'],
             tips[tips['smoker'] == 'Yes']['tip']],
             labels = ['No', 'Yes'])
plt.show()
Yes = tips[tips.smoker=='Yes']
No = tips[tips.smoker=='No']
print(Yes.tip.mean())
print(No.tip.mean())

16. 팁과 요일의 관계를 확인해본다.

In [None]:
sns.boxplot(x="day", 
            y="tip", 
            data=tips)
plt.show()

17. 팁과 시간대의 관계를 확인해본다.

In [None]:
sns.boxplot(x="time", 
            y="tip", 
            data=tips)
plt.show()

18. 팁과 인원수의 관계를 확인해본다.

In [None]:
sns.boxplot(x="size", 
            y="tip", 
            data=tips)
plt.show()

19. 연속형자료 변수들간의 상관계수를 분석해본다.

In [None]:
tips.corr()

20. 연속형자로 변수들간의 공분산을 분석해본다.

In [None]:
tips.cov()

21. 자료에 대해 ols 검사하기

In [None]:
model_sm = sm.OLS.from_formula("tip ~ total_bill + sex + smoker + day + time + size", data = tips)
result_sm = model_sm.fit()
print(result_sm.summary())

In [None]:
model_sm = sm.OLS.from_formula("tip ~ total_bill ", data = tips)
result_sm = model_sm.fit()
print(result_sm.summary())

In [None]:
model_sm = sm.OLS.from_formula("tip ~ total_bill + sex ", data = tips)
result_sm = model_sm.fit()
print(result_sm.summary())

In [None]:
model_sm = sm.OLS.from_formula("tip ~ total_bill + sex + size", data = tips)
result_sm = model_sm.fit()
print(result_sm.summary())

In [None]:
model_sm = sm.OLS.from_formula("tip ~ total_bill + size", data = tips)
result_sm = model_sm.fit()
print(result_sm.summary())