In [1]:
# seaborn은 matplotlib을 기반으로 만들어진 고급 통계 시각화 라이브러리.
# 복잡한 통계 분석 결과를 아름다운 그래프로 쉽게 제작 가능해 데이터 사이언스 분야에서 인기 많음.
# 한 줄의 코드로 상관관계 히트맵이나 분포도를 그릴 수 있어 효율성 면에서 뛰어남.

# seaborn에서 실습을 위한 내장 데이터를 제공하고 있음.

In [2]:
import seaborn as sns
import pandas as pd

In [3]:
# seaborn으로 data load 하는 방법
# load.dataset() method를 사용.

# 'sns.load_dataset(불러올 데이터셋 이름)' 형식으로 사용.

In [4]:
# seaborn에서 제공하는 dataset 이름 확인하기
# 'get_dataset_names()'를 호출해서 사용하기.
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

In [5]:
# 4-2에서 사용할 'tips' dataset 불러오기.
# tips dataset은 음식점에서 지불한 팁, 금액, 손님, 정보 등을 확인할 수 있는 dataset.
df = sns.load_dataset("tips")

df.head(10)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
5,25.29,4.71,Male,No,Sun,Dinner,4
6,8.77,2.0,Male,No,Sun,Dinner,2
7,26.88,3.12,Male,No,Sun,Dinner,4
8,15.04,1.96,Male,No,Sun,Dinner,2
9,14.78,3.23,Male,No,Sun,Dinner,2


In [6]:
# 각 컬럼명이 의미하는 것들

# column 01. total_biil
# 총 금액

# column 02. tip
# 지불한 팁 금액

# column 03. sex
# 성별

# column 04. smoker
# 흡연 여부

# column 05. day
# 방문한 요일

# column 06. time
# 아침, 점심, 저녁 중 방문한 시간

# column 07. size
# 방문한 인원 수

In [7]:
# 결측치 여부, 각 컬럼과 인덱스의 데이터 타입 확인하기.
df.info()

# index는 RangeIndex 타입.
# 0부터 243까지 존재.

# 'total_bill', 'tip' column은 float64 타입.
# sex, smoker, day column은 범주형 데이터 타입.
# size column은 int64 타입.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [8]:
# 데이터의 분포 확인하기.
df.describe()


# < describe로 알 수 있는 사실 >
# 01. describe는 숫자형 데이터 타입만 출력 가능. 그래서 숫자형 데이터 타입이 아닌 'sex', 'smoker', 'day', 'time'은 describe의 결과에 출력되지 않음.
# 02 결측치 없이 244개의 데이터 존재.
# 03. 총 금액은 3.07달러 ~ 50.81 달러 범위 내에서만 존재.
# 04. 총 금액의 평균은 19.7 달러.
# 05. 팁은 최소 1달러 ~ 최대 10달러.
# 06. 인원은 최소 1명에서 최대 6명.
# 07. tip의 평균은 2.99 달러, 인원의 평균은 2.56 달러.
# 08. 평균 인원 수와 tip의 금액 파악 가능.

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [12]:
# 범주형 데이터 탐색
# .unique()와 .value_counts()를 사용해 범주형 데이터를 가진 컬럼이 어떤 값을 갖고 있는지, 몇 개의 값을 갖고 있는지 확인함.
# 01. 성별
print(f"{df['sex'].unique()}")

# 성별은 'Male'과 'Female' 두 가지 종류의 데이터 존재.

# 02. 흡연 여부
print(f"\n{df['smoker'].unique()}")
# 흡연 여부는 'Yes', 'No' 두 가지 종류 데이터 존재.

# 03. 요일
print(f"\n{df["day"].unique()}")
# 요일은 목요일, 금요일, 토요일, 일요일 총 4가지 종류의 데이터 존재.

# 01. sex 컬럼의 데이터 종류별 값의 개수
# 'Male' data 157개, 'Female' data 87개.
# 여성보다는 남성이 많이 오는 식당.
print(f"\n< 'sex' column의 종류 별 데이터 개수 >\n{df['sex'].value_counts()}")

# 02. smoker 컬럼의 데이터 종류별 값의 개수
# 'No' data 151개, 'Yes' data 93개.
# 성비가 남성이 더 많음에도 불구하고, 'No'가 더 많다는 특징 확인 가능.
print(f"\n< 'smoker' column의 종류 별 데이터 개수 >\n{df['smoker'].value_counts()}")

# 03. day 컬럼의 데이터 종류별 값의 개수
# 목요일 62건, 금요일 19건, 토요일 87건, 일요일 76건
# 어떤 음식을 파는 식당일까?
print(f"\n< 'day' column의 종류 별 데이터 개수 >\n{df['day'].value_counts()}")

# 04. time 컬럼의 데이터 종류별 값의 개수
# 점심 68건, 저녁 176건으로 보아 저녁을 더 먹기 좋은 식당으로 추정.
# 고깃집 같은 느낌이 듦.
print(f"\n< 'time' column의 종류별 데이터 개수 >\n{df['time'].value_counts()}")

['Female', 'Male']
Categories (2, object): ['Male', 'Female']

['No', 'Yes']
Categories (2, object): ['Yes', 'No']

['Sun', 'Sat', 'Thur', 'Fri']
Categories (4, object): ['Thur', 'Fri', 'Sat', 'Sun']

< 'sex' column의 종류 별 데이터 개수 >
sex
Male      157
Female     87
Name: count, dtype: int64

< 'smoker' column의 종류 별 데이터 개수 >
smoker
No     151
Yes     93
Name: count, dtype: int64

< 'day' column의 종류 별 데이터 개수 >
day
Sat     87
Sun     76
Thur    62
Fri     19
Name: count, dtype: int64

< 'time' column의 종류별 데이터 개수 >
time
Dinner    176
Lunch      68
Name: count, dtype: int64


In [10]:
# 전체 범주형 데이터를 요약해, 모든 범주형 변수의 고유값 개수를 구하기.
categorical_columns = df.select_dtypes(include=['category']).columns        # category형 data type인 columns들을 선택해 추가.

for col in categorical_columns:
    print(f"{col}. {df[col].nunique()}개의 고유값")
    print(f" 값. {list(df[col].unique())}")
    print()

sex. 2개의 고유값
 값. ['Female', 'Male']

smoker. 2개의 고유값
 값. ['No', 'Yes']

day. 4개의 고유값
 값. ['Sun', 'Sat', 'Thur', 'Fri']

time. 2개의 고유값
 값. ['Dinner', 'Lunch']



In [13]:
# 데이터 분석을 위한 질문들

# 01. 음식 가격(총 가격)과 팁 사이에 상관관계가 있을까?
# 02. 성별에 따른 팁을 주는 패턴이 다른가?
# 03. 요일별로 매출 및 팁에 차이가 있을까?
# 04. 흡연 여부가 소피 패턴에 영향을 주는가?
# 05. 인원수가 많을수록 팁을 더 많이 주는가?
# 06. tip의 사분위수 75%가 3.56 달러인데, 그러면 나머지 25%의 tip은 3.56 달러 이상이고, 75%는 3.56 이하의 팁을 지불함.
# 07. total_bill, tip, size의 사분위수 75%가 대부분 max의 절반보다도 낮은 금액에 형성되어 있음. 