# KHÁM PHÁ DỮ LIỆU

Dữ liệu chứa trong file `tips.csv` chứa thông tin tiền tip của khách hàng tại một nhà hàng. Dữ liệu có các thông tin sau:

- `total_bill`: tổng hoá đơn (USD)
- `tip`: tiền tip/ tiền boa (USD)
- `sex`: giới tính người thanh toán hóa đơn
- `smoker`: có hút thuốc hay không
- `day`: ngày trong tuần
- `time`: thời gian dùng bữa(buổi sáng, buổi trưa, buổi tối)
- `size`: số lượng người tham gia

Bạn hãy thực hiện thống kê mô tả để tìm hiểu về hành vi tip của khách hàng tại nhà hàng

## HIỂU DỮ LIỆU

Import thư viện

In [7]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### 01. Đọc dữ liệu

In [8]:
df = pd.read_csv('../data/tips.csv')

In [9]:
df.head()

Unnamed: 0.1,Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,0,16.99,1.01,Female,No,Sun,Dinner,2
1,1,10.34,1.66,Male,No,Sun,Dinner,3
2,2,21.01,3.5,Male,No,Sun,Dinner,3
3,3,23.68,3.31,Male,No,Sun,Dinner,2
4,4,24.59,3.61,Female,No,Sun,Dinner,4


In [10]:
df.tail()

Unnamed: 0.1,Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,239,29.03,5.92,Male,No,Sat,Dinner,3
240,240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,242,17.82,1.75,Male,No,Sat,Dinner,2
243,243,18.78,3.0,Female,No,Thur,Dinner,2


### 02. Xóa cột `Unnamed: 0`

In [11]:
df.drop(columns=['Unnamed: 0'], inplace=True)

In [12]:
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


### 03. Cho biết dữ liệu có bao nhiêu dòng, bao nhiêu thuộc tính

In [14]:
# In số dòng và số thuộc tính
print('Số dòng:', df.shape[0])
print('Số thuộc tính:', df.shape[1])

Số dòng: 244
Số thuộc tính: 7


### 04. Trong các thuộc tính, thuộc tính nào là thuộc tính phân loại, thuộc tính nào là thuộc tính định lượng

#### Xác định các cột định tính (thuộc tính phân loại)

In [15]:
categorical_columns = [col for col in df.columns if df[col].dtype == 'object']
print("Các cột định tính: ", categorical_columns)

Các cột định tính:  ['sex', 'smoker', 'day', 'time']


#### Xác định các cột định lượng

In [16]:
numerical_columns = [col for col in df.columns if df[col].dtype == 'int64' or df[col].dtype == 'float64']
print("Các cột định lượng: ", numerical_columns)

Các cột định lượng:  ['total_bill', 'tip', 'size']


### 05. Có bao nhiêu nam, bao nhiêu nữ. Tỷ lệ bao nhiêu?

In [18]:
gender_counts = df['sex'].value_counts()
gender_ratios = df['sex'].value_counts(normalize=True)
print(gender_ratios)

sex
Male      0.643443
Female    0.356557
Name: proportion, dtype: float64


### 06. Có bao nhiêu người hút thuốc. Tỷ lệ bao nhiêu?

In [19]:
smoker_counts = df['smoker'].value_counts()
smoker_ratios = df['smoker'].value_counts(normalize=True)
print(smoker_ratios)

smoker
No     0.618852
Yes    0.381148
Name: proportion, dtype: float64


### 07. Ngày nào trong tuần khách hàng hay đến dùng bữa nhất. Tỷ lệ bao nhiêu?

In [20]:
# Tính số lượng khách hàng theo ngày trong tuần
counts = df['day'].value_counts()

# Tìm ngày có số lượng khách hàng đến dùng bữa nhiều nhất
most_popular_day = counts.idxmax()
most_popular_day_count = counts.max()

# Tính tỷ lệ khách hàng đến dùng bữa vào ngày đó
ratios = df['day'].value_counts(normalize=True)
most_popular_day_ratio = ratios[most_popular_day]

# In kết quả
print('Ngày có số lượng khách hàng đến dùng bữa nhiều nhất:', most_popular_day)
print('Số lượng khách hàng:', most_popular_day_count)
print('Tỷ lệ:', most_popular_day_ratio)

Ngày có số lượng khách hàng đến dùng bữa nhiều nhất: Sat
Số lượng khách hàng: 87
Tỷ lệ: 0.35655737704918034


### 08. Nhà hàng phục vụ bữa ăn nào nhiều nhất (Breakfast, Lunch, Dinner)?

In [22]:
# Tính tổng số lượng bữa ăn mà nhà hàng đã phục vụ
meal_counts = df['time'].value_counts()

# Tìm bữa ăn được phục vụ nhiều nhất
most_served_meal = meal_counts.idxmax()
most_served_meal_count = meal_counts.max()

# In kết quả
print('Bữa ăn được phục vụ nhiều nhất:', most_served_meal)
print('Số lượng bữa ăn mà nhà hàng đã phục vụ:', most_served_meal_count)

Bữa ăn được phục vụ nhiều nhất: Dinner
Số lượng bữa ăn mà nhà hàng đã phục vụ: 176


### 09. Nhóm khách hàng dùng bữa tại nhà hàng nhiều nhất là bao nhiêu người?

In [26]:
# Tính số lượng nhóm khách hàng
customer_counts = df['size'].value_counts()

# Tìm kích thước nhóm khách hàng dùng bữa nhiều nhất
most_common_group_size = customer_counts.idxmax()
most_common_group_size_count = customer_counts.max()

# In kết quả
print('Kích thước nhóm khách hàng dùng bữa nhiều nhất:', most_common_group_size)
print('Số lượng:', most_common_group_size_count)

Kích thước nhóm khách hàng dùng bữa nhiều nhất: 2
Số lượng: 156
