# CAR-SALES dataset

Dữ liệu `car-sales.csv`: bộ dữ liệu chứa thông tin các ôtô cũ ở một cửa hàng bán ô tô cũ. 

Bạn hãy thực hiện các yêu cầu sau:


### 1. Đọc dữ liệu và cho biết dữ liệu có bao nhiêu dòng, bao nhiêu cột

Đáp án: (10 dòng, 5 cột)

Import thư viện

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
cars = pd.read_csv('../data/car-sales.csv')

In [3]:
# Kích thước dữ liệu cars
cars.shape

(10, 5)

### 2. Cho biết thuộc tính nào là thuộc tính phân loại, thuộc tính nào là thuộc tính định lượng

In [4]:
# Kt kiểu DL của cars
cars.dtypes

Manufacturer     object
Colour           object
Odometer          int64
Doors             int64
Price           float64
dtype: object

In [5]:
# Phân loại dữ liệu
categorical_cars_attributes = cars.select_dtypes(include=['object']).columns
numerical_cars_attributes = cars.select_dtypes(include=['int64', 'float64']).columns

In [6]:
# Hiển thị kết quả
print("Thuộc tính phân loại:", categorical_cars_attributes)
print("Thuộc tính định lượng:", numerical_cars_attributes)

Thuộc tính phân loại: Index(['Manufacturer', 'Colour'], dtype='object')
Thuộc tính định lượng: Index(['Odometer', 'Doors', 'Price'], dtype='object')


### 3. Trong dữ liệu có thông tin của bao nhiêu xe?

Đáp án: 10 xe

In [56]:
num_cars = cars.shape[0]
print(f"Số lượng xe: {num_cars}")

Số lượng xe: 10


### 4. Đếm số xe theo theo hãng

Đáp án: Toyota: 10 xe, Honda: 3 xe, Nissan: 2 xe, BMW: 1 xe

In [8]:
manufacturer_counts = cars["Manufacturer"].value_counts()
print(manufacturer_counts)

Manufacturer
Toyota    4
Honda     3
Nissan    2
BMW       1
Name: count, dtype: int64


### 5. Đếm số xe theo màu


In [9]:
color_counts = cars["Colour"].value_counts()
print(color_counts)

Colour
White    4
Blue     3
Red      1
Black    1
Green    1
Name: count, dtype: int64


### 6. Tổng giá trị các xe trong cửa hàng

Đáp án: 76450 USD


In [57]:
total_price = cars["Price"].sum()
print(f"Tổng giá trị các xe trong cửa hàng là: {total_price}")

Tổng giá trị các xe trong cửa hàng là: 76450.0


### 7. Top 3 xe có giá cao nhất


In [11]:
top_3_cars_price = cars.nlargest(3, "Price")
print(top_3_cars_price)

  Manufacturer Colour  Odometer  Doors    Price
3          BMW  Black     11179      5  22000.0
9       Nissan  White     31600      4   9700.0
6        Honda   Blue     45698      4   7500.0


### 8. Top 3 xe đã chạy nhiều cây số (km)nhất (Odometer)

Đáp án:
- Xe Nissan, White, 213095 km
- Xe Toyota, White, 150043 km
- Xe Toyota, Green, 99213 km

In [12]:
top_3_cars_odometer = cars.nlargest(3, "Odometer")
print(top_3_cars_odometer)

  Manufacturer Colour  Odometer  Doors   Price
4       Nissan  White    213095      4  3500.0
0       Toyota  White    150043      4  4000.0
5       Toyota  Green     99213      4  4500.0


### 9. Khảo sát xe của hãng Honda

- Tính tỷ lệ xe Honda trong dữ liệu của cửa hàng (0.3)
- Cho biết giá trung bình của xe hãng Honda của cửa hàng (6500)
- Cho biết các xe của hãng Honda trong cửa hàng có những màu sắc nào (Red, Blue)

In [13]:
# Lấy dữ liệu xe Honda
honda_cars = cars[cars["Manufacturer"] == "Honda"]

# Tính tỷ lệ xe Honda trong dữ liệu
honda_ratio = honda_cars.shape[0] / cars.shape[0]

# Tính giá trung bình của xe Honda
honda_price = honda_cars["Price"].mean()

# Lấy danh sách màu sắc của xe Honda
honda_colors = honda_cars["Colour"].unique()

# In kết quả
print("Tỷ lệ xe Honda trong dữ liệu:", honda_ratio)
print("Giá trung bình của xe Honda:", honda_price)
print("Các màu sắc của xe Honda:", honda_colors)

Tỷ lệ xe Honda trong dữ liệu: 0.3
Giá trung bình của xe Honda: 6500.0
Các màu sắc của xe Honda: ['Red' 'Blue']


### 10. Tính toán các giá trị sau của  thuộc tính giá ('Price')

- Giá trung bình các xe (7645)
- Giá trị trung vị các xe (6625)
- Miền giá trị của xe (18500)
- Miền phân vị của xe (2750)
- Điểm phân vị 0.4 và 0.6 của giá ([5750, 7000])

In [14]:
# Tính giá trung bình
price_mean = cars["Price"].mean()

# Tính giá trị trung vị
price_median = cars["Price"].median()

# Tính miền giá trị
price_range = cars["Price"].max() - cars["Price"].min()

# Tính miền phân vị
price_iqr = cars["Price"].quantile(0.75) - cars["Price"].quantile(0.25)

# Tính điểm phân vị 0.4 và 0.6
price_percentile_04 = cars["Price"].quantile(0.4)
price_percentile_06 = cars["Price"].quantile(0.6)

# In kết quả
print("Giá trung bình:", price_mean)
print("Giá trị trung vị:", price_median)
print("Miền giá trị:", price_range)
print("Miền phân vị:", price_iqr)
print("Điểm phân vị 0.4:", price_percentile_04)
print("Điểm phân vị 0.6:", price_percentile_06)

Giá trung bình: 7645.0
Giá trị trung vị: 6625.0
Miền giá trị: 18500.0
Miền phân vị: 2750.0
Điểm phân vị 0.4: 5750.0
Điểm phân vị 0.6: 7000.0


---

# TIPS dataset

Dữ liệu chứa trong file `tips.csv` chứa thông tin tiền tip của khách hàng tại một nhà hàng. Dữ liệu có các thông tin sau:

- `total_bill`: tổng hoá đơn (USD)
- `tip`: tiền tip/ tiền boa (USD)
- `sex`: giới tính người thanh toán hóa đơn
- `smoker`: có hút thuốc hay không
- `day`: ngày trong tuần
- `time`: thời gian dùng bữa(buổi sáng, buổi trưa, buổi tối)
- `size`: số lượng người tham gia

Bạn hãy thực hiện thống kê mô tả để tìm hiểu về hành vi tip của khách hàng tại nhà hàng

1. Đọc dữ liệu


In [15]:
tips = pd.read_csv('../data/tips.csv')

In [16]:
tips.head()

Unnamed: 0.1,Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,0,16.99,1.01,Female,No,Sun,Dinner,2
1,1,10.34,1.66,Male,No,Sun,Dinner,3
2,2,21.01,3.5,Male,No,Sun,Dinner,3
3,3,23.68,3.31,Male,No,Sun,Dinner,2
4,4,24.59,3.61,Female,No,Sun,Dinner,4


2. Xoá cột `Unnamed: 0`


In [17]:
del tips['Unnamed: 0']

In [18]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


3. Cho biết dữ liệu có bao nhiêu dòng, bao nhiêu thuộc tính.


In [19]:
# Kích thước dữ liệu
tips.shape

(244, 7)

=> Dữ liệu có 244 dòng và 7 cột

In [35]:
# Thông tin các thuộc tính
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    object 
 3   smoker      244 non-null    object 
 4   day         244 non-null    object 
 5   time        244 non-null    object 
 6   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(4)
memory usage: 13.5+ KB


<u>Nhận xét:</u> Dữ liệu có 7 thuộc tính bao gồm:
- Các thuộc tính định lượng: `total_bill`, `tip`, `size`
- Các thuộc tính định tính: `sex`, `smoker`, `day`, `time`

4. Trong các thuộc tính, thuộc tính nào là thuộc tính phân loại, thuộc tính nào là thuộc tính định lượng


In [21]:
# Kt kiểu DL của tips
tips.dtypes

total_bill    float64
tip           float64
sex            object
smoker         object
day            object
time           object
size            int64
dtype: object

In [22]:
# Phân loại dữ liệu
categorical_tips_attributes = tips.select_dtypes(include=['object']).columns
numerical_tips_attributes = tips.select_dtypes(include=['int64', 'float64']).columns

In [23]:
# Hiển thị kết quả
print("Thuộc tính phân loại:", categorical_tips_attributes)
print("Thuộc tính định lượng:", numerical_tips_attributes)

Thuộc tính phân loại: Index(['sex', 'smoker', 'day', 'time'], dtype='object')
Thuộc tính định lượng: Index(['total_bill', 'tip', 'size'], dtype='object')


5. Có bao nhiêu nam, bao nhiêu nữ. Tỷ lệ bao nhiêu?


In [50]:
# Đếm số người nam, nữ
gender_counts = tips["sex"].value_counts()

# Tính tỷ lệ nam, nữ
male_ratio = gender_counts['Male'] / len(tips) * 100
female_ratio = gender_counts['Female'] / len(tips) * 100

# In kết quả
print("Số người nam là: ", gender_counts['Male'])
print("Số người nữ là: ", gender_counts['Female'])
print(f"Tỷ lệ nam giới trong dữ liệu là: {round(male_ratio, 2)} %")
print(f"Tỷ lệ nữ giới trong dữ liệu là: {round(female_ratio, 2)} %")

Số người nam là:  157
Số người nữ là:  87
Tỷ lệ nam giới trong dữ liệu là: 64.34 %
Tỷ lệ nữ giới trong dữ liệu là: 35.66 %


6. Có bao nhiêu người hút thuốc. Tỷ lệ bao nhiêu?


In [51]:
# Đếm số người hút thuốc
smoker_counts = tips["smoker"].value_counts()

# Tính tỷ lệ người hút thuốc
smoker_ratio = smoker_counts['Yes'] / len(tips) * 100

# In kết quả
print(f"Số người hút thuốc là: {smoker_counts['Yes']}")
print(f"Tỷ lệ người hút thuốc là: {round(smoker_ratio, 2)} %")

Số người hút thuốc là: 93
Tỷ lệ người hút thuốc là: 38.11 %


7. Ngày nào trong tuần khách hàng hay đến dùng bữa nhất. Tỷ lệ bao nhiêu?


In [43]:
tips['day'].dtypes

dtype('O')

In [52]:
# Chuyển cột 'day' thành kiểu categorical để dễ dàng sắp xếp theo thứ tự ngày trong tuần
tips['day'] = pd.Categorical(tips['day'], categories=['Thur', 'Fri', 'Sat', 'Sun'], ordered=True)

# Đếm số lần mỗi ngày xuất hiện
day_counts = tips['day'].value_counts()

# Lấy ngày có số lần xuất hiện nhiều nhất
most_frequent_day = day_counts.idxmax()

# Tính tỷ lệ
frequency_percentage = (day_counts[most_frequent_day] / len(tips)) * 100

# In kết quả
print(f"Ngày trong tuần khách hàng hay đến nhất: {most_frequent_day}")
print(f"Tỷ lệ: {round(frequency_percentage, 2)} %")

Ngày trong tuần khách hàng hay đến nhất: Sat
Tỷ lệ: 35.66 %


In [58]:
tips['day'].dtypes

CategoricalDtype(categories=['Thur', 'Fri', 'Sat', 'Sun'], ordered=True, categories_dtype=object)

8. Nhà hàng phục vụ bữa ăn nào nhiều nhất (Breakfast, Lunch, Dinner)?


In [45]:
# Đếm số bữa ăn mà nhà hàng phục vụ
meal_counts = tips['time'].value_counts()

# Lấy bữa ăn có số lần xuất hiện nhiều nhất
most_served_meal = meal_counts.idxmax()

# In kết quả
print(f"Nhà hàng phục vụ bữa ăn {most_served_meal} nhiều nhất")
print(f"Số lần bữa ăn {most_served_meal} xuất hiện là: {meal_counts[most_served_meal]}")

Nhà hàng phục vụ bữa ăn Dinner nhiều nhất
Số lần bữa ăn Dinner xuất hiện là: 176


9. Nhóm khách hàng dùng bữa tại nhà hàng nhiều nhất là bao nhiêu người?


In [49]:
# Đếm số lần mỗi nhóm (số người) xuất hiện
group_size_counts = tips['size'].value_counts()

# Lấy nhóm (số người) có số lần xuất hiện nhiều nhất
most_common_group_size = group_size_counts.idxmax()

# In kết quả
print(f"Nhóm khách hàng dùng bữa tại nhà hàng nhiều nhất là: {most_common_group_size} người")
print(f"Số lần xuất hiện là: {group_size_counts[most_common_group_size]}")

Nhóm khách hàng dùng bữa tại nhà hàng nhiều nhất là: 2 người
Số lần xuất hiện là: 156


10. Trung bình trong một bữa ăn nhà hàng phục vụ mấy khách?

In [55]:
# Tính trung bình trong một bữa ăn nhà hàng phục vụ mấy khách
average_group_size = tips['size'].mean()

# In kết quả
print(f"Trung bình trong một bữa ăn nhà hàng phục vụ {round(average_group_size, 0)} khách")

Trung bình trong một bữa ăn nhà hàng phục vụ 3.0 khách


---