# Phân tích mức tiêu hao nhiên liệu

In [1]:
import pandas as pd
import numpy as np

## 1. ĐỌC DỮ LIỆU

Dữ liệu `mpg.csv` gồm các thông tin như sau:

- **mpg**: Miles/(US) gallon số gallon xăng trên 1 dặm
- **cylinders:** số lượng xilanh
- **displacement:**  Displacement/ dung tích xilanh (cu.in / $inches^3$)
- **horsepower:** công suất theo mã lực
- **weight:** trọng lượng (pound)
- **acceleration:** Gia tốc
- **model_year:** Năm sản xuất
- **origin:** Xuất xứ
- **name:** Tên dòng xe


In [2]:
df = pd.read_csv('./mpg.csv')

## 2. TÌM HIỂU DỮ LIỆU

### 2.1 Kiểm tra có dòng nào không có dữ liệu?

In [3]:

df.isna().sum()

mpg             0
cylinders       0
displacement    0
horsepower      6
weight          0
acceleration    0
model_year      0
origin          0
name            0
dtype: int64

In [4]:
df.shape

(398, 9)

### 2.2 Xóa các dòng không có dữ liệu


In [5]:
df.dropna(inplace=True);


In [6]:
## Kiểm tra dòng dữ liệu trống
df.isna().sum()

mpg             0
cylinders       0
displacement    0
horsepower      0
weight          0
acceleration    0
model_year      0
origin          0
name            0
dtype: int64

### 2.3 Tìm trung binh, trung vị của các thuộc tính: 'cylinders', 'horsepower', 'weight'

In [7]:
mean_cylinders = df['cylinders'].mean()
mean_horsepower = df['horsepower'].mean()
mean_weight = df['weight'].mean()

print(f"Trung bình của cylinders: {mean_cylinders: .2f}")
print(f"Trung bình của horsepower: {mean_horsepower: .2f}")
print(f"Trung bình của weight: {mean_weight: .2f}")

median_cylinders = df['cylinders'].median()
median_horsepower = df['horsepower'].median()
median_weight = df['weight'].median()

print(f"\nTrung vị của cylinders: {median_cylinders: .2f}")
print(f"Trung vị của horsepower: {median_horsepower: .2f}")
print(f"Trung vị của weight: {median_weight: .2f}")

Trung bình của cylinders:  5.47
Trung bình của horsepower:  104.47
Trung bình của weight:  2977.58

Trung vị của cylinders:  4.00
Trung vị của horsepower:  93.50
Trung vị của weight:  2803.50


### 2.4 Tìm miền giá trị và miền phân vị của thuộc tính 'mpg'

miền giá trị = max - min
miền phân vị = Q3 - Q1

In [8]:
mpg_max = df['mpg'].max()
mpg_min = df['mpg'].min()

print(f"Miền giá trị của thuộc tính 'mpg': {mpg_max - mpg_min}")

Q1 = df['mpg'].quantile(0.25)
Q3 = df['mpg'].quantile(0.75) 
range = Q3-Q1

print(f"Miền phân vị của thuộc tính 'mpg': {range}")

Miền giá trị của thuộc tính 'mpg': 37.6
Miền phân vị của thuộc tính 'mpg': 12.0


## 3. SO SÁNH MỨC TIÊU HAO NHIÊN LIỆU TRUNG BÌNH CỦA CÁC DÒNG XE DỰA TRÊN XUẤT XỨ

So sánh mức tiêu hao nhiên liệu trung bình của các dòng xe Mỹ, Nhật và Châu Âu

In [9]:
df.groupby('origin')['mpg'].mean()

origin
europe    27.602941
japan     30.450633
usa       20.033469
Name: mpg, dtype: float64

## 4. VẼ HISTOGRAM TRỌNG LƯỢNG CÁC XE

In [10]:
import matplotlib.pyplot as plt

In [11]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino


In [22]:
mean_weight = df.groupby('origin')['weight'].mean();
print(mean_weight)
# plt.hist(mean_weight, bins=5)

origin
europe    2433.470588
japan     2221.227848
usa       3372.489796
Name: weight, dtype: float64


## 5. TÍNH TỶ LỆ CÁC DÒNG XE DỰA TRÊN XUẤT XỨ

## 6. VẼ BOXPLOT SO SÁNH CÔNG SUẤT CỦA CÁC DÒNG XE THẬP NIÊN 70, 80

Lưu ý: Các dòng xe thập niên 70 (1970 - 1979), thập niên 80 (1980 - 1989)

## 7. KHẢO SÁT MỨC TIÊU HAO NHIÊN LIỆU

### 7.1 Với số lượng xi lanh

Thử vẽ bằng đồ thị scatter plot.

### 7.2 Với công suất theo mã lực

### 7.3 Với gia tốc

### 7.4 Với năm sản xuất