## Start up

In [54]:
import pandas as pd
df = pd.read_csv('car-sales-data.csv', names=['Make', 'Colour', 'Odometer', 'Doors', 'Price'], skiprows=1)
df

Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,"$4,000"
1,Honda,Red,87899.0,4.0,"$5,000"
2,Toyota,Blue,,3.0,"$7,000"
3,BMW,Black,11179.0,5.0,"$22,000"
4,Nissan,White,213095.0,4.0,"$3,500"
5,Toyota,Green,,4.0,"$4,500"
6,Honda,,,4.0,"$7,500"
7,Honda,Blue,,4.0,
8,Toyota,White,60000.0,,
9,,White,31600.0,4.0,"$9,700"


## Làm sạch dữ liệu

In [87]:
def clean_price(price):
    if isinstance(price, str):
        price = price.replace('$', '').replace(',', '')
    return float(price)
def clean_odometer(odometer):
    if isinstance(odometer, str):
        odometer = odometer.replace(' km', '').replace(',', '')
    return float(odometer)
# Làm sạch dữ liệu
df['Price'] = df['Price'].apply(clean_price)
df['Odometer'] = df['Odometer'].apply(clean_odometer)
df['Make'] = df['Make'].astype(str).str.strip()
df['Doors'] = df['Doors'].astype(str).str.strip().astype(float)
# Xử lý giá trị thiếu
df['Price'] = df.groupby('Make')['Price'].transform(lambda x: x.fillna(x.mean()))
df['Odometer'] = df.groupby('Make')['Odometer'].transform(lambda x: x.fillna(x.mean()))
df['Doors'] = df.groupby('Make')['Doors'].transform(lambda x: x.fillna(x.mean())).round()
df = df.dropna(subset=['Make', 'Colour', 'Odometer', 'Doors'])
df

Unnamed: 0,Make,Colour,Odometer,Doors,Price
0,Toyota,White,150043.0,4.0,4000.0
1,Honda,Red,87899.0,4.0,5000.0
2,Toyota,Blue,105021.5,3.0,7000.0
3,BMW,Black,11179.0,5.0,22000.0
4,Nissan,White,213095.0,4.0,3500.0
5,Toyota,Green,105021.5,4.0,4500.0
6,Honda,,87899.0,4.0,7500.0
7,Honda,Blue,87899.0,4.0,6250.0
8,Toyota,White,60000.0,4.0,5166.0


## Xe đắt nhất

In [None]:
# Tính giá lớn nhất
mst_ex_cars = df.loc[df['Price'].nlargest(1).index]
print("Most expensive car:")
mst_ex_cars

Most expensive car:


Unnamed: 0,Make,Colour,Odometer,Doors,Price
3,BMW,Black,11179.0,5.0,22000.0


## Hãng xe có xe với giá trên 1 kilomet đã đi rẻ nhất

In [52]:
# Tính giá trung bình trên mỗi kilomet
df['Price_per_km'] = df['Price'] / df['Odometer']

# Tìm xe có giá/km rẻ nhất
cheapest_row = df.loc[df['Price_per_km'].idxmin()]
cheapest_make = cheapest_row['Make']

cheapest_make
cheapest_row

Make              Nissan
Colour             White
Odometer        213095.0
Doors                4.0
Price             3500.0
Price_per_km    0.016425
Name: 4, dtype: object

## Trung bình giá xe của các hãng xe và hãng xe có trung bình giá bán cao nhất

In [83]:
# Tính giá trung bình theo hãng xe
avg_price_by_make = df.groupby('Make')['Price'].mean()
# In kết quả
print("Average price by make:")
# Sắp xếp và in giá trung bình theo hãng xe
print(avg_price_by_make.sort_values(ascending=False))
print("")
# In ra hãng xe có giá trung bình cao nhất
print("Highest average price by make:")
print(avg_price_by_make.nlargest(1))

Average price by make:
Make
BMW       22000.000000
Honda      6250.000000
Toyota     5166.666667
Nissan     3500.000000
nan                NaN
Name: Price, dtype: float64

Highest average price by make:
Make
BMW    22000.0
Name: Price, dtype: float64
