## Auto-MPG

![](https://factsanddetails.com/media/2/20111201-Molycorp%20REs-hev.png)

###The data is technical spec of cars, aiming to predict city fuel consumption
### (mile-per-gallon: MPG).

The features consist of
*   cylinders
*   displacement
*   horsepower
*   weight
*   acceleration
*   model year
*   original
*   car name

The output
mpg mile-per-gallon

[source] https://gist.githubusercontent.com/omarish/5687264/raw/7e5c814ce6ef33e25d5259c1fe79463c190800d9/mpg.csv

## ข้อ 1

In [1]:
import pandas as pd
url = "https://gist.githubusercontent.com/omarish/5687264/raw/7e5c814ce6ef33e25d5259c1fe79463c190800d9/mpg.csv"
df = pd.read_csv(url)
df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86,2790,15.6,82,1,ford mustang gl
394,44.0,4,97.0,52,2130,24.6,82,2,vw pickup
395,32.0,4,135.0,84,2295,11.6,82,1,dodge rampage
396,28.0,4,120.0,79,2625,18.6,82,1,ford ranger


## ข้อ 2

In [2]:
def clean_data(dataframe):
    dataframe['horsepower'] = pd.to_numeric(dataframe['horsepower'], errors='coerce')
    print(f"Amount of missing values before clean data: {dataframe.isnull().sum().sum()}")
    dataframe.dropna(inplace=True)
    print(f"Amount of missing values after clean data: {dataframe.isnull().sum().sum()}")

    return dataframe

df_cleaned= clean_data(df.copy()) 
print(df_cleaned.shape)

Amount of missing values before clean data: 6
Amount of missing values after clean data: 0
(392, 9)


## ข้อ 3

In [3]:
df_cleaned = df_cleaned.drop('name', axis=1)
print(df_cleaned.head())

    mpg  cylinders  displacement  horsepower  weight  acceleration  \
0  18.0          8         307.0       130.0    3504          12.0   
1  15.0          8         350.0       165.0    3693          11.5   
2  18.0          8         318.0       150.0    3436          11.0   
3  16.0          8         304.0       150.0    3433          12.0   
4  17.0          8         302.0       140.0    3449          10.5   

   model_year  origin  
0          70       1  
1          70       1  
2          70       1  
3          70       1  
4          70       1  


## ข้อ 4

In [4]:
from sklearn.model_selection import train_test_split

X = df_cleaned.drop('mpg', axis=1)
y = df_cleaned['mpg']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(X_train.shape)
print(X_test.shape)

(313, 7)
(79, 7)


## ข้อ 5

In [5]:
from sklearn.linear_model import LinearRegression

model_mpg = LinearRegression()
model_mpg.fit(X_train, y_train)

intercept = model_mpg.intercept_
coeffs = model_mpg.coef_
feature_names = X.columns

equation = f"mpg = {intercept:.2f}"
for name, coef in zip(feature_names, coeffs):
    equation += f" + ({coef:.3f} * {name})"

print(equation)

mpg = -18.50 + (-0.346 * cylinders) + (0.015 * displacement) + (-0.021 * horsepower) + (-0.006 * weight) + (0.038 * acceleration) + (0.768 * model_year) + (1.613 * origin)


## ข้อ 6

In [6]:
from sklearn.metrics import mean_squared_error, mean_absolute_error

y_pred = model_mpg.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

print(f"\nMean Squared Error (MSE) บน Test set: {mse:.2f}")
print(f"Mean Absolute Error (MAE) บน Test set: {mae:.2f}")

print("\nเหตุผลของความแตกต่าง:")
print("MAE คือค่าเฉลี่ยของผลต่างค่าจริงกับค่าทำนาย ซึ่งตีความง่ายและหน่วยเหมือนกับค่าที่ทำนาย")
print("MSE คือค่าเฉลี่ยของกำลังสองของผลต่าง ซึ่งจะลงโทษความผิดพลาดค่ามากๆ มากกว่าค่าผิดพลาดน้อยๆ ทำให้ไวต่อ outliers มากกว่า MAE")


Mean Squared Error (MSE) บน Test set: 10.71
Mean Absolute Error (MAE) บน Test set: 2.42

เหตุผลของความแตกต่าง:
MAE คือค่าเฉลี่ยของผลต่างค่าจริงกับค่าทำนาย ซึ่งตีความง่ายและหน่วยเหมือนกับค่าที่ทำนาย
MSE คือค่าเฉลี่ยของกำลังสองของผลต่าง ซึ่งจะลงโทษความผิดพลาดค่ามากๆ มากกว่าค่าผิดพลาดน้อยๆ ทำให้ไวต่อ outliers มากกว่า MAE


## ข้อ 7
### อับโหลดข้อมูลจ 'transactions.csv' จาก google classroom

In [7]:
import pandas as pd

df_transactions = pd.read_csv('../Dataset/transactions.csv')
df_transactions

Unnamed: 0,Date,P1,P2,P3
0,1/1/2022,6.0,15.0,31.0
1,2/1/2022,19.0,0.0,30.0
2,3/1/2022,14.0,20.0,6.0
3,4/1/2022,10.0,21.0,17.0
4,5/1/2022,7.0,20.0,33.0
...,...,...,...,...
766,,,,
767,,,,
768,,,,
769,,,,


## ข้อ 8

In [8]:
avg_p1 = df_transactions['P1'].mean()
avg_p2 = df_transactions['P2'].mean()
avg_p3 = df_transactions['P3'].mean()

print("Daily average sales:")
print(f"P1 = {avg_p1:.2f}")
print(f"P2 = {avg_p2:.2f}")
print(f"P3 = {avg_p3:.2f}")

Daily average sales:
P1 = 9.23
P2 = 16.54
P3 = 27.45


## ข้อ 9

In [9]:
from sklearn.linear_model import LinearRegression
import numpy as np

# เตรียมข้อมูล 700 วันแรก
p1 = df_transactions['P1'].values[:701]  # ต้องมี 701 ค่า เพื่อสร้าง (s(t), s(t+1)) ได้ 700 คู่

# สร้าง feature และ target
X = p1[:-1].reshape(-1, 1)  # s(t)
y = p1[1:]                  # s(t+1)

# สร้างและฝึกโมเดล linear regression
model_p1 = LinearRegression()
model_p1.fit(X, y)

print("Coefficient:", model_p1.coef_[0])
print("Intercept:", model_p1.intercept_)

Coefficient: 0.045085916940524905
Intercept: 8.807100580212731


## ข้อ 10

In [10]:
from sklearn.linear_model import LinearRegression

# ข้อ 10: ค่าความคาดเคลื่อนรวมเฉลี่ย MAE ของวันที่ 1-12-2023 ถึง 31-12-2023 เท่ากับ ...
mask = (df_transactions['Date'] >= '2023-12-01') & (df_transactions['Date'] <= '2023-12-31')
p1_dec = df_transactions.loc[mask, 'P1'].values

X_test = p1_dec[:-1].reshape(-1, 1)
y_test = p1_dec[1:]

y_pred = model_p1.predict(X_test)

from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y_test, y_pred)
print(f"MAE ของวันที่ 1-12-2023 ถึง 31-12-2023 เท่ากับ {mae:.2f}")

ValueError: Found array with 0 sample(s) (shape=(0, 1)) while a minimum of 1 is required by LinearRegression.

## ข้อ 11

In [None]:
# สร้างข้อมูลยอดขายรายสัปดาห์ของ P2
p2 = df_transactions['P2'].values
weeks = len(p2) // 7
w = np.array([p2[i*7:(i+1)*7].sum() for i in range(weeks)])

# เตรียม feature: w(t-1), w(t) และ target: w(t+1)
X = np.column_stack([w[:-2], w[1:-1]])  # w(t-1), w(t)
y = w[2:]                              # w(t+1)

# สร้างและฝึกโมเดล linear regression
model_p2 = LinearRegression()
model_p2.fit(X, y)

print("Coefficients:", model_p2.coef_)
print("Intercept:", model_p2.intercept_)

Weekly Linear Regression Model for P2:
---------------------------------------
Coefficient for w(t): 0.3785
Coefficient for w(t-1): 0.3384
Intercept: 29.3029

The model equation is:
w(t+1) = (0.3785 * w(t)) + (0.3384 * w(t-1)) + 29.3029


## ข้อ 12

In [None]:
# ใช้ข้อมูล 4 สัปดาห์สุดท้ายสำหรับทดสอบ
X_test = np.column_stack([w[-5:-3], w[-4:-2]])  # w(t-1), w(t) สำหรับ 4 สัปดาห์สุดท้าย
y_test = w[-3:]                                 # w(t+1) จริง

# ทำนายและคำนวณความแม่นยำ (MAE)
y_pred = model_p2.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
print(f"MAE ของ 4 สัปดาห์สุดท้าย: {mae:.2f}")

Mean Absolute Error (MAE) on the last 4 weeks: 29.3029


## ข้อ 13

In [None]:
eq = f"w(t+1) = {model_p2.intercept_:.2f} + ({model_p2.coef_[0]:.2f} × w(t-1)) + ({model_p2.coef_[1]:.2f} × w(t))"
print(eq)