<a href="https://colab.research.google.com/github/hennyzop18/Maths4ML/blob/GiuaKi/Bai1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np

def load_data(filename):
    """Đọc dữ liệu từ file CSV."""
    data = np.genfromtxt(filename, delimiter=',', skip_header=1)
    # Lấy cột ENGINESIZE, FUELCONSUMPTION_COMB và CO2EMISSIONS
    X = data[:, [5, 6]]  # Các cột cho features
    y = data[:, 6]      # Cột cho target
    return X, y

def normalize(X):
    """Chuẩn hóa dữ liệu."""
    return (X - np.mean(X, axis=0)) / np.std(X, axis=0)

def split_data(X, y, test_size=0.2):
    """Chia dữ liệu thành tập train và test."""
    np.random.seed(42)
    indices = np.random.permutation(len(X))
    test_size = int(len(X) * test_size)
    test_indices = indices[:test_size]
    train_indices = indices[test_size:]
    return X[train_indices], X[test_indices], y[train_indices], y[test_indices]

class LinearRegression:
    def __init__(self):
        self.weights = None
        self.bias = None
        self.loss_history = []

    def fit(self, X, y, learning_rate=0.01, epochs=1000):
        """Huấn luyện mô hình bằng gradient descent."""
        n_samples, n_features = X.shape

        # Khởi tạo weights và bias
        self.weights = np.zeros(n_features)
        self.bias = 0

        for epoch in range(epochs):
            # Forward pass
            y_pred = np.dot(X, self.weights) + self.bias

            # Tính loss
            loss = np.mean((y_pred - y) ** 2)
            self.loss_history.append(loss)

            if epoch % 100 == 0:
                print(f'Epoch {epoch}, Loss: {loss:.4f}')

            # Tính gradient
            dw = (2/n_samples) * np.dot(X.T, (y_pred - y))
            db = (2/n_samples) * np.sum(y_pred - y)

            # Cập nhật weights và bias
            self.weights -= learning_rate * dw
            self.bias -= learning_rate * db

    def predict(self, X):
        """Dự đoán giá trị cho dữ liệu mới."""
        return np.dot(X, self.weights) + self.bias

def calculate_metrics(y_true, y_pred):
    """Tính các metrics đánh giá mô hình."""
    mse = np.mean((y_true - y_pred) ** 2)
    rmse = np.sqrt(mse)
    r2 = 1 - np.sum((y_true - y_pred) ** 2) / np.sum((y_true - np.mean(y_true)) ** 2)
    return mse, rmse, r2

# Đọc và chuẩn bị dữ liệu
X, y = load_data('/content/FuelConsumptionCo2.csv')

# Chia dữ liệu
X_train, X_test, y_train, y_test = split_data(X, y)

# Chuẩn hóa dữ liệu
X_train_norm = normalize(X_train)
X_test_norm = normalize(X_test)

# Khởi tạo và huấn luyện mô hình
model = LinearRegression()
model.fit(X_train_norm, y_train, learning_rate=0.01, epochs=1000)

# Dự đoán và đánh giá
y_train_pred = model.predict(X_train_norm)
y_test_pred = model.predict(X_test_norm)

# Tính metrics cho tập train và test
train_mse, train_rmse, train_r2 = calculate_metrics(y_train, y_train_pred)
test_mse, test_rmse, test_r2 = calculate_metrics(y_test, y_test_pred)

print("\nKết quả đánh giá mô hình:")
print(f"Train R2 Score: {train_r2:.4f}")
print(f"Test R2 Score: {test_r2:.4f}")
print(f"Train RMSE: {train_rmse:.4f}")
print(f"Test RMSE: {test_rmse:.4f}")

def predict_co2_emissions(engine_size, fuel_consumption):
    """Dự đoán lượng khí thải CO2 cho dữ liệu mới."""
    # Chuẩn hóa input
    X_mean = np.mean(X_train, axis=0)
    X_std = np.std(X_train, axis=0)

    input_normalized = np.array([(engine_size - X_mean[0]) / X_std[0],
                                (fuel_consumption - X_mean[1]) / X_std[1]])

    # Dự đoán
    prediction = model.predict(input_normalized.reshape(1, -1))
    return prediction[0]

# Ví dụ sử dụng
engine_size = 2.0
fuel_consumption = 8.5
predicted_co2 = predict_co2_emissions(engine_size, fuel_consumption)

print("\nVí dụ dự đoán:")
print(f"Engine Size: {engine_size}L")
print(f"Fuel Consumption: {fuel_consumption}L/100km")
print(f"Predicted CO2 Emissions: {predicted_co2:.2f} g/km")

# In hệ số hồi quy (đã chuẩn hóa)
print("\nHệ số hồi quy (đã chuẩn hóa):")
print(f"Weight cho Engine Size: {model.weights[0]:.4f}")
print(f"Weight cho Fuel Consumption: {model.weights[1]:.4f}")
print(f"Bias: {model.bias:.4f}")

Epoch 0, Loss: 70252.3126
Epoch 100, Loss: 1326.6581
Epoch 200, Loss: 111.5444
Epoch 300, Loss: 52.3705
Epoch 400, Loss: 29.7168
Epoch 500, Loss: 16.9721
Epoch 600, Loss: 9.6952
Epoch 700, Loss: 5.5383
Epoch 800, Loss: 3.1637
Epoch 900, Loss: 1.8073

Kết quả đánh giá mô hình:
Train R2 Score: 0.9997
Test R2 Score: 0.9910
Train RMSE: 1.0161
Test RMSE: 6.0579

Ví dụ dự đoán:
Engine Size: 2.0L
Fuel Consumption: 8.5L/100km
Predicted CO2 Emissions: 10.89 g/km

Hệ số hồi quy (đã chuẩn hóa):
Weight cho Engine Size: 1.9216
Weight cho Fuel Consumption: 61.2597
Bias: 257.4110
