In [2]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import joblib
import warnings
import math
warnings.filterwarnings('ignore')

# Hàm tải và tiền xử lý dữ liệu
def load_and_preprocess_data(file_path='retail_sales_dataset_cleaned.csv'):
    # Đọc file CSV
    data = pd.read_csv(file_path)

    # Chọn các biến độc lập và biến phụ thuộc
    features = ['Quantity', 'Price per Unit', 'Import Cost']
    target = 'Total Amount'

    # Kiểm tra giá trị null
    if data[features + [target]].isnull().sum().any():
        print("Cảnh báo: Có giá trị null trong dữ liệu, đang thay thế bằng 0.")
        data[features + [target]] = data[features + [target]].fillna(0)

    # Đảm bảo các cột là kiểu số
    for col in features:
        data[col] = pd.to_numeric(data[col], errors='coerce')

    # Kiểm tra kiểu dữ liệu
    print("Kiểu dữ liệu của các cột:")
    print(data[features + [target]].dtypes)

    return data[features], data[target]

# Hàm huấn luyện mô hình
def train_model(X, y):
    # Chia dữ liệu thành tập huấn luyện và kiểm tra
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Khởi tạo và huấn luyện mô hình
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Dự đoán trên tập kiểm tra
    y_pred = model.predict(X_test)

    # Đánh giá mô hình
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)

    print("\nKết quả đánh giá mô hình:")
    print(f"Root Mean Squared Error (RMSE): {math.sqrt(mse):.2f}")
    print(f"R-squared (R²): {r2:.4f}")

    # In hệ số hồi quy
    print("\nHệ số hồi quy:")
    for feature, coef in zip(X.columns, model.coef_):
        print(f"{feature}: {coef:.4f}")
    print(f"Hằng số (intercept): {model.intercept_:.4f}")

    return model, X_test, y_test, y_pred

# Hàm lưu mô hình
def save_model(model, filename='sales_prediction_model.pkl'):
    joblib.dump(model, filename)
    print(f"\nMô hình đã được lưu vào file: {filename}")

# Hàm chính
def main():
    # Tải và tiền xử lý dữ liệu
    X, y = load_and_preprocess_data()

    # Huấn luyện mô hình
    model, X_test, y_test, y_pred = train_model(X, y)

    # Lưu mô hình
    save_model(model)

    # Hiển thị một số dự đoán mẫu
    print("\nMột số dự đoán mẫu:")
    for i in range(5):
        print(f"Mẫu {i+1}: Thực tế = {y_test.iloc[i]:.2f}, Dự đoán = {y_pred[i]:.2f}")

if __name__ == "__main__":
    main()

Kiểu dữ liệu của các cột:
Quantity            int64
Price per Unit      int64
Import Cost       float64
Total Amount        int64
dtype: object

Kết quả đánh giá mô hình:
Root Mean Squared Error (RMSE): 204.61
R-squared (R²): 0.8570

Hệ số hồi quy:
Quantity: 179.7689
Price per Unit: 2.5438
Import Cost: -0.0767
Hằng số (intercept): -439.2554

Mô hình đã được lưu vào file: sales_prediction_model.pkl

Một số dự đoán mẫu:
Mẫu 1: Thực tế = 1500.00, Dự đoán = 1347.89
Mẫu 2: Thực tế = 100.00, Dự đoán = 44.75
Mẫu 3: Thực tế = 300.00, Dự đoán = 488.15
Mẫu 4: Thực tế = 100.00, Dự đoán = 342.08
Mẫu 5: Thực tế = 2000.00, Dự đoán = 1527.61


In [3]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import joblib
import warnings
import math
warnings.filterwarnings('ignore')

# Hàm tải và tiền xử lý dữ liệu
def load_and_preprocess_data(file_path='retail_sales_dataset_cleaned.csv'):
    # Đọc file CSV
    data = pd.read_csv(file_path)

    # Mã hóa one-hot cho Product Category
    data = pd.get_dummies(data, columns=['Product Category'], drop_first=True)

    # Chọn các biến độc lập (các cột one-hot của Product Category)
    independent_vars = [col for col in data.columns if col.startswith('Product Category_')]

    # Chọn biến phụ thuộc
    target = 'Inventory'

    # Kiểm tra giá trị null
    if data[independent_vars + [target]].isnull().sum().any():
        print("Cảnh báo: Có giá trị null trong dữ liệu, đang thay thế bằng 0.")
        data[independent_vars + [target]] = data[independent_vars + [target]].fillna(0)

    # Kiểm tra kiểu dữ liệu
    print("Kiểu dữ liệu của các cột:")
    print(data[independent_vars + [target]].dtypes)

    return data[independent_vars], data[target]

# Hàm huấn luyện mô hình
def train_model(X, y):
    # Chia dữ liệu thành tập huấn luyện và kiểm tra
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Khởi tạo và huấn luyện mô hình
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Dự đoán trên tập kiểm tra
    y_pred = model.predict(X_test)

    # Đánh giá mô hình
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)

    print("\nKết quả đánh giá mô hình:")
    print(f"Root Mean Squared Error (RMSE): {math.sqrt(mse):.2f}")
    print(f"R-squared (R²): {r2:.4f}")

    # In hệ số hồi quy
    print("\nHệ số hồi quy:")
    for feature, coef in zip(X.columns, model.coef_):
        print(f"{feature}: {coef:.4f}")
    print(f"Hằng số (intercept): {model.intercept_:.4f}")

    return model, X_test, y_test, y_pred

# Hàm lưu mô hình
def save_model(model, filename='inventory_prediction_model.pkl'):
    joblib.dump(model, filename)
    print(f"\nMô hình đã được lưu vào file: {filename}")

# Hàm chính
def main():
    # Tải và tiền xử lý dữ liệu
    X, y = load_and_preprocess_data()

    # Huấn luyện mô hình
    model, X_test, y_test, y_pred = train_model(X, y)

    # Lưu mô hình
    save_model(model)

    # Hiển thị một số dự đoán mẫu
    print("\nMột số dự đoán mẫu:")
    for i in range(5):
        print(f"Mẫu {i+1}: Thực tế = {y_test.iloc[i]:.2f}, Dự đoán = {y_pred[i]:.2f}")

if __name__ == "__main__":
    main()

Kiểu dữ liệu của các cột:
Product Category_Clothing        bool
Product Category_Electronics     bool
Inventory                       int64
dtype: object

Kết quả đánh giá mô hình:
Root Mean Squared Error (RMSE): 41.24
R-squared (R²): 0.6388

Hệ số hồi quy:
Product Category_Clothing: 74.4016
Product Category_Electronics: -62.3279
Hằng số (intercept): 124.2479

Mô hình đã được lưu vào file: inventory_prediction_model.pkl

Một số dự đoán mẫu:
Mẫu 1: Thực tế = 101.00, Dự đoán = 124.25
Mẫu 2: Thực tế = 190.00, Dự đoán = 198.65
Mẫu 3: Thực tế = 173.00, Dự đoán = 198.65
Mẫu 4: Thực tế = 215.00, Dự đoán = 198.65
Mẫu 5: Thực tế = 63.00, Dự đoán = 61.92


In [4]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import joblib
import warnings
import math
warnings.filterwarnings('ignore')

# Hàm tải và tiền xử lý dữ liệu
def load_and_preprocess_data(file_path='retail_sales_dataset_cleaned.csv'):
    # Đọc file CSV
    data = pd.read_csv(file_path)

    # Mã hóa one-hot cho Product Category và City
    data = pd.get_dummies(data, columns=['Product Category', 'City'], drop_first=True)

    # Chọn các biến độc lập
    independent_vars = ['Quantity'] + \
                      [col for col in data.columns if col.startswith(('Product Category_', 'City_'))]

    # Chọn biến phụ thuộc
    target = 'Inventory'

    # Kiểm tra giá trị null
    if data[independent_vars + [target]].isnull().sum().any():
        print("Cảnh báo: Có giá trị null trong dữ liệu, đang thay thế bằng trung bình.")
        data['Inventory'] = data['Inventory'].fillna(data['Inventory'].mean())
        data['Quantity'] = data['Quantity'].fillna(data['Quantity'].mean())
        for col in independent_vars:
            if col.startswith(('Product Category_', 'City_')):
                data[col] = data[col].fillna(0)

    # Kiểm tra kiểu dữ liệu
    print("Kiểu dữ liệu của các cột:")
    print(data[independent_vars + [target]].dtypes)

    return data[independent_vars], data[target]

# Hàm huấn luyện mô hình
def train_model(X, y):
    # Chia dữ liệu thành tập huấn luyện và kiểm tra
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Khởi tạo và huấn luyện mô hình
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Dự đoán trên tập kiểm tra
    y_pred = model.predict(X_test)

    # Đánh giá mô hình
    mse = mean_squared_error(y_test, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_test, y_pred)

    print("\nKết quả đánh giá mô hình:")
    print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
    print(f"R-squared (R²): {r2:.4f}")

    # In hệ số hồi quy
    print("\nHệ số hồi quy:")
    for feature, coef in zip(X.columns, model.coef_):
        print(f"{feature}: {coef:.4f}")
    print(f"Hằng số (intercept): {model.intercept_:.4f}")

    return model, X_test, y_test, y_pred

# Hàm lưu mô hình
def save_model(model, filename='inventory_prediction_model_with_quantity_city.pkl'):
    joblib.dump(model, filename)
    print(f"\nMô hình đã được lưu vào file: {filename}")

# Hàm chính
def main():
    # Tải và tiền xử lý dữ liệu
    X, y = load_and_preprocess_data()

    # Huấn luyện mô hình
    model, X_test, y_test, y_pred = train_model(X, y)

    # Lưu mô hình
    save_model(model)

    # Hiển thị một số dự đoán mẫu
    print("\nMột số dự đoán mẫu:")
    for i in range(5):
        print(f"Mẫu {i+1}: Thực tế = {y_test.iloc[i]:.2f}, Dự đoán = {y_pred[i]:.2f}")

if __name__ == "__main__":
    main()

Kiểu dữ liệu của các cột:
Quantity                        int64
Product Category_Clothing        bool
Product Category_Electronics     bool
City_Hà Nội                      bool
City_Hải Phòng                   bool
City_TP.HCM                      bool
City_Đà Nẵng                     bool
Inventory                       int64
dtype: object

Kết quả đánh giá mô hình:
Root Mean Squared Error (RMSE): 41.32
R-squared (R²): 0.6375

Hệ số hồi quy:
Quantity: -0.1390
Product Category_Clothing: 74.7770
Product Category_Electronics: -62.3017
City_Hà Nội: 4.7840
City_Hải Phòng: 8.9198
City_TP.HCM: 0.7875
City_Đà Nẵng: -0.8889
Hằng số (intercept): 122.1290

Mô hình đã được lưu vào file: inventory_prediction_model_with_quantity_city.pkl

Một số dự đoán mẫu:
Mẫu 1: Thực tế = 101.00, Dự đoán = 122.50
Mẫu 2: Thực tế = 190.00, Dự đoán = 195.74
Mẫu 3: Thực tế = 173.00, Dự đoán = 197.55
Mẫu 4: Thực tế = 215.00, Dự đoán = 197.14
Mẫu 5: Thực tế = 63.00, Dự đoán = 68.19


In [5]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import joblib
import warnings
warnings.filterwarnings('ignore')

# Hàm tải và tiền xử lý dữ liệu
def load_and_preprocess_data(file_path='retail_sales_dataset_cleaned.csv'):
    # Đọc file CSV
    data = pd.read_csv(file_path)

    # Mã hóa one-hot cho Product Category
    data = pd.get_dummies(data, columns=['Product Category'], drop_first=True)

    # Chọn các biến độc lập
    independent_vars = ['Quantity'] + \
                      [col for col in data.columns if col.startswith('Product Category_')]

    # Chọn biến phụ thuộc
    target = 'Inventory'

    # Kiểm tra giá trị null
    if data[independent_vars + [target]].isnull().sum().any():
        print("Cảnh báo: Có giá trị null trong dữ liệu, đang thay thế bằng trung bình.")
        data['Inventory'] = data['Inventory'].fillna(data['Inventory'].mean())
        data['Quantity'] = data['Quantity'].fillna(data['Quantity'].mean())
        for col in independent_vars:
            if col.startswith('Product Category_'):
                data[col] = data[col].fillna(0)

    # Đảm bảo Quantity là kiểu số
    data['Quantity'] = pd.to_numeric(data['Quantity'], errors='coerce')

    # Kiểm tra kiểu dữ liệu
    print("Kiểu dữ liệu của các cột:")
    print(data[independent_vars + [target]].dtypes)

    return data[independent_vars], data[target]

# Hàm huấn luyện mô hình
def train_model(X, y):
    # Chia dữ liệu thành tập huấn luyện và kiểm tra
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Khởi tạo và huấn luyện mô hình
    model = LinearRegression()
    model.fit(X_train, y_train)

    # Dự đoán trên tập kiểm tra
    y_pred = model.predict(X_test)

    # Đánh giá mô hình
    mse = mean_squared_error(y_test, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_test, y_pred)

    print("\nKết quả đánh giá mô hình:")
    print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
    print(f"R-squared (R²): {r2:.4f}")

    # In hệ số hồi quy
    print("\nHệ số hồi quy:")
    for feature, coef in zip(X.columns, model.coef_):
        print(f"{feature}: {coef:.4f}")
    print(f"Hằng số (intercept): {model.intercept_:.4f}")

    return model, X_test, y_test, y_pred

# Hàm lưu mô hình
def save_model(model, filename='inventory_prediction_quantity_product_category.pkl'):
    joblib.dump(model, filename)
    print(f"\nMô hình đã được lưu vào file: {filename}")

# Hàm chính
def main():
    # Tải và tiền xử lý dữ liệu
    X, y = load_and_preprocess_data()

    # Huấn luyện mô hình
    model, X_test, y_test, y_pred = train_model(X, y)

    # Lưu mô hình
    save_model(model)

    # Hiển thị một số dự đoán mẫu
    print("\nMột số dự đoán mẫu:")
    for i in range(5):
        print(f"Mẫu {i+1}: Thực tế = {y_test.iloc[i]:.2f}, Dự đoán = {y_pred[i]:.2f}")

if __name__ == "__main__":
    main()

Kiểu dữ liệu của các cột:
Quantity                        int64
Product Category_Clothing        bool
Product Category_Electronics     bool
Inventory                       int64
dtype: object

Kết quả đánh giá mô hình:
Root Mean Squared Error (RMSE): 41.24
R-squared (R²): 0.6388

Hệ số hồi quy:
Quantity: -0.0150
Product Category_Clothing: 74.4027
Product Category_Electronics: -62.3272
Hằng số (intercept): 124.2849

Mô hình đã được lưu vào file: inventory_prediction_quantity_product_category.pkl

Một số dự đoán mẫu:
Mẫu 1: Thực tế = 101.00, Dự đoán = 124.24
Mẫu 2: Thực tế = 190.00, Dự đoán = 198.66
Mẫu 3: Thực tế = 173.00, Dự đoán = 198.67
Mẫu 4: Thực tế = 215.00, Dự đoán = 198.63
Mẫu 5: Thực tế = 63.00, Dự đoán = 61.90
