In [69]:
import numpy as np
import pandas as pd

df = pd.read_csv('advertising.csv')
df.head()

Unnamed: 0,TV,Radio,Newspaper,Sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,12.0
3,151.5,41.3,58.5,16.5
4,180.8,10.8,58.4,17.9


In [70]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Chọn các feature và label
X = df[['TV', 'Radio', 'Newspaper']]
y = df['Sales']

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Khởi tạo và huấn luyện mô hình Linear Regression
model = LinearRegression()
model.fit(X_train, y_train)

In [71]:
# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Tính toán các chỉ số đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [72]:
# Các giá trị cần đưa vào bảng
coefficients = model.coef_
intercept = model.intercept_
metrics = {
    "Coefficient_TV": coefficients[0],
    "Coefficient_Radio": coefficients[1],
    "Coefficient_Newspaper": coefficients[2],
    "Intercept": intercept,
    "Mean Squared Error (MSE)": mse,
    "R-squared (R2)": r2
}

# Chuyển các giá trị thành dataframe để trình bày dạng bảng
metrics_df = pd.DataFrame(metrics, index=[0])

In [73]:
metrics_df

Unnamed: 0,Coefficient_TV,Coefficient_Radio,Coefficient_Newspaper,Intercept,Mean Squared Error (MSE),R-squared (R2)
0,0.054509,0.100945,0.004337,4.714126,2.907757,0.905901


# Thử bỏ đi Newspaper vs Radio

In [74]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Chọn các feature và label
X = df[['TV']]
y = df['Sales']

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Khởi tạo và huấn luyện mô hình Linear Regression
model = LinearRegression()
model.fit(X_train, y_train)

In [75]:
# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Tính toán các chỉ số đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [76]:
# Các giá trị cần đưa vào bảng
coefficients = model.coef_
intercept = model.intercept_
metrics = {
    "Coefficient_TV": coefficients[0],
    "Intercept": intercept,
    "Mean Squared Error (MSE)": mse,
    "R-squared (R2)": r2
}

# Chuyển các giá trị thành dataframe để trình bày dạng bảng
metrics_df = pd.DataFrame(metrics, index=[0])

In [77]:
metrics_df

Unnamed: 0,Coefficient_TV,Intercept,Mean Squared Error (MSE),R-squared (R2)
0,0.055483,7.007108,6.101073,0.802561


# Gộp Feature lại

In [78]:
# Tạo một feature mới bằng cách gộp hai biến Radio và Newspaper
df['Radio_Newspaper'] = df['Radio'] + df['Newspaper']

In [79]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Chọn các feature và label
X = df[['TV', 'Radio_Newspaper']]
y = df['Sales']

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Khởi tạo và huấn luyện mô hình Linear Regression
model = LinearRegression()
model.fit(X_train, y_train)

In [80]:
# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Tính toán các chỉ số đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [81]:
# Các giá trị cần đưa vào bảng
coefficients = model.coef_
intercept = model.intercept_
metrics = {
    "Coefficient_TV": coefficients[0],
    "Intercept": intercept,
    "Mean Squared Error (MSE)": mse,
    "R-squared (R2)": r2
}

# Chuyển các giá trị thành dataframe để trình bày dạng bảng
metrics_df = pd.DataFrame(metrics, index=[0])

In [82]:
metrics_df

Unnamed: 0,Coefficient_TV,Intercept,Mean Squared Error (MSE),R-squared (R2)
0,0.054896,4.889292,5.208051,0.831461


# giữ lại Newspaper vs Radio, và feature mới

In [83]:
df.head()

Unnamed: 0,TV,Radio,Newspaper,Sales,Radio_Newspaper
0,230.1,37.8,69.2,22.1,107.0
1,44.5,39.3,45.1,10.4,84.4
2,17.2,45.9,69.3,12.0,115.2
3,151.5,41.3,58.5,16.5,99.8
4,180.8,10.8,58.4,17.9,69.2


In [84]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Chọn các feature và label
X = df[['TV','Radio','Newspaper','Radio_Newspaper']]
y = df['Sales']

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Khởi tạo và huấn luyện mô hình Linear Regression
model = LinearRegression()
model.fit(X_train, y_train)

In [85]:
# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Tính toán các chỉ số đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [86]:
# Các giá trị cần đưa vào bảng
coefficients = model.coef_
intercept = model.intercept_
metrics = {
    "Coefficient_TV": coefficients[0],
    "Intercept": intercept,
    "Mean Squared Error (MSE)": mse,
    "R-squared (R2)": r2
}

# Chuyển các giá trị thành dataframe để trình bày dạng bảng
metrics_df = pd.DataFrame(metrics, index=[0])

In [87]:
metrics_df

Unnamed: 0,Coefficient_TV,Intercept,Mean Squared Error (MSE),R-squared (R2)
0,0.054509,4.714126,2.907757,0.905901


# AB Testing approach

In [88]:
import numpy as np

# Create a new feature 'AB_testing' with random 0 or 1 values
df['AB_testing'] = np.random.randint(0, 2, size=len(df))

In [89]:
df.head()

Unnamed: 0,TV,Radio,Newspaper,Sales,Radio_Newspaper,AB_testing
0,230.1,37.8,69.2,22.1,107.0,1
1,44.5,39.3,45.1,10.4,84.4,0
2,17.2,45.9,69.3,12.0,115.2,1
3,151.5,41.3,58.5,16.5,99.8,1
4,180.8,10.8,58.4,17.9,69.2,1


In [90]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Define features and label
X = df.drop(columns = 'Sales')
y = df['Sales']

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialize the Linear Regression model
model = LinearRegression()

# Train the model on the training data
model.fit(X_train, y_train)

In [91]:
# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Tính toán các chỉ số đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [92]:
# Các giá trị cần đưa vào bảng
coefficients = model.coef_
intercept = model.intercept_
metrics = {
    "Coefficient_TV": coefficients[0],
    "Intercept": intercept,
    "Mean Squared Error (MSE)": mse,
    "R-squared (R2)": r2
}

# Chuyển các giá trị thành dataframe để trình bày dạng bảng
metrics_df = pd.DataFrame(metrics, index=[0])

In [93]:
metrics_df

Unnamed: 0,Coefficient_TV,Intercept,Mean Squared Error (MSE),R-squared (R2)
0,0.054474,4.558196,2.84311,0.907993


# Tìm Model tốt nhất bằng AB Testing

In [94]:
maxr2 = 0
best_model = None

In [95]:
for _ in range(10000):
    # Create a new feature 'AB_testing' with random 0 or 1 values
    df['AB_testing'] = np.random.randint(0, 2, size=len(df))

    # Define features and label
    X = df.drop(columns = 'Sales')
    y = df['Sales']

    # Split the dataset into training and testing sets
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Initialize the Linear Regression model
    model = LinearRegression()

    # Train the model on the training data
    model.fit(X_train, y_train)

    # Dự đoán trên tập kiểm tra
    y_pred = model.predict(X_test)

    # Tính toán các chỉ số đánh giá mô hình
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)

    if r2 > maxr2:
        maxr2 = r2
        best_model = model

In [96]:
# Các giá trị cần đưa vào bảng
coefficients = best_model.coef_
intercept = best_model.intercept_
metrics = {
    "Coefficient_TV": coefficients[0],
    "Intercept": intercept,
    "Mean Squared Error (MSE)": mse,
    "R-squared (R2)": r2
}

# Chuyển các giá trị thành dataframe để trình bày dạng bảng
metrics_df = pd.DataFrame(metrics, index=[0])

In [97]:
metrics_df

Unnamed: 0,Coefficient_TV,Intercept,Mean Squared Error (MSE),R-squared (R2)
0,0.054461,4.399303,2.993741,0.903119


# AB testing with Others model Regressor

In [98]:
!pip install catboost



In [99]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, ExtraTreesRegressor, AdaBoostRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from catboost import CatBoostRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

In [100]:
maxr2 = 0
best_model = None
best_model_name = None

In [105]:
seed = 42
models = {
    'LinearRegression': LinearRegression(),
    'Ridge': Ridge(random_state=seed),
    'Lasso': Lasso(random_state=seed),
    'DecisionTree': DecisionTreeRegressor(random_state=seed, max_depth=5),
    'RandomForest': RandomForestRegressor(random_state=seed),
    'GradientBoosting': GradientBoostingRegressor(random_state=seed),
    'ExtraTrees': ExtraTreesRegressor(random_state=seed),
    'AdaBoost': AdaBoostRegressor(random_state=seed),
    'XGBRegressor': XGBRegressor(random_state=seed),
    'LGBMRegressor': LGBMRegressor(random_state=seed),
    'CatBoostRegressor': CatBoostRegressor(silent=True, random_state=seed)
}

In [106]:
for model_name, model in models.items():
  for _ in range(5):
    # Create a new feature 'AB_testing' with random 0 or 1 values
    df['AB_testing'] = np.random.randint(0, 2, size=len(df))

    # Define features and label
    X = df.drop(columns = 'Sales')
    y = df['Sales']

    # Split the dataset into training and testing sets
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Train the model on the training data
    model.fit(X_train, y_train)

    # Dự đoán trên tập kiểm tra
    y_pred = model.predict(X_test)

    # Tính toán các chỉ số đánh giá mô hình
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)

    if r2 > maxr2:
        maxr2 = r2
        best_model = model
        best_model_name = model_name

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000055 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 212
[LightGBM] [Info] Number of data points in the train set: 160, number of used features: 5
[LightGBM] [Info] Start training from score 15.330625
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000030 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 212
[LightGBM] [Info] Number of data points in the train set: 160, number of used features: 5
[LightGBM] [Info] Start training from score 15.330625
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000051 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 212
[LightGBM] [Info] Number of data points in the train set: 160, 

In [109]:
print('Max R2: ',maxr2)
print("Best Model is: ",best_model)
print("Best Model Name is: ",best_model_name)

Max R2:  0.9675546412914655
Best Model is:  <catboost.core.CatBoostRegressor object at 0x7868125c21d0>
Best Model Name is:  CatBoostRegressor


# Predict

In [114]:
import numpy as np
import pandas as pd

# Assuming df is your original dataframe and best_model is the trained CatBoostRegressor
# Generate or use some sample data for predictions
sample_data = pd.DataFrame({
    'TV': [100.0, 200.0, 150.0],  # Replace with actual sample values
    'Radio': [20.0, 30.0, 40.0],  # Replace with actual sample values
    'Newspaper': [50.0, 60.0, 70.0],  # Replace with actual sample values
    'Radio_Newspaper': [70.0, 90.0, 110.0],  # Replace with actual sample values
    'AB_testing': [1, 0, 0]  # Replace with actual sample values
})

# Use the best model (CatBoostRegressor) to make predictions
predictions = best_model.predict(sample_data)

# Display the predictions
for i, pred in enumerate(predictions):
    print(f"Prediction for sample {i+1}: {pred:.2f}")


Prediction for sample 1: 12.64
Prediction for sample 2: 18.54
Prediction for sample 3: 16.88
