<p style="text-align:center">
    <a href="https://skills.network" target="_blank">
    <img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/assets/logos/SN_web_lightmode.png" width="300" alt="Skills Network Logo">
    </a>
</p>


# Test Environment for Generative AI classroom labs

This lab provides a test environment for the codes generated using the Generative AI classroom.

Follow the instructions below to set up this environment for further use.


# Setup


### Install required libraries

In case of a requirement of installing certain python libraries for use in your task, you may do so as shown below.


In [7]:
%pip install seaborn



### Dataset URL from the GenAI lab
Use the URL provided in the GenAI lab in the cell below.


In [8]:
URL = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-Coursera/laptop_pricing_dataset_mod2.csv"

### Downloading the dataset

Execute the following code to download the dataset in to the interface.

> Please note that this step is essential in JupyterLite. If you are using a downloaded version of this notebook and running it on JupyterLabs, then you can skip this step and directly use the URL in pandas.read_csv() function to read the dataset as a dataframe


In [9]:
import requests

def download_file(url, filename):
    response = requests.get(url)
    if response.status_code == 200:
        with open(filename, "wb") as f:
            f.write(response.content)

path = URL
file_name = "dataset.csv"

download_file(path, file_name)

---


# Test Environment


In [None]:
import pandas as pd

# Read the CSV file into a pandas DataFrame, using the first row as headers
df = pd.read_csv(file_name)

# Display the first 5 rows of the DataFrame to verify
display(df.head())

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Manufacturer,Category,GPU,OS,CPU_core,Screen_Size_inch,CPU_frequency,RAM_GB,Storage_GB_SSD,Weight_pounds,Price,Price-binned,Screen-Full_HD,Screen-IPS_panel
0,0,0,Acer,4,2,1,5,14.0,0.551724,8,256,3.528,978,Low,0,1
1,1,1,Dell,3,1,1,3,15.6,0.689655,4,256,4.851,634,Low,1,0
2,2,2,Dell,3,1,1,7,15.6,0.931034,8,256,4.851,946,Low,1,0
3,3,3,Dell,4,2,1,5,13.3,0.551724,8,128,2.6901,1244,Low,0,1
4,4,4,HP,4,2,1,7,15.6,0.62069,8,256,4.21155,837,Low,1,0


### Phát triển và Huấn luyện Mô hình Hồi quy Tuyến tính

In [10]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Define source and target variables using the existing variables from the notebook state
source_variable = 'Weight_pounds'
target_variable = 'Price'

# Prepare the data
X = df[[source_variable]] # Independent variable (source_variable)
y = df[target_variable]    # Dependent variable (target_variable)

# Create a Linear Regression model object
lm = LinearRegression()

# Train the model using the training data
lm.fit(X, y)

# Make predictions using the trained model
yhat = lm.predict(X)

display(pd.DataFrame({'Actual': y, 'Predicted': yhat}).head())


Unnamed: 0,Actual,Predicted
0,978,1477.844911
1,634,1442.379246
2,946,1442.379246
3,1244,1500.306498
4,837,1459.520984


### Đánh giá Mô hình
Chúng ta sẽ đánh giá mô hình bằng cách sử dụng $R^2$ (R-squared) và Sai số bình phương trung bình (Mean Squared Error - MSE).

In [11]:
# Calculate R-squared
r_squared = r2_score(y, yhat)

# Calculate Mean Squared Error (MSE)
mse = mean_squared_error(y, yhat)

print(f"R-squared: {r_squared}")
print(f"Mean Squared Error: {mse}")

# You can also access the intercept and coefficients
print(f"Intercept: {lm.intercept_}")
print(f"Coefficient for {source_variable}: {lm.coef_[0]}")


R-squared: 0.0025313233430460658
Mean Squared Error: 327954.4561264833
Intercept: 1572.420016309511
Coefficient for Weight_pounds: -26.807002762156323


In [12]:
from sklearn.metrics import mean_squared_error, r2_score

# Calculate R-squared
r_squared = r2_score(y, yhat)

# Calculate Mean Squared Error (MSE)
mse = mean_squared_error(y, yhat)

print(f"R-squared: {r_squared}")
print(f"Mean Squared Error: {mse}")

# You can also access the intercept and coefficients of the trained model
# print(f"Intercept: {lm.intercept_}")
# print(f"Coefficient for {source_variable}: {lm.coef_[0]}")


R-squared: 0.0025313233430460658
Mean Squared Error: 327954.4561264833


### Phát triển và Huấn luyện Mô hình Hồi quy Tuyến tính với nhiều Biến nguồn

In [13]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Define multiple source variables and one target variable
# You can modify this list to include other numerical columns from your DataFrame
source_variables = ['CPU_core', 'Screen_Size_inch', 'Weight_pounds']
target_variable = 'Price'

# Prepare the data
X_multi = df[source_variables] # Independent variables (source_variables)
y_multi = df[target_variable]    # Dependent variable (target_variable)

# Create a Linear Regression model object
lm_multi = LinearRegression()

# Train the model using the training data
lm_multi.fit(X_multi, y_multi)

# Make predictions using the trained model
yhat_multi = lm_multi.predict(X_multi)

display(pd.DataFrame({'Actual': y_multi, 'Predicted': yhat_multi}).head())


Unnamed: 0,Actual,Predicted
0,978,1369.230362
1,634,843.33282
2,946,1699.605052
3,1244,1403.900452
4,837,1679.612246


### Đánh giá Mô hình với nhiều Biến nguồn
Chúng ta sẽ đánh giá mô hình bằng cách sử dụng $R^2$ (R-squared) và Sai số bình phương trung bình (Mean Squared Error - MSE).

In [14]:
# Calculate R-squared for the multi-variable model
r_squared_multi = r2_score(y_multi, yhat_multi)

# Calculate Mean Squared Error (MSE) for the multi-variable model
mse_multi = mean_squared_error(y_multi, yhat_multi)

print(f"R-squared (Multi-variable model): {r_squared_multi}")
print(f"Mean Squared Error (Multi-variable model): {mse_multi}")

# You can also access the intercept and coefficients for the multi-variable model
print(f"Intercept (Multi-variable model): {lm_multi.intercept_}")
print(f"Coefficients (Multi-variable model): {lm_multi.coef_}")

# Print coefficients with their corresponding feature names
print("\nCoefficients per feature:")
for feature, coef in zip(source_variables, lm_multi.coef_):
    print(f"  {feature}: {coef}")


R-squared (Multi-variable model): 0.2290993779921907
Mean Squared Error (Multi-variable model): 253461.8882123432
Intercept (Multi-variable model): 1405.936141573773
Coefficients (Multi-variable model): [214.06805808 -86.9536577   31.2656286 ]

Coefficients per feature:
  CPU_core: 214.06805807908103
  Screen_Size_inch: -86.95365770218554
  Weight_pounds: 31.265628601978868


In [15]:
from sklearn.metrics import mean_squared_error, r2_score

# Calculate R-squared for the multi-variable model
r_squared_multi = r2_score(y_multi, yhat_multi)

# Calculate Mean Squared Error (MSE) for the multi-variable model
mse_multi = mean_squared_error(y_multi, yhat_multi)

print(f"R-squared (Multi-variable model): {r_squared_multi}")
print(f"Mean Squared Error (Multi-variable model): {mse_multi}")


R-squared (Multi-variable model): 0.2290993779921907
Mean Squared Error (Multi-variable model): 253461.8882123432


### Phát triển và Huấn luyện Mô hình Hồi quy Đa thức (Bậc 2)

In [16]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd

# Define source and target variables
source_variable_poly = 'Weight_pounds'
target_variable_poly = 'Price'

# Prepare the data
X_poly = df[[source_variable_poly]] # Independent variable
y_poly = df[target_variable_poly]    # Dependent variable

# Create Polynomial Features for degree 2
pr_2 = PolynomialFeatures(degree=2)
X_poly_2 = pr_2.fit_transform(X_poly)

# Create and train a Linear Regression model
lm_poly_2 = LinearRegression()
lm_poly_2.fit(X_poly_2, y_poly)

# Make predictions
yhat_poly_2 = lm_poly_2.predict(X_poly_2)

display(pd.DataFrame({'Actual': y_poly, 'Predicted (Degree 2)': yhat_poly_2}).head())

# Evaluate the model
r_squared_poly_2 = r2_score(y_poly, yhat_poly_2)
mse_poly_2 = mean_squared_error(y_poly, yhat_poly_2)

print(f"\n--- Degree 2 Polynomial Regression ---")
print(f"R-squared: {r_squared_poly_2}")
print(f"Mean Squared Error: {mse_poly_2}")


Unnamed: 0,Actual,Predicted (Degree 2)
0,978,1392.245517
1,634,1264.687745
2,946,1264.687745
3,1244,1786.244689
4,837,1250.72893



--- Degree 2 Polynomial Regression ---
R-squared: 0.26853466997029696
Mean Squared Error: 240496.08784634658


### Phát triển và Huấn luyện Mô hình Hồi quy Đa thức (Bậc 3)

In [17]:
# Create Polynomial Features for degree 3
pr_3 = PolynomialFeatures(degree=3)
X_poly_3 = pr_3.fit_transform(X_poly)

# Create and train a Linear Regression model
lm_poly_3 = LinearRegression()
lm_poly_3.fit(X_poly_3, y_poly)

# Make predictions
yhat_poly_3 = lm_poly_3.predict(X_poly_3)

display(pd.DataFrame({'Actual': y_poly, 'Predicted (Degree 3)': yhat_poly_3}).head())

# Evaluate the model
r_squared_poly_3 = r2_score(y_poly, yhat_poly_3)
mse_poly_3 = mean_squared_error(y_poly, yhat_poly_3)

print(f"\n--- Degree 3 Polynomial Regression ---")
print(f"R-squared: {r_squared_poly_3}")
print(f"Mean Squared Error: {mse_poly_3}")


Unnamed: 0,Actual,Predicted (Degree 3)
0,978,1477.774387
1,634,1218.643466
2,946,1218.643466
3,1244,1752.506851
4,837,1293.462277



--- Degree 3 Polynomial Regression ---
R-squared: 0.2990207375147228
Mean Squared Error: 230472.6736430293


### Phát triển và Huấn luyện Mô hình Hồi quy Đa thức (Bậc 5)

In [18]:
# Create Polynomial Features for degree 5
pr_5 = PolynomialFeatures(degree=5)
X_poly_5 = pr_5.fit_transform(X_poly)

# Create and train a Linear Regression model
lm_poly_5 = LinearRegression()
lm_poly_5.fit(X_poly_5, y_poly)

# Make predictions
yhat_poly_5 = lm_poly_5.predict(X_poly_5)

display(pd.DataFrame({'Actual': y_poly, 'Predicted (Degree 5)': yhat_poly_5}).head())

# Evaluate the model
r_squared_poly_5 = r2_score(y_poly, yhat_poly_5)
mse_poly_5 = mean_squared_error(y_poly, yhat_poly_5)

print(f"\n--- Degree 5 Polynomial Regression ---")
print(f"R-squared: {r_squared_poly_5}")
print(f"Mean Squared Error: {mse_poly_5}")


Unnamed: 0,Actual,Predicted (Degree 5)
0,978,1454.3001
1,634,1243.407801
2,946,1243.407801
3,1244,1769.571323
4,837,1287.914757



--- Degree 5 Polynomial Regression ---
R-squared: 0.3022564995775546
Mean Squared Error: 229408.79804241663


### Tóm tắt Đánh giá Mô hình

In [19]:
print(f"--- Mô hình Hồi quy Tuyến tính Đơn biến ---")
print(f"R-squared: {r_squared}")
print(f"Mean Squared Error: {mse}")
print("\n")

print(f"--- Mô hình Hồi quy Tuyến tính Đa biến ---")
print(f"R-squared: {r_squared_multi}")
print(f"Mean Squared Error: {mse_multi}")
print("\n")

print(f"--- Mô hình Hồi quy Đa thức Bậc 2 ---")
print(f"R-squared: {r_squared_poly_2}")
print(f"Mean Squared Error: {mse_poly_2}")
print("\n")

print(f"--- Mô hình Hồi quy Đa thức Bậc 3 ---")
print(f"R-squared: {r_squared_poly_3}")
print(f"Mean Squared Error: {mse_poly_3}")
print("\n")

print(f"--- Mô hình Hồi quy Đa thức Bậc 5 ---")
print(f"R-squared: {r_squared_poly_5}")
print(f"Mean Squared Error: {mse_poly_5}")


--- Mô hình Hồi quy Tuyến tính Đơn biến ---
R-squared: 0.0025313233430460658
Mean Squared Error: 327954.4561264833


--- Mô hình Hồi quy Tuyến tính Đa biến ---
R-squared: 0.2290993779921907
Mean Squared Error: 253461.8882123432


--- Mô hình Hồi quy Đa thức Bậc 2 ---
R-squared: 0.26853466997029696
Mean Squared Error: 240496.08784634658


--- Mô hình Hồi quy Đa thức Bậc 3 ---
R-squared: 0.2990207375147228
Mean Squared Error: 230472.6736430293


--- Mô hình Hồi quy Đa thức Bậc 5 ---
R-squared: 0.3022564995775546
Mean Squared Error: 229408.79804241663


### Tóm tắt Hiệu suất Mô hình:
| Mô hình | R-squared | MSE |
| --- | --- | --- |
| Hồi quy Tuyến tính Đơn biến | 0.0025 | 327954.46 |
| Hồi quy Tuyến tính Đa biến | 0.2291 | 253461.89 |
|Hồi quy Đa thức bậc 2| 0.2685 | 240496.09 |
|Hồi quy Đa thức bậc 3 | 0.2290 | 230472.67 |
|Hồi quy Đa thức bậc 5 | 0.3023 | 229408.80 |
### Phân tích và So sánh:

R-squared cho biết tỷ lệ phần trăm phương sai của biến phụ thuộc có thể được giải thích bởi các biến độc lập của mô hình. Giá trị R-squared càng gần 1 (hoặc 100%) thì mô hình càng giải thích tốt dữ liệu.
Mean Squared Error (MSE) đo lường mức độ trung bình của các lỗi bình phương. Giá trị MSE càng thấp thì mô hình càng chính xác.

<br>Từ bảng trên, chúng ta có thể thấy:

<br> 1. Mô hình Hồi quy Tuyến tính Đơn biến là mô hình kém hiệu quả nhất, với R-squared rất thấp cho thấy Weight_pounds một mình có rất ít khả năng giải thích Price một cách tuyến tính.
<br> 2. Mô hình Hồi quy Tuyến tính Đa biến cho thấy sự cải thiện đáng kể về R-squared và giảm MSE khi chúng ta thêm các biến CPU_core và Screen_Size_inch.
<br> 3. Các mô hình Hồi quy Đa thức tiếp tục cải thiện hiệu suất. R-squared tăng lên và MSE giảm khi bậc của đa thức tăng từ 2 lên 5.
<br> 4. Mô hình Hồi quy Đa thức Bậc 5 là mô hình có hiệu suất tốt nhất trong số các mô hình đã thử nghiệm, với R-squared cao nhất (0.3023) và MSE thấp nhất (229408.80). Điều này cho thấy mối quan hệ giữa các biến nguồn và Price có lẽ là phi tuyến tính.

Tuy nhiên, cần lưu ý rằng mặc dù mô hình đa thức bậc 5 là tốt nhất trong số này, R-squared vẫn chỉ khoảng 0.30. Điều này ngụ ý rằng các biến hiện tại chỉ giải thích được khoảng 30% sự biến động của giá, và có thể có nhiều yếu tố khác ảnh hưởng đến giá laptop chưa được đưa vào mô hình hoặc có thể cần các kỹ thuật mô hình hóa phức tạp hơn.

### Xây dựng Pipeline cho Hồi quy Đa thức với Co giãn Tham số

In [20]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd

# Define multiple source variables and one target variable (using the same as previous multi-variable model)
source_variables_pipe = ['CPU_core', 'Screen_Size_inch', 'Weight_pounds']
target_variable_pipe = 'Price'

# Prepare the data
X_pipe = df[source_variables_pipe] # Independent variables
y_pipe = df[target_variable_pipe]    # Dependent variable

# Create the pipeline
# Step 1: Standardize the features (parameter scaling)
# Step 2: Create polynomial features (e.g., degree 2)
# Step 3: Apply Linear Regression
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('poly', PolynomialFeatures(degree=2)), # You can change the degree here
    ('linear_regression', LinearRegression())
])

# Train the pipeline
pipeline.fit(X_pipe, y_pipe)

# Make predictions using the trained pipeline
yhat_pipe = pipeline.predict(X_pipe)

display(pd.DataFrame({'Actual': y_pipe, 'Predicted (Pipeline)': yhat_pipe}).head())

# Evaluate the pipeline's performance
r_squared_pipe = r2_score(y_pipe, yhat_pipe)
mse_pipe = mean_squared_error(y_pipe, yhat_pipe)

print(f"\n--- Pipeline Model Evaluation (Degree 2) ---")
print(f"R-squared: {r_squared_pipe}")
print(f"Mean Squared Error: {mse_pipe}")


Unnamed: 0,Actual,Predicted (Pipeline)
0,978,1321.429651
1,634,593.401804
2,946,1500.492638
3,1244,1684.099277
4,837,1480.652637



--- Pipeline Model Evaluation (Degree 2) ---
R-squared: 0.46806294153947503
Mean Squared Error: 174893.8415646504


In [21]:
from sklearn.metrics import mean_squared_error, r2_score

# Assuming y_pipe and yhat_pipe are available from the previously executed pipeline cell
r_squared_recalc = r2_score(y_pipe, yhat_pipe)
mse_recalc = mean_squared_error(y_pipe, yhat_pipe)

print(f"R-squared (Pipeline Model - Recalculated): {r_squared_recalc}")
print(f"Mean Squared Error (Pipeline Model - Recalculated): {mse_recalc}")


R-squared (Pipeline Model - Recalculated): 0.46806294153947503
Mean Squared Error (Pipeline Model - Recalculated): 174893.8415646504


# Task
Create a Ridge Regression model with polynomial features of degree 2 using `CPU_core`, `Screen_Size_inch`, and `Weight_pounds` as source variables and `Price` as the target. Perform a grid search with cross-validation (5 folds) to find the optimal `alpha` hyperparameter for Ridge Regression within a range of values (e.g., [0.001, 0.01, 0.1, 1, 10, 100]). Finally, evaluate the best model by calculating and displaying its R-squared and Mean Squared Error (MSE) values, and summarize these results, comparing them with previous model evaluations.

## Prepare Data and Create Polynomial Features

### Subtask:
Select the source and target variables from the DataFrame `df`. Then, transform the source variables into polynomial features of degree 2 using `PolynomialFeatures`. This step will create the input data for the Ridge Regression model.


**Reasoning**:
To prepare the data for Ridge Regression, I will import `PolynomialFeatures`, define source and target variables, extract them from the DataFrame, instantiate `PolynomialFeatures` with degree 2, and then transform the source variables.



In [22]:
from sklearn.preprocessing import PolynomialFeatures

# 2. Define a list of source variables and the target variable
source_variables_ridge = ['CPU_core', 'Screen_Size_inch', 'Weight_pounds']
target_variable_ridge = 'Price'

# 3. Create a new DataFrame X_poly_ridge containing only the defined source variables
X_poly_ridge = df[source_variables_ridge]

# 4. Create a new Series y_ridge containing the target variable from df
y_ridge = df[target_variable_ridge]

# 5. Instantiate a PolynomialFeatures object with degree=2
poly_transformer = PolynomialFeatures(degree=2)

# 6. Transform the X_poly_ridge DataFrame into polynomial features
X_poly_transformed = poly_transformer.fit_transform(X_poly_ridge)

print("Polynomial features created successfully.")
print(f"Shape of original source variables (X_poly_ridge): {X_poly_ridge.shape}")
print(f"Shape of transformed polynomial features (X_poly_transformed): {X_poly_transformed.shape}")

Polynomial features created successfully.
Shape of original source variables (X_poly_ridge): (238, 3)
Shape of transformed polynomial features (X_poly_transformed): (238, 10)


**Reasoning**:
Now that the polynomial features are created, the next step is to perform a grid search with cross-validation to find the optimal `alpha` hyperparameter for Ridge Regression, as specified in the main task. This involves importing necessary libraries (`Ridge`, `GridSearchCV`), defining the `alpha` parameter grid, and then setting up and executing `GridSearchCV`.



In [23]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

# Define the Ridge Regression model
ridge_model = Ridge()

# Define the hyperparameter grid for alpha
param_grid = {'alpha': [0.001, 0.01, 0.1, 1, 10, 100]}

# Set up GridSearchCV with 5-fold cross-validation
grid_search = GridSearchCV(ridge_model, param_grid, cv=5, scoring='r2')

# Fit GridSearchCV to find the best alpha
grid_search.fit(X_poly_transformed, y_ridge)

print("Grid search completed.")
print(f"Best alpha found: {grid_search.best_params_['alpha']}")
print(f"Best R-squared score during grid search: {grid_search.best_score_}")

# Store the best model
best_ridge_model = grid_search.best_estimator_

Grid search completed.
Best alpha found: 1
Best R-squared score during grid search: 0.20073067939830067


**Reasoning**:
Now that the optimal `alpha` has been found, the next step is to evaluate the performance of the best Ridge Regression model by calculating its R-squared and Mean Squared Error (MSE) on the full dataset.



In [24]:
from sklearn.metrics import mean_squared_error, r2_score

# Make predictions using the best Ridge model
yhat_ridge = best_ridge_model.predict(X_poly_transformed)

# Calculate R-squared for the best Ridge model
r_squared_ridge = r2_score(y_ridge, yhat_ridge)

# Calculate Mean Squared Error (MSE) for the best Ridge model
mse_ridge = mean_squared_error(y_ridge, yhat_ridge)

print(f"--- Best Ridge Regression Model (Polynomial Degree 2) ---")
print(f"Optimal Alpha: {grid_search.best_params_['alpha']}")
print(f"R-squared: {r_squared_ridge}")
print(f"Mean Squared Error: {mse_ridge}")

--- Best Ridge Regression Model (Polynomial Degree 2) ---
Optimal Alpha: 1
R-squared: 0.4635256723374933
Mean Squared Error: 176385.635430722


### Tóm tắt Đánh giá Mô hình

### Tóm tắt Đánh giá Mô hình

### Tóm tắt Hiệu suất Mô hình:
| Mô hình | R-squared | MSE |
| --- | --- | --- |
| Hồi quy Tuyến tính Đơn biến | 0.0025 | 327954.46 |
| Hồi quy Tuyến tính Đa biến | 0.2291 | 253461.89 |
| Hồi quy Đa thức Bậc 2 | 0.2685 | 240496.09 |
| Hồi quy Đa thức Bậc 3 | 0.2990 | 230472.67 |
| Hồi quy Đa thức Bậc 5 | 0.3023 | 229408.80 |
| Ridge Hồi quy (Đa thức Bậc 2) | 0.4635 | 176385.64 |

### Phân tích và So sánh:
R-squared cho biết tỷ lệ phần trăm phương sai của biến phụ thuộc có thể được giải thích bởi các biến độc lập của mô hình. Giá trị R-squared càng gần 1 (hoặc 100%) thì mô hình càng giải thích tốt dữ liệu.
Mean Squared Error (MSE) đo lường mức độ trung bình của các lỗi bình phương. Giá trị MSE càng thấp thì mô hình càng chính xác.

Từ bảng trên, chúng ta có thể thấy:

1.  **Mô hình Hồi quy Tuyến tính Đơn biến** là mô hình kém hiệu quả nhất, với R-squared rất thấp cho thấy 'Weight_pounds' một mình có rất ít khả năng giải thích 'Price' một cách tuyến tính.
2.  **Mô hình Hồi quy Tuyến tính Đa biến** cho thấy sự cải thiện đáng kể về R-squared và giảm MSE khi chúng ta thêm các biến 'CPU_core' và 'Screen_Size_inch'.
3.  Các mô hình **Hồi quy Đa thức** tiếp tục cải thiện hiệu suất. R-squared tăng lên và MSE giảm khi bậc của đa thức tăng từ 2 lên 5.
4.  **Mô hình Hồi quy Đa thức Bậc 5** là mô hình có hiệu suất tốt nhất trong số các mô hình hồi quy đa thức thuần túy, với R-squared cao nhất (0.3023) và MSE thấp nhất (229408.80) trong nhóm này. Điều này cho thấy mối quan hệ giữa các biến nguồn và Price có lẽ là phi tuyến tính.
5.  **Mô hình Ridge Hồi quy với Đa thức Bậc 2** (tối ưu hóa `alpha` = 1) đã cho thấy một bước nhảy vọt đáng kể về hiệu suất, đạt R-squared là 0.4635 và MSE là 176385.64. Điều này cho thấy việc kết hợp các tính năng đa thức với chuẩn hóa L2 của Ridge Regression đã giúp cải thiện đáng kể khả năng tổng quát hóa và độ chính xác của mô hình so với các mô hình tuyến tính và đa thức đơn giản trước đó.

Tuy nhiên, cần lưu ý rằng mặc dù mô hình Ridge Regression là tốt nhất trong số các mô hình đã thử nghiệm, R-squared vẫn chỉ khoảng 0.46. Điều này ngụ ý rằng các biến hiện tại, ngay cả khi được biến đổi đa thức và với chuẩn hóa Ridge, chỉ giải thích được khoảng 46% sự biến động của giá, và có thể có nhiều yếu tố khác ảnh hưởng đến giá laptop chưa được đưa vào mô hình hoặc có thể cần các kỹ thuật mô hình hóa phức tạp hơn.

### Tóm tắt Hiệu suất Mô hình:
| Mô hình | R-squared | MSE |
| --- | --- | --- |
| Hồi quy Tuyến tính Đơn biến | 0.0025 | 327954.46 |
| Hồi quy Tuyến tính Đa biến | 0.2291 | 253461.89 |
| Hồi quy Đa thức Bậc 2 | 0.2685 | 240496.09 |
| Hồi quy Đa thức Bậc 3 | 0.2990 | 230472.67 |
| Hồi quy Đa thức Bậc 5 | 0.3023 | 229408.80 |
| Ridge Hồi quy (Đa thức Bậc 2) | 0.4635 | 176385.64 |

### Phân tích và So sánh:
R-squared cho biết tỷ lệ phần trăm phương sai của biến phụ thuộc có thể được giải thích bởi các biến độc lập của mô hình. Giá trị R-squared càng gần 1 (hoặc 100%) thì mô hình càng giải thích tốt dữ liệu.
Mean Squared Error (MSE) đo lường mức độ trung bình của các lỗi bình phương. Giá trị MSE càng thấp thì mô hình càng chính xác.

Từ bảng trên, chúng ta có thể thấy:

1.  **Mô hình Hồi quy Tuyến tính Đơn biến** là mô hình kém hiệu quả nhất, với R-squared rất thấp cho thấy 'Weight_pounds' một mình có rất ít khả năng giải thích 'Price' một cách tuyến tính.
2.  **Mô hình Hồi quy Tuyến tính Đa biến** cho thấy sự cải thiện đáng kể về R-squared và giảm MSE khi chúng ta thêm các biến 'CPU_core' và 'Screen_Size_inch'.
3.  Các mô hình **Hồi quy Đa thức** tiếp tục cải thiện hiệu suất. R-squared tăng lên và MSE giảm khi bậc của đa thức tăng từ 2 lên 5.
4.  **Mô hình Hồi quy Đa thức Bậc 5** là mô hình có hiệu suất tốt nhất trong số các mô hình hồi quy đa thức thuần túy, với R-squared cao nhất (0.3023) và MSE thấp nhất (229408.80) trong nhóm này. Điều này cho thấy mối quan hệ giữa các biến nguồn và Price có lẽ là phi tuyến tính.
5.  **Mô hình Ridge Hồi quy với Đa thức Bậc 2** (tối ưu hóa `alpha` = 1) đã cho thấy một bước nhảy vọt đáng kể về hiệu suất, đạt R-squared là 0.4635 và MSE là 176385.64. Điều này cho thấy việc kết hợp các tính năng đa thức với chuẩn hóa L2 của Ridge Regression đã giúp cải thiện đáng kể khả năng tổng quát hóa và độ chính xác của mô hình so với các mô hình tuyến tính và đa thức đơn giản trước đó.

Tuy nhiên, cần lưu ý rằng mặc dù mô hình Ridge Regression là tốt nhất trong số các mô hình đã thử nghiệm, R-squared vẫn chỉ khoảng 0.46. Điều này ngụ ý rằng các biến hiện tại, ngay cả khi được biến đổi đa thức và với chuẩn hóa Ridge, chỉ giải thích được khoảng 46% sự biến động của giá, và có thể có nhiều yếu tố khác ảnh hưởng đến giá laptop chưa được đưa vào mô hình hoặc có thể cần các kỹ thuật mô hình hóa phức tạp hơn.


## Final Task

### Subtask:
Summarize the results of the Grid Search and the performance metrics of the best Ridge Regression model found, comparing its R-squared and MSE values with previous models.


## Summary:

### Q&A
The grid search identified an optimal `alpha` value of 1 for the Ridge Regression model with polynomial features of degree 2. The best Ridge Regression model achieved an R-squared of 0.4635 and a Mean Squared Error (MSE) of 176385.64.

Comparing these metrics with previous models:
*   **Ridge Regression (Polynomial Degree 2)** (R-squared: 0.4635, MSE: 176385.64) significantly outperformed all previously evaluated models.
*   The **Polynomial Regression Degree 5** model, which was the best among the purely polynomial models, had an R-squared of 0.3023 and an MSE of 229408.80.
*   The **Multiple Linear Regression** model had an R-squared of 0.2291 and an MSE of 253461.89.
*   The **Simple Linear Regression** model was the least effective, with an R-squared of 0.0025 and an MSE of 327954.46.

### Data Analysis Key Findings
*   The source variables \['CPU\_core', 'Screen\_Size\_inch', 'Weight\_pounds'] were transformed into 10 polynomial features of degree 2.
*   A grid search with 5-fold cross-validation determined the optimal `alpha` hyperparameter for Ridge Regression to be 1.
*   The best Ridge Regression model (with polynomial features of degree 2 and `alpha=1`) achieved an R-squared value of 0.4635 and a Mean Squared Error (MSE) of 176385.64.
*   This Ridge Regression model showed a substantial performance improvement, achieving the highest R-squared and lowest MSE among all models tested, including Simple Linear Regression (R-squared: 0.0025, MSE: 327954.46), Multiple Linear Regression (R-squared: 0.2291, MSE: 253461.89), and various Polynomial Regression models up to degree 5 (highest R-squared: 0.3023, lowest MSE: 229408.80).

### Insights or Next Steps
*   The significant improvement in the Ridge Regression model's performance suggests that incorporating non-linear relationships through polynomial features combined with L2 regularization is effective in modeling laptop prices, preventing overfitting while capturing more complex patterns.
*   Despite being the best model so far, the R-squared of approximately 0.46 indicates that about 54% of the variance in laptop prices remains unexplained by the current set of features. Future steps could involve exploring additional features (e.g., RAM, storage, brand, GPU), different polynomial degrees for Ridge Regression, or more advanced regression techniques.


## Authors


[Abhishek Gagneja](https://www.linkedin.com/in/abhishek-gagneja-23051987/)


## Change Log


|Date (YYYY-MM-DD)|Version|Changed By|Change Description|
|-|-|-|-|
|2023-12-10|0.1|Abhishek Gagneja|Initial Draft created|
