.Rhistory

# FITTING THE MODERL OF ORDER 2
m2 <- lm(total_purchase_value ~ clicks + I(clicks^2), sample_train_data)
# FITTING THE MODERL OF ORDER 7
m7 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), sample_train_data)
# FITTING THE MODERL OF ORDER 8
m8 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7) + I(clicks^8), sample_train_data)
# FITTING THE MODERL OF ORDER 9
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7) + I(clicks^8) + I(clicks^9), sample_train_data)
# FITTING THE MODERL OF ORDER 10
m10 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7) + I(clicks^8) + I(clicks^9)+ I(clicks^10), sample_train_data)
lst_models = list(m1, m2, m7, m8, m9, m10)
for (j in lst_models){
#TRAIN AND TEST ACCURACY
train_rss <- sum(j$residuals^2) #Training Error
pred = predict(j, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
train_rss_vec <- c(train_rss_vec, train_rss)
test_rss_vec <- c(test_rss_vec, test_error)
}
df_rss_s100 <- cbind(df_rss_s100, train_rss_vec, test_rss_vec)
}
df_rss_s100 <- cbind(df_rss_s100, train_rss_vec, test_rss_vec)
#For Loop to Calculate Train RSS and Test RSS
df_rss_s100 = data.frame(complexity = model_complexity)
df_rss_s100
#Looping through all the samples of same size, N = 20
for (i in sample_data_list_100){
sample_train_data = i
train_rss_vec = c() # To Store Training RSS
test_rss_vec = c() # To Store Testing RSS
# FITTING THE MODEL OF ORDER 1
m1 <- lm(total_purchase_value ~ clicks, sample_train_data)
# FITTING THE MODERL OF ORDER 2
m2 <- lm(total_purchase_value ~ clicks + I(clicks^2), sample_train_data)
# FITTING THE MODERL OF ORDER 7
m7 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), sample_train_data)
# FITTING THE MODERL OF ORDER 8
m8 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7) + I(clicks^8), sample_train_data)
# FITTING THE MODERL OF ORDER 9
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7) + I(clicks^8) + I(clicks^9), sample_train_data)
# FITTING THE MODERL OF ORDER 10
m10 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7) + I(clicks^8) + I(clicks^9)+ I(clicks^10), sample_train_data)
lst_models = list(m1, m2, m7, m8, m9, m10)
for (j in lst_models){
#TRAIN AND TEST ACCURACY
train_rss <- sum(j$residuals^2) #Training Error
pred = predict(j, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
train_rss_vec <- c(train_rss_vec, train_rss)
test_rss_vec <- c(test_rss_vec, test_error)
}
df_rss_s100 <- cbind(df_rss_s100, train_rss_vec, test_rss_vec)
}
df_rss_s100
colnames(df_rss_s100) <- c("com", "train_s100_1", 'test_s100_1','train_s100_2','test_s100_2','train_s100_3', 'test_s100_3','train_s100_4','test_s100_4')
#FOR SAMPLE - 1, TEST RSS
ggplot(df_rss_s100, aes(x = com, y = test_s100_1, color = "Sample-1")) + geom_point(size = 2) +
geom_line(size = 1.2) + labs(color = "Sample") + xlab("Model Complexity (Order of Polynomial)") +
ylab("TestError(RMSE)") + ggtitle("Model Error vs Model Complexity (Sample Size = 20)") +
theme(axis.title.x = element_text(color = 'Blue', size = 13),
axis.title.y = element_text(color = 'Blue', size = 13),
axis.text.x = element_text(size = 10),
axis.text.y = element_text(size = 10),
plot.title = element_text(hjust = 0.5),
legend.title = element_text(size = 15))
#FOR SAMPLE - 2, TEST RSS
ggplot(df_rss_s100, aes(x = com, y = test_s100_2, color = "Sample-2")) + geom_point(size = 2) +
geom_line(size = 1.2) + labs(color = "Sample") + xlab("Model Complexity (Order of Polynomial)") +
ylab("TestError(RMSE)") + ggtitle("Model Error vs Model Complexity (Sample Size = 20)") +
theme(axis.title.x = element_text(color = 'Blue', size = 13),
axis.title.y = element_text(color = 'Blue', size = 13),
axis.text.x = element_text(size = 10),
axis.text.y = element_text(size = 10),
plot.title = element_text(hjust = 0.5),
legend.title = element_text(size = 15)) + scale_color_manual(values=c("#2E8B57"))
train_rss_vec
test_rss_vec
model_complexity
#ADDING MODEL COMPLEXITY, TRAIN RSS AND TEST RSS INTO DATAFRAME
df <- data.frame(complexity = model_complexity, train_rss_name = sqrt(train_rss_vec), test_rss_name = sqrt(test_rss_vec))
#ADDING COMPLEXITY
g <- ggplot(df, aes(x = complexity, y = test_rss_name, color ="TestRMSE"))
#ADDING TEST RSS
g <- g + geom_line(size  = 1.2)
#ADDING TRAIN RSS
g <- g + geom_line(aes(y = train_rss_name, color = "TrainRMSE"),size = 1.2)
g <- g + labs(color = "RMSE")
#ADDING X-TITLE AND Y_TITLE AND MAIN TITLE
g <- g + xlab("Model Complexity (Order of Polynomial)") + ylab("Error(RMSE)") +
ggtitle("Model Error vs Model Complexity (Sample Size = 20)") +
theme(axis.title.x = element_text(color = 'Blue', size = 13),
axis.title.y = element_text(color = 'Blue', size = 13),
axis.text.x = element_text(size = 10),
axis.text.y = element_text(size = 10),
plot.title = element_text(hjust = 0.5),
legend.title = element_text(size = 15))
g
#ADDING MODEL COMPLEXITY, TRAIN RSS AND TEST RSS INTO DATAFRAME
df <- data.frame(complexity = model_complexity, train_rss_name = sqrt(train_rss_vec), test_rss_name = sqrt(test_rss_vec))
#ADDING COMPLEXITY
g <- ggplot(df, aes(x = complexity, y = test_rss_name, color ="TestRMSE"))
#ADDING TEST RSS
g <- g + geom_line(size  = 1.2)
#ADDING TRAIN RSS
g <- g + geom_line(aes(y = train_rss_name, color = "TrainRMSE"),size = 1.2)
g <- g + labs(color = "RMSE")
#ADDING X-TITLE AND Y_TITLE AND MAIN TITLE
g <- g + xlab("Model Complexity (Order of Polynomial)") + ylab("Error(RMSE)") +
ggtitle("Model Error vs Model Complexity (Sample Size = 100)") +
theme(axis.title.x = element_text(color = 'Blue', size = 13),
axis.title.y = element_text(color = 'Blue', size = 13),
axis.text.x = element_text(size = 10),
axis.text.y = element_text(size = 10),
plot.title = element_text(hjust = 0.5),
legend.title = element_text(size = 15))
g
df_rss_s100
g
sample_size = c()  # An empty vector to keep track of all different sample sizes
test_error_vec = c() # An empty vector to keep track of test error for different sample sizes
train_data_20 <- train_data[sample(nrow(train_data),20),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7) + I(clicks^8) + I(clicks^9), train_data_20)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_20$clicks, train_data_20$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_20$clicks), fitted(m7)[order(train_data_20$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
test_error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_20))
test_error_vec <- c(test_error_vec, test_error)
train_data_40 <- train_data[sample(nrow(train_data),40),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_40)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_40$clicks, train_data_40$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_40$clicks), fitted(m7)[order(train_data_40$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_40))
test_error_vec <- c(test_error_vec, test_error)
train_data_60 <- train_data[sample(nrow(train_data),60),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_60)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_60$clicks, train_data_60$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_60$clicks), fitted(m7)[order(train_data_60$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_60))
test_error_vec <- c(test_error_vec, test_error)
train_data_80 <- train_data[sample(nrow(train_data),80),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_80)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_80$clicks, train_data_80$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_80$clicks), fitted(m7)[order(train_data_80$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_80))
test_error_vec <- c(test_error_vec, test_error)
train_data_100 <- train_data[sample(nrow(train_data),100),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_100)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_100$clicks, train_data_100$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_100$clicks), fitted(m7)[order(train_data_100$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_100))
test_error_vec <- c(test_error_vec, test_error)
train_data_200 <- train_data[sample(nrow(train_data),200),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_200)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_200$clicks, train_data_200$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_200$clicks), fitted(m7)[order(train_data_200$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_200))
test_error_vec <- c(test_error_vec, test_error)
train_data_300 <- train_data[sample(nrow(train_data),300),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_300)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_300$clicks, train_data_300$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_300$clicks), fitted(m7)[order(train_data_300$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_300))
test_error_vec <- c(test_error_vec, test_error)
train_data_400 <- train_data[sample(nrow(train_data),400),]
sample_size = c()  # An empty vector to keep track of all different sample sizes
test_error_vec = c() # An empty vector to keep track of test error for different sample sizes
train_data_20 <- train_data[sample(nrow(train_data),20),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7) + I(clicks^8) + I(clicks^9), train_data_20)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_20$clicks, train_data_20$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_20$clicks), fitted(m9)[order(train_data_20$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
test_error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_20))
test_error_vec <- c(test_error_vec, test_error)
train_data_40 <- train_data[sample(nrow(train_data),40),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_40)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_40$clicks, train_data_40$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_40$clicks, train_data_40$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_40$clicks), fitted(m9)[order(train_data_40$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_40))
test_error_vec <- c(test_error_vec, test_error)
train_data_60 <- train_data[sample(nrow(train_data),60),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_60)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_60$clicks, train_data_60$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_60$clicks), fitted(m9)[order(train_data_60$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_60))
test_error_vec <- c(test_error_vec, test_error)
train_data_80 <- train_data[sample(nrow(train_data),80),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_80)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_80$clicks, train_data_80$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_80$clicks), fitted(m9)[order(train_data_80$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_80))
test_error_vec <- c(test_error_vec, test_error)
train_data_100 <- train_data[sample(nrow(train_data),100),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_100)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_100$clicks, train_data_100$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_100$clicks), fitted(m9)[order(train_data_100$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_100))
test_error_vec <- c(test_error_vec, test_error)
train_data_200 <- train_data[sample(nrow(train_data),200),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_200)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_200$clicks, train_data_200$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_200$clicks), fitted(m9)[order(train_data_200$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_200))
test_error_vec <- c(test_error_vec, test_error)
train_data_300 <- train_data[sample(nrow(train_data),300),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_300)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_300$clicks, train_data_300$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_300$clicks), fitted(m9)[order(train_data_300$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m7$residuals^2) #Training Error
pred = predict(m7, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
sample_size = c()  # An empty vector to keep track of all different sample sizes
test_error_vec = c() # An empty vector to keep track of test error for different sample sizes
#=============================================================================================
## SAMPLE SIZE N = 20
train_data_20 <- train_data[sample(nrow(train_data),20),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7) + I(clicks^8) + I(clicks^9), train_data_20)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_20$clicks, train_data_20$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_20$clicks), fitted(m9)[order(train_data_20$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m9$residuals^2) #Training Error
pred = predict(m9, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
test_error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_20))
test_error_vec <- c(test_error_vec, test_error)
#=============================================================================================
## SAMPLE SIZE N = 40
## TAKING A SAMPLE OF 40 OBSERVATIONS FROM TOTAL TRAINING DATA - 1800 OBSERVATIONS
train_data_40 <- train_data[sample(nrow(train_data),40),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_40)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_40$clicks, train_data_40$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_40$clicks), fitted(m9)[order(train_data_40$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m9$residuals^2) #Training Error
pred = predict(m9, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_40))
test_error_vec <- c(test_error_vec, test_error)
#=============================================================================================
## SAMPLE SIZE N = 60
## TAKING A SAMPLE OF 60 OBSERVATIONS FROM TOTAL TRAINING DATA - 1800 OBSERVATIONS
train_data_60 <- train_data[sample(nrow(train_data),60),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_60)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_60$clicks, train_data_60$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_60$clicks), fitted(m9)[order(train_data_60$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m9$residuals^2) #Training Error
pred = predict(m9, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_60))
test_error_vec <- c(test_error_vec, test_error)
#=============================================================================================
## SAMPLE SIZE N = 80
## TAKING A SAMPLE OF 80 OBSERVATIONS FROM TOTAL TRAINING DATA - 1800 OBSERVATIONS
train_data_80 <- train_data[sample(nrow(train_data),80),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_80)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_80$clicks, train_data_80$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_80$clicks), fitted(m9)[order(train_data_80$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m9$residuals^2) #Training Error
pred = predict(m9, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_80))
test_error_vec <- c(test_error_vec, test_error)
#=============================================================================================
## SAMPLE SIZE N = 100
## TAKING A SAMPLE OF 100 OBSERVATIONS FROM TOTAL TRAINING DATA - 1800 OBSERVATIONS
train_data_100 <- train_data[sample(nrow(train_data),100),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_100)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_100$clicks, train_data_100$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_100$clicks), fitted(m9)[order(train_data_100$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m9$residuals^2) #Training Error
pred = predict(m9, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_100))
test_error_vec <- c(test_error_vec, test_error)
#=============================================================================================
## SAMPLE SIZE N = 200
## TAKING A SAMPLE OF 200 OBSERVATIONS FROM TOTAL TRAINING DATA - 1800 OBSERVATIONS
train_data_200 <- train_data[sample(nrow(train_data),200),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_200)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_200$clicks, train_data_200$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_200$clicks), fitted(m9)[order(train_data_200$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m9$residuals^2) #Training Error
pred = predict(m9, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_200))
test_error_vec <- c(test_error_vec, test_error)
#=============================================================================================
## SAMPLE SIZE N = 300
## TAKING A SAMPLE OF 300 OBSERVATIONS FROM TOTAL TRAINING DATA - 1800 OBSERVATIONS
train_data_300 <- train_data[sample(nrow(train_data),300),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_300)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_300$clicks, train_data_300$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_300$clicks), fitted(m9)[order(train_data_300$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m9$residuals^2) #Training Error
pred = predict(m9, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_300))
test_error_vec <- c(test_error_vec, test_error)
#=============================================================================================
## SAMPLE SIZE N = 400
## TAKING A SAMPLE OF 400 OBSERVATIONS FROM TOTAL TRAINING DATA - 1800 OBSERVATIONS
train_data_400 <- train_data[sample(nrow(train_data),400),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_400)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_400$clicks, train_data_400$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_400$clicks), fitted(m7)[order(train_data_400$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m9$residuals^2) #Training Error
pred = predict(m9, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_400))
test_error_vec <- c(test_error_vec, test_error)
#=============================================================================================
## SAMPLE SIZE N = 500
## TAKING A SAMPLE OF 500 OBSERVATIONS FROM TOTAL TRAINING DATA - 1800 OBSERVATIONS
train_data_500 <- train_data[sample(nrow(train_data),500),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_500)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_500$clicks, train_data_500$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_500$clicks), fitted(m7)[order(train_data_500$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m9$residuals^2) #Training Error
pred = predict(m9, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_500))
test_error_vec <- c(test_error_vec, test_error)
#=============================================================================================
## SAMPLE SIZE N = 800
## TAKING A SAMPLE OF 800 OBSERVATIONS FROM TOTAL TRAINING DATA - 1800 OBSERVATIONS
train_data_800 <- train_data[sample(nrow(train_data),800),]
# FITTING THE MODEL OF ORDER 7
m9 <- lm(total_purchase_value ~ clicks + I(clicks^2) + I(clicks^3) + I(clicks^4) + I(clicks^5) + I(clicks^6)
+ I(clicks^7), train_data_800)
#PLOTTING THE MODEL OVER THE DATA
plot(train_data_800$clicks, train_data_800$total_purchase_value, pch = 19, cex = 0.5, xlab = "Number of Clicks", ylab = "Total Purchase value")
lines(sort(train_data_800$clicks), fitted(m7)[order(train_data_800$clicks)], col = 'magenta', type = 'l', pch = 20)
#TRAIN AND TEST ACCURACY
sum(m9$residuals^2) #Training Error
pred = predict(m9, newdata=test_data)
test_error = sum((pred-test_data$total_purchase_value)^2) #Test Error
#ADDING SAMPLE SIZE AND TEST ERROR TO VECTORS
sample_size <- c(sample_size, nrow(train_data_800))
test_error_vec <- c(test_error_vec, test_error)
test_error_vec
sample_size
plot(sample_size, sqrt(test_error_vec), xlab = "Sample Size", ylab = "Test Error (RMSE)",
pch = 19, cex = 0.5, main = "Test Error vs Sample Size for a Polynomial Regression of Order - 7")
lines(sample_size,sqrt(test_error_vec), col = 'blue', type = 'l', lwd = 1.5)
png("Plots/TestingError_SampleSize-2.png")
plot(sample_size, sqrt(test_error_vec), xlab = "Sample Size", ylab = "Test Error (RMSE)",
pch = 19, cex = 0.5, main = "Test Error vs Sample Size for a Polynomial Regression of Order - 9")
lines(sample_size,sqrt(test_error_vec), col = 'blue', type = 'l', lwd = 1.5)
dev.off()
plot(sample_size, sqrt(test_error_vec), xlab = "Sample Size", ylab = "Test Error (RMSE)",
pch = 19, cex = 0.5, main = "Test Error vs Sample Size for a Polynomial Regression of Order - 9")
lines(sample_size,sqrt(test_error_vec), col = 'blue', type = 'l', lwd = 1.5)