# Chapter 12: Spot-Check Regression Algorithms

## 12.2. Linear Machine Learning Algorithms

### 12.2.1. Linear Regression

In [None]:
# Linear Regression
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression
# Tên file dữ liệu
filename = 'housing.csv'
# Tên cột
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
# Đọc file CSV (ngăn cách bằng dấu phẩy)
dataframe = read_csv(filename, names=names, header=0)  # header=0 nếu có dòng tiêu đề
# Tách dữ liệu
array = dataframe.values
X = array[:, 0:13]
Y = array[:, 13]
# KFold cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)  # Thêm shuffle để tránh bias
model = LinearRegression()
scoring = 'neg_mean_squared_error'
# Đánh giá mô hình
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
# In kết quả
print("Mean Squared Error (neg): %.3f" % results.mean())

Mean Squared Error (neg): -23.747


### 12.2.2. Ridge Regression

In [5]:
# Ridge Regression
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import Ridge
# Tên file dữ liệu
filename = 'housing.csv'
# Tên cột
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
# Đọc file CSV (ngăn cách bằng dấu phẩy)
dataframe = read_csv(filename, names=names, header=0)  # header=0 nếu có dòng tiêu đề
# Tách dữ liệu
array = dataframe.values
X = array[:, 0:13]
Y = array[:, 13]
kfold = KFold(n_splits=10, shuffle=True, random_state=7)  # Thêm shuffle để tránh bias
model = Ridge()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-23.889890185053435


### 12.2.3. LASSO Regression

In [6]:
# Lasso Regression
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import Lasso
# Tên file dữ liệu
filename = 'housing.csv'
# Tên cột
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
# Đọc file CSV (ngăn cách bằng dấu phẩy)
dataframe = read_csv(filename, names=names, header=0)  # header=0 nếu có dòng tiêu đề
# Tách dữ liệu
array = dataframe.values
X = array[:, 0:13]
Y = array[:, 13]
kfold = KFold(n_splits=10, shuffle=True, random_state=7)  # Thêm shuffle để tránh bias
model = Lasso()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-28.74589007585153


### 12.2.4. ElasticNet Regression

In [7]:
# ElasticNet Regression
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import ElasticNet
# Tên file dữ liệu
filename = 'housing.csv'
# Tên cột
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
# Đọc file CSV (ngăn cách bằng dấu phẩy)
dataframe = read_csv(filename, names=names, header=0)  # header=0 nếu có dòng tiêu đề
# Tách dữ liệu
array = dataframe.values
X = array[:, 0:13]
Y = array[:, 13]
kfold = KFold(n_splits=10, shuffle=True, random_state=7)  # Thêm shuffle để tránh bias
model = ElasticNet()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-27.908420360231055


## 12.3. Nonlinear Machine Learning Algorithms

### 12.3.1. K-Nearest Neighbors

In [8]:
# KNN Regression
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.neighbors import KNeighborsRegressor
# Tên file dữ liệu
filename = 'housing.csv'
# Tên cột
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
# Đọc file CSV (ngăn cách bằng dấu phẩy)
dataframe = read_csv(filename, names=names, header=0)  # header=0 nếu có dòng tiêu đề
# Tách dữ liệu
array = dataframe.values
X = array[:, 0:13]
Y = array[:, 13]
# KFold cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)  # Thêm shuffle để tránh bias
model = KNeighborsRegressor()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-38.852320266666666


### 12.3.2. Classification and Regression Trees

In [9]:
# Decision Tree Regression
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.tree import DecisionTreeRegressor
# Tên file dữ liệu
filename = 'housing.csv'
# Tên cột
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
# Đọc file CSV (ngăn cách bằng dấu phẩy)
dataframe = read_csv(filename, names=names, header=0)  # header=0 nếu có dòng tiêu đề
# Tách dữ liệu
array = dataframe.values
X = array[:, 0:13]
Y = array[:, 13]
# KFold cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)  # Thêm shuffle để tránh bias
model = DecisionTreeRegressor()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-20.41011803921569


### 12.3.3. Support Vector Machines

In [10]:
# SVM Regression
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.svm import SVR
# Tên file dữ liệu
filename = 'housing.csv'
# Tên cột
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
# Đọc file CSV (ngăn cách bằng dấu phẩy)
dataframe = read_csv(filename, names=names, header=0)  # header=0 nếu có dòng tiêu đề
# Tách dữ liệu
array = dataframe.values
X = array[:, 0:13]
Y = array[:, 13]
# KFold cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)  # Thêm shuffle để tránh bias
model = SVR()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv=kfold, scoring=scoring)
print(results.mean())

-67.64140705473743
