In [1]:
!pip install pandas numpy scikit-learn



In [3]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score,classification_report

from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier

In [4]:
import seaborn as sns
# Tải dữ liệu về giá nhà ở Boston từ seaborn
data = sns.load_dataset('tips')
print(data.head())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4


In [6]:
# Đặt 'total_bill' là biến đầu ra cần dự đoán và các cột còn lại là đặc trung

X = data[['total_bill', 'size']]
y = data['tip']
# Chia thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

In [7]:
# Cài đặt mô hình hồi quy tuyến tính
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)
# Dự đoán trên tập kiểm tra
y_pred = lin_reg.predict(X_test)
# Đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("Linear Regression MSE:", mse)
print("Linear Regression R^2 Score:", r2)

Linear Regression MSE: 0.6485996190543516
Linear Regression R^2 Score: 0.4811084097989491


In [8]:
# Biến đổi y thành nhị phân: tip >= 3 là 1, tip < 3 là 0
y_binary = np.where(data['tip'] >= 3, 1, 0)
# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y_binary,
test_size=0.2, random_state=42)
# Cài đặt mô hình hồi quy logistic
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
# Dự đoán trên tập kiểm tra
y_pred = log_reg.predict(X_test)

In [9]:
# Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)
print("Logistic Regression Accuracy:", accuracy)
print("Classification Report:\n", classification_report(y_test, y_pred))

Logistic Regression Accuracy: 0.6938775510204082
Classification Report:
               precision    recall  f1-score   support

           0       0.81      0.69      0.75        32
           1       0.55      0.71      0.62        17

    accuracy                           0.69        49
   macro avg       0.68      0.70      0.68        49
weighted avg       0.72      0.69      0.70        49



In [10]:
# Cài đặt và huấn luyện mô hình Decision Tree Regressor
tree_reg = DecisionTreeRegressor(random_state=42)
tree_reg.fit(X_train, y_train)
# Dự đoán trên tập kiểm tra
y_pred = tree_reg.predict(X_test)
# Đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("Decision Tree Regressor MSE:", mse)
print("Decision Tree Regressor R^2 Score:", r2)

Decision Tree Regressor MSE: 0.3877551020408163
Decision Tree Regressor R^2 Score: -0.7113970588235292


In [11]:
# Cài đặt và huấn luyện mô hình Decision Tree Classifier
tree_clf = DecisionTreeClassifier(random_state=42)
tree_clf.fit(X_train, y_train)
# Dự đoán trên tập kiểm tra
y_pred = tree_clf.predict(X_test)
# Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)
print("Decision Tree Classifier Accuracy:", accuracy)
print("Classification Report:\n", classification_report(y_test, y_pred))

Decision Tree Classifier Accuracy: 0.6122448979591837
Classification Report:
               precision    recall  f1-score   support

           0       0.74      0.62      0.68        32
           1       0.45      0.59      0.51        17

    accuracy                           0.61        49
   macro avg       0.60      0.61      0.60        49
weighted avg       0.64      0.61      0.62        49



In [12]:
# Cài đặt và huấn luyện mô hình Random Forest Regressor
forest_reg = RandomForestRegressor(random_state=42)
forest_reg.fit(X_train, y_train)

In [13]:
# Dự đoán trên tập kiểm tra
y_pred = forest_reg.predict(X_test)
# Đánh giá mô hình
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("Random Forest Regressor MSE:", mse)
print("Random Forest Regressor R^2 Score:", r2)

Random Forest Regressor MSE: 0.24010612244897955
Random Forest Regressor R^2 Score: -0.059733088235293774


In [14]:
# Cài đặt và huấn luyện mô hình Random Forest Classifier
forest_clf = RandomForestClassifier(random_state=42)
forest_clf.fit(X_train, y_train)
# Dự đoán trên tập kiểm tra
y_pred = forest_clf.predict(X_test)
# Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)
print("Random Forest Classifier Accuracy:", accuracy)
print("Classification Report:\n", classification_report(y_test, y_pred))

Random Forest Classifier Accuracy: 0.6530612244897959
Classification Report:
               precision    recall  f1-score   support

           0       0.83      0.59      0.69        32
           1       0.50      0.76      0.60        17

    accuracy                           0.65        49
   macro avg       0.66      0.68      0.65        49
weighted avg       0.71      0.65      0.66        49

