In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
def load_iris_data():
  # Load bộ dữ liệu Iris
  iris = load_iris()

  # Chuyển đổi dữ liệu thành DataFrame để dễ thao tác
  df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
  df['target'] = iris.target

  return df

In [None]:
def prepare_data(df, feature_index=0, target_index=1):
  """
  Hàm chuẩn bị dữ liệu cho mô hình hồi quy tuyến tính.
  feature_index : chỉ số đặc trừng đầu vào (0->3)
  target_index : chỉ số đặc trưng đầu ra (0->3)
  """
  # Chọn một đặc làm biến đầu vào
  X = df.iloc[:, feature_index].values.reshape(-1, 1)

  # Chọn một đặc làm biến đầu ra
  y = df.iloc[:, target_index].values

  # Chia dữ liệu thành tập huấn luyện và tập kiểm tra
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

  return X_train, X_test, y_train, y_test

In [None]:
def train_and_evaluate_model(X_train, X_test, y_train, y_test, feature_name, target_name):
  # Khởi tạo và huấn luyện mô hình
  model = LinearRegression()
  model.fit(X_train, y_train)

  # Dự đoán trên tập huấn luyện và kiểm tra
  y_train_pred = model.predict(X_train)
  y_test_pred = model.predict(X_test)

  # Tính các metric đánh giá
  train_mse = mean_squared_error(y_train, y_train_pred)
  test_mse = mean_squared_error(y_test, y_test_pred)
  train_r2 = r2_score(y_train, y_train_pred)
  test_r2 = r2_score(y_test, y_test_pred)

  #In kết quả
  print(f"\n Kết quả hồi quy tuyến tính: {feature_name} -> {target_name}" )
  print(f"Điểm cắt (intercept): {model.intercept_:.4f}")
  print(f"Hệ số góc (slope): {model.coef_[0]:.4f}")
  print(f"Phương trình hồi quy: y= {model.intercept_:.4f} + {model.coef_[0]:.4f}x")
  print(f"  - MSE (train): {train_mse}")
  print(f"  - MSE (test): {test_mse}")
  print(f"  - R2 (train): {train_r2}")
  print(f"  - R2 (test): {test_r2}")

  # Vẽ dữ liệu huấn luyện
  # Vẽ biểu đồ
  plt.figure(figsize=(12,5))

  plt.subplot(1, 2, 1)
  plt.scatter(X_train, y_train, color='red', label='Dữ liệu gốc')
  plt.plot(X_train, y_train_pred, color='blue', linewidth=2, label='Đường hồi quy tuyến tính')
  plt.xlabel(feature_name)
  plt.ylabel(target_name)
  plt.title('Tập huấn luyện')
  plt.legend()
  plt.grid(True)



  plt.subplot(1, 2, 2)
  plt.scatter(X_test, y_test, color='red', label='Dữ liệu gốc')
  plt.plot(X_test, y_test_pred, color='blue', linewidth=2, label='Đường hồi quy tuyến tính')
  plt.xlabel(feature_name)
  plt.ylabel(target_name)
  plt.title('Tập kiểm tra')
  plt.legend()
  plt.grid(True)

  plt.tight_layout()
  plt.show()

  return model

In [None]:
# Load dữ liệu
df = load_iris_data()
print(df.head())

# Lấy tên các đặc trừng
feature_names = df.columns[:-1]
print(feature_names)

feature_index = 0;
target_index = 1;

# Chuẩn bị dữ liệu
X_train, X_test, y_train, y_test = prepare_data(df, feature_index, target_index)

# Huấn luyện và đánh giá mô hình
model = train_and_evaluate_model(X_train, X_test, y_train, y_test,  feature_names[feature_index],
      feature_names[target_index])