# Logistic Regression với Iris Dataset
Notebook hoàn chỉnh từ chuẩn bị dữ liệu đến đánh giá mô hình.

In [None]:
# =========================================
# CHUẨN BỊ MÔI TRƯỜNG VÀ DỮ LIỆU (IRIS)
# =========================================

# ===== IMPORT THƯ VIỆN =====
import pandas as pd
import numpy as np

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
# ===== LOAD DỮ LIỆU IRIS =====
iris = load_iris()

df = pd.DataFrame(
    data=iris.data,
    columns=iris.feature_names
)

df['target'] = iris.target
df['species'] = df['target'].map({
    0: 'setosa',
    1: 'versicolor',
    2: 'virginica'
})

print("=== 5 DÒNG ĐẦU TIÊN ===")
print(df.head())

print("\n=== THÔNG TIN DATAFRAME ===")
print(df.info())

print("\n=== THỐNG KÊ MÔ TẢ ===")
print(df.describe())


In [None]:
# ===== TIỀN XỬ LÝ DỮ LIỆU =====
X = df[
    [
        'sepal length (cm)',
        'sepal width (cm)',
        'petal length (cm)',
        'petal width (cm)'
    ]
]
y = df['target']

print(f"Shape của X: {X.shape}")
print(f"Shape của y: {y.shape}")


In [None]:
# ===== CHIA TRAIN / TEST =====
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

print(f"Train set: {X_train.shape}")
print(f"Test set: {X_test.shape}")


In [None]:
# ===== CHUẨN HÓA DỮ LIỆU =====
scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Mean sau scaling:", X_train_scaled.mean(axis=0))
print("Std sau scaling:", X_train_scaled.std(axis=0))


In [None]:
# ===== KHỞI TẠO & HUẤN LUYỆN MÔ HÌNH =====
model = LogisticRegression(
    multi_class='multinomial',
    solver='lbfgs',
    max_iter=1000,
    random_state=42
)

model.fit(X_train_scaled, y_train)


In [None]:
# ===== DỰ ĐOÁN =====
y_pred = model.predict(X_test_scaled)
y_pred_proba = model.predict_proba(X_test_scaled)

print("Dự đoán (5 mẫu đầu):")
print(y_pred[:5])

print("\nXác suất dự đoán (5 mẫu đầu):")
print(y_pred_proba[:5])


In [None]:
# ===== ĐÁNH GIÁ MÔ HÌNH =====

# Accuracy
train_accuracy = model.score(X_train_scaled, y_train)
test_accuracy = model.score(X_test_scaled, y_test)

print("=== ACCURACY ===")
print(f"Train Accuracy: {train_accuracy:.4f}")
print(f"Test Accuracy : {test_accuracy:.4f}")

acc = accuracy_score(y_test, y_pred)
print(f"Accuracy (accuracy_score): {acc:.4f}")


In [None]:
# ===== CONFUSION MATRIX =====
cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(8, 6))
sns.heatmap(
    cm,
    annot=True,
    fmt='d',
    cmap='Blues',
    xticklabels=iris.target_names,
    yticklabels=iris.target_names
)

plt.xlabel("Predicted")
plt.ylabel("Actual")
plt.title("Confusion Matrix")
plt.show()


In [None]:
# ===== CLASSIFICATION REPORT =====
report = classification_report(
    y_test,
    y_pred,
    target_names=iris.target_names
)

print("=== CLASSIFICATION REPORT ===")
print(report)
