3-деңгей. Bagging & Random Forest (практика)

Есеп 6. Bagging (Python)

Берілген:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

Тапсырма:
Base model ретінде Decision Tree қолданыңыз
n_estimators = 30

Accuracy есептеңіз

Нәтижені бір ағашпен салыстырыңыз


In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.metrics import accuracy_score

# 1. Деректерді жүктеу
data = load_breast_cancer()
X, y = data.data, data.target

# Деректерді жаттығу және тест жиынтығына бөлу
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 2. Жалғыз Decision Tree (Base model)
tree = DecisionTreeClassifier(random_state=42)
tree.fit(X_train, y_train)
tree_pred = tree.predict(X_test)
tree_acc = accuracy_score(y_test, tree_pred)

# 3. Bagging Classifier қолдану
# n_estimators = 30, base model = DecisionTreeClassifier
bagging = BaggingClassifier(estimator=DecisionTreeClassifier(),
                            n_estimators=30,
                            random_state=42)
bagging.fit(X_train, y_train)
bagging_pred = bagging.predict(X_test)
bagging_acc = accuracy_score(y_test, bagging_pred)

# 4. Нәтижелерді салыстыру
print(f"Жалғыз Decision Tree дәлдігі: {tree_acc:.4f}")
print(f"Bagging (30 ағаш) дәлдігі: {bagging_acc:.4f}")
print(f"Айырмашылық: {bagging_acc - tree_acc:.4f}")

Жалғыз Decision Tree дәлдігі: 0.9415
Bagging (30 ағаш) дәлдігі: 0.9532
Айырмашылық: 0.0117


Есеп 9. Gradient Boosting (Python)

Тапсырма:

GradientBoostingClassifier қолданыңыз

n_estimators = 50, 100, 200

Accuracy өзгерісін салыстырыңыз

Қорытынды жасаңыз


In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score

# 1. Деректерді дайындау
data = load_breast_cancer()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 2. n_estimators мәндерін салыстыру
estimators_list = [50, 100, 200, ]

print("Gradient Boosting нәтижелері:")
print("-" * 30)

for n in estimators_list:
    gb = GradientBoostingClassifier(n_estimators=n, learning_rate=0.05, random_state=42)
    gb.fit(X_train, y_train)
    y_pred = gb.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    print(f"n_estimators = {n} | Accuracy: {acc:.4f}")


Gradient Boosting нәтижелері:
------------------------------
n_estimators = 50 | Accuracy: 0.9591
n_estimators = 100 | Accuracy: 0.9591
n_estimators = 200 | Accuracy: 0.9591


Қорытынды:
Әдетте n_estimators саны артқан сайын модельдің дәлдігі белгілі бір деңгейге дейін өседі. Менің жағдайымда дәлдік өзгерген жоқ. Бұл модельдің 50-ші ағаштан кейін жаңа ақпарат үйрене алмай, "платоға" шыққанын білдіреді.
Мұның себебі деректер жиынының шағын болуында.


Есеп 11. Stacking (Python)

Кемінде 2 базалық модель қолданыңыз

Logistic Regression — meta-model

Accuracy есептеңіз

Random Forest-пен салыстырыңыз


In [22]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import StackingClassifier, RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 1. Подготовка данных
data = load_breast_cancer()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 2. Определение базовых моделей (Level-0)
base_models = [
    ('dt', DecisionTreeClassifier(random_state=42)),
    ('svc', SVC(probability=True, random_state=42))
]

# 3. Создание Stacking модели с мета-моделью Logistic Regression
stacking_model = StackingClassifier(
    estimators=base_models,
    final_estimator=LogisticRegression(),
    cv=5  # Использование кросс-валидации для обучения мета-модели
)

# 4. Обучение и оценка Stacking
stacking_model.fit(X_train, y_train)
stacking_pred = stacking_model.predict(X_test)
stacking_acc = accuracy_score(y_test, stacking_pred)

# 5. Обучение и оценка Random Forest (для сравнения)
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
rf_pred = rf_model.predict(X_test)
rf_acc = accuracy_score(y_test, rf_pred)

# Вывод результатов
print(f"Stacking Accuracy (DT + SVC -> LR): {stacking_acc:.4f}")
print(f"Random Forest Accuracy: {rf_acc:.4f}")


Stacking Accuracy (DT + SVC -> LR): 0.9708
Random Forest Accuracy: 0.9708


Есеп 14. Толық салыстыру

Бір датасетте:
Bagging
Random Forest
Gradient Boosting
Stacking

Тапсырма:
Барлығын үйретіңіз
Accuracy салыстырыңыз
Қайсысы ең тұрақты?
Қайсысы ең баяу?


In [23]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import BaggingClassifier, RandomForestClassifier, GradientBoostingClassifier, StackingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import time

# 1. Деректерді дайындау
data = load_breast_cancer()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Модельдерді инициализациялау
models = {
    "Bagging": BaggingClassifier(estimator=DecisionTreeClassifier(), n_estimators=100, random_state=42),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42),
    "Gradient Boosting": GradientBoostingClassifier(n_estimators=100, random_state=42),
    "Stacking": StackingClassifier(
        estimators=[('rf', RandomForestClassifier(n_estimators=50, random_state=42)),
                    ('gb', GradientBoostingClassifier(n_estimators=50, random_state=42))],
        final_estimator=LogisticRegression(),
        cv=3
    )
}

results = {}

print("Модельдерді үйрету және тексеру...")
for name, model in models.items():
    start_time = time.time()
    model.fit(X_train, y_train)
    end_time = time.time()
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    train_time = end_time - start_time
    results[name] = {"Accuracy": accuracy, "Time": train_time}
    print(f"{name}: Accuracy: {accuracy:.4f}, Time: {train_time:.4f} сек")



Модельдерді үйрету және тексеру...
Bagging: Accuracy: 0.9591, Time: 1.2579 сек
Random Forest: Accuracy: 0.9708, Time: 0.8014 сек
Gradient Boosting: Accuracy: 0.9591, Time: 0.8937 сек
Stacking: Accuracy: 0.9649, Time: 1.3122 сек


Accuracy салыстыру:
1.Random Forest. 2.Stacking. 3.Bagging, Gradient Boosting

Ең тұрақтысы: Random Forest

Ең баяуы: Stacking