### Implementation of Cross Validation
1. XGBoost Classifier কী?
XGBoost হলো একটি উন্নত Gradient Boosting অ্যালগরিদম যা অনেকগুলো দুর্বল decision tree একত্র করে একটি শক্তিশালী ensemble model তৈরি করে।
এটি regularization, parallel processing, এবং missing value handling-এর মতো বৈশিষ্ট্য সরবরাহ করে, যার ফলে এটি বিভিন্ন machine learning প্রতিযোগিতায় উচ্চমানের ফলাফল প্রদান করে।
2. Cross Validation কী?
Cross Validation হল একটি model evaluation পদ্ধতি যার মাধ্যমে ডেটাসেটকে কয়েকটি fold-এ ভাগ করা হয় (উদাহরণস্বরূপ, 5-fold)।
প্রতিবার একটি fold কে test set হিসেবে ব্যবহার করা হয় এবং বাকি fold-গুলো train set হিসেবে।
সব fold-এর evaluation metrics (যেমন accuracy) গড় (mean) করে model-এর generalization capability মূল্যায়ন করা হয়।
3. XGBoost Classifier-এর সাথে Cross Validation প্রয়োগ
ধাপ ১: XGBoost Model তৈরি করা

python
Copy
Edit
from xgboost import XGBClassifier

# XGBoost Classifier ইনস্ট্যান্স তৈরি, random_state দিয়ে reproducibility নিশ্চিত করা হয়
model = XGBClassifier(random_state=42)
ধাপ ২: Cross Validation ব্যবহার করে Model Evaluation

python
Copy
Edit
from sklearn.model_selection import cross_val_score

# X এবং y হলো আপনার feature matrix এবং target variable
scores = cross_val_score(model, X, y, cv=5)

print("প্রতিটি fold এর score:", scores)
print("Mean cross validation score:", scores.mean())
এখানে cv=5 দ্বারা 5-fold cross validation করা হয়েছে।
প্রতিটি fold-এর score নির্ণয় করা হয়, এবং শেষে গড় score (Mean cross validation score) মডেলের performance দেখায়।
ধাপ ৩: Hyperparameter Tuning

Cross Validation ব্যবহার করে আপনি XGBoost-এর hyperparameters (যেমন learning_rate, max_depth, n_estimators ইত্যাদি) টিউন করতে পারেন যাতে model-এর performance সর্বোচ্চ হয়।
উদাহরণস্বরূপ, GridSearchCV বা RandomizedSearchCV ব্যবহার করে বিভিন্ন hyperparameter combination এর উপর cross validation চালানো যায়।
4. কেন XGBoost এবং Cross Validation একসাথে ব্যবহার করবেন?
XGBoost এর শক্তিশালী এবং efficient boosting framework-এর কারণে, এটি অনেক ডেটাসেটে উচ্চ accuracy প্রদান করে।
Cross Validation মডেলের robustness ও generalization ability নিশ্চিত করে, unseen data-তে কেমন performance হবে তা যাচাই করতে সাহায্য করে।
একসাথে ব্যবহার করলে, আপনি একটি reliable এবং finely-tuned model পাবেন যা overfitting কমায় এবং practical applications-এ ভালো ফলাফল দেয়।
এইভাবে, XGBoost Classifier এবং Cross Validation-এর সংমিশ্রণ আপনাকে একটি শক্তিশালী, efficient এবং generalizable machine learning model তৈরি করতে সহায়তা করে।

# Import Libraries

In [1]:
import numpy as np


import xgboost as xgb
# a powerful tool for building gradient boosting models


from sklearn.datasets import make_classification
#  This function helps create a synthetic dataset for classification tasks, which is useful for testing models.


from sklearn.model_selection import train_test_split, KFold, StratifiedKFold, cross_val_score
# This line imports several tools from scikit-learn:
# train_test_split: Splits the data into training and testing sets.
# KFold: Helps in performing K-Fold cross validation.
# StratifiedKFold: A version of K-Fold that keeps the same class distribution in each fold.
# cross_val_score: Computes the score of a model using cross-validation.


import warnings
# used to manage warning messages that might be generated during code execution.


warnings.filterwarnings('ignore')
# This tells Python to ignore any warning messages. It helps keep the output clean by not displaying warnings that might not be important.

# Generating synthetic data & splitting into train-test


In [3]:
X, y = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10, random_state=42)

# explanation:
# make_classification: This function creates a fake dataset for classification tasks.
# A classified dataset refers to a collection of data that has been organized into predefined categories or classes.
# n_samples=1000: It generates 1000 samples (rows).
# n_features=20: Each sample has 20 features (columns).
# n_informative=2: Out of the 20 features, only 2 are truly useful for predicting the target variable.
# n_redundant=10: 10 of the features are redundant, meaning they are combinations of the informative features.
# random_state=42: This makes sure that the dataset generated is the same every time you run the code.

# After this line:

# X is a 2D array (1000 samples x 20 features) containing the features.
# y is a 1D array with 1000 labels corresponding to the classification target.



X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# After this line:

# X_train and y_train are used to train the model.
# X_test and y_test are used to evaluate the model’s performance.


# XGBoost Classifier

In [4]:
clf = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')
clf.fit(X_train, y_train)


# explanation:
# use_label_encoder=False: In versions of XGBoost prior to 1.3.0, labels were automatically encoded using a label encoder. This parameter, when set to False, disables that behavior. This change was made because the automatic label encoder has been deprecated, and users are now encouraged to handle label encoding explicitly if needed. Setting this to False helps avoid deprecation warnings.


# eval_metric='logloss': This sets the evaluation metric to logarithmic loss (logloss), which is commonly used for binary classification problems. Logloss measures the performance of a classification model where the prediction is a probability value between 0 and 1; the goal is to minimize this value

In [5]:
clf.score(X_test, y_test)


0.9133333333333333

# Perform k-Fold Cross-Validation

In [7]:
kf = KFold(n_splits=5, shuffle=True, random_state=42)
kf_scores = cross_val_score(clf, X, y, cv=kf)

kf_scores

array([0.915, 0.925, 0.91 , 0.9  , 0.885])

In [9]:
kf_scores.mean()

0.907

# Peform Stratified k-Fold Cross-Validation

In [8]:
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
skf_scores = cross_val_score(clf, X, y, cv=skf)

skf_scores

array([0.945, 0.92 , 0.89 , 0.885, 0.9  ])

In [10]:
skf_scores.mean()

0.908