# <p style="background-color:green;font-family:newtimeroman;font-size:200%;color:white;text-align:center;border-radius:20px 20px;"><b>Stacking Method (Titanic DataSet)</b></p>
![](https://www.techproeducation.com/logo/headerlogo.svg)

<b>Yeniliklerden ilk siz haberdar olmak istiyorsanız lütfen bizi takip etmeyi unutmayın </b>[YouTube](https://www.youtube.com/c/techproeducation) | [Instagram](https://www.instagram.com/techproeducation) | [Facebook](https://www.facebook.com/techproeducation) | [Telegram](https://t.me/joinchat/HH2qRvA-ulh4OWbb) | [Whatsapp](https://api.whatsapp.com/send/?phone=%2B15853042959&text&type=phone_number&app_absent=0) | [LinkedIn](https://www.linkedin.com/company/techproeducation/mycompany/) |

# Classification with Stacking Methods in Machine Learning

Bu notebook'ta, makine öğreniminde model performansını artırmak için kullanılan topluluk yöntemlerinden biri olan **Stacking** yöntemini ele alacağız. Ayrıca, ünlü bir veri seti üzerinde uygulamalı bir örnek gerçekleştirerek, stacking yönteminin nasıl kullanılacağını göstereceğiz.

## Table of Contents

1. [Introduction](#Introduction)
2. [What is Stacking?](#What-is-Stacking?)
3. [Loading the Dataset and Exploratory Data Analysis](#Loading-the-Dataset-and-Exploratory-Data-Analysis)
4. [Data Preprocessing](#Data-Preprocessing)
5. [Training Base Learners](#Training-Base-Learners)
6. [Training the Meta Learner](#Training-the-Meta-Learner)
7. [Predicting and Submitting Results](#Predicting-and-Submitting-Results)
8. [Conclusion](#Conclusion)

## Introduction

Makine öğreniminde, birden fazla modeli birleştirerek daha güçlü ve genellenebilir bir model elde etmek yaygın bir yaklaşımdır. Bu yaklaşım, **ansambl yöntemleri** olarak bilinir ve bu yöntemlerin en popüler olanlarından biri de **Stacking**'dir.

Bu notebook'ta, stacking yöntemini detaylı bir şekilde inceleyecek ve **Titanic** veri seti üzerinde bir sınıflandırma problemi olarak uygulayacağız.

## What is Stacking?

**Stacking**, birden fazla makine öğrenimi modelini birleştirerek tahmin performansını artırmak amacıyla kullanılan bir ensemble (birleştirme) yöntemidir. Bu yöntemde birden fazla model birlikte çalışarak daha güçlü ve genel bir tahmin modeli oluştururlar.

### The Logic of Stacking:
- Farklı makine öğrenimi algoritmaları, veri üzerinde farklı öngörüler yapabilir.
- Her algoritmanın güçlü ve zayıf yanları vardır. Stacking, bu modellerin güçlü yönlerinden yararlanmayı amaçlar.
- İlk olarak birkaç temel model (base models) eğitilir ve bunların tahminleri, sonrasında **meta model** (üst model) tarafından kullanılır.
- Meta model, temel modellerin tahminlerini birleştirerek son tahmini yapar.

### Stacking Steps:
1. **Temel Modeller (Base Models):** Birinci katmanda çeşitli makine öğrenimi algoritmaları eğitilir.
2. **Meta Model:** İkinci katmanda ise temel modellerin tahmin sonuçlarını giriş olarak alan ve bu tahminlerden nihai tahmini yapan bir meta model eğitilir.

### Advantages of Stacking:
- **Genelleme Yeteneği:** Tek bir modelin aşırı uyum (overfitting) yapma riskini azaltır.
- **Performans:** Farklı modellerin güçlü yanlarını birleştirerek daha yüksek doğruluk oranına ulaşabilir.
- **Esneklik:** Farklı model tipleri (ağaç temelli modeller, lineer modeller, vb.) birlikte kullanılabilir.

### Popular Stacking Applications:
- **Kaggle Yarışmaları:** Özellikle Kaggle'da yarışan kullanıcılar arasında stacking çok popülerdir.
- **Büyük Veri ve Zor Problemler:** Stacking, karmaşık veri setleri ve zor sınıflandırma/regresyon problemleri için çok etkilidir.

## Loading the Dataset and Exploratory Data Analysis

**Titanic** veri seti üç dosyadan oluşur: 

- **train.csv:**
- **test.csv**
- **gender_submission.csv**

**train.csv** modeli eğitmek için,

**test.csv**tahmin yapmak için kullanılır. 

**gender_submission.csv**, tahmin sonuçlarını nasıl sunmamız gerektiğini gösterir.

In [1]:
# Importing necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Suppressing warnings
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Loading the training and test datasets
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')
gender_submission_df = pd.read_csv('gender_submission.csv')

In [3]:
# Displaying the first 5 observations of the training set
train_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:
# Displaying the first 5 observations of the test set
test_df.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


In [5]:
# Overview of the datasets
train_df.info()
test_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Pclass  

## Data Preprocessing

Bu bölümde eksik verilerle ilgilenecek ve veri setini makine öğrenimi modelleri için uygun hale getireceğiz.

In [6]:
# Missing values control
train_df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [7]:
test_df.isnull().sum()

PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

In [8]:
# Filling missing values: Using median for the Age column
train_df['Age'].fillna(train_df['Age'].median(), inplace=True)
test_df['Age'].fillna(test_df['Age'].median(), inplace=True)

# Filling missing values in the Fare column in the test set
test_df['Fare'].fillna(test_df['Fare'].median(), inplace=True)

# Filling missing values in the Embarked column
train_df['Embarked'].fillna(train_df['Embarked'].mode()[0], inplace=True)

In [9]:
# Dropping the Cabin column due to too many missing values
train_df.drop(columns='Cabin', inplace=True)
test_df.drop(columns='Cabin', inplace=True)

In [10]:
# Converting the Sex column to numerical values
train_df['Sex'] = train_df['Sex'].map({'male': 0, 'female': 1})
test_df['Sex'] = test_df['Sex'].map({'male': 0, 'female': 1})

In [11]:
# Applying one-hot encoding to the Embarked column
train_df = pd.get_dummies(train_df, columns=['Embarked'], drop_first=True)
test_df = pd.get_dummies(test_df, columns=['Embarked'], drop_first=True)

In [12]:
# Defining features and target variable
X_train = train_df.drop(columns=['Survived', 'Name', 'Ticket', 'PassengerId'])
y_train = train_df['Survived']

X_test = test_df.drop(columns=['Name', 'Ticket', 'PassengerId'])

In [13]:
# Standardizing the data
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

## Training Base Learners

Bu bölümde, Lojistik Regresyon, Rastgele Orman ve K-Nearest Neighbor gibi çeşitli temel modelleri eğiteceğiz.

In [14]:
# Importing necessary models
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# Defining base learners
log_clf = LogisticRegression()
rf_clf = RandomForestClassifier()
knn_clf = KNeighborsClassifier()

# Training the base learners
log_clf.fit(X_train, y_train)
rf_clf.fit(X_train, y_train)
knn_clf.fit(X_train, y_train)

## Training the Meta Learner

Bu bölümde stacking sınıflandırıcısını kullanarak meta öğreniciyi eğiteceğiz. Bu öğrenici, temel modellerin çıktısını kullanarak nihai tahminleri yapacak.

In [15]:
# Importing Stacking Classifier and Gradient Boosting models
from sklearn.ensemble import StackingClassifier, GradientBoostingClassifier

# Defining the stacking classifier
estimators = [
    ('lr', log_clf),
    ('rf', rf_clf),
    ('knn', knn_clf)
]

stacking_clf = StackingClassifier(
    estimators=estimators,
    final_estimator=GradientBoostingClassifier(),
    cv=5
)

# Training the stacking classifier
stacking_clf.fit(X_train, y_train)

## Predicting and Submitting Results

Bu bölümde, stacking modelinin performansını doğruluk, ROC-AUC ve confusion matrix ile değerlendireceğiz.

In [16]:
# Making predictions on the test set
y_pred = stacking_clf.predict(X_test)

# Saving predictions in the format of gender_submission.csv
submission = pd.DataFrame({
    'PassengerId': test_df['PassengerId'],
    'Survived': y_pred
})

# Displaying the first few predictions
submission.head()

# Saving the results to a CSV file
submission.to_csv('stacking_submission.csv', index=False)

## Conclusion

Bu çalışmada, Titanic veri seti üzerinde stacking yöntemini uyguladık. Birden fazla temel modelin çıktısını kullanarak bir meta model eğittik ve nihai tahminleri elde ettik. Stacking, birden fazla modelin güçlü yanlarını birleştirerek daha iyi sonuçlar almanıza olanak tanır.

# <p style="background-color:green;font-family:newtimeroman;font-size:100%;color:white;text-align:center;border-radius:20px 20px;"><b>Faydalı Olması Temennisiyle Teşekkürler</b></p>
![](https://www.techproeducation.com/logo/headerlogo.svg)

<b>Yeniliklerden ilk siz haberdar olmak istiyorsanız lütfen bizi takip etmeyi unutmayın </b>[YouTube](https://www.youtube.com/c/techproeducation) | [Instagram](https://www.instagram.com/techproeducation) | [Facebook](https://www.facebook.com/techproeducation) | [Telegram](https://t.me/joinchat/HH2qRvA-ulh4OWbb) | [Whatsapp](https://api.whatsapp.com/send/?phone=%2B15853042959&text&type=phone_number&app_absent=0) | [LinkedIn](https://www.linkedin.com/company/techproeducation/mycompany/) |