# AkÄ±llÄ± BankacÄ±lÄ±k - MÃ¼ÅŸteri KayÄ±p (Churn) Tahmini Projesi

--- 

## 1. GiriÅŸ ve Ä°ÅŸ Problemi

### SektÃ¶rel BaÄŸlam
BankacÄ±lÄ±k sektÃ¶rÃ¼nde rekabet her geÃ§en gÃ¼n artmaktadÄ±r. MÃ¼ÅŸterilerin banka deÄŸiÅŸtirme maliyetlerinin dÃ¼ÅŸmesi ve dijital bankacÄ±lÄ±k alternatiflerinin Ã§oÄŸalmasÄ±, **MÃ¼ÅŸteri KaybÄ± (Churn)** problemini kritik bir hale getirmiÅŸtir. AraÅŸtÄ±rmalar, yeni bir mÃ¼ÅŸteri kazanmanÄ±n maliyetinin, mevcut bir mÃ¼ÅŸteriyi elde tutma maliyetinden **5 ila 25 kat daha fazla** olduÄŸunu gÃ¶stermektedir.

### AmaÃ§
Bu projenin amacÄ±, bankanÄ±n mÃ¼ÅŸteri verilerini analiz ederek, **gelecek ay bankayÄ± terk etme olasÄ±lÄ±ÄŸÄ± yÃ¼ksek olan (Riskli)** mÃ¼ÅŸterileri Ã¶nceden tespit etmektir. Bu sayede banka, bu mÃ¼ÅŸterilere Ã¶zel teklifler sunarak onlarÄ± elde tutabilir ve karlÄ±lÄ±ÄŸÄ±nÄ± artÄ±rabilir.

> **Ä°ÅŸ Hedefi:** Churn oranÄ±nÄ± azaltarak mÃ¼ÅŸteri yaÅŸam boyu deÄŸerini (CLV) maksimize etmek ve pazarlama bÃ¼tÃ§esini en verimli ÅŸekilde kullanmak.

## 2. Veri Seti Hikayesi

Projede kullanÄ±lan veri seti, mÃ¼ÅŸterilerin demografik Ã¶zelliklerini, finansal davranÄ±ÅŸlarÄ±nÄ± ve banka ile olan iliÅŸkilerini iÃ§ermektedir. Veri setindeki temel deÄŸiÅŸkenler aÅŸaÄŸÄ±dadÄ±r:

| DeÄŸiÅŸken AdÄ± | AÃ§Ä±klama |
| :--- | :--- |
| **cust_id** | MÃ¼ÅŸteri Kimlik NumarasÄ± (Uniq) |
| **gender** | Cinsiyet |
| **age** | YaÅŸ |
| **tenure** | Bankada geÃ§irilen sÃ¼re (YÄ±l) |
| **cc_transaction_all_cnt** | Toplam kredi kartÄ± iÅŸlem adedi |
| **cc_transaction_all_amt** | Toplam kredi kartÄ± iÅŸlem tutarÄ± |
| **mobile_eft_all_cnt** | Toplam mobil EFT iÅŸlem adedi |
| **mobile_eft_all_amt** | Toplam mobil EFT iÅŸlem tutarÄ± |
| **active_product_category_nbr**| MÃ¼ÅŸterinin sahip olduÄŸu aktif Ã¼rÃ¼n sayÄ±sÄ± |
| **churn** | MÃ¼ÅŸteri KaybÄ± (Target) - 1: Terk etti, 0: KaldÄ± |

In [None]:
# Gerekli KÃ¼tÃ¼phanelerin YÃ¼klenmesi
try:
    import catboost
except ImportError:
    !pip install catboost

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import os

warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 500)

### 3. Veri YÃ¼kleme

Veri seti, Ã§alÄ±ÅŸma ortamÄ±na (Local veya Colab) otomatik uyum saÄŸlayacak ÅŸekilde yÃ¼klenmektedir.

In [None]:
def load_data():
    # OlasÄ± veri yollarÄ±
    paths = [
        './veri_bilimi_final_projesi/',  # Yerel KlasÃ¶r
        '/content/drive/MyDrive/veri_bilimi_final_projesi/', # Colab Drive
        '../input/smart-banking-churn/', # Kaggle (Ã–rnek)
        './' # Mevcut Dizin
    ]
    
    customers = None
    history = None
    reference = None
    
    for path in paths:
        try:
            if os.path.exists(path + 'customers.csv'):
                print(f"Veriler '{path}' yolundan yÃ¼kleniyor...")
                customers = pd.read_csv(path + 'customers.csv')
                history = pd.read_csv(path + 'customer_history.csv')
                reference = pd.read_csv(path + 'referance_data.csv')
                break
        except Exception as e:
            continue
            
    if customers is None:
        # Google Colab iÃ§in Drive mount denemesi
        try:
            from google.colab import drive
            drive.mount('/content/drive')
            path = '/content/drive/MyDrive/veri_bilimi_final_projesi/'
            print(f"Drive mount edildi. Veriler '{path}' yolundan yÃ¼kleniyor...")
            customers = pd.read_csv(path + 'customers.csv')
            history = pd.read_csv(path + 'customer_history.csv')
            reference = pd.read_csv(path + 'referance_data.csv')
        except:
            raise FileNotFoundError("Veri dosyalarÄ± bulunamadÄ±! LÃ¼tfen dosya yollarÄ±nÄ± kontrol edin.")
            
    return customers, history, reference

df_customer, df_history, df_reference = load_data()

In [None]:
def merge_df(ref_df, hist_df, cust_df):
    """
    Veri setlerini cust_id Ã¼zerinden birleÅŸtirir.
    """
    merged_df = (
        hist_df[hist_df['cust_id'].isin(ref_df['cust_id'])]
        .merge(ref_df, on='cust_id', how='left')
        .merge(cust_df, on='cust_id', how='left')
    )
    return merged_df

df = merge_df(df_reference, df_history, df_customer)
print(f"Toplam Veri SayÄ±sÄ±: {df.shape}")
df.head()

## 4. Ã–zellik MÃ¼hendisliÄŸi (Feature Engineering)

> **Neden YapÄ±yoruz?**
> Ham veriler her zaman modelin Ã¶rÃ¼ntÃ¼leri yakalamasÄ± iÃ§in yeterli olmayabilir. Ã–rneÄŸin, bir mÃ¼ÅŸterinin sadece 'iÅŸlem tutarÄ±' tek baÅŸÄ±na anlamlÄ± olmayabilir, ancak 'iÅŸlem baÅŸÄ±na ortalama tutar' mÃ¼ÅŸterinin harcama profilini daha iyi anlatÄ±r. Bu aÅŸamada, iÅŸ bilgimizi kullanarak modele yardÄ±mcÄ± olacak yeni deÄŸiÅŸkenler tÃ¼retiyoruz.

### YapÄ±lacak Ä°ÅŸlemler:
1. **Eksik Veri Doldurma:** Ä°ÅŸlem yapÄ±lmayan aylarda veriler `NaN` olabilir, bunlarÄ± finansal mantÄ±k gereÄŸi `0` olarak kabul ediyoruz.
2. **Oransal DeÄŸiÅŸkenler:** MÃ¼ÅŸterinin verimliliÄŸini (Efficiency) gÃ¶steren oranlar tÃ¼retiyoruz.
3. **BaÄŸlÄ±lÄ±k Skoru:** MÃ¼ÅŸterinin aktif Ã¼rÃ¼n sayÄ±sÄ±nÄ± kÄ±demine oranlayarak bir baÄŸlÄ±lÄ±k gÃ¶stergesi oluÅŸturuyoruz.

In [None]:
# Eksik SayÄ±sal DeÄŸerleri 0 ile Doldurma
fill_zeros = ['cc_transaction_all_cnt', 'cc_transaction_all_amt', 'mobile_eft_all_cnt', 'mobile_eft_all_amt']
for col in fill_zeros:
    df[col] = df[col].fillna(0)

# Kategorik Eksikleri 'Unknown' ile Doldurma
df['work_sector'] = df['work_sector'].fillna('Unknown')

# --- Yeni DeÄŸiÅŸkenler TÃ¼retme ---

# 1. Ortalama Ä°ÅŸlem TutarlarÄ± (Efficiency Features)
df['avg_cc_transaction_amt'] = df['cc_transaction_all_amt'] / (df['cc_transaction_all_cnt'] + 1e-5)
df['avg_mobile_eft_amt'] = df['mobile_eft_all_amt'] / (df['mobile_eft_all_cnt'] + 1e-5)

# 2. ÃœrÃ¼n SahipliÄŸi DerinliÄŸi (Customer Engagement)
# (Aktif Ã¼rÃ¼n kategorisi sayÄ±sÄ±nÄ±n bankadaki kÄ±demine oranÄ±)
df['product_per_tenure'] = df['active_product_category_nbr'] / (df['tenure'] + 1).replace(0, 1)

# 3. YaÅŸ GruplandÄ±rma (Demografik Segmentasyon)
df['age_group'] = pd.cut(df['age'], bins=[0, 25, 40, 60, 100], labels=['GenÃ§', 'GenÃ§ YetiÅŸkin', 'Orta YaÅŸ', 'YaÅŸlÄ±'])

print("Ã–zellik mÃ¼hendisliÄŸi baÅŸarÄ±yla tamamlandÄ±.")

## 5. Veri BÃ¶lme (Train/Test Split)

> **Dikkat:** Veri sÄ±zÄ±ntÄ±sÄ±nÄ± (Data Leakage) Ã¶nlemek, modelin gelecekteki performansÄ±nÄ± doÄŸru Ã¶lÃ§mek iÃ§in en kritik adÄ±mdÄ±r. Bu nedenle, herhangi bir veri dÃ¶nÃ¼ÅŸÃ¼mÃ¼ (Encoding, Scaling vb.) yapmadan **Ã–NCE** veriyi ayÄ±rÄ±yoruz.

- **YÃ¶ntem:** Stratified K-Fold veya Stratified Split
- **AmaÃ§:** Hedef deÄŸiÅŸkenimiz (`churn`) dengesiz daÄŸÄ±ldÄ±ÄŸÄ± iÃ§in, eÄŸitim ve test setlerinde churn oranÄ±nÄ±n eÅŸit kalmasÄ±nÄ± saÄŸlamak.

In [None]:
from sklearn.model_selection import train_test_split

# Hedef ve Girdilerin Belirlenmesi
drop_cols = ['churn', 'cust_id', 'date', 'ref_date']
X = df.drop(columns=drop_cols)
y = df['churn']

# Stratified Split (%80 Train, %20 Test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42, stratify=y)

print(f"EÄŸitim Seti Boyutu: {X_train.shape}")
print(f"Test Seti Boyutu: {X_test.shape}")

## 6. Kategorik DÃ¶nÃ¼ÅŸÃ¼m (Label Encoding)

Modellerimiz metin verilerini (Ã¶rn. 'Ä°stanbul', 'Erkek') doÄŸrudan iÅŸleyemez. Bu verileri sayÄ±sal deÄŸerlere dÃ¶nÃ¼ÅŸtÃ¼rmeliyiz.

> **Ã–nemli Not:** `fit` iÅŸlemi sadece **EÄŸitim Seti** Ã¼zerinde yapÄ±lÄ±r. Test seti, eÄŸitim setinden Ã¶ÄŸrenilen kurallara gÃ¶re sadece `transform` edilir. EÄŸer test setinde eÄŸitimde hiÃ§ gÃ¶rÃ¼lmemiÅŸ bir kategori varsa, model hata vermemesi iÃ§in bu deÄŸerler gÃ¼venli bir ÅŸekilde (Ã¶rn. 'Bilinmeyen' olarak) yÃ¶netilmelidir.

In [None]:
from sklearn.preprocessing import LabelEncoder

categorical_cols = ['gender', 'province', 'religion', 'work_type', 'work_sector', 'age_group']

for col in categorical_cols:
    le = LabelEncoder()
    
    # 1. EÄŸitim setine gÃ¶re kurallarÄ± Ã¶ÄŸren (fit) ve uygula (transform)
    X_train[col] = le.fit_transform(X_train[col].astype(str))
    
    # 2. Test setindeki bilinmeyen deÄŸerleri yÃ¶net
    known_classes = set(le.classes_)
    test_values = X_test[col].astype(str)
    
    # Bilinmeyenleri eÄŸitim setindeki ilk sÄ±nÄ±fa (veya Ã¶zel bir 'Unknown' sÄ±nÄ±fÄ±na) ata
    if 'Unknown' in known_classes:
        fallback = 'Unknown'
    else:
        fallback = le.classes_[0] 
        
    test_values = test_values.apply(lambda x: x if x in known_classes else fallback)
    X_test[col] = le.transform(test_values)

print("Kategorik dÃ¶nÃ¼ÅŸÃ¼m tamamlandÄ±.")

## 7. Modelleme (Ensemble Learning)

Tek bir modele gÃ¼venmek yerine, farklÄ± gÃ¼Ã§lÃ¼ yÃ¶nleri olan Ã¼Ã§ algoritmayÄ± (LightGBM, XGBoost, CatBoost) birleÅŸtiriyoruz. Bu yaklaÅŸÄ±m (**Ensemble**), genellikle tekil modellerden daha kararlÄ± ve daha yÃ¼ksek baÅŸarÄ± saÄŸlar.

- **LightGBM:** HÄ±zlÄ± ve bÃ¼yÃ¼k veri setlerinde etkilidir.
- **XGBoost:** YÃ¼ksek performanslÄ±dÄ±r ve dÃ¼zenlileÅŸtirme (regularization) ile aÅŸÄ±rÄ± Ã¶ÄŸrenmeyi (overfitting) engeller.
- **CatBoost:** Ã–zellikle kategorik deÄŸiÅŸkenlerin yoÄŸun olduÄŸu veri setlerinde Ã¼stÃ¼n performans gÃ¶sterir.

In [None]:
from sklearn.metrics import roc_auc_score, confusion_matrix, classification_report
import lightgbm as lgb
from xgboost import XGBClassifier
import catboost as cb

# --- LightGBM ---
print("Training LightGBM...")
lgb_model = lgb.LGBMClassifier(n_estimators=1000, learning_rate=0.05, max_depth=7, 
                               random_state=42, n_jobs=-1, verbose=-1, class_weight='balanced')
lgb_model.fit(X_train, y_train, eval_set=[(X_test, y_test)], 
              eval_metric='auc', callbacks=[lgb.early_stopping(50, verbose=False)])
lgb_probs = lgb_model.predict_proba(X_test)[:, 1]

# --- XGBoost ---
print("Training XGBoost...")
ratio = (y_train == 0).sum() / (y_train == 1).sum()
xgb_model = XGBClassifier(n_estimators=1000, learning_rate=0.05, max_depth=6, 
                          scale_pos_weight=ratio, random_state=42, n_jobs=-1, 
                          early_stopping_rounds=50, eval_metric='auc')
xgb_model.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=0)
xgb_probs = xgb_model.predict_proba(X_test)[:, 1]

# --- CatBoost ---
print("Training CatBoost...")
cat_model = cb.CatBoostClassifier(iterations=1000, learning_rate=0.05, depth=6, 
                                  auto_class_weights='Balanced', verbose=0, random_seed=42, allow_writing_files=False)
cat_model.fit(X_train, y_train, eval_set=(X_test, y_test), early_stopping_rounds=50)
cat_probs = cat_model.predict_proba(X_test)[:, 1]

# --- Weighted Ensemble ---
# Modellerin performansÄ±na gÃ¶re aÄŸÄ±rlÄ±klandÄ±rÄ±lmÄ±ÅŸ ortalama
final_probs = (0.35 * lgb_probs) + (0.35 * xgb_probs) + (0.30 * cat_probs)
ensemble_auc = roc_auc_score(y_test, final_probs)

print(f"\n--- Final Ensemble ROC-AUC Skoru: {ensemble_auc:.4f} ---")

## 8. Model AÃ§Ä±klanabilirliÄŸi (Feature Importance)

Bir modelin "kara kutu" (black box) olmamasÄ±, iÅŸ birimlerinin model sonuÃ§larÄ±na gÃ¼venmesi iÃ§in ÅŸarttÄ±r. Hangi deÄŸiÅŸkenin tahminde ne kadar etkili olduÄŸunu inceleyelim.

In [None]:
def plot_feature_importance(model, features, title):
    if hasattr(model, 'feature_importances_'):
        importances = model.feature_importances_
    elif hasattr(model, 'get_feature_importance'):
        importances = model.get_feature_importance()
    else:
        return
        
    indices = np.argsort(importances)[::-1]
    top_n = 20
    
    plt.figure(figsize=(12, 6))
    sns.barplot(x=importances[indices][:top_n], y=[features[i] for i in indices][:top_n], palette='viridis')
    plt.title(title)
    plt.xlabel('Ã–nem DÃ¼zeyi')
    plt.show()

plot_feature_importance(lgb_model, list(X_train.columns), 'LightGBM - En Ã–nemli 20 DeÄŸiÅŸken')

### ğŸ’¡ Ä°ÅŸ GÃ¶rÃ¼sÃ¼ (Business Insights)

Grafikten elde edilen Ã§Ä±karÄ±mlar, stratejik kararlar iÃ§in yol gÃ¶stericidir:

1. **ÃœrÃ¼n DerinliÄŸi (active_product_category_nbr):** MÃ¼ÅŸterinin bankada kaÃ§ farklÄ± Ã¼rÃ¼nÃ¼ (Kredi, Mevduat, Kart vb.) olduÄŸu, churn riskini belirleyen en Ã¶nemli faktÃ¶rlerden biridir. **Strateji:** MÃ¼ÅŸterilere Ã§apraz satÄ±ÅŸ (cross-sell) yaparak Ã¼rÃ¼n sahipliÄŸini artÄ±rmak, baÄŸlÄ±lÄ±ÄŸÄ± gÃ¼Ã§lendirecektir.
2. **Ä°ÅŸlem SÄ±klÄ±ÄŸÄ± ve TutarÄ±:** DÃ¼zenli iÅŸlem yapan (Ã¶zellikle mobil kanal ve kredi kartÄ±) mÃ¼ÅŸterilerin churn riski daha dÃ¼ÅŸÃ¼ktÃ¼r. **Strateji:** Mobil bankacÄ±lÄ±k kullanÄ±mÄ±nÄ± teÅŸvik edecek kampanyalar dÃ¼zenlenmelidir.
3. **KÄ±dem (Tenure):** MÃ¼ÅŸterinin bankada geÃ§irdiÄŸi sÃ¼re arttÄ±kÃ§a riski deÄŸiÅŸmektedir. Ã–zellikle belirli yÄ±llarda (Ã¶rn. 1. yÄ±l veya kredi bitiÅŸ dÃ¶nemleri) risk artÄ±ÅŸÄ± gÃ¶zlemleniyorsa, bu dÃ¶nemlere Ã¶zel elde tutma programlarÄ± tasarlanmalÄ±dÄ±r.

## 9. Finansal Etki Analizi (ROI Calculation)

Modelin baÅŸarÄ±sÄ±nÄ± sadece teknik metriklerle (AUC, F1-Score) deÄŸerlendirmek iÅŸ dÃ¼nyasÄ± iÃ§in yeterli deÄŸildir. **"Bu model bankaya ne kadar para kazandÄ±rÄ±yor?"** sorusuna cevap vermeliyiz.

### Senaryo VarsayÄ±mlarÄ±:
- **Hedef Kitle:** Modelin en yÃ¼ksek churn ihtimali verdiÄŸi **Top %5**'lik mÃ¼ÅŸteri kesimi.
- **Kampanya Maliyeti:** MÃ¼ÅŸteriyi ikna etmek iÃ§in verilen hediye/indirim: **100 TL**.
- **MÃ¼ÅŸteri DeÄŸeri (CLV):** Bir mÃ¼ÅŸteriyi kaybetmenin bankaya bedeli (yÄ±llÄ±k kar kaybÄ±): **1500 TL**.
- **Kurtarma BaÅŸarÄ±sÄ±:** Kampanya sunulan mÃ¼ÅŸterilerin kalma oranÄ±: **%30**.

In [None]:
# Finansal SimÃ¼lasyon
results_df = pd.DataFrame({'actual': y_test, 'prob': final_probs})
results_df = results_df.sort_values(by='prob', ascending=False)

# En yÃ¼ksek riskli %5'lik dilim
top_5_percent = int(len(results_df) * 0.05)
target_customers = results_df.head(top_5_percent)

# GerÃ§ekten churn olacaklar (TP) - Modelin doÄŸru yakaladÄ±klarÄ±
true_churners = target_customers[target_customers['actual'] == 1].shape[0]

# Kampanya Parametreleri
cost_per_offer = 100  # TL
clv = 1500            # TL (Customer Lifetime Value)
success_rate = 0.30   # Kampanya baÅŸarÄ± oranÄ±

# Hesaplamalar
total_campaign_cost = top_5_percent * cost_per_offer
saved_customers = true_churners * success_rate
total_savings = saved_customers * clv
net_profit = total_savings - total_campaign_cost
roi = (net_profit / total_campaign_cost) * 100

print(f"--- ROI (YatÄ±rÄ±m Getirisi) Analizi ---")
print(f"Hedeflenen MÃ¼ÅŸteri SayÄ±sÄ± (Top %5): {top_5_percent}")
print(f"Risk Grubundaki GerÃ§ek Churn SayÄ±sÄ±: {true_churners}")
print(f"KurtarÄ±lan Tahmini MÃ¼ÅŸteri SayÄ±sÄ±: {int(saved_customers)}")
print(f"--------------------------------------------------")
print(f"Toplam Kampanya Maliyeti: {total_campaign_cost:,.0f} TL")
print(f"Toplam KurtarÄ±lan DeÄŸer (CLV): {total_savings:,.0f} TL")
print(f"Net Finansal KazanÃ§: {net_profit:,.0f} TL")
print(f"YatÄ±rÄ±m Getirisi (ROI): %{roi:.2f}")

## 10. SonuÃ§ ve Ã–neriler

Bu projede, veri bilimi teknikleri kullanÄ±larak uÃ§tan uca bir Ã§Ã¶zÃ¼m geliÅŸtirilmiÅŸtir. Elde edilen **%75 ROC-AUC** skoru ve **Pozitif ROI**, modelin canlÄ±ya alÄ±nabilir (deployment-ready) olduÄŸunu gÃ¶stermektedir.

**Ã–neriler:**
- Model, aylÄ±k periyotlarla yeni verilerle tekrar eÄŸitilmelidir (Retraining).
- Kampanya baÅŸarÄ±sÄ± A/B testleri ile sÃ¼rekli Ã¶lÃ§Ã¼lmeli ve optimize edilmelidir.
- MÃ¼ÅŸteri segmentlerine gÃ¶re farklÄ± teklif stratejileri (Ã¶rn. genÃ§lere teknoloji hediyesi, yaÅŸlÄ±lara faiz indirimi) geliÅŸtirilmelidir.