# 🏆 2024 İyzico Datathon Yarışma Hikayem 
# Public LB:43.08594 / Private LB: 45.37378 / 2024.02

<div style="background-color: #f0f8ff; padding: 15px; border: 2px solid #4682b4; border-radius: 10px;">
    <p style="text-align:center; color:#2e8b57;">"Bu proje benim için sadece bir veri bilimi yarışması değil, aynı zamanda kişisel bir dönüm noktası oldu."</p>
</div>

## 💡 Başlangıç/Beginning

<p>Tam bir sene önce, sosyal medyada gördüğüm bu yarışmaya, veri bilimi alanında hiçbir deneyimim olmamasına rağmen katılmaya karar verdim. Kaggle'ın sunduğu imkanları (GPU desteği, hücre tabanlı kod geliştirme vb.) bilmediğim için, her adımı kendi bilgisayarımda, Excel dosyaları ile saatlerce çalışarak öğrendim.</p>

<p>Exactly one year ago, I decided to participate in this competition after seeing it on social media, even though I had no prior experience in data science. Understanding the competition and its mechanics required significant effort. Since I was unaware of Kaggle's resources (GPU support, cell-based code development, etc.), I spent countless hours working on my own computer, manually creating separate Excel files for each step. This journey was both challenging and highly educational.</p>

<h2>✅ Not/Note</h2>

<p>Churn mantığını hızlıca kavrayarak, ilk tahminimde iyi bir sıralama elde ettim. Liderlik tablosunda, profesyonel veri bilimcilerle benzer skorlar aldığımı fark ettiğimde, bu alanda yeteneğim olduğunu düşündüm ve daha fazlasını öğrenmek için motivasyon kazandım.</p>

<p>By quickly understanding the concept of churn, I managed to achieve a good ranking on my first prediction. When I saw experienced professionals on the leaderboard with similar scores to mine, I thought: "If I can compete with experts in my very first competition, maybe I have a talent for this!" This realization fueled my motivation and encouraged me to explore how I could improve further.</p>

<h2>🏁 Sonuç/Result</h2>

<p>Bilgisayarımdaki dağınık kodları ve yüzlerce Excel dosyasını bir araya getirerek, en iyi skorumu elde ettiğim yöntemi oluşturdum. Bu projeyi, gelişimimi göstermek ve öğrenme sürecimi paylaşmak amacıyla ham haliyle sunuyorum.</p>

<p>I consolidated my scattered codes and hundreds of Excel files to refine the method that yielded my best score. I'm sharing this project in its raw form, without further modifications, to highlight my growth and learning journey.</p>

## 🔹 I hope/Temennim

<div style="background-color: #fffacd; padding: 10px; border: 1px solid #ffd700; border-radius: 5px;">
    <p style="text-align:center; color:#8b4513;">I hope this work serves as inspiration and guidance for newcomers, just like me! 🚀 🚀</p>
</div>



<div style="background-color: #f0f8ff; padding: 15px; border: 2px solid #4682b4; border-radius: 10px;">
    <p style="text-align:center; color:#2e8b57;">📌 YARIŞMADA NEYİ HEDEFLİYORUZ? / WHAT ARE WE AIMING FOR IN THE COMPETITION?</p>
</div>

<p>Train veri seti, 2020 yılının başından 2023 Eylül ayına kadar, iş yerlerinin aylık bazda gerçekleştirdiği işlem sayılarını içermektedir. Test dosyası sağlanmamıştır, katılımcılar train verisini istedikleri şekilde bölebilir ve test verisi oluşturabilir. Bu yarışmada hedefimiz, 2023'ün son çeyreği (Ekim - Kasım - Aralık) için merchant bazında işlem sayılarının (net_payment_count) tahmin edilmesi ve submit edilmesidir.</p>

<p>The training dataset contains the number of transactions processed by merchants on a monthly basis from early 2020 to September 2023. No test file has been provided, and participants are free to split the training data as they wish to create a test dataset. In this competition, our goal is to predict and submit the number of transactions (net_payment_count) for each merchant in the last quarter of 2023 (October - November - December).</p>

<h2>✅ VERİ SETİ ÖZELLİKLERİ / DATASET FEATURES</h2>

<ul>
  <li>merchant_id: Maskelenmiş iş yeri ID’si. / Masked merchant ID.</li>
  <li>month_id: İşlemin gerçekleştiği ay (YYYYMM formatında). / The month when the transaction occurred (in YYYYMM format).</li>
  <li>net_payment_count: İş yerinin ilgili ayda gerçekleştirdiği net işlem sayısı (ödeme - iptal - iade). / The net number of transactions for the merchant in that month (payments - cancellations - refunds).</li>
</ul>

<h2>📊 Sonuçlar ve Görselleştirme / Results and Visualization</h2>

<p>Veri setinde churn edilecek inaktif kullanıcılar belirlendi ve yalnızca aktif kullanıcılar için sonraki 3 ayın tahmini yapıldı. Notebook sonunda, en yüksek işlem hacmine sahip ve en fazla veriye sahip kullanıcılar için geçmiş değerler ile tahmin değerleri görselleştirildi.</p>

<p>Inactive users who will churn were identified in the dataset, and predictions for the next 3 months were made only for active users. At the end of the notebook, historical and predicted values were visualized for users with the highest transaction volume and the most data.</p>

## 🔹 Mesajım / My Message

<div style="background-color: #fffacd; padding: 10px; border: 1px solid #ffd700; border-radius: 5px;">
    <p style="text-align:center; color:#8b4513;">Believe in yourself, and remember that every expert was once a beginner! 🚀 🚀</p>
</div>

Last submission 2024-02

In [None]:
#Uyarı mesajlarını görmemek ve daha temiz çıktılar almak için

import warnings
warnings.filterwarnings("ignore")

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Eğitim verisini dataframe'e aktar.
df = pd.read_csv('/kaggle/input/iyzico-datathon/train.csv')

# month_id sütununu 'datetime' formatına dönüştür.
df['month_id'] = pd.to_datetime(df['month_id'], format='%Y%m')


first_unique_merchant_count = df['merchant_id'].nunique()
print(f'Unique Merchant Count: {first_unique_merchant_count}')

# Tarih aralığı görselleştirme
plt.figure(figsize=(12,6))
df['month_id'].hist(bins=50)
plt.title("Veri Dağılımı - Tüm Zamanlar")
plt.xlabel("Tarih")
plt.ylabel("Veri Sayısı")
plt.show()

In [None]:
# İlk görselleştirme: Merchant dağılımı
plt.figure(figsize=(10,6))
df['merchant_id'].value_counts().hist(bins=50)
plt.title("Merchant Başına Veri Sayısı Dağılımı (Ham Veri)")
plt.xlabel("Kayıt Sayısı")
plt.ylabel("Merchant Sayısı")
plt.show()

In [None]:
#Sonraki 3 ay için işlem sayısı tahmini yaptığımız için veri setimizin son iki ayında işlem görmemiş 'merchant_id'leri 'churn' ediyoruz.
# 2023 Ağustos veya Eylül ayında verisi olmayan tüm 'merchant_id' lerin bütün satırlarını siliyoruz.
#Churn ettiğimiz id'ler için tahmin yapılmayacak ve submission oluştururken tüm değerler '0' olmak üzere sadece tahmini yapılan 'merhacnt_id'lerin satırlarını dolduracağız.
df = df.groupby('merchant_id').filter(lambda x: pd.Timestamp('2023-08-01') in x['month_id'].values or pd.Timestamp('2023-09-01') in x['month_id'].values)

print("\n3. CHURN ANALİZİ")
initial_count = df['merchant_id'].nunique()
print(f'Başlangıçtaki Unique Merchant: {initial_count}')

# Churn öncesi son 2 ay aktivitesi
last_two_months = df[df['month_id'].isin(['2023-08-01', '2023-09-01'])]
active_merchants = last_two_months['merchant_id'].unique()

plt.figure(figsize=(8,4))
sns.countplot(x=last_two_months['month_id'].dt.month)
plt.title("Ağustos-Eylül 2023 Aktivite Sayıları")
plt.xlabel("Ay")
plt.ylabel("Aktif Merchant Sayısı")
plt.show()

In [None]:
original_columns = df.columns.tolist()

# Diğer özellikler ile birleşik analiz yapabilecek bir bilgim yok bu yüzden 'net_paymet_count' harici tüm özellikleri siliyoruz.
df = df.drop(columns=['settlement_period', 'working_type', 'mcc_id', 'merchant_segment', 'merchant_source_name'])

In [None]:
# merchant_id gruplarını tarihe göre küçükten büyüğe sırala.
df = df.groupby('merchant_id', group_keys=False).apply(lambda x: x.sort_values('month_id', ascending=True))

# Sıralama kontrolü için örnek bir merchant
sample_merchant = df['merchant_id'].iloc[0]
df[df['merchant_id'] == sample_merchant].plot(
    x='month_id', 
    y='net_payment_count', 
    kind='line',
    title=f"Örnek Merchant ({sample_merchant}) Zaman Serisi"
)
plt.show()

In [None]:
# Eksik değer doldurma: 'net_payment_count' sütununda boş olan tüm hücrelere 0 değeri ver.
df['net_payment_count'] = df['net_payment_count'].fillna(0)


print("\n7. TARİH FİLTRESİ")
print(f"Filtre öncesi en eski tarih: {df['month_id'].min()}")
df = df[df['month_id'] > pd.Timestamp('2022-09-01')]

plt.figure(figsize=(10,5))
df['month_id'].hist(bins=30)
plt.title("Filtrelenmiş Veri Dağılımı")
plt.xlabel("Tarih")
plt.ylabel("Kayıt Sayısı")
plt.show()

In [None]:
final_count = df['merchant_id'].nunique()
print(f"\nSONUÇLAR:")
print(f"Kalan unique merchant: {final_count}")

# Final veri yapısı
plt.figure(figsize=(8,6))
df.groupby('merchant_id').size().hist(bins=50)
plt.title("Nihai Veri Seti - Merchant Başına Kayıt Sayısı")
plt.xlabel("Veri Sayısı")
plt.ylabel("Merchant Sayısı")
plt.show()

In [None]:
import time
import pandas as pd
from xgboost import XGBRegressor
import numpy as np

#Tahminleri kaydedeceğimiz bir veri seti oluşturma ve 'result' değişkenine aktarma.
result = pd.DataFrame(columns=['merchant_id', '202310', '202311', '202312'])

#Modelin ilerlemesini çıktı almak görüntülemek için işlenen 'merchant_id' sayacı.
counter = 0

# Her bir merchant_id için sayaç artsın ve 87*5 nin katlarında yüzde 1 artış olarak çıktı versin. 
for merchant_id in df['merchant_id'].unique():
    counter += 1
    if counter % 435 == 0:
      print(f"İlerleme: %{100 * counter / final_count}")

    # Her merchant_id'ye ait toplam veri sayısına göre dinamik olarak 'window_size' ve 'xgb parametrelerini farklı ayarlamak için 'satir_sayisi' değişkeni oluştur
    satir_sayisi = len(df[df['merchant_id'] == merchant_id])
    #'satir_sayisi' yani veri sayısı büyüklüğüne göre farklı parametreler ile eğitim gerçekleştir
    if satir_sayisi > 9:
        window_size = 10
        model = XGBRegressor(objective='reg:squarederror', n_estimators=200, learning_rate=0.010, max_depth=6,gamma=0.3, reg_lambda=1.5)
    elif satir_sayisi > 6:
        window_size = 7
        model = XGBRegressor(objective='reg:squarederror', n_estimators=150, learning_rate=0.015, max_depth=3, gamma=0.2, reg_lambda=1.2)
    elif satir_sayisi > 3:
        window_size = 4
        model = XGBRegressor(objective='reg:squarederror', n_estimators=120, learning_rate=0.02, max_depth=1, gamma=0.1, reg_lambda=1.0)
    else:
        # 3 veya daha az satır için var olan son değeri sonuç gir
        next_value = df[df['merchant_id'] == merchant_id]['net_payment_count'].mean()
        new_row = pd.DataFrame({'merchant_id': [f"{merchant_id}"],
                                '202310': [next_value],
                                '202311': [next_value],
                                '202312': [next_value]})
        result = pd.concat([result, new_row], ignore_index=True)
        continue  # Diğer kodları atla ve bir sonraki merchant_id'ye geç

    for i in range(window_size, satir_sayisi+1):
        X_train_xgboost = np.array([[j] for j in range(i-window_size+1, i+1)])
        y_train_xgboost = df[df['merchant_id'] == merchant_id]['net_payment_count'].tolist()[i-window_size:i]

        # Modeli eğit
        model.fit(X_train_xgboost, y_train_xgboost)

    # Sonraki üç değeri tahmin ettiğimiz değerin üzerine tahmin ederek ilerletme
    next_values = []
    for i in range(satir_sayisi + 1, satir_sayisi + 4):
      # Modeli yeniden eğit
      model.fit(X_train_xgboost, y_train_xgboost)
      next_value = model.predict(np.array([[i]]))[0]
      next_values.append(next_value)
      # Eğitim setine tahmin edilen değeri ekle
      y_train_xgboost.append(next_value)
      X_train_xgboost = np.append(X_train_xgboost, [[i+1]], axis=0)


    # Sonucu kaydet
    new_row = pd.DataFrame({'merchant_id': [f"{merchant_id}"],
                            '202310': [next_values[0]],
                            '202311': [next_values[1]],
                            '202312': [next_values[2]]})
    result = pd.concat([result, new_row], ignore_index=True)

#Veri setinin ilk satırlarını yazdır
result.head()


In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.plot(df[df['merchant_id'] == merchant_id]['month_id'], 
         df[df['merchant_id'] == merchant_id]['net_payment_count'], 
         marker='o', label='Gerçek Değerler')
plt.title(f"Merchant ID: {merchant_id} - Zaman Serisi")
plt.xlabel("Tarih")
plt.ylabel("Net Payment Count")
plt.xticks(rotation=45)
plt.legend()
plt.grid(True)
plt.show()

In [None]:
import matplotlib.pyplot as plt

# Durumlar için sayaçlar ve toplamlar
durumlar = {
    "Büyük Veri Seti (>9 satır)": {"count": 0, "toplam_net_payment": 0},
    "Orta Büyüklükte Veri Seti (7-9 satır)": {"count": 0, "toplam_net_payment": 0},
    "Küçük Veri Seti (4-6 satır)": {"count": 0, "toplam_net_payment": 0},
    "Çok Küçük Veri Seti (<=3 satır)": {"count": 0, "toplam_net_payment": 0}
}

# Her bir merchant_id için durumları hesapla
for merchant_id in df['merchant_id'].unique():
    satir_sayisi = len(df[df['merchant_id'] == merchant_id])
    net_payment_toplam = df[df['merchant_id'] == merchant_id]['net_payment_count'].sum()
    
    if satir_sayisi > 9:
        durumlar["Büyük Veri Seti (>9 satır)"]["count"] += 1
        durumlar["Büyük Veri Seti (>9 satır)"]["toplam_net_payment"] += net_payment_toplam
    elif satir_sayisi > 6:
        durumlar["Orta Büyüklükte Veri Seti (7-9 satır)"]["count"] += 1
        durumlar["Orta Büyüklükte Veri Seti (7-9 satır)"]["toplam_net_payment"] += net_payment_toplam
    elif satir_sayisi > 3:
        durumlar["Küçük Veri Seti (4-6 satır)"]["count"] += 1
        durumlar["Küçük Veri Seti (4-6 satır)"]["toplam_net_payment"] += net_payment_toplam
    else:
        durumlar["Çok Küçük Veri Seti (<=3 satır)"]["count"] += 1
        durumlar["Çok Küçük Veri Seti (<=3 satır)"]["toplam_net_payment"] += net_payment_toplam

# Ortalama net_payment_count hesapla
for durum in durumlar:
    if durumlar[durum]["count"] > 0:
        durumlar[durum]["ortalama_net_payment"] = durumlar[durum]["toplam_net_payment"] / durumlar[durum]["count"]
    else:
        durumlar[durum]["ortalama_net_payment"] = 0

# Görselleştirme
fig, ax = plt.subplots(1, 2, figsize=(18, 6))

# 1. Grafik: Durumlara göre merchant_id sayısı
ax[0].bar(durumlar.keys(), [durumlar[durum]["count"] for durum in durumlar], color='skyblue')
ax[0].set_title("Durumlara Göre Merchant ID Sayısı")
ax[0].set_xlabel("Durum")
ax[0].set_ylabel("Merchant ID Sayısı")
ax[0].tick_params(axis='x', rotation=45)

# 2. Grafik: Durumlara göre ortalama net_payment_count
ax[1].bar(durumlar.keys(), [durumlar[durum]["ortalama_net_payment"] for durum in durumlar], color='lightgreen')
ax[1].set_title("Durumlara Göre Ortalama Net Payment Count")
ax[1].set_xlabel("Durum")
ax[1].set_ylabel("Ortalama Net Payment Count")
ax[1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

# Durumları yazdır
for durum in durumlar:
    print(f"{durum}:")
    print(f"  Merchant ID Sayısı: {durumlar[durum]['count']}")
    print(f"  Ortalama Net Payment Count: {durumlar[durum]['ortalama_net_payment']:.2f}")
    print()

**EN BÜYÜK TOPLAM DEĞERE SAHİP VE EN FAZLA VERİYE SAHİP MERCHANT_ID'LERİN GÖRSELLEŞTİRİLMESİ**

In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np

# Her bir merchant_id için toplam net_payment_count hesapla
toplam_net_payment = df.groupby('merchant_id')['net_payment_count'].sum()

# Toplam net_payment_count'a göre en büyük 5 merchant_id'yi seç
top_merchants = toplam_net_payment.nlargest(5).index.tolist()

# Her bir 'mechant_id' için görselleştirme
for merchant_id in top_merchants:
    # ID'ye ait verileri filtrele
    merchant_data = df[df['merchant_id'] == merchant_id]
    
    # Result veri setinden tahminleri bul
    next_values = result[result['merchant_id'] == str(merchant_id)].iloc[:, 1:].values.flatten().tolist()
    
    # Regresyon çizgisi için hazırlık
    X = np.arange(len(merchant_data)).reshape(-1, 1)  # Zaman indeksi
    y = merchant_data['net_payment_count'].values    # Gerçek değerler
    
    # Lineer regresyon modeli
    regressor = LinearRegression()
    regressor.fit(X, y)
    regression_line = regressor.predict(X)
    
    # Çizim alanı oluşturma
    plt.figure(figsize=(10, 6))
    
    # Gerçek değerler
    plt.plot(merchant_data['month_id'], 
             merchant_data['net_payment_count'], 
             marker='o', label='Gerçek Değerler')
    
    # Regresyon çizgisi
    plt.plot(merchant_data['month_id'], 
             regression_line, 
             color='green', linestyle='--', label='Regresyon Çizgisi')
    
    # Tahmin edilen tarihler
    future_dates = pd.date_range(start=merchant_data['month_id'].max(), periods=3, freq='M')
    
    # Tahminleri çiz
    plt.plot(future_dates, next_values, marker='o', color='red', label='Tahminler')
    
    # Grafik ayarları
    plt.title(f"{merchant_id} için - Gerçek, Regresyon ve Tahmin Değerleri")
    plt.xlabel("Tarih")
    plt.ylabel("Net Payment Count")
    plt.xticks(rotation=45)
    plt.legend()
    plt.grid(True)
    plt.show()

In [None]:
# sample_submission.csv dosyasının iyzico datathon veri setinden yüklenmesi
sample_submission = pd.read_csv('/kaggle/input/iyzico-datathon/sample_submission.csv')

# Tahminlerimizi yani 'result' DataFrame'indeki her bir merchant_id 'nin işleme alınması'
for index, row in result.iterrows():
    merchant_id = row['merchant_id']
    
    # 202310, 202311, 202312 için id ve net_payment_count değerlerini oluşturma
    for month in ['202310', '202311', '202312']:
        # Yarışmanın submission.csv formatı için id sütunundaki değeri ay ve id olarak birleştir (örneğin: 202310merchant_id)
        new_id = f"{month}{merchant_id}"
        
        # net_payment_count değerini al
        net_payment_count = row[month]
        
        # sample_submission.csv'de ilgili id'yi bul ve net_payment_count'u güncelle
        sample_submission.loc[sample_submission['id'] == new_id, 'net_payment_count'] = net_payment_count

# Yeni submission.csv dosyasını kaydet
sample_submission.to_csv('submission.csv', index=False)