# 🎓 ML Öğrencisi İçin Veri Yönetimi ve Versiyonlama Rehberi

Bu notebook, ML projelerine başlayan öğrenciler için **veri yönetimi** ve **versiyonlama** konularında kapsamlı bir rehberdir.

## 📚 Bu Notebook'ta Öğrenecekleriniz:
- Doğru proje yapısı nasıl oluşturulur
- Git ve DVC'yi birlikte nasıl kullanırız
- Veri versiyonlama stratejileri
- ML pipeline oluşturma
- Günlük çalışma rutinleri

---
## 📁 1. Doğru Proje Yapısı

ML projesi başlatırken **ilk** yapmanız gereken doğru klasör yapısını oluşturmaktır.

### 🗂️ Önerilen Klasör Yapısı:

```
my_ml_project/
├── .git/                    # Git repository (otomatik oluşur)
├── .dvc/                    # DVC konfigürasyon (otomatik oluşur)
├── .gitignore               # Git ignore dosyası
├── .dvcignore               # DVC ignore dosyası
├── README.md                # Proje açıklaması
├── requirements.txt         # Python bağımlılıkları
├── dvc.yaml                # DVC pipeline tanımı
├── dvc.lock                # DVC pipeline durumu (otomatik)
├── data/
│   ├── raw/                # Ham veri (DVC ile takip)
│   ├── processed/          # İşlenmiş veri (DVC ile takip)
│   └── external/           # Dış kaynak veriler
├── models/                 # Eğitilmiş modeller (DVC ile takip)
├── notebooks/              # Jupyter notebook'lar (deneyim için)
├── src/                    # Kaynak kod
│   ├── data/              # Veri işleme script'leri
│   ├── features/          # Feature engineering
│   ├── models/            # Model eğitimi
│   └── visualization/     # Görselleştirme
└── results/               # Sonuçlar, metrikler, grafikler
```

### 💡 Neden Bu Yapı?

**Veri Katmanları:**
- `data/raw/` → Ham veri, hiç değiştirilmez
- `data/processed/` → Temizlenmiş, işlenmiş veri
- `data/external/` → API'lardan gelen, sürekli güncellenen veri

**Kod Organizasyonu:**
- `src/data/` → Veri indirme, temizleme script'leri
- `src/features/` → Feature engineering kod'ları
- `src/models/` → Model eğitimi, değerlendirme

**Çıktılar:**
- `models/` → Eğitilmiş modeller (.pkl, .joblib dosyaları)
- `results/` → Metrikler, grafikler, raporlar

---
## 🚀 2. Proje Kurulumu (Adım Adım)

Yeni bir ML projesi başlatırken yapmanız gerekenler:

In [None]:
# Terminal'de çalıştırın (bu cell'i çalıştırmayın, sadece örnek)

"""
# 1. Proje klasörü oluşturun
mkdir my_ml_project
cd my_ml_project

# 2. Git repository başlatın
git init

# 3. DVC başlatın
dvc init

# 4. İlk commit yapın
git add .dvc .dvcignore
git commit -m "Proje kurulumu - Git ve DVC başlatıldı"

# 5. Klasör yapısını oluşturun
mkdir -p data/{raw,processed,external}
mkdir -p models
mkdir -p src/{data,features,models,visualization}
mkdir -p notebooks results
"""

### 📝 Temel Dosyaları Oluşturun:

In [None]:
# .gitignore dosyası oluşturma örneği
gitignore_content = """
# Python
__pycache__/
*.py[cod]
*.so
.Python
venv/
env/

# IDE
.vscode/
.idea/
*.swp

# OS
.DS_Store
Thumbs.db

# Jupyter
.ipynb_checkpoints

# DVC - büyük dosyalar DVC ile takip edilir
/data/raw/
/data/processed/
/models/
"""

# Dosyaya yazma (örnek)
with open('.gitignore', 'w') as f:
    f.write(gitignore_content)
    
print("✅ .gitignore dosyası oluşturuldu")

In [None]:
# requirements.txt dosyası oluşturma
requirements = """
pandas>=1.3.0
numpy>=1.21.0
scikit-learn>=1.0.0
matplotlib>=3.4.0
seaborn>=0.11.0
jupyter>=1.0.0
ipykernel>=6.0.0
"""

with open('requirements.txt', 'w') as f:
    f.write(requirements.strip())
    
print("✅ requirements.txt dosyası oluşturuldu")

---
## 📊 3. Veri Yönetimi Stratejisi

ML projelerinde veri yönetimi **en kritik** konudur. Doğru strateji olmadan proje kaosa dönüşür.

### 🔄 Veri Akış Döngüsü:

```
Ham Veri → Temizleme → Feature Engineering → Model Eğitimi → Sonuçlar
   ↓           ↓              ↓                ↓            ↓
DVC Takip  DVC Pipeline   DVC Pipeline    DVC Pipeline  Git Takip
```

### 📥 Ham Veri Yönetimi

**İlke: Ham veri hiçbir zaman değişmez!**

In [None]:
# Örnek: Ham veri indirme ve DVC ile takip etme

import pandas as pd
import os

def download_raw_data():
    """
    Ham veriyi indir ve kaydet
    Bu fonksiyon sadece bir kez çalıştırılır
    """
    # Örnek: API'dan veri çekme
    # df = pd.read_csv('https://example.com/dataset.csv')
    
    # Örnek: Yerel dosyadan okuma
    # df = pd.read_csv('/path/to/local/file.csv')
    
    # Ham veri klasörünü oluştur
    os.makedirs('data/raw', exist_ok=True)
    
    # Veriyi kaydet
    # df.to_csv('data/raw/dataset.csv', index=False)
    
    print("✅ Ham veri data/raw/dataset.csv dosyasına kaydedildi")
    print("🔄 Şimdi bu dosyayı DVC ile takip edin:")
    print("   dvc add data/raw/dataset.csv")
    print("   git add data/raw/dataset.csv.dvc .gitignore")
    print("   git commit -m 'Ham veri eklendi'")

# download_raw_data()  # İhtiyaç olduğunda çalıştırın

### 🧹 Veri Temizleme Script'i

**İlke: Her işlem script'te, tekrarlanabilir olmalı**

In [None]:
# src/data/preprocess.py dosyası örneği

def create_preprocess_script():
    """
    Veri temizleme script'ini oluştur
    """
    os.makedirs('src/data', exist_ok=True)
    
    script_content = '''
"""
Veri Temizleme Script'i
Ham veriyi temizleyip processed klasörüne kaydeder
"""
import pandas as pd
import os

def main():
    print("=== VERİ TEMİZLEME BAŞLIYOR ===")
    
    # Ham veriyi yükle
    df = pd.read_csv('data/raw/dataset.csv')
    print(f"Ham veri yüklendi: {df.shape}")
    
    # Temizleme işlemleri
    df_clean = df.copy()
    
    # 1. Eksik değerleri temizle
    df_clean = df_clean.dropna()
    
    # 2. Duplikatları çıkar
    df_clean = df_clean.drop_duplicates()
    
    # 3. Veri tiplerini düzelt
    # df_clean['date'] = pd.to_datetime(df_clean['date'])
    
    # Temizlenmiş veriyi kaydet
    os.makedirs('data/processed', exist_ok=True)
    df_clean.to_csv('data/processed/clean_data.csv', index=False)
    
    print(f"✅ Temizlenmiş veri: {df_clean.shape}")
    print("✅ Dosya kaydedildi: data/processed/clean_data.csv")

if __name__ == "__main__":
    main()
'''
    
    with open('src/data/preprocess.py', 'w') as f:
        f.write(script_content)
    
    print("✅ src/data/preprocess.py oluşturuldu")

# create_preprocess_script()  # İhtiyaç olduğunda çalıştırın

---
## 🔧 4. DVC Pipeline Oluşturma

Pipeline, ML sürecinizi otomatikleştirir ve tekrarlanabilir hale getirir.

### 📝 dvc.yaml Dosyası Örneği:

In [None]:
# dvc.yaml dosyası oluşturma

def create_dvc_pipeline():
    """
    Temel DVC pipeline oluştur
    """
    pipeline_content = '''
stages:
  preprocess:
    cmd: python src/data/preprocess.py
    deps:
      - src/data/preprocess.py
      - data/raw/dataset.csv
    outs:
      - data/processed/clean_data.csv
      
  feature_engineering:
    cmd: python src/features/build_features.py
    deps:
      - src/features/build_features.py
      - data/processed/clean_data.csv
    outs:
      - data/processed/features.csv
      
  train:
    cmd: python src/models/train.py
    deps:
      - src/models/train.py
      - data/processed/features.csv
    outs:
      - models/model.pkl
    metrics:
      - results/metrics.json
      
  evaluate:
    cmd: python src/models/evaluate.py
    deps:
      - src/models/evaluate.py
      - models/model.pkl
      - data/processed/features.csv
    outs:
      - results/evaluation_report.html
      - results/confusion_matrix.png
'''
    
    with open('dvc.yaml', 'w') as f:
        f.write(pipeline_content.strip())
    
    print("✅ dvc.yaml pipeline dosyası oluşturuldu")
    print("🔄 Pipeline'ı çalıştırmak için: dvc repro")

# create_dvc_pipeline()  # İhtiyaç olduğunda çalıştırın

### 📊 Pipeline'ın Avantajları:

1. **Bağımlılık Takibi**: Hangi dosya değişirse hangi adım tekrar çalışır
2. **Önbellekleme**: Değişmeyen adımlar tekrar çalışmaz
3. **Görselleştirme**: `dvc dag` ile pipeline'ı görün
4. **Metrik Takibi**: Model performansını otomatik kaydet

---
## 🔄 5. Geliştirme Workflow'u

Günlük çalışmanızda izlemeniz gereken adımlar:

### 📅 Günlük Rutin:

```bash
# 1. Sabah - güncel durumu çek
git pull
dvc pull

# 2. Geliştirme yap
# ... kod değişiklikleri ...

# 3. Pipeline'ı test et
dvc repro

# 4. Sonuçları kontrol et
dvc metrics show
dvc plots show

# 5. İyi sonuç varsa kaydet
git add .
git commit -m "Açıklayıcı commit mesajı"
git push

# 6. Büyük dosyaları paylaş
dvc push
```

### 🧪 Deneyim Yapma:

Her yeni fikir için ayrı branch kullanın:

In [None]:
# Terminal'de çalıştırın:

"""
# Yeni deneyim branch'i oluştur
git checkout -b experiment/feature-scaling

# Kod değişiklikleri yap
# ... src/features/build_features.py dosyasını düzenle ...

# Pipeline'ı çalıştır
dvc repro

# Sonuçları önceki versiyonla karşılaştır
dvc metrics diff main

# İyi sonuç varsa main'e merge et
git checkout main
git merge experiment/feature-scaling

# Branch'i temizle
git branch -d experiment/feature-scaling
"""

---
## 📈 6. Model Versiyonlama

Model versiyonlama ML projelerinin en kritik kısmıdır.

### 🏷️ Model Tagging Stratejisi:

In [None]:
# Model eğitim ve versiyonlama örneği

def create_model_training_script():
    """
    Model eğitimi script'i oluştur
    """
    os.makedirs('src/models', exist_ok=True)
    
    script_content = '''
"""
Model Eğitimi Script'i
"""
import pandas as pd
import joblib
import json
import os
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

def main():
    print("=== MODEL EĞİTİMİ BAŞLIYOR ===")
    
    # Veriyi yükle
    df = pd.read_csv('data/processed/features.csv')
    
    # X ve y'yi ayır
    X = df.drop('target', axis=1)
    y = df['target']
    
    # Train-test split
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=42
    )
    
    # Model eğit
    model = RandomForestClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)
    
    # Tahmin yap
    y_pred = model.predict(X_test)
    
    # Performans hesapla
    accuracy = accuracy_score(y_test, y_pred)
    
    # Modeli kaydet
    os.makedirs('models', exist_ok=True)
    joblib.dump(model, 'models/model.pkl')
    
    # Metrikleri kaydet
    os.makedirs('results', exist_ok=True)
    metrics = {
        'accuracy': accuracy,
        'n_features': len(X.columns),
        'n_samples': len(X)
    }
    
    with open('results/metrics.json', 'w') as f:
        json.dump(metrics, f, indent=2)
    
    print(f"✅ Model eğitildi - Accuracy: {accuracy:.4f}")
    print("✅ Model kaydedildi: models/model.pkl")
    print("✅ Metrikler kaydedildi: results/metrics.json")

if __name__ == "__main__":
    main()
'''
    
    with open('src/models/train.py', 'w') as f:
        f.write(script_content)
    
    print("✅ src/models/train.py oluşturuldu")

# create_model_training_script()  # İhtiyaç olduğunda çalıştırın

### 🏆 Model Versiyonlama Workflow'u:

In [None]:
# Terminal'de model versiyonlama:

"""
# 1. Model eğit
dvc repro train

# 2. Performansı kontrol et
dvc metrics show
# Output: accuracy: 0.9245

# 3. İyi performans varsa modeli DVC ile takip et
dvc add models/model.pkl

# 4. Commit yap
git add models/model.pkl.dvc results/metrics.json dvc.lock
git commit -m "Model v1.0 - Accuracy: 92.45%

Features:
- Feature scaling eklendi
- RandomForest n_estimators=100
- Cross-validation ile optimize edildi

Performance:
- Accuracy: 92.45%
- F1-Score: 91.8%
- Training time: 2.3 min"

# 5. Version tag ekle
git tag -a v1.0 -m "Model version 1.0 - 92.45% accuracy"

# 6. Remote'a gönder
git push origin main --tags
dvc push
"""

---
## 🔍 7. Metrik Takibi ve Karşılaştırma

Model performansını sistematik olarak takip edin.

In [None]:
# DVC Metrics kullanımı

def create_metrics_example():
    """
    Metrik takibi örneği
    """
    # Örnek metrik dosyası
    metrics_example = {
        "accuracy": 0.9245,
        "precision": 0.9180,
        "recall": 0.9156,
        "f1_score": 0.9168,
        "training_time": 138.5,
        "model_size_mb": 45.2,
        "feature_count": 28
    }
    
    os.makedirs('results', exist_ok=True)
    with open('results/metrics.json', 'w') as f:
        json.dump(metrics_example, f, indent=2)
    
    print("✅ Örnek metrik dosyası oluşturuldu")
    print("📊 Metrikleri görüntülemek için:")
    print("   dvc metrics show")
    print("   dvc metrics diff")

# create_metrics_example()

### 📊 Metrik Karşılaştırma Komutları:

```bash
# Mevcut metrikleri göster
dvc metrics show

# İki commit arası farkı görür
dvc metrics diff HEAD~1

# Belirli branch'le karşılaştır
dvc metrics diff main experiment/new-features

# Grafik olarak göster
dvc plots show results/training_history.json
```

---
## 🌐 8. Remote Storage ve Takım Çalışması

Büyük dosyaları takımla paylaşmak için remote storage kullanın.

### ☁️ Remote Storage Kurulumu:

```bash
# S3 bucket ekle
dvc remote add -d myremote s3://my-bucket/dvc-store

# Google Drive ekle
dvc remote add -d myremote gdrive://folder-id

# Local network folder ekle
dvc remote add -d myremote /shared/dvc-storage

# SSH server ekle
dvc remote add -d myremote ssh://user@server/path/to/dvc

# Remote'u kaydet
git add .dvc/config
git commit -m "Remote storage eklendi"
```

### 👥 Takım Çalışması Workflow'u:

```bash
# Yeni takım üyesi projeyi klonlar
git clone https://github.com/team/ml-project.git
cd ml-project

# Büyük dosyaları indirir
dvc pull

# Geliştirme yapar
# ... kod değişiklikleri ...

# Değişiklikleri paylaşır
git add .
git commit -m "Yeni feature eklendi"
git push

# Büyük dosyaları paylaşır
dvc push
```

---
## ⚡ 9. İleri Seviye Teknikler

Daha karmaşık ML projeleri için ileri seviye teknikler:

### 🔀 Paralel Deneyimler:

```bash
# Farklı hiperparametrelerle paralel deneyim
dvc exp run -S train.learning_rate=0.01
dvc exp run -S train.learning_rate=0.001
dvc exp run -S train.learning_rate=0.0001

# Deneyimleri karşılaştır
dvc exp show

# En iyi deneyimi seç
dvc exp apply exp-abc123
```

### 📋 Parametre Yönetimi:

```yaml
# params.yaml dosyası
train:
  learning_rate: 0.01
  batch_size: 32
  epochs: 100
  
model:
  type: "RandomForest"
  n_estimators: 100
  max_depth: 10
  
data:
  train_size: 0.8
  validation_size: 0.1
  test_size: 0.1
```

---
## 🎯 10. En İyi Uygulamalar (Best Practices)

Başarılı ML projeleri için altın kurallar:

### ✅ Yapılması Gerekenler:

1. **Ham veriyi hiç değiştirme** - Sadece kopyalayıp işle
2. **Her adımı script'e çevir** - Notebook'tan script'e geç
3. **Küçük, anlamlı commit'ler yap** - Her değişiklik ayrı commit
4. **Deneyimleri branch'lerde yap** - main branch'i temiz tut
5. **Metrikleri sistematik takip et** - Her model için performans kaydet
6. **Dokümantasyon yaz** - README.md'yi güncel tut
7. **Pipeline kullan** - Manuel işlemlerden kaçın
8. **Remote storage kurulum yap** - Büyük dosyaları güvenle paylaş

### ❌ Yapılmaması Gerekenler:

1. **Büyük dosyaları Git'e ekleme** - DVC kullan
2. **Ham veriyi değiştirme** - Her zaman kopyala
3. **Manuel veri işleme** - Script'lere çevir
4. **Belirsiz commit mesajları** - "fix" yazmak yeterli değil
5. **Deneyimleri main'de yapma** - Branch kullan
6. **Sadece final modeli kaydetme** - Ara adımları da takip et
7. **Dokümantasyonu erteleme** - Hemen yaz, sonra unut
8. **Binary dosyaları commit'leme** - .gitignore'a ekle

---
## 🚀 11. Hızlı Başlangıç Checklist

Yeni ML projesi başlatırken bu listeyi takip edin:

### 📋 Proje Kurulum Checklist:

- [ ] Proje klasörü oluştur
- [ ] `git init` çalıştır
- [ ] `dvc init` çalıştır
- [ ] Klasör yapısını oluştur (data/, src/, models/, results/)
- [ ] .gitignore dosyası oluştur
- [ ] requirements.txt oluştur
- [ ] README.md yaz
- [ ] İlk commit yap
- [ ] Remote repository oluştur (GitHub/GitLab)
- [ ] Remote storage kur (S3/Google Drive)

### 📊 Veri Yönetimi Checklist:

- [ ] Ham veriyi data/raw/ klasörüne koy
- [ ] Ham veriyi DVC ile takip et
- [ ] Veri temizleme script'i yaz
- [ ] Feature engineering script'i yaz
- [ ] DVC pipeline oluştur (dvc.yaml)
- [ ] Pipeline'ı test et (dvc repro)
- [ ] Veri versiyonlarını commit et

### 🤖 Model Geliştirme Checklist:

- [ ] Model eğitim script'i yaz
- [ ] Model değerlendirme script'i yaz
- [ ] Metrik takibi ekle (results/metrics.json)
- [ ] Model'i DVC ile takip et
- [ ] Baseline model oluştur
- [ ] Model versiyonları için tag kullan
- [ ] Her model için performans dokümante et

---
## 🎓 12. Özet ve Sonraki Adımlar

Bu notebook'ta ML projelerinde veri yönetimi ve versiyonlamanın temellerini öğrendiniz.

### 🎯 Öğrendikleriniz:

✅ **Proje Yapısı**: Doğru klasör organizasyonu  
✅ **Git Kullanımı**: Kod versiyonlama  
✅ **DVC Kullanımı**: Veri ve model versiyonlama  
✅ **Pipeline Oluşturma**: Otomatik ML workflow'u  
✅ **Metrik Takibi**: Performans karşılaştırması  
✅ **Takım Çalışması**: Remote storage ve collaboration  
✅ **Best Practices**: Profesyonel geliştirme alışkanlıkları  

### 🚀 Sonraki Adımlarınız:

1. **Kendi projenizde uygulayın**: Bu yapıyı mevcut bir ML projesinde test edin
2. **Remote storage kurun**: S3 veya Google Drive ile büyük dosya paylaşımını deneyin
3. **CI/CD öğrenin**: GitHub Actions ile otomatik test ve deployment
4. **MLOps araçlarını keşfedin**: MLflow, Weights & Biases, Kubeflow
5. **Takım projesi yapın**: Arkadaşlarınızla birlikte bir ML projesi geliştirin

### 📚 Ek Kaynaklar:

- [DVC Resmi Dokümantasyonu](https://dvc.org/doc)
- [Git Resmi Dokümantasyonu](https://git-scm.com/doc)
- [MLOps Best Practices](https://ml-ops.org/)
- [Machine Learning Engineering Kitabı](http://www.mlebook.com/)
- [Practical MLOps](https://www.oreilly.com/library/view/practical-mlops/9781098103002/)

---

## 💡 Son Tavsiye

**"Perfect is the enemy of good"** - Mükemmel sistemi kurmaya çalışmaktan ziyade, basit bir sistemle başlayıp adım adım geliştirin. En önemlisi, bu yapıyı **sürekli kullanmak** ve alışkanlık haline getirmektir.

**Başarılar! 🚀**