# 1. VERİ ÖN HAZIRLIK (DATA PIPELINE)

### 1.1 Veri İncelemesi ve Temizleme

Amaç:

+ train.csv ve görsellerin doğru eşleşip eşleşmediğini kontrol etmek
+ Eksik veya hatalı verileri temizlemek

Kullanılan Teknolojiler: Python: pandas, os, tqdm, PIL

Yapılacaklar:

+ CSV içeriği encoding='utf-8-sig' veya ISO-8859-1 ile açılır
+ Caption sütununda null/boş olup olmadığı kontrol edilir
+ Caption içeriği str.strip() ve str.lower() ile normalize edilir
+ Her görsel dosyası için os.path.exists() ve Image.open() kullanılarak validasyon yapılır
+ Dosya isimleri train.csv ve görseller arasında %100 eşleşiyor mu kontrol edilir

Proaktif Önlemler:

+ Bozuk görseller için try/except ile hata loglaması yapılır
+ CSV’de duplicate image_id veya caption varsa raporlanır

İyileştirme Önerisi:

+ caption kolonunda tekrar edenler varsa Counter() ile tespit edilip azaltılabilir
+ drop_duplicates() sadece gerekliyse uygulanmalı (aşırı silme veri kaybı yaratabilir)

### 1.2 Caption Temizleme ve Normalize Etme

Amaç:
+ Caption'ları dil modeli için öğrenilebilir formata sokmak

Kullanılan Teknolojiler: re, nltk, string, emoji

Yapılacaklar:

+ Noktalama işaretleri string.punctuation ile temizlenir
+ emoji veya unicode garbage karakterler regex ile kaldırılır
+ <start> ve <end> token’ları her caption'a manuel eklenir
+ Stopword’ler ve gereksiz boşluklar temizlenir
+ nltk.word_tokenize() ile token bazlı işlemeye hazır hale getirilir

Proaktif Önlemler:

+ Çok kısa caption’lar (len < 3 kelime) loglanır
+ Her caption için len(caption.split()) istatistiği alınır

İyileştirme:

+ lemmatization NLP teknikleriyle caption sadeleştirilebilir (spaCy önerilir)
+ Fazla temizleme = anlam kaybı; bu yüzden optional yapılmalı

### 1.3 Caption Artırımı (Paraphrasing Augmentation)

Amaç:

+ Görseller için alternatif anlamlı açıklamalar üretmek
+ Modelin çeşitliliğini artırmak ve overfitting’i azaltmak

Kullanılan Teknolojiler: HuggingFace pegasus-paraphrase

+ nltk.translate.bleu_score (benzerlik ölçümü için)
+ scikit-learn cosine_similarity

Yapılacaklar:

+ Her caption için 1–2 alternatif paraphrase üretilir
+ Cosine similarity ile benzer olanlar (>%90) elenir
+ Augmented caption’lar yeni satırlar olarak veri setine eklenir

Proaktif Önlemler:

+ Gramer kontrolü yapılır (örn. LanguageTool API)
+ Caption sayısı eşitlenmeli (her görselde aynı sayıda caption)

İyileştirme:

BLEU-1 veya cosine similarity eşik değerleri dinamik olarak ayarlanmalı

# 2. GÖRSEL TEMSİLCİLİK (VISION ENCODING)

### 2.1 BLIP-2 Model Kurulumu

Amaç:

+ Görselleri metne anlamlı bir şekilde bağlayabilecek görsel özellik çıkarımı

Kullanılan Teknolojiler:

+ HuggingFace Salesforce/blip2-opt-2.7b
+ transformers, torch, torchvision

Yapılacaklar:

+ Model ve tokenizer torch_dtype=torch.float16, device_map="auto" ile yüklenir
+ Görseller 224x224 boyutuna Resize ile getirilir
+ Görseller ImageNet normalization ile normalize edilir

Proaktif Önlemler:

+ Her görselin embedding.shape kontrol edilir (assert)
+ BLIP modelin versiyon uyumluluğu kontrol edilir (tokenizer/model mismatch riski)

İyileştirme:

+ .pt dosyasına batch halinde feature’lar yazılır – yeniden işlem gerekmez

### 2.2 Görsellerden Feature Çıkarımı

Amaç:

+ Görselden elde edilen özellikleri modelin text decoder’ına girdi olarak sunmak

Yapılacaklar:

+ Her görselden elde edilen feature vektörü diske .pt veya .npy olarak kaydedilir
+ Görsel feature’lar eğitim sırasında doğrudan belleğe yüklenir

Proaktif Önlemler:

+ Feature kayıpları yaşanmaması için her görsel kontrol edilir
+ Feature shape uyumluluğu kontrol edilir

# 3. METİN İŞLEME (TOKENIZATION)

### 3.1 Tokenizer Hazırlığı

Amaç:

+ Caption'ları modelin anlayacağı sayısal formatlara dönüştürmek

Kullanılan Teknolojiler: HuggingFace AutoTokenizer, GPT2Tokenizer, T5Tokenizer

Yapılacaklar:

+ Tokenizer add_special_tokens ile <pad>, <start>, <end> token’larını öğrenir
+ max_length güvenli olarak mean+2*std üzerinden belirlenir

Proaktif Önlemler:

+ Her tokenizasyon işlemi sonrası attention_mask, input_ids doğruluğu kontrol edilir

İyileştirme:

+ Caption uzunluk dağılımı grafiği çıkarılır – outlier’lar loglanır

# 4. MODEL EĞİTİM AŞAMASI

### 4.1 Transformer Decoder Modeli

Amaç:

+ Görsel embedding girdisiyle anlamlı cümle üretebilecek bir dil modeli kurmak

Kullanılan Teknolojiler: PyTorch nn.TransformerDecoder

Opsiyonel: HuggingFace EncoderDecoderModel

Yapılacaklar:

+ Görsel embedding, decoder input ile boyutsal olarak eşlenir (nn.Linear)
+ Positional encoding ve mask mekanizmaları eksiksiz eklenir

Proaktif Önlemler:

+ attention mask ve look-ahead mask test görselleriyle denenir
+ LayerNorm, Dropout, Residual bağlantılar kontrol edilir



### 4.2 Loss ve Optimizer

Amaç:

+ Modelin doğru kelime tahmini yapmasını sağlamak

Kullanılan Teknolojiler: torch.nn.CrossEntropyLoss(ignore_index=-100)

AdamW, Gradient Clipping, Label Smoothing

Yapılacaklar:

+ pad token'ların loss’a katılmaması için ignore_index=-100
+ gradient clipping ile ani sıçramalar engellenir
+ Learning rate scheduler (ReduceLROnPlateau) eklenir

Proaktif Önlemler:

+ torch.cuda.amp ile otomatik mixed precision eğitim aktif edilir

### 4.3 Eğitim ve İzleme

Amaç:

+ Eğitim performansını izlemek ve overfitting’i önlemek

Kullanılan Teknolojiler: Wandb, TensorBoard, EarlyStopping, ModelCheckpoint

Yapılacaklar:

+ Her epoch’ta validation loss ve BLEU ölçülür
+ En iyi model val loss ile kaydedilir

Proaktif Önlemler:

+ EvalMode() ve TrainMode() doğru kullanılır
+ Epoch başında random seed sabitlenir

# 5. TEST, ÜRETİM ve DEĞERLENDİRME

### 5.1 Beam Search Caption Generation

Amaç:

+ En yüksek olasılıklı ve anlamlı cümle üretimini sağlamak

Kullanılan Parametreler: beam_size=5, no_repeat_ngram_size=3, length_penalty=0.8

Proaktif Önlemler:

+ Greedy vs Beam karşılaştırması yapılır
+ repetition_penalty=1.2 ile tekrarların önüne geçilir

### 5.2 Metriklerle Değerlendirme

Amaç:

+ Modelin objektif olarak başarısını ölçmek

Kullanılan Teknolojiler: nltk, torchmetrics, pycocoevalcap

Yapılacaklar:

+ BLEU, METEOR, ROUGE-L, CIDEr metrikleri kullanılır
+ Her görsel için prediction vs target CSV dosyası üretilir
+ Manual caption analizi: 100 görselden rastgele örnekler alınır

### 5.3 Sonuçların Analizi ve Raporlama

Amaç:

+ Caption kalitesini ve modeli anlamak
+ Eksikleri belgelendirmek

Proaktif Önlemler:

+ Tekrarlayan kelimeler Counter() ile analiz edilir
+ Caption’lar görsellerle birlikte .pdf veya .html rapor olarak hazırlanır