# Eksik Veri Doldurma Stratejileri


Gen ekspresyon verilerinde eksik değerler çeşitli nedenlerle ortaya çıkabilir: deneysel hatalar, ölçüm sorunları, kalite kontrol filtrelemesi veya veri işleme adımları sırasında oluşan kayıplar. Bu eksik değerlerin nasıl ele alınacağı, aşağı akış analizlerinin sonuçlarını önemli ölçüde etkileyebilir.


-   **Eksik Veri Problemi Nedir?**
    -   Gen ekspresyon verilerinde eksik değerler sık karşılaşılan bir problemdir
    -   Deneysel hatalar, ölçüm sorunları, veri işleme süreçleri veya kalite kontrol filtreleme sonucu oluşabilir
    -   Makine öğrenmesi, istatistiksel analizler ve biyolojik çıkarımlar eksik değerlerden olumsuz etkilenir
-   **Neden Önemlidir?**
    -   Eksik veriler analiz sonuçlarını çarpıtabilir
    -   Veri kümesindeki bilgi kaybına neden olur
    -   Aşağı akış analizlerinin doğruluğunu azaltır

## Eksik Veri 

Eksik veri mekanizmaları, verilerin neden ve nasıl eksik olduğunu açıklayan teorik bir çerçevedir. Bu mekanizmalar, eksikliğin rastgele olup olmadığını veya belirli örüntüler izleyip izlemediğini tanımlar. 1976 yılında Donald Rubin tarafından önerilen bu sınıflandırma, eksik verilerin analizinde ve doldurma stratejilerinin (imputation) seçiminde kritik bir rol oynar.
Eksik veri mekanizmaları genellikle üç ana kategoriye ayrılır:


### Tamamen Rastgele Eksik (MCAR - Missing Completely At Random)

**Tanım:**  Tamamen Rastgele Eksik (MCAR), veri setindeki eksik değerlerin ne gözlenen verilere ne de eksik olan değerlere bağlı olduğu bir eksiklik mekanizmasını ifade eder. Başka bir deyişle, eksikliğin nedeni tamamen rastgeledir ve veri setindeki hiçbir değişken veya sistematik örüntü ile ilişkili değildir. MCAR durumu, en basit ve analiz açısından en kolay ele alınabilecek eksiklik türüdür.

**Özellikler:**

1. **Rastgele Dağılım:**  
   Eksik veriler, veri setinde herhangi bir düzen, desen veya sistematik örüntü izlemez. Örneğin, bir gen ekspresyon matrisinde bazı hücrelerin eksik olması, bu hücrelerin konumuna, değerlerine veya diğer değişkenlere bağlı değildir.

2. **Diğer Değişkenlerle İlişki Yok:**  
   Eksiklik, veri setindeki diğer değişkenlerle (örneğin, gen ifadeleri, örnek özellikleri veya kovaryantlar) ilişkili değildir. Başka bir deyişle, eksikliğin nedeni ölçülen veya ölçülemeyen faktörlerden bağımsızdır.

3. **Sistematik Örüntü İçermeme:**  
   Verinin kendisi veya diğer değişkenlerle ilgili herhangi bir sistematik örüntü bulunmaz. Eksiklik tamamen rastgele gerçekleşir ve belirli bir alt grup veya koşulu hedef almaz.

**Gen Ekspresyon Örneği:**

-   Laboratuvar kazası sonucu mikroarray kuyucuklarındaki hasarlar
-   RNA ekstraksiyon sürecinde rastgele teknik hatalar
-   Örneklerin rastgele kontaminasyonu

**Teşhis Yöntemleri:**

-   Eksik ve tam verilerin ortalama karşılaştırmaları
-   Little'ın MCAR testi
-   Eksik veri desen analizleri

**Uygun Doldurma Stratejileri:**

-   İstatistiksel olarak herhangi bir yöntem kullanılabilir
-   Basit yöntemler (ortalama, medyan) yeterli olabilir
-   Örneklerin silinmesi bile ciddi bir yanlılık oluşturmaz

### Rastgele Eksik (MAR - Missing At Random)

**Tanım:**  Rastgele Eksik (MAR), eksik veri olasılığının gözlenmeyen değerlerden bağımsız olduğu ancak gözlenen diğer değişkenlerle ilişkili olduğu bir eksiklik mekanizmasını ifade eder. Başka bir deyişle, eksikliğin nedeni veri setindeki ölçülen veya gözlenen değişkenlerden çıkarılabilir. MAR durumu, gen ekspresyon analizleri gibi yüksek boyutlu veri setlerinde sık karşılanan bir eksiklik türüdür.


**Özellikler:**

1. **Eksiklik Belirli Değişkenlerle İlişkilidir:**  
   Eksik verilerin dağılımı, gözlenen bir veya daha fazla değişkenle ilişkilidir. Örneğin, belirli bir hücre tipinde düşük gen ekspresyon seviyelerine sahip genlerde eksiklik oranı daha yüksek olabilir.

2. **Eksik Değerler Tahmin Edilemez:**  
   Eksik değerlerin kendisi doğrudan tahmin edilemez; ancak eksikliğin nedeni, gözlenen değişkenler üzerinden modelleştirilebilir. Bu, eksikliğin sistematik bir örüntü izlediğini gösterir.

3. **Sistematik Örüntüler Gözlenen Verilerle Açıklanabilir:**  
   Veri setindeki eksiklik desenleri, gözlenen diğer değişkenlerle açıklanabilir. Örneğin, belirli deney koşullarında veya örnek özelliklerinde daha fazla eksiklik gözlenebilir.

**Gen Ekspresyon Örneği:**

-   Belirli bir hücre tipinde (gözlenen) ekspresyon seviyesi düşük olan genlerde eksiklik
-   Yüksek ekspresyon seviyelerine sahip genler için daha düşük eksiklik oranı
-   Belirli deneylerde veya koşullarda (gözlenen) daha yüksek eksiklik

**Teşhis Yöntemleri:**

-   Eksiklik örüntülerinin diğer değişkenlerle ilişkisinin analizi
-   Lojistik regresyon modelleri ile eksiklik tahminleri
-   Heat map ve kümeleme analizleri ile eksiklik paternlerinin keşfi

**Uygun Doldurma Stratejileri:**

-   Değişkenler arası ilişkileri modelleyen yöntemler
-   KNN (K-En Yakın Komşu)
-   Regresyon tabanlı doldurma
-   Multiple Imputation (Çoklu Doldurma)



### Rastgele Olmayan Eksik (MNAR - Missing Not At Random)

**Tanım:**  Rastgele Olmayan Eksik (MNAR), eksik veri olasılığının hem gözlenmeyen değerlerin kendisine bağlı olduğu hem de veri setindeki mevcut değişkenlerle tam olarak açıklanamadığı bir eksiklik mekanizmasını ifade eder. Bu durumda, eksikliğin nedeni doğrudan eksik olan verinin büyüklüğü veya niteliğiyle ilişkilidir ve bu ilişkiyi anlamak için ek bilgi veya modelleme gerektirir. MNAR, en karmaşık eksiklik türüdür çünkü eksik verilerin altındaki sistematik örüntüler "gizli" faktörlere bağlıdır ve analizde ciddi zorluklar ortaya çıkarır.

**Özellikler:**

1. **Eksiklik, Eksik Değerin Kendisiyle İlişkilidir:**  
   Eksik verilerin dağılımı, eksik olan değerlerin büyüklüğü veya niteliğiyle doğrudan ilişkilidir. Örneğin, bir genin ekspresyon seviyesi çok düşük olduğunda ölçüm yapılamaması veya filtrelenmesi MNAR’ın tipik bir özelliğidir.

2. **Eksikliğin Nedeni Tam Olarak Açıklanamaz:**  
   Eksikliğin nedeni, veri setindeki mevcut değişkenlerle (örneğin, doku tipi veya tedavi grubu) tam olarak açıklanamaz. Bu, eksikliğin gizli veya ölçülemeyen faktörlerle ilişkili olduğunu gösterir.

3. **Sistematik Eksiklik "Gizli Nedenlerle" İlişkilidir:**  
   Eksiklik, belirli bir sistematik örüntü izler ancak bu örüntü doğrudan gözlenemez. Örneğin, bir ölçüm cihazının belirli bir eşik değerinin altında kalan verileri kaydetmemesi gibi teknik sınırlamalar MNAR’a örnek olarak gösterilebilir.

**Gen Ekspresyon Örneği:**

-   Ekspresyon seviyesi çok düşük olan genlerin tespit edilememesi
-   Mikroarray tarama sırasında belirli sinyal eşiklerinin altında kalan değerler
-   Belirli bir ekspresyon değerinin altındaki değerlerin "sıfır" olarak kaydedilmesi
-   RNA-seq deneylerinde düşük okuma değerlerine sahip genlerin filtrelenmesi

**Teşhis Yöntemleri:**

-   Genellikle doğrudan test edilemez (çünkü eksik verinin kendisi gözlenemez)
-   Hassasiyet analizleri
-   Domain bilgisi ve veri toplama süreci hakkında bilgi gerektirir
-   Simülasyon ve model karşılaştırmalarıyla değerlendirme

**Uygun Doldurma Stratejileri:**

-   Standart doldurma yöntemleri genellikle yetersiz kalır
-   Özel modeller gerektirir:
    -   Selection models (Seçim modelleri)
    -   Pattern-mixture models (Desen-karışım modelleri)
    -   Shared-parameter models (Paylaşılan-parametre modelleri)
-   MNAR mekanizmasını açıkça modelleyen yöntemler
-   Domain bilgisine dayalı özel doldurma stratejileri

## Eksik Veri Doldurma Yaklaşımları

Eksik veri problemi, gen ekspresyon analizlerinde sık karşılaşılan bir zorluktur ve bu sorunun ele alınması için çeşitli yaklaşımlar geliştirilmiştir. Bu yaklaşımlar, eksik verilerin doğasına, veri setinin büyüklüğüne ve analizin amacına bağlı olarak seçilir. Aşağıda, temel yaklaşımlar, doldurma stratejilerinin önemi ve değerlendirme kriterleri detaylı bir şekilde açıklanmıştır.




### **Temel Yaklaşımlar**

#### **1. Eksik Verileri Silme (Örnekleri veya Genleri Çıkarma)**  
Bu yöntemde, eksik verilere sahip örnekler veya genler tamamen çıkarılır. Ancak, bu yaklaşım bazı dezavantajlara sahiptir:
- **Avantajlar:**
  - Basit ve hızlıdır.
  - Analizi karmaşıklaştırma riskini azaltır.
- **Dezavantajlar:**
  - Yüksek boyutlu veri setlerinde ciddi bilgi kaybına yol açabilir.
  - Örnek veya gen sayısının az olduğu durumlarda analiz gücünü düşürebilir.
  - Sistemli eksiklikler varsa, yanlı sonuçlar üretebilir.

#### **2. Eksik Verileri Doldurma (Imputation)**  
Eksik veriler, tahmin edilen değerlerle doldurulur. Bu yöntem, veri boyutunu korur ve bilgi kaybını en aza indirir. Farklı doldurma teknikleri şunlardır:
- **Basit Yöntemler:** Ortalama, medyan veya mod gibi istatistiksel ölçümler kullanılır.
- **Karmaşık Yöntemler:** K-En Yakın Komşu (KNN), regresyon tabanlı doldurma, çoklu doldurma (Multiple Imputation) gibi yöntemler.
- **Makine Öğrenmesi Tabanlı Yöntemler:** Rassal ormanlar, derin öğrenme modelleri gibi gelişmiş algoritmalar.

#### **3. Eksik Verileri İşleyebilen Algoritmalar Kullanma**  
Bazı algoritmalar, eksik verileri doğrudan işleme yeteneğine sahiptir. Örneğin:
- **EM Algoritması (Expectation-Maximization):** Eksik verileri tahmin ederek model parametrelerini optimize eder.
- **Bayesçi Yöntemler:** Gizli faktörleri hesaba katarak eksik verileri modellemeye dahil eder.
- **Sıralı Analiz Yöntemleri:** Eksik verileri sıralı olarak işleyen özel algoritmalar kullanılır.

### **Doldurma Stratejilerinin Önemi**

Eksik verilerin doldurulması, özellikle gen ekspresyon analizlerinde kritik öneme sahiptir. Doldurma stratejileri aşağıdaki avantajları sağlar:

1. **Veri Boyutunu Korur:**  
   Örneklerin veya genlerin çıkarılması yerine, eksik veriler doldurularak veri setinin bütünlüğü korunur.

2. **Silmeye Göre Daha Az Bilgi Kaybı:**  
   Doldurma yöntemleri, silme yöntemlerine kıyasla daha az bilgi kaybına neden olur ve analiz gücünü artırır.

3. **Gen Ekspresyon Verilerinde Örneklerin Tamamını Kullanma Olanağı:**  
   Özellikle küçük veri setlerinde, tüm örneklerin kullanılması analizin güvenilirliğini artırır.

4. **Biyoistatistiksel Analizlerde Süreklilik Sağlar:**  
   Doldurma, diferansiyel ifade analizi, kümeleme ve sınıflandırma gibi aşağı akış analizlerinde kesintisiz bir süreç sağlar.

#### Ortalama ile Doldurma

-   **Yöntem**
    -   Her gen için mevcut tüm örneklerin ortalama ekspresyon değeri hesaplanır
    -   Eksik değerler bu ortalama ile doldurulur
-   **Avantajlar**
    -   Basit ve hızlı uygulanabilir
    -   Hesaplama maliyeti düşüktür
    -   Dağılımın merkezi eğilimini korur
-   **Dezavantajlar**
    -   Veri varyansını azaltır
    -   Aykırı değerlerden etkilenir
    -   Veriler arasındaki korelasyonları dikkate almaz
-   **Uygun Olduğu Durumlar**
    -   Eksik değerlerin rastgele dağıldığı durumlar
    -   Düşük eksik veri oranlarında tercih edilebilir
    -   Hızlı bir ön analiz istendiğinde

#### Medyan ile Doldurma

-   **Yöntem**
    -   Her gen için mevcut tüm örneklerin medyan ekspresyon değeri hesaplanır
    -   Eksik değerler bu medyan ile doldurulur
-   **Avantajlar**
    -   Aykırı değerlerden daha az etkilenir
    -   Dağılımın merkezi eğilimini daha sağlam (robust) temsil eder
    -   Çarpık dağılımlarda ortalamadan daha iyi sonuç verir
-   **Dezavantajlar**
    -   Örnekler arası korelasyonları dikkate almaz
    -   Biyolojik alt grupların varlığında yetersiz kalabilir
-   **Uygun Olduğu Durumlar**
    -   Aykırı değerler içeren gen ekspresyon verilerinde
    -   Çarpık dağılıma sahip genlerde
    -   Robust tahminler gerektiğinde


#### Sabit Değer (0) ile Doldurma

-   **Yöntem**
    -   Tüm eksik ekspresyon değerleri sabit bir değer (genellikle 0) ile doldurulur
-   **Avantajlar**
    -   En basit ve en hızlı yöntemdir
    -   Uygulanması çok kolaydır
    -   Bazı RNA-seq verilerinde sıfır değeri "eksprese edilmemiş" geni temsil edebilir
-   **Dezavantajlar**
    -   Genellikle biyolojik gerçekliği yansıtmaz
    -   Veri yapısını bozabilir
    -   Aşağı akış analizlerinde ciddi sapmalara neden olabilir
-   **Uygun Olduğu Durumlar**
    -   Eksik değerlerin, eşik altı ekspresyon seviyelerini temsil ettiği durumlarda
    -   RNA-seq verilerinde sıfır okuma durumlarında
    -   Teknik nedenlerle ölçülemeyen değerler için

#### Forward Fill (Önceki Değer ile Doldurma)

-   **Yöntem**
    -   Eksik değer, bir önceki gözlemin değeri ile doldurulur
    -   Eğer ilk değerler eksikse, sonraki değerlerle doldurulur (backward fill)
-   **Avantajlar**
    -   Zaman serisi verileri için uygundur
    -   Basit ve sezgisel bir yaklaşımdır
    -   Ardışık örnekler arasındaki ilişkiyi korur
-   **Dezavantajlar**
    -   Gen ekspresyon verilerinde örnekler genellikle anlamlı bir sıraya sahip değildir
    -   Örnekler arası sıra önemliyse (örn. zaman serisi) mantıklıdır, aksi halde yanıltıcı olabilir
-   **Uygun Olduğu Durumlar**
    -   Zaman serisi gen ekspresyon deneyleri
    -   Örneklerin sıralı olduğu deneysel tasarımlar
    -   Tek bir eksik değerin öncesi ve sonrası değerlerden çıkarılabileceği durumlar

#### Doğrusal İnterpolasyon

-   **Yöntem**
    -   Eksik değerler, mevcut değerler arasında doğrusal bir ilişki olduğu varsayılarak tahmin edilir
    -   Komşu değerler arasında doğrusal bir çizgi çizilerek ara değerler belirlenir
-   **Avantajlar**
    -   Düzgün geçişli tahminler oluşturur
    -   Trend bilgisini korur
    -   Forward/backward fill'den daha sofistikedir
-   **Dezavantajlar**
    -   Gen ekspresyon verilerinde örnekler arası doğrusal ilişki varsayımı gerçekçi olmayabilir
    -   Sıralı olmayan veriler için uygun değildir
-   **Uygun Olduğu Durumlar**
    -   Ekspresyon değerlerinin belirli bir düzen veya trend izlediği durumlar
    -   Zaman serisi deneyleri veya doz yanıt çalışmaları
    -   Komşu değerler arasında anlamlı bir ilişki olduğu bilinen durumlar

#### K-En Yakın Komşu (KNN) ile Doldurma

-   **Yöntem**
    -   Eksik değere sahip bir örneğin en benzer k komşusu belirlenir
    -   Bu komşuların ağırlıklı ortalaması alınarak eksik değer doldurulur
-   **Avantajlar**
    -   Örnekler arasındaki benzerlik ilişkilerini kullanır
    -   Biyolojik alt grupların varlığında daha iyi performans gösterir
    -   Lokal veri yapısını korur
-   **Dezavantajlar**
    -   Hesaplama açısından daha yoğundur
    -   K değerinin seçimi sonuçları etkileyebilir
    -   Yüksek boyutlu verilerde mesafe hesaplama sorunları olabilir
-   **Uygun Olduğu Durumlar**
    -   Farklı hücre tipleri, dokular veya tedavi koşulları içeren heterojen veri setlerinde
    -   Benzer ekspresyon profillerine sahip genler arasında ilişki olduğu bilinen durumlarda
    -   Biyolojik grupların varlığında


### Doldurma Stratejilerinin Karşılaştırmalı Analizi

-   **MSE (Ortalama Karesel Hata)**
    -   Genellikle KNN ve İnterpolasyon daha düşük MSE değerleri sağlar
    -   Sabit değer doldurma en yüksek hataya sahiptir
-   **Değer Dağılımları**
    -   Ortalama ve medyan doldurma veri dağılımını daraltır
    -   KNN, orijinal dağılıma en yakın dağılımı oluşturur
-   **Biyolojik Paternlerin Korunması**
    -   KNN ve doğrusal interpolasyon genellikle gen ekspresyon paternlerini daha iyi korur
    -   Sabit değer doldurma biyolojik paternleri bozabilir
-   **Hesaplama Karmaşıklığı**
    -   Basit yöntemler: Sabit, Ortalama, Medyan
    -   Orta düzey: Forward Fill, İnterpolasyon
    -   Karmaşık: KNN


## Eksik Veri Doldurma Stratejisi Seçimi

-   **Eksik Veri Mekanizması**
    -   Tamamen rastgele eksik (MCAR): Herhangi bir yöntem kullanılabilir
    -   Rastgele eksik (MAR): KNN gibi ilişkileri modelleyen yöntemler tercih edilmeli
    -   Rastgele olmayan eksik (MNAR): Özel doldurma yöntemleri gerekebilir
-   **Veri Özellikleri**
    -   Veri boyutu: Büyük veri setlerinde hesaplama maliyeti düşünülmeli
    -   Veri heterojenliği: Heterojen verilerde KNN daha iyi sonuç verebilir
    -   Aykırı değerler: Medyan doldurma daha dirençlidir
-   **Pratik Öneriler**
    -   Birden fazla yöntemi karşılaştırın
    -   Doldurmanın aşağı akış analizleri üzerindeki etkisini değerlendirin
    -   Biyolojik anlamlılığı her zaman göz önünde bulundurun

## Sonuç ve Öneriler

-   **Özet**
    -   Eksik veri doldurma, gen ekspresyon analizlerinde kritik bir adımdır
    -   Doldurma stratejisi, veri özelliklerine ve analiz hedeflerine göre seçilmelidir
    -   Basit yöntemler hızlı olsa da daha karmaşık yöntemler genellikle daha doğru sonuçlar verir
-   **En İyi Uygulamalar**
    -   Eksik veri oranı düşükse: Ortalama veya medyan doldurma kullanılabilir
    -   İlişkili gen ekspresyon paternleri önemliyse: KNN tercih edilir
    -   Zaman serisi verilerinde: İnterpolasyon yöntemleri uygun olabilir
    -   Aykırı değerler varsa: Medyan doldurma tercih edilir
-   **İleri Düzey Yaklaşımlar**
    -   Çoklu doldurma (Multiple Imputation)
    -   Matris tamamlama yöntemleri
    -   Derin öğrenme tabanlı doldurma teknikleri


## Kaynaklar ve İleri Okuma

-   **Önerilen Makaleler**
    -   Troyanskaya O, et al. (2001). Missing value estimation methods for DNA microarrays. Bioinformatics
    -   Oba S, et al. (2003). A Bayesian missing value estimation method for gene expression profile data. Bioinformatics
    -   Brock GN, et al. (2008). Which missing value imputation method to use in expression profiles. BMC Bioinformatics
-   **Yazılım Paketleri**
    -   R: impute, mice, missForest
    -   Python: scikit-learn (KNNImputer, SimpleImputer), missingpy
    -   Bioconductor: impute, pcaMethods
-   **Web Kaynakları**
    -   GEO (Gene Expression Omnibus):  [https://www.ncbi.nlm.nih.gov/geo/](https://www.ncbi.nlm.nih.gov/geo/)
    -   ArrayExpress:  [https://www.ebi.ac.uk/arrayexpress/](https://www.ebi.ac.uk/arrayexpress/)