# Veri Ön İşleme

**Veri Ön İşleme**, ham verilerin analiz için uygun hale getirilmesi sürecidir. Veri analizi, modelleme veya makine öğrenmesi uygulamaları için kullanılmadan önce verilerin temizlenmesi ve dönüştürülmesi gerekir. Bu aşama, verinin kalitesini artırarak daha doğru ve güvenilir sonuçlar elde edilmesini sağlar. Veri ön işleme, veri setinin doğru, tutarlı ve anlamlı hale getirilmesi için gereklidir.

## Veri Ön İşleme Adımları

Veri ön işleme adımları genellikle şu temel aşamalardan oluşur:

### 1. Eksik Verilerle İlgilenme

Veri setlerinde sıklıkla eksik (missing) veriler bulunur. Bu eksik veriler, analizlerinizi veya modelinizin doğruluğunu etkileyebilir. Eksik verilerle başa çıkmanın birkaç yolu vardır:

- **Eksik Veriyi Silme**: Verinin önemli kısmını kaybetmeden eksik veriler barındıran satırlar veya sütunlar tamamen silinebilir.
- **Eksik Veriyi Doldurma**: Eksik veriler, medyan, ortalama, en sık rastlanan değer gibi istatistiksel ölçütlerle doldurulabilir. Ayrıca, regresyon veya k-en yakın komşu (KNN) gibi yöntemlerle de eksik veriler tahmin edilebilir.

### 2. Aykırı Değerlerin (Outliers) Tespiti ve Düzeltilmesi

Aykırı değerler, veri setinde normal dağılımdan büyük ölçüde sapmış veri noktalarıdır ve çoğunlukla yanlış sonuçlara yol açar. Aykırı değerlerle başa çıkmak için çeşitli yöntemler kullanılabilir:

- **Aykırı Değer Tespiti**: Aykırı değerler, **boxplot**, **z-skoru** veya **IQR (Interquartile Range)** gibi yöntemlerle tespit edilebilir.
- **Aykırı Değerleri Düzeltme**: Aykırı değerler, verinin genel dağılımına uygun olacak şekilde düzeltilmeli veya silinmelidir.

### 3. Kategorik Verilerin Sayısal Veriye Dönüştürülmesi

Makine öğrenmesi algoritmaları genellikle yalnızca sayısal verilerle çalışabilir. Bu nedenle, kategorik verilerin sayısal verilere dönüştürülmesi gerekebilir. Kategorik verileri sayısal verilere dönüştürmek için yaygın kullanılan yöntemler şunlardır:

- **One-Hot Encoding**: Her kategoriyi bağımsız bir sütun olarak temsil eder ve her kategori için 1 veya 0 değeri atanır.
- **Label Encoding**: Kategorilere sayısal etiketler atanır. Bu yöntem, kategoriler arasındaki sıralama veya ilişkiler varsa kullanılabilir.

### 4. Verinin Ölçeklenmesi (Feature Scaling)

Veri setindeki farklı özelliklerin (feature) ölçekleri farklı olabilir. Özellikle, mesafe tabanlı algoritmalar (k-en yakın komşu, k-means, vb.) verilerin aynı ölçeklere sahip olmasını gerektirir. Veri ölçekleme teknikleri arasında şunlar yer alır:

- **Min-Max Normalizasyonu**: Veriyi belirli bir aralığa (genellikle 0 ile 1 arasında) ölçekler.
- **Z-Score Standartlaştırması**: Verinin ortalaması sıfır, standart sapması bir olacak şekilde dönüştürülmesini sağlar.

### 5. Verinin Dönüştürülmesi

Veri analizi veya modelleme için bazen veriyi dönüştürmek gerekir. Veri dönüşümü, belirli özelliklerin doğrusal olmayan ilişkilerini doğrusal hale getirmek veya veriyi başka bir biçimde temsil etmek için yapılabilir. Veri dönüşümü örnekleri şunlardır:

- **Log Dönüşümü**: Dağılımı düzelterek, skewsizleştirir.
- **Box-Cox Dönüşümü**: Verilerin daha normal bir dağılıma sahip olmasını sağlar.
- **Polinom Dönüşümü**: Özellikler arasındaki doğrusal olmayan ilişkileri modellemek için kullanılır.

### 6. Verinin Bölünmesi

Veri setinin makine öğrenmesi modeline uygun hale getirilmesi için eğitim ve test setlerine ayrılması gerekmektedir. Genellikle **%70 eğitim ve %30 test** oranı kullanılır. Bu bölünme, modelin performansını doğru bir şekilde değerlendirebilmek için önemlidir. Ayrıca, **cross-validation (çapraz doğrulama)** yöntemleri de modelin daha güvenilir bir şekilde değerlendirilmesine yardımcı olabilir.

### 7. Veri Dönüştürme ve Feature Engineering

**Feature Engineering**, yeni özelliklerin (feature) oluşturulması sürecidir. Bu, mevcut verileri kullanarak daha anlamlı özellikler türetmek için yapılan işlemdir. Bu adım, modelin başarısını artırmak için oldukça önemlidir. Feature engineering adımları şunları içerebilir:

- **Yeni Özelliklerin Türetilmesi**: Mevcut verilerden anlamlı yeni özellikler oluşturulabilir.
- **Öznitelik Seçimi (Feature Selection)**: Gereksiz, düşük etkiye sahip özelliklerin çıkarılması.
- **Öznitelik Mühendisliği (Feature Extraction)**: Yüksek boyutlu verilerden önemli özelliklerin çıkarılması.

### 8. Düzensiz Verilerin Düzeltilmesi

Veri setinde yanlış etiketlenmiş veriler veya tutarsızlıklar olabilir. Bu veriler, modelin doğruluğunu etkileyebilir. **Veri doğrulama** ve **temizleme** işlemleri, verinin tutarlılığını sağlamak için önemlidir. Özellikle, verilerin doğru etiketlendiğinden ve anlamlı bir biçimde düzenlendiğinden emin olunmalıdır.

---

## Veri Ön İşlemenin Önemi

Veri ön işleme, veri analizi ve makine öğrenmesi modelleme süreçlerinin temel taşlarından biridir. İyi bir veri ön işleme süreci, daha doğru sonuçlar elde edilmesini sağlar, modelin doğruluğunu artırır ve algoritmaların verimli çalışmasını sağlar. Veri temizleme ve ön işleme, doğru modelleme sürecinin temelini oluşturur. Bu adımlar, verilerin yanlışlıkla oluşturduğu sapmaları düzelterek güvenilir sonuçlar elde edilmesine yardımcı olur.

---

# Veri mi Model mi?

**Veri mi Model mi?** sorusu, makine öğrenmesi, yapay zeka ve veri bilimi projelerinin temel taşlarından biridir. Bu soru, bir projenin başarısını belirlemede daha fazla hangi bileşene odaklanmanız gerektiğini sorgular: Veriye mi, yoksa modele mi? Bu soruya verilecek cevap, projenizin doğasına ve hedeflerine göre değişebilir. 

## Veri ve Model Arasındaki Farklar

### Veri
Veri, makine öğrenmesi ve veri bilimi projelerinin temel girdisidir. Ancak, verilerin çoğu zaman ham, düzensiz, eksik veya hatalı olduğunu unutmamak gerekir. Bu durum, verinin işlenmesini ve doğru bir şekilde hazırlanmasını gerektirir. Veri ön işleme, eksik verilerin tamamlanması, aykırı değerlerin düzeltilmesi, kategorik verilerin sayısal verilere dönüştürülmesi gibi adımlar veri analizinin ve modellemenin başarısı için kritik rol oynar.

- **Veri Temizliği ve Ön İşleme**: Ham verinin temizlenmesi, işlenmesi ve uygun formata getirilmesi gerekebilir. Örneğin, eksik verilerin doldurulması, aykırı değerlerin tespit edilmesi ve verilere uygun dönüşümlerin yapılması önemlidir.
- **Veri Kalitesi**: Verinin doğru, tutarlı ve anlamlı olması, yapılan analizlerin doğru sonuçlar üretmesi için gereklidir. Yetersiz veya hatalı veri ile yapılan modelleme genellikle yanlış sonuçlara yol açar.

### Model
Model, veri üzerinde öğrenme gerçekleştiren bir algoritmadır. Makine öğrenmesi modelleri, verilerdeki desenleri tanımak ve gelecekteki veriler için tahminlerde bulunmak amacıyla kullanılır. Modelin başarısı, veri üzerinde yaptığı öğrenmeye dayanır. Ancak, modelin başarısı sadece algoritmanın karmaşıklığına değil, aynı zamanda kullanılan verilerin kalitesine de bağlıdır.

- **Model Seçimi**: Verinin yapısına ve problem türüne bağlı olarak doğru modeli seçmek önemlidir. Örneğin, sınıflandırma problemleri için **Logistic Regression** veya **Random Forest** modelleri; regresyon problemleri için ise **Linear Regression** veya **XGBoost** gibi modeller tercih edilebilir.
- **Model Performansı**: Modelin başarısını değerlendirmek için kullanılan ölçütler, veri ile ne kadar uyumlu olduğuna bağlıdır. Doğru veri ile eğitilmiş bir model, genellikle daha yüksek doğruluk oranları ve daha güvenilir tahminler sağlar.

## Veri mi, Model mi?

Makine öğrenmesinde **veri** ve **model** arasında doğru dengeyi bulmak oldukça önemlidir. Her iki bileşen de birbirini tamamlar, ancak belirli durumlarda birine daha fazla odaklanmak gerekebilir.

### 1. **Veri Ön İşleme ve Temizliği: Başarıyı Belirleyen Temel Faktör**
Genel olarak, **veri kalitesi** modelin başarısını doğrudan etkiler. Eğer veri kötü kalitedeyse, hangi modeli seçerseniz seçin sonuçlar düşük olacaktır. Örneğin, eksik veriler, yanlış etiketlenmiş etiketler veya hatalı değerler modelin doğruluğunu büyük ölçüde azaltabilir. Bu nedenle, veri ön işleme süreci, modelleme sürecinden çok daha kritik olabilir. Verilerin doğru bir şekilde temizlenmesi, eksik değerlerin doldurulması ve kategorik verilerin uygun şekilde dönüştürülmesi gerekir.

### 2. **Model Seçimi ve Tuning: Yüksek Performans İçin İleri Adımlar**
Model, veri setinin özelliklerini öğrenerek doğru tahminler yapabilen bir yapıdır. Ancak, verinin doğru bir şekilde hazırlanmış olması durumunda doğru modelin seçilmesi de büyük önem taşır. Hangi modelin kullanılacağına karar verirken, problem türü, verinin büyüklüğü ve karmaşıklığı gibi faktörler dikkate alınmalıdır. Aynı zamanda modelin **hiperparametrelerinin** doğru bir şekilde ayarlanması, modelin başarısını önemli ölçüde artırabilir.

### 3. **Veri ve Modelin Birlikte Önemi**
Veri ve model arasında bir denge kurulması gerekmektedir. İyi bir model bile kötü bir veri seti ile başarısız olabilir. Benzer şekilde, mükemmel bir veri seti, yanlış bir model ile verimli bir şekilde kullanılmayabilir. Bu yüzden her iki bileşen de dikkate alınarak çalışılmalıdır. 

## Sonuç: Veriye Odaklanmak mı, Modellemiye Odaklanmak mı?

- **Veriye odaklanmak** genellikle daha önemlidir çünkü doğru veri olmadan herhangi bir model, doğru sonuçlar veremez. Veriyi doğru bir şekilde hazırlamak, modeli etkili bir şekilde eğitmek için çok önemlidir.
- **Modelleme**, doğru veriye sahip olduğunuzda çok daha anlamlı hale gelir. İyi bir model, veriyi daha doğru bir şekilde analiz eder ve tahminlerde bulunur.

Ancak **sonuç olarak**, veri ve model arasında doğru bir dengeyi kurmak, başarının anahtarıdır. Veri kalitesine odaklanarak doğru bir temel oluşturduktan sonra, modeli seçmek ve iyileştirmek için gereken adımlar atılabilir.



