# 🧠 Temel İstatistik Kavramları: Sayıların Anlamına Giden Yol

## Giriş: Veriden Bilgiye Geçiş

Veri, ham bilgidir.  
Sayılar dizisidir.  
Ancak onu anlamak için bazı anahtar kavramlara ihtiyacımız var.

> “İstatistik, verinin içindeki bilgiyi çıkaran süzgeçtir.”  

## 🔍 1. Birim (Unit / Element)

### Tanım:
Üzerinde gözlem yapılan en küçük varlık.

📌 Örnek:
- Bir insan
- Bir ürün
- Bir satış işlemi
- Bir web sitesi ziyareti

✅ Ancak ölçülebilen, sayılabilen şeyler birim olabilir.

❌ Renkler, kokular, rüyalar → birim değildir.  
Çünkü doğrudan sayısal hale getirilemezler.

## 📦 2. Ana Kütle (Population / Evren)

### Tanım:
Araştırmanın konusu olan ve genellenmek istenen tüm birimler topluluğudur.  
Genellikle büyük harf **N** ile gösterilir.

📌 Ana kütle = “Tüm kullanıcılar”  
Örneğin:
- Türkiye'deki tüm 5 yaşındaki çocuklar
- Ankara’da yaşayan 60+ yaş grubu nüfus
- Fabrikada üretilen tüm piller

## 🎯 3. Örneklem (Sample)

### Tanım:
Ana kütlenin temsil eden, daha küçük bir alt kümesidir.  
Genellikle küçük harf **n** ile gösterilir.

📌 Ana kütle çok büyükse örneklem almak zorunludur.

> “Ana kütleye ulaşamıyorsan, örneklem senin pusulan olur.”  

## 📊 4. Betimsel İstatistik (Descriptive Statistics)

### Tanım:
Toplanan verilerin özetlenmesi, düzenlenmesi ve tanımlanması sürecidir.

#### Python Kodu:

In [14]:
import numpy as np
import pandas as pd

df = pd.read_csv("data/ornek_satis.csv")
print(df.describe())

            fiyat       satis
count  100.000000  100.000000
mean   261.580900  121.520000
std    133.870366   42.503828
min     52.480000   35.000000
25%    136.937500   85.500000
50%    258.865000  124.000000
75%    378.590000  161.000000
max    494.100000  196.000000


📌 Ortalama, medyan, standart sapma gibi değerler buraya girer.

## 🤔 5. Çıkarımsal İstatistik (Inferential Statistics)

### Tanım:
Örneklem üzerinden ana kütleye genelleme yapma sürecidir.

📌 Örneklemden aldığımız sonucu,  
ana kütleye uygulamak için kullanılır.

#### Python Kodu:

In [15]:
from scipy.stats import ttest_1samp

orneklem = [70, 75, 80, 85, 90]
t_stat, p_val = ttest_1samp(orneklem, popmean=75)

if p_val < 0.05:
    print("Ortalama %95 güvenle farklı.")
else:
    print("Fark tesadüfi olabilir.")

Fark tesadüfi olabilir.


## 🧮 6. Parametre & İstatistik

| Terim | Açıklama | Sembol |
|--------|----------|---------|
| **Parametre** | Ana kütlenin gerçek değeri | μ (mu), σ (sigma) |
| **İstatistik** | Örneklem üzerinden tahmin edilen değer | x̄ (x bar), s |


## 📐 7. Ölçek Türleri: Veri Nasıl Ölçülür?

| Tür | Açıklama | Örnek |
|------|----------|--------|
| **Nominal** | Sadece etiket, sıralama yok | Cinsiyet, renk |
| **Ordinal** | Sıralı ama aralıklar eşit değil | Memnuniyet skoru: iyi, orta, kötü |
| **Interval** | Eşit aralıklı ama sıfır yok | Sıcaklık (Celsius), tarih |
| **Ratio** | Gerçek sıfır var, oranlar anlamlı | Fiyat, yaş, ağırlık |

📌 Ölçek türü bilmek, doğru analiz yapmak için şarttır.

## 📏 8. Değişken Türleri: Ne Ölçüyoruz?

| Değişken Tipi | Açıklama | Örnek | Analiz Türleri |
| --- | --- | --- | --- |
| Kategorik (Nominal) | Kategorik değerler | Renkler, cinsiyet | Frekans tablosu, Ki-Kare testi |
| Kategorik (Ordinal) | Sıralı kategorik değerler | Eğitim seviyesi, sınıf derecesi | Frekans tablosu, Non-parametrik testler |
| Sürekli (Oran) | Sayısal değerler, mutlak sıfır | Yaş, gelir | Merkezi eğilim, dağılım, t-testi, ANOVA |
| Sürekli (Aralık) | Sayısal değerler, ancak mutlak sıfır yok | Sıcaklık, IQ puanı | Merkezi eğilim, dağılım, t-testi, ANOVA |
| Kesikli | Ayrık, sayılabilir değerler | Çocuk sayısı, öğrenci sayısı | Frekans tablosu, Poisson regresyonu |
| Bağımlı | Bir bağımsız değişkenle ilişkili | Test öncesi ve sonrası skorlar | Bağımlı iki örneklem t-testi, İkili regresyon |
| İşaretli | İki kategorik değişkenin kesişimi | Cinsiyet ve sigara içme durumu | İki yönlü ANOVA, Ki-Kare testi |





------
------

| Tür | Açıklama | Örnek |
|------|----------|--------|
| **Nicel (Quantitative)** | Sayısal veri | Satış miktarı, fiyat |
| **Nitel (Qualitative)** | Kategorik veri | Müşteri tipi, şehir, cinsiyet |
| **Bağımlı Değişken (Y)** | Tahmin edilmek istenen değişken | Satış miktarı |
| **Bağımsız Değişken (X)** | Tahmin etmek için kullanılan değişken | Reklam bütçesi, fiyat |

📌 Bağımlı değişken → neyi tahmin etmek istiyorum  
Bağımsız değişken → nasıl tahmin edeceğim?

## 📈 9. Kesikli mi? Sürekli mi?

| Tür | Açıklama | Örnek |
|------|----------|--------|
| **Kesikli (Discrete)** | Sayılabilir | Müşteri sayısı, sipariş adedi |
| **Sürekli (Continuous)** | Ölçülebilir | Sıcaklık, gelir, zaman |

📌 Kesikli → tam sayı  
Sürekli → ondalık da olabilir

## 📋 10. Veri ve Bilgi Arasındaki Fark

| Özellik | Veri | Bilgi |
|---------|------|--------|
| Kaynak | Ham kayıtlar | İşlenmiş veri |
| Form | Sayılar, metin, resim | Anlamlı tablo, grafik, rapor |
| Rolü | Ham madde | Karar verecek yapıya dönüşmüş hal |
| Nicelik | Genellikle fazla | Daha az ama daha yoğun |


## 📊 11. Merkezi Eğilim ve Yayılım Ölçüleri

### Merkezi Eğilim:

In [16]:
import numpy as np
import pandas as pd

df1 = pd.read_csv("data/satis_verisi.csv")

print("Ortalama:", df1['SatisAdedi'].mean())
print("Medyan:", df1['SatisAdedi'].median())
print("Mod:", df1['Kategori'].mode()[0])

Ortalama: 9.32
Medyan: 9.5
Mod: Elektronik


### Yayılım:

In [17]:
print("Standart Sapma:", df1['SatisAdedi'].std())
print("Varyans:", df1['SatisAdedi'].var())
print("IQR:", df1['SatisAdedi'].quantile(0.75) - df1['SatisAdedi'].quantile(0.25))

Standart Sapma: 5.557559234633908
Varyans: 30.886464646464635
IQR: 10.0


## 🚨 12. Hipotez Testi: Gerçek mi, Rastgele mi?

### Soru: Fiyat artışı satışları düşürdü mü?



✅ p < 0.05 → fark vardır  
❌ p ≥ 0.05 → fark tesadüfi olabilir

In [18]:
from scipy.stats import ttest_ind

dusuk_fiyat = df[df['fiyat'] < 200]['satis']
yuksek_fiyat = df[df['fiyat'] >= 200]['satis']

t_stat, p_val = ttest_ind(dusuk_fiyat, yuksek_fiyat)
print(f"p-değeri: {p_val:.4f}")

p-değeri: 0.0000


✅ p < 0.05 → fark vardır  
❌ p ≥ 0.05 → fark tesadüfi olabilir

## 📉 13. Dağılım Türleri ve Olasılık

| Dağılım Türü | Kullanım Alanı |
|---------------|------------------|
| **Normal Dağılım** | Sürekli verilerde |
| **Binom Dağılım** | İki sonuçlu deneylerde |
| **Poisson Dağılım** | Belirli zaman aralıklarında olay sayısı için |
| **Uniform Dağılım** | Her değerin eşit olasılıkta olduğu durumlar için |

📌 Bu dağılımları tanımak,  
doğru testi seçmek için gereklidir.

## 📌 14. Örneklem Seçimi: Nasıllar?

| Tür | Açıklama |
|------|----------|
| **Rassal Örnekleme** | Her birimin eşit seçilme şansı |
| **Tabakalı Örnekleme** | Gruplar dengelenmiş örneklem |
| **Kolay Örnekleme** | Ulaşılması kolay olanlardan örneklem alınır (yanlı olabilir) |

📌 Yanlı örneklem → yanlı sonuç → yanlı karar

## 📈 15. Yığın Veri (Batch Data) vs Akan Veri (Stream Data)

| Tür | Açıklama | Örnek |
|------|----------|--------|
| **Yığın** | Tüm veri aynı anda işlenir | Haftalık satış verisi |
| **Akan** | Parça parça gelir, gerçek zamanlı analiz gerekir | Sensörden canlı sıcaklık verisi |

📌 Yığın veri → statik  
Akan veri → dinamik

## 🗃️ 16. Yapılandırılmış mı? Yapılandırılmamış mı?

| Tür | Açıklama | Örnek |
|------|----------|--------|
| **Yapılandırılmış** | Tabloya sığar, sistematiktir | CSV dosyası |
| **Yarı Yapılandırılmış** | JSON, XML gibi kurallı ama esnek yapılar | API yanıtı |
| **Yapılandırılmamış** | Serbest formatta | Metin, video, ses |

📌 Yapay zeka modelleri yapılandırılmamış veriyle beslenemez.  
O yüzden NLP, görüntü işleme gibi tekniklerle dönüştürülür.

## 🧪 17. İstatistiksel Testler: Hangisini Kullanacağız?

| Test Türü | Ne Zaman Kullanılır? |
|-----------|----------------------|
| **T-Testi** | İki grup karşılaştırması |
| **ANOVA** | Üç veya daha fazla grup |
| **Ki-Kare** | Kategorik veri ilişkisi |
| **Mann-Whitney U** | Normal dağılmayan verilerde iki grup |
| **Wilcoxon İşaretli Sıra Testi** | Eşleştirilmiş karşılaştırma |
