# 📊 İstatistik ve Veri Bilimi: Sayıların Dilini Konuşmak

## Giriş: Veri Biliminde İstatistiğin Yeri

Veri bilimi, veriyi anlamak ve iş problemlerine çözüm üretmek için yapılan sistematik çalışmadır.  
Ama veriyi anlayabilmek için en güçlü araçlardan biri de **istatistik**tir.

> “İstatistik, veri dünyasında okuyup yazmayı öğrenmenin adıdır.  
Veri bilimi ise, o öğrenilenleri kullanarak hikâye kurmaktır.” 

## 🔍 İstatistik Nedir?

**İstatistik**, verinin toplanması, düzenlenmesi, özetlenmesi, analiz edilmesi ve bu verilerden çıkarım yapma sürecidir.

📌 Ana kütleden örneklem alıp onu analiz ederek genellemeler yapmamızı sağlar.  
Bu yüzden hem betimsel hem çıkarımsal istatistik veri biliminde hayati öneme sahiptir.

## 🧠 Neden Veri Bilimi İçin Önemli?

| Sebep | Açıklama |
|--------|----------|
| ✅ **Sayısal Temsil:** | Ham veri sadece sayı değildir; nasıl temsil edildiği önemlidir |
| ✅ **Merkezi Eğilim ve Yayılım:** | Ortalama, medyan, standart sapma ile veriyi tanıyabilirsin |
| ✅ **Hipotez Testi:** | Farklar gerçek mi, yoksa rastgele mi? Bunu test edebilirsin |
| ✅ **Çıkarımlar Yapmak:** | Küçük bir veriyle büyük sonuçlara ulaşmak için |
| ✅ **Modelleme ve Tahmin:** | Regresyon, sınıflandırma → hepsi istatistiksel dayanağa dayanır |

📌 Veri bilimi olmadan istatistik yalnız kalır.  
İstatistik olmadan veri bilimi kör yürür.

## 🧩 İstatistik Kavramları ve Veri Bilimi Bağlantısı

### 1. **Merkezi Eğilim Ölçüleri**
Verinin merkezini gösterir.

In [4]:
import numpy as np
import pandas as pd

df_model = pd.read_csv("data/satis_verisi.csv")



print("Ortalama:", df_model['SatisAdedi'].mean())
print("Medyan:", df_model['SatisAdedi'].median())
print("Mod:", df_model['Kategori'].mode()[0])

Ortalama: 9.32
Medyan: 9.5
Mod: Elektronik


### 2. **Yayılım Ölçüleri**
Verinin nasıl dağıldığını gösterir.

In [5]:
print("Standart Sapma:", df_model['SatisAdedi'].std())
print("Varyans:", df_model['SatisAdedi'].var())
print("IQR:", df_model['SatisAdedi'].quantile(0.75) - df_model['SatisAdedi'].quantile(0.25))

Standart Sapma: 5.557559234633908
Varyans: 30.886464646464635
IQR: 10.0


📌 Yüksek yayılım = yüksek belirsizlik  
Düşük yayılım = daha kararlı tahminler

### 3. **Hipotez Testleri**
İddiaları veriyle sınar.

#### Örnek: Fiyat artışı satışları düşürüyor mu?

In [6]:
from scipy.stats import ttest_ind

elektronik_fiyatlari = df[df['Kategori'] == 'Elektronik']['Fiyat']
giyim_fiyatlari = df[df['Kategori'] == 'Giyim']['Fiyat']

t_stat, p_val = ttest_ind(elektronik_fiyatlari, giyim_fiyatlari)
print(f"p-değeri: {p_val:.4f}")

p-değeri: 0.9312


✅ Eğer `p < 0.05` → fark var demektir. p-değeri: 0.9312 -> Fark yok, H0 kabul edilir."""

### 4. **Regresyon Analizi**
Bir değişkenin diğerine etkisini ölçer.

In [7]:
df = pd.read_csv("data/ornek_satis.csv")

from sklearn.linear_model import LinearRegression

model = LinearRegression()
X = df[['fiyat']]
y = df['satis']

model.fit(X, y)
print(f"Model Eğimi: {model.coef_[0]:.2f}")

Model Eğimi: -0.31


📌 Model eğimi negatifse → fiyat arttıkça satış azalıyor  
Pozitifse → fiyat arttıkça satış artıyor

### 5. **Dağılım Türleri ve Olasılık**

| Dağılım Türü | Ne Zaman Kullanılır? |
|--------------|-----------------------|
| **Normal Dağılım** | Sürekli verilerde |
| **Binom Dağılım** | Evet/hayır cevaplarında |
| **Poisson Dağılım** | Olay sayısı tahmini için |

📌 Veri biliminde bu dağılımları bilmek,  
veriye uygun model seçmek açısından çok önemli.

## 📈 İstatistiksel Yöntemlerin Veri Bilimi İçindeki Yeri

| Yöntem | Kullanım Alanı | Python Kodu |
|--------|----------------|-------------|
| **Tahmin Modelleri** | Regresyon, zaman serisi | `LinearRegression`, `ARIMA` |
| **Sınıflandırma Modelleri** | Lojistik regresyon, karar ağacı | `LogisticRegression`, `DecisionTreeClassifier` |
| **Hipotez Testi** | Karşılaştırma yapmak için | `ttest_1samp`, `chi2_contingency` |
| **Güven Aralığı** | Gerçek değerin nerede olabileceği | `scipy.stats.norm.interval` |
| **Korelasyon** | Değişkenler arası ilişki | `np.corrcoef`, `sns.heatmap()` |
| **Gruplandırma ve Karşılaştırma** | Segment bazlı analiz | `groupby()`, `anova` |

📌 Bu yöntemler, veri biliminin teorik temelini oluşturur.

🛠️ Basit Bir İstatistiksel İş Akışı: Kodla Görelim

In [9]:
import pandas as pd
import numpy as np
from scipy.stats import ttest_ind

# Sample veri yükle
df = pd.read_csv("data/ornek_satis.csv")

# Merkezi eğilim ve yayılım
print("Ortalama Satış:", df['satis'].mean())
print("Medyan Satış:", df['satis'].median())
print("Standart Sapma:", df['satis'].std())

# Grup karşılaştırması
fiyat_kucuk = df[df['fiyat'] < 200]['satis']
fiyat_buyuk = df[df['fiyat'] >= 200]['satis']

# T-testi ile fark var mı?
t_stat, p_val = ttest_ind(fiyat_kucuk, fiyat_buyuk)
print(f"Tahminli T-Test Sonucu - p-değeri: {p_val:.4f}")

Ortalama Satış: 121.52
Medyan Satış: 124.0
Standart Sapma: 42.50382751629969
Tahminli T-Test Sonucu - p-değeri: 0.0000


📌 Bu kodla:
- Veriyi tanıdık,
- Gruplara böldük,
- Aradaki farkı istatistiksel olarak test ettik.

## 📚 İstatistiksel Yaklaşımlar: Hangi Soruya Nasıl Cevap Bulur?

| Soru | Uygulanan İstatistiksel Yöntem |
|------|------------------------------|
| "Bu iki grubun ortalamaları farklı mı?" | T-Testi |
| "Satış miktarı fiyata bağlı mı?" | Korelasyon / Regresyon |
| "Hangi ürün kategorisi daha çok satılıyor?" | ANOVA veya Ki-Kare |
| "Müşteri memnuniyeti arttı mı?" | Wilcoxon Testi (nonparametrik) |
| "Bu kampanya gerçekten işe yaradı mı?" | Hipotez testi + Güven aralığı |
| "Bu veri normal dağılıyor mu?" | Shapiro-Wilk testi |

📌 Her soruya özel bir yöntem vardır.  
Ve her yöntemin arkasında da istatistiksel dayanak gizlidir.

## 📊 Betimsel vs Çıkarımsal İstatistik

| Özellik | Betimsel İstatistik | Çıkarımsal İstatistik |
|---------|---------------------|------------------------|
| Amacı | Veriyi özetlemek | Örnekten genelleme yapmak |
| Kullanım | Tablo, grafik | Modelleme, hipotez testi |
| Güven Düzeyi | Yok | Var |
| Örneklem | Sadece örneklem | Örneklem → kitle |
| Yöntem | Ortalama, medyan, varyans | Regresyon, hipotez testi, güven aralığı |

📌 Betimsel istatistik → veriyi tanımak  
Çıkarımsal istatistik → veriden eyleme geçmek

## 🤖 İstatistik, Makine Öğrenmesi ve Veri Bilimi Arasındaki Bağ

| Katman | Rolü |
|--------|------|
| **İstatistik** | Veri analizi, ilişkileri bulmak |
| **Makine Öğrenmesi** | İlişkileri modellemek |
| **Veri Bilimi** | Tüm süreci yönetmek ve değer üretmek |

📌 İstatistik, makine öğrenmesi için temeldir.  
Makine öğrenmesi, veri bilimi için uygulamadır.  
Ve veri bilimi, tüm bunları stratejiye dönüştürendir.

## 📉 İstatistiksel Testler ve Modelleme Arasındaki Bağ

| Test Türü | Kullanım |
|-----------|----------|
| **T-Testi** | İki grup ortalaması arasında fark var mı? |
| **ANOVA** | Üç veya daha fazla grup karşılaştırması |
| **Ki-Kare Testi** | Kategorik değişkenler arası ilişki |
| **Wilcoxon** | Normal dağılmayan veriler için |
| **Shapiro-Wilk** | Normallik testi |
| **Pearson / Spearman** | Korelasyon ölçümü |

📌 Bu testler olmadan modelin ne kadar doğru olduğunu söyleyemezsin.