# NumPy

Bu notebook, **NumPy'nin veri biliminde neden vazgeçilmez olduğunu** ve temel kullanımını gösterir.

## Bu derste öğreneceğiz
- NumPy array mantığı (`ndarray`)
- `shape`, `dtype`, `ndim`, `size`
- Array üretme (zeros/ones/arange/linspace/random)
- Indexing / slicing / fancy indexing
- Boolean mask ile filtreleme
- Broadcasting + vectorization (hızlı hesap)
- Aggregation (mean/sum/std) ve `axis`
- `reshape`, `concatenate`, `stack`
- **Sentetik veri üretimi** ve mini analiz
- NumPy'nin hızını **ölçerek** görmek

> Not: Bu notebookta veri seti internetten çekilmiyor. Tamamı sentetik (üretilecek).


## 1) Kurulum: NumPy import ve sabit seed


In [None]:
import numpy as np

np.random.seed(42)  # aynı sonuçları görmek için
print("NumPy sürümü:", np.__version__)


NumPy sürümü: 2.0.2


## 2) NumPy nedir? `ndarray` mantığı


NumPy, hızlı vektör/matris hesapları için optimize edilmiş bir kütüphanedir. Temel veri yapısı: `ndarray`.


In [None]:
liste = [1, 2, 3, 4]
dizi = np.array(liste)

print("Liste:", liste, type(liste))
print("Dizi :", dizi, type(dizi))


Liste: [1, 2, 3, 4] <class 'list'>
Dizi : [1 2 3 4] <class 'numpy.ndarray'>


### 2.1) Temel özellikler: `shape`, `dtype`, `ndim`, `size`


In [None]:
dizi = np.array([10, 20, 30, 40, 50])

print("dizi      :", dizi)
print("shape     :", dizi.shape)
print("dtype     :", dizi.dtype)
print("ndim      :", dizi.ndim)
print("size      :", dizi.size)


dizi      : [10 20 30 40 50]
shape     : (5,)
dtype     : int64
ndim      : 1
size      : 5


## 3) Array üretme yöntemleri


In [None]:
sifirlar = np.zeros((3, 4))
birler = np.ones((2, 3))
aralik = np.arange(0, 10, 2)       # 0'dan 10'a, 2'şer art
esit_aralik = np.linspace(0, 1, 5) # 0 ile 1 arasında 5 nokta

print("zeros:\n", sifirlar)
print("\nones:\n", birler)
print("\narange:", aralik)
print("\nlinspace:", esit_aralik)


zeros:
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]

ones:
 [[1. 1. 1.]
 [1. 1. 1.]]

arange: [0 2 4 6 8]

linspace: [0.   0.25 0.5  0.75 1.  ]


### 3.1) Random (sentetik veri üretmenin temeli)


In [None]:
# Normal dağılım (ortalama=0, std=1)
rastgele_normal = np.random.randn(5)

# Uniform dağılım (0-1 arası)
rastgele_uniform = np.random.rand(5)

# Belirli aralıkta integer
rastgele_int = np.random.randint(0, 100, size=10)

print("Normal:", rastgele_normal)
print("Uniform:", rastgele_uniform)
print("Int:", rastgele_int)


Normal: [ 0.49671415 -0.1382643   0.64768854  1.52302986 -0.23415337]
Uniform: [0.05808361 0.86617615 0.60111501 0.70807258 0.02058449]
Int: [ 1 87 29 37  1 63 59 20 32 75]


## 4) 2D array (matris) oluşturma ve erişim


In [None]:
matris = np.array([
    [10, 20, 30],
    [40, 50, 60],
    [70, 80, 90]
])

print(matris)
print("shape:", matris.shape)


[[10 20 30]
 [40 50 60]
 [70 80 90]]
shape: (3, 3)


### 4.1) Indexing / Slicing


In [None]:
matris = np.array([
    [10, 20, 30],
    [40, 50, 60],
    [70, 80, 90]
])

print("matris[0,0] ->", matris[0, 0])
print("matris[1]   ->", matris[1])          # 2. satır
print("matris[:,1] ->", matris[:, 1])       # 2. sütun
print("matris[0:2, 1:3]\n", matris[0:2, 1:3])


matris[0,0] -> 10
matris[1]   -> [40 50 60]
matris[:,1] -> [20 50 80]
matris[0:2, 1:3]
 [[20 30]
 [50 60]]


## 5) Boolean mask ile filtreleme


In [None]:
maaslar = np.array([12000, 18000, 9500, 22000, 15000])
mask = maaslar > 15000

print("Mask:", mask)
print("15000 üstü maaşlar:", maaslar[mask])


Mask: [False  True False  True False]
15000 üstü maaşlar: [18000 22000]


### 5.1) Birden fazla şart (and/or)


NumPy'da `and/or` yerine `&` ve `|` kullanılır. Parantez şart.


In [None]:
yaslar = np.array([18, 22, 17, 30, 25, 40])
mask = (yaslar >= 18) & (yaslar <= 30)
print("18-30 arası:", yaslar[mask])


18-30 arası: [18 22 30 25]


## 6) Vectorization: Neden NumPy çok hızlı?


Python listelerde genelde döngü yazarsın. NumPy'da aynı işi tek satırda vektörize yaparsın.


In [None]:
fiyatlar = np.array([100, 200, 850, 1200])
kdv_orani = 0.20

kdv_dahil = fiyatlar * (1 + kdv_orani)  # element-wise
print(kdv_dahil)


[ 120.  240. 1020. 1440.]


### 6.1) Broadcasting (boyut uydurma)


In [None]:
matris = np.array([
    [100, 200, 300],
    [400, 500, 600]
])

satir_ekle = np.array([10, 20, 30])  # 1x3
sonuc = matris + satir_ekle

print("Matris:\n", matris)
print("Eklenecek satır:", satir_ekle)
print("Sonuç:\n", sonuc)


Matris:
 [[100 200 300]
 [400 500 600]]
Eklenecek satır: [10 20 30]
Sonuç:
 [[110 220 330]
 [410 520 630]]


## 7) Aggregation (toplama/ortalama) ve `axis`


In [None]:
matris = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

print("Toplam (tüm eleman):", matris.sum())
print("Satır toplamları (axis=1):", matris.sum(axis=1))
print("Sütun toplamları (axis=0):", matris.sum(axis=0))

print("Ortalama:", matris.mean())
print("Std:", matris.std())


Toplam (tüm eleman): 21
Satır toplamları (axis=1): [ 6 15]
Sütun toplamları (axis=0): [5 7 9]
Ortalama: 3.5
Std: 1.707825127659933


## 8) `reshape`, `ravel`, `transpose`


In [None]:
dizi = np.arange(1, 13)  # 1..12
matris = dizi.reshape(3, 4)

print("Dizi:", dizi)
print("Matris (3x4):\n", matris)

duz = matris.ravel()
print("Tek boyuta dön:", duz)

print("Transpose:\n", matris.T)


Dizi: [ 1  2  3  4  5  6  7  8  9 10 11 12]
Matris (3x4):
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
Tek boyuta dön: [ 1  2  3  4  5  6  7  8  9 10 11 12]
Transpose:
 [[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]]


## 9) Sentetik Veri Üretimi (Mini Veri Bilimi Senaryosu)


Bir mini müşteri tablosu üreteceğiz (tamamen sentetik):

- `yas` (18–65)
- `gelir` (normal dağılım, TL)
- `harcama` (gelire bağlı)
- `kredi_puani` (300–850)
- `online_sure` (dakika)
- `hedef` (müşteri ayrılır mı? 0/1) — basit bir kuralla

Amaç: NumPy ile hızlı üretim, filtreleme ve özetleme.


In [None]:
N = 50_000  # 50 bin müşteri

yas = np.random.randint(18, 66, size=N)
gelir = np.random.normal(
    loc=25000,      # Ortalama (Mean): Verinin merkez noktası 25.000 birim.
    scale=8000,     # Standart Sapma: Verinin ne kadar yayıldığı (Çoğunluk 25.000 ± 8000 aralığında).
    size=N          # Kaç adet veri üretileceği (Dizinin uzunluğu).
).clip(5000, 100000) # Sınırlandırma: 5.000'den küçükleri 5.000'e, 100.000'den büyükleri 100.000'e sabitler.

# Harcama: gelirin yaklaşık %10-40'ı gibi + gürültü
harcama = (gelir * np.random.uniform(0.10, 0.40, size=N)) + np.random.normal(0, 500, size=N)
harcama = harcama.clip(0, None)

kredi_puani = np.random.randint(300, 851, size=N)
online_sure = np.random.exponential(scale=60, size=N)  # dakika

# Basit hedef: düşük kredi + düşük gelir + düşük online süre => ayrılma ihtimali yüksek
ayrilma_skoru = (
    (kredi_puani < 500).astype(int) +
    (gelir < 18000).astype(int) +
    (online_sure < 20).astype(int)
)

hedef = (ayrilma_skoru >= 2).astype(int)

print("Örnek yas:", yas[:5])
print("Örnek gelir:", gelir[:5])
print("Örnek hedef:", hedef[:10])
print("Ayrılma oranı:", hedef.mean())


Örnek yas: [39 61 42 44 59]
Örnek gelir: [23126.90434441 26838.85239586 25920.91190913 33127.3720636
 41152.52612693]
Örnek hedef: [0 0 1 0 0 1 0 0 0 0]
Ayrılma oranı: 0.18654


### 9.1) Özellikleri tek bir matriste toplama


In [None]:
X = np.column_stack([yas, gelir, harcama, kredi_puani, online_sure])
print("X shape:", X.shape)
print("İlk satır:", X[0])


X shape: (50000, 5)
İlk satır: [   39.         23126.90434441  5965.24499774   649.
   101.36375569]


### 9.2) Hızlı özet istatistikler


In [None]:
print("Yaş ort:", yas.mean(), "| std:", yas.std())
print("Gelir ort:", gelir.mean(), "| std:", gelir.std())
print("Harcama ort:", harcama.mean(), "| std:", harcama.std())
print("Kredi puanı ort:", kredi_puani.mean())
print("Online süre ort:", online_sure.mean())


Yaş ort: 41.52108 | std: 13.832985058677682
Gelir ort: 24997.05649648424 | std: 7958.853649811742
Harcama ort: 6247.377233315915 | std: 3061.7873509304427
Kredi puanı ort: 575.73144
Online süre ort: 60.060215384931865


### 9.3) Filtreleme örneği: 30 yaş üstü ve gelir > 30k


In [None]:
mask = (yas > 30) & (gelir > 30000)
secili_gelirler = gelir[mask]

print("Seçilen kişi sayısı:", secili_gelirler.size)
print("Seçilenlerin gelir ortalaması:", secili_gelirler.mean() if secili_gelirler.size > 0 else None)


Seçilen kişi sayısı: 9628
Seçilenlerin gelir ortalaması: 34971.19407943337


### 9.4) Gruplama fikri (NumPy ile basit): yaş grupları


Örnek: 18-25, 26-35, 36-50, 51-65 yaş gruplarında ayrılma oranı


In [None]:
gruplar = [
    ((yas >= 18) & (yas <= 25), "18-25"),
    ((yas >= 26) & (yas <= 35), "26-35"),
    ((yas >= 36) & (yas <= 50), "36-50"),
    ((yas >= 51) & (yas <= 65), "51-65"),
]

for maske, isim in gruplar:
    oran = hedef[maske].mean()
    print(isim, "ayrılma oranı:", round(float(oran), 4))


18-25 ayrılma oranı: 0.1895
26-35 ayrılma oranı: 0.1874
36-50 ayrılma oranı: 0.1865
51-65 ayrılma oranı: 0.1844


## 10) Normalizasyon / Standardizasyon (çekirdek ön işleme)


Makine öğrenmesinde sık kullanılan iki yöntem:


In [None]:
# Min-Max (0-1 arası)
gelir_minmax = (gelir - gelir.min()) / (gelir.max() - gelir.min())

# Z-score (ortalama 0, std 1)
gelir_z = (gelir - gelir.mean()) / gelir.std()

print("Min-Max örnek:", gelir_minmax[:5])
print("Z-score örnek:", gelir_z[:5])


Min-Max örnek: [0.34334118 0.41364908 0.39626239 0.53275975 0.68476396]
Z-score örnek: [-0.23497758  0.23141472  0.11607895  1.02154354  2.02987394]


## 11) NumPy hız testi: Python list vs NumPy array


Amaç: Aynı işlemi iki farklı şekilde yapıp süreyi ölçmek.


In [None]:
import time

N = 2_000_000
liste = list(range(N))
dizi = np.arange(N)

def python_islem(liste):
    # her elemana 2 ekle (loop)
    sonuc = []
    for x in liste:
        sonuc.append(x + 2)
    return sonuc

def numpy_islem(dizi):
    return dizi + 2  # vektörize

# Python süresi
t0 = time.perf_counter()
_ = python_islem(liste)
t1 = time.perf_counter()

# NumPy süresi
t2 = time.perf_counter()
_ = numpy_islem(dizi)
t3 = time.perf_counter()

print("Python loop süre (sn):", round(t1 - t0, 4))
print("NumPy vektör süre (sn):", round(t3 - t2, 4))


Python loop süre (sn): 0.1117
NumPy vektör süre (sn): 0.0385


### 11.1) Büyük matris üzerinde toplama (hız farkı daha da belirgin)


In [None]:
import time
A = np.random.rand(2000, 2000)
B = np.random.rand(2000, 2000)

t0 = time.perf_counter()
C = A + B
t1 = time.perf_counter()

print("2000x2000 matris toplama (sn):", round(t1 - t0, 4))
print("C shape:", C.shape)


2000x2000 matris toplama (sn): 0.0182
C shape: (2000, 2000)


## BONUS: Veri Bilimi Odaklı Mini Örnekler

Aşağıdaki 3 örnek, NumPy’nin veri bilimi tarafında nasıl “pratik” kullanıldığını göstermek için eklenmiştir.


### 1) `np.diff()` ile returns (getiri) hesabı

Bir finans/zaman serisi örneği: fiyatlardan **günlük getiri (returns)** üretmek.


In [None]:
import numpy as np

# Örnek fiyat serisi (gün gün)
prices = np.array([100, 102, 101, 105, 110], dtype=float)

# Fiyat farkı (Δprice)
diffs = np.diff(prices)

# Basit getiri: (P_t - P_{t-1}) / P_{t-1}
returns = diffs / prices[:-1]

print("Prices   :", prices)
print("Diffs    :", diffs)
print("Returns  :", returns)
print("Returns% :", np.round(returns * 100, 2))


Prices   : [100. 102. 101. 105. 110.]
Diffs    : [ 2. -1.  4.  5.]
Returns  : [ 0.02       -0.00980392  0.03960396  0.04761905]
Returns% : [ 2.   -0.98  3.96  4.76]


### 2) Z-score ile outlier (uç değer) filtreleme

Z-score ile “çok uç” değerleri ayıklamak için basit bir maske.


In [1]:
import numpy as np

x = np.array([10, 11, 10, 12, 11, 10, 500, 9, 12, 11], dtype=float)  # 500 bariz outlier

mu = x.mean()
sigma = x.std()

z = (x - mu) / sigma

# |z| < 2.5 koşulu: klasik outlier filtresi
mask = np.abs(z) < 2.5

filtered = x[mask]
outliers = x[~mask]

print("x        :", x)
print("mean,std :", mu, sigma)
print("z-score  :", np.round(z, 2))
print("Filtered :", filtered)
print("Outliers :", outliers)


x        : [ 10.  11.  10.  12.  11.  10. 500.   9.  12.  11.]
mean,std : 59.6 146.80272477035294
z-score  : [-0.34 -0.33 -0.34 -0.32 -0.33 -0.34  3.   -0.34 -0.32 -0.33]
Filtered : [10. 11. 10. 12. 11. 10.  9. 12. 11.]
Outliers : [500.]


### 3) `dot` ile çok kısa matris çarpımı (tek örnek)

Örn: Basit bir **lineer skor** üretimi (X·w).


In [None]:
import numpy as np

# 3 gözlem, 2 özellik (feature)
X = np.array([
    [1, 2],
    [3, 4],
    [5, 6]
], dtype=float)

# Ağırlık vektörü
w = np.array([0.10, 0.20], dtype=float)

# Lineer skor
y = X.dot(w)

print("X:\n", X)
print("w:", w)
print("y = X·w :", y)


X:
 [[1. 2.]
 [3. 4.]
 [5. 6.]]
w: [0.1 0.2]
y = X·w : [0.5 1.1 1.7]
