# NumPy Kütüphanesi Neden Bu Kadar Popüler?

`Numpy`, bizler için onu normal Python'un çok ötesine taşıyan birçok işlevi olan harika bir kütüphanedir. Birazdan NumPy'ın her zaman kullandığımız bazı temel işlevlere odaklanacağız. 

Ama başlamadan önce, ilk olarak NumPy'ı neden öğrenmemiz gerekiyor bu konuyu konuşalım.

![list](https://dq-content.s3.amazonaws.com/289/3.2-m289.gif)
![numpy_array](https://dq-content.s3.amazonaws.com/289/3.3-m289.gif)

Görüldüğü gibi NumPy Array'leri özellikle büyük hacimli verilerle çalışırken bize çok büyük kolaylık sağlar. Ama tabiki tek avantajı bu değil, Python'da ancak kod yazarak yapabileceğimiz bazı fonksiyonları bize hazır sunarak birçok konuda gereksiz zaman kaybının da önüne geçer. Şimdi hadi gelin, bu özellikleri keşfetmeye başlayalım.

## Bazı Örnek Veriler Oluşturalım

Eğer gerekliyse, başlamadan önce `NumPy` kütüphanesini bilgisayarımıza yükleyelim...

```python
!pip install numpy
```

In [9]:
import numpy as np # Bilgisayara yüklediğimiz kütüphaneleri kullanmak için bu yapıyı kullanıcaz

Veri ile çalışırken birçok durumda kendimiz **sentetik veri üretmeye** ihtiyaç duyarız. Bunu şu ana kadar öğrendiğimiz yöntemlerle de yapabiliriz, ancak NumPy bunun çok daha kolay bir yolu birçok çeşitlilikle birlikte bize sunuyor. Peki ne bunlar?

In [10]:
data = np.random.uniform(size=10000) # Dağılımlar hakkında ilerleyen derslerde çok daha detaylı konuşacağız
data_as_list = list(data)

In [11]:
data # İşte bir NumPy array

array([0.47546929, 0.64260141, 0.05153676, ..., 0.78129107, 0.44877898,
       0.74909361])

In [12]:
type(data)

numpy.ndarray

In [13]:
data.shape

(10000,)

In [14]:
data_as_list # Bu da bizim bildiğimiz liste formatı :)

[0.4754692894292257,
 0.6426014094942628,
 0.05153676118136119,
 0.8249879901149506,
 0.7219934909950028,
 0.3861028161195331,
 0.4756948501459356,
 0.11191027966979772,
 0.8973467581829367,
 0.9190437936627934,
 0.9839477474014536,
 0.16153893304999145,
 0.14759551104486657,
 0.8300566469782847,
 0.016364961623693386,
 0.3414519409322031,
 0.44072398618451025,
 0.6787038276530625,
 0.7339353866977492,
 0.3508880472450989,
 0.7397196812738894,
 0.21573388224776757,
 0.06861272182400013,
 0.6274320992868727,
 0.7331464736904458,
 0.12098676739746583,
 0.7885288037377487,
 0.31004278790652373,
 0.674752151233533,
 0.6626521931983289,
 0.5304650188013449,
 0.1961074036793602,
 0.8431896404883851,
 0.41882879564746245,
 0.577995390695595,
 0.618392575214138,
 0.4907489749274966,
 0.9304515305380345,
 0.9448945358503682,
 0.4729766089729701,
 0.28990333338503793,
 0.8765088115308282,
 0.8269847307315609,
 0.15769328122418758,
 0.3129581961293353,
 0.7533090654719744,
 0.7892111867749588,
 0

In [15]:
type(data_as_list)

list

Bir liste yapısı üzerinde matematiksel bir işlem yapmak istiyorsak, listede açık bir şekilde döngü yapısı kurmamız gerekir. Ancak bir numpy arrayi üzerinde hareket etmek istiyorsak, ona tek bir nesneymiş gibi davranabiliriz ve işlem numpy dizilerini oluşturan **tüm elemanlar** üzerinden gerçekleştirilir. Hem de **ışık hızında...**

- Örneğin önceki kod bloğunda oluşturduğumuz `data_as_list` değişkenindeki değerlere **2** eklemeye çalışalım.

In [17]:
data_as_list + 2

TypeError: can only concatenate list (not "int") to list

In [None]:
new_list = []

for row in data_as_list:
    new_list.append(row + 2)
    
new_list

Aynı işlemi bir de NumPy arrayleri üzerinde deneyelim.

In [None]:
new_data = data + 2
new_data

Peki **ışık hızında** yı biraz daha açmak gerekirse?

In [None]:
%%timeit
[row+2 for row in data_as_list]

In [None]:
%%timeit
data + 2

- **1000 µs** (mikro-saniye) = **1 ms** (mili-saniye) eşit olduğunu göz önünde bulunduralım!

NumPy rastgele sayıları etkili bir şekilde üretmek için harika araçlara sahiptir. 
- Hadi bunları biraz daha keşfedelim (görselleştirme yöntemlerini ilerleyen derslerde daha detaylı inceleyeceğiz).

In [None]:
import matplotlib.pyplot as plt
plt.style.use("seaborn") # Görseller oluşturulurken Seaborn stilini kullan

uniform_dist = np.random.uniform(0,10,size=10000)
plt.hist(uniform_dist, bins=50);

In [None]:
normal_dist = np.random.normal(3,1,size=10000)
plt.hist(normal_dist, bins=50);

In [None]:
exponential_dist = np.random.exponential(size=10000)
plt.hist(exponential_dist, bins=50);

In [None]:
ordered_dist = np.linspace(0,100,21)
ordered_dist

## NumPy Arrayleri Üzerinde İşlemler

Şu ana kadar hep tek boyutlu arraylerde çalıştık. Ama bunlar çok boyutlu da olabilir, NumPy bu işin üstesinden de rahatlıkla gelebiliyor. İşte bu yüzden `numpy` matematiksel işlemlerde kraldır. Pek çok ortak şeyi alabilir ve bunları vektörleştirilmiş bir sürece dönüştürebiliriz.

Bu özelliği bir vektörle, bir vektör tablosu arasındaki mesafeyi hesaplarken de kullanabiliriz.

In [None]:
# Vektör tanımlamaları
new_vec = np.array([1,2])
all_vecs = np.random.uniform(size=(100,2))

In [None]:
all_vecs

Eğer tek bir vektör çifti üzerinden bu işlemi gerçekleştirirsek;

In [None]:
vector_part = all_vecs[0]
np.sqrt((new_vec[0] - vector_part[0])**2 + (new_vec[1] - vector_part[1])**2) # 2 vektör arasındaki mesafe

Şimdi hadi ilk 10 vektör çifti üzerinde aynı işlemi uygulayalım;

In [None]:
np.sqrt(np.sum((all_vecs - new_vec)**2, axis=1))[:10]

`Numpy` kütüphanesi kullanarak yapılan bu işlemler **büyük veri kümelerinde ciddi bir zaman tasarrafu** sağlar. Nasıl mı?

In [None]:
%%timeit
output = []
for vec in all_vecs:
    dist = np.sqrt((new_vec[0] - vec[0])**2 + (new_vec[1] - vec[1])**2)
    output.append(dist)

In [None]:
%%timeit
np.sqrt(np.sum((all_vecs - new_vec)**2, axis=1))

Ya veri kümesinin boyutunu daha da arttırırsak?

In [None]:
all_vecs = np.random.uniform(size=(10000,2))

In [None]:
%%timeit
output = []
for vec in all_vecs:
    dist = np.sqrt((new_vec[0] - vec[0])**2 + (new_vec[1] - vec[1])**2)
    output.append(dist)

In [None]:
%%timeit
np.sqrt(np.sum((all_vecs - new_vec)**2, axis=1))

- **1000 µs** (mikro-saniye) = **1 ms** (mili-saniye) eşit olduğunu göz önünde bulunduralım!

NumPy arraylerinin hızına her beraber şahit olduk. Son olarak ise şu ana kadar konuştuklarımızı bir grafik gösterimi üzerinde toparlayalım.

#### Listelerden Yararlanarak Vektörler Arası Mesafe Hesabı

In [None]:
import time
list_timing = []
for num_vecs in np.linspace(10,10000,100):
    all_vecs = np.random.uniform(size=(int(num_vecs),2)).tolist()
    # İşlemin başladığı zaman
    start = time.time()
    
    # Vektörler arası mesafe
    output = []
    for vec in all_vecs:
        dist = np.sqrt((new_vec[0] - vec[0])**2 + (new_vec[1] - vec[1])**2)
        output.append(dist)
        
    # İşlem tamamlanana kadar ne kadar süre geçti
    end = time.time()
    list_timing.append((num_vecs, end - start))

#### NumPy Dizilerinden Yararlanarak Vektörler Arası Mesafe Hesabı

In [None]:
array_timing = []
for num_vecs in np.linspace(10,10000,100):
    all_vecs = np.random.uniform(size=(int(num_vecs),2))
    # İşlemin başladığı zaman
    start = time.time()
    
    # Vektörler arası mesafe
    output = np.sqrt(np.sum((all_vecs - new_vec)**2, axis=1))

    # İşlem tamamlanana kadar ne kadar süre geçti
    end = time.time()
    array_timing.append((num_vecs, end - start))

Vee sonuç...

In [None]:
plt.figure(dpi=150)
list_X, list_times = zip(*list_timing)
array_X, array_times = zip(*array_timing)

plt.plot(list_X, list_times, 'r', label="Lists")
plt.plot(array_X, array_times,'b', label='Arrays')
plt.xlabel("İşleme Dahil Edilen Vektör Sayısı")
plt.ylabel("Hesaplama Süresi")
plt.legend();