# Introduction to NumPy

Python ve veri biliminin bilinen en eski ve en önemli kütüphanelerinden biri olan Numpy kütüphanesini burada inceleyeceğiz. 

Elbette eksik kalan bilgileri buradan toplayabilirsiniz. [Numpy Official](https://numpy.org/).

Numpy'ın asıl ve önemli amacı sayısal veri işleme özelliğini bulundurmasıdır. 

Some basic Git commands are:
```
pip install numpy
```

ile terminalden bu kütüphaneyi makinemize yükleme işlemini gerçekleştirebiliriz.

Data Science ve Big Data konularında işlememiz gerekecek çok çok yüksek boyutlardaki veriyi burada işleyerek işlerimizi kolaylaştırıp CPU'dan da kısmış olacağız.

 <img src="https://cdn.educba.com/academy/wp-content/uploads/2019/12/numpy-ndarray.png"
      style="width:300px; float: right; margin: 0 100px 40px 40px;"></img>
 
 
 Sağ taraftaki görselde görebileceğimiz gibi basit şekilde numpy'ın kullanım alanını görebiliriz. Numpy bizlere (şimdilik) bir, iki ve üç boyutlu işlemlere olanak sağlamaktadır. 2 boyut bildiğimiz üzere list ve matrix işlemleri olarak adalandırabileceğimiz işlemlerdi, üç boyutlular ise şimdilik değil ama ileride kesinlikle en çok kullanacak olacağımız şey olan görselleştirme, veri inceleme vs. gibi verilerle olan matematik işlemlerinde işimize yarayacak kısımdır.
 
 
# <font color="red"> WARNING!
    
* İlk aşamada unutmamız gereken şeylerin başında bu bilimsel işlemleri yapacağımız zaman kesinlikle *aynı* veri tipini kullanmamız gerekmektedir.
    
* Standart zamanlarda kullandığımız Python listeleri dinamik bir ivmelenme gösterirken, numPy ile yaptığımız listeler sabit bir boyut kullanacaktır. Özetle; n değer verdiğimiz array değiştiğinde bize yeni bir liste oluşturup bir öncekini hafızadan silecektir.


# Başlayalım!

## Şimdilik aşağıdaki kodların ardından eğerki 'Basic Python' bilgilerine hakimseniz diyeceğiniz şey, list işlemlerinden ne farkı olduğunu sorgulayacaksınız. Fakat bunlar tamamıyla veri biliminin büyük verilerle olan işlemlerinde işimize yarayacaktır.

In [1]:
import sys
import numpy as np 

In [23]:
np.array([1,2,3,4])

array([1, 2, 3, 4])

*<font color="green"> Burada basit numpy array tanımlamasını gerçekleştirdik. 1'den 4'e kadar olan rakamlardan oluşan ufak bir dizgi.

In [11]:
a = np.array([1, 2, 3, 4])

* Ardından bu array'i "a" değişkenine atayarak kullanımımızı bu şekilde kolaylaştırabiliriz.

In [24]:
b = np.array([0, .5, 1, 1.5, 2])

In [13]:
a[0], a[1]

(1, 2)

*<font color="green"> Dilersek bu numPy arrayinin sıfırıncı yahut birici indislerini çekip yazdırabiliriz.

In [14]:
a[0:]

array([1, 2, 3, 4])

*<font color="green"> Burada da sıfırıncı indisten array'imizin sonuna kadar olan indisleri yazdırıyoruz.

In [15]:
a[1:3] 

array([2, 3])

*<font color="green"> Burada ise 1'inci indisten başlayarak 3'üncü indise kadar olan değerleri 3. indis hariç şekilde yazdırabiliyoruz.

In [16]:
a[1:-1]

array([2, 3])

*<font color="green">  Listelerden bildiğimiz üzere negatif indeksleme sondan başlayarak okumamızı sağlamaktadır.

In [17]:
a[::2]

array([1, 3])

*<font color="green"> Sıfırıncı indeksten başla ikişer atlayarak son indise kadar git..

In [37]:
b

array([0. , 0.5, 1. , 1.5, 2. ])

In [18]:
b[0], b[2], b[-1]

(0.0, 1.0, 2.0)

In [22]:
b[[0, 2, -1]]

array([0., 1., 2.])

*<font color="green"> Burada ise listelerin multi-indexing özelliğini kullanabiliriz yine aynı şekilde.

# Array Types

In [39]:
a

array([1, 2, 3, 4])

In [40]:
a.dtype

dtype('int64')

In [41]:
b

array([0. , 0.5, 1. , 1.5, 2. ])

In [42]:
b.dtype

dtype('float64')

*<font color="green">  Şimdi veri tiplerini bu şekilde görüntüleyebiliriz.

In [45]:
np.array([1, 2, 3, 4], dtype=np.float)

array([1., 2., 3., 4.])

*<font color="green"> İstersek oluşturduğumuz array'in data type'ını bu şekilde değişitrebilriz. ki emin olun ki bu özelllik en çok elimizdeki büyük data'ları clean ederken çok işimize yarayacaktır.
    
* Bu değiştirdiğimiz verileri 'int8', 'int64' şeklinde byte'a göre de değiştirebiliriz.

In [47]:
c = np.array(['a', 'b', 'c'])

In [48]:
c.dtype

dtype('<U1')

In [50]:
d = np.array([{'a': 1}, sys])

In [51]:
d

array([{'a': 1}, <module 'sys' (built-in)>], dtype=object)

*<font color="green"> Ve daha fazlası; gerek dict, gerek string her yönde görüntüleyebiliriz.

# Dimensions and Shapes (Boyut ve biçim) 
* Hatırlarsak ilk kısımda bahsettiğimiz matrislere yani boyutlara (2 ve 3) giriş yapıyoruz.
* Yukarıda giriş aşamasında yaptıklarımızın hepsi liste ve tek boyutlu işlemlerdi.

In [52]:
X = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

*<font color="green"> Burada 2 boyutlu bir array oluşturduk.

In [55]:
X.shape

(2, 3)

*<font color="green"> Ardından bu array'in kaça kaçlık olduğunu yazdırdık. İki satır ve üç sütundan oluşan bir array.

In [54]:
X.ndim

2

*<font color="green"> .dim fonksiyonu ile bunun kaç boyutlu olduğunu görüyoruz. ndim yani dimension'un tersten  kısaltılmışı diyebiliriz hatırlaması böyle daha kolay

In [70]:
Y = np.array([
    [
        [7,8,9],
        [21,22,28],
    ],
    [
        [12,25,21],
        [8,9,1]
    ],
])

*<font color="green"> Burada biraz kafamız karışsın artık. Soru belli; burası kaç boyutlu? Artık 3 boyuta giriş yaptık. 

In [71]:
Y

array([[[ 7,  8,  9],
        [21, 22, 28]],

       [[12, 25, 21],
        [ 8,  9,  1]]])

In [61]:
Y.shape

(2, 2, 3)

*<font color="green"> Bunu küp örneğinden açıklayabiliirz. 2'ye 3'lük bir küp sistemi ve bunun içinde bir köşegen indirerek üç boyutu gözümüzde canlandırabiliriz.

In [67]:
Y.ndim

3

In [73]:
Y.size

12

*<font color="green"> Array'imiz 12 adet öge bulunduruyor.

# Indexing

In [74]:
X = np.array([
    [10, 11, 12],
    [13, 14, 15],
    [16, 17, 18]
])

In [75]:
X

array([[10, 11, 12],
       [13, 14, 15],
       [16, 17, 18]])

In [76]:
X[1]

array([13, 14, 15])

In [79]:
X[2][2]

18

In [81]:
X[:3, :3]

array([[10, 11, 12],
       [13, 14, 15],
       [16, 17, 18]])

In [82]:
X[:2, 2:]

array([[12],
       [15]])

*<font color="green"> Burada index işlemleri yaptık, yani hedeflediğimiz veriye direkt array üzerinden listelerden bildiğimiz yöntemlerle ulaştık. Yani liste işlemleri de burada da işimize yarıyor diyebiliriz.

In [83]:
X[2]

array([16, 17, 18])

In [84]:
X[2] = np.array([1, 2, 3])

In [85]:
X[2]

array([1, 2, 3])

*<font color="green"> İstediğimiz satırı da değiştirebiliyormuşuz üstüne yazıyoruz sadece o kadar.

# Statistics

In [88]:
x = np.array([16, 12, 45, 27, 82, 192])

*<font color="green"> Array'imiz şimdi bu olsun bize göre şimdilik yüksek; data science için oldukça düşük boyuttaki verielrle doldurduk. Bunların istatistiğini çıkartabiliriz. Toplamını, ortalamasını, modunu, medyanını, değerlerini vs vs.

In [89]:
x.sum()

374

*<font color="green"> Hepsini topladık. Bütün indisleri.

In [90]:
x.mean()

62.333333333333336

*<font color="green"> indislerin ortalamasını aldık: ~62.3

In [91]:
x.std()

62.4891101624026

*<font color="green"> Standard Devision yani Standart Sapmasını hesapladık. 

In [92]:
x.var()

3904.8888888888882

*<font color="green"> Burada ise **varyans** yani dağılımı hesaplamaktayız. Varyans nedir pekala? Varyans istatistiksel hesaplamalarda veri dağılımın merkezsel ortalamasını bulmaktadır. Formülü ise her değerin ortalamadan uzaklığının karelerinin toplamı şeklindedir.

In [94]:
x.sum(axis=0)

374

*<font color="green">  Her birinin yanına axis'lerini yani eksenlerini belirterek satırlara göre ayrı ayrı da bu işlemleri rahatlıkla gerçekleştirebiliriz. Şimdi tek boyutlu yaptığımız için pek bir anlam ifade etmeyecektir hepsi için ayrı ayrı yapılması.

 # Operations

In [117]:
a = np.arange(3,9)

In [118]:
a

array([3, 4, 5, 6, 7, 8])

*<font color="green"> 'arange' fonksiyonuyla 3'dahil olmak üzere 9'a kadar olan tek boyutlu array oluşturduk.

In [119]:
a + 10

array([13, 14, 15, 16, 17, 18])

*<font color="green">Her indise 10 ekledi.

In [120]:
a * 10

array([30, 40, 50, 60, 70, 80])

*<font color="green">10 ile çarptık.

# <font color="green">Bu şekilde yine basit bilgilerimiz sayesinde bütün işlemleri gerçekleştirebiliriz.

# Boolean Arrays

* Bool ifadelerde nasıl uygulayabiliriz. Bool ifadeler neydi? Boolean sadece işlemin True False olup olmadığını mı kontrol eder? Göreceğiz...
* Mantıksal işlemlerin, matematiksel işlemlerden ne fark var?

In [134]:
x = np.arange(10, 14)

In [135]:
x

array([10, 11, 12, 13])

In [140]:
x[[0, -1]]

array([10, 13])

*<font color="green">0'dan -1'ye yani baştaki ve sondaki değerleri aldık.

In [138]:
x[[True, False, False, True]]

array([10, 13])

*<font color="green">Şimdi ne yaptık? Aynısını yine baştaki ve sondaki değerleri aldık; bunu boolean olarak yaptık. Burası da işimizi görür :)

In [144]:
x >=10

array([ True,  True,  True,  True])

*<font color="green">Bütün indisleri kontrol etti ve döndü; hepsi 10'dan büyük.

In [145]:
x >= 12

array([False, False,  True,  True])

*<font color="green">12'den büyük ve eşit yalnızca iki indis mevcut; 12 ve 13.

In [147]:
x.mean()

11.5

In [148]:
x[x>x.mean()]

array([12, 13])

*<font color="green"> x array'indeki hangi indisler array'in ortalamasından büyük?
* Bunu hepsi için de uygulayabiliriz değil mi? varyans olsun, standart devision olsun hepsi.

In [151]:
X = np.random.randint(1000, size=(4,4))

In [152]:
X

array([[360,  92, 217, 762],
       [ 78, 239, 242, 265],
       [980,   2, 250, 784],
       [814, 456, 156, 543]])

*<font color="green">Elimizde 1000'e kadar random değerlerden oluşan bir kare matris mevcut artık. Bunun içini True False ile dolduralım mı ne dersiniz?

In [154]:
X[np.array([
    [True, True, False, True],
    [False, False, True, False],
    [True, True, False, True],
    [False, False, True, False]
])]

array([360,  92, 762, 242, 980,   2, 784, 156])

In [155]:
X > 20

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True, False,  True,  True],
       [ True,  True,  True,  True]])

In [156]:
X > 600

array([[False, False, False,  True],
       [False, False, False, False],
       [ True, False, False,  True],
       [ True, False, False, False]])

*<font color="green"> Ne yaptık doldurduk ve 20'den büyük 600'den küçük vs. s. diğer öğrendiğimiz her şeyi doğrudan matris üzerinde de yapabiliriz artık.   

In [159]:
X.T

array([[360,  78, 980, 814],
       [ 92, 239,   2, 456],
       [217, 242, 250, 156],
       [762, 265, 784, 543]])

*<font color="green"> İşte yine çokça kullanacağımız işlemlerden birisi olan Transpoze işlemi. Transpoze Linear Algebra dersi alan herkesin bildiği satır ve sütun yer değiştirme işlemi. 

* Bunu neden çokça kullanacağız? Elimize onlarca satır onlarca sütun büyüklüğünde gelecek verilerin satırını sütun olarak kullanmak daha kolay gelebilir. İşlemler öyle daha hızlı olabilir? O yüzden hemen transpoze alıp devam edebiliriz.    

# Other Important NumPy Functions

In [167]:
np.linspace(20, 30, 5)

array([20. , 22.5, 25. , 27.5, 30. ])

*<font color="red"> 'arange' fonksiyonuna benzeyen fakat farkı belirli aralıklarla array'imizi doldurmayı sağlayan bir fonksiyondur. O da şu demek 20 ila 30 arasında bana 5 tane sayı gönder.

In [170]:
np.empty(8)

array([ 4.63724748e-310,  0.00000000e+000, -2.53504688e+058,
        6.91656017e-310,  6.91656019e-310, -2.81601150e+076,
        6.91656019e-310,  6.91656017e-310])

*<font color="red"> Belleğin duruma göre bana gerçekten rasgele 8 adet sayı gönder.

In [172]:
x = np.array([1, 2, 3, 4, 5, 6])

In [173]:
np.append(x, [1,2])

array([1, 2, 3, 4, 5, 6, 1, 2])

*<font color="red">append ile array'imizin sonuna 1 ve 2 ekledik.

In [174]:
np.delete(x, 1)

array([1, 3, 4, 5, 6])

*<font color="red">Beğenmezsen sil, neden 1 yazdık ve ikisini de sildi? Çünkü ikisini bir eklemiştik.

In [176]:
x.shape

(6,)

In [177]:
a = np.array([
    [1,2,3],
    [2,3,5]
])

In [178]:
a

array([[1, 2, 3],
       [2, 3, 5]])

In [179]:
a.shape

(2, 3)

In [180]:
b = a.reshape(3,2)

In [181]:
b

array([[1, 2],
       [3, 2],
       [3, 5]])

*<font color="red">reshape ettik boyutumuzu değiştirdik. Aslında transpoze işleminin uzun hali.

In [184]:
# Pekala, bu diziyi for döngüsüyle kendi içinde yazdırabilir miyiz? Neden olmasın.

a = np.array([
    [1,2,3],
    [4,5,6],
    [7,8,9]
])

for i in a:
    print(i)

[1 2 3]
[4 5 6]
[7 8 9]


In [185]:
# E zaten böyle yazdım ben yukarıdan aşağı dümdüz çoktı istiyorum, o da mümkün. Flat ile.

a = np.array([
    [1,2,3],
    [4,5,6],
    [7,8,9]
])

for i in a.flat:
    print(i)

1
2
3
4
5
6
7
8
9


## İki array'i birleştirebilir miyiz? Elbette

In [194]:
a=np.arange(10).reshape(5,2)

In [192]:
a

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [195]:
b = np.arange(10, 20).reshape(5,2)

In [196]:
print(np.vstack((a,b)))

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]]


In [197]:
# Yatay olarak birleştirelim bir de.

x = np.arange(6).reshape(3,2)
y = np.arange(6,12).reshape(3,2)
print(np.hstack((a,b)))

[[ 0  1 10 11]
 [ 2  3 12 13]
 [ 4  5 14 15]
 [ 6  7 16 17]
 [ 8  9 18 19]]


# Zeros

In [203]:
z = np.zeros((10, 10))
print("%d bytes" % (z.size * z.itemsize))

800 bytes


In [205]:
z

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

*<font color="red"> 0'larla dolu bir 10'a 10 boyutunda bir matris. Bunun boyutunu da hesaplarız..

# Non-Zero

In [206]:
non_z = np.nonzero([1,2,0,0,0,5,7,8,0,12])

In [207]:
non_z

(array([0, 1, 5, 6, 7, 9]),)

*<font color="red"> 0 olmayanları çek basit.

# İstediğimiz sütuna göre sıralayabilir miyiz?

In [208]:
z = np.random.randint(0, 10, (3,3))

In [209]:
z

array([[8, 9, 6],
       [5, 8, 7],
       [3, 1, 3]])

In [210]:
z[z[:,1].argsort()]

array([[3, 1, 3],
       [5, 8, 7],
       [8, 9, 6]])