# PYTHON İLE VERİ ANALİZİ 

 - NumPy
 - Pandas
 - Veri Görselleştirme: Matplotlib & Seaborn
 - Gelişmiş Fonksiyonel Keşifçi Veri Analizi (Advanced Functional Exploratory Data Analysis)

***********
# NUMPY

NumPy, çok boyutlu diziler (arrays) ve matematiksel işlemler için güçlü bir temel sağlar.

NumPy'nin temel özellikleri şunlardır:

1. **Çok Boyutlu Diziler (Arrays):** NumPy, tek boyutlu, iki boyutlu veya daha yüksek boyutlu diziler oluşturmanıza izin verir. Bu diziler, homojen veri tipleriyle çalışır ve genellikle sayısal veri setlerini temsil etmek için kullanılır.

2. **Matematiksel İşlemler:** NumPy, diziler üzerinde hızlı ve etkili matematiksel işlemler gerçekleştirmenizi sağlar. Toplama, çıkarma, çarpma, bölme gibi temel aritmetik işlemlerin yanı sıra trigonometrik, logaritmik, lineer cebir, istatistiksel ve diğer matematiksel işlemleri destekler.

3. **Yayın (Broadcasting):** NumPy'nin yayın özelliği, farklı boyutlardaki diziler üzerinde işlem yapmayı kolaylaştırır. Bu, örneğin iki farklı şekildeki dizileri toplamak veya çarpmak gibi işlemleri kolayca gerçekleştirmenizi sağlar.

4. **Rastgele Sayı Üretme:** NumPy, rastgele sayılar üretmek için kullanışlı bir alt modül olan `numpy.random` içerir. Bu, istatistiksel analiz, simülasyonlar ve diğer uygulamalarda kullanılır.

5. **Dosya İ/O:** NumPy, verileri diskten okumak ve yazmak için kullanışlı fonksiyonlar içerir. Bu sayede çeşitli veri formatlarından veri okuyabilir veya veriyi belirli bir formatta diske yazabilirsiniz.

NumPy, genellikle diğer veri bilimi kütüphaneleri (örneğin, Pandas, Matplotlib, SciPy) ile birlikte kullanılır ve bu ekosistemde veri analizi, görselleştirme ve bilimsel hesaplamalar için güçlü bir temel oluşturur.


Ele alınacak konu başlıkları;
--

- Neden NumPy? (Why Numpy?)
- NumPy Array'i Oluşturmak (Creating Numpy Arrays)
- NumPy Array Özellikleri (Attibutes of Numpy Arrays)
- Index Seçimi (Index Selection)
- Slicing
- Fancy Index
- Numpy'da Koşullu İşlemler (Conditions on Numpy)
- Matematiksel İşlemler (Mathematical Operations)

## Neden NumPy?

Daha az çaba ile daha fazla işlem yapma imkanı sağlar. Örneğin 2 listenin elemanların çarparak yeni bir liste oluşturalım;

İlk kısım, klasik Python listeleri (a ve b) kullanarak iki liste arasında eleman bazında çarpma işlemi yapar. Her iki liste (**`a`** ve **`b`**) üzerinde döngüye girer, her iki listenin aynı pozisyondaki elemanlarını çarpar ve sonuçları **`ab`** adlı yeni bir liste içinde biriktirir. Bu, eleman bazında çarpma işlemi yapmanın temel bir Python döngüsüyle gerçekleştirildiği klasik bir yaklaşımdır.

In [1]:
a = [1, 2, 3, 4]
b = [2, 3, 4, 5]

ab = []

# Her iki listenin aynı pozisyondaki elemanlarını çarpıp, yeni bir liste oluştur
for i in range(0, len(a)):
    ab.append(a[i] * b[i])

# Elde edilen liste
print(ab)

[2, 6, 12, 20]


İkinci kısım, NumPy kütüphanesini kullanarak aynı eleman bazında çarpma işlemi için vektörleştirilmiş bir yaklaşımı gösterir:

Bu kısım, NumPy kütüphanesini kullanarak iki NumPy dizisini eleman bazında çarpmayı gösterir. NumPy, vektörleştirilmiş operasyonları destekler, bu nedenle her iki dizi üzerinde doğrudan çarpma işlemi yapılabilir. Sonuç olarak, **result** adlı bir NumPy dizisi elde edilir. Vektörleştirilmiş operasyonlar, genellikle daha hızlı ve temiz bir kod sunar.

In [4]:
import numpy as np

a = np.array([1, 2, 3, 4])
b = np.array([2, 3, 4, 5])

# NumPy dizilerini eleman bazında çarpma işlemi
result = a * b

# Sonuç
print(result)


[ 2  6 12 20]


## NumPy Array'i Oluşturmak (Creating Numpy Arrays)

Bu kod bloğu, NumPy kütüphanesini kullanarak farklı tip ve boyutlarda numpy dizileri oluşturan işlemleri içerir.

1. **Tek Boyutlu Dizi Oluşturma:**

Bu ifade, **1'den 5'e kadar** olan sayıları içeren tek boyutlu bir **NumPy dizisi** oluşturur.

In [5]:
np.array([1, 2, 3, 4, 5])

array([1, 2, 3, 4, 5])

2. **Dizi Türünü Kontrol Etme:**

Bu ifade, oluşturulan **NumPy dizisinin veri tipini kontrol eder** ve tipinin **"numpy.ndarray"** olduğunu belirtir.

In [6]:
type(np.array([1, 2, 3, 4, 5]))

numpy.ndarray

3. **Sıfırlardan Oluşan Dizi Oluşturma:**

Bu ifade, **10 elemanı sıfır** olan bir **diziyi "`int`" veri tipinde** oluşturur.

In [8]:
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

4. **Rastgele Sayılardan Oluşan Dizi Oluşturma:**

Bu ifade, **0 ile 10 arasında rastgele tamsayıları** içeren, **10 elemanlı bir NumPy dizisi** oluşturur.


In [None]:
np.random.randint(0, 10, size=10)

5. **Normal Dağılıma Sahip Dizi Oluşturma:**

Bu ifade, **ortalama değeri 10**, **standart sapması 4** olan **normal dağılım**a sahip, **3x4 boyutunda** bir **NumPy dizisi** oluşturur.


In [9]:
np.random.normal(10, 4, (3, 4))

array([[10.59948823,  9.55868812, 13.57907862,  2.17012952],
       [10.62577861,  4.9319989 ,  9.5200292 ,  5.30643426],
       [15.66841652, 10.28565907, 13.36023835,  9.26963497]])

Her bir ifade, NumPy kütüphanesinin sağladığı güçlü özelliklerden birini kullanarak farklı türde diziler oluşturmayı gösterir.

## NumPy Array Özellikleri (Attibutes of Numpy Arrays)

- **ndim**: boyut sayısı
- **shape**: boyut bilgisi
- **size**: toplam eleman sayısı
- **dtype**: array veri tipi

NumPy kütüphanesini kullanarak rastgele tamsayılardan oluşan bir dizi oluşturduktan sonra, bu dizinin bazı özelliklerini kontrol eder. 

NumPy dizisinin temel özelliklerini kontrol ederek dizinin boyutu, şekli, eleman sayısı ve veri tipi gibi bilgileri sağlar.

1. **Rastgele Sayılardan Oluşan Dizi Oluşturma:**

Bu ifade, 0 ile 9 arasında (10 hariç) **rastgele tamsayıları** içeren, **5 elemanlı bir NumPy dizisi** oluşturur.

In [10]:
a = np.random.randint(10, size=5)

2. **Dizinin Boyutunu Kontrol Etme:**

Bu ifade, oluşturulan NumPy **dizisinin boyutunu (dimension) kontrol** eder. Tek boyutlu bir dizi olduğu için çıktı olarak `1` döner.

In [11]:
a.ndim

1

3. **Dizinin Şeklini Kontrol Etme:**

Bu ifade, oluşturulan NumPy **dizisinin şeklini (shape) kontrol eder**. Her boyuttaki eleman sayısını belirlitir. Bu örnekte tek boyutlu bir dizi olduğu için çıktı olarak **`(5,)`** döner. 5 elemanlı tek boyutlu bir dizi olduğunu belirtir.

In [12]:
a.shape

(5,)

4. **Dizinin Eleman Sayısını Kontrol Etme:**

Bu ifade, oluşturulan NumPy dizisinin toplam eleman sayısını kontrol eder. Tek boyutlu bir dizi olduğu için çıktı olarak **`5`** döner.

In [13]:
a.size

5

5. **Dizinin Veri Tipini Kontrol Etme:**

Bu ifade, oluşturulan NumPy **dizisinin veri tipini kontrol** eder. Rastgele tamsayılarla oluşturulduğu için çıktı olarak **`int64`** (64-bit tamsayı) döner.

In [None]:
a.dtype

## Yeniden Şekillendirme (Reshaping)

Bu kod bloğu, NumPy kütüphanesini kullanarak rastgele tamsayılardan oluşan bir diziyi oluşturur ve bu **diziyi farklı boyutlara dönüştürür**. 

1. **Tek Boyutlu Dizi Oluşturma:**

Bu ifade, **1 ile 9 arasında** (10 hariç) **rastgele tamsayıları içeren, 9 elemanlı bir NumPy dizisi** oluşturur. Ancak, bu dizi bir **değişkene atanmamıştır** ve bu nedenle oluşturulan dizi gösterilmez.

In [15]:
np.random.randint(1, 10, size=9)

array([5, 8, 3, 8, 1, 6, 5, 5, 2])

2. **Tek Boyutlu Dizi Oluşturma ve Yeniden Şekillendirme (Reshape):**

Bu ifade, 1 ile 9 arasında rastgele tamsayıları içeren, 9 elemanlı bir NumPy dizisi oluşturur ve bu **diziyi 3x3 boyutlarına dönüştürür** (reshape). Sonuç olarak, **3x3 boyutlu bir matris elde edilir**.

Not: Burada size 9 olduğu için 3x3'lük matris elde edebiliriz. Fakat size=10 olsaydı 3x3'lük bir matris oluşturamayacağımız için hata verir. Verilecek değerler ona göre ayarlanmalıdır.

In [16]:
np.random.randint(1, 10, size=9).reshape(3, 3)

array([[5, 3, 7],
       [8, 4, 9],
       [8, 9, 2]])

3. **Tek Boyutlu Dizi Oluşturma, Değişken Atama ve Yeniden Şekillendirme:**

Bu ifade, 1 ile 9 arasında rastgele tamsayıları içeren, 9 elemanlı bir NumPy dizisi oluşturur ve bu diziyi **`ar` adlı bir değişkene atar**. Daha sonra, bu **diziyi 3x3 boyutlarına dönüştürür** (reshape). **Elde edilen 3x3 boyutlu matris, `ar` değişkenine atanmış olur**.

In [17]:
ar = np.random.randint(1, 10, size=9)
ar.reshape(3, 3)

array([[7, 4, 2],
       [7, 3, 1],
       [4, 5, 4]])

Bu kod bloğu, **rastgele tamsayılardan oluşan diziyi oluşturma**, bu **diziyi değişkenlere atama** ve bu **diziyi yeniden şekillendirme (reshape)** işlemlerini gösterir.

## Index Seçimi (Index Selection)

**İndexlerin sıfırdan başladığını unutmayın**. Yani normalde birinci satır birinci sütunda yer alan değerin, satır ve sütun indexi sıfırdır.

In [20]:
import numpy as np

# Tek Boyutlu Dizi Oluşturma ve Eleman Erişim
a = np.random.randint(10, size=10)
a

array([8, 1, 2, 1, 6, 5, 2, 8, 4, 1])

In [22]:
a[0]  # İlk elemanı al

8

In [23]:
a[0:5]  # İlk beş elemanı al

array([8, 1, 2, 1, 6])

In [24]:
a[0] = 999  # İlk elemanı 999 olarak değiştir
a

array([999,   1,   2,   1,   6,   5,   2,   8,   4,   1])

In [25]:
# İki Boyutlu Matris Oluşturma ve Eleman Erişim (3x5'lik matris oluşturur)
m = np.random.randint(10, size=(3, 5))
m

array([[5, 2, 4, 0, 4],
       [7, 5, 2, 9, 5],
       [2, 7, 9, 3, 0]])

In [26]:
m[0, 0]  # Sıfırıncı satır, sıfırıncı sütunda yer alan elemana eriş

5

In [27]:
m[1, 1]  # 1. satır 1. sütundaki elemana eriş

5

In [28]:
m[2, 3]  # 2. satır, 3. sütundaki elemana eriş

3

In [29]:
m[2, 3] = 999  # 2.satır, 3. sütundaki elemanı 999 olarak değiştir
m

array([[  5,   2,   4,   0,   4],
       [  7,   5,   2,   9,   5],
       [  2,   7,   9, 999,   0]])

In [31]:
# 2. satır, 3. sütundaki elemana ondalıklı sayı atar, otomatik dönüşüm
m[2, 3] = 2.9 
m

array([[5, 2, 4, 0, 4],
       [7, 5, 2, 9, 5],
       [2, 7, 9, 2, 0]])

Numpy **sabit type** da bir arraydır. Numpy'ı hızlı kılan verimli veri saklama yönüdür. Üzerinde bin tane veri daha tutsan **hepsini tek bir type da tutar**. Bu sebeple girilecek verinin veri seti içindeki type ile uyumlu olması gerekir.
Başlangıçta integer değerler ile oluşturulduğundan, sonradan eklenen değerleri de integera çevirir.

In [32]:
# Dilimleme (Slicing) İşlemleri
 # Tüm satırları ve sadece ilk sütunu seç
m[:, 0] 

array([5, 7, 2])

In [33]:
m[1, :]  # İkinci satırı seç

array([7, 5, 2, 9, 5])

In [34]:
m[0:2, 0:3]  # İlk iki satırı ve ilk üç sütunu seç


array([[5, 2, 4],
       [7, 5, 2]])

## Fancy Index (Süslü İndeks)

In [47]:
# 0'dan 30'a kadar 3'er 3'er artan bir aralık oluşturun
v = np.arange(0, 30, 3)
v

array([ 0,  3,  6,  9, 12, 15, 18, 21, 24, 27])

In [52]:
# Oluşturulan dizinin 1. ve 4. indislerine erişin
element_at_1 = v[1]
element_at_4 = v[4]
print("Dizinin 1. indisi=", element_at_1, "\nDizinin 4. indisi=", element_at_4)

Dizinin 1. indisi= 3 
Dizinin 4. indisi= 12


**`v[catch]`**: catch adlı listeyi kullanarak, catch listesindeki indislerdeki elemanlara erişir. Bu durumda, catch listesindeki indisler [1, 2, 3] olduğu için bu indislerdeki elemanlara ulaşır.

In [54]:
# Bir liste kullanarak belirli indislerdeki elemanlara erişin
# Ulaşmak istediğimiz indisleri bir değişkene tanımladık
catch = [1, 2, 3]

# Seçilecek indis değerlerini selected_elements isimli değişkene atadık.
selected_elements = v[catch]

# Ekrana yazdır
print("Dizinin 1, 2 ve 3. indisleri=",selected_elements)

Dizinin 1, 2 ve 3. indisleri= [3 6 9]


## Numpy'da Koşullu İşlemler (Conditions on Numpy)

In [55]:
# 1'den 5'e kadar olan sayıları içeren bir NumPy dizisi oluşturun
v = np.array([1, 2, 3, 4, 5])
v

array([1, 2, 3, 4, 5])

### Klasik döngü ile

NumPy dizisi (v) üzerinde **döngü kullanarak** belirli bir **koşulu sağlayan elemanları seçer** ve bu **elemanları başka bir listeye (ab) ekler**. 

Aşağıdaki örnekte klasik döngü ile değeri 3 den küçük olan elemanlar başka listeye eklenmiştir.

In [56]:
ab = []  # Boş bir liste oluştur

# NumPy dizisi üzerinde döngü
for i in v:
    if i < 3:
        ab.append(i)  # Koşulu sağlayan elemanları listeye ekle

ab

[1, 2]

### Numpy ile

NumPy dizileri üzerinde mantıksal indeksleme kullanarak belirli koşulları sağlayan elemanları seçmeyi gösterir.

In [57]:
# NumPy dizisi üzerinde koşulu sağlayan elemanları belirleme
condition_lt_3 = v < 3  # 3'ten küçük olanları belirle
v[condition_lt_3]  # 3'ten küçük olan elemanları seç

array([1, 2])

In [58]:
condition_gt_3 = v > 3  # 3'ten büyük olanları belirle
v[condition_gt_3]  # 3'ten büyük olan elemanları seç

array([4, 5])

In [59]:
condition_not_equal_3 = v != 3  # 3'e eşit olmayanları belirle
v[condition_not_equal_3]  # 3'e eşit olmayan elemanları seç

array([1, 2, 4, 5])

In [60]:
condition_not_equal_3 = v != 3  # 3'e eşit olmayanları belirle
v[condition_not_equal_3]  # 3'e eşit olmayan elemanları seç

array([1, 2, 4, 5])

In [61]:
condition_greater_equal_3 = v >= 3  # 3'ten büyük eşit olanları belirle
v[condition_greater_equal_3]  # 3'ten büyük eşit olan elemanları seç

array([3, 4, 5])

Kodları aşağıdaki gibi tek satırda yazmakta mümkündür. Ayrıca istenirse bu değer herhangi bir değişkene atılabilir.

In [62]:
v[v<3]

array([1, 2])

## Matematiksel İşlemler (Mathematical Operations)

Bu kod bloğu, NumPy dizileri üzerinde temel matematiksel işlemleri ve bazı istatistiksel hesaplamaları gösterir. 

Bu kodun her bölümü, NumPy dizileri üzerinde farklı matematiksel işlemleri gerçekleştirir. **`np.subtract`**, **`np.add`**, **`np.mean`**, **`np.sum`**, **`np.min`**, **`np.max`**, **`np.var`** gibi NumPy fonksiyonları, diziler üzerinde işlemler yapmayı sağlar. Özellikle, **`v = np.subtract(v, 1)`** ifadesi, **`v`** dizisinin elemanlarından 1 çıkararak bu değişikliği orijinal dizinin üzerine uygular.

In [76]:
v = np.array([1, 2, 3, 4, 5])
# Dizinin Elemanlarını 5'e Bölme
result_divide_by_5 = v / 5

#Ekrana yazdırma
result_divide_by_5

array([0.2, 0.4, 0.6, 0.8, 1. ])

In [77]:
# Dizinin Elemanlarını 5 ile Çarpıp 10'a Bölme
result_multiply_by_5_divide_by_10 = v * 5 / 10
result_multiply_by_5_divide_by_10

array([0.5, 1. , 1.5, 2. , 2.5])

In [78]:
# Dizinin Elemanlarının Kareleri
result_square = v ** 2
result_square

array([ 1,  4,  9, 16, 25])

In [79]:
# Dizinin Elemanlarından 1 Çıkarma
result_subtract_1 = v - 1
result_subtract_1

array([0, 1, 2, 3, 4])

In [80]:
# NumPy Fonksiyonları ile İşlemler

# Orjinal diziden ([1, 2, 3, 4, 5]), 1 çıkarır.
result_subtract_np = np.subtract(v, 1)  # Diziden 1 çıkarma
result_subtract_np

array([0, 1, 2, 3, 4])

In [81]:
# Diziye 1 ekleme
# Orjinal diziye ([1, 2, 3, 4, 5]), 1 ekler
result_add_np = np.add(v, 1)  
result_add_np

array([2, 3, 4, 5, 6])

In [82]:
mean_value = np.mean(v)  # Dizinin ortalamasını alma
sum_value = np.sum(v)  # Dizinin toplamını alma
min_value = np.min(v)  # Dizinin en küçük elemanını bulma
max_value = np.max(v)  # Dizinin en büyük elemanını bulma
variance_value = np.var(v)  # Dizinin varyansını bulma

# Değerleri ekrana yazdırma
print("Dizinin Ortalaması=", mean_value, "\nDizinin Toplamı=",sum_value,
     "\nEn Küçük Eleman=",min_value, "\nEn Büyük Eleman=",max_value,
     "\nDizinin Varyansı=",variance_value)

Dizinin Ortalaması= 3.0 
Dizinin Toplamı= 15 
En Küçük Eleman= 1 
En Büyük Eleman= 5 
Dizinin Varyansı= 2.0


## NumPy ile İki Bilinmeyenli Denklem Çözümü

Aşağıda yer alan iki bilinmeyenli denklemi çözelim;

5*x0 + x1 = 12

x0 + 3*x1 = 10

Bu kod bloğu, NumPy kütüphanesini kullanarak lineer denklemleri çözmek için **`np.linalg.solve`** fonksiyonunu kullanır. 

Bu ifadelerin açıklamaları şu şekildedir:

- **`a`**: İki bilinmeyenli lineer denklemleri temsil eden katsayı matrisi.
- **`b`**: Denklemlerin sağ tarafındaki değerleri temsil eden vektör.
- **`np.linalg.solve(a, b)`**: Bu ifade, **`a`** katsayı matrisi ve **`b`** sağ taraf vektörü ile temsil edilen lineer denklem sistemini çözer ve bilinmeyenlerin değerlerini içeren bir vektörü (**`solution`**) döndürür.

Bu örnekte, lineer denklem sistemi:

\[5x_1 + x_2 = 12\]

\[x_1 + 3x_2 = 10\]


In [84]:
import numpy as np

# İki bilinmeyenli lineer denklem sistemi için katsayı matrisi
a = np.array([[5, 1], [1, 3]])

# Sağ taraf vektörü
b = np.array([12, 10])

# Lineer denklem sistemini çözme
solution = np.linalg.solve(a, b)

print(solution)

[1.85714286 2.71428571]
