# NUMPY 

<p>"Numerical Python" kelimelerinin kısaltılmışı olan Numpy, genel olarak lineer cebir ve mantıksal işlemlerin kullanıldığı her alanda bize işlemlerde kolaylık sağlayacak araçlar sunan bir kütüphanedir. Python'un standart kütüphaneleri arasında olmadığı için bunları ya işletim sisteminin türüne göre manuel olarak yüklemek gerekir ya da Anaconda Distribution gibi dağıtımları indirip oradaki hazır kütüphaneleri kullanmak gerekir. </p>

<br>

<p> Kurulum işlemi tamamlandıktan sonra Numpy Python'daki standart kütüphaneler gibi import edilir. Ancak yazılışı uzun sayıldığı için yazılışını kısaltmak amacıyla "as np" şeklinde kullanılması tavsiye edilir.

In [None]:
import numpy as np

<p>Numpy'daki en temel veri tipi <i>"array"</i> denilen yapılardır. Array'ler aşağıdaki gibi tanımlanır. </p>

In [None]:
array_ornek = np.array([1, 2, 3, 4]) 
print(array_ornek)

<p>Yukarıdaki örnekte görüldüğü gibi array'ler yapı olarak listelere benzemektedir. Ancak gerek yapısal veri tipi gerekse de kullanım yeri olarak listelerden farklılık gösterebilirler. O yüzden pek çok ileri düzey işlemde (vektörel işlemler, matriks veya dataframe tanımlama, boyutlar arası hesaplamalar vb.) listeler yerine array'ler kullanılır. Aşağıdaki örnek array'lerin Python'da hangi isimle tanımlandığını göstermektedir. </p>

In [None]:
array_ornek = np.array([1, 2, 3, 4])
print(type(array_ornek))

<p>Array'ler tek boyutlu olabileceği gibi çok boyutlu da olabilir. Yukarıdaki örnekteki array tek boyutluyken aşağıdaki örneklerde çok boyutlu array'ler tanımlanmıştır. Burada dikkat edilmesi gereken hususlardan biri çok boyutlu array tanımlarken tek parantez değil boyut sayısına göre birden fazla parantez kullanmamız gerektiğidir. </p>

In [None]:
arr1 = np.array([[1, 2], [3, 4], [5, 6]])
arr2 = np.array([[1, 3, 5], [7, 9, 11]])

print(arr1)
print(arr2)

<p>Array'lerin elemanlarına ulaşmak istersek tek yapmamız gereken istediğimiz elemanın indeks numarasını aşağıdaki yapıda yazmaktır. Ancak indeksleme işlemi tek boyutlu array'ler ile çok boyutlu array'lerde farklılık göstermektedir.</p>

In [None]:
arr1 = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
print(arr1)
print(arr2)

print(arr1[0])
print(arr2[0])
print(arr2[0][1])

<p>Arrayler'deki bir diğer özellik de array içerisindeki unsurların veri tipleridir. Mesela bir array'i tam sayı veri tipinde görmek isterken başka bir array'i noktalı sayı şeklinde görmek isteyebiliriz. Bu tarz özel ayarlamaları <i>"dtype</i> parametresi ile yapabiliriz. </p>

In [None]:
arr1 = np.array([1, 2, 3, 4.7], dtype = float)
arr2 = np.array([1.2, 2.1, 3.4, 4.7], dtype = int)
print(arr1)
print(arr2) 

# Numpy Özellikleri:

<p>Numpy kütüphanesinin içerisinde hesaplamalarımızda bize kolaylık sağlayan pek çok özellik bulunur. </p>

# ndarray.shape:

<p>Oluşturduğumuz array'in boyutunu gösterir. </p>

In [None]:
arr1 = np.array([[1, 2, 3, 4], [1, 2, 3, 4]])
print(arr1.shape)
print(arr1)

In [None]:
arr2 = np.array([1, 2, 3])
print(arr2.shape)
print(arr2)

In [None]:
arr3 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr3.shape)
print(arr3)

In [None]:
arr4 = np.array([[[1, 2], [3, 4], [5, 6]]])
print(arr4.shape)
print(arr4)

# ndarray.reshape

<p>Array'in boyutunu yeniden şekillendirmek istediğimizde reshape komutunu kullanırız. </p>

In [None]:
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print(arr.reshape(2, 5))
print(arr.reshape(1, 2, 5))

# ndarray.ndim

<p>Bir array'in boyut sayısını görmek istediğimizde ndim komutunu kullanırız. </p>

In [None]:
arr1 = np.array([[1, 2, 3, 4], [1, 2, 3, 4]])
arr2 = np.array([1, 2, 3])
arr3 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr4 = np.array([[[1, 2], [3, 4], [5, 6]]])

print(arr1.ndim)
print(arr2.ndim)
print(arr3.ndim)
print(arr4.ndim)

# numpy.arange:

<p>Belirli bir aralıkta sayısal değerler oluşturmak istediğimiz zaman arange komutunu kullanabiliriz. Bu komut yapı itibaryla Python'un gömülü fonksiyonlarından olan range() fonksiyonuna benzer. Ancak farklı olarak liste değil array veri tipli bir değer döndürür. </p>

In [None]:
n = np.arange(10)
print(n)
print(type(n))

In [None]:
n = np.arange(1, 5)
print(n)

<p>Eğer oluşturacağımız array'de sayıların kaçar kaçar artacağını farklı bir parametre kullanarak belirleyebiliriz. </p>

In [None]:
n = np.arange(10, 21, 2)
print(n)

In [None]:
n = np.arange(2, 1, -0.1)
print(n)

# numpy.zeros:

<p>Tamamen sıfırlardan oluşan bir array oluşturur. </p>

In [None]:
a = np.zeros(10)
print(a)

In [None]:
a = np.zeros(10).reshape(2, 5)
print(a)

In [None]:
a = np.zeros((2, 2))
print(a)

# numpy.ones:
<p>Tamamen birlerden oluşan bir array oluşturur. </p>

In [None]:
a = np.ones(10)
print(a)

In [None]:
a = np.ones(10).reshape(5, 2)
print(a)

In [None]:
a = np.ones((3, 3))
print(a)

# numpy.asarray:
<p>Başka veri tiplerini array'a dönüştürürken kullanılır. </p>

In [None]:
liste = [1, 2, 3, 4, 5]
arr = np.asarray(liste)
print(arr)
print(type(arr))

In [None]:
demet = (1, 2, 3, 4, 5)
arr2 = np.asarray(demet)
print(arr2)
print(type(arr2))

# numpy.linspace:

<p>Belli bir aralıkta belli bir sayıda düzenli artan değerler elde etmemizi sağlar. </p>

In [None]:
a = np.linspace(0, 1, 11)
print(a)

In [None]:
a = np.linspace(10, 100, 5)
print(a)

In [None]:
a = np.linspace(0, 5, 6)
print(a)

# numpy.eye:

<p>Belli bir boyutta, köşegen matrisi tamamen birlerden oluşan bir matris, yani birim matris oluşturur. </p>

In [None]:
a1 = np.eye(3)
print(a1)
a2  = np.eye(10)
print(a2)

# Array'lerde Elemanlara Ulaşma ve Elemanlar ile İşlemler Yapma:

<p>Konunun başında array'lerin elemanlarına listelerde veya Python'daki diğer benzer veri tiplerinde olduğu gibi elemanlarının konumları vasıtasıyla ulaşabileceğimizden bahsetmiştik. Elbette uygulayabileceğimiz işlemler bununla sınırlı değil. İndeksleri kullanarak daha ileri işlemler yapmak da mümkün. </p>

In [None]:
arr = np.arange(5)
print(arr)
print(arr[2:4])
print(arr[1:5])
print(arr[::])
print(arr[::-1])
print(arr[:4:2])
print(arr[1:])

<p>Yukarıdaki işlemlerden de anlaşılabileceği gibi array'lerdeki elemanlara listelerde olduğu gibi ulaşabiliriyoruz. Bu açıdan eğer elemanları değiştirmek veya daha farklı işlemler yapmak istersek gene listelerden alışık olduğumuz yöntemleri kullanabilriz. </p>

In [None]:
arr = np.linspace(0, 100, 11)
print(arr)
arr[0] = 1
print(arr)
arr[0:2] = 100
print(arr)
print(arr > 1000)
print(arr < 50)
arr[arr > 70] = 0
print(arr)

<p>Eğer array'ler çok boyutlu ise dilimleme işlemlerine de buna göre dikkat etmeliyiz. </p>

In [None]:
arr = np.arange(1, 17).reshape(4, 4)
print(arr)
print(arr[:, 1])
print(arr[:, 1:2])
print(arr[0, :])
print(arr[0:1, :])
print(arr[:, 0:2]) 

# Aritmetik İşlemler:

<p>Aynı boyuta sahip array'ler üzerinde temel aritmetik işlemler uygulanabilir. </p>

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([2, 2, 2, 2, 2])
print(a + b)
print(a - b)
print(a * b)
print(a / b)

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[2, 2], [2, 2]])
print(a)
print(b)

In [None]:
print(a + b)
print(a - b)
print(a * b)
print(a / b)

In [None]:
a = np.array([[[1, 2, 3], [4, 5, 6]]])
b = np.array([[[2, 2, 2], [2, 2, 2]]])
print(a.shape)
print(b.shape)

In [None]:
print(a + b)
print(a - b)
print(a * b)
print(a / b)

# Broadcasting:

<p>Yukarıda boyutları aynı array'ler üzerinde temel aritmetik işlemler yapabileğimizden söz ettik. Ancak farklı boyuttaki array'lerle işlem yapmamız da mümkündür. Broadcasting metodu, bize bu imkanı sağlayan yöntemlerden biridir. Bu metot sayesinde farklı boyuttaki array'ler arasında temel aritmetik işlemler yapılabilir. </p>

In [None]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([2])
print(arr1.shape)
print(arr2.shape)

In [None]:
print(arr1 + arr2)
print(arr1 - arr2)
print(arr1 * arr2)
print(arr1 / arr2)

In [None]:
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[[2], [5]]])
print(arr1.shape)
print(arr2.shape)

In [None]:
print(arr1 + arr2)
print(arr1 - arr2)
print(arr1 * arr2)
print(arr1 / arr2)

<p>Yukarıdaki örneklerde farklı boyuttaki array'lerle işlem yapılabileceğini gördük. Peki bu harf farklı boyuttaki array üzerinde aritmetik işlemler yapılabieceği anlamına gelir mi? Cevap, hayır. Çünkü broadcasting metodunun da belirli kuralları vardır ve bu kurallar her farklı boyuttaki array'i kapsamaz. O yüzden aşağıda özetlenen bu kuralları iyi anlayıp broadcasting uygulayacağımız array'leri buna göre seçmemiz gerekir.</p>

# Broadcasting Kuralları: 

<p>İki array üzerinde işlem yapılırken Numpy bu iki array'in boyutlarını kıyaslar. Bu kıyasa en sağdan başlar ve sola doğru devam eder. Eğer aşağıdaki şartlardan birini sağlanıyorsa işlemleri gerçekleştirir. </p>
<p>-Boyutlardaki değerler eşit olmalı ya da </p>
<p>-boyutlardaki değerlerden biri 1 olmalı. </p>
<p>Eğer bu şartlar sağlanmazsa <span style="color:red">ValueError: operands could not be broadcast together</span> hatasını alırız </p>

In [None]:
a = np.array([[1, 2], [3, 4], [5, 6]])
b = np.array([[[3], [5], [7], [8]]]) #Eğer sekiz çıkarılsaydı aritmetik işlem yapılabilirdi.
print(a.shape)
print(b.shape) #Array'lerin boyutları uyumsuz olduğu için hata verecektir.
print(a + b)

# Rastgele Sayılarla Array Oluşturma:

<p>Bilimsel çalışmalarda rastgele sayılara sıklıkla ihtiyaç duyulur. Bu noktada Numpy'ın çeşitli araçları yardımımıza yetişir. Bunlardan birisi veri biliminde sıklıkla kullanılan Gauss Dağılımından (Normal Dağılımdan) rastgele sayıları oluşturan randn() fonksiyonudur. Ancak bu fonksiyonu kullanmadan önce Gauss Dağılımından biraz bahsetmek gerekir.</p>

<p>Gauss Dağılımı, ya da daha bilinen haliyle Normal Dağılım, reel değerli bir rastgele değişkene göre tanımlanmış sürekli bir olasılık dağılımıdır. Bu, dağılımın formal açıklamasıdır. Ancak daha basit bir şekilde ifade etmek gerekirse, eğer bir değerler dizisi ortalama değer etrafında sıralandığında aşağıdaki çan şeklindeki grafiği oluşturuyorsa o değerler dizisi normal dağılıma sahiptir denir.</p>

<p><span style="color:red">NOT:</span> Aşağıdaki kodlar normal dağılımın görselleştirilmesi amacıyla yazılmıştır. Buradaki eğitim kapsamının dışında unsurlar da barındırdığı için kodu anlamamanız herhangi bir sorun teşkil etmeyecektir. </p>

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
import math

mu = 0
var = 1
sigma = math.sqrt(var)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
plt.plot(x, stats.norm.pdf(x, mu, sigma))
plt.show()

<p>Normal dağılımdan oluşan değerler analiz işlemlerinde kolaylık sağladığı için Numpy'ın stadart normal dağılımdan (0 ortalama, 1 varyans değerlerinden oluşan normal dağılım) rastgele sayılar üretmeye yarayan randn() fonksiyonu sıklıkla kullanılır. </p>

In [None]:
a = np.random.randn(10)
print(a)

<p>Eğer normal dağılımlı değil de belli bir aralıkta tam sayı değerler oluşturmak istersek randint() fonksiyonunu kullanabiliriz. </p>

In [None]:
a = np.random.randint(1, 10)
print(a)

In [None]:
a = np.random.randint(1, 10, 20)
print(a)
print(type(a))

<p>Yukarıdaki metotlarla oluşturulan rastgele array'ler üzerinde matematiksel analizler ve çıkarımlar yapabiliriz. Numpy bunun için de gelişmiş araçlara sahiptir. </p>

In [None]:
arr = np.random.rand(10000)
print(arr.max())
print(arr.min())
print(arr.argmax())
print(arr.argmin())
print(np.median(arr))
print(np.mean(arr))
print(np.std(arr))
print(np.var(arr))

Numpy array manipülasyonunda kullanılan çok sayıda metot sunar. Bunların hepsini bilmek çoğunlukla mümkün değildir. Ancak bazılarına aşina olmak önemlidir

# ravel:
<p>ravel() fonksiyonu Numpy'daki kritik manipülasyon araçlarından birisidir. Farklı boyuttaki bir array'i tek boyutlu hale getirir. İlk bakışta basit bir işlevi varmış gibi görünse de bilhassa çeşitli makine öğrenmesi algoritmalarında oldukça işe yarar. </p>

In [None]:
arr = np.arange(16).reshape(4, 4)
print(arr)
x = arr[:, 0:2].ravel()
print(x)

# concatenate:

<p>İki ya da daha fazla aynı boyutlu array'i aynı eksende birleştirmeye yarar. </p>
<p>Not: Numpy'da satır ekseni "axis = 0", sütun ekseni "axis = 1" olarak kullanılır. </p>

In [None]:
a1 = np.array([1, 2, 3])
a2 = np.array([4, 5, 6])
arr = np.concatenate((a1, a2))
print(arr)
a1 = np.array([[1, 2, 3]])
a2 = np.array([[4, 5, 6]])
arr = np.concatenate((a1, a2), axis = 0)
print(arr)
print(np.concatenate((a1, a2)))
print(np.concatenate((a1, a2), axis = 1))

In [None]:
a1 = np.array([[0,1], [2, 3]])
a2 = np.array([[4, 5], [6, 7]])
print(a1)
print(a2)
print(np.concatenate((a1, a2), axis = 0))
print(np.concatenate((a1, a2), axis = 1))

# append:

<p>Mevcut bir array'e yeni array eklemek istediğimizde kullanılır. </p>

In [None]:
arr = np.array([[10, 20], [30, 40]])
print(arr)
arr = np.append(arr, [50, 60])
print(arr)

In [None]:
arr = np.array([[10, 20], [30, 40]])
print(arr)
print(np.append(arr, [[50, 60]] , axis = 0))
print(np.append(arr, [[50, 60], [70, 80]], axis = 1))
print(np.append(arr, [[50, 60], [70, 80]], axis = 0))

# delete:

<p>Mevcut bir array'in belli bir kısmını silmek istediğimizde kullanılır. </p>

In [None]:
arr = np.arange(1, 17)
print(arr)
print(np.delete(arr, 0))

arr = np.arange(1, 17).reshape(4, 4)
print(arr)
print(np.delete(arr, 0, axis = 0))
print(np.delete(arr, 0, axis = 1))

# Matris Veri Tipi:

<p>Numpy'ın array'ler dışındaki bir diğer önemli unsuru da matris veri tipidir. </p>

In [None]:
matris = np.matrix("1, 2, 3; 4, 5, 6")
print(matris)
print(type(matris))

In [None]:
matris = np.matrix("1, 2; 3, 4; 5, 6")
print(matris)
print(type(matris))

<p>Matrislerle ilgili array'lerdekine benzer fonksiyonlar kullanmak istersek Numpy'ın yanında "matlib" kütüphanesini de kullanmamız gerekir. </p>

# numpy.matlib.zeros():

<p>Belli bir boyutta tamamen sıfırlardan oluşan bir matris oluşturur. </p>

In [None]:
import numpy as np
import numpy.matlib

mtr = np.matlib.zeros((4, 4))
print(mtr)

# numpy.matlib.ones():

<p>Tamamı birlerden oluşan belli bir boyutta matris oluşturur. </p>

In [None]:
mtr = np.matlib.ones((2, 2))
print(mtr)

# numpy.matlib.eye():

<p>Belli bir boyutta köşegen değerleri bir olan matris oluşturur. </p>

In [None]:
print(np.matlib.eye(n = 5, M = 4, k = 0))

# numpy.matlib.identity():

<p>Belli bir boyutta köşegen matris oluşturur. </p>

In [None]:
print(np.matlib.identity(4))

# numpy.matlib.rand():

<p>Belli bir boyutta rastgele değerlerden oluşan matris oluşturur. </p>

In [None]:
print(np.matlib.rand(3, 4))

# numpy.transpose:

<p>Bir array'in transpozunu (boyutlarının yer değiştirmesini) gerçekleştirir. </p>

In [None]:
arr = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])
print(arr)
print(np.transpose(arr))

# Lineer Cebir İşlemleri:

# Determinant:

In [None]:
arr1 = np.array([[1, 2], [3, 4]])
print(np.linalg.det(arr1))
arr2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr2)
print(np.linalg.det(arr2))

# Bir Matrisin Tersi:

In [None]:
arr = np.array([[1,2],[3,4]]) 
print(np.linalg.inv(arr))

# Nokta Çarpımı:

In [None]:
a1 = np.array([[1, 2,], [3, 4]])
a2 = np.array([[5, 6], [7, 8]])
print(np.dot(a1, a2))

# İç Çarpım:

In [None]:
a = np.array([1,2,3])
b = np.array([0,1,0])
print(np.inner(a, b))

# Matriks Çarpımı:

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[4, 1], [2, 2]])
np.matmul(a, b)

# PANDAS

<p>Pandas, modern teknoloji alanlarında yüksek performanslı veri manipülasyonu ve analiz araçları sunan ileri seviye bir Python kütüphanesidir. Son yıllarda oldukça gelişen yapısı sayesinde pek çok uygulama alanının olmazsa olmazı haline gelmiştir. </p>

# Series:

<p>Numpy'da array'ler nasıl ki en temel veri tipiyse, Pandas'ta seriler en temel veri tipidir. Kullanım olarak kısaca tek boyutlu, homojen veri dizilerini ifade eden seriler aşağıdaki şekilde tanımlanır. </p>

In [None]:
import pandas as pd
import numpy as np

seri = pd.Series(["a", "b", "c"])
print(seri)
print(type(seri))

<p>Yukarıdaki örnekten de anlaşılabileceği gibi, bir seri oluşturmak için Series() fonksiyonu içine öncelikle liste, sözlük ya da array gibi başka bir veri tipi ekliyoruz ve ardından o veri tipini seriye dönüştürüyoruz. Dikkat edilirse seri haline dönüştürdüğümüz verinin önünde bir de indeks bilgisi yer alıyor. Eğer indeksleri ayrıca tanımlamazsak indeks numaları 0'dan başlayıp verideki eleman sayısının bir eksiğine geldiğinde bitiyor. Eğer bunun haricinde indeks değerleri oluşturmak istersek bunu Series() fonksiyonu içerisinde ayrı bir parametre olarak belirtmek durumundayız.</p>

In [None]:
seri = pd.Series(["a", "b", "c", "d"], index = [10, 20, 30, 40])
print(seri)

<p>Kendi tanımlayacağımız indeks numaraları nümerik değerler içerebileceği gibi başka veri tipindeki değerleri de içerebilir. </p>

In [None]:
seri = pd.Series(["A", "B", "C"], ["Harf 1", "Harf 2", "Harf 3"])
print(seri)

<p>Eğer seri elemanlarına ulaşmak istersek bunu liste, demet, array vb. veri tiplerindekine benzer şekilde yapabiliriz. </p>

In [None]:
seri = pd.Series(["a", "b", "c", "d"])
print(seri[0])
print(seri[2:4])

In [None]:
seri = pd.Series([[1, 2], [3, 4]])
print(seri[0][0])
print(seri[1][1])

# DataFrames:

<p>Pandas'taki bir diğer önemli veri tipi de dataframe'ler, yani veri setleridir (veya veri çerçeveleri de denilebilir). Veri setlerinin serilerden farkı bunların kolon başlıkları içermesi ve tek boyutlu olabileceği gibi asıl olarak çok boyutlu verilerle çalışmamızı sağlamasıdır. </p>

In [None]:
df = pd.DataFrame([1, 2, "c", "d", "e"])
print(df)
print(type(df))

<p>Yukarıdaki örnekte DataFrame() fonksiyonu içerisine bir liste veri tipi yazdık ve daha sonra bunun bir veri setine dönüştüğünü type() fonksiyonu ile teyit ettik. Ayrıca veri setlerinin serilerden farkllı olarak bir kolon başlığı içerdiğini de gördük. Eğer veri setinin kolon başlıklarını kendimiz belirlemezsek başlık isimleri otomatik olarak atanır ve 0'dan başlayıp devam eder. </p>

In [None]:
df = pd.DataFrame(["a", "b", "c", "d"], columns = ["Harfler"])
print(df)

In [None]:
veriler = {"Sayılar": [1, 2, 3], "Harfler": ["a", "b", "c"]}
df = pd.DataFrame(veriler)
print(df)

<p>Serilerde olduğu gibi veri setlerinde de indeks numaralarını değiştirebiliriz. </p>

In [None]:
veriler = {"Sayılar": [1, 2, 3], "Harfler": ["a", "b", "c"]}
df = pd.DataFrame(veriler, index = ["Sıra-1", "Sıra-2", "Sıra-3"])
print(df)

<p>Eğer veri setlerindeki elemanlara ulaşmak istersek burada öncelikle yapmamız gereken kolon isimlerini belirtmektedir. Bunu yaptıktan sonra spesifik olarak o kolondaki belirli elemanlara indeks numaraları vasıtasıyla ulaşabiliriz. </p>

In [None]:
veriler = {"Sayılar": [1, 2, 3], "Harfler": ["a", "b", "c"]}
df = pd.DataFrame(veriler)
print(veriler["Sayılar"])
print(veriler["Harfler"])
print(veriler["Sayılar"][0])
print(veriler["Harfler"][2])

<p>Kolonlar üzerinden sayısal işlemler de yapabiliriz. </p>

In [None]:
v1 = pd.DataFrame([5, 10, 15], columns = ["Sayılar"])
v2 = pd.DataFrame([1, 1, 1], columns = ["Sayılar"])
print(v1)
print(v2)
v = v1 - v2
print(v)
print(type(v))

<p>Mevcut bir veri setine kolon ekleyebilir ya da bir kolonu çıkarabiliriz. </p>

In [None]:
v = pd.DataFrame([5, 10, 15], columns = ["Sayılar-1"])
print(v)
v["Sayılar-2"] = pd.DataFrame([1, 2, 3])
print(v)

<p>Eğer mevcut bir kolonu çıkarmak istersek del veya pop() seçeneklerini kullanabiliriz. </p>

In [None]:
v = {"İsimler": ["Ahmet", "Mehmet", "Saffet"], "Yaş": [24, 30, 60]}
df = pd.DataFrame(v)
print(df)
del df["Yaş"]
print(df)

In [None]:
v = {"İsimler": ["Ahmet", "Mehmet", "Saffet"], "Yaş": [24, 30, 60]}
df = pd.DataFrame(v)
print(df)
df.pop("İsimler")
print(df)

<p>Eğer bir veri setindeki satır veya kolonların değerlerinin tamamına ulaşmak istersek Pandas bize bunun için ilave araçlar da sunmaktadır. Bu noktada iloc ve loc fonksiyonlarını kullanabiliriz. </p>

In [None]:
v1 = {"Sayılar-1": [1, 2, 3], "Sayılar-2": [4, 5, 6]}
df1 = pd.DataFrame(v1)
print(df1, end="\n\n")
print(df1.iloc[0], end="\n\n")
print(df1.iloc[:, 1:2], end="\n\n")

In [None]:
v2 = {"İsimler": ["Ahmet", "Fatih", "Recep"], "Meslek": ["Öğretmen", "Avukat", "Tüccar"], "Sayılar": [1, 2, 3]}
df2 = pd.DataFrame(v2, index = ["s1", "s2", "s3"])
print(df2, end="\n\n")
print(df2.loc["s1"], end="\n\n")

<p>loc ile iloc arasında çeşitli farklar vardır. Bunlardan birisi, loc etiket tabanlıyken (label-based) iloc indeks tabanlıdır (index-based). Yani loc ile işlem yaparken seçeceğimiz satır veya sütunun adı önplandayken, iloc'ta indeks numaraları önplandadır. Ayrıca veri setimizde mantıksal operatörler yardımıyla manipülasyonlar yapmak istersek buna imkan veren loc fonksiyonunu kullanabiliriz. </p>

In [None]:
v = {"Kişiler": ["A", "B", "C", "U", "V", "X", "Y", "Z"], "Boy": [168, 185, 171, 156, 177, 182, 176, 191],
    "Kilo":[59, 78, 67, 49, 65, 86, 90, 76]}
df = pd.DataFrame(v)
print(df)

In [None]:
print(df.loc[df.Kişiler != "A"]) #Veri setinde A hariç diğer kişilerin bilgilerini görmemizi sağlar.

In [None]:
print(df.loc[0:5]) #0-5 etiketli satırlarda bulunan bilgileri görmemizi sağlar

In [None]:
print(df.loc[(df.Boy > 170) & (df.Kilo < 85)]) #Boyu 170'ten büyük ve kiloso 85'ten küçük kişileri görmemizi sağlar.

<p>Veri setleri üstünde çalışırken işlemlerimizi ekrana bastırmak için display() fonksiyonunu da kullanabiliriz. </p>

In [None]:
display(df)

In [None]:
display(df.iloc[:, 0:2]) 

In [None]:
display(df.iloc[0:5, :])

<p>Veri setleri; seriler, listeler ve vb. diğer Python veri tiplerinde olduğu gibi değiştirilebilir (mutable) veri tipleri olduğu için bir veri seti üstünde istediğimiz değişiklikleri rahatlıkla gerçekleştirebiliriz. </p>

In [None]:
v = {"Kişiler": ["A", "B", "C", "U", "V", "X", "Y", "Z"], "Boy": [168, 185, 171, 156, 177, 182, 176, 191],
    "Kilo":[59, 78, 67, 49, 65, 86, 90, 76]}
df = pd.DataFrame(v)
print(df["Kişiler"][7])
df["Kişiler"][7] = "W"
yeni = df["Kişiler"][7]
print("Yeni Kişi: {}".format(yeni))

In [None]:
v = {"Kişiler": ["A", "B", "C", "U", "V", "X", "Y", "Z"], "Boy": [168, 185, 171, 156, 177, 182, 176, 191],
    "Kilo":[59, 78, 67, 49, 65, 86, 90, 76]}
df = pd.DataFrame(v)
df.loc[(df.Kişiler) == "A"] = np.nan #A kişisine ait bütün değerleri "NaN" yani yok haline getirir.
print(df)

In [None]:
v = {"Kişiler": ["A", "B", "C", "U", "V", "X", "Y", "Z"], "Boy": [168, 185, 171, 156, 177, 182, 176, 191],
    "Kilo":[59, 78, 67, 49, 65, 86, 90, 76]}
df = pd.DataFrame(v)
df.loc[(df.Kişiler) == "A", ["Kilo"]] = 99 #A kişisinin kilosunu 99 yaptı.
print(df.loc[0])

<p>Eğer loc veya iloc ile elde ettiğimiz değerleri tek bir dizi haline görmek istersek values uzantısını kullanabiliriz. </p>

In [None]:
v = {"Kişiler": ["A", "B", "C", "U", "V", "X", "Y", "Z"], "Boy": [168, 185, 171, 156, 177, 182, 176, 191],
    "Kilo":[59, 78, 67, 49, 65, 86, 90, 76]}
df = pd.DataFrame(v)
print(df.iloc[:, 1:2].values) #1 indeksli kolonun bütün değerlerini tek bir array olarak elde etti. 

# Pandas Fonksiyonları:

## head()/tail():

<p>Veri setleri üzerinde çalışırken genelde tek seferde görüntülemesi zor verilerle çalışırız. O yüzden veri setinin bütünü yerine belli kısımlarını görmemiz daha uygun olacaktır. Böyle durumlarda veri setinin başlangıçtaki değerlerini dörmek için head(), sondaki değerlerini görmek için tail() fonksiyonunu kullanabiliriz. Eğer bu fonksiyonlarda kendimiz bir parametre belirtmezsek otomatik olarak her kolonun ilk 5 verisini görürüz. </p> 

In [None]:
x = np.random.randn(100)
y = np.random.randint(1, 10, 100)
df = pd.DataFrame({"Sayılar-1": x, "Sayılar-2": y})
print(df.head())
print(df.tail())

In [None]:
print(df.head(10))
print(df.tail(10))

# sum():

<p>Bir veri setinin belli bir satırı ve sütunundaki değerlerin toplamını sum() fonksiyonu ile elde edebiliriz.</p>

In [None]:
df = pd.DataFrame({"Sayılar-1":[10, 20, 30], "Sayılar-2":[50, 100, 150]})
print(df)
print(df.sum())

In [None]:
df = pd.DataFrame({"Sayılar-1":[10, 20, 30], "Sayılar-2":[50, 100, 150]})
print(df["Sayılar-1"].sum())
print(df["Sayılar-2"].sum())

# mean():

<p>Veri setiyle ilgili ortalama değerleri elde etmemizi sağlar. </p>

In [None]:
df = pd.DataFrame({"Sayılar-1":[10, 20, 30], "Sayılar-2":[50, 100, 150]})
print(df.mean())

# median():

<p>Veri setindeki medyan değerlerini elde etmemizi sağlar. </p>

In [None]:
df = pd.DataFrame({"Sayılar-1":[10, 20, 30], "Sayılar-2":[50, 100, 150]})
print(df.median())

# mode():

<p>Veri setindeki mod değerlerini verir. </p>

In [None]:
df = pd.DataFrame({"Sayılar-1":[10, 10, 20, 30], "Sayılar-2":[100, 50, 100, 150]})
print(df.mode())

# std():

<p>Veri setinin standart sapmasını verir. </p>

In [None]:
df = pd.DataFrame({"Sayılar-1":[10, 10, 20, 30], "Sayılar-2":[100, 50, 100, 150]})
print(df.std())

# count():

<p>Bir veri setinde kaç tane eleman olduğunu gösterir. </p>

In [None]:
df = pd.DataFrame({"Sayılar-1":[10, 10, 20, 30], "Sayılar-2":[100, 50, 100, 150]})
print(df.count())

# describe():

<p>Bir veri setindeki değerlerin tanımlayıcı özelliklerini genel bir tablo halinde özetler. </p>

In [None]:
df = pd.DataFrame({"Sayılar-1":[10, 10, 20, 30], "Sayılar-2":[100, 50, 100, 150]})
print(df.describe())

# Kayıp Verilerle Çalışmak: 

<p>Gerçek zamanlı çalışmalarda kayıp verilerle karşılaşmak çok sık yaşanan bir durumdur. Ancak bu iyiye işaret değildir. Çünkü kayıp veriler bizim analiz ve analiz sonrası işlemlemlerimizi sekteye uğratır. Dolayısıyla kayıp verileri gördüğümüz anda onlardan kurtulmamız gerekir. Bunun için çok çeşitli ve yer yer ileri düzey işlemler yapılabilir. Ancak Pandas'ın bize sunduğu araçlarla bunu en basit haliyle bilmek başlangıç için yeterli olacaktır. </p>

In [None]:
df = pd.DataFrame({"Boy": [180, 160, 175, np.nan, 174, np.nan], "Yaş":[18, 22, 16, 13, np.nan, np.nan]})
print(df)

<p>Python'da kayıp veriyi np.nan komutu ile oluşturabildiğimizi daha önceki örneklerde görmüştük. Yukarıdaki örnekte bunu bir kez daha kullanıp çeşitli kayıp veriler oluşturduk. Burada az sayıda veri olduğu için ilk bakışta hangi verilerin kayıp olduğunu fark ettik. Ancak büyük çaplı veri setlerinde tespit işleminin otomatize olması gerekir. Bundan dolayı Pandas'ta bulunan isna() fonksiyonu ile kayıp verileri tespit edip dropna() ile onları veri setinden çıkarabiliriz. 

In [None]:
df = pd.DataFrame({"Boy": [180, 160, 175, np.nan, 174, np.nan], "Yaş":[18, 22, 16, 13, np.nan, np.nan]})
print(df.isna().sum())
df = df.dropna()
print(df.isna().sum())
print(df)

<p>Eğer kayıp verileri komple çıkarmak yerine kendi belirleyeceğimiz bir değerle değiştirmek istersek bunun için fillna() fonksiyonunu kullanabiliriz. </p>

In [None]:
df = pd.DataFrame({"Boy": [180, 160, 175, np.nan, 174, np.nan], "Yaş":[18, 22, 16, 13, np.nan, np.nan]})
df = df.fillna(df.median()) 
print(df)

# Veri Düzenleme:

<p>Verilerle çalışırken bazen değerleri sıralamamız, sınıflandırmamız veya bunlara göre değişiklikler yapmamız gerekir. Bu noktada Pandas'ın düzenleme komutları devreye girer. </p>

# apply():

<p>Fonksiyonel dillere ait bir özellik olan fonksiyon uygulama yöntemininin Pandas vasıtasıyla Python'da kullanılmasını sağlar. apply() içerisine yazılan fonksiyon veri setinde uygulanır. </p>

In [None]:
df = pd.DataFrame({"Sayılar": [10, 20, 30, 40, 50]})
def ona_böl(df):
    return df / 10
print(df.apply(ona_böl))

# groupby():

<p>

In [None]:
v = {"Çalışanlar": ["Ahmet", "Mustafa", "Ayşe", "Fatma", "Kaan", "Nimet", "Hasan", "Mert", "Sema"],
    "Departman": ["Lojistik", "Lojistik", "Yazılım", "Pazarlama", "Lojistik", "Pazarlama", "Yazılım", "Pazarlama", "Pazarlama"],
    "Maaşlar": [4000, 4500, 4200, 3800, 4700, 3500, 4300, 4000, 5000]}
df = pd.DataFrame(v)
display(df)

In [None]:
df.pop("Departman") #Maaş değerlerine göre gruplandırma yaparken departman bilgisine ihtiyacımız olmadığı için bu kısmı çıkarır.
gby = df.groupby("Maaşlar")
display(gby.count())

In [None]:
v = {"Çalışanlar": ["Ahmet", "Mustafa", "Ayşe", "Fatma", "Kaan", "Nimet", "Hasan", "Mert", "Sema"],
    "Departman": ["Lojistik", "Lojistik", "Yazılım", "Pazarlama", "Lojistik", "Pazarlama", "Yazılım", "Pazarlama", "Pazarlama"],
    "Maaşlar": [4000, 4500, 4200, 3800, 4700, 3500, 4300, 4000, 5000]}
df = pd.DataFrame(v)
df.pop("Maaşlar") #Hangi departmanda kaç kişi olduğunu görüntülerken maaşlar işimize yaramadığı için bu kolonu düşürür.
gby = df.groupby("Departman")
display(gby.count())

In [None]:
v = {"Çalışanlar": ["Ahmet", "Mustafa", "Ayşe", "Fatma", "Kaan", "Nimet", "Hasan", "Mert", "Sema"],
    "Departman": ["Lojistik", "Lojistik", "Yazılım", "Pazarlama", "Lojistik", "Pazarlama", "Yazılım", "Pazarlama", "Pazarlama"],
    "Maaşlar": [4000, 4500, 4200, 3800, 4700, 3500, 4300, 4000, 5000]}
df = pd.DataFrame(v)
df.pop("Çalışanlar")
gby = df.groupby("Departman")
display(gby.mean())

# concat():

<p>Satır veya sütun bazlı olarak farklı veri setlerini birleştirmeye yarar. </p>

In [None]:
df1 = pd.DataFrame({"İsim-1": ["Ali", "Ayşe", "Fatma"]} )
df2 = pd.DataFrame({"İsim-2": ["Mehmet", "Mustafa", "Mine"]})
df = pd.concat([df1, df2], axis = 1) #axis = 1 parametresi veri setlerinin sütun bazlı birleştirilmesini sağlar.
print(df)

# merge():

<p>Ortak kolonlara sahip veri setlerini bu kolonlar üzerinden yeniden oluşturmak istersek merge() fonksiyonunu kullanabiliriz. </p>

In [None]:
df1 = pd.DataFrame({"İsimler": ["Ali", "Ayşe", "Fatma"], "Yaş": [25, 30, 35]} )
df2 = pd.DataFrame({"İsimler": ["Ali", "Ayşe", "Fatma"], "Meslek": ["Öğretmen", "Eczacı", "Ekonomist"]})
display(df1)
display(df2)
df = pd.merge(df1, df2, on = "İsimler")
display(df)

# MATPLOTLIB

<p>Matplotlib veri görselleştirmede kullanılan oldukça gelişmiş bir kütüphanedir. Veri içeren yapılar üstünde ileri seviye görselleştirme araçları sunmaktadır. Bunlardan en temeli plot() fonksiyonudur.</p>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 
#inline ifadesi grafiklerin notebook'ta görüntülenmesini ve kaydedilmesini sağlar

x = [1, 2, 3, 4, 5, 6]
y = [10, 20, 30, 40, 50, 60]
plt.plot(x, y)
plt.show() 

# Grafikleri Özelleştirmek:

<p>Matplotlib'in bize sunduğu araçlarla verilerdeki değerleri yukarıdaki örnekte olduğu gibi sade bir görünümle sunabiliriz. Ancak hem eldeki verileri daha ayrıntılı incelemek hem de işe bir miktar da sanatsallık katmak için çoğu analist görselleştirme işlemlerinde ileri düzey teknikleri kullanmayı tercih eder. Veri görselleştirme başlı başına bir uzmanlık alanı olduğu için bunların tamamını tek bir başlık altında işlemek mümkün değildir. Zira görselleştirmede tek araç Matplotlib değildir. Ancak bu kütüphane çoğu alanda kullanışlıdır ve temel görselleştirme işlemlerinde en çok tercih edilen kütüphanedir. </p>

<p>Bir grafiğe başlık eklemek için xlabel (x ekseni başlığı), ylabel(y ekseni başlığı) ve title(genel başlık) kullanılır. </p>

In [None]:
x = np.random.randint(0, 10, 10)
y = np.random.randint(0, 10, 10)
plt.scatter(x, y)
plt.xlabel("X Ekseni")
plt.ylabel("Y Ekseni")
plt.title("Örnek Grafik")
plt.show()

<p>Bir grafiğin x ve y ekseninin limitlerini belirleyebiliriz. Bunun için xlim ve ylim kullanılır. </p>

In [None]:
x = np.random.randint(0, 10, 10)
y = np.random.randint(0, 10, 10)
plt.scatter(x, y)
plt.xlim(0, 20)
plt.ylim(0, 20)
plt.show()

<p>Grafik boyutlarını figure() fonksiyonunun figsize parametresi ile yeniden ayarlayabiliriz. </p>

In [None]:
x = np.random.randint(0, 10, 10)
y = np.random.randint(0, 10, 10)
plt.figure(figsize = (20, 12))
plt.scatter(x, y)
plt.show()

In [None]:
x = [1, 2, 3, 4, 5]
y = [10, 20, 30 , 40, 50]
plt.plot(x, y, "rx--") #parametreler yerine kısaltmalarla oluşturulan grafikler
#plt.plot(x, y, color="red", marker="x", linestyle="dashed")

<p>Bir grafik içerisinde birden fazla çizgi görselleştirebilir ve bu çizgilerin renk, nokta görüntüsü vb. unsurları aşağıdaki yapılarla özelleştirilebilir. </p> 

<p>Renkler için kısaltmalar: b (blue), g (green), r (red), y (yellow), k (black), m (magenta).... </p>
<p>İşaretleticiler için kısaltmalar: '.' (point marker), 'o' (circle marker), 'x' (X marker), 'D' (diamond marker)... </p>
<p>Çizgi stilleri için kısaltmalar: '-' (solid line), '--' (dashed line), '-.' (dash-dot line), ':' (dotted line)... </p>

In [None]:
x = [1, 2, 3, 4, 5]
y = [10, 20, 30 , 40, 50]
x2 = [1, 4, 9, 16, 25]
x3 = [0.1, 0.2, 0.3, 0.4, 0.5]
plt.plot(x, y, "rx--")
plt.plot(x2, y, "mo-")
plt.plot(x3, y, "kD:")
plt.show()

<p>Aksisler ve figure() fonksiyonunu kullanarak özelleştirilmiş figürler oluşturabilir, legend() fonksiyonu ile bu figürlere grafik başlığı ekleyebiliriz. </p>

In [None]:
x1 = np.array([1, 4, 9, 16, 25])
x2 = np.array([1, 8, 27, 64, 125])
y = np.array([1, 2, 3, 4, 5])
fig = plt.figure()
ax = fig.add_axes([0.2, 0.2, 1, 1])
ax.plot(x1, y, "ko-")
ax.plot(x2, y, "ro-")
ax.legend(labels = ("x1 değerleri", "x2 değerleri"), loc = "lower right")
ax.set_title("Örnek Grafik")
ax.set_xlabel("X ekseni")
ax.set_ylabel("Y ekseni")
plt.show()

# İç İçe ve Alt Grafikler:

<p>Zaman zaman tek bir grafik üstünden değil, iç içe veya alt grafiklerle de çalışmamız gerekir. Bunun için subplot() fonksiyonunun varyasyonları kullanılabilir. </p>

In [None]:
x1 = np.array([1, 2, 3, 4, 5])
x2 = x1 ** 2
x3 = x1 ** 3
x4 = x1 ** 4
y = np.array([1, 2, 3, 4, 5])

plt.subplot(2, 2, 1)
plt.plot(x1, y, "rD--")
plt.subplot(2, 2, 2)
plt.plot(x2, y, "yD--")
plt.subplot(2, 2, 3)
plt.plot(x3, y, "mD--")
plt.subplot(2, 2, 4)
plt.plot(x4, y, "kD--")

In [None]:
fig = plt.figure()
ax1 = fig.add_axes([0.2, 0.2, 1, 1])
ax2 = fig.add_axes([0.9, 0.4, 0.2, 0.2])

x = np.array([0.1, 0.2, 0.3])
y = np.array([1, 2, 3])

ax1.plot(x, y, "rD--")
ax1.set_title("Ana Grafiğin Başlığı")
ax1.set_xlabel("Ana Grafiğin X Ekseni")
ax1.set_ylabel("Ana Grafiğin Y Ekseni")

ax2.plot(x, y, "kD--")
ax2.set_title("Başlık")
ax2.set_xlabel("X")
ax2.set_ylabel("Y")

# Grafik Çeşitleri:

<p>Analiz işlemlerinde kullanılan hemen her grafik Matplotlib'de de mevcuttur.</p>


# Çubuk Grafiği:

<p>Kategorik verilerde oransal dağılımı keşfetmek için çubuk grafiğine sıklıkla başvurulur. Aynı durum Matplotlib'de de geçerlidir. </p>

In [None]:
egitim_seviyesi = ["Ortaöğretim", "Lisans", "Yüksek Lisans"]
mezun_sayisi = [150, 75, 25]
plt.bar(egitim_seviyesi, mezun_sayisi)

# Histogram Grafiği:

<p>Veri setindeki değerlerin dağılımına ilişkin fikir edinmek istediğimiz zaman kullanılır. </p>

In [None]:
import matplotlib.pyplot as plt
v = np.random.randn(100)
plt.hist(v)

# Pasta Grafiği:

<p>Bir veri setindeki kategorik dağılım oranını keşfetmek amacıyla kullanılır. </p>

In [None]:
egitim_seviyesi = ["Ortaöğretim", "Lisans", "Yüksek Lisans"]
mezun_sayisi = [120, 75, 25]
plt.pie(mezun_sayisi, labels = egitim_seviyesi, autopct='%1.3f%%')

# Kutu-Bıyık Grafiği:

<p>Bir veri setindeki değerlerin dağılımda aykırı değere sahip olup olmadığını keşfetmek amacıyla kullanılır. </p>

In [None]:
v = pd.DataFrame({"A": np.random.randn(100), "B": np.random.randn(100), "C": np.random.randn(100)})

plt.boxplot(v)

In [None]:
v = pd.DataFrame({"A":[10, 11, 9, 10, 11, 12, 11, 9, 12, 15, 11, 7, 6, 11, 12, 10, 9, 11]})
plt.boxplot(v)

# 3 BOYUTLU GRAFİKLER:

<p>Matplotlib ile sadece iki boyutlu değil üç boyutlu grafikler de elde edebiliriz. Örneğin aşağıdaki kodlar ile boş bir üç boyutlu görseli ekrana yansıtmış oluyoruz.</p>

In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D #Matplotlib'in 3-D eksenler için gerekli araçları
fig = plt.figure()
ax = plt.axes(projection = '3d')

# 3-D Saçılım Grafiği:

In [None]:
x = np.random.random(100) #0-1 aralığında rastgele sayılar oluşturur.
y = 2 * np.random.random(100)
z = x + y

fig = plt.figure(figsize=(12, 9))
ax = plt.axes(projection = '3d')
ax.scatter3D(x, y, z)
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_zlabel('z')

# 3-D Çizgi Grafiği:

In [None]:
x = np.random.random(100) 
y = 2 * np.random.random(100)
z = x + y

fig = plt.figure(figsize=(12, 9))
ax = plt.axes(projection = '3d')

ax.plot3D(x, y, z)
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_zlabel('z')

# İleri Seviye Kütüphanelerde Dosya Kaydetme ve Dosyalarla Çalışma:

<p>Numpy, Pandas, Matplotlib gibi kütüphanelerle çalışırken pek çok kez veri setleri, grafikler, matematiksel işlemler vb. gibi araçları salt kod ile oluşturmak yerine bu araçları içeren dosyalar ve görüntüler üzerinden işlemler yaparız. Bu noktada hem kendi kodlarımızı dışarıya veri seti işlevi görecek çeşitli formatlarda (csv, xlsx, txt vb.) hem de grafik olarak kullanılabilecek çeşitli görsel formatlarda (jpg, png, gif vb.) aktarabiliriz. Ya da bu formatlardaki harici dosyaları Python ortamına dahil edip onlar üstünden kendimiz işlemler yapabiliriz.</p> <br>

## Pandas ile Dosya Kaydetme ve Harici Dosyaları Python Ortamına Dahil Etme:
<p>Pandas ile csv, xlsx,, txt gibi dosyaları kaydetme ve onları Python ortamına dahil etmek için çeşitli yöntemler vardır. Bu uzantılar en sık kullanılan csv formatlı dosyalardır. Şayet elimizde veri seti sayılacak bir çıktı varsa bu çıktıyı csv dosyası olarak kaydetmek için aşağıdaki işlem uygulanabilir:<p>

In [None]:
import pandas as pd
dt = {"İsimler":["Ahmet", "Mehmet", "Ali", "Veli"], "Yaş": [20, 40, 25, 60], "Meslek": ["Öğrenci", "Doktor", "Avukat", "Esnaf"]}
df = pd.DataFrame(dt)
display(df)

In [None]:
df.to_csv("veriler.csv", index = False) #Eğer index = False şeklinde belirtmezsek verilerimiz fazladan bir indeks kolonu alır.

<p>Şu anda yukarıdaki bilgiler bu notebook dosyasının yer aldığı dizine "veriler.csv" diye ayrı bir dosya olarak kaydedildi. Bunu görmek için yeni oluşan dosyayı okutarak farklı bir veri seti daha oluşturulalım. Böylece hem harici bir dosya pandas ile nasıl okunur bunu görebiliriz hem de oluşturduğumuz dosya gerçekten düzgün bir şekilde kaydedilmiş mi diye inceleyebiliriz. </p>

In [None]:
df2 = pd.read_csv("veriler.csv")
display(df2)

<p>Gördüldüğü üzere yeni oluşturulan veri seti ilk veri setinin aynısı. Bu şekilde csv uzantılı dosyaların nasıl dışa aktarılabileceği ve nasıl Python ortamına dahil edilebieceğini görmüş olduk. Benzer türdeki bazı dosyaların nasıl okunacağına ilişkin kod şemaları da aşağıdaki gibidir. </p>

In [None]:
# pd.read_excel("dosyaadi") ---> Excel dosyalarını okur
# pd.read_table("dosyaadi") ----> Text dosyalarını okur
# pd.read_json("dosyaadi") ----> Json dosyalarını okur
# pd.read_sql(""dosyaadi) -----> SQL tablolarını okur

# Matplotlib ile Dosya Kaydetme:

<p>Oluşturduğumuz bir görseli dışarıya png, jpg, gif vb. bir görüntü dosyası olarak aktarmak istersek aşağıdaki gibi bir işlem yapabiliriz. </p>

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

x = np.random.random(100) #0-1 aralığında rastgele sayılar oluşturur.
y = 2 * np.random.random(100)
z = x + y

fig = plt.figure(figsize=(12, 9))
ax = plt.axes(projection = '3d')
ax.scatter3D(x, y, z)
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_zlabel('z')

In [None]:
fig.savefig("figure.png")

<p>Yukarıdaki komut ile grafiğimizi bu notebook dosyasının yer aldığı dizine "figure.png" diye kaydettik. Bunu bahsedilen klasöre gidip ayrıca görebileceğimiz gibi, aşağıdaki kod ile bu grafiği Python üstünde görüntüleyerek de teyit edebiliriz. </p>

In [None]:
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

plt.figure(figsize = (12, 9))
img=mpimg.imread('figure.png')
imgplot = plt.imshow(img)

# SORULAR

<p>1) Eşit sayıda elemana sahip liste ve demet veri tiplerinde birer değişken oluşturun. Ardından oluşturduğunuz değişkenleri array'a dönüştürüp dönüşümünüzün doğru olup olmadığını kontrol edin. </p>

In [None]:
import numpy as np

liste = [1, 2, 3, 4, 5]
demet = (6, 7, 8, 9, 10)

arr1 = np.asarray(liste)
arr2 = np.asarray(demet)
print(type(arr1))
print(type(arr2))

<p>2) Tamamen birlerden oluşan 16 elemanlı tek boyutlu bir array oluşturun ve bunu dört satırlı yeni bir array haline getirin. Ardından yeni array'in satır, sütun bilgileri ile kaç boyutlu olduğunu kontrol edin.</p>

In [None]:
import numpy as np

arr = np.ones(16)
arr2 = arr.reshape(4, -1)
print(arr2.shape)
print(arr2.ndim)

<p>3) [0, 1000] değer aralığındaki rastgele sayılardan oluşan 100 elemanlı tek boyutlu bir array oluşturunuz. Ardından bu array'in tanımlayıcı istatistiksel bilgilerini (maksimum değer, minimum değer, medyan, ortalama, standart sapma, varyans) gösteren bir kod yazınız. </p>

In [None]:
import numpy as np

arr = np.array([np.random.randint(0, 501) * 2 for i in range(100)])

def toplam_tek(arr):
    toplam = 0
    for i in arr:
        if i % 2 != 0:
            toplam += 1
    return toplam

def binden_buyuk_mu(arr):
    toplam = 0
    for i in arr:
        if i > 1000:
            toplam += 1
    return toplam

print(toplam_tek(arr))
print(binden_buyuk_mu(arr))
print(arr)

def veri_info(arr):
    print("-"*50)
    print("Maksimum: {}\nMinimum: {}\nMedyan: {}\nOrtalama: {}\nStandart Sapma: {}\nVaryans: {}".format(np.max(arr),
    np.min(arr), np.median(arr), np.mean(arr), np.std(arr), np.var(arr)))
    print("-"*50)

veri_info(arr)

<p>4)  $(x + 1)^n$ binom açılımında $n$ $\epsilon$ $[1,3]$ olmak üzere n değerlerinin $[0, 100]$ aralığındaki değişimini özelleştirilmiş tek bir grafik içerisinde inceleyin. </p>
<p><b>Hatırlatma: </b> </p>
<p>$(x + y)^n = \sum\limits_{k=0}^n {{n}\choose{k}} x^ky^{n-k}$</p>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

n = np.linspace(0, 100)

plt.figure(figsize = (9, 6))
plt.plot(n + 1, color = "dimgray", linewidth = 3.0, linestyle = "dotted", marker = "D", markerfacecolor = "lightcoral", label = "n = 1")
plt.plot(n ** 2 + 2 * n + 1, color = "lightseagreen", linewidth = 2.0, linestyle = "solid", label = "n = 2")
plt.plot(n ** 3 + 3 * n ** 3 + 3 * n + 1, color = "indigo", linestyle = "dashed", marker = "P", markerfacecolor = "chartreuse", 
         markersize = 10, label = "n = 3")
plt.legend(loc = "upper left")
plt.xlabel("X Ekseni", fontsize = 20)
plt.ylabel("Y Ekseni", fontsize = 20)
plt.title("Genel Grafik", fontsize = 25)
plt.show()

<p>5) Belli bir boyutta belli satır ve sütun sayısını geçmeyecek şekilde belli bir aralıkta rastgele array'ler oluşturan bir fonksiyon yazınız. En son aşamada ise oluşan array'in bütün değerlerini tek bir boyutta görünecek şekilde ekrana bastırın.</p>

In [None]:
import numpy as np

def rastgele_array(boyut, minimum, maksimum):
    değer = np.random.randint(minimum, maksimum + 1, boyut) # [3, 2]
    return np.random.randint(0, 10001, değer)

a = rastgele_array(2, 2, 5)
print(a)
print(a.ravel())

<p>6) n boyutlu bir karesel matrisin kendisi ile tersinin çarpımı birim matrise eşittir ($ A \times {A^{-1}} = {A^{-1}} \times A=I$). Bu bilgiyi kanıtlayacak bir kod yazın.  </p>

In [None]:
import numpy as np

arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.linalg.inv(arr1)
arr = np.dot(arr1, arr2)
for i in range(2):
    for j in range(2):
        print("%.2f" % arr[i][j], end= " ")
    print("\n")

<p>7) Aşağıdaki listedeki değerleri kullanarak bir seri oluşturunuz ve indeksleri özelleştirerek "Sayı 1, Sayı 2, ..." gibi kategorik değerler atayınız. </p> 
sayılar = [12, 33, 41, 454, 26, 141, 8, 87, 942, 545]

In [None]:
import pandas as pd

sayılar = [12, 33, 41, 454, 26, 141, 8, 87, 942, 545]
indeks = []
for i in range(len(sayılar)):
    indeks.append("Sayı {}".format(i+1))
seri = pd.Series(data = sayılar, index = indeks)
print(seri)

<p>9) Dizindeki "veriler.xlsx" adlı dosyayı Python ortamına aktarın. Ardından bu veri setinin kategorik ve nümerik değerlerini özetleyin. </p>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

veriler = pd.read_excel("veriler.xlsx")
display(veriler)
print(veriler.info())
print("-"*50)
display(veriler.describe())

<p>10) Veri setini cinsiyet değerlerine göre gruplandırıp cinsiyete göre nümerik değerlerin özetine ulaşın. </p>

In [None]:
gby = veriler.groupby("Cinsiyet")
display(gby.describe())

<p>11) Veri setindeki kategorik değerleri çıkarıp kalan kolonlara göre yeni bir veri seti oluşturunuz. Ardından yeni değişkendeki nümerik değerler üzerinden aykırı değerleri inceleyiniz ve eğer bunlar verinin bütünlüğünü bozmakta ise bu değerleri medyan değerleri ile değiştiriniz. </p>

In [None]:
veriler2 = veriler.iloc[:, 1:4]
display(veriler2)
plt.boxplot(veriler2)

<p>Aykırı değer kavramı üstünde çeşitli yaklaşımlar vardır. Bunlar aykırı değeri tespit ettikten sonra onları çıkarmak veya yerlerine medyan değeri ekleme gibi yaklaşımlar olabilir. Ancak yöntemler çeşitlilik gösterdiği için alternatiflerden birini seçmek gerekir. Bu örnek üzerinde, aykırı değerlerin veri setinin bütünlüğünü bozup bozmadığını gözlemlemek için <b>scipy</b> kütüphanesinin <b>stats</b> aracını kullanacağınz. Bu doğrultuda veri setindeki z değerlerini elde edip eğer bunlardan mutlak değeri 3'ü geçen varsa onun yerine medyan değerlerini ekleyeceğiz. </p> 

In [None]:
from scipy import stats

z_değer = stats.zscore(veriler2)
print(z_değer[abs(z_değer) > 3])

<p>Görüldüğü üzere veri setinde bütünlüğü bozan bir aykırı değer görünmüyor bu yönteme göre. Ancak diyelim ki Boy kolonunda gerçekten çok uçuk bir değer olsaydı, bu durumda nasıl bir yaklaşım izlememiz gerekirdi bir de bunu inceleyelim. </p>

In [None]:
veriler2["Boy"][0] = 500
z_değer = stats.zscore(veriler2)
print(z_değer[abs(z_değer) > 3])

In [None]:
print(veriler2["Boy"].quantile(0.50)) 
print(veriler2["Boy"].quantile(0.95)) 

In [None]:
veriler2["Boy"] = np.where(veriler2["Boy"] > 283, 167, veriler2["Boy"])
display(veriler2.iloc[0:1, :])

<p>Görüldüğü üzere biraz önce ilk satırdaki 500 olan boy değeri, medyan değeri olan 167 ile değiştirildi. </p>

<p>12) Oluşturduğunuz ikinci veri setini (sadece sayısal değerleri içeren) kullanarak her bir kolonun matematiksel dağılımını (1,3) formatına uygun olarak subplot'lar yardımıyla görselleştiriniz. </p>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sbn

veriler2 = veriler.iloc[:, 1:4]

fig = plt.figure(figsize = (9, 6))
plt.subplot(1, 3, 1)
sbn.distplot(veriler2["Boy"])
plt.subplot(1, 3, 2)
sbn.distplot(veriler2["Kilo"])
plt.subplot(1, 3, 3)
sbn.distplot(veriler2["Yaş"])
plt.show()

<p>13) Oluşturduğumuz ilk veri setine (kategorik kolonları da içeren) kişilerin yaş durumlarına göre "Çocuk", "Yetişkin" veya "Yaşlı" gibi bilgilerin yer aldığı yeni bir kolon ekleyin (0-18 Arası Çocuk, 18-65 Arası Yetişkin, 65+ Yaşlı).

In [None]:
def yaş_durumu_ekle(df, kolon):
    yeni_kolon = []
    for i in range(len(df)):
        if df[kolon][i] < 18:
            yeni_kolon.append("Çocuk")
        elif df[kolon][i] >= 18 and df[kolon][i] < 65:
            yeni_kolon.append("Yetişkin")
        else:
            yeni_kolon.append("Yaşlı")
        df["Yaş Durumu"] = pd.DataFrame(yeni_kolon)
    return df

yeni_df = yaş_durumu_ekle(veriler, "Yaş")
display(yeni_df)

<p>14) Oluşturulan ilk veri setindeki "Boy", "Kilo" ve "Yaş" arasındaki ilişkiyi üç boyutlu bir grafik ile görselleştirin. </p>

In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

x = veriler.iloc[:, 1:2].values
y = veriler.iloc[:, 2:3].values
z = veriler.iloc[:, 3:4].values

fig = plt.figure(figsize=(9, 6))
ax = plt.axes(projection = '3d')
ax.scatter3D(x, y, z)
ax.set_xlabel('Boy')
ax.set_ylabel('Kilo')
ax.set_zlabel('Yaş')

<p>15) Aşağıdaki array'leri uygun şekilde birleştirip her bir array bir sütun bildirecek şekilde bir veri setine haline getirin. Ardından kayıp değerleri veri bütünlüğünü bozmadan yeniden düzenleyip veri setini son haline getirin.</p>
<p>arr1 = np.array([[10, 11, 11, 8, 9, 12, np.nan, 10, 12, np.nan, 13, 11, np.nan, 8, 10]]) </p>
<p>arr2 = np.array([[43, 38, 47, 36, 32, 33, 40, 45, 43, 33, 28, np.nan, np.nan, 46, 28]]) <p>

In [None]:
import numpy as np
import pandas as pd

arr1 = np.array([[10, 11, 11, 8, 9, 12, np.nan, 10, 12, np.nan, 13, 11, np.nan, 8, 10]])
arr2 = np.array([[43, 38, 47, 36, 32, 33, 40, 45, 43, 33, 28, np.nan, np.nan, 46, 28]])

arr = np.concatenate((arr1, arr2), axis = 0)
print(arr)
arr = np.transpose(arr)
print(arr)
df = pd.DataFrame(arr, columns = ["Sayılar 1 ", "Sayılar 2"])
df = df.fillna(df.median())
display(df)

<p>16) $(-2\pi, 2\pi)$ aralığında sinüs ve kosinüs grafiklerini özelleştirilmiş bir grafik içerisinde görselleştirin. </p>

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(-2 * np.pi, 2 * np.pi)
y1 = np.sin(x)
y2 = np.cos(x)

fig = plt.figure(figsize = (9, 6))
plt.plot(x, y1, linewidth = 5, linestyle = "solid", label = "Sinüs", color = "crimson")
plt.plot(x, y2, linewidth = 3, linestyle = "dashed", label = "Kosinüs", color = "darkviolet")
plt.legend(loc = "lower left")
plt.xlabel("X Ekseni", fontsize = 20)
plt.ylabel("Y Ekseni", fontsize = 20)
plt.title("Genel Grafik", fontsize = 25)
plt.show()