# Pandas İle Veri Manipülasyonu

Pandas, NumPy üzerine kurulu bir kütüphanedir ve bir "DataFrame (tablo şeklindeki veriler diyebiliriz)" üzerinde verimli ve kolay bir şekilde çalışmayı sağlar.
``DataFrame``ler satır ve sütunlar şeklinde ve genellikle heterojen türlerde ve/veya eksik verilere sahip çok boyutlu dizilerdir. Pandas, işlenmiş veriler için uygun bir depolama arabirimi sunmanın yanı sıra, hem veritabanı hem de elektronik tablo programlarının (MS Excel vb.) kullanıcılarının aşina olduğu bir dizi işlevsel veri fonksiyonları ile çalışabilmeyi sağlar.

Ayrıca, NumPy'nin ``ndarray`` veri yapısı, sayısal hesaplama işlemlerinde kullanılan temiz, işlenmiş veri türü için temel özellikleri sağlar. Bu amaca çok iyi hizmet etse de, farklı işlemlere ihtiyacımız olduğunda (örneğin, verilere etiketler ekleme, eksik verilerle çalışma, gruplamalar, görselleştirmeler, vb.), bünyesinde bu uygulamalar için birçok fonksiyon bulundurur. 

Pandas ve özellikle pandasın "Series" ve "DataFrame" nesneleri, NumPy dizi yapısı üzerine kuruludur ve bir veri bilimcinin zamanının çoğunu alan bu tür "veri ile uğraşma" görevlerinde verimli bir şekilde çalışmayı sağlar.

## Pandas Kurulumu ve Kullanımı

Pandasın sisteminize yüklenmesi için NumPy'nin kurulmasını gereklidir.

Bu kurulumla ilgili ayrıntılar [Pandas dökümantasyonunda](http://pandas.pydata.org/) bulunmaktadır.
Anaconda kullanıyorsanız, Pandas yüklü olarak gelmektedir.

Pandası kurduğunuzda, import edebilir ve versiyonunuzu kontrol edebilirsiniz.

İmport ederken daha sonra kullandığımızda kolaylık olması için ``pd`` şeklinde import ederiz. Bunun için `` as pd`` yazmamız yeterlidir:


In [65]:
import pandas
pandas.__version__

'1.3.5'

In [66]:
import pandas as pd

## Pandas ve ``Series`` nesnesi (object)
Pandas "Serileri", tek boyutlu ve indexlenmiş veri dizisidir.
Aşağıdaki gibi bir listeden veya diziden oluşturulabilir:

In [67]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Sonuçta gördüğümüz gibi, "Seriler" hem değerleri hem de bu değerlere(values) ait indeksleri içermektedir. Bu değerlere indeksler yardımıyla erişmek mümkündür. Bu değerler bir NumPy dizisidir (array).

In [68]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

"index", birazdan daha ayrıntılı olarak anlatılacağı gibi "pd.Index" türünde dizi benzeri bir nesnedir.

In [69]:
data.index

RangeIndex(start=0, stop=4, step=1)

NumPy dizisinde olduğu gibi, verilere, bilinen Python köşeli parantez gösterimi ([]) aracılığıyla erişilebilir:

In [70]:
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [72]:
data[3]

1.0

In [74]:
data[0 : 3]

0    0.25
1    0.50
2    0.75
dtype: float64

Yine de, Pandas ``Serileri (Series)`` tek boyutlu NumPy dizisinden çok daha genel ve esnektir(flexible).

## İndeksleme operatörleri: loc ve iloc
Bu dilimleme(slicing) ve indeksleme operatörleri ilk başta karışık gelebilir. Örneğin, tamsayı indekslerden oluşan bir "Seri"niz varsa , "data[1]" gibi indexleme işlemi explicit indis kullanır, "data[1:3]" gibi bir dilimleme işlemi ise implicit Python tarzı indisleri kullanır. Yani bizim verdiğimiz indeksleri kullanmaz, 0 ile başlar. Okuması karışık gelse de gelin devam edelim.

In [76]:
data = pd.Series(["a", "b", "c"], index = [1, 3, 5])
data

1    a
3    b
5    c
dtype: object

Normal indeksleme yaparken explicit index kullanır. Yani bizim tanımladığımız indekslere göre çağırmamız gerekir.

In [79]:
data[5]

'c'

Ancak dilimleme işlemi ise implicit index yani python tarzı index kullanır. Sayıların sıralamasına göre yapılır

In [80]:
data[0 : 2]

1    a
3    b
dtype: object

Tamsayı indeksleri durumunda bu oluşabilecek karışıklığı önlemek amacıyla, Pandas belirli indeksleme şemalarını "explicitly" gösteren bazı özel *indekseleyici (indexer)* özellikleri sağlar.

İlk olarak, "loc" özelliği ile, her zaman explicit indeksleme ve dilimleme yapılır:

In [81]:
data

1    a
3    b
5    c
dtype: object

In [83]:
data.loc[3]

'b'

In [85]:
data.loc[1:5]

1    a
3    b
5    c
dtype: object

``iloc`` özelliği ile, her zaman Python tarzı indeksleme ve dilimleme yapılır:

In [87]:
data.iloc[2]

'c'

In [88]:
data

1    a
3    b
5    c
dtype: object

In [89]:
data.iloc[1 : 3]

3    b
5    c
dtype: object

"loc" ve "iloc"un kullanımının esnkeliği, kodun temiz ve okunabilir olmasını sağlar; özellikle tamsayı indeksleri söz konusu olduğunda, kodun okunmasını ve anlaşılmasını kolaylaştırmak ve karışık indeksleme/dilimleme kuralı nedeniyle hataları önlemek için bunların ikisini de kullanmanızı öneririm.

## DataFrame de data çağırmak-seçmek
"DataFrame" iki boyutlu ve işlenmiş bir dizidir. Aynı zamanda seri yapılarının sözlüğü (dictionary) gibidir. DataFrame de veri çağırıken-seçerken bu analojiyi akılda tutmak işimizi kolaylaştırır.


### Dictionary olarak DataFrame
Ele alacağımız ilk örnek, ilgili ``Series`` nesnelerinin bir dicitonary'si olarak ``DataFrame`` yapısı olacaktır.
Şehirlerin yüzölçümleri ve nüfuslarıyla ilgili örneğimize bakalım:

In [90]:
nüfus = pd.Series({'İstanbul': 15462452, 'Bursa': 3101833,
                  'Edirne': 407763, 'Ankara': 5663322,
                  'Kırklareli': 360860})
alan = pd.Series({'İstanbul': 5461, 'Bursa': 10813,
                 'Edirne': 6145, 'Ankara': 25632,
                 'Kırklareli': 6459})
data = pd.DataFrame({'alan':alan, 'nüfus':nüfus})
data

Unnamed: 0,alan,nüfus
İstanbul,5461,15462452
Bursa,10813,3101833
Edirne,6145,407763
Ankara,25632,5663322
Kırklareli,6459,360860


"DataFrame"in sütunlarını oluşturan "Seriler"e, sütun adının sözlük stilinde indekslenmesi yoluyla erişilebilir:

In [91]:
data["alan"]

İstanbul       5461
Bursa         10813
Edirne         6145
Ankara        25632
Kırklareli     6459
Name: alan, dtype: int64

Ek olarak, sütunlar arasında aritmetik işlemler yapılabilir ve bu işlemlerin sonucu DataFrame mimize yeni bir kolon olarak eklenebilir.

In [95]:
data["yoğunluk"] = data["nüfus"] / data["alan"]
data

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,2831.432338
Bursa,10813,3101833,286.861463
Edirne,6145,407763,66.356876
Ankara,25632,5663322,220.947331
Kırklareli,6459,360860,55.86933


Benzer şekilde, kolon isimlerini metod olarak yazıp da erişebiliriz

In [98]:
data.yoğunluk

İstanbul      2831.432338
Bursa          286.861463
Edirne          66.356876
Ankara         220.947331
Kırklareli      55.869330
Name: yoğunluk, dtype: float64

### DataFrame i 2 boyutlu dizi olarak ele alacak olursak:
Daha önce bahsedildiği gibi, DataFrame'i gelişmiş iki boyutlu bir dizi olarak düşünebiliriz. Ve DataFrame.values şeklinde asıl verilere dizi (array) şeklinde erişebiliriz.

In [99]:
data.values

array([[5.46100000e+03, 1.54624520e+07, 2.83143234e+03],
       [1.08130000e+04, 3.10183300e+06, 2.86861463e+02],
       [6.14500000e+03, 4.07763000e+05, 6.63568755e+01],
       [2.56320000e+04, 5.66332200e+06, 2.20947331e+02],
       [6.45900000e+03, 3.60860000e+05, 5.58693296e+01]])

Buna ek olarak, ``DataFrame`` üzerinde NumPy dizilerine yaptığımız pek çok işlemi uygulayabiliriz. Örneğin, satırları ve sütunların transpozesini alalım:

In [100]:
data

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,2831.432338
Bursa,10813,3101833,286.861463
Edirne,6145,407763,66.356876
Ankara,25632,5663322,220.947331
Kırklareli,6459,360860,55.86933


In [101]:
data.T

Unnamed: 0,İstanbul,Bursa,Edirne,Ankara,Kırklareli
alan,5461.0,10813.0,6145.0,25632.0,6459.0
nüfus,15462450.0,3101833.0,407763.0,5663322.0,360860.0
yoğunluk,2831.432,286.8615,66.356876,220.9473,55.86933


DataFrame de indeksleme yaparken, sözlük biçiminde olması nedeniyle NumPy dizisindeki gibi indeksleme yapamayız.

In [103]:
data

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,2831.432338
Bursa,10813,3101833,286.861463
Edirne,6145,407763,66.356876
Ankara,25632,5663322,220.947331
Kırklareli,6459,360860,55.86933


In [102]:
data.values

array([[5.46100000e+03, 1.54624520e+07, 2.83143234e+03],
       [1.08130000e+04, 3.10183300e+06, 2.86861463e+02],
       [6.14500000e+03, 4.07763000e+05, 6.63568755e+01],
       [2.56320000e+04, 5.66332200e+06, 2.20947331e+02],
       [6.45900000e+03, 3.60860000e+05, 5.58693296e+01]])

In [104]:
data.values[0]

array([5.46100000e+03, 1.54624520e+07, 2.83143234e+03])

In [114]:
data.nüfus[0]

15462452

Bu nedenle iloc ve loc özelliklerini kullanarak indeksleme yaparız.

In [115]:
data

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,2831.432338
Bursa,10813,3101833,286.861463
Edirne,6145,407763,66.356876
Ankara,25632,5663322,220.947331
Kırklareli,6459,360860,55.86933


In [117]:
data.iloc[2:5, 1:3]

Unnamed: 0,nüfus,yoğunluk
Edirne,407763,66.356876
Ankara,5663322,220.947331
Kırklareli,360860,55.86933


In [118]:
data

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,2831.432338
Bursa,10813,3101833,286.861463
Edirne,6145,407763,66.356876
Ankara,25632,5663322,220.947331
Kırklareli,6459,360860,55.86933


In [120]:
data.loc[ : :, ::]

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,2831.432338
Bursa,10813,3101833,286.861463
Edirne,6145,407763,66.356876
Ankara,25632,5663322,220.947331
Kırklareli,6459,360860,55.86933


İndeksleme yaparken aynı zamanda çeşitli operatörlerle de filtreleme işlemleri yapabiliriz.

In [121]:
data.loc[data.yoğunluk > 100, ["nüfus", "yoğunluk"]]

Unnamed: 0,nüfus,yoğunluk
İstanbul,15462452,2831.432338
Bursa,3101833,286.861463
Ankara,5663322,220.947331


Ayrıca, bu indekslemeleri yaptıktan sonra çağırdığımız veriyi değiştirebiliriz.

In [123]:
data

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,90.0
Bursa,10813,3101833,286.861463
Edirne,6145,407763,66.356876
Ankara,25632,5663322,220.947331
Kırklareli,6459,360860,55.86933


In [125]:
data.iloc[2, 0] = 5000
data

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,1200.0
Bursa,10813,3101833,286.861463
Edirne,5000,407763,66.356876
Ankara,25632,5663322,220.947331
Kırklareli,6459,360860,55.86933


Pandas ile veri manipülasyonunda hızlanmak ve yeterlilik kazanmak için bir DataFrame oluşturmanızı ve o DataFrame üstünde yukarıdaki gibi indeksleme, dilimleme, filtreleme işlemleri yapmanızı öneririm.

### Ek indekslemeler

Yukarıda yaptıklarımızdan farklı görünebilecek, ancak yine de pratikte çok yararlı olabilecek birkaç ekstra indeksleme kuralı vardır.
İlk olarak, *indeksleme (indexing)* sütunları ifade ederken, *dilimleme (slicing)* satırları ifade eder:

In [126]:
data

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,1200.0
Bursa,10813,3101833,286.861463
Edirne,5000,407763,66.356876
Ankara,25632,5663322,220.947331
Kırklareli,6459,360860,55.86933


In [127]:
data["İstanbul": "Edirne"]

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,1200.0
Bursa,10813,3101833,286.861463
Edirne,5000,407763,66.356876


Yukarıdaki veri çağırma işlemini sayılarla da yapabiliriz.

In [128]:
data[0 : 3]

Unnamed: 0,alan,nüfus,yoğunluk
İstanbul,5461,15462452,1200.0
Bursa,10813,3101833,286.861463
Edirne,5000,407763,66.356876


Benzer şekilde maskeleme (masking) işlemleri de sütun yerine satır bazında yapılır.

In [130]:
data[data.yoğunluk < 100]

Unnamed: 0,alan,nüfus,yoğunluk
Edirne,5000,407763,66.356876
Kırklareli,6459,360860,55.86933
