# Seçim Yöntemleri

# Satır ve Sütun Seçimi

## iloc[] Metodu

Veri Çerçevesindeki istenilen satır ve sütunu seçmek/görüntülemek için <code>iloc[]</code> metodu kullanılır. <code>iloc[]</code> kelimesini unutmamak için **İndex Location** yani, **Konumun İndeks Değeri** gibi düşünebilir, hafızanızda kodlayabilirsiniz. Bir başka ifadeyle, <code>iloc[]</code> için, Tamsayı değerine dayalı konum indeksleme metodu diyebiliriz. Esas olarak <code>iloc[]</code> metodu, hem satır hem de sütun numarası alarak çalışır.

<code>Veri_Cercevesi_Adı.iloc[Satir_Numarası, Sütun_Numarası]</code>

<code>iloc[]</code> metodunun alabileceği parametreler şunlardır:

* Bir satır ve sütun dizini, ör. <code>(0,1)</code>
* Bir tamsayı, ör. <code>5</code>
* Bir tamsayı listesi veya dizisi, ör. <code>[4, 3, 0]</code>
* Tamsayılı bir dilim nesnesi, ör. <code>1:7</code>
* Bir mantık (boole) dizisi.

Öncelikle **Pandas** Kütüphanesini içe aktarıp, kodlama esnasında hızlı olması adına bu kütüphaneye **pd** adını atayalım;

In [1]:
import pandas as pd

Bu eğitimde, fonksiyon ve metotlar konusunu anlatırken kullanmak üzere, basit bir Veri Çerçevesi (Data Frame) oluşturalım ve oluşturduğumuz Veri Çerçevesinin içeriğini görelim;

In [2]:
sozluk = {"isim" : ["Mustafa", "Halil", "Burak", "Emre", "Ersin", "Sertaç", "Furkan","Murat","Ahmet","Abdülkadir"],
                    "yaş" : [25, 38, 41, 23, 37, 52, 30, 23, 40, 38],
                   "iş-meslek" : ["mühendis", "programcı", "akademisyen", "yönetici","amir","mühendis", "yönetici","müdür","veteriner","yönetici"]}
veri = pd.DataFrame(sozluk)
veri

Unnamed: 0,isim,yaş,iş-meslek
0,Mustafa,25,mühendis
1,Halil,38,programcı
2,Burak,41,akademisyen
3,Emre,23,yönetici
4,Ersin,37,amir
5,Sertaç,52,mühendis
6,Furkan,30,yönetici
7,Murat,23,müdür
8,Ahmet,40,veteriner
9,Abdülkadir,38,yönetici


Verimizi <code>.iloc[]</code> metodu ile seçelim. 

In [19]:
veri.iloc[8,2]

'veteriner'

<code>iloc[]</code> metodu, parametre olarak tam sayı alabileceği gibi, sayı listesi de alabilir. Bildiğiniz gibi Python'da liste veri tipleri köşeli parantez <code>[]</code> ile ifade ediliyor. O nedenle <code>iloc[]</code> metoduna parametre olarak liste veri tipi girileceği zaman içiçe köşeli parantezler (hem satıra hemde sütuna ait listeler yazılacağı için) konuyu yeni öğrenenlerde kafa karışıklığına sebep olabilir. Anlatmak istediğimi aşağıdaki koda bakarak rahatlıkla anlayabilirsiniz.

<code>iloc[[satır_listesi], [sütun_listesi]]</code>

In [6]:
veri.iloc[[1,3,5],[0,2]]

Unnamed: 0,isim,iş-meslek
1,Halil,programcı
3,Emre,yönetici
5,Sertaç,mühendis


## Sadece Satırları Listelemek

### Bir Tamsayı ile Satır Seçimi
<code>iloc[]</code> metoduna parametre olarak sadece **bir tamsayı değeri** girildiğinde, girilen sayıya (indeks bilgisine) ait **satır** verisi döndürülür. Hemen aşağıdaki örneğe bakalım.

In [17]:
veri.iloc[5]

isim           Sertaç
yaş                52
iş-meslek    mühendis
Name: 5, dtype: object

### Bir Sayı Listesi ile Satır Seçimi
Veri çerçevemizden **belirli bazı satırları** seçmek istersek <code>iloc[]</code> metoduna parametre olarak bir **liste** tanımlamalıyız. Bu liste, bir satırdan başlayıp diğer bir satıra kadar olan aralık (dilimleme) olabileceği gibi tek tek te belirtilebilir. Şimdi bunları inceleyelim.

Örneğin veri çerçevemizde indeks değeri 3, 5 ve 7 olan satırları seçmek istersek aşağıdaki şekilde kod ayzmamız gerekir.

In [3]:
veri.iloc[[3,5,7]]

Unnamed: 0,isim,yaş,iş-meslek
3,Emre,23,yönetici
5,Sertaç,52,mühendis
7,Murat,23,müdür


<code>veri.iloc[[3,5,7]]</code> koduna dikkat ederseniz <code>iloc[]</code> metoduna parametre olarak sadece bir adet köşeli parantez yazıldı, ikinci köşeli parantez yazılmadı. Bu demek oluyor ki, **parametre olarak sadece satır bilgisi** var yani sütunlarda seçme ya da kısıtlamaya işlemi yapılmadı, tüm sütun bilgileri gösterilmeli. Zaten Çıktıya baktığımızda anlattığımız gibi sonuç elde ettiğimizi görüyoruz.

### Dilimleyerek Satır Seçimi
Python'da **listeler** konusunu okuduğunuzda, dilimlemenin nasıl yapıldığını da görmüş olmalısınız. Kısaca bahsedecek olursak, dilimleme için <code>:</code> karakteri kullanılır. <code>:</code> karakterinin solunda **başlangıç**, sağında **bitiş** değeri yazılır. Elimizde veri çerçevemizin indeks değerleri gibi **0 ile 9** arasında sayılardan oluşan bir liste varsa, bu listeden aralık seçmek yani dilimleme yapmak istersek aşağıdaki kodu yazmalıyız.

<code>[1:5]</code>

Bu kodun anlamı, 1. öğeden başlayarak **5. öğeye kadar** (yani 5. öğe dahil **DEĞİL**) dilimleme yap, 1,2,3,4 sonucunu ver.

<code>[3:]</code>

Bu kodun anlamı, **3. öğeden başlayarak** listenin sonuna kadar dilimleme yap, 3,4,5,6,7,8,9 sonucunu ver.

<code>[3:]</code> koduna dikkat ederseniz, <code>:</code>'dan sonra kısıtlama/sınırlama getirilmemiştir, yani liste sona kadar devam eder.

Bir aralık belirterek veri çerçevemizde dilimleme yapalım ve sonucu görelim;

In [4]:
veri.iloc[1:5]

Unnamed: 0,isim,yaş,iş-meslek
1,Halil,38,programcı
2,Burak,41,akademisyen
3,Emre,23,yönetici
4,Ersin,37,amir


Dilimleme yaparken <code>iloc[]</code> metodunun içine ayrıca köşeli parantez **kullanmadığımıza** dikkat edin. 

Belirli bir satırdan başlayıp, veri çerçevesinin sonuna kadar giden bir dilimleme yapmak istersek, aşağıda bulunan kod gibi <code>:</code>'nin sağına değer yazmamalı, boş bırakmalıyız.

In [13]:
veri.iloc[3:]

Unnamed: 0,isim,yaş,iş-meslek
3,Emre,23,yönetici
4,Ersin,37,amir
5,Sertaç,52,mühendis
6,Furkan,30,yönetici
7,Murat,23,müdür
8,Ahmet,40,veteriner
9,Abdülkadir,38,yönetici


Yukarıdaki anlatımın tersi olan ilk satırdan başlayıp, veri çerçevesinin istenilen satırına kadar giden bir dilimleme yapmak istersek te, aşağıda bulunan kod gibi <code>:</code>'nin soluna değer yazmamalı, boş bırakmalıyız.

In [14]:
veri.iloc[:4]

Unnamed: 0,isim,yaş,iş-meslek
0,Mustafa,25,mühendis
1,Halil,38,programcı
2,Burak,41,akademisyen
3,Emre,23,yönetici


## Satır ve Sütunları Belirterek Listelemek

Yukarıda yazdığımız <code>veri.iloc[8,2]</code> kodu, hem satır hemde sütun belirterek değer elde ettiğimiz bir indeksleme yöntemidir.

### Satır ve Sütunda dilimleme yapmak

Hem satırda hemde sütunda dilimleme yapmak istersek aşağıdaki şekilde kod yazmalıyız;

In [11]:
veri.iloc[3:8,:2]

Unnamed: 0,isim,yaş
3,Emre,23
4,Ersin,37
5,Sertaç,52
6,Furkan,30
7,Murat,23


<code>veri.iloc[3:8,:2]</code> kodu ile, 3-8 arası satır, 0-2 arası sütun verileri dilimlenmiş. (**Satırlarda**, 3'ten başlayan 8'de biten bir sınırlama yazılmış, **Sütunlarda** başlangıçta sınır yok yani 0'dan başlıyor, 2. sütuna kadar sınırlama getirilmiş.)

### Satırla aynı uzunluktaki mantık (boole) listesiyle / maskesiyle Satır Seçimi

Python'da Mantık (boolean) işlemleri **0** ya da **1**, **Evet** ya da **Hayır** anlamında, **True** ya da **False** sonucu döndürür.  Bu mantı anlamak için, yukarıda oluşturduğumuz 10 satırlık veri çerçevemizi kullanalım. Örneğin **1., 3., 6. ve 9.** indisleri gizlemek isteyelim. O halde görmek istediğimiz satırlar için **True**, gizlemek istediğimiz satırlar için **False** anahtar kelimelerini sırasıyla **liste veri tipi olarak** yazmalı ve <code>iloc[]</code> metoduna paramatre olarak eklemeliyiz.

In [5]:
veri.iloc[[True, False, True, False, True, True, False, True, True, False]]

Unnamed: 0,isim,yaş,iş-meslek
0,Mustafa,25,mühendis
2,Burak,41,akademisyen
4,Ersin,37,amir
5,Sertaç,52,mühendis
7,Murat,23,müdür
8,Ahmet,40,veteriner


## loc[] Metodu

### Etiketlere veya mantık (boole) dizisine göre bir satır ve sütun grubuna erişim
<code>loc[]</code> metodu, <code>iloc[]</code> metoduna benzer bir metottur ancak <code>loc[]</code> metodunda, satır ve sütun seçmek/görüntülemek istediğimiz zaman, satır ve sütunların isimlerini (metinsel / string ifadelerini) yazmalıyız. <code>loc[]</code>  metodu aslında etiket tabanlıdır, ancak bir mantık (boole) dizisiyle de kullanılabilir. 
<code>iloc[]</code> metodunun alabileceği parametreler şunlardır:
* Tek bir etiket, ör. <code>5</code> veya <code>'a'</code>, (<code>5</code>'in dizinin bir etiketi olarak yorumlandığını ve **asla** dizin boyunca bir tamsayı konumu olarak yorumlanmadığını unutmayın).
* Bir liste veya etiket dizisi, ör. <code>['a', 'b', 'c']</code>
* Etiketleri olan bir dilim nesnesi, ör. <code>'a':'f'</code>

<code>**UYARI:** *Pandas'ta, python standart dilimleme işlemlerinin aksine, hem başlangıç hem de **bitiş** değerinin seçime dahil edildiğini unutmayın.*</code>

* Dilimlenen eksenle aynı uzunlukta bir mantık (boole) dizisi, ör. <code>[True, False, True]</code>
* Hizalanabilir bir mantık (boole) Serisi. Anahtarın dizini, maskelemeden önce hizalanacaktır.
* Hizalanabilir bir İndeks. Döndürülen seçimin Dizini girdi olacaktır.
* Tek argümanlı (çağıran Series veya DataFrame) ve indeksleme için geçerli çıktı döndüren (yukarıdakilerden biri) çağrılabilir bir fonksiyon

Elimizde aşağıdaki gibi bir veri çerçevesi olduğunu varsayalım.

In [46]:
imdb = pd.read_excel("Veri_Setleri/imdb.xlsx", index_col="Film_Adı")
imdb

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
The Shawshank Redemption,1994,92,1071904
The Godfather,1972,92,751381
The Godfather: Part II,1974,9,488889
Pulp Fiction,1994,89,830504
The Dark Knight,2008,89,1045186
...,...,...,...
Mystic River,2003,79,256159
In the Heat of the Night,1967,79,37081
Arsenic and Old Lace,1944,79,45893
Before Sunrise,1995,79,100974


**Pulp Fiction** Filminin **Puan**ını öğrenmek istediğimizi düşünelim. Bu durumda aşağıdaki kodları yazmamız doğru sonucu verecektir.

In [32]:
imdb.loc["Pulp Fiction", "Puan"]

'8,9'

**Star Wars** isimli satır verisine ulaşmak için <code>loc[]</code> metoduna **Star Wars** metinsel (string) ibaresini eklemeliyiz.

In [61]:
imdb.loc["Star Wars"]

Yıl               1977
Puan               8,7
Oylayan_Kişi    585132
Name: Star Wars, dtype: object

<code>loc[]</code> metodunda daha fazla pratik yapmak için **df** isminde bir veri çerçevesi oluşturalım;

In [2]:
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
     index=['cobra', 'viper', 'sidewinder'],
     columns=['max_speed', 'shield'])
df

Unnamed: 0,max_speed,shield
cobra,1,2
viper,4,5
sidewinder,7,8


### Tek etiket ile Saır Seçimi
<code>loc[]</code> metodunda tek etiket kullanıldığında, sonucun satırı bir Seri olarak döndürüldüğünü unutmayın. Örneğe bakalım;

In [8]:
df.loc['viper']

max_speed    4
shield       5
Name: viper, dtype: int64

### Etiket listesi ile Satır  Seçimi
Köşeli parantez <code>[[]]</code> kullanımı , sonuc olarak bir Veri Çerçevesi (DataFrame) döndürür. İnceleyelim;

In [9]:
df.loc[['viper', 'sidewinder']]

Unnamed: 0,max_speed,shield
viper,4,5
sidewinder,7,8


### Satır ve sütun belirterek Değer Seçimi

Tıpkı <code>iloc[]</code> metodunda olduğu gibi <code>loc[]</code> metoduna da hem satır hem de sütun değeri girilebilir. Bu durumda MS Excel ve Libre Ofis Calc programında olduğu gibi satır ve sütunların kesişimindeki hücre ya da hücre değer(ler)i, sonuç olarak döndürülür.

Aşağıdaki örnekte, <code>loc[]</code> metoduna birer adet satır ve sütun değeri girilecek. Sonucu incelersek sadece bir değer döndürdüğünü göreceksiniz.

In [10]:
df.loc['cobra', 'shield']

2

### Satır için aralıklı etiket, Sütun için ise tek etiketle dilimleme

Bu kısımda, satır seçiminde bir aralık, sütün seçiminde ise sadece tek bir değer (yani tek sütun) belirterek  sonucun nasıl çıkacağını inceleyelim.

Yukarıdaki **Uyarıda** belirtildiği gibi, Pandas'ta dilimleme esnasında hem **başlangıç** hem de **bitiş** değerlerinin seçime dahil edildiğini unutmayın.

In [11]:
df.loc['cobra':'viper', 'max_speed']

cobra    1
viper    4
Name: max_speed, dtype: int64

### Satır ile aynı uzunlukta Mantık (Boole) listesi ile Seçim

**df** isimli veri çerçevemiz 3 satırdan oluştuğu için, toplam 3 adet **True** ya da **False** anahtar kelimesi kullanarak bir mantık (boole) listesi oluşturacak ve **True** olarak belirttiğimiz satırları göreceğimiz bir sonuç elde edeceğiz.

In [12]:
df.loc[[False, False, True]]

Unnamed: 0,max_speed,shield
sidewinder,7,8


### Hizalanabilir Mantık (boole) Serisi ile Satır Seçimi

Pandas Seriler (Series) veri yapısını kullanarak, oluşturmuş olduğumuz veri çerçevemizde indeks sırasını değiştirerek (hizalayarak) mantıksal (boole) listesi ile belirttiğimiz satırları filtreleyerek satır seçimi yapabiliriz. Anlatım biraz karışık gelmiş olabilir. Aşağıdaki örneği incelerken konuyu anlayacağınızı düşünüyorum.

Öncelikle **df** isimli veri çerçevemize göz atalım.

In [5]:
df

Unnamed: 0,max_speed,shield
cobra,1,2
viper,4,5
sidewinder,7,8


Görüldüğü üzere, satır sırası aşağı doğru, **cobra, viper ve sidewinder** olarak devam ediyor. Yukarıda öğrendiğimiz şekilde sadece, mantık (boole) listesi ile seçim yaparsak yani <code>df[[False, True, False]]</code> yazar ve kodu çalıştırısak 0. ve 2. indekste kayıtlı satırları gizle, sadece 1. indekste kayıtlı **viper** satırını göster demiş oluruz. KOdun çıktısını aşağıda görebilirsiniz;

In [6]:
df[[False, True, False]]

Unnamed: 0,max_speed,shield
viper,4,5


<code>[False, True, False]</code> listesini, Pandas Seriler (Series) veri yapısını kullanarak, aynı veri çerçevesine, indeks sırasını değiştirerek (hizalayarak) uygulayıp sonucu görelim.

In [3]:
df.loc[pd.Series([False, True, False], index=['viper', 'sidewinder', 'cobra'])]

Unnamed: 0,max_speed,shield
sidewinder,7,8


<code>index=['viper', 'sidewinder', 'cobra']</code> kodu ile indeks sırasını değiştirip ardında 0. ve 2. indekste kayıtlı satırları gizle, sadece 1. indekste kayıtlı satırını göster demiş olduk. Satır sırası değiştiği için 1. indeksteki satır **sidewinder** oldu ve bu satıra ait bilgiler ekrana yazdırıldı.

### Index Metodu (df.reindex ile aynı davranış)

<code>Index</code> metodu, veri çerçevesindeki index isimlerine göre Sıralama ve satır seçimi yapmamızı sağlar. <code>name</code> parametresi ise, indeks başlığı olarak kullanacağımız değeri atamamıza yarar. Önce Veri Çerçevemize göz atalım;

In [11]:
df

Unnamed: 0,max_speed,shield
cobra,1,2
viper,4,5
sidewinder,7,8


**viper ve cobra** satırlarındaki verileri seçmek ve sıralamayı değiştirmek isteyelim. Bu durumda aşağıdaki kodu yazıp çalıştırmamız yeterli olacaktır;

In [13]:
df.loc[pd.Index(["viper", "cobra"], name="Baslik")]

Unnamed: 0_level_0,max_speed,shield
Baslik,Unnamed: 1_level_1,Unnamed: 2_level_1
viper,4,5
cobra,1,2


### Koşullu Satır Seçimi

Veri çerçevemizde belirttiğimiz koşullara uyan satırları seçmek istersek, bunu Python operatörleri ile rahatlıkla gerçekleştirebiliriz. **shield** sütununda 6'dan büyük değerleri barındıran satırları seçmek istediğimizi varsayalım ve buna uygun kodu yazıp çalıştıralım;

In [15]:
df.loc[df['shield'] > 6]

Unnamed: 0,max_speed,shield
sidewinder,7,8


### Koşullu Sütun seçimi

Veri çerçevemizde belirttiğimiz koşullara uyan sütunları seçmek istersek, benzer kodu kullanabiliriz. Örneğin **shield** sütununda 6'dan büyük değerleri barındıran satırları ve bu satırların sadece **max_speed** sütununu seçmek istediğimizi varsayalım. Bunun için aşağıdaki kodu yazıp çalıştıralım;

In [16]:
df.loc[df['shield'] > 6, ['max_speed']]

Unnamed: 0,max_speed
sidewinder,7


### lambda Fonksiyonu ile Satır Seçimi

<code>lambda</code> fonksiyonu ile belirteceğimiz koşulu sağlayan satırı seçmek için aşağıdaki kod mantığını kullanabiliriz. Örneğin **shield** satırında **8**'e eşit değer barındıran satırları seçelim.

In [18]:
df.loc[lambda df: df['shield'] == 8]

Unnamed: 0,max_speed,shield
sidewinder,7,8


## Sütun Seçimi

Sadece bir Sütunu seçmek/görüntülemek için veri çerçevesinin adı ile birlikte seçmek/görüntülemek istediğimiz sütunun ismini yazmak yeterlidir. Bu da iki şekilde gerçekleştirilebilir.

1. **VeriCervecesiAdı.SütunAdı**
2. **VeriCervecesiAdı["SütunAdı"]**

Sütun isminde boşluk ya da nokta karakterleri bulunması halinde, ilk (noktalı) seçeneği kullanamayız, o durumda 2. seçeneği (köşeli parantezli) kullanmak gerekir.
Bunları da örneklerle görelim.

In [69]:
imdb.Puan

Film_Adı
The Shawshank Redemption     9,2
The Godfather                9,2
The Godfather: Part II         9
Pulp Fiction                 8,9
The Dark Knight              8,9
                            ... 
Mystic River                 7,9
In the Heat of the Night     7,9
Arsenic and Old Lace         7,9
Before Sunrise               7,9
Papillon                     7,9
Name: Puan, Length: 247, dtype: object

In [71]:
imdb["Puan"]

Film_Adı
The Shawshank Redemption     9,2
The Godfather                9,2
The Godfather: Part II         9
Pulp Fiction                 8,9
The Dark Knight              8,9
                            ... 
Mystic River                 7,9
In the Heat of the Night     7,9
Arsenic and Old Lace         7,9
Before Sunrise               7,9
Papillon                     7,9
Name: Puan, Length: 247, dtype: object

Birden fazla sütun seçmek istediğimiz durumda, sütun isimlerini liste olarak (bildiğiniz gibi liste veri tipleri köşeli parantez ile temsil edilir) belirtmek/yazmak gerekir.

In [76]:
imdb[["Yıl", "Puan"]]

Unnamed: 0_level_0,Yıl,Puan
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1
The Shawshank Redemption,1994,92
The Godfather,1972,92
The Godfather: Part II,1974,9
Pulp Fiction,1994,89
The Dark Knight,2008,89
...,...,...
Mystic River,2003,79
In the Heat of the Night,1967,79
Arsenic and Old Lace,1944,79
Before Sunrise,1995,79


Yukarıda anlatılan <code>loc</code> ve <code>iloc</code> metodlarını, **Satır**lar da olduğu gibi, **Sütun**larda da kullanabiliriz.