# Sıralama Yöntemleri

Oluşturulan Veri Çerçevelerinin, isteğimiz doğrultusunda sıralanması için kullanabileceğimiz yöntemlere, bu bölümde değineceğiz.

Pandas üç tür sıralamayı destekler ; 
* İndeks (dizin) etiketlerine göre sıralama, 
* Sütun değerlerine göre sıralama 
* Her ikisinin birleşimine göre sıralama.

Konuya ait yöntemlerde kullanmak üzere **imdb.xlsx** dosyamızı içe aktararak bir veri çerçevesi oluşturarak işe başlayalım.

In [35]:
import pandas as pd
df = pd.read_excel("imdb.xlsx", index_col="Film_Adı")
df.head(10)

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
The Shawshank Redemption,1994,92,1071904
The Godfather,1972,92,751381
The Godfather: Part II,1974,9,488889
Pulp Fiction,1994,89,830504
The Dark Knight,2008,89,1045186
12 Angry Men,1957,89,264112
Schindler's List,1993,89,545703
The Lord of the Rings: The Return of the King,2003,88,758388
Fight Club,1999,88,814389
Star Wars: Episode V - The Empire Strikes Back,1980,88,519895


## sort_index() Metodu kullanımı

**sort_index()** metodu, veri çerçevesini, indeks (dizin) düzeylerine göre **Alfabetik** sıralama için kullanılır.
**df** veri çerçevemizin indeksleri, Film adı olarak atadığımız için, **sort_index()** metodunu kullandığımız zaman, **Film Adı**na göre sıralı bir liste sonucu elde edeceğiz.

In [37]:
df.sort_index()

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12 Angry Men,1957,89,264112
2001: A Space Odyssey,1968,83,275055
3 Idiots,2009,8,83178
8½,1963,8,54451
A Beautiful Mind,2001,8,344294
...,...,...,...
Warrior,2011,81,190877
Who's Afraid of Virginia Woolf?,1966,8,38192
Wild Strawberries,1957,82,41744
Witness for the Prosecution,1957,83,36241


### ascending parametresi

Sıralamayı ters çevirmek için <code>ascending=False</code> parametresini kullanabiliriz.

In [38]:
df.sort_index(ascending=False)

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Yojimbo,1961,83,49855
Witness for the Prosecution,1957,83,36241
Wild Strawberries,1957,82,41744
Who's Afraid of Virginia Woolf?,1966,8,38192
Warrior,2011,81,190877
...,...,...,...
A Beautiful Mind,2001,8,344294
8½,1963,8,54451
3 Idiots,2009,8,83178
2001: A Space Odyssey,1968,83,275055


### axis Parametresi

Sütunlarda sıralama yapmak istersek **axis=1** parametresini yazmamız gerekir. axis parametresinin varsayılan değeri 0 (sıfır) yani sütundur.

In [39]:
df.sort_index(axis=1)

Unnamed: 0_level_0,Oylayan_Kişi,Puan,Yıl
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
The Shawshank Redemption,1071904,92,1994
The Godfather,751381,92,1972
The Godfather: Part II,488889,9,1974
Pulp Fiction,830504,89,1994
The Dark Knight,1045186,89,2008
...,...,...,...
Mystic River,256159,79,2003
In the Heat of the Night,37081,79,1967
Arsenic and Old Lace,45893,79,1944
Before Sunrise,100974,79,1995


## sort_values() Metodu

**sort_values()** metodu, veri çerçevesini sütun veya satır değerlerine göre sıralamak için kullanılır. 

### by Parametresi
**sort_values()** için isteğe bağlı **by** parametresi, sıralı düzeni belirlemek için kullanılacak bir veya daha fazla sütunu belirtmek için kullanılabilir.

In [40]:
df.sort_values(by="Oylayan_Kişi")

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Judgment at Nuremberg,1961,81,25742
Diabolique,1955,81,26777
Ikiru,1952,82,27215
Fanny and Alexander,1982,8,27430
The Best Years of Our Lives,1946,81,27843
...,...,...,...
Fight Club,1999,88,814389
Pulp Fiction,1994,89,830504
Inception,2010,87,844938
The Dark Knight,2008,89,1045186


**by** parametresi, sütun adları bir liste olarak ta alabilir, örneğin:

In [41]:
df.sort_values(by=["Puan", "Yıl"])

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
All Quiet on the Western Front,1930,8,38373
Rope,1948,8,66041
A Streetcar Named Desire,1951,8,60767
Stalag 17,1953,8,33518
Roman Holiday,1953,8,63443
...,...,...,...
Schindler's List,1993,89,545703
Pulp Fiction,1994,89,830504
The Dark Knight,2008,89,1045186
The Godfather,1972,92,751381


Bu kod ile sıralama öncelikle **Puan** sütununa göre yapılıyor, **Puan** sütununda aynı değerler yanyana geldiğinde ise, sıralama **Yıl** sütunu baz alınarak yapılıyor.

### na_position Parametresi
sort_values() metodu, **na_position** parametresi aracılığıyla **NA** (yani kayıp veri) değerlerinin özel işlemine tabi tutarak sıralayabilir.

Numpy Kütüphanesini kullanarak Rastgele sayılardan müteşekkil örnek bir veri çerçevesi oluşturup içeriğine bakalım.

In [30]:
import numpy as np
df2 = pd.DataFrame(
    {
        "Sütun_1": pd.Series(np.random.randn(3), index=["a", "b", "c"]),
        "Sütun_2": pd.Series(np.random.randn(4), index=["a", "b", "c", "d"]),
        "Sütun_3": pd.Series(np.random.randn(3), index=["b", "c", "d"]),
        "Sütun_4": pd.Series(np.random.randn(2), index=["a", "d"]),
    }
)
df2

Unnamed: 0,Sütun_1,Sütun_2,Sütun_3,Sütun_4
a,0.383661,0.17759,,0.019172
b,0.180747,-0.306337,-0.987725,
c,-0.089445,0.279918,-1.161714,
d,,1.682713,-0.14182,1.600452


Görüldüğü üzere, Sütun_1, Sütun_3 ve Sütun_4'te **NaN (Not a Number)** kayıp/eksik veriler bulunmakta.
Örneğin Sütun_4'e göre, NaN değerleri sıralama esnasında en üste almak isteyelim.

In [31]:
df2.sort_values(by= "Sütun_4", na_position="first")

Unnamed: 0,Sütun_1,Sütun_2,Sütun_3,Sütun_4
b,0.180747,-0.306337,-0.987725,
c,-0.089445,0.279918,-1.161714,
a,0.383661,0.17759,,0.019172
d,,1.682713,-0.14182,1.600452


Sütun_4'e göre, **NaN** değerleri en alta alarak sıralamak istersek **na_position="last"** ifadesini kullanmalıyız.

In [42]:
df2.sort_values(by= "Sütun_4", na_position="last")

Unnamed: 0,Sütun_1,Sütun_2,Sütun_3,Sütun_4
a,0.383661,0.17759,,0.019172
d,,1.682713,-0.14182,1.600452
b,0.180747,-0.306337,-0.987725,
c,-0.089445,0.279918,-1.161714,
