# Sıralama Yöntemleri

Oluşturulan Veri Çerçevelerinin, isteğimiz doğrultusunda sıralanması için kullanabileceğimiz yöntemlere, bu bölümde değineceğiz.

Pandas üç tür sıralamayı destekler ; 
* İndeks (dizin) etiketlerine göre sıralama, 
* Sütun değerlerine göre sıralama 
* Her ikisinin birleşimine göre sıralama.

Konuya ait yöntemleri incelemek amacıyla **imdb.xlsx** dosyamızı içe aktararak bir veri çerçevesi oluşturarak işe başlayalım. Oluşturacağımız Veri çerçevesinin indeks değeri olarak **Film Adlarını** belirleyelim.


In [2]:
import pandas as pd
df = pd.read_excel("Veri_Setleri/imdb.xlsx", index_col="Film_Adı")
df.head(10)

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
The Shawshank Redemption,1994,92,1071904
The Godfather,1972,92,751381
The Godfather: Part II,1974,9,488889
Pulp Fiction,1994,89,830504
The Dark Knight,2008,89,1045186
12 Angry Men,1957,89,264112
Schindler's List,1993,89,545703
The Lord of the Rings: The Return of the King,2003,88,758388
Fight Club,1999,88,814389
Star Wars: Episode V - The Empire Strikes Back,1980,88,519895


# sort_index() Fonksiyonu

<code>sort_index()</code> fonksiyonu (metodu), veri çerçevesini indeks (dizin) değerine göre **Alfabetik** olarak sıralama için kullanılır.
**df** veri çerçevemizin indekslerini, **Film adı** olarak atadığımız için, <code>sort_index()</code> metodunu kullandığımız zaman, Veri çerçevemizi **Film Adı**na göre sıralamış olacağız.

In [4]:
df.sort_index()

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12 Angry Men,1957,89,264112
2001: A Space Odyssey,1968,83,275055
3 Idiots,2009,8,83178
8½,1963,8,54451
A Beautiful Mind,2001,8,344294
...,...,...,...
Warrior,2011,81,190877
Who's Afraid of Virginia Woolf?,1966,8,38192
Wild Strawberries,1957,82,41744
Witness for the Prosecution,1957,83,36241


## ascending parametresi

Sıralamayı ters çevirmek için <code>ascending=False</code> parametresini kullanabiliriz.

In [5]:
df.sort_index(ascending=False)

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Yojimbo,1961,83,49855
Witness for the Prosecution,1957,83,36241
Wild Strawberries,1957,82,41744
Who's Afraid of Virginia Woolf?,1966,8,38192
Warrior,2011,81,190877
...,...,...,...
A Beautiful Mind,2001,8,344294
8½,1963,8,54451
3 Idiots,2009,8,83178
2001: A Space Odyssey,1968,83,275055


## axis Parametresi

Sütunlarda sıralama yapmak istersek <code>axis=1</code> parametresini kullanmamız gerekir. </code>axis</code> parametresinin varsayılan değeri 0 (sıfır) yani **satırlar**dır.

<code>df.sort_index(axis=1)</code> kodunu çalıştırdığımızda, **imdb.xlsx** dosyasını içeriği okunacak, satırlarda bir sıralama yapılmayacak ancak, **sütun isimleri** alfabetik olarak sıralanacaktır. Veri çerçevesi oluşturulurken dosya içeriğindeki **Film_Adı** Sütunu indeks olarak ayarlandığı için, <code>axis=1</code> parametresi ile sıralama yapıldığında bu sütun sabit kalacak, diğer sıralı sütun isimleri (**Yıl, Puan,	Oylayan_Kişi**) ve sütun değerleri değişecektir (**Oylayan_Kişi, Puan, Yıl** olacak).

In [8]:
df.sort_index(axis=1)

Unnamed: 0_level_0,Oylayan_Kişi,Puan,Yıl
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
The Shawshank Redemption,1071904,92,1994
The Godfather,751381,92,1972
The Godfather: Part II,488889,9,1974
Pulp Fiction,830504,89,1994
The Dark Knight,1045186,89,2008
...,...,...,...
Mystic River,256159,79,2003
In the Heat of the Night,37081,79,1967
Arsenic and Old Lace,45893,79,1944
Before Sunrise,100974,79,1995


# sort_values() Fonksiyonu

Veri çerçevesini **sütun(lar)a göre** sıralamak istersek, <code>sort_values()</code> fonksiyonunu kullanmalıyız. 

## by Parametresi
<code>sort_values()</code> fonksiyonu ile sütuna göre sıralama yapmak için <code>by</code> parametresi kullanılmalıdır. <code>by</code> parametresi, bir veya daha fazla sütunu belirtmek için kullanılabilir. Bu durumda sütun isimlerini köşeli parantez içinde yani bir **liste** olarak yazmalıyız. Fonksiyonu, örneklerle inceleyelim.

Örneğin yukarıda oluşturduğumuz **df** veri çerçevesini, **Yıla göre sıralamak** istersek aşağıdaki kodu çalıştırmalıyız.

In [17]:
df.sort_values(by="Yıl")

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
The Kid,1921,82,35316
The Gold Rush,1925,82,41458
The General,1926,82,34819
Metropolis,1927,83,74994
All Quiet on the Western Front,1930,8,38373
...,...,...,...
The Avengers,2012,81,568037
The Hobbit: An Unexpected Journey,2012,8,352517
Life of Pi,2012,8,246325
Rush,2013,8,28676


Sıralama işlemini birden fazla sütuna göre yapmak istersek, sütun isimlerini köşeli parantez içinde yani bir **liste** olarak belirtmemiz gerekir.

In [18]:
df.sort_values(by=["Puan", "Yıl"])

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
All Quiet on the Western Front,1930,8,38373
Rope,1948,8,66041
A Streetcar Named Desire,1951,8,60767
Stalag 17,1953,8,33518
Roman Holiday,1953,8,63443
...,...,...,...
Schindler's List,1993,89,545703
Pulp Fiction,1994,89,830504
The Dark Knight,2008,89,1045186
The Godfather,1972,92,751381


Bu kod ile, öncelikle **Puan** sütununa göre sıralama yapılır, **Puan** sütununda aynı değerler yanyana geldiğinde ise, **Yıl** sütunu baz alınarak sıralama yapılır.

## ascending Parametresi
Yukarıdaki örneklerde göreceğiniz gibi Veri çerçevesi, **Yıl**a göre sıralandığında, varsayılan olarak alfabetik artan (küçükten büyüğe) şeklinde sıralandı. Eğer alfabetik azalan (büyükten küçüğe) şeklinde sıralamak istersek (yani sıralamayı ters çevirmek istersek) <code>ascending=False</code> parametresini kullanmalıyız. 

In [16]:
df.sort_values(by="Yıl", ascending=False)

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Rush,2013,8,28676
Gravity,2013,85,33721
The Avengers,2012,81,568037
The Dark Knight Rises,2012,84,672751
The Hunt,2012,81,39033
...,...,...,...
All Quiet on the Western Front,1930,8,38373
Metropolis,1927,83,74994
The General,1926,82,34819
The Gold Rush,1925,82,41458


## na_position Parametresi
<code>sort_values()</code> fonksiyonu, <code>na_position</code> parametresi aracılığıyla **NA** (yani kayıp / eksik veri) değerlerini özel işleme tabi tutarak sıralayabilir.

**Numpy** Kütüphanesini kullanarak Rastgele sayılardan müteşekkil örnek bir veri çerçevesi oluşturup içeriğine bakalım.

In [19]:
import numpy as np
df2 = pd.DataFrame(
    {
        "Sütun_1": pd.Series(np.random.randn(3), index=["a", "b", "c"]),
        "Sütun_2": pd.Series(np.random.randn(4), index=["a", "b", "c", "d"]),
        "Sütun_3": pd.Series(np.random.randn(3), index=["b", "c", "d"]),
        "Sütun_4": pd.Series(np.random.randn(2), index=["a", "d"]),
    }
)
df2

Unnamed: 0,Sütun_1,Sütun_2,Sütun_3,Sütun_4
a,-1.485741,0.063539,,-1.125456
b,-1.67524,0.417121,0.662779,
c,-0.341007,0.701759,-0.998608,
d,,2.495466,0.149067,1.51235


Görüldüğü üzere, **Sütun_1, Sütun_3** ve **Sütun_4**'te **NaN (Not a Number)** kayıp/eksik veriler bulunmakta.
Örneğin **Sütun_4**'e göre yapılacak sıralama işleminde, **NaN** değerlerini en üste almak isteyelim. Bunun için <code>na_position</code> parametresinin <code>"first"</code> seçeneğini belirtmemiz gerekir.

In [20]:
df2.sort_values(by= "Sütun_4", na_position="first")

Unnamed: 0,Sütun_1,Sütun_2,Sütun_3,Sütun_4
b,-1.67524,0.417121,0.662779,
c,-0.341007,0.701759,-0.998608,
a,-1.485741,0.063539,,-1.125456
d,,2.495466,0.149067,1.51235


**Sütun_4**'e göre yapılacak sıralama işleminde, **NaN** değerlerini en alta almak istersek, bu defa <code>na_position</code> parametresinin <code>"last"</code> seçeneğini belirtmemiz gerekir.

In [21]:
df2.sort_values(by= "Sütun_4", na_position="last")

Unnamed: 0,Sütun_1,Sütun_2,Sütun_3,Sütun_4
a,-1.485741,0.063539,,-1.125456
d,,2.495466,0.149067,1.51235
b,-1.67524,0.417121,0.662779,
c,-0.341007,0.701759,-0.998608,
