# Yeniden İndekslemek

# reindex() Fonksiyonu

<code>reindex()</code>, Pandas'ta temel veri sıralama (hizalama) yöntemlerinden biridir. Bir veri çerçevesinin satır ya da sütunlarını yeniden sıralamak için kullanılan en yaygın yöntemdir. Prensip olarak, etiket sıralama mantığına dayanır. Bu işlem, indeks değerlerini ya da sütun isimlerini yeniden sıralamak ve verileri belirli bir eksen (Satır ya da sütun) boyunca belirli bir etiket kümesiyle eşleşecek şekilde uyarlamak anlamına gelir. Bu fonksiyon, **hem seçim hem de sıralama** mantığıyla çalışır. Bu yöntemle şunlar sağlanır ;

* Mevcut verileri, Yeni bir etiket kümesiyle eşleştirerek yeniden sıralar
* Etiket kümesinde eşleşen verinin bulunmaması durumunda, etiket konumlarına eksik değer (NA / NaN) işaretçileri ekler
* Belirtilmişse, mantık kullanarak eksik etiketler için verileri doldurur (fill). (zaman serisi verileriyle çalışanlar için oldukça alakalıdır)

**df** veri çerçevemizin ilk 15 verisini inceleyelim.

In [85]:
import pandas as pd
df = pd.read_excel("Veri_Setleri/imdb.xlsx", index_col="Film_Adı")
df.head(15)

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
The Shawshank Redemption,1994,92,1071904
The Godfather,1972,92,751381
The Godfather: Part II,1974,9,488889
Pulp Fiction,1994,89,830504
The Dark Knight,2008,89,1045186
12 Angry Men,1957,89,264112
Schindler's List,1993,89,545703
The Lord of the Rings: The Return of the King,2003,88,758388
Fight Club,1999,88,814389
Star Wars: Episode V - The Empire Strikes Back,1980,88,519895


Hem seçim hem de sıralama mantığı ile çalışan bu fonksiyon ile **Fight Club, Pulp Fiction, Inception, The Godfather, The Dark Knight** ve **Seven Samurai** filmlerini, yazdığımız sıra ile **sirala_filtrele** isimli yeni bir Veri Çerçevesine atayalım.

In [86]:
sirala_filtrele = df.reindex(["Fight Club ", "Pulp Fiction", "Inception", "The Godfather ", "The Dark Knight ", "Seven Samurai "])
sirala_filtrele

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fight Club,1999,88,814389
Pulp Fiction,1994,89,830504
Inception,2010,87,844938
The Godfather,1972,92,751381
The Dark Knight,2008,89,1045186
Seven Samurai,1954,87,161969


**df** veri çerçevemizde bulunmayan (eksik/kayıp veri) bir filmi **sirala_filtrele** veri çerçevemize eklemeye çalışırak ne olacağını görelim.

In [87]:
sirala_filtrele = df.reindex(["Deli Yürek", "Fight Club ", "Pulp Fiction", "Inception", "The Godfather ", "The Dark Knight ", "Seven Samurai "])
sirala_filtrele

Unnamed: 0_level_0,Yıl,Puan,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Deli Yürek,,,
Fight Club,1999.0,88.0,814389.0
Pulp Fiction,1994.0,89.0,830504.0
Inception,2010.0,87.0,844938.0
The Godfather,1972.0,92.0,751381.0
The Dark Knight,2008.0,89.0,1045186.0
Seven Samurai,1954.0,87.0,161969.0


Gördüğünüz gibi, **df** veri çerçevemizde **Deli Yürek** isimli bir filmi bulunmadığı için, **sirala_filtrele** veri çerçevemize sadece **Filmin Adı** eklendi, **Yıl, Puan** ve **Oylayan_Kişi** bilgileri yerine **NaN** değeri atandı.


## columns Parametresi
**df** veri çerçevemizin sütun isimleri **Yıl, Puan** ve **Oylayan_Kişi** sırası ile görüntüleniyor. Bu sırayı <code>reindex()</code> fonksiyonu yardımı ile değiştirmek istersek, <code>columns</code> parametresini kullanabiliriz. **sirala_filtrele** isimli veri çerçevemizin sütunlarını **Puan, Yıl, Oylayan_Kişi** sırasına göre hizalamaya çalışalım.

In [88]:
sirala_filtrele.reindex(columns=["Puan", "Yıl", "Oylayan_Kişi"])

Unnamed: 0_level_0,Puan,Yıl,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Deli Yürek,,,
Fight Club,88.0,1999.0,814389.0
Pulp Fiction,89.0,1994.0,830504.0
Inception,87.0,2010.0,844938.0
The Godfather,92.0,1972.0,751381.0
The Dark Knight,89.0,2008.0,1045186.0
Seven Samurai,87.0,1954.0,161969.0


<code>reindex()</code> fonksiyonunu, **Dilimleme** ve **Filtreleme** işlemi olarak ta kullanabiliriz. **df** veri çerçevemizdeki **Seven Samurai, Fight Club** ve **Inception** isimli filmlere ait sadece **Yıl** ve **Puan** bilgilerini elde etmek istersek <code>reindex()</code> fonksiyonu ile birlikte <code>index</code> ve <code>columns</code> parametrelerini kullanmalıyız.

In [89]:
df.reindex(index=["Seven Samurai ", "Fight Club ", "Inception"], columns=["Yıl", "Puan"])

Unnamed: 0_level_0,Yıl,Puan
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1
Seven Samurai,1954,87
Fight Club,1999,88
Inception,2010,87


## axis parametresi

Veri çerçevenizin indeks değerlerini (satırlar) ya da sütun isimlerini/değerlerini <code>reindex()</code> fonksiyonun, <code>axis</code> parametresi ile de sıralayabilirsiniz.

İndeks değerleri ve Sütun isimleri **0, 1** ve **2** olan bir veri çerçevesi oluşturup göz atalım.

In [90]:
bir = [1,2,3], [40,50,60], [700,800,900]
sutun = [0,1,2]

df_1 = pd.DataFrame(bir, columns=sutun)
df_1

Unnamed: 0,0,1,2
0,1,2,3
1,40,50,60
2,700,800,900


### index Seçeneği
İndeks değerlerini **2, 1** ve **0** olacak şekilde sıralamak için <code>axis="index"</code> parametre seçeneğini kullanmalıyız.

In [91]:
df_1.reindex([2,1,0], axis="index")

Unnamed: 0,0,1,2
2,700,800,900
1,40,50,60
0,1,2,3


### columns Seçeneği
İndeks değerlerini **2, 1** ve **0** olacak şekilde sıralamak için <code>axis="columns"</code> parametre seçeneğini kullanmalıyız.

In [92]:
df_1.reindex([2,1,0], axis="columns")

Unnamed: 0,2,1,0
0,3,2,1
1,60,50,40
2,900,800,700


### Bilgi
<code>reindex()</code> fonksiyonunu kullanırken, gerçek eksen etiketlerini (indeksleri) içeren <code>index</code> nesnelerinin, nesneler arasında paylaşılabileceğine dikkat edin!

Yani bir Seriniz (Series) ve Veri Çerçeveniz (Data Frame) varsa, bunların indeks değerlerini <code>reindex()</code> fonksiyonunda parametre olarak kullanabilirsiniz.

In [93]:
iki = ["a","b","c"], ["aa","bb","cc"], ["aaa","bbb","ccc"]
sutun = [1,2,0]

df_2 = pd.DataFrame(iki, index=sutun, columns=sutun)
df_2

Unnamed: 0,1,2,0
1,a,b,c
2,aa,bb,cc
0,aaa,bbb,ccc


**df_2** veri çerçevesinde index ve Sütun isimleri **1,2,0** olarak atanmış. **df_1** veri çerçevesinde index ve Sütun isimleri ise **0,1,2** olarak atanmış. 

**df_2**'nin indeks değerlerini (satır etiketini) <code>reindex()</code> fonksiyonu ile değiştirirken, yeni sıralamayı **df_1**'in indeks değerleri ile belirleyelim/eşleştirelim.

In [94]:
df_2.reindex(df_1.index)

Unnamed: 0,1,2,0
0,aaa,bbb,ccc
1,a,b,c
2,aa,bb,cc


**df_2**'nin Sütun isimlerini <code>reindex()</code> fonksiyonun <code>columns</code> parametresi ile değiştirirken, yeni sıralamayı **df_1**'in indeks değerleri ile belirleyelim/eşleştirelim.

In [95]:
df_2.reindex(columns=df_1.index)

Unnamed: 0,0,1,2
1,c,a,b
2,cc,aa,bb
0,ccc,aaa,bbb


## Karşılaştırma Operatörü Kullanımı

## is Operatorü
Veri Çerçevelerinin <code>index</code> değerleri , liste veri tipi olarak belirtildiği  için, listeler arasında karşılaştırma operatörlerini kullanmak ta mümkündür.

Örneğin <code>df_1.index</code> değerlerinin <code>df_2.index</code> değerlerine eşit olup olmadığını denetleyelim;

In [96]:
df_1.index is sirala_filtrele.index

False

## > Operatörü

Python'da kullandığımız **<, >, <=, >=, ==**, ...vb operatörleri, Pandas Veri çerçevelerinde de kullanabiliriz.

Örneğin, **df** veri çerçevemizden dilimleme yöntemi ile **sf** isimli bir veri çerçevesi oluşturalım. Ardından **df_1** veri çerçevesinin satır sayısının (<code>len(df_1.index)</code>) **sf** veri çerçevesinin satır sayısından (<code>len(sf.index)</code>) büyük olup olmadığını denetleyelim;

In [97]:
sf = sirala_filtrele.reindex(columns=["Puan", "Yıl", "Oylayan_Kişi"])
sf

Unnamed: 0_level_0,Puan,Yıl,Oylayan_Kişi
Film_Adı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Deli Yürek,,,
Fight Club,88.0,1999.0,814389.0
Pulp Fiction,89.0,1994.0,830504.0
Inception,87.0,2010.0,844938.0
The Godfather,92.0,1972.0,751381.0
The Dark Knight,89.0,2008.0,1045186.0
Seven Samurai,87.0,1954.0,161969.0


In [98]:
len(df_1.index) > len(sf.index)

False

Benzer şekilde KÜÇÜKTÜR (<) operatörünün çıktısını da aşağıda görebilirsiniz;

In [99]:
len(df_1.index) < len(sf.index)

True