# Pandas (Panel Data)

Veri manipülasyonu ve veri analizi için yazılmış olan Pandas, 2008 yılında geliştirilmeye başlanmış ve ilk etapta daha çok ekonomik ve finansal veriler (timeseries data) üzerinde çalışılabilmesi için hazırlanmış bir opensource python kütüphanesidir.
- Numpy'ın özelliklerini kullanır.
- Yapısal veri setleri ile daha esnek bir şekilde çalışmamızı sağlar. 
- Numpy'ın aksine **fixed type zorunluluğu yoktur**. Veri seti içerisinde **Kategorik ve Numerik veriler bir arada bulunabilir**.
- R dilinde kullanılan DataFrame'in Python için hazırlanmış halidir.
- Değerleri indeksleri ile birlikte tutar.

### Pandas Serisi Oluşturma

In [7]:
import pandas as pd

In [9]:
pd.Series([3,4,7,99,36])

0     3
1     4
2     7
3    99
4    36
dtype: int64

Yukarıdaki tabloda ilk sütun indeks, 2. sütun değerlerdir.

In [12]:
seri = pd.Series([3,4,7,99,36])

In [15]:
type(seri) # tip bilgisi

pandas.core.series.Series

Serinin indeks bilgilerine erişelim. Bu çıktıdan anlamamız gereken indeks 0'dan başlamış birer birer 5'e kadar(5 dahil değil) artmış.

In [14]:
seri.axes

[RangeIndex(start=0, stop=5, step=1)]

Veri tipine bakalım

In [16]:
seri.dtype

dtype('int64')

Verinin eleman sayısı

In [18]:
seri.size

5

Serinin boyutu

In [19]:
seri.ndim

1

Değerleri görüntülemek istersek;

In [20]:
seri.values

array([ 3,  4,  7, 99, 36], dtype=int64)

In [24]:
seri.head() # öntanımlı olarak ilk 5 gözlemi getirir

0     3
1     4
2     7
3    99
4    36
dtype: int64

In [26]:
seri.head(3) # satır sayısını belirtebiliriz.

0    3
1    4
2    7
dtype: int64

Veriye listenin sonundan bakmak istersek;

In [27]:
seri.tail()

0     3
1     4
2     7
3    99
4    36
dtype: int64

Serinin indeks isimlendirmesini kendimiz belirtebiliriz;

In [28]:
pd.Series([23,54,643,65,75,67], index=[1,3,5,7,9,11])

1      23
3      54
5     643
7      65
9      75
11     67
dtype: int64

Atayacağımız indeksler string olabilir.

In [31]:
seri = pd.Series([23,54,643,65,75,67], index=["a","b","c","d","e","f"])

Aynı numpy'daki gibi seri içerisindeki verilere erişebiliriz.

In [32]:
seri["a"]

23

In [34]:
seri["a":"c"] #a'dan c'ye kadar olanları getir

a     23
b     54
c    643
dtype: int64

#### Python Dict ile Seri Oluşturma

In [36]:
dict = pd.Series({"reg": 10, "log": 11, "cart": 12});dict

reg     10
log     11
cart    12
dtype: int64

In [37]:
dict["log"]

11

#### İki Seriyi Birleştirme

In [39]:
pd.concat([seri,dict])

a        23
b        54
c       643
d        65
e        75
f        67
reg      10
log      11
cart     12
dtype: int64

#### Serilerde Eleman İşlemleri

In [49]:
import numpy as np
import pandas as pd
a = np.array([1,2,3,445,345,65,75])
seri = pd.Series(a, index=["as","ad","bs","bd","cd","cf","vf"]);seri

as      1
ad      2
bs      3
bd    445
cd    345
cf     65
vf     75
dtype: int32

In [50]:
seri[0] # Serinin 0. elemanını getir

1

In [51]:
seri[0:3] # 0'dan 3'e kadar olan kısmı getir

as    1
ad    2
bs    3
dtype: int32

Her bir değeri ayrı ayrı okumak istersek;

In [52]:
list(seri.items())

[('as', 1),
 ('ad', 2),
 ('bs', 3),
 ('bd', 445),
 ('cd', 345),
 ('cf', 65),
 ('vf', 75)]

Sadece değerleri getirmek için;

In [53]:
seri.values

array([  1,   2,   3, 445, 345,  65,  75])

#### Eleman Sorgulama

"as" key'i seri içerisinde mevcut mu?

In [54]:
"as" in seri

True

**Fancy Eleman**

In [57]:
seri[["as","vf"]]

as     1
vf    75
dtype: int32

In [61]:
seri["bs":"cd"]

bs      3
bd    445
cd    345
dtype: int32

Value üzerinde Yeniden Atama İşlemi yapalım

In [59]:
seri["vf"]=333

In [60]:
seri

as      1
ad      2
bs      3
bd    445
cd    345
cf     65
vf    333
dtype: int32

#### Pandas DataFrame Oluşturma

In [68]:
import pandas as pd
import numpy as np

In [65]:
list = [1,3,44,54,23,65];l

[1, 3, 44, 54, 23, 65]

In [66]:
pd.DataFrame(list, columns=["kolon_adi"])

Unnamed: 0,kolon_adi
0,1
1,3
2,44
3,54
4,23
5,65


Numpy ile bir matris oluşturup bunu Pandas DataFrame haline getirelim;

In [69]:
m = np.arange(1,10).reshape((3,3));m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [71]:
df = pd.DataFrame(m, columns=["kolon1","kolon2","kolon3"])

In [72]:
df.head()

Unnamed: 0,kolon1,kolon2,kolon3
0,1,2,3
1,4,5,6
2,7,8,9


In [73]:
df.columns

Index(['kolon1', 'kolon2', 'kolon3'], dtype='object')

Kolon isimlerini tekrar tanımlayalım;

In [74]:
df.columns=("var1","var2","var3");df

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


Daha önce bahsettiğimiz df hakkında bilgi veren fonksiyon ve parametrelere tekrar bakalım

In [78]:
type(df) # veri tipi

pandas.core.frame.DataFrame

In [80]:
df.axes # indeks ve kolon bilgisi

[RangeIndex(start=0, stop=3, step=1),
 Index(['var1', 'var2', 'var3'], dtype='object')]

In [76]:
df.shape # df boyutu

(3, 3)

In [81]:
df.ndim # toplam boyut bilgisi

2

In [82]:
df.size # eleman sayısı

9

In [85]:
df.values # numpy ndarray formatında değerleri çeker

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [84]:
type(df.values)

numpy.ndarray

In [87]:
df.tail(3) # df'i listenin sonundan başına doğru gösterir

Unnamed: 0,var1,var2,var3
0,1,2,3
1,4,5,6
2,7,8,9


#### DataFrame'de Eleman İşlemleri

In [88]:
np1 = np.random.randint(10, size=5)
np2 = np.random.randint(10, size=5)
np3 = np.random.randint(10, size=5)

In [93]:
sozluk = {"var1": np1, "var2": np2,"var3": np3};sozluk

{'var1': array([1, 3, 0, 5, 9]),
 'var2': array([0, 0, 9, 4, 4]),
 'var3': array([5, 7, 8, 8, 9])}

In [94]:
df = pd.DataFrame(sozluk);df

Unnamed: 0,var1,var2,var3
0,1,0,5
1,3,0,7
2,0,9,8
3,5,4,8
4,9,4,9


In [100]:
df[0:3] # 0'dan 3'e kadar olan satırlar

Unnamed: 0,var1,var2,var3
0,1,0,5
1,3,0,7
2,0,9,8


In [101]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [103]:
df.index = ["a","b","c","d","e"];df # indeksleri int değer yerine string değer atayalım

Unnamed: 0,var1,var2,var3
a,1,0,5
b,3,0,7
c,0,9,8
d,5,4,8
e,9,4,9


In [105]:
df["b":"d"] # b'den d'ye kadar olan satırları getirir

Unnamed: 0,var1,var2,var3
b,3,0,7
c,0,9,8
d,5,4,8


**Silme İşlemi**

In [106]:
df.drop("a", axis=0)

Unnamed: 0,var1,var2,var3
b,3,0,7
c,0,9,8
d,5,4,8
e,9,4,9


axis=0 olması indeks'i **a** olan satırı silmek istediğimizi belirtir. Yani satır silmek istediğimizi belirtiyoruz. Şimdi df'i tekrar çağırıp asıl dataframe üzerinde değişiklik oluğ olmadığına bakalım

In [107]:
df

Unnamed: 0,var1,var2,var3
a,1,0,5
b,3,0,7
c,0,9,8
d,5,4,8
e,9,4,9


Görüldüğü üzere asıl veri seti üzerinde herhangi bir değişiklik olmadı. a satırı olduğu gibi durmakta. Yaptığımız değişikliğin veri setini etkileyebilmesi için **inplace=True** parametresini drop fonksiyonunda belirtmemiz gerekiyor. Şimdi inplace ile drop fonksiyonunu tekrar çağıralım ve dataframe'e tekrar bakalım.

In [108]:
df.drop("a", axis=0, inplace=True);df

Unnamed: 0,var1,var2,var3
b,3,0,7
c,0,9,8
d,5,4,8
e,9,4,9


Görüldüğü üzere a satırı artık yok. Kalıcı olarak sildik.

**Fancy ile silme işlemi;**

In [110]:
l = ["c","e"] # indeks listesi oluşturduk

In [111]:
df.drop(l, axis=0, inplace=True)

In [112]:
df

Unnamed: 0,var1,var2,var3
b,3,0,7
d,5,4,8


**Değişken-Sütun Bazında işlemler;**

In [113]:
"var1" in df #var1'in df içerisinde olup olmadığına bakalım

True

In [114]:
l = ["var1","var5","var2"] # rasgele sütun ismi girelim

Şimdi yukarıda belirttiğimiz **l** listesindeki sütun isimlerinin df içerisinde olup olmadığını sorgulayalım

In [115]:
for i in l:
    print(i in df)

True
False
True


Çıktıya bakarsak var1 ve var2 true yani df içerisinde mevcut ancak var5 listede mevcut değil.

Şimdi var1 ve var2'nin çarpımı ile yeni bir var4 sütunu oluşturalım;

In [116]:
df

Unnamed: 0,var1,var2,var3
b,3,0,7
d,5,4,8


In [117]:
df["var4"] = df["var1"] * df["var2"]

In [118]:
df

Unnamed: 0,var1,var2,var3,var4
b,3,0,7,0
d,5,4,8,20


Görüldüğü üzere var4 sütunu eklenmiş oldu. Şimdi eklemiş olduğumuz var4 sütununu silelim. Sütunlar üzerinde işlem yapılacak dolayısıyla **axis=1** olmalı.

In [120]:
df.drop("var4", axis=1)

Unnamed: 0,var1,var2,var3
b,3,0,7
d,5,4,8


Silme işlemi gerçekleşmiş görünüyor ancak bir de dataframe'e bakalım

In [121]:
df

Unnamed: 0,var1,var2,var3,var4
b,3,0,7,0
d,5,4,8,20


silmemiş neden? çünkü inplace'i belirtmedik.

In [122]:
df.drop("var4", axis=1, inplace=True)

In [123]:
df

Unnamed: 0,var1,var2,var3
b,3,0,7
d,5,4,8


Şimdi var1 ve var2'yi tek seferde silelim ancak inplace ile kaydetmeyelim.

In [124]:
l = ["var1", "var2"]
df.drop(l, axis=1)

Unnamed: 0,var3
b,7
d,8


#### LOC & ILOC (Gözlem ve Değişken Seçimi)

In [125]:
import numpy as np
import pandas as pd

In [126]:
m = np.random.randint(1,30,size=(10,3))
df = pd.DataFrame(m, columns=["var1", "var2", "var3"]);df

Unnamed: 0,var1,var2,var3
0,21,10,24
1,22,15,17
2,26,4,12
3,27,12,8
4,15,17,24
5,13,4,17
6,22,1,4
7,6,13,15
8,12,5,2
9,12,29,1


**LOC**: Tanımlandığı şekli ile seçim yapmak için kullanılır. Yani 0'dan 3'e kadar değil, 3 dahil satırları getirir. Aşağıdaki örneği inceleyiniz.

In [127]:
df.loc[0:3]

Unnamed: 0,var1,var2,var3
0,21,10,24
1,22,15,17
2,26,4,12
3,27,12,8


**ILOC:** Alışık olduğumuz indeksleme mantığı ile seçim yapar. Yani 0'dan 3'e kadar olan (3 hariç) satırları getirir. Aşağıdaki örneği inceleyiniz.

In [129]:
df.iloc[0:3]

Unnamed: 0,var1,var2,var3
0,21,10,24
1,22,15,17
2,26,4,12


Bir eleman seçelim

In [132]:
df.iloc[0,0]

21

In [131]:
df.iloc[:3,:2]

Unnamed: 0,var1,var2
0,21,10
1,22,15
2,26,4


var3 sütununun 0-3 arasını (loc olduğu için 3 dahil) getirelim;

In [133]:
df.loc[0:3, "var3"]

0    24
1    17
2    12
3     8
Name: var3, dtype: int32

loc ile var3 sütununu istediğimiz indeks aralığında çekebildik. Ancak aynı işlemi iloc sütun yani değişken belirterek yapamayız. Aşağıdaki exception'ı ve bir alttaki iloc ile çözümü inceleyin.

In [134]:
df.iloc[0:3, "var3"]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [139]:
df.iloc[0:3, 2:3]

Unnamed: 0,var3
0,24
1,17
2,12


In [140]:
df.iloc[0:3]["var3"]

0    24
1    17
2    12
Name: var3, dtype: int32

Iloc ile Loc hakkında aklınızda tutmanız gereken fark, **loc** ile spesifik değişken belirterek gözlem çekebiliyorken **iloc** ile bunu eskiden öğrendiğimiz yöntemle (yukarıdaki son 2 örnekteki gibi) yapabiliyoruz.

#### Koşullu Eleman İşlemleri

In [141]:
df # veri setimiz

Unnamed: 0,var1,var2,var3
0,21,10,24
1,22,15,17
2,26,4,12
3,27,12,8
4,15,17,24
5,13,4,17
6,22,1,4
7,6,13,15
8,12,5,2
9,12,29,1


**var1**'deki değerlerden 15'ten büyük olanları çekelim 

In [144]:
df[df.var1 > 15]

Unnamed: 0,var1
0,21
1,22
2,26
3,27
6,22


_df içerisinden var1'i seçtik (df.var1) ve 15'ten büyük olma durumuna **>** operatörü ile baktık_

Aşağıdaki örnekte ise 15'ten büyük olan satırları bulup sadece var1 sütununu seçtik.

In [145]:
df[df.var1 > 15][["var1"]]

Unnamed: 0,var1
0,21
1,22
2,26
3,27
6,22


Birden fazla koşul girmek istersek;

Seçeceğimiz gözlemler(satırlar) 15'ten küçük, 5'ten büyük olsun (var1 için)

In [152]:
df[(df.var1 < 15) & (df.var1 > 5)][["var1","var2"]]

Unnamed: 0,var1,var2
5,13,4
7,6,13
8,12,5
9,12,29


loc ile koşul belirtip birden fazla sütun seçimi yapalım

In [150]:
df.loc[(df.var1 > 15), ["var1","var2"]]

Unnamed: 0,var1,var2
0,21,10
1,22,15
2,26,4
3,27,12
6,22,1


#### Join (Birleştirme) İşlemleri

In [155]:
df # veri setimiz

Unnamed: 0,var1,var2,var3
0,21,10,24
1,22,15,17
2,26,4,12
3,27,12,8
4,15,17,24
5,13,4,17
6,22,1,4
7,6,13,15
8,12,5,2
9,12,29,1


In [159]:
df2 = df + 99 #her bir değeri 99 ile toplayıp yeni bir dataset oluşturalım ardından bu iki dataset'i birleştireceğiz.

In [160]:
df2

Unnamed: 0,var1,var2,var3
0,120,109,123
1,121,114,116
2,125,103,111
3,126,111,107
4,114,116,123
5,112,103,116
6,121,100,103
7,105,112,114
8,111,104,101
9,111,128,100


In [161]:
pd.concat([df,df2])

Unnamed: 0,var1,var2,var3
0,21,10,24
1,22,15,17
2,26,4,12
3,27,12,8
4,15,17,24
5,13,4,17
6,22,1,4
7,6,13,15
8,12,5,2
9,12,29,1


concat ile iki dataframe'i birleştirdik. Dikkat ederseniz df altına df2 eklendi ancak indeks problemi var. bu sorunu çözebilmek için concat fonksiyonuna **ignore_index** parametresi geçmemiz gerekmektedir. Ezbere gerek kalmadan aşağıdaki komutu --istediğiniz herhangi bir fonsiyon için de kullanılabilir-- çalıştırıp concat'in aldığı parametreleri görebilirsiniz.

> ?pd.concat

Aşağıdaki örnekte indekslere tekrar bakalım.

In [162]:
pd.concat([df,df2], ignore_index=True)

Unnamed: 0,var1,var2,var3
0,21,10,24
1,22,15,17
2,26,4,12
3,27,12,8
4,15,17,24
5,13,4,17
6,22,1,4
7,6,13,15
8,12,5,2
9,12,29,1


In [163]:
df.columns # sütun isimleri

Index(['var1', 'var2', 'var3'], dtype='object')

In [164]:
df2.columns

Index(['var1', 'var2', 'var3'], dtype='object')

Şimdi df2 dataframe'inin var3 sütun adını deg3 olarak değiştirip dataframe birleştirme işlemini tekrar yapalım.

In [165]:
df2.columns = ['var1', 'var2', 'deg3'] 

In [167]:
df2.head(2)

Unnamed: 0,var1,var2,deg3
0,120,109,123
1,121,114,116


Görüldüğü üzere sütun adını değiştirdik. Şimdi df ile df2'yi birleştirelim.

In [170]:
pd.concat([df,df2], ignore_index=True)

Unnamed: 0,var1,var2,var3,deg3
0,21,10,24.0,
1,22,15,17.0,
2,26,4,12.0,
3,27,12,8.0,
4,15,17,24.0,
5,13,4,17.0,
6,22,1,4.0,
7,6,13,15.0,
8,12,5,2.0,
9,12,29,1.0,


Görüldüğü üzere **df**'te **deg3**, **df2**'de de **var3** olmadığından ilgili **df2**'nin **var3** sütunu, **df**'in de **deg3** sütunları NaN olarak geldi. Pandas'ın eski sürümlerinde bu durum warning'e sebep olurdu ancak yeni sürümlerde warning yok. Ancak warning olmasa da veri setini bu şekilde kullanmamız ileride veriyi anlamlandırmak istediğimizde daha büyük sorunlara yol açabilir. Bunu kısmen çözmenin yolu aşağıdaki gibi olabilir.

In [171]:
pd.concat([df,df2], join="inner", ignore_index=True)

Unnamed: 0,var1,var2
0,21,10
1,22,15
2,26,4
3,27,12
4,15,17
5,13,4
6,22,1
7,6,13
8,12,5
9,12,29


Yukarıdaki örnekte var3 ve deg3 sütunlarının problem yaratma ihtimalinden dolayı sütuna join=inner parametresi ile eklememiş olduk. Join=inner iki kümenin(veri setinin) de ortak alanlarını getirdi.

Bunu df'de olan df2'de olmayan sütunlara göre yapalım;

In [177]:
pd.concat([df,df2], join="outer", ignore_index=True)[["var1","var2","var3"]]

Unnamed: 0,var1,var2,var3
0,21,10,24.0
1,22,15,17.0
2,26,4,12.0
3,27,12,8.0
4,15,17,24.0
5,13,4,17.0
6,22,1,4.0
7,6,13,15.0
8,12,5,2.0
9,12,29,1.0


Bunu df2'de olan df'de olmayan sütunlara göre yapalım;

In [178]:
pd.concat([df,df2], join="outer", ignore_index=True)[["var1","var2","deg3"]]

Unnamed: 0,var1,var2,deg3
0,21,10,
1,22,15,
2,26,4,
3,27,12,
4,15,17,
5,13,4,
6,22,1,
7,6,13,
8,12,5,
9,12,29,


#### İleri Birleştirme İşlemleri

In [1]:
import pandas as pd

**Birebir Birleştirme**

In [189]:
df1 = pd.DataFrame({'calisanlar': ['Ece', 'Efe', 'Alican', 'Ünsal', 'Vahit'], 'grup':['Boss', 'Bellboy', 'IT', 'IT', 'IT']});df1

Unnamed: 0,calisanlar,grup
0,Ece,Boss
1,Efe,Bellboy
2,Alican,IT
3,Ünsal,IT
4,Vahit,IT


In [190]:
df2 = pd.DataFrame({'calisanlar': ['Ünsal', 'Alican', 'Efe', 'Vahit', 'Ece'], 'ise_giris': [2011, 2012, 2020, 2005, 2010]});df2

Unnamed: 0,calisanlar,ise_giris
0,Ünsal,2011
1,Alican,2012
2,Efe,2020
3,Vahit,2005
4,Ece,2010


Yukarıdaki iki dataframe'i birleştirelim.

In [191]:
pd.merge(df1,df2)

Unnamed: 0,calisanlar,grup,ise_giris
0,Ece,Boss,2010
1,Efe,Bellboy,2020
2,Alican,IT,2012
3,Ünsal,IT,2011
4,Vahit,IT,2005


In [None]:
merge fonksiyonu hangi sütuna göre birleştirilmesi gerektiğini kendisi anlıyor ancak bunu belirtmek istersek aşağıdaki gibi yapabiliriz.

In [192]:
pd.merge(df1,df2, on="calisanlar")

Unnamed: 0,calisanlar,grup,ise_giris
0,Ece,Boss,2010
1,Efe,Bellboy,2020
2,Alican,IT,2012
3,Ünsal,IT,2011
4,Vahit,IT,2005


**Çoktan teke (many to one) birleştirme işlemi;**

yeni 2 veri seti oluşturalım

In [194]:
df3 = pd.merge(df1,df2);df3

Unnamed: 0,calisanlar,grup,ise_giris
0,Ece,Boss,2010
1,Efe,Bellboy,2020
2,Alican,IT,2012
3,Ünsal,IT,2011
4,Vahit,IT,2005


In [197]:
df4 = pd.DataFrame({'grup': ['Boss', 'Bellboy', 'IT'],
                   'mudur': ['Ece', 'Mustafa', 'Berkcan']});df4

Unnamed: 0,grup,mudur
0,Boss,Ece
1,Bellboy,Mustafa
2,IT,Berkcan


In [198]:
pd.merge(df3,df4)

Unnamed: 0,calisanlar,grup,ise_giris,mudur
0,Ece,Boss,2010,Ece
1,Efe,Bellboy,2020,Mustafa
2,Alican,IT,2012,Berkcan
3,Ünsal,IT,2011,Berkcan
4,Vahit,IT,2005,Berkcan


**Çoktan Çoka (many to many)**

In [201]:
df5 = pd.DataFrame({'grup':['Boss', 'Bellboy', 'Bellboy', 'IT', 'IT', 'IT'],
                   'yetenekler': ['Muhasebe', 'Temizlik', 'Yemek', 'Yazılım', 'Network', 'Data Science']});df5

Unnamed: 0,grup,yetenekler
0,Boss,Muhasebe
1,Bellboy,Temizlik
2,Bellboy,Yemek
3,IT,Yazılım
4,IT,Network
5,IT,Data Science


In [202]:
df1

Unnamed: 0,calisanlar,grup
0,Ece,Boss
1,Efe,Bellboy
2,Alican,IT
3,Ünsal,IT
4,Vahit,IT


In [203]:
pd.merge(df1,df5)

Unnamed: 0,calisanlar,grup,yetenekler
0,Ece,Boss,Muhasebe
1,Efe,Bellboy,Temizlik
2,Efe,Bellboy,Yemek
3,Alican,IT,Yazılım
4,Alican,IT,Network
5,Alican,IT,Data Science
6,Ünsal,IT,Yazılım
7,Ünsal,IT,Network
8,Ünsal,IT,Data Science
9,Vahit,IT,Yazılım


#### Aggregation & Grouping (Toplulaştırma ve Gruplama)

Bu konu Pandas'ın en önemli başlıklardan birisidir. Veri setimizdeki yapısal problemleri giderdikten sonra bu konuyu oldukça fazla kullanacağız.

Bazı sık kullanılan Aggregation fonksiyonları aşağıdaki gibidir.
- count()
- first()
- last()
- mean()
- median()
- min()
- max()
- std()
- var()
- sum()

Şimdi seaborn kütüphanesini import edelim. Seaborn kütüphanesi içerisinde [örnek veri setleri](https://github.com/mwaskom/seaborn-data) bulunduran bir kütüphanedir.

In [3]:
import seaborn as sns

In [6]:
df = sns.load_dataset("planets") # biz planets veri seti ile çalışacağız.

In [5]:
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


In [7]:
df.shape

(1035, 6)

In [18]:
df["mass"].mean() # mass değerlerinin ortalamasına baktık

2.6381605847953216

In [13]:
df["mass"].count() # mass içerisinde 513 değer mevcut

513

In [15]:
df["mass"].max() # mass içerisindeki en büyük değer

25.0

In [17]:
df["mass"].sum() # tüm değerlerin toplamını verir

1353.37638

In [19]:
df["mass"].std() # standart sapması

3.8186166509616046

In [20]:
df["mass"].var() # varyansı

14.58183312700122

Tabiki de bu değerlerin hepsine tek tek bakmamıza gerek yok. describe fonksiyonu ile tüm bu verilere tek satırda erişmemiz mümkün.

In [24]:
df.describe()

Unnamed: 0,number,orbital_period,mass,distance,year
count,1035.0,992.0,513.0,808.0,1035.0
mean,1.785507,2002.917596,2.638161,264.069282,2009.070531
std,1.240976,26014.728304,3.818617,733.116493,3.972567
min,1.0,0.090706,0.0036,1.35,1989.0
25%,1.0,5.44254,0.229,32.56,2007.0
50%,1.0,39.9795,1.26,55.25,2010.0
75%,2.0,526.005,3.04,178.5,2012.0
max,7.0,730000.0,25.0,8500.0,2014.0


Okunabilirliğin daha kolay olması açısından bu tablonun transpose'unu alabiliriz.

In [26]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,1035.0,1.785507,1.240976,1.0,1.0,1.0,2.0,7.0
orbital_period,992.0,2002.917596,26014.728304,0.090706,5.44254,39.9795,526.005,730000.0
mass,513.0,2.638161,3.818617,0.0036,0.229,1.26,3.04,25.0
distance,808.0,264.069282,733.116493,1.35,32.56,55.25,178.5,8500.0
year,1035.0,2009.070531,3.972567,1989.0,2007.0,2010.0,2012.0,2014.0


Veriyi daha düzgün okuyabilmek için veri setindeki boş(NA) değerleri silelim ve describe fonksiyonu çıktısını tekrar gözlemleyelim.

In [27]:
df.dropna().describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
number,498.0,1.73494,1.17572,1.0,1.0,1.0,2.0,6.0
orbital_period,498.0,835.778671,1469.128259,1.3283,38.27225,357.0,999.6,17337.5
mass,498.0,2.50932,3.636274,0.0036,0.2125,1.245,2.8675,25.0
distance,498.0,52.068213,46.596041,1.35,24.4975,39.94,59.3325,354.0
year,498.0,2007.37751,4.167284,1989.0,2005.0,2009.0,2011.0,2014.0


#### Gruplama İşlemleri

Gruplama işlemi temelde birden fazla satırı belirli kriterler için tek satıra daraltmayı/toplamayı sağlar. Şimdi aşağıdaki gibi basit bir veri seti oluşturalım ve gruplamayı örneklerle gösterelim.

In [28]:
df = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'],
                  'veri':[10,14,64,24,77,29]}, columns=['gruplar', 'veri']);df

Unnamed: 0,gruplar,veri
0,A,10
1,B,14
2,C,64
3,A,24
4,B,77
5,C,29


Veri setini **gruplar** sütununa göre grupladık. Daha sonra gruplama yaptığımız veri setinde aggregate fonksiyonlarını kullanarak (ortalama, toplam değer gibi) gruplanmış veri seti hakkında bilgiler ürettik.

In [35]:
df.groupby("gruplar")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000258B1860310>

In [36]:
df.groupby("gruplar").mean() # ortalama

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,17.0
B,45.5
C,46.5


In [37]:
df.groupby("gruplar").sum() # toplam

Unnamed: 0_level_0,veri
gruplar,Unnamed: 1_level_1
A,34
B,91
C,93


Şimdi tekrar seaborn kütüphanesini çağırıp aggregation ve grouping fonksiyonlarını planets veri seti üzerinde kullanalım.

In [38]:
import seaborn as sns
df = sns.load_dataset("planets")
df.head()

Unnamed: 0,method,number,orbital_period,mass,distance,year
0,Radial Velocity,1,269.3,7.1,77.4,2006
1,Radial Velocity,1,874.774,2.21,56.95,2008
2,Radial Velocity,1,763.0,2.6,19.84,2011
3,Radial Velocity,1,326.03,19.4,110.62,2007
4,Radial Velocity,1,516.22,10.5,119.47,2009


Method sütununda kaç tane unique yani birbirinden farklı değer var ise bunları gruplayalım.

In [43]:
df.groupby("method")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000258B1841B80>

Method sütunu ile gruplama yaptıktan sonra her bir unique method'a karşılık gelen orbital_period değerlerinin ortalama değerlerine bakalım. Aşağıdaki işlemi diğer tüm değişkenlerle yapılabilir.

In [42]:
df.groupby("method")["orbital_period"].mean()

method
Astrometry                          631.180000
Eclipse Timing Variations          4751.644444
Imaging                          118247.737500
Microlensing                       3153.571429
Orbital Brightness Modulation         0.709307
Pulsar Timing                      7343.021201
Pulsation Timing Variations        1170.000000
Radial Velocity                     823.354680
Transit                              21.102073
Transit Timing Variations            79.783500
Name: orbital_period, dtype: float64

orbital_period için tüm değerlere bakalım.

In [45]:
df.groupby("method")["orbital_period"].describe().T

method,Astrometry,Eclipse Timing Variations,Imaging,Microlensing,Orbital Brightness Modulation,Pulsar Timing,Pulsation Timing Variations,Radial Velocity,Transit,Transit Timing Variations
count,2.0,9.0,12.0,7.0,3.0,5.0,1.0,553.0,397.0,3.0
mean,631.18,4751.644444,118247.7375,3153.571429,0.709307,7343.021201,1170.0,823.35468,21.102073,79.7835
std,544.217663,2499.130945,213978.177277,1113.166333,0.725493,16313.265573,,1454.92621,46.185893,71.599884
min,246.36,1916.25,4639.15,1825.0,0.240104,0.090706,1170.0,0.73654,0.355,22.3395
25%,438.77,2900.0,8343.9,2375.0,0.291496,25.262,1170.0,38.021,3.16063,39.67525
50%,631.18,4343.5,27500.0,3300.0,0.342887,66.5419,1170.0,360.2,5.714932,57.011
75%,823.59,5767.0,94250.0,3550.0,0.943908,98.2114,1170.0,982.0,16.1457,108.5055
max,1016.0,10220.0,730000.0,5100.0,1.544929,36525.0,1170.0,17337.5,331.60059,160.0


#### İleri Aggregate İşlemleri (Aggregate, filter, transform, apply)

In [49]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'],
                  'degisken1': [34,52,63,16,66,33],
                   'degisken2': [100,253,234,563,153,72]
                  }, columns=['gruplar', 'degisken1', 'degisken2']);df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,34,100
1,B,52,253
2,C,63,234
3,A,16,563
4,B,66,153
5,C,33,72


**Aggregate**

In [50]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,25.0,331.5
B,59.0,203.0
C,48.0,153.0


In [51]:
df.groupby("gruplar").aggregate(["min", np.median, "max"])

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,16,25,34,100,331.5,563
B,52,59,66,153,203.0,253
C,33,48,63,72,153.0,234


Veri setini gruplara göre böldük ancak kendimiz özellikle görmek istediğimiz istatistikleri yazdırabilmek için aggregate fonksiyonuna istediğimiz istatistikleri verdik. Ancak neden min max string ama np.median değil? Eğer pandas'ın bildiği kendisinden türemiş bir fonksiyonu çağırıyorsak tırnak içerisinde belirtebiliriz ancak dışarıdan bir fonksiyon çağıracaksak tırnak içinde belirtemeyiz.

Şimdi iki değişken için de iki farklı istatistik hesaplayalım. _Yukarıda iki değişken için aynı fonksiyonları kullanmıştık._ Aşağıdaki 3 örneği de gözlemleyelim.

In [52]:
df.groupby("gruplar").aggregate({"degisken1": "min", "degisken2": "max"})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16,563
B,52,253
C,33,234


In [53]:
df.groupby("gruplar").aggregate({"degisken1": ["min","max"], "degisken2": "max"})

Unnamed: 0_level_0,degisken1,degisken1,degisken2
Unnamed: 0_level_1,min,max,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,16,34,563
B,52,66,253
C,33,63,234


In [54]:
df.groupby("gruplar").aggregate({"degisken1": ["min","max"], "degisken2": ["max", np.median]})

Unnamed: 0_level_0,degisken1,degisken1,degisken2,degisken2
Unnamed: 0_level_1,min,max,max,median
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,16,34,563,331.5
B,52,66,253,203.0
C,33,63,234,153.0


#### Filter

Veri setinin herhangi bir sütunu için ihtiyaç halinde fonksiyon yazıp çeşitli koşulları her bir değere uygulamamızı sağlar.

In [64]:
def filter_func(x): # her bir satırdaki degisken1 için standart sapmaya bak 13'den büyükse getir
    return x["degisken1"].std() > 13

In [65]:
df.groupby("gruplar").std()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,12.727922,327.39044
B,9.899495,70.710678
C,21.213203,114.551299


In [66]:
df.groupby("gruplar").filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,63,234
5,C,33,72


Yukarıda değişken1'e göre standart sapma hesaplandı ve standart sapması 13'dan büyük değerler filtrelendi.

#### Transform

Veri setinde bir dönüştürme işlemi yapalım ve bu dönüşümü kendimiz belirleyelim. (_**Bu konuya eğer Python Lambda (isimsiz fonksiyon) bilmiyorsanız devam etmeyin!_**)

In [80]:
df_a = df.iloc[:,1:3];df_a # iloc ile kategorik olmayan satırları getirdik.

Unnamed: 0,degisken1,degisken2
0,34,100
1,52,253
2,63,234
3,16,563
4,66,153
5,33,72


In [82]:
df_a.transform(lambda x: (x-x.mean())/x.std()) # istatistik teorisinde yer alan standart dönüştürme işlemini her bir değere uygulayalım

Unnamed: 0,degisken1,degisken2
0,-0.51111,-0.723824
1,0.408888,0.133557
2,0.971108,0.027085
3,-1.431107,1.870734
4,1.124441,-0.426822
5,-0.562221,-0.88073


#### Apply

Apply, tıpkı transform ve filter gibi değişkenler üzerinde gezebilen ve aggregation amacıyla kullanılan bir fonksiyondur.

In [87]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'],
                  'degisken1': [34,52,63,16,66,33],
                   'degisken2': [100,253,234,563,153,72]
                  }, columns=['gruplar', 'degisken1', 'degisken2']);df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,34,100
1,B,52,253
2,C,63,234
3,A,16,563
4,B,66,153
5,C,33,72


In [88]:
df.groupby("gruplar").apply(np.sum) # gruplar sütununa göre satırları birleştirdi ve toplamlarını aldı

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,50,663
B,BB,118,406
C,CC,96,306


In [89]:
df.groupby("gruplar").apply(np.mean) # gruplar sütununa göre satırları birleştirdi ve ortalamalarını aldı

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,25.0,331.5
B,59.0,203.0
C,48.0,153.0


#### Pivot Tablolar

Pivot tablolar, veri seti üzerinde bazı satır ve sütun işlemleri yaparak veriyi amacına uygun hale getiren yapıdır. Doğrudan groupby ile ilişkili değildir ancak groupby'ın çok boyutlu versiyonu denilebilir.

In [90]:
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset('titanic') # titanik veri setini kullanacağız
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


Öncelikle groupby ile cinsiyete göre gruplayıp sağ kalma durumunu belirten survived sütununu inceleyelim

In [92]:
titanic.groupby("sex")[["survived"]].mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


Özetle yukarıdaki işlemde sex yani cinsiyet sütunu ile grupladık ve survived sütununun ortalamasını aldık. Bu sonuca göre kadınların erkeklere göre hayatta kalma olasılığı çok yüksek.

Şimdi aynı işlemi gruplamaya class'ı da ekleyerek yapalım. Burada unstack() fonksiyonu hiyerarşik indeks yapısını değiştiriyor. Dilerseniz kaldırıp çıktıyı tekrar inceleyebilirsiniz.

In [93]:
titanic.groupby(["sex","class"])[["survived"]].aggregate("mean").unstack()

Unnamed: 0_level_0,survived,survived,survived
class,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Bu sonuca göre first class yolculuk yapan kadınların %96'sı hayatta kalmış. Second class yolculuk yapan erkeklerin sadece %15'i hayatta kalmış şeklinde yorumlanabilir.

Şimdi aynı işlemleri pivot ile yapalım

In [94]:
titanic.pivot_table("survived", index="sex", columns="class")

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


In [95]:
titanic.age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: age, dtype: float64

In [96]:
age = pd.cut(titanic["age"], [0,18,90]);age.head(10)

0    (18.0, 90.0]
1    (18.0, 90.0]
2    (18.0, 90.0]
3    (18.0, 90.0]
4    (18.0, 90.0]
5             NaN
6    (18.0, 90.0]
7     (0.0, 18.0]
8    (18.0, 90.0]
9     (0.0, 18.0]
Name: age, dtype: category
Categories (2, interval[int64]): [(0, 18] < (18, 90]]

In [97]:
titanic.pivot_table("survived", ["sex",age], "class")

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 90]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 90]",0.375,0.071429,0.133663


### Dış Kaynaklı Veri Okuma

In [99]:
import pandas as pd

In [100]:
pd.read_csv("ornekcsv.csv", sep=";") # csv okuma

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [102]:
pd.read_csv("duz_metin.txt") # düz metin okuma

Unnamed: 0,1 2
0,2 2
1,3 2
2,4 2
3,5 2
4,6 2
5,7 2
6,8 2
7,9 2
8,10 2


In [107]:
df = pd.read_excel("ornekx.xlsx");df # excel okuma

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


In [108]:
type(df)

pandas.core.frame.DataFrame

In [109]:
df.head()

Unnamed: 0,a,b,c
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0


In [110]:
df.columns = ("A","B","C")

In [111]:
df

Unnamed: 0,A,B,C
0,78,12,1.0
1,78,12,2.0
2,78,324,3.0
3,7,2,4.0
4,88,23,5.0
5,6,2,
6,56,11,6.0
7,7,12,7.0
8,56,21,7.0
9,346,2,8.0


Bu döküman sevgili hocam Mustafa Vahit Keskin'in Udemy'de yayınladığı [(50+ Saat) Python A-Z™: Veri Bilimi ve Machine Learning](https://www.udemy.com/course/python-egitimi) eğitiminden çıkardığım eğitim notlarından derlenmiştir.