# İleri Toplulaştırma İşlemleri

* aggregate
* filter
* transform
* apply

# Aggregate

In [3]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'gruplar': ["A","B","C","A","B","C"],
                    'degisken1': [10,23,33,22,11,99],
                    'degisken2': [100,253,333,262,111,969]},
                    columns = ['gruplar','degisken1','degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [2]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16,181
B,17,182
C,66,651


In [6]:
df.groupby("gruplar").aggregate(["min",np.median,max])

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16,22,100,181,262
B,11,17,23,111,182,253
C,33,66,99,333,651,969


Birden fazla kendimizin istediği fonksiyonel işlem yapmak istediğimizde **aggregate** fonksiyonunu kullanıyoruz.

In [7]:
df.groupby("gruplar").aggregate({"degisken1" : "min", "degisken2": "max"})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,262
B,11,253
C,33,969


DataFrame içindeki değişkenlerimize ayrı ayrı olarak işlem yaptırmak isteğimiz zaman **sözlük** yapısından yararlanıyoruz.Değişken isimlerini tanımladıktan sonra yaptırmak istenilen işlemi yazıyoruz.

# Filter

In [None]:
df = pd.DataFrame({'gruplar': ["A","B","C","A","B","C"],
                    'degisken1': [10,23,33,22,11,99],
                    'degisken2': [100,253,333,262,111,969]},
                    columns = ['gruplar','degisken1','degisken2'])
df

In [16]:
def filter_func(x):
    return x ["degisken1"].std() > 9

In [17]:
df.groupby("gruplar").filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


Özel bir amaç ya da çok daha karmaşık filtreleme aracını **fonksiyon** olarak tanımlarsak eğer DataFrame içinde gruplama kısmında kolaylıkla kullanabiliriz.

# Transform

In [18]:
df = pd.DataFrame({'gruplar': ["A","B","C","A","B","C"],
                    'degisken1': [10,23,33,22,11,99],
                    'degisken2': [100,253,333,262,111,969]},
                    columns = ['gruplar','degisken1','degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [19]:
df_a = df.iloc[:,1:3]

In [20]:
df_a

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


In [21]:
df_a.transform(lambda x : (x-x.mean()) / x.std())

Unnamed: 0,degisken1,degisken2
0,-0.687871,-0.738461
1,-0.299074,-0.263736
2,0.0,-0.015514
3,-0.328982,-0.235811
4,-0.657963,-0.704331
5,1.97389,1.957853


**Transform** ile kendi belirttiğimiz özel değişim metodunu yazarak DataFrame içindeki her bir değişkene ayrı ayrı olacak şekilde dönüşüm işlemi yaptırılabilir.

# Apply

In [30]:
df = pd.DataFrame({'gruplar': ["A","B","C","A","B","C"],
                    'degisken1': [10,23,33,22,11,99],
                    'degisken2': [100,253,333,262,111,969]},
                    columns = ['gruplar','degisken1','degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [27]:
df.apply(np.sum)

degisken1     198
degisken2    2028
dtype: int64

In [29]:
df.apply(np.mean)

degisken1     33.0
degisken2    338.0
dtype: float64

In [31]:
df.groupby("gruplar").apply(np.sum)

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,32,362
B,BB,34,364
C,CC,132,1302


**Apply** fonksiyonu ile DataFrame içindeki değişkenleri tek tek gezip onlar üzerinden istenilen işlemler yapılabilir.