# Aggregate, filter, transform, apply

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns

In [6]:
df = pd.DataFrame({'gruplar':['A','B','C','A','B','C'],
                  'degisken1':[10,11,52,23,43,55],
                  'degisken2':[100,253,333,262,111,969]}
                  ,columns=['gruplar','degisken1','degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,11,253
2,C,52,333
3,A,23,262
4,B,43,111
5,C,55,969


In [7]:
df.groupby('gruplar').aggregate(['min',np.median,max])
 

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16.5,23,100,181,262
B,11,27.0,43,111,182,253
C,52,53.5,55,333,651,969


In [12]:
df.groupby('gruplar').aggregate({'degisken1':'min','degisken2':'max'})
# gruplar'a göre veri setini böler ve degisken bir için min değerini, degisken2 için max değerini alır

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,262
B,11,253
C,52,969


* **filter()**

In [26]:
def filter_func(x):
    return x['degisken1'].std()>10

In [27]:
df.groupby('gruplar').filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
1,B,11,253
4,B,43,111


* **transform()**

In [29]:
df.groupby('gruplar').transform(lambda x: x-x.mean())
# degisken1 ve degisken2'nin her bir gözleminden kendi ortalama değerlerini çıkardı


Unnamed: 0,degisken1,degisken2
0,-6.5,-81.0
1,-16.0,71.0
2,-1.5,-318.0
3,6.5,81.0
4,16.0,-71.0
5,1.5,318.0


* **apply()** -> satır ve sütun bazında hesaplama işlemleri sağlayan güzel bir fonk

In [31]:
df.groupby('gruplar').apply(np.sum)
df.groupby('gruplar').apply(np.mean)

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16.5,181.0
B,27.0,182.0
C,53.5,651.0


In [32]:
l = [0,1,0,1,2,0]
df.groupby(l).sum()

Unnamed: 0,degisken1,degisken2
0,117,1402
1,34,515
2,43,111
