## İleri Toplulaştırma İşlemleri 

Aggregate, Filter, Transfrom, Apply

In [1]:
import pandas as pd

df = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'],
                  'degisken1': [10,23,33,55,22,99],
                  'degisken2': [100,105,84,111,777,447]}, columns = ['gruplar','degisken1','degisken2'])

df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,105
2,C,33,84
3,A,55,111
4,B,22,777
5,C,99,447


In [2]:
# Aggregate

In [10]:
df.groupby("gruplar")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000261DCC73108>

In [4]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,32.5,105.5
B,22.5,441.0
C,66.0,265.5


In [11]:
import numpy as np
# pandas içindekileri "min" içinde yazabiliriz.
df.groupby("gruplar").aggregate(["min", np.median, max])

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,32.5,55,100,105.5,111
B,22,22.5,23,105,441.0,777
C,33,66.0,99,84,265.5,447


In [13]:
# degisken 1 : içinde min değerler
# degisken 2 : içinde max değerleri grupladık.

df.groupby("gruplar").aggregate({"degisken1":"min", "degisken2":"max"})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,111
B,22,777
C,33,447


# filter

In [16]:
# bir fonkisyon tanımlayıp bunu pandas içinde kullanabiliriz. 
# bu fonksiyon ile standart sapmalarını hesaplayıp 9 dan büyük olanları geriye döndürmesini istedik.
def filter_func(x):
    return x["degisken1"].std() > 9
    

In [19]:
df.groupby("gruplar").std()
# standart sapmaları

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,31.819805,7.778175
B,0.707107,475.175757
C,46.669048,256.679762


In [17]:
df.groupby("gruplar").filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
2,C,33,84
3,A,55,111
5,C,99,447


## Transform

In [20]:
import pandas as pd

df = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'],
                  'degisken1': [10,23,33,55,22,99],
                  'degisken2': [100,105,84,111,777,447]}, columns = ['gruplar','degisken1','degisken2'])

df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,105
2,C,33,84
3,A,55,111
4,B,22,777
5,C,99,447


In [21]:
df["degisken1"]*9

0     90
1    207
2    297
3    495
4    198
5    891
Name: degisken1, dtype: int64

In [26]:
# dataframe parçalama dilimleme
df_a = df.iloc[:,1:3]

In [31]:
# değişkenin kendisi (x) - değişkenin ortalaması / standart sapması
df_a.transform(lambda x: (x-x.mean()) / x.std())

Unnamed: 0,degisken1,degisken2
0,-0.934565,-0.600123
1,-0.534037,-0.582541
2,-0.225939,-0.656385
3,0.451878,-0.561443
4,-0.564847,1.780443
5,1.807511,0.620049


## apply

In [34]:
# df değişkenleri üzerinde gezinme yeteneği olan ve toplulaştırma üzerinde kul. bir fonksiyondur.

In [33]:
import pandas as pd

df = pd.DataFrame({
                  'degisken1': [10,23,33,55,22,99],
                  'degisken2': [100,105,84,111,777,447]}, 
                columns = ['degisken1','degisken2'])

df

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,105
2,33,84
3,55,111
4,22,777
5,99,447


In [36]:
# değişkenlerin toplamlarını alma:
df.apply(np.sum)

degisken1     242
degisken2    1624
dtype: int64

In [37]:
df.apply(np.mean)

degisken1     40.333333
degisken2    270.666667
dtype: float64

In [38]:
## aynı işlemi gruplu bazda yapsaydık nasıl olacaktı : 

import pandas as pd

df1 = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'],
                  'degisken1': [10,23,33,55,22,99],
                  'degisken2': [100,105,84,111,777,447]}, columns = ['gruplar','degisken1','degisken2'])

df1

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,105
2,C,33,84
3,A,55,111
4,B,22,777
5,C,99,447


In [40]:
## gruplayarak toplamlarını aldık. 
df1.groupby("gruplar").apply(np.sum)

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,65,211
B,BB,45,882
C,CC,132,531


In [42]:
# ortalaması
df1.groupby("gruplar").apply(np.mean)

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,32.5,105.5
B,22.5,441.0
C,66.0,265.5
