## İleri Toplulaştırma İşlemleri
## (Aggregate, filter,transform,apply)

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns

In [4]:
df = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'],
                   'degisken1': [10,23,33,22,11,99],
                   'degisken2': [100,253,333,262,111,969]},
                 columns = ['gruplar','degisken1','degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


### aggreagte

In [6]:
df.groupby("gruplar").mean()

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,16.0,181.0
B,17.0,182.0
C,66.0,651.0


In [55]:
df.groupby("gruplar").aggregate([min,np.median,max])

Unnamed: 0_level_0,degisken1,degisken1,degisken1,degisken2,degisken2,degisken2
Unnamed: 0_level_1,min,median,max,min,median,max
gruplar,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,10,16.0,22,100,181.0,262
B,11,17.0,23,111,182.0,253
C,23,61.0,99,333,651.0,969


In [8]:
df.groupby("gruplar").aggregate({"degisken1":"min","degisken2":"max"})

Unnamed: 0_level_0,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1
A,10,262
B,11,253
C,33,969


### Filter

In [14]:
import pandas as pd

In [17]:
df = pd.DataFrame({'gruplar': ['A','B','C','A','B','C'],
                   'degisken1': [10,23,33,22,11,99],
                   'degisken2': [100,253,333,262,111,969]},
                 columns = ['gruplar','degisken1','degisken2'])
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [18]:
def filter_func(x):
    return x["degisken1"].std() > 9

In [19]:
df.groupby("gruplar").filter(filter_func)

Unnamed: 0,gruplar,degisken1,degisken2
2,C,33,333
5,C,99,969


In [9]:
df["degisken1"]

0    10
1    23
2    33
3    22
4    11
5    99
Name: degisken1, dtype: int64

In [5]:
df["degisken1"]*9

0     90
1    207
2    297
3    198
4     99
5    891
Name: degisken1, dtype: int64

In [18]:
df.iloc[:,1:3]

Unnamed: 0,degisken1,degisken2
0,10,100
1,23,253
2,33,333
3,22,262
4,11,111
5,99,969


lambda => bir fonksiyon ifadesi yapmdan fonks. oluşturmaya yarıyor

In [20]:
df.transform(lambda x: x-x.mean(numeric_only=True))

  df.transform(lambda x: x-x.mean(numeric_only=True))


Unnamed: 0,degisken1,degisken2,gruplar
0,-23.0,-238.0,
1,-10.0,-85.0,
2,0.0,-5.0,
3,-11.0,-76.0,
4,-22.0,-227.0,
5,66.0,631.0,


### Sayısal Sütunları Filtrelemek
Bu çözümde, öncelikle sadece sayısal sütunları içeren bir DataFrame oluşturulmuştur ve bu DataFrame üzerinde transform işlemi gerçekleştirilmiştir. Böylece mean fonksiyonunun yalnızca sayısal sütunlarda çalışması garanti altına alınmıştır.

In [22]:
numeric_df = df.select_dtypes(include=[np.number])
transformed_df = numeric_df.transform(lambda x: x - x.mean())
transformed_df

Unnamed: 0,degisken1,degisken2
0,-23.0,-238.0
1,-10.0,-85.0
2,0.0,-5.0
3,-11.0,-76.0
4,-22.0,-227.0
5,66.0,631.0


In [23]:
numeric_df = df.select_dtypes(include=[np.number])
df_a = numeric_df.transform(lambda x: (x - x.mean()) / x.std())
df_a

Unnamed: 0,degisken1,degisken2
0,-0.687871,-0.738461
1,-0.299074,-0.263736
2,0.0,-0.015514
3,-0.328982,-0.235811
4,-0.657963,-0.704331
5,1.97389,1.957853


## Apply

DataFrame veya Series nesnelerinin her bir öğesine bir fonksiyon uygulamak için kullanılır. Bu, veri dönüşümü ve hesaplamaları gerçekleştirirken oldukça esnek ve güçlü bir araçtır. apply fonksiyonu, özellikle karmaşık işlemler için faydalıdır ve veri kümesi üzerinde daha özelleşmiş işlemler yapmayı mümkün kılar.

In [28]:
numeric_df.apply(np.sum)

degisken1     198
degisken2    2028
dtype: int64

In [29]:
numeric_df.apply(np.mean)

degisken1     33.0
degisken2    338.0
dtype: float64

In [33]:
df.groupby("gruplar").apply(np.sum)

Unnamed: 0_level_0,gruplar,degisken1,degisken2
gruplar,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,AA,32,362
B,BB,34,364
C,CC,132,1302


In [34]:
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,33,333
3,A,22,262
4,B,11,111
5,C,99,969


In [36]:
df["degisken1",2] = 23

In [37]:
df

Unnamed: 0,gruplar,degisken1,degisken2,"(degisken1, 2)"
0,A,10,100,23
1,B,23,253,23
2,C,23,333,23
3,A,22,262,23
4,B,11,111,23
5,C,99,969,23


In [40]:
df.loc[2,'degisken1'] = 23

In [41]:
df

Unnamed: 0,gruplar,degisken1,degisken2,"(degisken1, 2)"
0,A,10,100,23
1,B,23,253,23
2,C,23,333,23
3,A,22,262,23
4,B,11,111,23
5,C,99,969,23


In [51]:
if ('degisken1', 2) in df.columns:
    df = df.drop(columns=[('degisken1', 2)])

In [52]:
df

Unnamed: 0,gruplar,degisken1,degisken2
0,A,10,100
1,B,23,253
2,C,23,333
3,A,22,262
4,B,11,111
5,C,99,969


In [53]:
df.columns

Index(['gruplar', 'degisken1', 'degisken2'], dtype='object')