# PYTHON Pandas - Groupby
Herhangi bir groupby işlemi, özgün nesne üzerinde aşağıdaki işlemlerden birini içerir. Bunlar:
- Nesneyi bölme
- Bir işlev uygulama
- Sonuçları birleştirmek

Birçok durumda, verileri kümelere bölüyoruz ve her bir alt kümeye bazı işlevler uyguluyoruz. Uygula işlevinde, aşağıdaki işlemleri gerçekleştirebiliriz.
- Aggregation(toplama): Özet istatistiği hesaplar
- Transformation(dönüşüm): Gruba özgü bazı işlemleri gerçekleştirir
- Filtration(filtre): Verileri bazı koşullarla atar.

Şimdi bir DataFrame nesnesi oluşturalım ve üzerindeki tüm işlemleri gerçekleştirelim.

In [1]:
import pandas as pd

data = {
    'Kisiler': ['Furkan','Kemal','Osman','Ayse','Zeynep','Merve'],
    'Yas': [21,24,32,23,15,27],
    'Grup': [1,3,2,3,1,2],
    'Dyili': [1998,1995,1987,1996,2004,1992],
    'Numaralari': [753,268,257,478,469,135]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Kisiler,Yas,Grup,Dyili,Numaralari
0,Furkan,21,1,1998,753
1,Kemal,24,3,1995,268
2,Osman,32,2,1987,257
3,Ayse,23,3,1996,478
4,Zeynep,15,1,2004,469
5,Merve,27,2,1992,135


## Verileri Gruplara Bölme
Bir nesneyi bölmenin birçok yolu vardır. Bunlar:
- obj.groupby('key')
- obj.groupby(['key1','key2'])
- obj.groupby(key,axis=1)

Şimdi gruplama nesnelerinin DataFrame nesnesine nasıl uygulanabileceğini görelim.

**Örnek**

In [10]:
import pandas as pd

data = {
    'Takım': ['Furkan','Osman','Osman','Merve','Furkan','Merve'],
    'Yas': [21,27,25,25,21,27],
    'Grup': [1,3,2,3,1,2],
    'Dyili': [1998,1995,1996,1996,1995,1998],
    'Numaralari': [753,268,257,478,469,135]
}
df = pd.DataFrame(data)

df.groupby('Takım')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000006C42C7C438>

## Grupları Görüntüleme

In [11]:
import pandas as pd

data = {
    'Takım': ['Furkan','Osman','Osman','Merve','Furkan','Merve'],
    'Yas': [21,27,25,25,21,27],
    'Grup': [1,3,2,3,1,2],
    'Dyili': [1998,1995,1996,1996,1995,1998],
    'Numaralari': [753,268,257,478,469,135]
}
df = pd.DataFrame(data)

df.groupby('Takım').groups

{'Furkan': Int64Index([0, 4], dtype='int64'),
 'Merve': Int64Index([3, 5], dtype='int64'),
 'Osman': Int64Index([1, 2], dtype='int64')}

**Örnek**

In [12]:
import pandas as pd

data = {
    'Takım': ['Furkan','Osman','Osman','Merve','Furkan','Merve'],
    'Yas': [21,27,25,25,21,27],
    'Grup': [1,3,2,3,1,2],
    'Dyili': [1998,1995,1996,1996,1995,1998],
    'Numaralari': [753,268,257,478,469,135]
}
df = pd.DataFrame(data)

df.groupby(['Takım','Yas']).groups

{('Furkan', 21): Int64Index([0, 4], dtype='int64'),
 ('Merve', 25): Int64Index([3], dtype='int64'),
 ('Merve', 27): Int64Index([5], dtype='int64'),
 ('Osman', 25): Int64Index([2], dtype='int64'),
 ('Osman', 27): Int64Index([1], dtype='int64')}

## Gruplar Arasında Yineleme
Groupby nesnesi el ile, itertools'a benzer nesne boyunca yineleyebiliriz.

In [17]:
import pandas as pd

data = {
    'Takım': ['Furkan','Osman','Osman','Merve','Furkan','Merve'],
    'Yas': [21,27,25,25,21,27],
    'Grup': [1,3,2,3,1,2],
    'Dyili': [1998,1995,1996,1996,1995,1998],
    'Numaralari': [753,268,257,478,469,135]
}
df = pd.DataFrame(data)

grouped = df.groupby('Dyili')

for name,group in grouped:
    print(name)
    print(group)
    print('\n')

1995
    Takım  Yas  Grup  Dyili  Numaralari
1   Osman   27     3   1995         268
4  Furkan   21     1   1995         469


1996
   Takım  Yas  Grup  Dyili  Numaralari
2  Osman   25     2   1996         257
3  Merve   25     3   1996         478


1998
    Takım  Yas  Grup  Dyili  Numaralari
0  Furkan   21     1   1998         753
5   Merve   27     2   1998         135




## Grup Seçmek
Get_group () yöntemini kullanarak, tek bir grup seçebiliriz.

In [19]:
import pandas as pd

data = {
    'Takım': ['Furkan','Osman','Osman','Merve','Furkan','Merve'],
    'Yas': [21,27,25,25,21,27],
    'Grup': [1,3,2,3,1,2],
    'Dyili': [1998,1995,1996,1996,1995,1998],
    'Numaralari': [753,268,257,478,469,135]
}
df = pd.DataFrame(data)

grouped = df.groupby('Dyili')
grouped.get_group(1998)

Unnamed: 0,Takım,Yas,Grup,Dyili,Numaralari
0,Furkan,21,1,1998,753
5,Merve,27,2,1998,135


## Aggregations(toplama)
Toplanmış bir işlev, her grup için tek bir toplanmış değer döndürür. Groupby nesnesi oluşturulduktan sonra, gruplanmış veriler üzerinde birkaç toplama işlemi gerçekleştirilebilir.

In [23]:
import pandas as pd
import numpy as np

data = {
    'Takım': ['Furkan','Osman','Osman','Merve','Furkan','Merve'],
    'Yas': [21,27,25,25,21,27],
    'Grup': [1,3,2,3,1,2],
    'Dyili': [1998,1995,1996,1996,1995,1998],
    'Numaralari': [753,268,257,478,469,135]
}
df = pd.DataFrame(data)

grouped = df.groupby('Dyili')
grouped['Numaralari'].agg(np.mean)

Dyili
1995    368.5
1996    367.5
1998    444.0
Name: Numaralari, dtype: float64

### Aynı anda birden fazla toplama işlevi uygulamak
Gruplandırılmış serilerle, toplama yapmak için bir liste veya işlev dict'i de geçirebilir ve çıktı olarak DataFrame oluşturabilirsiniz.

In [24]:
import pandas as pd
import numpy as np

data = {
    'Takım': ['Furkan','Osman','Osman','Merve','Furkan','Merve'],
    'Yas': [21,27,25,25,21,27],
    'Grup': [1,3,2,3,1,2],
    'Dyili': [1998,1995,1996,1996,1995,1998],
    'Numaralari': [753,268,257,478,469,135]
}
df = pd.DataFrame(data)

grouped = df.groupby('Dyili')
grouped['Numaralari'].agg([np.sum,np.mean,np.std])

Unnamed: 0_level_0,sum,mean,std
Dyili,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1995,737,368.5,142.128463
1996,735,367.5,156.270599
1998,888,444.0,436.991991


## Transformations (Dönüşüm)
Bir grup veya sütun dönüştürme, gruplandırılmış aynı boyutta dizinlenmiş bir nesne döndürür. Bu nedenle, dönüşüm, bir grup yığınının boyutuyla aynı olan bir sonuç döndürmelidir.

In [25]:
import pandas as pd
import numpy as np

data = {
    'Takım': ['Furkan','Osman','Osman','Merve','Furkan','Merve'],
    'Yas': [21,27,25,25,21,27],
    'Grup': [1,3,2,3,1,2],
    'Dyili': [1998,1995,1996,1996,1995,1998],
    'Numaralari': [753,268,257,478,469,135]
}
df = pd.DataFrame(data)

grouped = df.groupby('Dyili')
score = lambda x: (x-x.mean()) / x.std()*10
grouped.transform(score)

Unnamed: 0,Yas,Grup,Numaralari
0,-7.071068,-7.071068,7.071068
1,7.071068,7.071068,-7.071068
2,,-7.071068,-7.071068
3,,7.071068,7.071068
4,-7.071068,-7.071068,7.071068
5,7.071068,7.071068,-7.071068


## Filtration (filtre)
Filtrasyon, tanımlanmış bir ölçütteki verileri filtreler ve verilerin alt kümesini döndürür. filter() işlevi verileri filtrelemek için kullanılır.

In [41]:
import pandas as pd
import numpy as np

data = {
    'Takım': ['Furkan','Osman','Osman','Merve','Furkan','Merve'],
    'Yas': [21,27,25,25,21,27],
    'Grup': [1,3,2,3,1,2],
    'Dyili': [1998,1995,1996,1996,1995,1998],
    'Numaralari': [753,268,257,478,469,135]
}
df = pd.DataFrame(data)

df.groupby('Takım').filter(lambda x: len(x) >= 2)

Unnamed: 0,Takım,Yas,Grup,Dyili,Numaralari
0,Furkan,21,1,1998,753
1,Osman,27,3,1995,268
2,Osman,25,2,1996,257
3,Merve,25,3,1996,478
4,Furkan,21,1,1995,469
5,Merve,27,2,1998,135
