In [17]:
import pandas as pd

data = {'weekday':['Sun', 'Sun', 'Mon', 'Mon'],
        'city':['Austin', 'Dallas', 'Austin', 'Dallas'],
        'bread':[139, 237, 326, 456],
        'butter':[20, 45, 70, 98]}

df = pd.DataFrame(data)
df

Unnamed: 0,weekday,city,bread,butter
0,Sun,Austin,139,20
1,Sun,Dallas,237,45
2,Mon,Austin,326,70
3,Mon,Dallas,456,98


In [2]:
# Örneğin herhangi bir gün için girdilerin sayısını öğrenmek istediğimizde mask işlemi yapıyorduk.
# Bunun yerine groupby da kullanabiliriz.

In [7]:
count1 = df[df['weekday'] == 'Sun'].count()
print(count1)

counts = df.groupby('weekday').count()
print(counts)
print(type(counts))

weekday    2
city       2
bread      2
butter     2
dtype: int64
         city  bread  butter
weekday                     
Mon         2      2       2
Sun         2      2       2
<class 'pandas.core.frame.DataFrame'>


In [15]:
# groupby metodu çağırıldığında pandas.core.groupby.DataFrameGroupBy tipinde bir nesne döndürür.
# Bu nesnenin içinde her bir grubun anahtar olduğu group sözlüğü bulunur.

In [18]:
gb = df.groupby('weekday')
print(type(gb))
print(gb.groups.keys())

<class 'pandas.core.groupby.groupby.DataFrameGroupBy'>
dict_keys(['Mon', 'Sun'])


In [None]:
# groups sözlüğünü kullanarak her bir grup üzerinde iterasyon yapabiliriz.
# Bu sayede her bir grubu iteratif olarak filtreleyebiliriz.

In [20]:
for group_name, group in gb:
    avg = group['butter'].mean()
    print(group_name, avg)

Mon 84.0
Sun 32.5


In [None]:
# Örnek

for group_name, group in splitting:
    avg = group.loc[group['name'].str.contains('chevrolet'), 'mpg'].mean()
    print(group_name, avg)

In [8]:
# groupby sonucu bir dataframe olduğundan slicing yapabiliriz.

In [9]:
print(df.groupby('weekday').count()[['bread']])

         bread
weekday       
Mon          2
Sun          2


In [10]:
# Toplamıda elde etmek isteyebiliriz.

In [13]:
print('Sum is: ', df.groupby('weekday')['bread'].sum())

Sum is:  weekday
Mon    782
Sun    376
Name: bread, dtype: int64


In [14]:
print(df.groupby('weekday')[['bread', 'butter']].sum())

         bread  butter
weekday               
Mon        782     168
Sun        376      65


In [15]:
# groupby metoduna birden fazla sütun geçirerek multi-level groupby yapabiliriz.

In [36]:
df.groupby(['city', 'weekday']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,bread,butter
city,weekday,Unnamed: 2_level_1,Unnamed: 3_level_1
Austin,Mon,326,70
Austin,Sun,139,20
Dallas,Mon,456,98
Dallas,Sun,237,45


In [None]:
# İndeksler aynı olduğunda başa bir dataframe ve ya series kullanarakta gruplama yapabiliriz.
# Örneğin müşterileri belirten aşağıdaki gibi bir Series olsun. Bu Series i kullanarak tabloyu
# müşterilere göre gruplayabiliriz ve her müşteri için toplamlara bakabiliriz.

In [25]:
customers = pd.Series(['Dave', 'Alice', 'Bob', 'Alice'])
df.groupby(customers).sum()

Unnamed: 0,bread,butter
Alice,693,143
Bob,326,70
Dave,139,20


In [26]:
# Aynı mantığı kullanarak ayrı ayrı sütunları da gruplayıp aggegation yapabiliriz.

In [28]:
df.groupby(customers)[['bread']].sum()

Unnamed: 0,bread
Alice,693
Bob,326
Dave,139


In [29]:
# Bir sütundaki farklı(distinct) değerleri unique metodu ile görebiliriz. value_counts metodu ise
# her bir farklı değerden kaç tane olduğunu verir.

In [30]:
print(df['city'].unique())
print(df['city'].value_counts())

['Austin' 'Dallas']
Austin    2
Dallas    2
Name: city, dtype: int64


In [31]:
# Kategorik değerler içeren sütunları stringten category tipine çevirerek bellekten tasarruf sağlarız.
# Ayrıca bu sayede groupby gibi işlemler çok daha hızlı yapılır.

In [35]:
df.info()
df.city = df.city.astype('category')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
weekday    4 non-null object
city       4 non-null object
bread      4 non-null int64
butter     4 non-null int64
dtypes: int64(2), object(2)
memory usage: 208.0+ bytes


In [37]:
# Gruplamak için başka bir dataframe e ait sütunun kullanılmasına başka bir örnek aşağıdaki gibidir.
# Ortalama yaşam süresini tutan bir dataframe ve bölgeleri tutan bir datafame var.
# Her ikiside ülkelere göre indekslendiği için bölgeleri tutan dataframein region sütununu kullanarak
# ortalama yaşam süresini tutan dataframe i bölgelere göre gruplayabiliyoruz.

In [None]:
# Read life_fname into a DataFrame: life
life = pd.read_csv(life_fname, index_col='Country')

# Read regions_fname into a DataFrame: regions
regions = pd.read_csv(regions_fname, index_col='Country')

# Group life by regions['region']: life_by_region
life_by_region = life.groupby(regions['region'])

# Print the mean over the '2010' column of life_by_region
print(life_by_region['2010'].mean())

In [None]:
# Birden fazla aggregation fonksiyonu da kullanabiliriz. Sonuç olarak multi-level sütun indekslerine
# sahip bir dataframe elde ederiz.

In [8]:
df.groupby('city').agg(['mean', 'median'])

Unnamed: 0_level_0,bread,bread,butter,butter
Unnamed: 0_level_1,mean,median,mean,median
city,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Austin,232.5,232.5,45.0,45.0
Dallas,346.5,346.5,71.5,71.5


In [7]:
# Kendi tanımladığımız aggregation fonksiyonlarınıda kullanabiliriz

0    NaN
1    1.0
2    3.0
dtype: float64

In [11]:
def data_range(series):
    return series.max() - series.min()

df.groupby('city').agg(data_range)

Unnamed: 0_level_0,bread,butter
city,Unnamed: 1_level_1,Unnamed: 2_level_1
Austin,187,50
Dallas,219,53


In [12]:
# Aggregation fonksiyonlarını bir sözlük olarakta geçirebiliriz. Böylece her bir sütuna uygulanacak
# aggregation fonksiyonunu ayrı ayrı tanımlayabiliriz.

In [14]:
df.groupby('city').agg({'bread':sum, 'butter':data_range})

Unnamed: 0_level_0,bread,butter
city,Unnamed: 1_level_1,Unnamed: 2_level_1
Austin,465,50
Dallas,693,53


In [None]:
# Örnek

# Read the CSV file into a DataFrame and sort the index: gapminder
gapminder = pd.read_csv('gapminder.csv', index_col=['Year', 'region', 'Country']).sort_index()

# Group gapminder by 'Year' and 'region': by_year_region
by_year_region = gapminder.groupby(level=['Year', 'region'])

# Define the function to compute spread: spread
def spread(series):
    return series.max() - series.min()

# Create the dictionary: aggregator
aggregator = {'population':'sum', 'child_mortality':'mean', 'gdp':spread}

# Aggregate by_year_region using the dictionary: aggregated
aggregated = by_year_region.agg(aggregator)

# Print the last 6 entries of aggregated 
print(aggregated.tail(6))

In [None]:
# İndeks datetime tipinde ise tarih içerisinden herhangi bir zaman bilgisine göre gruplama 
# yapabiliriz. Örneğin güne göre gruplama aşağıdaki gibi yapılabilir:

# Read file: sales
sales = pd.read_csv('sales.csv', index_col='Date', parse_dates=True)

# Create a groupby object: by_day
by_day = sales.groupby(sales.index.strftime('%a'))

# Create sum: units_sum
units_sum = by_day.agg(sum)

# Print units_sum
print(units_sum)

In [2]:
# Gruplama yapıldıktan sonra bir aggregation fonksiyonu uygulamak yerine verileri dönüştürmek isteyebiliriz.
# Böylece indeks değiştirilmeksizin tablodaki veriler dönüştürülür. Bazen istatistikleri gruplar içerisinde
# hesaplamak daha tutarlı sonuçlar verebilir. Gruplar üzerinde dönüşüm yapmak için transform metodunu
# kullanırız. Dolayısıyla bu yöntem kayıp değerlerin imputasyonu içinde kullanılabilir.

In [23]:
titanic_df = pd.read_csv('titanic.csv')
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
pclass       1309 non-null int64
survived     1309 non-null int64
name         1309 non-null object
sex          1309 non-null object
age          1046 non-null float64
sibsp        1309 non-null int64
parch        1309 non-null int64
ticket       1309 non-null object
fare         1308 non-null float64
cabin        295 non-null object
embarked     1307 non-null object
boat         486 non-null object
body         121 non-null float64
home.dest    745 non-null object
dtypes: float64(3), int64(4), object(7)
memory usage: 143.2+ KB


In [14]:
def impute_by_median(series):
    series.fillna(series.median())
    
by_sex_class = df.groupby(['sex', 'pclass'])
titanic_df.age = by_sex_class.age.transform(impute_by_median)
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
pclass       1309 non-null int64
survived     1309 non-null int64
name         1309 non-null object
sex          1309 non-null object
age          0 non-null float64
sibsp        1309 non-null int64
parch        1309 non-null int64
ticket       1309 non-null object
fare         1308 non-null float64
cabin        295 non-null object
embarked     1307 non-null object
boat         486 non-null object
body         121 non-null float64
home.dest    745 non-null object
dtypes: float64(3), int64(4), object(7)
memory usage: 143.2+ KB


In [15]:
# Gruplar üzerinden daha karmaşık işlemler için apply metodu kullanılabilir.

In [11]:
gapminder_df = pd.read_csv('gapminder_tidy.csv')
gapminder_df = gapminder_df.groupby(['region', 'Country']).mean().reset_index().set_index('Country').sort_index()
gapminder_df

Unnamed: 0_level_0,region,Year,fertility,life,population,child_mortality,gdp
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Afghanistan,South Asia,1988.5,7.359780,47.35280,1.827204e+07,203.198000,1187.20
Albania,Europe & Central Asia,1988.5,3.290100,71.64512,2.817009e+06,57.443400,5012.52
Algeria,Middle East & North Africa,1988.5,5.065340,62.26872,2.402512e+07,106.082000,9662.18
Angola,Sub-Saharan Africa,1988.5,6.988800,42.32716,1.098218e+07,229.667800,4719.16
Antigua and Barbuda,America,1988.5,2.528700,70.63692,7.185468e+04,30.917800,13765.38
Argentina,America,1988.5,2.843160,71.09126,3.183379e+07,36.136600,11058.80
Armenia,Europe & Central Asia,1988.5,2.303440,70.71564,3.018367e+06,50.982600,3975.92
Aruba,America,1988.5,2.315780,72.48278,7.518588e+04,21.334706,25756.80
Australia,East Asia & Pacific,1988.5,2.076340,76.60392,1.680300e+07,11.452000,28633.94
Austria,Europe & Central Asia,1988.5,1.680700,75.23108,7.790339e+06,13.874000,29908.06


In [75]:
def disparity(group):
    regional_gdp = group['gdp'].max() - group['gdp'].min()
    z_gdp = (group['gdp'] - group['gdp'].mean()) / group['gdp'].std()
    return pd.DataFrame({'z(gdp)':z_gdp, 'regional_spread(gdp)':regional_gdp})

gapminder_by_region = gapminder_df.groupby('region')
gdp = gapminder_by_region.apply(disparity)
gdp.head()
print(gdp.loc[['Turkey', 'Greece', 'United States', 'China']])

                 z(gdp)  regional_spread(gdp)
Country                                      
Turkey        -0.659508              52736.80
Greece         0.173024              52736.80
United States  3.006848              34186.46
China         -0.559400              80676.82


In [14]:
data = {'A':[1, 2, 3], 'B':[3, 4, 5], 'C':['D', 'E', 'D'], 'F':['G', 'H', 'I']}
df = pd.DataFrame(data)
print(df, '\n')
print(df.groupby(['C', 'F']).mean(), '\n')
print(df.groupby(['F', 'C']).mean(), '\n')

   A  B  C  F
0  1  3  D  G
1  2  4  E  H
2  3  5  D  I 

     A  B
C F      
D G  1  3
  I  3  5
E H  2  4 

     A  B
F C      
G D  1  3
H E  2  4
I D  3  5 



In [None]:
# Boolean serileri kullanarak one-to-all karşılaştırmalar yapabiliriz. Yani aradığımız koşula uyan
# ve uymayan tüm satırlar için gruplama yapılır. Aşağıda Austin ve diğer şehirlerdeki ekmek tüketimi
# karşılaştırılmıştır.

In [22]:
mask = df['city'] == 'Austin'
print(df.groupby(['weekday', mask])['bread'].mean())

weekday  city 
Mon      False    456
         True     326
Sun      False    237
         True     139
Name: bread, dtype: int64


In [None]:
# apply metodunu kullanarak her bir grubu teker teker işleyebiliriz. Bu sayede her bir grup üzerinde
# filtreleme işlemide yapabiliriz.

In [25]:
def c_deck_survival(group):
    c_passengers = group['cabin'].str.startswith('C').fillna(False)
    return group.loc[c_passengers, 'survived'].mean()

by_sex = titanic_df.groupby('sex')
c_surv_by_sex = by_sex.apply(c_deck_survival)
print(c_surv_by_sex)

sex
female    0.913043
male      0.312500
dtype: float64


In [26]:
# filter fonksiyonunu kullanarakta filteleme yapabiliriz. Aşağıdaki örnekte sales verisini okuduk ve
# şirketlere göre grupladık. Ardından Units sütunu üzerinde 35 ve daha az girdisi olan şirketlere ait
# tüm satırları filtreledik.

0    1
1    1
2    0
3    0
4    0
Name: survived, dtype: int64

In [37]:
sales_df = pd.read_csv('./sales/sales-feb-2015.csv', index_col='Date', parse_dates=True)
print(sales_df, '\n')

by_company = sales_df.groupby('Company')

# Print sum of units purchased by companies for verification
print(by_company['Units'].sum(), '\n')

# Filter companies which purchases less than or equal to 35
print(by_company.filter(lambda g:g['Units'].sum() > 35))

                             Company   Product  Units
Date                                                 
2015-02-02 08:30:00            Hooli  Software      3
2015-02-02 21:00:00        Mediacore  Hardware      9
2015-02-03 14:00:00          Initech  Software     13
2015-02-04 15:30:00        Streeplex  Software     13
2015-02-04 22:00:00  Acme Coporation  Hardware     14
2015-02-05 02:00:00  Acme Coporation  Software     19
2015-02-05 22:00:00            Hooli   Service     10
2015-02-07 23:00:00  Acme Coporation  Hardware      1
2015-02-09 09:00:00        Streeplex   Service     19
2015-02-09 13:00:00        Mediacore  Software      7
2015-02-11 20:00:00          Initech  Software      7
2015-02-11 23:00:00            Hooli  Software      4
2015-02-16 12:00:00            Hooli  Software     10
2015-02-19 11:00:00        Mediacore  Hardware     16
2015-02-19 16:00:00        Mediacore   Service     10
2015-02-21 05:00:00        Mediacore  Software      3
2015-02-21 20:30:00         

In [40]:
# map metodunu kullanarak maskelerdeki değerleri yeni değerlere atayabilir. Bunu herhangi bir series
# içinde yapabiliriz. Örneğin 10 yaş altı ve üstü insanlara göre gruplama yapabiliriz. Ayrıca sınıf 
# üzerinden de gruplama yaparak çok seviyeli indeks kullanarak olasılıklara bakabiliriz.

   A   E
0  B  10
1  B  12
2  C   3
3  D   4
4  F  54 

   A   E
0  B  10
1  B  12
4  F  54


In [42]:
under10 = (titanic_df['age'] < 10).map({True:'under 10', False:'over 10'})
print(titanic_df.groupby([under10, 'pclass'])['survived'].mean())

age       pclass
over 10   1         0.617555
          2         0.380392
          3         0.238897
under 10  1         0.750000
          2         1.000000
          3         0.446429
Name: survived, dtype: float64
