Функції `groupby`, `pivot` і `pivot_table` дозволяють нам групувати дані в датафреймі за певними критеріями. Вони є потужними інструментами для аналізу даних і можуть використовуватися для вирішення широкого спектру завдань.


# Функція groupby()

Функція `groupby()` дозволяє нам групувати дані в датафреймі за одним або кількома стовпцями. Вона повертає об'єкт `DataFrameGroupBy`, який містить груповані дані.

![](https://drive.google.com/uc?export=view&id=1uR0eMkvSiH0HXSX8c_CegYnl-FBf74-V)




In [1]:
import pandas as pd

In [2]:
pd.__version__

'2.2.2'

In [3]:
df = pd.DataFrame({
    "A": [7, 7, 5, 1, 1, 5, 1, 9, 1, 8, 5, 7, 3, 4, 3, 7, 7, 6, 9, 7],
    "B": [1, 2, 3, 1, 1, 2, 4, 1, 3, 4, 4, 3, 3, 4, 1, 3, 4, 3, 4, 1],
    "C": ['green', 'green', 'red', 'blue', 'blue', 'green', 'red', 'red',
       'blue', 'green', 'red', 'green', 'blue', 'red', 'blue', 'blue',
       'blue', 'green', 'green', 'red']
})

# Групування за стовпцем "A"
grouped = df.groupby("A")

# Показуємо згруповані дані
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x79b7a2719250>

Ми маємо обрати агрегаційну функцію, яку ми виконаємо надо обʼєктом `DataFrameGroupBy` , аби отримати значення. Агрегаційних функцій є багато. Наприклад, ми можемо використовувати метод `size()` для отримання кількості елементів у кожній групі:

In [4]:
grouped.size()

Unnamed: 0_level_0,0
A,Unnamed: 1_level_1
1,4
3,2
4,1
5,3
6,1
7,6
8,1
9,2


Ми також можемо використовувати метод `mean()` для обчислення середнього значення для кожної групи:

In [5]:
df

Unnamed: 0,A,B,C
0,7,1,green
1,7,2,green
2,5,3,red
3,1,1,blue
4,1,1,blue
5,5,2,green
6,1,4,red
7,9,1,red
8,1,3,blue
9,8,4,green


In [6]:
# grouped.mean() # error

Зверніть увагу на `FutureWarning`. Якщо у Вас версія pandas вища за ту, що використовується тут, то дана операція може викликати помилку, оскільки не всі колонки в датафреймі ми можемо усереднити, адже колонка `C` не є чисельного типу.

Аби позбутись `FutureWarning` ми можемо, як і показує нам повідомлення, додати аргумент до виклику методу агрегації `numeric_only=True`.

In [7]:
grouped.mean(numeric_only=True)

Unnamed: 0_level_0,B
A,Unnamed: 1_level_1
1,2.25
3,2.0
4,4.0
5,3.0
6,3.0
7,2.333333
8,4.0
9,2.5


Або ж, і це - рекомендований метод, перед використанням агрегаційної функції ми маємо обрати колонки, значення яких саме будемо агрегувати.

In [8]:
grouped['B'].mean()

Unnamed: 0_level_0,B
A,Unnamed: 1_level_1
1,2.25
3,2.0
4,4.0
5,3.0
6,3.0
7,2.333333
8,4.0
9,2.5


Ось 13 вбудованих функцій агрегування, доступних у Pandas, та короткий опис того, що вони роблять:
- mean(): Обчислює середнє значення у групі
- sum(): Обчислює суму значень групи
- size(): Обчислює кількість елементів у групі
- count(): Обчислює кількість елементів у групі
- std(): Стандартне відхилення груп
- var(): Обчислює варіацію груп
- sem(): Стандартна помилка середнього значення груп
- describe(): Генерує описову статистику
- first(): Обчислює перше значення групи
- last(): Обчислює останнє значення групи
- nth(): Вибирає n-те значення, або підмножину, якщо n є списком
- min(): Обчислює мінімальне значення групи
- max(): Обчислює максимальне значення групи

Але ми можемо також використовувати агрегаційні функції з `numpy` та написані власноруч.

In [9]:
df.groupby('A').min()

Unnamed: 0_level_0,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1,blue
3,1,blue
4,4,red
5,2,green
6,3,green
7,1,blue
8,4,green
9,1,green


In [10]:
df.groupby('A').describe()

Unnamed: 0_level_0,B,B,B,B,B,B,B,B
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,4.0,2.25,1.5,1.0,1.0,2.0,3.25,4.0
3,2.0,2.0,1.414214,1.0,1.5,2.0,2.5,3.0
4,1.0,4.0,,4.0,4.0,4.0,4.0,4.0
5,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
6,1.0,3.0,,3.0,3.0,3.0,3.0,3.0
7,6.0,2.333333,1.21106,1.0,1.25,2.5,3.0,4.0
8,1.0,4.0,,4.0,4.0,4.0,4.0,4.0
9,2.0,2.5,2.12132,1.0,1.75,2.5,3.25,4.0


Також ми можемо передавати агрегаційні функції наступним чином:

In [11]:
df.groupby('A').agg('max')

Unnamed: 0_level_0,B,C
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4,red
3,3,blue
4,4,red
5,4,red
6,3,green
7,4,red
8,4,green
9,4,red


Якщо ми хочемо передати кілька функцій, то передаємо їх списоком в метод `agg()`

In [12]:
df.groupby('A')['B'].agg(['size', 'max', 'min', 'mean', 'std'])

Unnamed: 0_level_0,size,max,min,mean,std
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,4,4,1,2.25,1.5
3,2,3,1,2.0,1.414214
4,1,4,4,4.0,
5,3,4,2,3.0,1.0
6,1,3,3,3.0,
7,6,4,1,2.333333,1.21106
8,1,4,4,4.0,
9,2,4,1,2.5,2.12132


Із створеною нами агрегаційною функцією все так само

In [13]:
def min_minus_one(values):
  return values.min() - 1

In [14]:
df.groupby('A')['B'].agg(min_minus_one)

Unnamed: 0_level_0,B
A,Unnamed: 1_level_1
1,0
3,0
4,3
5,1
6,2
7,0
8,3
9,0


Якщо хочемо застосувати різні агрегаційні функції до різних колонок, то передаємо в аргумент `agg` словник, де ключ - назва колонки, значення - список агрегаційних функцій.

In [15]:
df.groupby('A').agg({'B': max, 'C': [pd.Series.mode, min]})

  df.groupby('A').agg({'B': max, 'C': [pd.Series.mode, min]})
  df.groupby('A').agg({'B': max, 'C': [pd.Series.mode, min]})


Unnamed: 0_level_0,B,C,C
Unnamed: 0_level_1,max,mode,min
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,4,blue,blue
3,3,blue,blue
4,4,red,red
5,4,red,green
6,3,green,green
7,4,green,blue
8,4,green,green
9,4,"[green, red]",green


Агрегаційна функція `pd.Series.mode` дає найбільш частотне значення за групою.

# Функція pivot()

Функція pivot() дозволяє нам змінити форму вихідного датафрейму, перемістити деякі колонки в рядки і навпаки. Вона приймає три обов'язкові аргументи:

- `index`: Цей аргумент визначає стовпець (стовпці), за яким будуть групуватися дані в новому датафреймі - це будуть рядки в новому датафреймі.
- `columns`: Стовпець (стовпці), який (які) потрібно використовувати для створення у новому датафреймі.
- `values`: Стовпець (стовпці), значення якого (яких) будуть агреговані і записані в значення нового датафрейма.

![](https://drive.google.com/uc?export=view&id=168JIovy0USoPfqynGlzvYlFWIErP0nP3)

In [16]:
df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two', 'two'],
                    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                    'baz': [1, 2, 3, 4, 5, 6],
                    'zoo': ['x', 'y', 'z', 'q', 'w', 't']})

In [17]:
df

Unnamed: 0,foo,bar,baz,zoo
0,one,A,1,x
1,one,B,2,y
2,one,C,3,z
3,two,A,4,q
4,two,B,5,w
5,two,C,6,t


In [18]:
# Створюємо новий датафрейм, групований за стовпцем "A"
pivoted = df.pivot(index='foo', columns='bar', values='baz')

# Показуємо новий датафрейм
pivoted

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,2,3
two,4,5,6


Якщо ми не вкажемо values, буде наступне:

In [19]:
df.pivot(index='foo', columns='bar')

Unnamed: 0_level_0,baz,baz,baz,zoo,zoo,zoo
bar,A,B,C,A,B,C
foo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
one,1,2,3,x,y,z
two,4,5,6,q,w,t


Функція `pivot` не дає можливості виокнувати різні агрегаційні функції над даними. Вона фактично дозволяє змінити форму даних.

Або використати певну агрегаційну фукнцію, нам необхідно застосувати іншу функцію `pandas.pivot_table`.

# Функція pivot_table()

Функція pivot_table() дозволяє нам створювати зведену таблицю в стилі електронної таблиці як DataFrame.

Рівні у зведеній таблиці зберігатимуться в об’єктах MultiIndex (ієрархічних індексах) в індексі та стовпцях результату DataFrame.

Ця фукнція містить ті самі обовʼязкові аргументи, як і `pivot`, але дозволяє також обрати агрегаційну функцію `aggfunc`. За замовченням це - `mean`.

![](https://drive.google.com/uc?export=view&id=19NwmrgcHiTthC3Zp9mqYmBqQtZicIXAz)

In [20]:
df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo",
                          "bar", "bar", "bar", "bar"],
                    "B": ["one", "one", "one", "two", "two",
                          "one", "one", "two", "two"],
                    "C": ["small", "large", "large", "small",
                          "small", "large", "small", "small",
                          "large"],
                    "D": [1, 2, 2, 3, 3, 4, 5, 6, 7],
                    "E": [2, 4, 5, 5, 6, 6, 8, 9, 9]})


In [21]:
df

Unnamed: 0,A,B,C,D,E
0,foo,one,small,1,2
1,foo,one,large,2,4
2,foo,one,large,2,5
3,foo,two,small,3,5
4,foo,two,small,3,6
5,bar,one,large,4,6
6,bar,one,small,5,8
7,bar,two,small,6,9
8,bar,two,large,7,9


In [22]:
res1 = pd.pivot_table(df, index='A', columns='C', values='D', aggfunc='sum')

In [23]:
res1

C,large,small
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,11,11
foo,4,7


Зверніть увагу, якщо ми передами values як список, то зміниться формат датафрейму.

In [24]:
res2 = pd.pivot_table(df, index='A', columns='C', values=['D'], aggfunc="sum")

In [25]:
res2

Unnamed: 0_level_0,D,D
C,large,small
A,Unnamed: 1_level_2,Unnamed: 2_level_2
bar,11,11
foo,4,7


In [26]:
display(res1.columns, res2.columns)

Index(['large', 'small'], dtype='object', name='C')

MultiIndex([('D', 'large'),
            ('D', 'small')],
           names=[None, 'C'])

Можемо позбутись зайвого рівня індексу наступним чином:

In [27]:
res2.columns.droplevel(0)

Index(['large', 'small'], dtype='object', name='C')

In [28]:
res2.columns = res2.columns.droplevel(0)

In [29]:
res2

C,large,small
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,11,11
foo,4,7


In [30]:
display(res1.columns, res2.columns)

Index(['large', 'small'], dtype='object', name='C')

Index(['large', 'small'], dtype='object', name='C')

Приклад, коли в індексі кілька колонок:

In [31]:
pd.pivot_table(df, values='D', index=['A', 'B'],
                columns=['C'], aggfunc="sum")

Unnamed: 0_level_0,C,large,small
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,5.0
bar,two,7.0,6.0
foo,one,4.0,1.0
foo,two,,6.0


Якщо б ми викликали тут функцію `pivot`, то у нас би висвітилась помилка, адже цей функціонал призначений аби змінювати форму (робити reshape), але не агрегувати дані!

In [32]:
df.sort_values(['A','B', 'C'])

Unnamed: 0,A,B,C,D,E
5,bar,one,large,4,6
6,bar,one,small,5,8
8,bar,two,large,7,9
7,bar,two,small,6,9
1,foo,one,large,2,4
2,foo,one,large,2,5
0,foo,one,small,1,2
3,foo,two,small,3,5
4,foo,two,small,3,6


In [33]:
pd.pivot(df.drop_duplicates(subset=['A', 'B', 'C']), index=['A', 'B'], columns=['C'], values='D')

Unnamed: 0_level_0,C,large,small
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,5.0
bar,two,7.0,6.0
foo,one,2.0,1.0
foo,two,,3.0


In [34]:
df

Unnamed: 0,A,B,C,D,E
0,foo,one,small,1,2
1,foo,one,large,2,4
2,foo,one,large,2,5
3,foo,two,small,3,5
4,foo,two,small,3,6
5,bar,one,large,4,6
6,bar,one,small,5,8
7,bar,two,small,6,9
8,bar,two,large,7,9


In [35]:
df.drop_duplicates(subset=['A', 'B', 'C'])

Unnamed: 0,A,B,C,D,E
0,foo,one,small,1,2
1,foo,one,large,2,4
3,foo,two,small,3,5
5,bar,one,large,4,6
6,bar,one,small,5,8
7,bar,two,small,6,9
8,bar,two,large,7,9


Заповнити пусті значення.

In [36]:
pd.pivot_table(df.drop_duplicates(subset=['A', 'B', 'C']), values='D', index=['A', 'B'],
               columns=['C'], aggfunc="sum", fill_value=0)

Unnamed: 0_level_0,C,large,small
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4,5
bar,two,7,6
foo,one,2,1
foo,two,0,3


Обчислити різні агрегаційні функції для різних стовпців

In [37]:
pd.pivot_table(df, values=['D', 'E'], index=['A', 'C'],
               aggfunc={'D': "mean", 'E': "max"})

Unnamed: 0_level_0,Unnamed: 1_level_0,D,E
A,C,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,large,5.5,9
bar,small,5.5,9
foo,large,2.0,5
foo,small,2.333333,6


Ми також можемо обчислити кілька типів агрегацій для будь-якого стовпця зі значеннями.

In [38]:
res3 = pd.pivot_table(df, values=['D', 'E'], index=['A', 'C'],
               aggfunc={
                  'D': "mean",
                  'E': ["min", "max", "mean"]
                  }
              )

In [39]:
res3.columns

MultiIndex([('D', 'mean'),
            ('E',  'max'),
            ('E', 'mean'),
            ('E',  'min')],
           )

In [40]:
res3

Unnamed: 0_level_0,Unnamed: 1_level_0,D,E,E,E
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,max,mean,min
A,C,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
bar,large,5.5,9,7.5,6
bar,small,5.5,9,8.5,8
foo,large,2.0,5,4.5,4
foo,small,2.333333,6,4.333333,2
