Функції `groupby`, `pivot` і `pivot_table` дозволяють нам групувати дані в датафреймі за певними критеріями. Вони є потужними інструментами для аналізу даних і можуть використовуватися для вирішення широкого спектру завдань.


# Функція groupby()

Функція `groupby()` дозволяє нам групувати дані в датафреймі за одним або кількома стовпцями. Вона повертає об'єкт `DataFrameGroupBy`, який містить груповані дані.

![](https://drive.google.com/uc?export=view&id=1uR0eMkvSiH0HXSX8c_CegYnl-FBf74-V)




In [None]:
import pandas as pd

In [None]:
pd.__version__

In [None]:
df = pd.DataFrame({
    "A": [7, 7, 5, 1, 1, 5, 1, 9, 1, 8, 5, 7, 3, 4, 3, 7, 7, 6, 9, 7],
    "B": [1, 2, 3, 1, 1, 2, 4, 1, 3, 4, 4, 3, 3, 4, 1, 3, 4, 3, 4, 1],
    "C": ['green', 'green', 'red', 'blue', 'blue', 'green', 'red', 'red',
       'blue', 'green', 'red', 'green', 'blue', 'red', 'blue', 'blue',
       'blue', 'green', 'green', 'red']
})

# Групування за стовпцем "A"
grouped = df.groupby("A")

# Показуємо згруповані дані
grouped

Ми маємо обрати агрегаційну функцію, яку ми виконаємо надо обʼєктом `DataFrameGroupBy` , аби отримати значення. Агрегаційних функцій є багато. Наприклад, ми можемо використовувати метод `size()` для отримання кількості елементів у кожній групі:

In [None]:
grouped.size()

Ми також можемо використовувати метод `mean()` для обчислення середнього значення для кожної групи:

In [None]:
df

In [None]:
grouped.mean()

Зверніть увагу на `FutureWarning`. Якщо у Вас версія pandas вища за ту, що використовується тут, то дана операція може викликати помилку, оскільки не всі колонки в датафреймі ми можемо усереднити, адже колонка `C` не є чисельного типу.

Аби позбутись `FutureWarning` ми можемо, як і показує нам повідомлення, додати аргумент до виклику методу агрегації `numeric_only=True`.

In [None]:
grouped.mean(numeric_only=True)

Або ж, і це - рекомендований метод, перед використанням агрегаційної функції ми маємо обрати колонки, значення яких саме будемо агрегувати.

In [None]:
grouped['B'].mean()

Ось 13 вбудованих функцій агрегування, доступних у Pandas, та короткий опис того, що вони роблять:
- mean(): Обчислює середнє значення у групі
- sum(): Обчислює суму значень групи
- size(): Обчислює кількість елементів у групі
- count(): Обчислює кількість елементів у групі
- std(): Стандартне відхилення груп
- var(): Обчислює варіацію груп
- sem(): Стандартна помилка середнього значення груп
- describe(): Генерує описову статистику
- first(): Обчислює перше значення групи
- last(): Обчислює останнє значення групи
- nth(): Вибирає n-те значення, або підмножину, якщо n є списком
- min(): Обчислює мінімальне значення групи
- max(): Обчислює максимальне значення групи

Але ми можемо також використовувати агрегаційні функції з `numpy` та написані власноруч.

In [None]:
df.groupby('A').min()

In [None]:
df.groupby('A').describe()

Також ми можемо передавати агрегаційні функції наступним чином:

In [None]:
df.groupby('A').agg('max')

Якщо ми хочемо передати кілька функцій, то передаємо їх списоком в метод `agg()`

In [None]:
df.groupby('A')['B'].agg(['size', 'max', 'min', 'mean', 'std'])

Із створеною нами агрегаційною функцією все так само

In [None]:
def min_minus_one(values):
  return values.min() - 1

In [None]:
df.groupby('A')['B'].agg(min_minus_one)

Якщо хочемо застосувати різні агрегаційні функції до різних колонок, то передаємо в аргумент `agg` словник, де ключ - назва колонки, значення - список агрегаційних функцій.

In [None]:
df.groupby('A').agg({'B': max, 'C': [pd.Series.mode, min]})

Агрегаційна функція `pd.Series.mode` дає найбільш частотне значення за групою.

# Функція pivot()

Функція pivot() дозволяє нам змінити форму вихідного датафрейму, перемістити деякі колонки в рядки і навпаки. Вона приймає три обов'язкові аргументи:

- `index`: Цей аргумент визначає стовпець (стовпці), за яким будуть групуватися дані в новому датафреймі - це будуть рядки в новому датафреймі.
- `columns`: Стовпець (стовпці), який (які) потрібно використовувати для створення у новому датафреймі.
- `values`: Стовпець (стовпці), значення якого (яких) будуть агреговані і записані в значення нового датафрейма.

![](https://drive.google.com/uc?export=view&id=168JIovy0USoPfqynGlzvYlFWIErP0nP3)

In [None]:
df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two', 'two'],
                    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                    'baz': [1, 2, 3, 4, 5, 6],
                    'zoo': ['x', 'y', 'z', 'q', 'w', 't']})

In [None]:
df

In [None]:
# Створюємо новий датафрейм, групований за стовпцем "A"
pivoted = df.pivot(index='foo', columns='bar', values='baz')

# Показуємо новий датафрейм
pivoted

Якщо ми не вкажемо values, буде наступне:

In [None]:
df.pivot(index='foo', columns='bar')

Функція `pivot` не дає можливості виокнувати різні агрегаційні функції над даними. Вона фактично дозволяє змінити форму даних.

Або використати певну агрегаційну фукнцію, нам необхідно застосувати іншу функцію `pandas.pivot_table`.

# Функція pivot_table()

Функція pivot_table() дозволяє нам створювати зведену таблицю в стилі електронної таблиці як DataFrame.

Рівні у зведеній таблиці зберігатимуться в об’єктах MultiIndex (ієрархічних індексах) в індексі та стовпцях результату DataFrame.

Ця фукнція містить ті самі обовʼязкові аргументи, як і `pivot`, але дозволяє також обрати агрегаційну функцію `aggfunc`. За замовченням це - `mean`.

![](https://drive.google.com/uc?export=view&id=19NwmrgcHiTthC3Zp9mqYmBqQtZicIXAz)

In [None]:
df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo",
                          "bar", "bar", "bar", "bar"],
                    "B": ["one", "one", "one", "two", "two",
                          "one", "one", "two", "two"],
                    "C": ["small", "large", "large", "small",
                          "small", "large", "small", "small",
                          "large"],
                    "D": [1, 2, 2, 3, 3, 4, 5, 6, 7],
                    "E": [2, 4, 5, 5, 6, 6, 8, 9, 9]})


In [None]:
df

In [None]:
res1 = pd.pivot_table(df, index='A', columns='C', values='D', aggfunc='sum')

In [None]:
res1

Зверніть увагу, якщо ми передами values як список, то зміниться формат датафрейму.

In [None]:
res2 = pd.pivot_table(df, index='A', columns='C', values=['D'], aggfunc="sum")

In [None]:
res2

In [None]:
display(res1.columns, res2.columns)

Можемо позбутись зайвого рівня індексу наступним чином:

In [None]:
res2.columns.droplevel(0)

In [None]:
res2.columns = res2.columns.droplevel(0)

In [None]:
res2

In [None]:
display(res1.columns, res2.columns)

Приклад, коли в індексі кілька колонок:

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'],
                columns=['C'], aggfunc="sum")

Якщо б ми викликали тут функцію `pivot`, то у нас би висвітилась помилка, адже цей функціонал призначений аби змінювати форму (робити reshape), але не агрегувати дані!

In [None]:
df.sort_values(['A','B', 'C'])

In [None]:
pd.pivot(df.drop_duplicates(subset=['A', 'B', 'C']), index=['A', 'B'], columns=['C'], values='D')

In [None]:
df

In [None]:
df.drop_duplicates(subset=['A', 'B', 'C'])

Заповнити пусті значення.

In [None]:
pd.pivot_table(df.drop_duplicates(subset=['A', 'B', 'C']), values='D', index=['A', 'B'],
               columns=['C'], aggfunc="sum", fill_value=0)

Обчислити різні агрегаційні функції для різних стовпців

In [None]:
pd.pivot_table(df, values=['D', 'E'], index=['A', 'C'],
               aggfunc={'D': "mean", 'E': "max"})

Ми також можемо обчислити кілька типів агрегацій для будь-якого стовпця зі значеннями.

In [None]:
res3 = pd.pivot_table(df, values=['D', 'E'], index=['A', 'C'],
               aggfunc={
                  'D': "mean",
                  'E': ["min", "max", "mean"]
                  }
              )

In [None]:
res3.columns