In [2]:
import pandas as pd

# Lesson 3 - Group By and Aggregate Functions in Pandas

In [None]:
df = pd.read_csv("Flavors.csv")
df

In [None]:
# Группировка – это одна из самых мощных операций.
# Сам по себе этот метод возвращает объект DataFrameGroupBy, который является своего рода "рецептом"
# для группировки. Он не показывает результат, пока ты не применишь к нему агрегирующую функцию.

df.groupby("Base Flavor")

# Здесь мы сохраняем объект группировки в переменную, а затем вызываем метод .mean()
# Этот метод вычисляет среднее для каждой группы.
# numeric_only=True очень полезен – он говорит Pandas, что нужно работать
# только с числовыми колонками и игнорировать остальные.
group_by_frame = df.groupby("Base Flavor")
group_by_frame.mean(numeric_only=True)

In [None]:
# Такой подход предпочтителен, так как он более читабелен и не требует лишних переменных.
df.groupby("Base Flavor").mean(numeric_only=True)

In [None]:
# Другие стандартные агрегирующие функции
df.groupby("Base Flavor").count()
df.groupby("Base Flavor").min()
df.groupby("Base Flavor").max()
df.groupby("Base Flavor").sum()


Unnamed: 0_level_0,Flavor,Liked,Flavor Rating,Texture Rating,Total Rating
Base Flavor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Chocolate,ChocolateRocky RoadChocolte Fudge Brownie,YesYesYes,25.2,21.7,47.1
Vanilla,Mint Chocolate ChipVanillaCookie DoughPistachi...,YesNoYesNoYesNo,34.2,33.9,68.1


In [None]:
# Метод .agg() (aggregate) – это универсальный инструмент для одновременного
# применения разных агрегирующих функций к разным колонкам.
# Ты передаешь ему словарь: ключи – это названия колонок, а значения –
# это список функций, которые нужно применить к каждой колонке.
df.groupby("Base Flavor").agg({"Flavor Rating": ["mean", "sum", "count", "max", "min"],
                                "Texture Rating": ["mean", "sum", "count", "max", "min"]})


In [None]:
# Ты можешь группировать данные по нескольким колонкам, передав их названия списком.
# Результатом будет DataFrame с многоуровневым индексом (MultiIndex),
# где каждая уникальная комбинация значений становится отдельной группой.
df.groupby(["Base Flavor", "Liked"]).mean(numeric_only=True)
# И делать также аггрегаций к ним
df.groupby(["Base Flavor", "Liked"]).agg({"Flavor Rating": ["mean", "sum", "count", "max", "min"]})

In [None]:
# Мои наблюдения:
# 1. Запомни, что .count() считает только непустые значения в группе, а .size() считает
#    общее количество строк в группе (включая пропуски).

# 2. Результат .groupby() можно передавать по цепочке другим методам,
#    например, .sort_values() или .reset_index(), чтобы сделать его более удобным для анализа.
#    df.groupby(...).mean().reset_index()
#    Это очень распространенный паттерн в Pandas.

# 3. Группировка позволяет тебе делать выводы о данных, а не просто их смотреть.
#    Например, ты можешь узнать, какой "Base Flavor" имеет самый высокий "Flavor Rating" в среднем.