# **Семинар 4. Группировка**

#### <i>Малкова Ксения, Преподаватель ФКН НИУ ВШЭ</i>

На данном семинаре мы познакомимся с **группировкой** данных. Группировка позволяет объединять данные по определенным признакам и применять к ним различные **агрегирующие функции**. 

Представьте, что мы провели онлайн-опрос среди пользователей по оценке качества контента. Теперь мы хотим узнать, *как оценки различаются по возрастным категориям*. С помощью **группировки** данных мы можем *разделить ответы на группы по возрастам* и посчитать *среднее значение оценки в каждой группе*. Кроме того, группировка позволяет выявить минимальные и максимальные оценки в каждой категории, а также другие статистики, чтобы лучше понять, как разные возрастные группы реагируют на контент.

Но обо всем - по порядку! 🤗

Мы будем работать с привычным датасетом `Titanics.csv`, и для начала, также привычным образом, импортируем `pandas` и прочитаем таблицу. 

In [1]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/aaparshina/FCI_22-23_data_analysis/main/data/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## **Методы агрегирования данных**

**Функция агрегирования (аггрегации)** - это функция, которая принимает несколько отдельных значений и возвращает одно обобщенное (аггрегированное) значение.

**Основные функции аггрегации**

|     | Описание                                                 | Синтаксис в pandas                     |
|-------------|----------------------------------------------------------|----------------------------------------|
| **Среднее**    | Вычисляет среднее значение группы чисел.                | `df['column_name'].mean()`            |
| **Сумма**     | Складывает все значения группы чисел.                        | `df['column_name'].sum()`             |
| **Минимум**     | Находит наименьшее значение группы чисел.                   | `df['column_name'].min()`             |
| **Максимум**     | Находит наибольшее значение группы чисел.                   | `df['column_name'].max()`             |
| **Количество**   | Подсчитывает количество непропущенных значений в группе чисел.              | `df['column_name'].count()`           |
| **Количество уникальных значений** | Подсчитывает количество уникальных значений в группе.   | `df['column_name'].nunique()`         |

❗️Разные функции агрегации предназначены для **различных типов данных**. Поэтому перед использованием той или иной функции обязательно убедитесь, что выбранный вами признак соответствует необходимому типу данных для применения этой функции
- **Числовые непрерывные** признаки - `mean()`, `min()`, `max()`, `sum()`, `count()`
- **Числовые дискретные** признаки - `mean()`, `min()`, `max()`, `sum()`, `count()`, `nunique()`
- **Категориальные** (номинальные и порядковые) признаки - `count()`, `nunique()`

In [2]:
# Посмотрим на наши данные
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### 1. **Среднее значение** - `.mean()`
- Вычисляется для **числовых** (как непрерывных, так и дискретных) признаков

In [3]:
df['Fare'].mean()

np.float64(32.204207968574636)

### 2. **Сумма** - `.sum()`
- Вычисляется для **числовых** (как непрерывных, так и дискретных) признаков

In [4]:
df['Fare'].sum()

np.float64(28693.9493)

### 3. **Минимум и максимум** - `.min()` and `.max()`
- Вычисляется для **числовых** (как непрерывных, так и дискретных) признаков

In [5]:
df['Fare'].min()

np.float64(0.0)

In [6]:
df['Fare'].max()

np.float64(512.3292)

### 4. **Общее количество** - `.count()`
- Вычисляется для любых признаков
- Возвращает количество **не**пропущенных значений

In [7]:
df['Cabin'].count()

np.int64(204)

In [8]:
df['Fare'].count()

np.int64(891)

### 5. **Количество уникальных значений** - `.nunique()`
- Вычисляется для **числовых дискретных** и **категориальных** признаков
- Если призутствуют пропущенные значения - также считаются за уникальное значение. Например, если признак содержит три категории 'one', 'second' и 'third', но есть еще и пропущенные значения, `.nunique()` вернет 4.

Сами уникальные значения можно посмотреть с помощью функции аггрегации `unique()`:

In [9]:
df['Pclass'].unique()

array([3, 1, 2])

Их количество (длина массива, возвращаемого `unique()`) и отображается в `nunique()`:

In [10]:
df['Pclass'].nunique()

3

## **Группировка данных** `.groupby()`

Группировка данных с помощью `.groupby()` - метод, который позволяет **объединить** данные по одному или нескольким признакам и далее выполнить **аггрегацию** на этих группах (функциями агреггации, о которых говорили выше). 

По сути, метод `.groupby()` разбивает датафрейм на группы в зависимости от значений в одном или нескольких столбцах. После группировки по значениям можно применять различные функции агрегации, такие как `mean`, `sum`, `count` и другие, к каждой из групп.

### 1. Простейшая группировка: одна функция аггрегации и один столбец интереса

Для выполнения простейшей группировки данных с применением одной функции агрегации в pandas используется следующий синтаксис:

``` python
    датафрейм.groupby("столбец группировки")["столбец интереса"].метод агрегирования()
```

**Столбец группировки** — признак, по которому мы разбиваем нашу изначальную таблицу на несколько групп (категорий). Обычно это *категориальные переменные*, такие как пол, город или класс.

**Столбец интереса** — признак, статистику по которому мы хотим посчитать внутри каждой группы. Под статистикой здесь подразумевается результат любой из функций агрегации, таких как среднее, сумма или количество. Это могут быть как *количественные переменные* (например, возраст или доход), так и *категориальные переменные* (например, вид медали).

#### Пример

**Задача** - найти среднюю цену за билет в разных портах. 

В такой формулировке:
- Столбец группировки - порт (`Embarked`)
- Столбец интереcа - цена за билет (`Fare`)
- Функция аггрегации (статистика) - среднее значение (`mean()`)

In [11]:
df.groupby("Embarked")["Fare"].mean()

Embarked
C    59.954144
Q    13.276030
S    27.079812
Name: Fare, dtype: float64

### 2. Группировка: одна функция аггрегации и несколько столбцов интереса

Когда необходимо получить агрегированные значения для **нескольких столбцов интереса**, синтаксис будет выглядеть так:

``` python
    датафрейм.groupby("столбец группировки")[["ст. интереса 1", "ст. интереса 2", ...]].метод агрегирования()
```

#### Пример
**Задача** - найти среднюю цену за билет и средний возраст людей в разных портах.

В такой формулировке:
- Столбец группировки - порт (`Embarked`)
- Столбцы интереcа - цена за билет (`Fare`) и возраст людей (`Age`)
- Функция аггрегации (статистика) - среднее значение (`mean()`)

In [12]:
df.groupby('Embarked')[['Fare', 'Age']].mean()

Unnamed: 0_level_0,Fare,Age
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,59.954144,30.814769
Q,13.27603,28.089286
S,27.079812,29.445397


### 3. Группировка: несколько функций аггрегации

В pandas также можно применять *несколько методов агрегации* одновременно для одного столбца интереса:

``` python
    датафрейм.groupby("ст. группировки")["ст. интереса"].agg(["метод 1", "метод 2", ...])
```

#### Пример
**Задача** - для каждого порта определить среднюю цену за билет и общую стоимость билетов среди пассажиров.

В такой формулировке:
- Столбец группировки - порт (`Embarked`)
- Столбец интереcа - цена за билет (`Fare`)
- Функции аггрегации (статистики) - среднее значение (`mean()`) и сумма (`sum()`)

In [13]:
df.groupby("Embarked")["Fare"].agg(['mean', 'sum'])

Unnamed: 0_level_0,mean,sum
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,59.954144,10072.2962
Q,13.27603,1022.2543
S,27.079812,17439.3988


# Пример задания из НЭ

Тип - [**C3**](https://edu.hse.ru/course/view.php?id=198011#section-6)

**Задание**

>*Постройте сводную таблицу, где по строкам расположено количество спален (**bedrooms**), а по столбцам — среднее значение жилой площади (**sqft_living**) и среднее значение общей площади (**sqft_lot**) для каждого количества спален. В качестве ответа укажите, сколько спален в домах, где доля жилой площади от общей наибольшая (**sqft_living**/**sqft_lot**). Ответ округлите до двух знаков.*

**Решение**
1. **Группировка** - определяем, что такое столбец (-цы) интереса, столбец группировки и функция аггрегирования:
    - *Столбец группировки* - то, что расположено по строкам, т.е. количество спален (**bedrooms**). Это категории (группы),  внутри которых будем считать какую-то статистика
    - *Столбцы интереса* - то, что расположено по столбцам, т.е. жилая площадь (**sqft_living**) и общая площадь (**sqft_lot**)
    - *Функция аггрегации* - среднее (`.mean()`)
    
    Сгруппированную таблицу сохраняем в отдельную переменную (не переопределяем изначальную таблицу!), т.к. в дальнейшем нам необходимо создать в ней новый признак
2. **Создание нового признака** - в сгруппированной таблице из п.1 находим долю жилой площади от общей для каждой группы (для каждого количества спален **bedrooms**). Это будет новый признак (новый столбец) в сгреппированной таблице - называем как угодно (только не переопределяем существующие столбцы)
3. **Сортировка** - сортируем по убыванию (`ascending=False`) сгруппированную таблицу из п.2 новому признаку и вытаскиваем количество спален из первой строчки. Это и есть количество спален, где доля жилой площади от общей наибольшая

In [1]:
import pandas as pd

# 0. Читаем таблицу 
data = pd.read_csv('train2_C.csv')

# 1. Группировка
data_grouped = data.groupby('bedrooms')[['sqft_living', 'sqft_lot']].mean()

# 2. Создание нового признака
data_grouped['sqft_frac'] = data_grouped['sqft_living'] / data_grouped['sqft_lot']

# 3. Сортировка
data_grouped.sort_values('sqft_frac', ascending=False)

Unnamed: 0_level_0,sqft_living,sqft_lot,sqft_frac
bedrooms,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
9,3775.0,5480.0,0.688869
11,3000.0,4960.0,0.604839
8,3800.0,8971.615385,0.423558
10,3706.666667,8859.666667,0.418375
33,1620.0,6000.0,0.27
7,3974.210526,20840.552632,0.190696
5,3047.545284,16769.022486,0.181737
6,3284.341912,18586.930147,0.176702
4,2554.649666,16720.793374,0.152783
3,1805.837235,14414.790208,0.125277


**Ответ:** 9