# **Семинар 4. Группировка**

#### <i>Малкова Ксения, Преподаватель ФКН НИУ ВШЭ</i>

На данном семинаре мы познакомимся с **группировкой** данных. Группировка позволяет объединять данные по определенным признакам и применять к ним различные **агрегирующие функции**. 

Представьте, что мы провели онлайн-опрос среди пользователей по оценке качества контента. Теперь мы хотим узнать, *как оценки различаются по возрастным категориям*. С помощью **группировки** данных мы можем *разделить ответы на группы по возрастам* и посчитать *среднее значение оценки в каждой группе*. Кроме того, группировка позволяет выявить минимальные и максимальные оценки в каждой категории, а также другие статистики, чтобы лучше понять, как разные возрастные группы реагируют на контент.

Но обо всем - по порядку! 🤗

Мы будем работать с привычным датасетом `Titanics.csv`, и для начала, также привычным образом, импортируем `pandas` и прочитаем таблицу. 

In [2]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/aaparshina/FCI_22-23_data_analysis/main/data/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## **Методы агрегирования данных**

**Функция агрегирования (аггрегации)** - это функция, которая принимает несколько отдельных значений и возвращает одно обобщенное (аггрегированное) значение.

**Основные функции аггрегации**

|     | Описание                                                 | Синтаксис в pandas                     |
|-------------|----------------------------------------------------------|----------------------------------------|
| **Среднее**    | Вычисляет среднее значение группы чисел.                | `df['column_name'].mean()`            |
| **Сумма**     | Складывает все значения группы чисел.                        | `df['column_name'].sum()`             |
| **Минимум**     | Находит наименьшее значение группы чисел.                   | `df['column_name'].min()`             |
| **Максимум**     | Находит наибольшее значение группы чисел.                   | `df['column_name'].max()`             |
| **Количество**   | Подсчитывает количество непропущенных значений в группе чисел.              | `df['column_name'].count()`           |
| **Количество уникальных значений** | Подсчитывает количество уникальных значений в группе.   | `df['column_name'].nunique()`         |

❗️Разные функции агрегации предназначены для **различных типов данных**. Поэтому перед использованием той или иной функции обязательно убедитесь, что выбранный вами признак соответствует необходимому типу данных для применения этой функции
- **Числовые непрерывные** признаки - `mean()`, `min()`, `max()`, `sum()`, `count()`
- **Числовые дискретные** признаки - `mean()`, `min()`, `max()`, `sum()`, `count()`, `nunique()`
- **Категориальные** (номинальные и порядковые) признаки - `count()`, `nunique()`

In [5]:
# Посмотрим на наши данные
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### 1. **Среднее значение** - `.mean()`
- Вычисляется для **числовых** (как непрерывных, так и дискретных) признаков

In [6]:
df['Fare'].mean()

np.float64(32.204207968574636)

### 2. **Сумма** - `.sum()`
- Вычисляется для **числовых** (как непрерывных, так и дискретных) признаков

In [7]:
df['Fare'].sum()

np.float64(28693.9493)

### 3. **Минимум и максимум** - `.min()` and `.max()`
- Вычисляется для **числовых** (как непрерывных, так и дискретных) признаков

In [8]:
df['Fare'].min()

np.float64(0.0)

In [9]:
df['Fare'].max()

np.float64(512.3292)

### 4. **Общее количество** - `.count()`
- Вычисляется для любых признаков
- Возвращает количество **не**пропущенных значений

In [11]:
df['Cabin'].count()

np.int64(204)

In [12]:
df['Fare'].count()

np.int64(891)

### 5. **Количество уникальных значений** - `.nunique()`
- Вычисляется для **числовых дискретных** и **категориальных** признаков
- Если призутствуют пропущенные значения - также считаются за уникальное значение. Например, если признак содержит три категории 'one', 'second' и 'third', но есть еще и пропущенные значения, `.nunique()` вернет 4.

Сами уникальные значения можно посмотреть с помощью функции аггрегации `unique()`:

In [16]:
df['Pclass'].unique()

array([3, 1, 2])

Их количество (длина массива, возвращаемого `unique()`) и отображается в `nunique()`:

In [17]:
df['Pclass'].nunique()

3

## **Группировка данных** `.groupby()`

### Простейшая группировка


``` python
    датафрейм.groupby("столбец группировки")["столбец интереса"].метод агрегирования()
```

Столбец группировки:
- Категориальные переменные

Столбец интереса:
- Количественные переменные
- Категориальные переменные

Найдем среднюю цену за билет в разных портах:

In [None]:
df.groupby("Embarked")["Fare"].mean()

Embarked
C    59.954144
Q    13.276030
S    27.079812
Name: Fare, dtype: float64

### Несколько столбцов интереса

``` python
    датафрейм.groupby("столбец группировки")[["ст. интереса 1", "ст. интереса 2", ...]].метод агрегирования()
```

Найдем среднюю цену за билет и среднй возраст людей в разных портах:

In [None]:
df.groupby('Embarked')[['Fare', 'Age']].mean()

Unnamed: 0_level_0,Fare,Age
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,59.954144,30.814769
Q,13.27603,28.089286
S,27.079812,29.445397


### Несколько методов агрегирования

``` python
    датафрейм.groupby("ст. группировки")["ст. интереса"].agg(["метод 1", "метод 2", ...])
```

In [None]:
df.groupby("Embarked")["Fare"].agg(['mean', 'sum'])

Unnamed: 0_level_0,mean,sum
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,59.954144,10072.2962
Q,13.27603,1022.2543
S,27.079812,17439.3988
