# Задание 4 (Контрольные вопросы)
## Тема: Агрегирование данных

### Настройка окружения

In [3]:
import pandas as pd

### 1. Назвать и охарактеризовать этапы анализа данных в схеме «разделение – применение – объединение»

Схема «разделение – применение – объединение» (*Split-Apply-Combine*) включает три основных этапа:

- **Разделение (*Split*)**: данные разбиваются на группы на основе значений столбцов или уровней индекса.

- **Применение (*Apply*)**: к каждой группе применяется агрегирующая, преобразующая или фильтрующая функция.

- **Объединение (*Combine*)**: полученные результаты объединяются в новый DataFrame или Series.

### 2. Группировка по значениям отдельного столбца

In [18]:
students = pd.DataFrame(
    {
        "gender": ["male", "female", "male", "female", "male", "female"],
        "math_score": [80, 85, 90, 95, 75, 88],
    }
)

grouped_by_gender = students.groupby("gender")
grouped_by_gender.size()

gender
female    3
male      3
dtype: int64

### 3. Просмотр результатов группировки

- с использованием собственной функции;

In [6]:
from pandas.core.groupby.generic import DataFrameGroupBy


def print_groups(groupby: DataFrameGroupBy) -> None:
    for name, group in groupby:
        print(name)
        print(group.head(3))


print_groups(grouped_by_gender)

female
   gender  math_score
1  female          85
3  female          95
5  female          88
male
  gender  math_score
0   male          80
2   male          90
4   male          75


- встроенные методы;

In [15]:
grouped_by_gender.head()

Unnamed: 0,gender,math_score
0,male,80
1,female,85
2,male,90
3,female,95
4,male,75
5,female,88


In [16]:
grouped_by_gender.size()

gender
female    3
male      3
dtype: int64

### 4. Группировка по нескольким столбцам

In [19]:
grouped_by_gender_and_score = students.groupby(["gender", "math_score"])

grouped_by_gender_and_score.size()

gender  math_score
female  85            1
        88            1
        95            1
male    75            1
        80            1
        90            1
dtype: int64

### 5. Группировка по уровням индекса

In [23]:
indexed_students = students.set_index(["gender", "math_score"])

indexed_students.groupby(level="gender").size()

gender
female    3
male      3
dtype: int64

### 6. Применение агрегирующих функций, преобразований и фильтров

#### 6.1. Применение агрегирующих функций к группам

In [24]:
students.groupby("gender").agg({"math_score": ["mean", "max", "min"]})

Unnamed: 0_level_0,math_score,math_score,math_score
Unnamed: 0_level_1,mean,max,min
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,89.333333,95,85
male,81.666667,90,75


#### 6.2. Преобразование групп данных

In [25]:
students.groupby("gender")["math_score"].transform(lambda x: (x - x.mean()) / x.std())

0   -0.218218
1   -0.844441
2    1.091089
3    1.104269
4   -0.872872
5   -0.259828
Name: math_score, dtype: float64

### 7. Заполнение пропущенных значений групповым средним

In [26]:
students.groupby("gender")["math_score"].transform(lambda x: x.fillna(x.mean()))

0    80
1    85
2    90
3    95
4    75
5    88
Name: math_score, dtype: int64

### 8. Вычисление нормализованных z-значений с помощью преобразования

In [27]:
students.groupby("gender")["math_score"].transform(lambda x: (x - x.mean()) / x.std())

0   -0.218218
1   -0.844441
2    1.091089
3    1.104269
4   -0.872872
5   -0.259828
Name: math_score, dtype: float64

### 9. Исключение групп из процедуры агрегирования

In [34]:
students.groupby("gender").filter(lambda x: x["math_score"].max() > 90)

Unnamed: 0,gender,math_score
1,female,85
3,female,95
5,female,88


#### Экспорт в html

In [35]:
from os import system

system("jupyter nbconvert --to html task_4.ipynb")

[NbConvertApp] Converting notebook task_4.ipynb to html
[NbConvertApp] Writing 306181 bytes to task_4.html


0