# Pandas (Часть 2)

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.3.3` 

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2 pandas==1.3.3` 


## Содержание

* [Условная индексация](#Условная-индексация)
  * [Задание - фильтруем](#Задание---фильтруем)
  * [Задание - еще фильтрации](#Задание---еще-фильтрации)
* [Операции с рядами / Новые колонки](#Операции-с-рядами-/-Новые-колонки)
* [Операции с фреймами](#Операции-с-фреймами)
  * [Переименование колонок / индексов](#Переименование-колонок-/-индексов)
    * [Задание - новые имена](#Задание---новые-имена)
  * [Удаление колонок / строк](#Удаление-колонок-/-строк)
  * [Определение количества NaN](#Определение-количества-NaN)
  * [Заполнение пустых значений](#Заполнение-пустых-значений)
  * [Информация об уникальных значениях](#Информация-об-уникальных-значениях)
  * [Фильтрация](#Фильтрация)
    * [Задание - и еще пофильтруем](#Задание---и-еще-пофильтруем)
  * [Сортировка](#Сортировка)
    * [Задание - снова сортируем](#Задание---снова-сортируем)
* [Разделение данных на категории](#Разделение-данных-на-категории)
  * [Задание - разделим по качеству](#Задание---разделим-по-качеству)
* [Агрегация данных](#Агрегация-данных)
  * [Задание - проще простого среднего](#Задание---проще-простого-среднего)
* [Группировки](#Группировки)
  * [Задание - сгруппируем](#Задание---сгруппируем)


В этом ноутбуке:
- Опять условная индексация? 
- Как просто добавить новую колонку (x['name'] =) или убрать (.drop)
- Подробнее про Nan 
- Уникальные значения (.unique)
- Фильтрация по значению (.filter)
- Сортировка (.sort_values)
- Категоризация (.cut)
- Очень важная "Группировка" (.groupby) - для операций с данными, объединенными по значениям ключевного столбца

In [1]:
import pandas as pd
import numpy as np

## Условная индексация

При работе с данными часто необходимо выбрать часть данных по условному признаку. По аналогии с работой в numpy, применение булевых операторов на ряд данных создаёт такой же по размеру ряд из булевых элементов, представляющих собой маску:

In [2]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.head(3)

Unnamed: 0,x1,x2,x3
0,0,1,7
1,4,4,8
2,4,6,0


In [3]:
df['x1'] > 5

0     False
1     False
2     False
3      True
4      True
5     False
6     False
7     False
8     False
9     False
10     True
11     True
12    False
13    False
14    False
Name: x1, dtype: bool

После того, как маска получена, можно применить её, чтобы выбрать конкретные записи (строки) данных. При этом, индексация маской работает как при использовании `[]`, так и при использовании `.loc[]`.

In [4]:
mask = df['x1'] > 5
df[mask]

# Или df[df['x1'] > 5]

Unnamed: 0,x1,x2,x3
3,9,3,5
4,9,4,7
10,8,1,1
11,8,6,1


Чтобы получить значения, обратные условию, можно воспользоваться оператором НЕ: `~` - он инвертирует маску условия:

In [5]:
df[~(df['x1'] > 5)]

Unnamed: 0,x1,x2,x3
0,0,1,7
1,4,4,8
2,4,6,0
5,0,4,5
6,2,4,1
7,3,2,6
8,0,8,8
9,0,2,1
12,0,3,5
13,5,7,4


> Как и в numpy, для применения нескольких операций необходимо оборачивать каждую в скобки.

### Задание - фильтруем

Выберите записи во фрейме, которые по признаку `x1` имеют значение больше 3, а по признаку `x3` - меньше 8.

In [6]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.head(3)

Unnamed: 0,x1,x2,x3
0,8,8,4
1,4,9,2
2,4,8,0


In [7]:
mask1 = (df['x1'] > 1)|(df['x3'] < 5)
# TODO - отфильтровать фрейм по значениям признаков

In [8]:
df[mask1].loc[:,'x1':'x2']
# TODO - отобразите только колонки x1 и x2 с учетом условий 
#           (используйте .loc[])

Unnamed: 0,x1,x2
0,8,8
1,4,9
2,4,8
3,3,7
4,2,1
5,0,1
6,4,2
7,9,8
8,9,8
9,6,6


### Задание - еще фильтрации

С помощью метода `DataFrame.query()` получите записи, которые соответсвуют условию сравнения колонок $x1 > x3$:

In [9]:
df = pd.DataFrame(
    [[1, 2, 6], [5, 1, 1], [8, 4, 6], [4, 1, 1], [9, 9, 0], [-1, 2, 1], [5, 5, 5]],
    columns = ['x1', 'x2', 'x3']
)
df

Unnamed: 0,x1,x2,x3
0,1,2,6
1,5,1,1
2,8,4,6
3,4,1,1
4,9,9,0
5,-1,2,1
6,5,5,5


In [10]:
df.query('x1 > x3')
# TODO - Методом DataFrame.query() получить записи, удовлетворяющие условию
#           x1 > x3

Unnamed: 0,x1,x2,x3
1,5,1,1
2,8,4,6
3,4,1,1
4,9,9,0


In [11]:
# TODO - Сделать аналогичное действие, но уже с помощью условной индексации

## Операции с рядами / Новые колонки

Работа с фреймами и рядами данных в pandas поддерживает многие операции по аналогии с работой в numpy.

In [12]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.head(3)

Unnamed: 0,x1,x2,x3
0,4,0,5
1,0,9,4
2,0,7,5


In [13]:
# Создать новую колонку можно по аналогии с новым ключём в словаре
# Сложение нескольких Series и запись в новую колонку
df['x1+x2'] = df['x1'] + df['x2']
df.head(3)

Unnamed: 0,x1,x2,x3,x1+x2
0,4,0,5,4
1,0,9,4,9
2,0,7,5,7


In [14]:
# Поэлементное умножение
df['x1*x3'] = df['x1'] * df['x3']
df.head(3)

Unnamed: 0,x1,x2,x3,x1+x2,x1*x3
0,4,0,5,4,20
1,0,9,4,9,0
2,0,7,5,7,0


In [15]:
# Взятие среднего по колонке (метод Series.mean())
df['x1'].mean()

3.933333333333333

In [16]:
# Использование функций numpy для работы с колонками
df['x2_exp'] = np.exp(df['x2'])
df.head(3)

Unnamed: 0,x1,x2,x3,x1+x2,x1*x3,x2_exp
0,4,0,5,4,20,1.0
1,0,9,4,9,0,8103.083928
2,0,7,5,7,0,1096.633158


Как вы заметили, ряды (это же одномерные массивы) можно обрабатывать:
- операциями Python;
- методами класса Series;
- функциями numpy.

> Для создания новой колонки достаточно просто задать имя новой колонки и записать ряд данных (может быть даже одномерным массивом numpy), который имеет такой же размер, куда пишется.

Для случая, если нужной функции нет, то можно создать свою с помощью метода `Series.apply()`, которой передаётся название функции для применения над всем рядом.

In [17]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(3, 3)), 
    columns=['x1', 'x2', 'x3']
)
df

Unnamed: 0,x1,x2,x3
0,8,0,2
1,7,6,5
2,9,4,4


In [18]:
# Обязательно требование к функции - один аргумент
# Эта функция будет передана в apply() и pandas
#   будет вызывать ее и передавать в нее 
#   по одному элементу из ряда
# Возвращать функция должна результат операции над элементом
def my_func(x):
    print(type(x))
    print(x)
    return x*2

df['result'] = df['x1'].apply(my_func)
df

<class 'int'>
8
<class 'int'>
7
<class 'int'>
9


Unnamed: 0,x1,x2,x3,result
0,8,0,2,16
1,7,6,5,14
2,9,4,4,18


Как видно, в функцию передается каждый элемент в ряду, тип элемента соответсвует типу колонки. Результат метода `.apply()` - новый ряд с примененной функцией.

## Операции с фреймами

### Переименование колонок / индексов

Одной из полезных функций является возможность переименования имён колонок. Для этого имеется метод `DataFrame.rename()`:

In [19]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.head(3)

Unnamed: 0,x1,x2,x3
0,0,0,7
1,0,0,0
2,9,9,8


In [20]:
# Методу передается в аргумент columns словарь, 
#   в котором ключи - имена колонок,
#   значения - новые имена для переименования
df.rename(
    columns={
        'x1': 'new_name_for_x1',
        'x3': 'that_not_x3' 
    },
    inplace=True
)
df.head(3)

Unnamed: 0,new_name_for_x1,x2,that_not_x3
0,0,0,7
1,0,0,0
2,9,9,8


> Аргумент `inplace` является достаточно распространённым в методах фреймов. Этот аргумент управляет тем, как произвести операцию: прямо в этом объекте (при установленном True) или вернуть результатом новый фрейм с произведенной операцией (при установленном False).

Для сравнения аналогичный код без `inplace` выглядел бы так:
```python
df_renamed = df.rename(columns={
    'x1': 'new_name_for_x1',
    'x3': 'that_not_x3'
})
df_renamed
```

Для переименования индексов (названий записей) используется тот же принцип, но словарь передаётся в аргумент `index` с ключами - исходными названиями индексов, значениями - новыми значениями.

#### Задание - новые имена

Переименуйте индексы и колонки во фрейме

In [21]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 3)), 
    index=['A', 'B', 'C', 'D', 'E'], 
    columns=['x1', 'x2', 'x3']
)
df

Unnamed: 0,x1,x2,x3
A,7,6,9
B,0,3,1
C,7,8,4
D,4,0,1
E,0,3,4


In [22]:
df.rename(
    index={
        'A': 'indA',
        'C': 'indC' 
    },
    columns={
        'x1': 'new1',
        'x3': 'new3' 
    },
    inplace=True
)
df
# TODO - переименуйте индексы [A, C] -> [indA, indC] 
#           и колонки [x1, x3] -> [new1, new3]

Unnamed: 0,new1,x2,new3
indA,7,6,9
B,0,3,1
indC,7,8,4
D,4,0,1
E,0,3,4


### Удаление колонок / строк

Данную операцию можно произвести двумя способами:

1. Выбрать колонки, которые необходимо оставить, простой индексацией;

2. Метод `DataFrame.drop()`.

In [23]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(15, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.head(3)

Unnamed: 0,x1,x2,x3
0,6,3,4
1,7,8,0
2,2,7,9


In [24]:
df.drop(columns=['x2'], inplace=True)
df.head(3)

Unnamed: 0,x1,x3
0,6,4
1,7,0
2,2,9


### Определение количества NaN

В данных часто бывают пропуски (NaN), при этом на первых этапах анализа важно понять их количество по каждому признаку. Для этого можно воспользоваться методом `DataFrame.isna()`, который создаст двумерный булевый фрейм, отвечающий на вопрос "является ли значение NaN?". После этого над всем фреймом можно применить метод `DataFrame.sum()`, который вернет ряд (Series) с количеством элементов True в булевом фрейме (элементов NaN в основном фрейме). 

Кодировка "пустых значений" в исходном файле обычно показывается либо константой с неподходящим значением (например -1 для возраста), либо пропуском.

In [25]:
df = pd.DataFrame(
    data=np.random.randint(0, 10, size=(5, 3)), 
    columns=['x1', 'x2', 'x3']
)
df.iloc[0, :2] = np.nan
df.iloc[2, 1:] = np.nan

df

Unnamed: 0,x1,x2,x3
0,,,2.0
1,4.0,1.0,7.0
2,5.0,,
3,8.0,2.0,3.0
4,5.0,9.0,7.0


In [26]:
df.isna()

Unnamed: 0,x1,x2,x3
0,True,True,False
1,False,False,False
2,False,True,True
3,False,False,False
4,False,False,False


In [27]:
df.isna().sum()

x1    1
x2    2
x3    1
dtype: int64

### Заполнение пустых значений

Техники заполнения пустых значений имеют разнообразное представление, но одним из простых методов является заполнение константой. Для этого ряд данных имеет метод `Series.fillna()`, в который можно передать значение и вместо NaN элементов будет поставлена константа, указанная в аргументах.

In [28]:
df

Unnamed: 0,x1,x2,x3
0,,,2.0
1,4.0,1.0,7.0
2,5.0,,
3,8.0,2.0,3.0
4,5.0,9.0,7.0


In [29]:
df['x2'].fillna(3, inplace=True)
df

Unnamed: 0,x1,x2,x3
0,,3.0,2.0
1,4.0,1.0,7.0
2,5.0,3.0,
3,8.0,2.0,3.0
4,5.0,9.0,7.0


### Информация об уникальных значениях

При работе с категориальными данными полезна информация об уникальных значениях признака, поэтому важно понимать, как проверить их количество:

In [30]:
df = pd.DataFrame({
    'col1': ['high', 'high', 'low', 'med', 'low', 'low', 'med', 'low', 'low', 'high'],
    'col2': [0, 1, 1, 2, 3, 1, 1, 2, 2, 2]
})
df

Unnamed: 0,col1,col2
0,high,0
1,high,1
2,low,1
3,med,2
4,low,3
5,low,1
6,med,1
7,low,2
8,low,2
9,high,2


In [31]:
# Метод DataFrame.nunique() позволяет вывести 
#   количество уникальных значений в каждой колонке
# Результат - Series с индексами - названиями колонок
df.nunique()

col1    3
col2    4
dtype: int64

In [32]:
# Метод Series.value_counts() показывает уникальные значения в ряду
#   и указывает их количество
df['col1'].value_counts()

low     5
high    3
med     2
Name: col1, dtype: int64

In [33]:
# Результат - Series с индексами - уникальными значениями
df['col2'].value_counts()

1    4
2    4
0    1
3    1
Name: col2, dtype: int64

### Фильтрация

Метод `DataFrame.filter()` позволяет отфильтровать и выбрать только те колонки/записи, котрые соответствуют условию, заданному в аргументах:

In [34]:
df = pd.DataFrame(np.array(([1, 2, 3], [4, 5, 6])),
                  index=['mouse', 'rabbit'],
                  columns=['col_one', 'col_two', 'col_three'])
df

Unnamed: 0,col_one,col_two,col_three
mouse,1,2,3
rabbit,4,5,6


In [35]:
# Отфильтровать по именам колонок
# Аналогично df[['col_one', 'col_three']]
df.filter(items=['col_one', 'col_three'], axis='columns')

Unnamed: 0,col_one,col_three
mouse,1,3
rabbit,4,6


In [36]:
# Отфильтровать по регулярному выражению
# Оставить только те колонки, которые оканчиваются на букву "o"
df.filter(regex='o$', axis='columns')

Unnamed: 0,col_two
mouse,2
rabbit,5


#### Задание - и еще пофильтруем

Отфильруйте записи по строке, содержащейся в имени индекса (аргумент `like`):

In [37]:
df = pd.DataFrame(np.array(([1, 2, 3], [4, 5, 6], [7, 8, 9])),
                  index=['dog in house', 'cat in house', 'pig in farm'],
                  columns=['x1', 'x2', 'x3'])
df

Unnamed: 0,x1,x2,x3
dog in house,1,2,3
cat in house,4,5,6
pig in farm,7,8,9


In [38]:
df.filter(like='house',axis='index')
# TODO - отфильтруйте по записям, должны остаться записи, 
#           индекс которых содержит слово "house"

Unnamed: 0,x1,x2,x3
dog in house,1,2,3
cat in house,4,5,6


### Сортировка

Всегда полезно знать, как отсортировать данные, для этого мы воспользуемся методом `DataFrame.sort_values()`:

In [39]:
df = pd.DataFrame({
    'col1': ['A', 'A', 'B', np.nan, 'D', 'C'],
    'col2': [2, 1, 9, 8, 7, 4],
    'col3': [0, 1, 9, 4, 2, 3],
    'col4': ['a', 'B', 'c', 'D', 'e', 'F']
}, index=['A', 'B', 'C', 'D', 'E', 'F'])
df

Unnamed: 0,col1,col2,col3,col4
A,A,2,0,a
B,A,1,1,B
C,B,9,9,c
D,,8,4,D
E,D,7,2,e
F,C,4,3,F


In [40]:
# Отсортируем записи колонки col2
# Именно поэтому в axis ставится rows, так как
#   операция производится в колонке по каждому ряду
df.sort_values(by='col2', axis='rows')

Unnamed: 0,col1,col2,col3,col4
B,A,1,1,B
A,A,2,0,a
F,C,4,3,F
E,D,7,2,e
D,,8,4,D
C,B,9,9,c


#### Задание - снова сортируем

Отсортируйте данные:

In [41]:
df = pd.DataFrame(
    np.random.randint(0, 20, size=(5, 5)), 
    columns=['col1', 'col2', 'col3', 'col4', 'col5']
)
df

Unnamed: 0,col1,col2,col3,col4,col5
0,17,5,11,4,9
1,15,2,17,16,19
2,12,12,0,18,7
3,1,10,15,5,6
4,14,5,13,14,6


In [42]:
df.sort_values(by='col3', ascending=False, axis='rows')
# TODO - отсортируйте данные индекса 3 по убыванию

Unnamed: 0,col1,col2,col3,col4,col5
1,15,2,17,16,19
3,1,10,15,5,6
4,14,5,13,14,6
0,17,5,11,4,9
2,12,12,0,18,7


## Разделение данных на категории

В ходе работы с данными часто бывает необходимо диапазон числовой переменной разбить на несколько групп (категорий). Например, заменить числовой диапазон температур воды $[-10; 60]$ на три категории $[низкая, средняя, высокая]$. Для таких целей используется функция `pd.cut()`:

In [43]:
df = pd.DataFrame({
    'temp': [59, 22, -10, 38, 20, 40, 38, 47, 20, 15, 13, 44, 57, 32, 38]
})
df.head()

Unnamed: 0,temp
0,59
1,22
2,-10
3,38
4,20


In [44]:
# Можно задать свои границы диапазона и названия категорий
# Если планируется три категории, то границ должно быть на одну больше - 
#   так задаются диапазоны для категорий
df['temp_cat'] = pd.cut(
    x=df['temp'],
    bins=[-10, 10, 25, 60],
    labels=['low', 'medium', 'high'],
    # Флаг, чтобы самое левое значение границы входило в первый диапазон
    include_lowest=True
)
df.head()

Unnamed: 0,temp,temp_cat
0,59,high
1,22,medium
2,-10,low
3,38,high
4,20,medium


In [45]:
# Результат разделения имеет категориальный тип
df['temp_cat'].dtype

CategoricalDtype(categories=['low', 'medium', 'high'], ordered=True)

In [46]:
# Можно не задавать имена категориям, тогда он сам их назовёт
result_after_cut = pd.cut(
    x=df['temp'],
    bins=[-10, 10, 25, 60],
    include_lowest=True
)
# Взглянем на имена
result_after_cut.unique()

[(25.0, 60.0], (10.0, 25.0], (-10.001, 10.0]]
Categories (3, interval[float64, right]): [(-10.001, 10.0] < (10.0, 25.0] < (25.0, 60.0]]

In [47]:
# Можно не задавать границы, лишь количество категорий - 
#   разделение будет на категории с одинаковой шириной диапазонов
result_after_cut = pd.cut(
    x=df['temp'],
    bins=3
)
result_after_cut.unique()

[(36.0, 59.0], (13.0, 36.0], (-10.069, 13.0]]
Categories (3, interval[float64, right]): [(-10.069, 13.0] < (13.0, 36.0] < (36.0, 59.0]]

### Задание - разделим по качеству

Разделите показатель качества в диапазоне $[0, 100]$ на четыре группы: 

* плохое $[0-20]$, 

* среднее $(20-45]$, 

* хорошее $(45-85]$, 

* отличное $(85-100]$. 

Выясните, что происходит со значениями, которые не попадают в диапазоны категорий:

In [48]:
df = pd.DataFrame({
    'quality': [ 7, 67, 21, 38,  2, -2, 79, 22,  5, 31, 77, 72, 23, 64, 99]
})
df.head()

Unnamed: 0,quality
0,7
1,67
2,21
3,38
4,2


In [49]:
df['Category'] = pd.cut(
    x=df['quality'],
    bins=[0, 20, 45, 85, 100],
    labels=['плохо', 'средне', 'хорошее','отличное'],
    # Флаг, чтобы самое левое значение границы входило в первый диапазон
    include_lowest=True
)
df
# TODO - разделите данные на категории
# TODO - определите, какие записи не имеют категорий и почему
# Потому что значение этих записей не входит ни в один из диапазонов

Unnamed: 0,quality,Category
0,7,плохо
1,67,хорошее
2,21,средне
3,38,средне
4,2,плохо
5,-2,
6,79,хорошее
7,22,средне
8,5,плохо
9,31,средне


## Агрегация данных

Агрегация данных - объединение группы данных для получения информации. Примерами операций аргегации являются: сумма, среднее, максимум, минимум.

В pandas агрегация может быть выполнена путем метода `DataFrame.aggregate()`:

In [50]:
df = pd.DataFrame([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [np.nan, np.nan, np.nan]],
                  columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1.0,2.0,3.0
1,4.0,5.0,6.0
2,7.0,8.0,9.0
3,,,


In [51]:
# Получим значения минимумов и средних по всем колонкам
# Принцип аналогичен операциям в numpy - 
#   для агрегации по колонка операция должна пройти по рядам,
#   соответсвенно, axis='rows'
df.aggregate(['min', 'mean'], axis='rows')

Unnamed: 0,A,B,C
min,1.0,2.0,3.0
mean,4.0,5.0,6.0


In [52]:
# Зададим правила агрегации для каждой колонки
# Операции можно задавать строками или функциями numpy
df.aggregate({
    'A': ['sum', 'min'],
    'B': ['max', 'min'],
    'C': [np.sum, np.mean],
})

Unnamed: 0,A,B,C
sum,12.0,,18.0
min,1.0,2.0,
max,,8.0,
mean,,,6.0


### Задание - проще простого среднего

Произведите агрегацию средним по рядам

In [53]:
df = pd.DataFrame(
    ([1, 2, 3], [4, 5, 6], [7, 8, 9]), 
    columns=['x1', 'x2', 'x3'])
df

Unnamed: 0,x1,x2,x3
0,1,2,3
1,4,5,6
2,7,8,9


In [54]:
df.aggregate('mean')
# TODO - произведите агрегацию по рядам (найти среднее)

x1    4.0
x2    5.0
x3    6.0
dtype: float64

## Группировки

Игры закончились - начались серьёзные вещи. Группировки это один из сильнейших инструментов, которые позволяют вытаскивать из данных полезную информацию!

Для понимания разберём пример: допустим, у нас есть база данных студентов с 1 по 4 курсы. Одна из колонок будет иметь в качестве значения номер курса и так как количество допустимых значений ограничено - то правильно считать эту колонку категориальной. Другая колонка - оценка за общий университетский тест (все курсы его проходили). Третьей колонкой будет время выполнения:

In [55]:
data = [
    [1, 4.7, 60],
    [3, 4.5, 45],
    [4, 4.8, 40],
    [1, 4.9, 58],
    [2, 4.1, 50],
    [2, 4.2, 49],
    [2, 4.4, 49],
    [3, 4.9, 46],
    [4, 4.3, 33],
]

stud_df = pd.DataFrame(data, columns=['Grade', 'Test_Mark', 'Time'])
stud_df

Unnamed: 0,Grade,Test_Mark,Time
0,1,4.7,60
1,3,4.5,45
2,4,4.8,40
3,1,4.9,58
4,2,4.1,50
5,2,4.2,49
6,2,4.4,49
7,3,4.9,46
8,4,4.3,33


Теперь представим, что мы сложим каждый курс в свою корзинку путем группировки:


In [56]:
gr_stud_df = stud_df.groupby(by='Grade')

# Тип результата - pd.DataFrameGroupBy
print(type(gr_stud_df))

# Таким образом увидим словарь:
#   Ключи - названия групп
#   Значения - индексы из данных для группы
gr_stud_df.groups

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


{1: [0, 3], 2: [4, 5, 6], 3: [1, 7], 4: [2, 8]}

После того, как мы сложили записи по группам, мы можем вычислить, например, среднее значение в каждой группе:

In [57]:
gr_stud_df.agg('mean')

Unnamed: 0_level_0,Test_Mark,Time
Grade,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4.8,59.0
2,4.233333,49.333333
3,4.7,45.5
4,4.55,36.5


В результате, мы смогли вычислить среднюю оценку за тест по каждому курсу! И для этого нам потребовалось всего два метода! Ручным вариантом нам бы пришлось создавать контейнеры, складывать в них значения и потом вычислять средние значения...

Резюмируя, группировка - это размещение данных по группам уникальных значений признака, по которому группируется. После группировки можно произвести агрегацию данных в каждой группе.

In [58]:
# Более сложный вариант - найдем средние и минимальные время и оценку 

gr_stud_df.agg(['mean', 'min'])

Unnamed: 0_level_0,Test_Mark,Test_Mark,Time,Time
Unnamed: 0_level_1,mean,min,mean,min
Grade,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,4.8,4.7,59.0,58
2,4.233333,4.1,49.333333,49
3,4.7,4.5,45.5,45
4,4.55,4.3,36.5,33


In [59]:
# Или зададим правила для каждого признака по отдельности

res = gr_stud_df.agg({
    'Test_Mark': ['mean', 'min'],
    'Time': ['min']
})

print(type(res))
res

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0_level_0,Test_Mark,Test_Mark,Time
Unnamed: 0_level_1,mean,min,min
Grade,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,4.8,4.7,58
2,4.233333,4.1,49
3,4.7,4.5,45
4,4.55,4.3,33


In [60]:
# Для обращения к данным просто используем несколько индексов, 
#   так как это DataFrame
res['Test_Mark']['mean']

Grade
1    4.800000
2    4.233333
3    4.700000
4    4.550000
Name: mean, dtype: float64

### Задание - сгруппируем

Сгруппируйте данные по признаку x2 и найдите медиану и максимальное значения по признакам x1, x3:

In [61]:
df = pd.DataFrame({
    'x1': np.random.randint(10, 100, size=(200, )),
    'x2': np.random.choice(['low', 'high', 'medium'], size=(200, )),
    'x3': np.random.randint(-20, 30, size=(200, )),
})
df.head()

Unnamed: 0,x1,x2,x3
0,12,low,23
1,46,high,-9
2,72,medium,-6
3,64,medium,-11
4,70,high,21


In [62]:
gr_df = df.groupby(by='x2')
gr_df.groups
gr_df.agg(['mean', 'max'])
# TODO - произведите групировку данных
#           и получите средние и максимальные значения по каждой группе

Unnamed: 0_level_0,x1,x1,x3,x3
Unnamed: 0_level_1,mean,max,mean,max
x2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
high,56.1875,99,4.140625,29
low,64.791045,99,5.373134,27
medium,53.101449,97,2.594203,29
