# Обработка данных:  сортировки, фильтрация и группировка в Pandas

## 1. Статистика в DataFrame

Для дальнейшего изучения будем использовать датасет "Абитуриент":

In [2]:
import pandas as pd
import numpy as np

data = pd.read_csv(r"abiturient_fix.csv",
                   encoding="cp1251",
                   sep=";",
                  decimal=",")

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12352 entries, 0 to 12351
Data columns (total 24 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   №                        12352 non-null  int64  
 1   ЛД                       12352 non-null  object 
 2   ФИО                      12352 non-null  object 
 3   Статус                   12352 non-null  object 
 4   Приориетет               12352 non-null  object 
 5   Рейтинг                  12352 non-null  float64
 6   Факультет                12352 non-null  object 
 7   Форма обучения           12352 non-null  object 
 8   Период обучения          12352 non-null  object 
 9   Срок обучения            12352 non-null  object 
 10  Курс                     12352 non-null  object 
 11  Код Специальности        12352 non-null  object 
 12  Специальность            12352 non-null  object 
 13  Образовательный уровень  12352 non-null  object 
 14  Комиссия              

В датасете **НЕ ИСПОЛЬЗУЮТСЯ** реальные персональные данные, они рандомизированы.

Дадим краткую харакеристику датасету:

|№|Имя столбца|Содержание столбца|
|:-|:-|:-|
|0|№|Уникальный номер записи в базе данных. Можно использовать для идентификации записи вместо индекса. Это номер заявления|
|1|ЛД|Номер личного дела. Уникальный идентификатор абитуриента. У каждого абитуриента одно личное дело, но в нем может быть несколько заявлений|
|2|ФИО|Фамилия, имя и отчество абитуриента. **Рандомизированы**|
|3|Статус|Статус завяления. Статус "В приказ" означает, что абитуриент зачислен по данному заявлению. В личном деле может быть лишь одно заявление с этим статусом|
|4|Приоритет|Используется при зачислении по нескольким заявлениям. Высший приоритет - первый|
|5|Рейтинг|Вычисляемый системой при подаче заявлений конкурсный балл|
|6|Факультет|Факультет, на котором находится специальность, на которую подано заявление|
|7|Форма обучения|Одна из трёх форм обучения. На разных специальностях могут быть разные формы обучения|
|8|Период обучения|Один из трёх периодов обученияl|   |ect
|9|Срок обучения|Время обучения на избранной специальности|
|11|Курс|Курс зачисления. Обычно это первый курс, но в случае перевода или восстановления студента может быть любой, кроме первого|
|11|Код Специальности|Шифровой код специальности|
|12|Специальность|Наименование специальности с профилем обучения|
|13|Образовательный уровень|Один из трех образовательных уровней|
|14|Комиссия|Подкомиссия приёмной комиссии, осуществляющая приём на данный образовательный уровень или переводы и восстановление студентовo|
|15|Тип док. об обр.|Документ о ранее полученном образовании, на базе которого осуществляется поступление|
|16|Ср. балл|Средний балл в документе о предыдущем образовании|
|17|Награды|Наличие особых заслуг при равенстве баллов3|
|18|Оригинал|Наличие оригинала документа об образовании. При его отсутствии абитуриент не допускается к конкурсу|
|19|Коментарии|Технические замечания сотрудника ПК при отклонении завяления (опционально)|
|20|Бюджет|Наличие права на зачисление на бюджетные места|
|21|Общий конкурс|Участие в конкурсе на общих основаниях|
|22|Целевой конкурс|Участие в целевом конкурсе|
|23|Дата создания|Дата создания заявления|

Конкретные значения можно просмотреть через индек столбца:

In [None]:
data['ЛД']

0          825ПВ
1          826ПВ
2          827ПВ
3          828ПВ
4          829ПВ
          ...   
12347    14050БС
12348    14051БС
12349    14052БС
12350      4620У
12351    14053БС
Name: ЛД, Length: 12352, dtype: object

Но в случае больших датасетов это представление не даёт полного представления о данных. Для этого можно воспользоваться свойством `.values`:

In [None]:
data['ЛД'].values

array(['825ПВ', '826ПВ', '827ПВ', ..., '14052БС', '4620У', '14053БС'],
      dtype=object)

а для повторяющихся значений - методами `.unique()` и `.value_counts()`:

In [None]:
data['Факультет'].unique()

array(['Юрфак', 'Физтех', 'Истфак', 'ФМИТ', 'Экономфак', 'Учфин',
       'Филфак', 'Биофак', 'Химфак', 'УНИЭК', 'ИФКС', 'Пединститут',
       'ФИЯ', 'ФДиПО', 'ГУКЦ', 'ЕУКЦ'], dtype=object)

In [None]:
data['Факультет'].value_counts()

Факультет
Пединститут    2229
Экономфак      1762
Филфак         1557
ИФКС           1357
Юрфак          1114
Учфин           763
ФИЯ             722
Физтех          698
Истфак          666
ФМИТ            626
Биофак          390
ФДиПО           170
Химфак          133
УНИЭК           130
ГУКЦ             20
ЕУКЦ             15
Name: count, dtype: int64

Первичная обработка данных предполагает применение упорядочения по отдельным показателям, фильтрации по значениям, группировки по критериям.

Некоторые стандартные статистические характеристики датасетов предоставляются `Pandas` встроенными функциями:

|Метод|Назначение|
|:-:|:-|
|`.sum()`|Подсчитывает сумму элементов|
|`.count()`|Подсчитывает количество элементов|
|`.min()`|Находит минимальный элемент|
|`.max()`|Находит максимальный элемент|
|`.mean(skipna=True`)|возвращает среднюю величину для каждого столбца, пропуск `NaN` (по умолчанию `True`)
|`.median(skipna=True)`|возвращает медиану для каждого столбца, пропуск `NaN` (по умолчанию `True`)
|`.mode(dropna=True)`|возвращает медиану для каждого столбца, пропуск `NaN`
|`.var()`|возвращает дисперсию
|`.std()`|возвращает стандартное отклонение
|`.diff()`|возвращает абсолютную разность индексируемых значений
|`.unique()`|возвращает список уникальных значений
|`.value_counts()`|подсчитывает количество каждого уникального значения
|`.describe()`|дает расширенное описание


In [3]:
data['Рейтинг'].describe()

Unnamed: 0,Рейтинг
count,12352.0
mean,81.492247
std,15.647283
min,0.87
25%,74.56
50%,83.9
75%,91.42
max,136.26


In [None]:
data['Рейтинг'].sum()

1006592.24

Иногда в процессе обработки требуется отобрать данные по какому либо критерию, иными словами, осуществить фильтрацию данных.

Отберем данные о зачисленных абитуриентах на основании статуса заявления:

In [None]:
data['Статус'].unique()

array(['В приказ', 'Отказ', 'Отклонено', 'Отменено', 'Отчислен',
       'Задержано', 'Аннулировано', 'Допущено', 'В приказ по квоте'],
      dtype=object)

Абитуриенты, которые были зачислены, имеют статус заявления "В приказ":

In [None]:
data['Статус'] == "В приказ"

0        True
1        True
2        True
3        True
4        True
         ... 
12347    True
12348    True
12349    True
12350    True
12351    True
Name: Статус, Length: 12352, dtype: bool

Это бинарный массив. Если его использовать для индексации датасета (так называемое логическое индексирование), то получим только те строки, для которых в бинарном массиве будет `True`:

In [None]:
data[data['Статус'] == "В приказ"]

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,Рейтинг,Факультет,Форма обучения,Период обучения,Срок обучения,...,Комиссия,Тип док. об обр.,Ср. балл,Награды,Оригинал,Коментарии,Бюджет,Общий конкурс,Целевой конкурс,Дата создания
0,28863,825ПВ,Иннокентиевская Виктория Дмитриeвна,В приказ,Первый,84.54,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,95.08,без отличия,нет,,нет,да,нет,09.01.2019 9:33
1,28864,826ПВ,Серафимова Ирина Ивановна,В приказ,Первый,73.00,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,72.00,без отличия,да,,нет,да,нет,09.01.2019 15:15
2,28865,827ПВ,Кондратенко Зинаида Трофимовна,В приказ,Первый,75.00,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,4.00,без отличия,нет,,нет,да,нет,10.01.2019 14:41
3,28866,828ПВ,Андреевский Андрей Игнатович,В приказ,Первый,72.30,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,71.60,без отличия,да,,нет,да,нет,10.01.2019 15:08
4,28867,829ПВ,Кондратовский Петр Тимофеeвич,В приказ,Первый,85.00,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,5.00,без отличия,да,,нет,да,нет,10.01.2019 15:37
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12347,41392,14050БС,Терентиевич Ирина Ивановна,В приказ,Первый,66.88,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,Бакалавры/Специалисты,Диплом квалифицированного работника,4.57,без отличия,да,,да,нет,да,08.10.2019 14:51
12348,41393,14051БС,Петровский Алексей Кондратович,В приказ,Первый,70.28,Пединститут,заочная,Нормативный,5 лет 00 мес.,...,Бакалавры/Специалисты,Аттестат о среднем общем образовании,4.42,без отличия,да,,нет,да,нет,08.10.2019 14:56
12349,41394,14052БС,Семенова Инна Алексеeвна,В приказ,Первый,96.02,ФМИТ,заочная,Нормативный,5 лет 00 мес.,...,Бакалавры/Специалисты,Аттестат о среднем общем образовании,4.88,без отличия,да,,да,да,нет,08.10.2019 15:09
12350,41397,4620У,Петренко Лидия Петровна,В приказ,Первый,71.80,Экономфак,заочная,Ускоренный,2 года 6 мес.,...,СПО,Диплом о среднем профессиональном образовании,3.35,без отличия,да,,да,да,нет,08.10.2019 15:44


Аналогичным образом можно не только создавать новые датасеты, но очищать старые, используя `.drop()`.

Удалим все данные о переводах и восстановлениях из датасета.

Бинарный массив:

In [None]:
data['Комиссия'] == 'Переводы, восстановления'

0         True
1         True
2         True
3         True
4         True
         ...  
12347    False
12348    False
12349    False
12350    False
12351    False
Name: Комиссия, Length: 12352, dtype: bool

Соответствующие строки датасета:

In [None]:
data[data['Комиссия'] == 'Переводы, восстановления']

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,Рейтинг,Факультет,Форма обучения,Период обучения,Срок обучения,...,Комиссия,Тип док. об обр.,Ср. балл,Награды,Оригинал,Коментарии,Бюджет,Общий конкурс,Целевой конкурс,Дата создания
0,28863,825ПВ,Иннокентиевская Виктория Дмитриeвна,В приказ,Первый,84.54,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,95.08,без отличия,нет,,нет,да,нет,09.01.2019 9:33
1,28864,826ПВ,Серафимова Ирина Ивановна,В приказ,Первый,73.00,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,72.00,без отличия,да,,нет,да,нет,09.01.2019 15:15
2,28865,827ПВ,Кондратенко Зинаида Трофимовна,В приказ,Первый,75.00,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,4.00,без отличия,нет,,нет,да,нет,10.01.2019 14:41
3,28866,828ПВ,Андреевский Андрей Игнатович,В приказ,Первый,72.30,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,71.60,без отличия,да,,нет,да,нет,10.01.2019 15:08
4,28867,829ПВ,Кондратовский Петр Тимофеeвич,В приказ,Первый,85.00,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,5.00,без отличия,да,,нет,да,нет,10.01.2019 15:37
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11886,40731,3378ПВ,Кириллов Петр Кириллович,В приказ,Первый,88.00,Филфак,заочная,Нормативный,4 года 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,5.00,без отличия,нет,,нет,да,нет,24.08.2019 9:22
11887,40733,3379ПВ,Владимирович Фаина Владимировна,В приказ,Первый,74.52,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,4.44,без отличия,да,,нет,да,нет,24.08.2019 10:12
11888,40734,3380ПВ,Ивановская Ольга Глебовна,В приказ,Первый,76.32,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,4.29,без отличия,да,,нет,да,нет,24.08.2019 10:26
11889,40735,3381ПВ,Петрович Галина Семеновна,В приказ,Первый,86.90,Филфак,заочная,Нормативный,4 года 00 мес.,...,"Переводы, восстановления",Аттестат о среднем общем образовании,4.69,без отличия,да,,нет,да,нет,24.08.2019 10:39


Их индексы:

In [None]:
data[data['Комиссия'] == 'Переводы, восстановления'].index

Index([    0,     1,     2,     3,     4,     5,     6,     7,     8,     9,
       ...
       11881, 11882, 11883, 11884, 11885, 11886, 11887, 11888, 11889, 11890],
      dtype='int64', length=2588)

"Очищенный" датасет (удаляем строки):

In [None]:
data = data.drop(data[data['Комиссия'] == 'Переводы, восстановления'].index, axis=0)
data.reset_index(drop=True)

data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9764 entries, 2353 to 12351
Data columns (total 24 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   №                        9764 non-null   int64  
 1   ЛД                       9764 non-null   object 
 2   ФИО                      9764 non-null   object 
 3   Статус                   9764 non-null   object 
 4   Приориетет               9764 non-null   object 
 5   Рейтинг                  9764 non-null   float64
 6   Факультет                9764 non-null   object 
 7   Форма обучения           9764 non-null   object 
 8   Период обучения          9764 non-null   object 
 9   Срок обучения            9764 non-null   object 
 10  Курс                     9764 non-null   object 
 11  Код Специальности        9764 non-null   object 
 12  Специальность            9764 non-null   object 
 13  Образовательный уровень  9764 non-null   object 
 14  Комиссия                 

Метод `.reset_index()` применяется для сброса индекса. При удалении строк его применение позволяет создать новый непрерывный индекс из целых чисел.

Кроме того, датасеты могут содержать пропущенные данные. Они интерпретируются как подтип типа `float`. Это позволяет использовать обобщающий тип `float` для столбцов с пропущенными данными. Некоторые функции и иметоды позволяют учитывать наличие пропущенных данных и выполняют соответствующие вычисления. Однако может потребоваться обработка пропущенных значений. Есть несколько возможных сценариев:

- интерпретация пропущенных значений и заполнение значениями по умолчанию (в некоторых случаях, например, 0);
- интерполяция пропущенных значений, например с использованием соседних значений, сплайн-функций и т.д.;
- фильтрация пропущенных значений, что, безусловно, приведет к сокращению датасета.

В нашем датасете имеются пропущенные значения в столбце с коментариями. При необходимости их можно заполнить пустыми строками:

In [None]:
df_ = data['Коментарии']

df_.info()
print()
df_ = df_.fillna("")
df_.info()

<class 'pandas.core.series.Series'>
Index: 9764 entries, 2353 to 12351
Series name: Коментарии
Non-Null Count  Dtype 
--------------  ----- 
4481 non-null   object
dtypes: object(1)
memory usage: 152.6+ KB

<class 'pandas.core.series.Series'>
Index: 9764 entries, 2353 to 12351
Series name: Коментарии
Non-Null Count  Dtype 
--------------  ----- 
9764 non-null   object
dtypes: object(1)
memory usage: 152.6+ KB


В случае если у нас данные для которых соседние значения в столбце где нужно заполнить пропуски близки, то можно использовать параметр method в методе `fillna()`.

Синтаксис:
`dataframe.fillna(value, method, axis, inplace, limit, downcast)`

В качестве аргументов параметра

|Параметр|Допустимые значения/тип передаваемого объекта|Назначение|
|:-:|:-|:-|
|`value`| Number, String, Dictionary, Series, DataFrame| Задает значения для замены пропусков. Можно как все пропуски заменять одним значением, так и использовать для каждой строки/столбца заданное значение.|
`method`| 'backfill', 'bfill', 'pad', 'ffill', None| Опционально. Определяет каким методом заполнять пропуски. |
`axis`| 0, 1, 'index', 'columns'| Опционально, значение по умолчанию равно 0. Ось вдоль которой заполняются пропуски.|
`inplace`| True, False| Опционально, значение по умолчанию равно False. Если True: замена выполняется в текущем фрейме данных. Если False: возвращает копию, в которой выполнена замена.|
`limit`| Number, None| Опционально, значение по умолчанию равно None. Указывает максимальное количество нулевых значений для заполнения (если указан метод).|
`downcast`| Number, None| Опционально, словарь значений для заполнения для определенных типов данных.|


Кроме того можно очистить датасет от данных, содержащих пропущенные значения. Удаление будет происходить для строки/столбца состоящего исключительно из пропущенных значений(именованный параметр `how='all'`), либо содержащих хотя бы одно пропущенное значение (`how='any'`).

Удалим все строки, не содержащие коментарии:

In [None]:
df_ = data.dropna(axis=0, how='any')

df_.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4481 entries, 2355 to 12342
Data columns (total 24 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   №                        4481 non-null   int64  
 1   ЛД                       4481 non-null   object 
 2   ФИО                      4481 non-null   object 
 3   Статус                   4481 non-null   object 
 4   Приориетет               4481 non-null   object 
 5   Рейтинг                  4481 non-null   float64
 6   Факультет                4481 non-null   object 
 7   Форма обучения           4481 non-null   object 
 8   Период обучения          4481 non-null   object 
 9   Срок обучения            4481 non-null   object 
 10  Курс                     4481 non-null   object 
 11  Код Специальности        4481 non-null   object 
 12  Специальность            4481 non-null   object 
 13  Образовательный уровень  4481 non-null   object 
 14  Комиссия                 

Для фильтрации пропущенных значений можно применять методы `.isna()` и `.notna()`:

In [None]:
data[data['Коментарии'].isna()][['ЛД', 'ФИО', 'Статус', 'Коментарии']]

Unnamed: 0,ЛД,ФИО,Статус,Коментарии
2353,10121БС,Дмитриевич Иван Андреeвич,Аннулировано,
2354,10121БС,Дмитриевич Иван Андреeвич,В приказ,
2356,10122БС,Семенович Степан Степанович,В приказ,
2357,4046У,Иванов Кондрат Игнатович,В приказ,
2358,10123БС,Терентиев Борис Алексеeвич,В приказ,
...,...,...,...,...
12347,14050БС,Терентиевич Ирина Ивановна,В приказ,
12348,14051БС,Петровский Алексей Кондратович,В приказ,
12349,14052БС,Семенова Инна Алексеeвна,В приказ,
12350,4620У,Петренко Лидия Петровна,В приказ,


In [None]:
data[data['Коментарии'].notna()][['ЛД', 'ФИО', 'Статус', 'Коментарии']]

Unnamed: 0,ЛД,ФИО,Статус,Коментарии
2355,10122БС,Семенович Степан Степанович,Отклонено,Отклонено в связи с рекомендацией по старшему ...
2359,10123БС,Терентиев Борис Алексеeвич,Отклонено,Отклонено в связи с рекомендацией по старшему ...
2361,10125БС,Александровский Иван Александрович,Отменено,Не предоставил полный комплект документов
2366,10127БС,Степанов Тимофей Борисович,Отклонено,Отклонено в связи с рекомендацией по старшему ...
2368,10128БС,Кондратенко Дмитрий Кириллович,Отклонено,Отказался от участия в конкурсе
...,...,...,...,...
12317,14023БС,Трофимович Марина Кирилловна,Отменено,Ошибка оператора
12320,14026БС,Тимофеенко Кондрат Дмитриeвич,Отменено,техническая ошибка
12327,14033БС,Степаненко Мария Кондратовна,Отклонено,нет договора
12334,14038БС,Петров Трофим Николаeвич,Отказ,не набран проходной балл


К объектам DataFrame также можно применять универсальные функции NumPy.

In [None]:
np.mean(data['Рейтинг'])

82.5446825071692

Иногда это может привести к возникновению пропущенных значений

In [None]:
np.log(data['Рейтинг'] - 75)

  result = getattr(ufunc, method)(*inputs, **kwargs)
  result = getattr(ufunc, method)(*inputs, **kwargs)


2353     3.090133
2354     3.090133
2355     2.961141
2356     2.961141
2357     2.736962
           ...   
12347         NaN
12348         NaN
12349    3.045474
12350         NaN
12351    1.449269
Name: Рейтинг, Length: 9764, dtype: float64

В модуле `Pandas` также реализованы и собственные методы для отдельных видов данных, в частности для даты/времени и строк. Рассмотрим данные столбца `Дата создания` нашего датасета:

In [None]:
data['Дата создания']

2353      24.06.2019 9:31
2354      24.06.2019 9:34
2355      24.06.2019 9:39
2356      24.06.2019 9:32
2357      24.06.2019 9:59
               ...       
12347    08.10.2019 14:51
12348    08.10.2019 14:56
12349    08.10.2019 15:09
12350    08.10.2019 15:44
12351    08.10.2019 17:04
Name: Дата создания, Length: 9764, dtype: object

In [None]:
print(data['Дата создания'].dtype)

object


Использование строковой величины в качестве даты приведет к ошибкам сравнения. Разделим этот столбец на два: для даты и времени:

In [None]:
data[['Дата', 'Время']] = data['Дата создания'].str.split(expand=True)

data

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,Рейтинг,Факультет,Форма обучения,Период обучения,Срок обучения,...,Ср. балл,Награды,Оригинал,Коментарии,Бюджет,Общий конкурс,Целевой конкурс,Дата создания,Дата,Время
2353,31288,10121БС,Дмитриевич Иван Андреeвич,Аннулировано,Первый,96.98,ФИЯ,очная,Нормативный,4 года 00 мес.,...,4.82,без отличия,да,,да,да,нет,24.06.2019 9:31,24.06.2019,9:31
2354,31290,10121БС,Дмитриевич Иван Андреeвич,В приказ,Второй,96.98,ФИЯ,очная,Нормативный,4 года 00 мес.,...,4.82,без отличия,да,,да,да,нет,24.06.2019 9:34,24.06.2019,9:34
2355,31291,10122БС,Семенович Степан Степанович,Отклонено,Второй,94.32,Филфак,очная,Нормативный,4 года 00 мес.,...,4.38,без отличия,да,Отклонено в связи с рекомендацией по старшему ...,да,да,нет,24.06.2019 9:39,24.06.2019,9:39
2356,31289,10122БС,Семенович Степан Степанович,В приказ,Первый,94.32,Филфак,очная,Нормативный,5 лет 00 мес.,...,4.38,без отличия,да,,да,да,нет,24.06.2019 9:32,24.06.2019,9:32
2357,31292,4046У,Иванов Кондрат Игнатович,В приказ,Первый,90.44,ФМИТ,заочная,Ускоренный,3 года 00 мес.,...,4.48,без отличия,да,,нет,да,нет,24.06.2019 9:59,24.06.2019,9:59
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12347,41392,14050БС,Терентиевич Ирина Ивановна,В приказ,Первый,66.88,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,4.57,без отличия,да,,да,нет,да,08.10.2019 14:51,08.10.2019,14:51
12348,41393,14051БС,Петровский Алексей Кондратович,В приказ,Первый,70.28,Пединститут,заочная,Нормативный,5 лет 00 мес.,...,4.42,без отличия,да,,нет,да,нет,08.10.2019 14:56,08.10.2019,14:56
12349,41394,14052БС,Семенова Инна Алексеeвна,В приказ,Первый,96.02,ФМИТ,заочная,Нормативный,5 лет 00 мес.,...,4.88,без отличия,да,,да,да,нет,08.10.2019 15:09,08.10.2019,15:09
12350,41397,4620У,Петренко Лидия Петровна,В приказ,Первый,71.80,Экономфак,заочная,Ускоренный,2 года 6 мес.,...,3.35,без отличия,да,,да,да,нет,08.10.2019 15:44,08.10.2019,15:44


Преобразуем столбец `'Дата создания'` в формат `datetime`:

In [None]:
data['Дата создания'] = pd.to_datetime(data['Дата создания'], dayfirst=True, format='%d.%m.%Y %H:%M')

data

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,Рейтинг,Факультет,Форма обучения,Период обучения,Срок обучения,...,Ср. балл,Награды,Оригинал,Коментарии,Бюджет,Общий конкурс,Целевой конкурс,Дата создания,Дата,Время
2353,31288,10121БС,Дмитриевич Иван Андреeвич,Аннулировано,Первый,96.98,ФИЯ,очная,Нормативный,4 года 00 мес.,...,4.82,без отличия,да,,да,да,нет,2019-06-24 09:31:00,24.06.2019,9:31
2354,31290,10121БС,Дмитриевич Иван Андреeвич,В приказ,Второй,96.98,ФИЯ,очная,Нормативный,4 года 00 мес.,...,4.82,без отличия,да,,да,да,нет,2019-06-24 09:34:00,24.06.2019,9:34
2355,31291,10122БС,Семенович Степан Степанович,Отклонено,Второй,94.32,Филфак,очная,Нормативный,4 года 00 мес.,...,4.38,без отличия,да,Отклонено в связи с рекомендацией по старшему ...,да,да,нет,2019-06-24 09:39:00,24.06.2019,9:39
2356,31289,10122БС,Семенович Степан Степанович,В приказ,Первый,94.32,Филфак,очная,Нормативный,5 лет 00 мес.,...,4.38,без отличия,да,,да,да,нет,2019-06-24 09:32:00,24.06.2019,9:32
2357,31292,4046У,Иванов Кондрат Игнатович,В приказ,Первый,90.44,ФМИТ,заочная,Ускоренный,3 года 00 мес.,...,4.48,без отличия,да,,нет,да,нет,2019-06-24 09:59:00,24.06.2019,9:59
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12347,41392,14050БС,Терентиевич Ирина Ивановна,В приказ,Первый,66.88,Юрфак,заочная,Нормативный,5 лет 00 мес.,...,4.57,без отличия,да,,да,нет,да,2019-10-08 14:51:00,08.10.2019,14:51
12348,41393,14051БС,Петровский Алексей Кондратович,В приказ,Первый,70.28,Пединститут,заочная,Нормативный,5 лет 00 мес.,...,4.42,без отличия,да,,нет,да,нет,2019-10-08 14:56:00,08.10.2019,14:56
12349,41394,14052БС,Семенова Инна Алексеeвна,В приказ,Первый,96.02,ФМИТ,заочная,Нормативный,5 лет 00 мес.,...,4.88,без отличия,да,,да,да,нет,2019-10-08 15:09:00,08.10.2019,15:09
12350,41397,4620У,Петренко Лидия Петровна,В приказ,Первый,71.80,Экономфак,заочная,Ускоренный,2 года 6 мес.,...,3.35,без отличия,да,,да,да,нет,2019-10-08 15:44:00,08.10.2019,15:44


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9764 entries, 2353 to 12351
Data columns (total 26 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   №                        9764 non-null   int64         
 1   ЛД                       9764 non-null   object        
 2   ФИО                      9764 non-null   object        
 3   Статус                   9764 non-null   object        
 4   Приориетет               9764 non-null   object        
 5   Рейтинг                  9764 non-null   float64       
 6   Факультет                9764 non-null   object        
 7   Форма обучения           9764 non-null   object        
 8   Период обучения          9764 non-null   object        
 9   Срок обучения            9764 non-null   object        
 10  Курс                     9764 non-null   object        
 11  Код Специальности        9764 non-null   object        
 12  Специальность            9764 non-n

## 2. Операции извлечения данных

По умолчанию `Pandas` отображает только чать данных датасета. Для строк отображаются первые пять и последние пять.

Для отображения больших `DataFrame` можно применять настройки:

In [None]:
pd.set_option('display.max_columns', 10)
pd.set_option('display.max_rows', 30)

In [None]:
data.head()

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,...,Общий конкурс,Целевой конкурс,Дата создания,Дата,Время
2353,31288,10121БС,Дмитриевич Иван Андреeвич,Аннулировано,Первый,...,да,нет,2019-06-24 09:31:00,24.06.2019,9:31
2354,31290,10121БС,Дмитриевич Иван Андреeвич,В приказ,Второй,...,да,нет,2019-06-24 09:34:00,24.06.2019,9:34
2355,31291,10122БС,Семенович Степан Степанович,Отклонено,Второй,...,да,нет,2019-06-24 09:39:00,24.06.2019,9:39
2356,31289,10122БС,Семенович Степан Степанович,В приказ,Первый,...,да,нет,2019-06-24 09:32:00,24.06.2019,9:32
2357,31292,4046У,Иванов Кондрат Игнатович,В приказ,Первый,...,да,нет,2019-06-24 09:59:00,24.06.2019,9:59


Можно указать целое число (по умолчанию не более 60) в качестве параметра для вывода соответствующего числа строк. Выведем 60 последних строк датасета методом `.tail()`:

In [None]:
data.tail(60)

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,...,Общий конкурс,Целевой конкурс,Дата создания,Дата,Время
12292,41319,14005БС(ВВ),Степановский Кондрат Кондратович,В приказ,Первый,...,да,нет,2019-09-05 15:28:00,05.09.2019,15:28
12293,41320,4615У,Семенович Александра Кирилловна,В приказ,Первый,...,да,нет,2019-09-05 15:29:00,05.09.2019,15:29
...,...,...,...,...,...,...,...,...,...,...,...
12350,41397,4620У,Петренко Лидия Петровна,В приказ,Первый,...,да,нет,2019-10-08 15:44:00,08.10.2019,15:44
12351,41399,14053БС,Тимофеенко Владимир Трофимович,В приказ,Первый,...,да,нет,2019-10-08 17:04:00,08.10.2019,17:04


Выбрать заданное число строк случайным образом можно с помощью:

In [None]:
data.sample(5)

In [None]:
data.sample(5, random_state = 123)

Чаще всего данные извлекаются согласно условиям, накладываемым на значения столбцов:

In [None]:
data['Рейтинг'] > 100

2353     False
2354     False
         ...  
12350    False
12351    False
Name: Рейтинг, Length: 9764, dtype: bool

In [None]:
data[data['Рейтинг'] > 100]

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,...,Общий конкурс,Целевой конкурс,Дата создания,Дата,Время
2378,31310,10133БС,Андреева Наталья Владимировна,Отклонено,Первый,...,да,нет,2019-06-24 10:38:00,24.06.2019,10:38
2379,31314,10133БС,Андреева Наталья Владимировна,Отклонено,Второй,...,да,нет,2019-06-24 10:39:00,24.06.2019,10:39
...,...,...,...,...,...,...,...,...,...,...,...
12052,41000,13847БС,Петренко Людмила Владимировна,В приказ,Первый,...,да,нет,2019-09-03 11:42:00,03.09.2019,11:42
12283,41311,4613У,Терентиевич Екатерина Александровна,В приказ,Первый,...,да,нет,2019-09-05 14:11:00,05.09.2019,14:11


Для фильтрации можно использовать сложные условия. Отберем только тех студентов, кто зачислен в бакалавриат:

In [None]:
data['Комиссия'].unique()

array(['Бакалавры/Специалисты', 'СПО', 'Магистры'], dtype=object)

In [None]:
df = data[
            (data['Статус'] == "В приказ") &
            (data['Комиссия'] == "Бакалавры/Специалисты")
         ]

df

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,...,Общий конкурс,Целевой конкурс,Дата создания,Дата,Время
2354,31290,10121БС,Дмитриевич Иван Андреeвич,В приказ,Второй,...,да,нет,2019-06-24 09:34:00,24.06.2019,9:34
2356,31289,10122БС,Семенович Степан Степанович,В приказ,Первый,...,да,нет,2019-06-24 09:32:00,24.06.2019,9:32
...,...,...,...,...,...,...,...,...,...,...,...
12349,41394,14052БС,Семенова Инна Алексеeвна,В приказ,Первый,...,да,нет,2019-10-08 15:09:00,08.10.2019,15:09
12351,41399,14053БС,Тимофеенко Владимир Трофимович,В приказ,Первый,...,да,нет,2019-10-08 17:04:00,08.10.2019,17:04


Найдем студентов которые поступали либо на УНИЭК, либо на ФДПО и были зачислены:

In [None]:
data['Факультет'].unique()

array(['ФИЯ', 'Филфак', 'ФМИТ', 'Учфин', 'Экономфак', 'Юрфак', 'Биофак',
       'Пединститут', 'Химфак', 'Истфак', 'ФДиПО', 'УНИЭК', 'ИФКС',
       'Физтех', 'ГУКЦ', 'ЕУКЦ'], dtype=object)

In [None]:
data[
        (data['Статус'] == 'В приказ') &
            (
                (data['Факультет'] == 'УНИЭК') |
                 (data['Факультет'] == 'ФДиПО')
            )
    ]

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,...,Общий конкурс,Целевой конкурс,Дата создания,Дата,Время
2415,31347,10151БС,Андреенко Иван Иванович,В приказ,Первый,...,да,нет,2019-06-24 12:08:00,24.06.2019,12:08
2480,31411,2922М,Степанович Александр Степанович,В приказ,Первый,...,да,нет,2019-06-24 15:18:00,24.06.2019,15:18
...,...,...,...,...,...,...,...,...,...,...,...
12243,41259,4343М,Алексеевская Тамара Николаeвна,В приказ,Первый,...,да,нет,2019-09-05 09:49:00,05.09.2019,9:49
12262,41280,13982БС,Семеновская Мария Терентиeвна,В приказ,Первый,...,да,нет,2019-09-05 11:27:00,05.09.2019,11:27


Как альтернативу можно использовать метод `.query()`, который получает строку с запросом:

In [None]:
data.query('Статус == "В приказ"')

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,...,Общий конкурс,Целевой конкурс,Дата создания,Дата,Время
2354,31290,10121БС,Дмитриевич Иван Андреeвич,В приказ,Второй,...,да,нет,2019-06-24 09:34:00,24.06.2019,9:34
2356,31289,10122БС,Семенович Степан Степанович,В приказ,Первый,...,да,нет,2019-06-24 09:32:00,24.06.2019,9:32
...,...,...,...,...,...,...,...,...,...,...,...
12350,41397,4620У,Петренко Лидия Петровна,В приказ,Первый,...,да,нет,2019-10-08 15:44:00,08.10.2019,15:44
12351,41399,14053БС,Тимофеенко Владимир Трофимович,В приказ,Первый,...,да,нет,2019-10-08 17:04:00,08.10.2019,17:04


In [None]:
data.query("Статус == 'В приказ' & (Факультет == 'УНИЭК' | 'Факультет' == 'ФДиПО')")

Unnamed: 0,№,ЛД,ФИО,Статус,Приориетет,...,Общий конкурс,Целевой конкурс,Дата создания,Дата,Время
2720,40520,10304БС,Глебовская Людмила Андреeвна,В приказ,Первый,...,да,нет,2019-07-29 10:54:00,29.07.2019,10:54
3039,40525,10475БС,Глебова Ирина Кирилловна,В приказ,Первый,...,да,нет,2019-07-29 10:54:00,29.07.2019,10:54
...,...,...,...,...,...,...,...,...,...,...,...
11736,40524,13718БС,Кондратович Вера Иннокентиeвна,В приказ,Первый,...,нет,нет,2019-07-29 10:54:00,29.07.2019,10:54
12187,41187,4602У,Степановский Андрей Петрович,В приказ,Первый,...,да,нет,2019-09-04 13:06:00,04.09.2019,13:06


Можно идентифицировать записи, относящиеся к одному объекту. Найдем школьника с самым высоким баллом и просмотрим, куда он собирался поступать.

In [None]:
df = data[data['Комиссия'] == "Бакалавры/Специалисты"]
n = df[df['Рейтинг'] == df['Рейтинг'].max()]['ЛД'].unique()

n = n[2]

In [None]:
data[data['ЛД'] == n][['Статус', 'Факультет', 'Специальность']]

Unnamed: 0,Статус,Факультет,Специальность
2900,В приказ,ФИЯ,Лингвистика (Профиль: Теория и методика препод...
2901,Отклонено,ФИЯ,Филология (Профиль: Зарубежная филология (англ...


## 3. Группировка данных

В библиотеке *Pandas* поддерживаются гибкие возможности группировки данных подобно тому, как это реализовано в *SQL* и сводных таблицах *MS Excel*.

Например, если объект `DataFrame` содержит повторяющиеся данные в столбце, то можно выполнить группировку.

In [None]:
data.columns

Index(['№', 'ЛД', 'ФИО', 'Статус', 'Приориетет', 'Рейтинг', 'Факультет',
       'Форма обучения', 'Период обучения', 'Срок обучения', 'Курс',
       'Код Специальности', 'Специальность', 'Образовательный уровень',
       'Комиссия', 'Тип док. об обр.', 'Ср. балл', 'Награды', 'Оригинал',
       'Коментарии', 'Бюджет', 'Общий конкурс', 'Целевой конкурс',
       'Дата создания', 'Дата', 'Время'],
      dtype='object')

In [None]:
df = data[data['Комиссия'] == "Бакалавры/Специалисты"][['№', 'ЛД', 'ФИО', 'Статус', 'Рейтинг','Факультет',
                                                        'Форма обучения', 'Код Специальности',
                                                        'Специальность', 'Дата создания']]

df

Unnamed: 0,№,ЛД,ФИО,Статус,Рейтинг,Факультет,Форма обучения,Код Специальности,Специальность,Дата создания
2353,31288,10121БС,Дмитриевич Иван Андреeвич,Аннулировано,96.98,ФИЯ,очная,45.03.01,Филология (Профиль: Зарубежная филология (англ...,2019-06-24 09:31:00
2354,31290,10121БС,Дмитриевич Иван Андреeвич,В приказ,96.98,ФИЯ,очная,45.03.02,Лингвистика (Профиль: Теория и методика препод...,2019-06-24 09:34:00
...,...,...,...,...,...,...,...,...,...,...
12349,41394,14052БС,Семенова Инна Алексеeвна,В приказ,96.02,ФМИТ,заочная,44.03.05,Педагогическое образование (Профиль: Математик...,2019-10-08 15:09:00
12351,41399,14053БС,Тимофеенко Владимир Трофимович,В приказ,79.26,Истфак,заочная,41.03.05,Международные отношения,2019-10-08 17:04:00


In [None]:
groups = df[['ЛД', 'Рейтинг', 'Факультет','Форма обучения', 'Дата создания']].groupby('Факультет')
list(groups)

[('Биофак',
              ЛД  Рейтинг Факультет Форма обучения       Дата создания
  2366   10127БС    93.52    Биофак          очная 2019-06-24 10:14:00
  2378   10133БС   104.70    Биофак          очная 2019-06-24 10:38:00
  ...        ...      ...       ...            ...                 ...
  12320  14026БС    84.16    Биофак        заочная 2019-09-07 11:46:00
  12325  14031БС    86.72    Биофак        заочная 2019-09-07 14:13:00
  
  [243 rows x 5 columns]),
 ('ГУКЦ',
              ЛД  Рейтинг Факультет Форма обучения       Дата создания
  3365   10646БС    64.28      ГУКЦ        заочная 2019-06-27 13:38:00
  3389   10658БС    75.10      ГУКЦ        заочная 2019-06-27 13:58:00
  ...        ...      ...       ...            ...                 ...
  11215  13459БС    76.72      ГУКЦ        заочная 2019-09-03 11:40:00
  12079  13868БС    61.00      ГУКЦ        заочная 2019-09-03 13:40:00
  
  [13 rows x 5 columns]),
 ('ИФКС',
                  ЛД  Рейтинг Факультет Форма обучения   

Группы представляют собой специальный объект `pandas.core.groupby.generic.DataFrameGroupBy`. Для него реализованы некоторые методы:

In [None]:
groups.size()

Факультет
Биофак        243
ГУКЦ           13
             ... 
Экономфак    1213
Юрфак         705
Length: 15, dtype: int64

Задача, решаемая группировкой - переход к укрупненным данным в группах. Но для этого необходимо корректно указать, как различные данные в строках будут сагреггированы в групповые оценки. В противном случае это вызовет ошибки:

In [None]:
groups.mean()

TypeError: agg function failed [how->mean,dtype->object]

In [None]:
groups.max()

Unnamed: 0_level_0,ЛД,Рейтинг,Форма обучения,Дата создания
Факультет,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Биофак,14031БС,107.0,очная,2019-09-07 14:13:00
ГУКЦ,13868БС,85.9,заочная,2019-09-03 13:40:00
...,...,...,...,...
Экономфак,14049БС,107.0,очная,2019-10-08 14:51:00
Юрфак,14050БС,107.0,очная,2019-10-08 15:28:00


Данные каждого столбца могут обрабатываться целым набором методов.

In [None]:
groups.agg(['min', 'max', 'count'])

Unnamed: 0_level_0,ЛД,ЛД,ЛД,Рейтинг,Рейтинг,...,Форма обучения,Форма обучения,Дата создания,Дата создания,Дата создания
Unnamed: 0_level_1,min,max,count,min,max,...,max,count,min,max,count
Факультет,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
Биофак,10127БС,14031БС,243,15.00,107.0,...,очная,243,2019-06-24 10:14:00,2019-09-07 14:13:00,243
ГУКЦ,10646БС,13868БС,13,15.60,85.9,...,заочная,13,2019-06-27 13:38:00,2019-09-03 13:40:00,13
...,...,...,...,...,...,...,...,...,...,...,...
Экономфак,10125БС,14049БС,1213,12.68,107.0,...,очная,1213,2019-06-24 10:08:00,2019-10-08 14:51:00,1213
Юрфак,10126БС,14050БС,705,0.87,107.0,...,очная,705,2019-06-24 10:12:00,2019-10-08 15:28:00,705


Для обеспечения корректной работы и наглядного представления методы можно указывать в виде словаря:

In [None]:
d = {'ЛД':['count'], 'Рейтинг':['min', 'mean', 'max'], 'Дата создания':['min', 'max']}

groups.agg(d)

Unnamed: 0_level_0,ЛД,Рейтинг,Рейтинг,Рейтинг,Дата создания,Дата создания
Unnamed: 0_level_1,count,min,mean,max,min,max
Факультет,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Биофак,243,15.00,85.832099,107.0,2019-06-24 10:14:00,2019-09-07 14:13:00
ГУКЦ,13,15.60,63.852308,85.9,2019-06-27 13:38:00,2019-09-03 13:40:00
...,...,...,...,...,...,...
Экономфак,1213,12.68,89.221566,107.0,2019-06-24 10:08:00,2019-10-08 14:51:00
Юрфак,705,0.87,85.471390,107.0,2019-06-24 10:12:00,2019-10-08 15:28:00


Группировку можно выполнять сразу по нескольким столбцам:

In [None]:
groups = df[['ЛД', 'Рейтинг', 'Факультет','Форма обучения', 'Дата создания']].groupby(['Факультет', 'Форма обучения'])
groups.size()

Факультет  Форма обучения
Биофак     заочная            54
           очная             189
                            ... 
Юрфак      заочная           207
           очная             498
Length: 30, dtype: int64

In [None]:
groups.aggregate(d)

Unnamed: 0_level_0,Unnamed: 1_level_0,ЛД,Рейтинг,Рейтинг,Рейтинг,Дата создания,Дата создания
Unnamed: 0_level_1,Unnamed: 1_level_1,count,min,mean,max,min,max
Факультет,Форма обучения,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Биофак,заочная,54,15.00,74.752593,94.6,2019-06-24 14:08:00,2019-09-07 14:13:00
Биофак,очная,189,62.48,88.997672,107.0,2019-06-24 10:14:00,2019-09-04 12:47:00
...,...,...,...,...,...,...,...
Юрфак,заочная,207,0.87,74.347874,102.9,2019-06-24 11:32:00,2019-10-08 15:28:00
Юрфак,очная,498,13.88,90.095020,107.0,2019-06-24 10:12:00,2019-09-07 13:40:00


In [None]:
df = data[data['Комиссия'] == "Бакалавры/Специалисты"][['ЛД', 'Рейтинг','Факультет', 'Форма обучения','Дата', 'Время']]
df_ = df.groupby(['Дата', 'Факультет', 'Форма обучения']).agg({'ЛД':'count', 'Рейтинг':['min', 'mean', 'max']})
df_.head(30)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,ЛД,Рейтинг,Рейтинг,Рейтинг
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count,min,mean,max
Дата,Факультет,Форма обучения,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
01.07.2019,Биофак,заочная,3,15.36,61.286667,89.94
01.07.2019,Биофак,очная,21,79.96,91.264762,100.9
01.07.2019,ИФКС,заочная,18,11.64,68.211111,89.78
01.07.2019,ИФКС,очная,36,40.72,80.340556,96.2
01.07.2019,Истфак,заочная,6,78.12,89.466667,98.84
01.07.2019,Истфак,очная,39,44.72,91.055385,104.2
01.07.2019,Пединститут,заочная,52,15.28,72.610769,93.7
01.07.2019,Пединститут,очная,90,67.42,89.518333,103.9
01.07.2019,Пединститут,очно-заочная,1,71.6,71.6,71.6
01.07.2019,УНИЭК,очная,5,78.78,88.768,100.2


Иногда группировка создаёт дополнительные проблемы с обращениям к индексам и, как следствие, к данным, посколку индекс становится многоуровневым объектом `MultiIndex`.

In [None]:
df_.index

MultiIndex([('01.07.2019',      'Биофак',      'заочная'),
            ('01.07.2019',      'Биофак',        'очная'),
            ('01.07.2019',        'ИФКС',      'заочная'),
            ('01.07.2019',        'ИФКС',        'очная'),
            ('01.07.2019',      'Истфак',      'заочная'),
            ('01.07.2019',      'Истфак',        'очная'),
            ('01.07.2019', 'Пединститут',      'заочная'),
            ('01.07.2019', 'Пединститут',        'очная'),
            ('01.07.2019', 'Пединститут', 'очно-заочная'),
            ('01.07.2019',       'УНИЭК',        'очная'),
            ...
            ('29.06.2019',      'Химфак',        'очная'),
            ('29.06.2019',   'Экономфак',        'очная'),
            ('29.06.2019',       'Юрфак',      'заочная'),
            ('29.06.2019',       'Юрфак',        'очная'),
            ('29.07.2019',      'Биофак',        'очная'),
            ('29.07.2019',       'УНИЭК',        'очная'),
            ('29.07.2019',         'ФИЯ'

 В этом случае можно изменить представление с помощью метода `.unstack()`:

In [None]:
df_.unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,ЛД,ЛД,ЛД,ЛД,Рейтинг,Рейтинг,Рейтинг,Рейтинг,Рейтинг,Рейтинг,Рейтинг
Unnamed: 0_level_1,Unnamed: 1_level_1,count,count,count,count,min,...,mean,max,max,max,max
Unnamed: 0_level_2,Форма обучения,заочная,очная,очно-заочная,экстернат,заочная,...,экстернат,заочная,очная,очно-заочная,экстернат
Дата,Факультет,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
01.07.2019,Биофак,3.0,21.0,,,15.36,...,,89.94,100.90,,
01.07.2019,ИФКС,18.0,36.0,,,11.64,...,,89.78,96.20,,
01.07.2019,Истфак,6.0,39.0,,,78.12,...,,98.84,104.20,,
01.07.2019,Пединститут,52.0,90.0,1.0,,15.28,...,,93.70,103.90,71.6,
01.07.2019,УНИЭК,,5.0,,,,...,,,100.20,,
...,...,...,...,...,...,...,...,...,...,...,...,...
29.07.2019,УНИЭК,,14.0,,,,...,,,91.58,,
29.07.2019,ФИЯ,,1.0,,,,...,,,90.44,,
29.07.2019,Физтех,,8.0,,,,...,,,90.70,,
29.07.2019,Филфак,,22.0,,,,...,,,93.86,,


In [None]:
df_.unstack(level=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,ЛД,ЛД,ЛД,ЛД,ЛД,...,Рейтинг,Рейтинг,Рейтинг,Рейтинг,Рейтинг
Unnamed: 0_level_1,Unnamed: 1_level_1,count,count,count,count,count,...,max,max,max,max,max
Unnamed: 0_level_2,Дата,01.07.2019,02.07.2019,02.09.2019,03.07.2019,03.09.2019,...,26.06.2019,27.06.2019,28.06.2019,29.06.2019,29.07.2019
Факультет,Форма обучения,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
Биофак,заочная,3.0,,2.0,3.0,,...,67.64,77.84,,,
Биофак,очная,21.0,27.0,2.0,19.0,,...,107.0,100.0,104.0,98.14,89.26
ГУКЦ,заочная,,,,,3.0,...,,75.1,,,
ИФКС,заочная,18.0,8.0,11.0,3.0,15.0,...,,,,,
ИФКС,очная,36.0,22.0,9.0,7.0,4.0,...,,,,,
Истфак,заочная,6.0,4.0,1.0,2.0,1.0,...,93.56,91.28,102.3,84.12,
Истфак,очная,39.0,38.0,1.0,29.0,,...,105.0,104.6,104.5,105.2,
Пединститут,заочная,52.0,5.0,15.0,9.0,9.0,...,,,,,
Пединститут,очная,90.0,43.0,5.0,25.0,1.0,...,,,,,
Пединститут,очно-заочная,1.0,1.0,,1.0,,...,,,,,


In [None]:
df_.unstack(level=1)

Unnamed: 0_level_0,Unnamed: 1_level_0,ЛД,ЛД,ЛД,ЛД,ЛД,...,Рейтинг,Рейтинг,Рейтинг,Рейтинг,Рейтинг
Unnamed: 0_level_1,Unnamed: 1_level_1,count,count,count,count,count,...,max,max,max,max,max
Unnamed: 0_level_2,Факультет,Биофак,ГУКЦ,ИФКС,Истфак,Пединститут,...,Физтех,Филфак,Химфак,Экономфак,Юрфак
Дата,Форма обучения,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
01.07.2019,заочная,3.0,,18.0,6.0,52.0,...,,93.24,,95.08,79.28
01.07.2019,очная,21.0,,36.0,39.0,90.0,...,98.7,107.00,104.90,107.00,106.00
01.07.2019,очно-заочная,,,,,1.0,...,,,,,
02.07.2019,заочная,,,8.0,4.0,5.0,...,,106.50,,106.50,94.74
02.07.2019,очная,27.0,,22.0,38.0,43.0,...,105.0,106.50,94.16,106.50,104.90
...,...,...,...,...,...,...,...,...,...,...,...,...
28.06.2019,заочная,,,,9.0,,...,,99.50,,103.30,102.90
28.06.2019,очная,13.0,,,29.0,,...,100.2,105.20,101.00,107.00,107.00
29.06.2019,заочная,,,,1.0,,...,,92.22,,,96.50
29.06.2019,очная,4.0,,,13.0,,...,104.0,99.00,96.52,107.00,104.00


Другой способ, который позволяет получить значеиния индексов определенного уровня из многоуровневого индекса - это применение метода `.get_level_values()` к объекту индекс:

In [None]:
df_.index.get_level_values(1)

Index(['Биофак', 'Биофак', 'ИФКС', 'ИФКС', 'Истфак', 'Истфак', 'Пединститут',
       'Пединститут', 'Пединститут', 'УНИЭК',
       ...
       'Химфак', 'Экономфак', 'Юрфак', 'Юрфак', 'Биофак', 'УНИЭК', 'ФИЯ',
       'Физтех', 'Филфак', 'Экономфак'],
      dtype='object', name='Факультет', length=595)

Извлечение значений из индексов может пригодиться, например, при построении графиков и использовании их в качестве подписей значений.

## 4. Сортировки

Модуль `Pandas` и его объекты поддерживают сортировки, в том числе многоуровневые:

In [None]:
df

Unnamed: 0,ЛД,Рейтинг,Факультет,Форма обучения,Дата,Время
2353,10121БС,96.98,ФИЯ,очная,24.06.2019,9:31
2354,10121БС,96.98,ФИЯ,очная,24.06.2019,9:34
2355,10122БС,94.32,Филфак,очная,24.06.2019,9:39
2356,10122БС,94.32,Филфак,очная,24.06.2019,9:32
2358,10123БС,97.95,Филфак,очная,24.06.2019,10:06
...,...,...,...,...,...,...
12346,14049БС,66.98,Экономфак,заочная,08.10.2019,14:51
12347,14050БС,66.88,Юрфак,заочная,08.10.2019,14:51
12348,14051БС,70.28,Пединститут,заочная,08.10.2019,14:56
12349,14052БС,96.02,ФМИТ,заочная,08.10.2019,15:09


In [None]:
df.sort_values(by=['Факультет', 'Форма обучения', 'Дата', 'Время'], ascending=False, ignore_index=False)

Unnamed: 0,ЛД,Рейтинг,Факультет,Форма обучения,Дата,Время
4009,10974БС,99.80,Юрфак,очная,29.06.2019,9:57
4008,10973БС,93.44,Юрфак,очная,29.06.2019,9:54
3990,10964БС,95.28,Юрфак,очная,29.06.2019,9:32
4156,11051БС,98.44,Юрфак,очная,29.06.2019,13:22
4133,11041БС,94.60,Юрфак,очная,29.06.2019,12:22
...,...,...,...,...,...,...
11955,13782БС(ВВ),61.24,Биофак,заочная,02.09.2019,13:22
11464,13578БС,85.26,Биофак,заочная,02.09.2019,12:20
4212,11075БС,89.94,Биофак,заочная,01.07.2019,9:58
4476,11183БС,78.56,Биофак,заочная,01.07.2019,12:38
