# Работа с несколькими таблицами. Сводные таблицы

Продолжим работу с датасетом "Абитуриент":

In [None]:
import pandas as pd

data = pd.read_csv(r"Files\abiturient_fix.csv",
                  encoding="cp1251",
                  sep=";",
                  decimal=","
                  )

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12352 entries, 0 to 12351
Data columns (total 24 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   №                        12352 non-null  int64  
 1   ЛД                       12352 non-null  object 
 2   ФИО                      12352 non-null  object 
 3   Статус                   12352 non-null  object 
 4   Приориетет               12352 non-null  object 
 5   Рейтинг                  12352 non-null  float64
 6   Факультет                12352 non-null  object 
 7   Форма обучения           12352 non-null  object 
 8   Период обучения          12352 non-null  object 
 9   Срок обучения            12352 non-null  object 
 10  Курс                     12352 non-null  object 
 11  Код Специальности        12352 non-null  object 
 12  Специальность            12352 non-null  object 
 13  Образовательный уровень  12352 non-null  object 
 14  Комиссия              

Напомним вкратце структуру данных:

|№|Имя столбца|Содержание столбца|
|:-|:-|:-|
|0|№|Уникальный номер записи в базе данных. Можно использовать для идентификации записи вместо индекса. Это номер заявления|
|1|ЛД|Номер личного дела. Уникальный идентификатор абитуриента. У каждого абитуриента одно личное дело, но в нем может быть несколько заявлений|
|2|ФИО|Фамилия, имя и отчество абитуриента. **Рандомизированы**|
|3|Статус|Статус завяления. Статус "В приказ" означает, что абитуриент зачислен по данному заявлению. В личном деле может быть лишь одно заявление с этим статусом|
|4|Приоритет|Используется при зачислении по нескольким заявлениям. Высший приоритет - первый|
|5|Рейтинг|Вычисляемый системой при подаче заявлений конкурсный балл|
|6|Факультет|Факультет, на котором находится специальность, на которую подано заявление|
|7|Форма обучения|Одна из трёх форм обучения. На разных специальностях могут быть разные формы обучения|
|8|Период обучения|Один из трёх периодов обученияl|   |ect
|9|Срок обучения|Время обучения на избранной специальности|
|11|Курс|Курс зачисления. Обычно это первый курс, но в случае перевода или восстановления студента может быть любой, кроме первого|
|11|Код Специальности|Шифровой код специальности|
|12|Специальность|Наименование специальности с профилем обучения|
|13|Образовательный уровень|Один из трех образовательных уровней|
|14|Комиссия|Подкомиссия приёмной комиссии, осуществляющая приём на данный образовательный уровень или переводы и восстановление студентовo|
|15|Тип док. об обр.|Документ о ранее полученном образовании, на базе которого осуществляется поступление|
|16|Ср. балл|Средний балл в документе о предыдущем образовании|
|17|Награды|Наличие особых заслуг при равенстве баллов3|
|18|Оригинал|Наличие оригинала документа об образовании. При его отсутствии абитуриент не допускается к конкурсу|
|19|Коментарии|Технические замечания сотрудника ПК при отклонении завяления (опционально)|
|20|Бюджет|Наличие права на зачисление на бюджетные места|
|21|Общий конкурс|Участие в конкурсе на общих основаниях|
|22|Целевой конкурс|Участие в целевом конкурсе|
|23|Дата создания|Дата создания заявления|

Сделаем выборуку по датасету: соберем некоторые данные (`№`, `ЛД`, `Рейтинг`, `Факультет`, `Форма обучения`, `Дата создания`) по студентам, зачисленным в магистратуру:

In [None]:
df = data[(data['Комиссия'] == 'Магистры') &
          (data['Статус'] == 'В приказ')][["№", "ЛД", "Рейтинг", "Факультет", "Форма обучения", 'Статус', "Дата создания"]]
df = df.reset_index(drop=True)

df

Unnamed: 0,№,ЛД,Рейтинг,Факультет,Форма обучения,Статус,Дата создания
0,31297,2918М,77.93,Филфак,заочная,В приказ,24.06.2019 10:11
1,41155,2919М,86.52,Экономфак,заочная,В приказ,04.09.2019 11:44
2,31366,2920М,61.23,Юрфак,заочная,В приказ,24.06.2019 13:46
3,31384,2921М,67.92,Юрфак,заочная,В приказ,24.06.2019 14:18
4,31411,2922М,79.29,ФДиПО,заочная,В приказ,24.06.2019 15:18
...,...,...,...,...,...,...,...
1224,41285,4349М,65.64,Физтех,очная,В приказ,05.09.2019 11:45
1225,41307,4350М,63.76,Пединститут,заочная,В приказ,05.09.2019 13:59
1226,41371,4351М,82.18,Экономфак,заочная,В приказ,08.10.2019 9:52
1227,41374,4352М,93.47,Экономфак,заочная,В приказ,08.10.2019 11:43


## 1. Конкатенация

Рассмотрим различные подходы к объединению двух простых наборов данных, хранящихся в объектах `DataFrame`.

Допустим требуется добавить данные из столбца `data['Специальность']` к нашему датасету `df`. Очевидно, что необходимо присоединить их как столбец.
В дополнение предположим, что необходимо будет приформировать строки с информациях о студентах, которые не были зачислены.

Конкатенация, или присоединение — это операция добавления строк и столбцов из одного объекта `DataFrame` в другой. Такая операция реализуется с помощью функции `pd.concat()`

In [None]:
pd.concat((df, data['Специальность']), ignore_index=False, sort=False)

Unnamed: 0,№,ЛД,Рейтинг,Факультет,Форма обучения,Статус,Дата создания,Специальность
0,31297.0,2918М,77.93,Филфак,заочная,В приказ,24.06.2019 10:11,
1,41155.0,2919М,86.52,Экономфак,заочная,В приказ,04.09.2019 11:44,
2,31366.0,2920М,61.23,Юрфак,заочная,В приказ,24.06.2019 13:46,
3,31384.0,2921М,67.92,Юрфак,заочная,В приказ,24.06.2019 14:18,
4,31411.0,2922М,79.29,ФДиПО,заочная,В приказ,24.06.2019 15:18,
...,...,...,...,...,...,...,...,...
41392,,,,,,,,Юриспруденция
41393,,,,,,,,Специальное (дефектологическое) образование
41394,,,,,,,,Педагогическое образование (Профиль: Математик...
41397,,,,,,,,Менеджмент (Профиль: Маркетинг)


Синтаксис команды:

`df = pandas.concat(objs, *, axis=0, join='outer', ignore_index=False,
keys=None, levels=None, names=None,
verify_integrity=False, sort=False, copy=None)`

|Параметр|Назначение|
|:-|:-|
objs|принимает последовательность или словарь объектов Series или pandas.DataFrame. Если передан словарь, то отсортированные ключи будут использоваться в качестве аргумента keys, если со словарем передан аргумент keys, то в этом случае будут выбраны только значения. Любые объекты None будут удалены автоматически. Если все значения являются None, то в этом случае будет выдана ошибка ValueError.
axis=0|ось для объединения. Принимает значения: 0 ('index') или 1 ('columns').
join='outer'|как обрабатывать индексы на другой оси (или осях). Принимает значения: 'inner' или 'outer'.
ignore_index=False|если True, то значения индекса вдоль оси конкатенации не используются. Результирующая ось будет обозначена как 0, ..., n - 1. Это полезно, если объединяются объекты, в которых ось конкатенации не имеет значимой информации об индексировании. Обратите внимание, что значения индексов на других осях по-прежнему учитываются при соединении.
keys=None|создает иерархический индекс, используя переданные ключи в качестве самого внешнего уровня. Если пройдено несколько уровней, должен содержать кортежи.
levels=None|конкретные уровни (уникальные значения), используемые для создания MultiIndex. В противном случае они будут выведены из ключей.
names=None|имена уровней в результирующем иерархическом индексе.
verify_integrity=False|проверяет, нет ли дубликатов на новой объединенной оси. Это дорогостоящая операция по сравнению с фактической конкатенацией данных.
sort=False|сортирует ось перед конкатенацией, если она еще не выровнена.
copy=None|если False, не копирует данные без необходимости.

In [None]:
pd.concat((df, data['Специальность']), ignore_index=False, sort=False, axis=1)

Unnamed: 0,№,ЛД,Рейтинг,Факультет,Форма обучения,Статус,Дата создания,Специальность
0,31297.0,2918М,77.93,Филфак,заочная,В приказ,24.06.2019 10:11,
1,41155.0,2919М,86.52,Экономфак,заочная,В приказ,04.09.2019 11:44,
2,31366.0,2920М,61.23,Юрфак,заочная,В приказ,24.06.2019 13:46,
3,31384.0,2921М,67.92,Юрфак,заочная,В приказ,24.06.2019 14:18,
4,31411.0,2922М,79.29,ФДиПО,заочная,В приказ,24.06.2019 15:18,
...,...,...,...,...,...,...,...,...
41392,,,,,,,,Юриспруденция
41393,,,,,,,,Специальное (дефектологическое) образование
41394,,,,,,,,Педагогическое образование (Профиль: Математик...
41397,,,,,,,,Менеджмент (Профиль: Маркетинг)


Метод `concat()` осуществляет присоединение на базе индекса, поэтому индесы, в нашем случае для строк, необходимо привестив соответсвие в обоих наборах данных. В датасете естьпервичный ключ - столбец `№`, на базе которого можно провести сопоставление строк.

In [None]:
df.index = df['№']
df_ = data['Специальность']
df_.index = data['№']
df_ = pd.concat((df, data['Специальность']), ignore_index=False, sort=False, axis=1, join='inner')
df_ = df_.reset_index(drop=True)

df_

Unnamed: 0,№,ЛД,Рейтинг,Факультет,Форма обучения,Статус,Дата создания,Специальность
0,31297,2918М,77.93,Филфак,заочная,В приказ,24.06.2019 10:11,Психология
1,41155,2919М,86.52,Экономфак,заочная,В приказ,04.09.2019 11:44,Государственное и муниципальное управление
2,31366,2920М,61.23,Юрфак,заочная,В приказ,24.06.2019 13:46,Юриспруденция
3,31384,2921М,67.92,Юрфак,заочная,В приказ,24.06.2019 14:18,Юриспруденция
4,31411,2922М,79.29,ФДиПО,заочная,В приказ,24.06.2019 15:18,Педагогическое образование (Профиль: Управлени...
...,...,...,...,...,...,...,...,...
1224,41285,4349М,65.64,Физтех,очная,В приказ,05.09.2019 11:45,Педагогическое образование (Профиль: Информати...
1225,41307,4350М,63.76,Пединститут,заочная,В приказ,05.09.2019 13:59,Специальное (дефектологическое) образование (П...
1226,41371,4351М,82.18,Экономфак,заочная,В приказ,08.10.2019 9:52,Экономика (Профиль: Международная экономика)
1227,41374,4352М,93.47,Экономфак,заочная,В приказ,08.10.2019 11:43,Государственное и муниципальное управление


**ВАЖНО!!!** В настоящее время функция concat() **единственный** способ добавить строку к датасету.

Добавим абитуриентов, которые не прошли конкурс.

In [None]:
df_ = data[(data['Комиссия'] == 'Магистры') &
          (data['Статус'] != 'В приказ')][["№", "ЛД", "Рейтинг", "Факультет", "Форма обучения", 'Статус', "Дата создания"]]
df_ = df_.reset_index(drop=True)

df_

Unnamed: 0,№,ЛД,Рейтинг,Факультет,Форма обучения,Статус,Дата создания
0,31350,2919М,14.52,Экономфак,заочная,Отменено,24.06.2019 12:11
1,31348,2919М,74.02,Юрфак,заочная,Отклонено,24.06.2019 12:09
2,33106,2936М,93.86,ФИЯ,очная,Отклонено,01.07.2019 10:00
3,33115,2937М,15.83,Филфак,заочная,Отменено,01.07.2019 10:14
4,33181,2937М,53.83,Филфак,заочная,Отменено,01.07.2019 10:46
...,...,...,...,...,...,...,...
978,41191,4338М,19.60,Экономфак,заочная,Отказ,04.09.2019 13:13
979,41210,4339М,73.50,Филфак,заочная,Отклонено,04.09.2019 14:01
980,41213,4340М,33.82,Юрфак,заочная,Отказ,04.09.2019 14:09
981,41368,4340М,13.32,Экономфак,заочная,Отменено,07.09.2019 13:42


In [None]:
df_ = pd.concat((df, df_), ignore_index=False, sort=True, axis=0)
df_ = df_.reset_index(drop=True)

df_

Unnamed: 0,Дата создания,ЛД,Рейтинг,Статус,Факультет,Форма обучения,№
0,24.06.2019 10:11,2918М,77.93,В приказ,Филфак,заочная,31297
1,04.09.2019 11:44,2919М,86.52,В приказ,Экономфак,заочная,41155
2,24.06.2019 13:46,2920М,61.23,В приказ,Юрфак,заочная,31366
3,24.06.2019 14:18,2921М,67.92,В приказ,Юрфак,заочная,31384
4,24.06.2019 15:18,2922М,79.29,В приказ,ФДиПО,заочная,31411
...,...,...,...,...,...,...,...
2207,04.09.2019 13:13,4338М,19.60,Отказ,Экономфак,заочная,41191
2208,04.09.2019 14:01,4339М,73.50,Отклонено,Филфак,заочная,41210
2209,04.09.2019 14:09,4340М,33.82,Отказ,Юрфак,заочная,41213
2210,07.09.2019 13:42,4340М,13.32,Отменено,Экономфак,заочная,41368


## 2. Соединение

При соединении двух наборов направление копирования записей имеет значение. По умолчанию используются только индексы первого объекта `DataFrame`. Такого рода операция называется левым соединением (*left join*):

In [None]:
df1 = pd.DataFrame(['100', '200', '300', '400'], index=['a', 'b', 'c', 'd'], columns=['A',])
df1

Unnamed: 0,A
a,100
b,200
c,300
d,400


In [None]:
df2 = pd.DataFrame(['200', '150', '50'], index=['f', 'b', 'd'], columns=['B',])
df2

Unnamed: 0,B
f,200
b,150
d,50


In [None]:
df1.join(df2)

Unnamed: 0,A,B
a,100,
b,200,150.0
c,300,
d,400,50.0


In [None]:
df2.join(df1)

Unnamed: 0,B,A
f,200,
b,150,200.0
d,50,400.0


Метод `join()` поддерживает четыре способа соединения, которые различаются способом обработки индексов и приводят к разным результатам.

In [None]:
df1.join(df2, how='left')

Unnamed: 0,A,B
a,100,
b,200,150.0
c,300,
d,400,50.0


In [None]:
df1.join(df2, how='right')

Unnamed: 0,A,B
f,,200
b,200.0,150
d,400.0,50


In [None]:
df1.join(df2, how='inner')

Unnamed: 0,A,B
b,200,150
d,400,50


In [None]:
df1.join(df2, how='outer')

Unnamed: 0,A,B
a,100.0,
b,200.0,150.0
c,300.0,
d,400.0,50.0
f,,200.0


Допускается соединение с пустым объектом `DataFrame`. В таком случае столбцы создаются в порядке указания, что напоминает левое соединение:

In [None]:
df = pd.DataFrame()
df['A'] = df1['A']
df['B'] = df2['B']

df

Unnamed: 0,A,B
a,100,
b,200,150.0
c,300,
d,400,50.0


Использование словаря для объединения наборов данных приводит к результату, аналогичному внешнему соединению, поскольку в таком случае столбцы создаются одновременно:

In [None]:
df = pd.DataFrame({'А': df1['A'], 'В': df2['B']})

df

Unnamed: 0,А,В
a,100.0,
b,200.0,150.0
c,300.0,
d,400.0,50.0
f,,200.0


## 3. Слияние

Если при соединении `.join` учитываются индексы объектов `DataFrame`, то при слиянии учитываются совпадающие столбцы. Чтобы продемонстрировать это, добавим в оба исходных объекта `DataFrame` новый столбец `С`.

In [None]:
c = pd.Series([250, 150, 50], index=['b', 'd', 'с'])
df1['C'] = c
df2['C'] = c

In [None]:
c

b    250
d    150
с     50
dtype: int64

In [None]:
df1

Unnamed: 0,A,C
a,100,
b,200,250.0
c,300,
d,400,150.0


In [None]:
df2

Unnamed: 0,B,C
f,200,
b,150,250.0
d,50,150.0


По умолчанию операция слияния выполняется по единственному общему столбцу `С`. Но есть и другие варианты, например внешнее слияние.

In [None]:
pd.merge(df1, df2)

Unnamed: 0,A,C,B
0,100,,200
1,200,250.0,150
2,300,,200
3,400,150.0,50


или (по умолчанию общий столбец)

In [None]:
pd.merge(df1, df2, on='C')

Unnamed: 0,A,C,B
0,100,,200
1,200,250.0,150
2,300,,200
3,400,150.0,50


In [None]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,A,C,B
0,400,150.0,50
1,200,250.0,150
2,100,,200
3,300,,200


Другие способы слияния таблиц продемонстрированы ниже:

In [None]:
pd.merge(df1, df2, left_on='A', right_on='B')

Unnamed: 0,A,C_x,B,C_y
0,200,250.0,200,


In [None]:
pd.merge(df1, df2, left_on='A', right_on='B', how='outer')

Unnamed: 0,A,C_x,B,C_y
0,100.0,,,
1,,,150.0,250.0
2,200.0,250.0,200.0,
3,300.0,,,
4,400.0,150.0,,
5,,,50.0,150.0


In [None]:
pd.merge(df1, df2, left_index=True, right_index=True)

Unnamed: 0,A,C_x,B,C_y
b,200,250.0,150,250.0
d,400,150.0,50,150.0


## 4. Сводные таблицы

Сводные таблицы позволяют создавать столбцы на основе повторяющихся данных, используя их для группировки:

In [None]:
data[['Date', 'Time']] = data['Дата создания'].str.split(expand=True)
data[['Hours', 'Minutes']] = data['Time'].str.split(":", expand=True)

data['Date'] = pd.to_datetime(data['Date'], format='%d.%m.%Y')
data['Hours'] = data['Hours'].astype(int)

df = data[['ЛД', 'Date', 'Hours']]

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12352 entries, 0 to 12351
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   ЛД      12352 non-null  object        
 1   Date    12352 non-null  datetime64[ns]
 2   Hours   12352 non-null  int32         
dtypes: datetime64[ns](1), int32(1), object(1)
memory usage: 241.4+ KB


In [None]:
df.pivot_table(index='Date', columns='Hours', values='ЛД', aggfunc=['count'])

Unnamed: 0_level_0,count,count,count,count,count,count,count,count,count,count,count,count,count
Hours,8,9,10,11,12,13,14,15,16,17,18,19,20
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
2019-01-09,,1.0,,,,,,1.0,,,,,
2019-01-10,,,,,,,1.0,2.0,,,,,
2019-01-11,,,,1.0,,1.0,,,,,,,
2019-01-14,,,1.0,,,,,,,,,,
2019-01-15,,,,1.0,,1.0,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019-09-04,,10.0,20.0,22.0,22.0,25.0,28.0,11.0,3.0,,1.0,,
2019-09-05,,9.0,12.0,18.0,6.0,14.0,8.0,11.0,2.0,1.0,,,
2019-09-06,,1.0,4.0,1.0,3.0,4.0,7.0,2.0,,,,,
2019-09-07,,,1.0,2.0,2.0,6.0,2.0,,,1.0,,,


[Дополнительно по сводным таблицам можно посмотреть:](https://dfedorov.spb.ru/pandas/%D0%A1%D0%B2%D0%BE%D0%B4%D0%BD%D0%B0%D1%8F%20%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D0%B0%20%D0%B2%20pandas.html)