Сводные таблицы — это распространенный инструмент для агрегации данных. Мы чаще сталкиваемся со сводными таблицами, чем с обычными таблицами в плоском виде, потому что они удобнее для анализа и быстрых выводов. Инструмент сводных таблиц также широко популярен среди тех, кто использует Excel или какие-либо BI-системы.

Типичным способом представления и хранения данных является плоская таблица. Такая таблица содержит данные по наблюдениям, где уникальные наблюдения (футболисты) располагаются в строках, а в столбцах содержатся какие-то атрибуты (параметры) этого наблюдения. Наши исходные данные представлены в виде плоской таблицы:

In [1]:
import pandas as pd

football = pd.read_csv('../data/football.csv')
football.head()

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13


Функция pivot_table позволяет быстро и просто составлять сводные таблицы. Попробуем сформировать таблицу, которая представлена выше:

In [None]:
pivot = df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])].pivot_table(values=['Wage'],
index=['Nationality'],
columns=['Club'],
aggfunc='sum')
pivot

Для начала разберем конструкцию df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])]. Она позволяет отфильтровать датафрейм по колонке Club, где значение в колонке соответствует одному из перечисленных в массиве клубов.

Дальше посмотрим на параметры функции pivot_table:

- В параметр values мы передаем ту колонку, по которой нам нужно строить сводные данные, применяя агрегирующую функцию сумма.
- В параметр index передадим ту колонку, данные которой будут представлены строками сводной таблицы.
- В параметр columns передаем колонку, значения которой будут в столбцах.
- В параметр aggfunc передаем агрегирующую функцию. Помните, мы проходили их, когда рассматривали функцию groupby? Все эти функции можно применять и при построении сводных таблиц.

Для того, чтобы добавить столбец и строку с итоговыми значениями, нужно добавить параметр margins=True:

In [None]:
pivot = df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])].pivot_table(values=['Wage'],
index=['Nationality'],
columns=['Club'],
aggfunc='sum',
margins=True)
pivot

### Задание 1

Сводная таблица, показывающая максимальные зарплаты игроков на разных позициях, играющих за разные клубы, была создана с помощью кода:

df2 = df.pivot_table(columns = 'Position', index = 'Club', values = 'Wage', aggfunc = 'max')

С поомщью какого кода можно получить из этой таблицы информацию о максимальной зарплате вратаря (GK), играющего за футбольный клуб "Manchester City"?

### Замена отсутствующих значений

Обратите внимание, что в нашем датафрейме получилось много NaN (Not a Number). Это означает, что на пересечении строки и столбца нет данных, например, в клубе Juventus нет футболистов из Бельгии:

In [None]:
pivot.loc['Belgium'] 

Для того, чтобы заменить NaN на 0, можно применить дополнительный параметр fill_value. Этот параметр принимает значение, которым нужно заполнить все NaN в получившейся сводной таблице:

In [None]:
pivot = df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])].pivot_table(values=['Wage'],
index=['Nationality'],
columns=['Club'],
aggfunc='sum',
margins=True,
fill_value=0)
display(pivot)

### Задание 1

Создайте сводную таблицу, содержащую сведения о количестве игроков, занимающих разные позиции в каждом клубе. Отсутствующие значения замените нулями.

Каково среднее количество вратарей (GK) в клубе? Ответ округлите до трёх цифр после запятой.

### Задание 2

Используя таблицу, созданную на предыдущем шаге, определите, сколько клубов не содержат данных о центральных полузащитниках. (CM)

Подсказка: для выполнения этого задания желательно сохранить сводную таблицу в виде отдельного датафрейма и сгруппировать часть данных этого датафрейма с помощью value_counts().

### Задача 1

С помощью сводной таблицы и функции loc посчитайте, сколько получают ("Wage") русские футболисты ("Russia"), играющие за ФК "AS Monaco".