<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/%D1%83%D0%BF%D1%80%D0%B0%D0%B6%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F/4.%20%D0%A1%D0%B2%D0%BE%D0%B4%D0%BD%D1%8B%D0%B5%20%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D1%8B.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory" target="_blank"></a>

Исходные данные представлены в виде плоской таблицы:

In [1]:
import pandas as pd

url = 'https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/football.csv'

df = pd.read_csv(url)
df.head()

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13


Функция [`pivot_table`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html) позволяет быстро и просто составлять сводные таблицы: 

In [6]:
pivot = df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])].\
                pivot_table(values='Wage',
                            index='Nationality',
                            columns='Club',
                            aggfunc=sum)

pivot

Club,FC Barcelona,Juventus,Manchester United,Real Madrid
Nationality,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Argentina,565000.0,205000.0,206000.0,
Belgium,110000.0,,230000.0,240000.0
Bosnia Herzegovina,,180000.0,,
Brazil,465000.0,335000.0,91000.0,570000.0
Chile,205000.0,,215000.0,
Costa Rica,,,,195000.0
Croatia,260000.0,160000.0,,420000.0
Dominican Republic,,,,140000.0
Ecuador,,,120000.0,
England,,,478000.0,


Для начала разберем конструкцию: 

```Python
df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])]
```

Она позволяет отфильтровать датафрейм по колонке `Club`, где значение в колонке соответствует одному из перечисленных в массиве клубов.

Посмотрим на параметры

```Python
pivot_table(values=['Wage'], index=['Nationality'], columns=['Club'], aggfunc='sum')
```

- В `values` передаем ту колонку, по которой нужно строить сводные данные, применяя агрегирующую функцию сумма.
- В `index` передадим ту колонку, данные которой будут представлены строками сводной таблицы.
- В `columns` передаем колонку, значения которой будут в столбцах.
- В `aggfunc` передаем агрегирующую функцию. 

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/%D1%81%D0%BB%D0%BE%D0%B6%D0%BD%D1%8B%D0%B5%20%D1%82%D0%B5%D0%BC%D1%8B%20pandas/pic/pivot.png">

Для того, чтобы добавить столбец и строку с итоговыми значениями, нужно добавить параметр `margins=True`:

In [7]:
pivot = df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])].\
                pivot_table(values='Wage',
                            index='Nationality',
                            columns='Club',
                            aggfunc=sum,
                            margins=True)

pivot

Club,FC Barcelona,Juventus,Manchester United,Real Madrid,All
Nationality,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Argentina,565000.0,205000.0,206000.0,,976000
Belgium,110000.0,,230000.0,240000.0,580000
Bosnia Herzegovina,,180000.0,,,180000
Brazil,465000.0,335000.0,91000.0,570000.0,1461000
Chile,205000.0,,215000.0,,420000
Costa Rica,,,,195000.0,195000
Croatia,260000.0,160000.0,,420000.0,840000
Dominican Republic,,,,140000.0,140000
Ecuador,,,120000.0,,120000
England,,,478000.0,,478000


### Задание 1

Сводная таблица, показывающая максимальные зарплаты игроков на разных позициях, играющих за разные клубы, была создана с помощью кода:

```Python
df2 = df.pivot_table(columns='Position', index='Club', values='Wage', aggfunc='max')
```

С помощью какого кода можно получить из этой таблицы информацию о максимальной зарплате вратаря (`GK`), играющего за футбольный клуб `"Manchester City"`?

Обратите внимание, что в датафрейме получилось много `NaN` (`Not a Number`). Это означает, что на пересечении строки и столбца нет данных, например, в клубе `Juventus` нет футболистов из `Бельгии`:

In [8]:
pivot.loc['Belgium'] 

Club
FC Barcelona         110000.0
Juventus                  NaN
Manchester United    230000.0
Real Madrid          240000.0
All                  580000.0
Name: Belgium, dtype: float64

Для того, чтобы заменить `NaN` на `0`, можно применить дополнительный параметр `fill_value`. Этот параметр принимает значение, которым нужно заполнить все `NaN` в получившейся сводной таблице:

In [None]:
pivot = df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])].\
                pivot_table(values='Wage',
                            index='Nationality',
                            columns='Club',
                            aggfunc=sum,
                            margins=True,
                            fill_value=0)

pivot

### Задание 1

Создайте сводную таблицу, содержащую сведения о количестве игроков, занимающих разные позиции в каждом клубе. Отсутствующие значения замените нулями.

Каково среднее количество вратарей (`GK`) в клубе? Ответ округлите до трёх цифр после запятой.

### Задание 2

Используя таблицу, созданную на предыдущем шаге, определите, сколько клубов не содержат данных о центральных полузащитниках (`CM`).

Подсказка: для выполнения этого задания желательно сохранить сводную таблицу в виде отдельного датафрейма и сгруппировать часть данных этого датафрейма с помощью `value_counts()`.

### Задача 1

С помощью сводной таблицы и функции `loc` посчитайте, сколько получают (`"Wage"`) русские футболисты (`"Russia"`), играющие за `ФК "AS Monaco"`.