# Working with tables

In [82]:
import pandas as pd

In [83]:
tables = pd.read_html('https://www.finam.ru/quotes/stocks/russia/') 

In [84]:
# Изучаем содержимое объекта tables
df = tables[0]
df

Unnamed: 0.1,Unnamed: 0,Инструмент,"Посл. сделка, ₽",% Изм. цены,Открытие,Макс.,Мин.,Закрытие,"Объем, шт.",Время обн.
0,,+МосЭнергоПотенциал:+7%,2.054 ₽,0.74%,,,,2.054,,22.09 18:48
1,,Activision,6284,1.35%,,,,6284.0,,22.09 23:46
2,,AGRO-гдрПотенциал:+26%,735.4 ₽,0.49%,727.2,735.4,727.2,731.8,685,23.09 10:02
3,,Amazon,239000,5.91%,,,,239000.0,,22.09 23:34
4,,AMD Inc.,5915,-0.17%,,,,5915.0,,22.09 23:43
5,,Apple,8481,1.7%,,,,8481.0,,22.09 23:49
6,,ATT,2176,-0.55%,,,,2176.0,,22.09 23:46
7,,Boeing,11951,-0.32%,,,,11951.0,,22.09 23:37
8,,Disney,9640,-0.61%,,,,9640.0,,22.09 23:46
9,,ENPL-гдр,531.2 ₽,0.45%,,,,531.2,,14.04 18:49


In [85]:
#Выведем на экран
df.head()

Unnamed: 0.1,Unnamed: 0,Инструмент,"Посл. сделка, ₽",% Изм. цены,Открытие,Макс.,Мин.,Закрытие,"Объем, шт.",Время обн.
0,,+МосЭнергоПотенциал:+7%,2.054 ₽,0.74%,,,,2.054,,22.09 18:48
1,,Activision,6284,1.35%,,,,6284.0,,22.09 23:46
2,,AGRO-гдрПотенциал:+26%,735.4 ₽,0.49%,727.2,735.4,727.2,731.8,685.0,23.09 10:02
3,,Amazon,239000,5.91%,,,,239000.0,,22.09 23:34
4,,AMD Inc.,5915,-0.17%,,,,5915.0,,22.09 23:43


In [86]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Unnamed: 0       0 non-null      float64
 1   Инструмент       30 non-null     object 
 2   Посл. сделка, ₽  30 non-null     object 
 3   % Изм. цены      30 non-null     object 
 4   Открытие         5 non-null      float64
 5   Макс.            5 non-null      float64
 6   Мин.             5 non-null      float64
 7   Закрытие         30 non-null     float64
 8   Объем, шт.       5 non-null      object 
 9   Время обн.       30 non-null     object 
dtypes: float64(5), object(5)
memory usage: 2.5+ KB


In [87]:
#Проанализируем изменение цены. min() max()
df['% Изм. цены'] = df.apply(lambda row: row['% Изм. цены'][:-1], axis=1)
df['% Изм. цены'] = df['% Изм. цены'].astype('float')

In [88]:
df['% Изм. цены'].min()

-4.17

## Pandas: Series

Series можно рассматривать как одну колонку таблицы, это одномерный массив. На предыдущих уроках мы уже познакомились с похожим одномерным типом данных — списком.

В списке мы могли обращаться к элементу по его индексу, который всегда был порядковым номером элемента. В отличие от списка, в Series индексами могут быть не только порядковые номера, но что угодно другое, например даты, названия компаний, идентификаторы участников опроса и т.д.

Создать Series можно с помощью команды pd.Series() (или pandas.Series()), если библиотека pandas была импортирована без использования псевдонима.

Попробуем создать Series, содержащий названия первых четырёх месяцев года, передав их в виде списка.

Если не указывать индекс, то он будет создан автоматически и в нём будут порядковые номера элементов, начиная с нуля.

In [89]:
data = pd.Series(["January", "February", "March", "Aprel"],
                 index = ['Ferst', "Second", "Third", "Fourth"])

display(data)

Ferst      January
Second    February
Third        March
Fourth       Aprel
dtype: object

## Pandas: DataFrame

Объект **DataFrame** лучше всего представлять себе в виде обычной таблицы. В таблице присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

In [90]:
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(d)
display(df)

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [91]:
df = pd.DataFrame([ [1,2,3], [2,3,4] ],
                  columns = ['foo', 'bar', 'baz'], 
                  index = ['foobar', 'foobaz'])

display(df)

Unnamed: 0,foo,bar,baz
foobar,1,2,3
foobaz,2,3,4


## Pandas: read_csv

Функция возвращает DataFrame (то есть таблицу), однако затем приобретает ещё много важных параметров, среди которых:

- **sep** — разделитель данных, по умолчанию ',';
- **decimal** — разделитель числа на целую и дробную часть, по умолчанию'.';
- **names** — список с названиями колонок, не обязательный параметр;
- **skiprows** — если файл содержит системную информацию, можно просто её пропустить. Не обязательный параметр.

Дополнительные параметры можно посмотреть в [официальной документации.](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [92]:
df = pd.read_csv('../data/data_sf.csv')
display(df)

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12892,13121,J. Lundstram,19,England,Crewe Alexandra,1100000,1000,CM,34,38,...,43,45,40,48,47,10,13,7,8,9
12893,13122,N. Christoffersson,19,Sweden,Trelleborgs FF,60000,1000,ST,23,52,...,43,42,22,15,19,10,9,9,5,12
12894,13123,B. Worman,16,England,Cambridge United,60000,1000,ST,25,40,...,55,41,32,13,11,6,5,10,6,13
12895,13124,D. Walker-Rice,17,England,Tranmere Rovers,60000,1000,RW,44,50,...,50,46,20,25,27,14,6,14,8,9


## Pandas: head и tail

Часто после чтения данных с помощью read_csv() хочется убедиться в правильности чтения или, к примеру, посмотреть, что лежит в наборе данных. 

Для этого используются методы .head() или .tail(), которые показывают первые или последние 5 строк таблицы. Количество строк можно менять параметром n, передаваемым в функцию. 

In [93]:
display(df.head())

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13


In [94]:
display(df.tail(7))

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
12890,13119,J. Young,18,Scotland,Swindon Town,450000,1000,ST,28,47,...,58,50,15,17,14,11,15,12,12,11
12891,13120,D. Walsh,18,Republic of Ireland,Waterford FC,60000,1000,RB,22,23,...,38,43,44,47,53,9,10,9,11,13
12892,13121,J. Lundstram,19,England,Crewe Alexandra,1100000,1000,CM,34,38,...,43,45,40,48,47,10,13,7,8,9
12893,13122,N. Christoffersson,19,Sweden,Trelleborgs FF,60000,1000,ST,23,52,...,43,42,22,15,19,10,9,9,5,12
12894,13123,B. Worman,16,England,Cambridge United,60000,1000,ST,25,40,...,55,41,32,13,11,6,5,10,6,13
12895,13124,D. Walker-Rice,17,England,Tranmere Rovers,60000,1000,RW,44,50,...,50,46,20,25,27,14,6,14,8,9
12896,13125,G. Nugent,16,England,Tranmere Rovers,60000,1000,CM,41,34,...,33,43,40,43,50,10,15,9,12,9


## Pandas: info

Если хочется получить более детальную информацию о колонках DataFrame, используется метод .info()

**.info()** можно передать дополнительные параметры, среди которых:
- **verbose**: печатать ли информацию о DataFrame полностью (если таблица очень большая, то некоторая информация может потеряться);
- **memory_usage**: печатать ли потребление памяти (по умолчанию используется True, но можно поставить либо False, что уберёт потребление памяти, либо 'deep' , что подсчитает потребление памяти более точно);
- **null_counts**: подсчитывать ли количество пустых элементов (по умолчанию True).

In [95]:
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12897 entries, 0 to 12896
Data columns (total 42 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Unnamed: 0       12897 non-null  int64 
 1   Name             12897 non-null  object
 2   Age              12897 non-null  int64 
 3   Nationality      12897 non-null  object
 4   Club             12897 non-null  object
 5   Value            12897 non-null  int64 
 6   Wage             12897 non-null  int64 
 7   Position         12897 non-null  object
 8   Crossing         12897 non-null  int64 
 9   Finishing        12897 non-null  int64 
 10  HeadingAccuracy  12897 non-null  int64 
 11  ShortPassing     12897 non-null  int64 
 12  Volleys          12897 non-null  int64 
 13  Dribbling        12897 non-null  int64 
 14  Curve            12897 non-null  int64 
 15  FKAccuracy       12897 non-null  int64 
 16  LongPassing      12897 non-null  int64 
 17  BallControl      12897 non-null

None

## Pandas: describe

Метод **describe** показывает основные статистические характеристики данных по каждому числовому признаку (типы int64 и float64): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [96]:
df.describe()

Unnamed: 0.1,Unnamed: 0,Age,Value,Wage,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
count,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,...,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0
mean,6605.040862,24.795379,2112449.0,7517.562224,47.076374,42.876328,50.202528,56.026983,40.29503,52.461735,...,46.459874,55.942932,45.655811,46.18671,44.386679,17.218345,16.962317,16.797938,16.950221,17.315965
std,3782.545526,4.872212,6498424.0,23061.985387,18.04347,19.096935,17.281593,14.740436,17.080687,18.871643,...,15.479313,11.280631,19.456346,21.172586,20.726546,18.085618,17.349624,16.971411,17.369297,18.335817
min,0.0,16.0,0.0,1000.0,5.0,2.0,4.0,7.0,4.0,4.0,...,5.0,12.0,3.0,2.0,3.0,1.0,1.0,1.0,1.0,1.0
25%,3357.0,21.0,250000.0,1000.0,35.0,28.0,43.0,50.0,28.0,45.0,...,37.0,49.0,29.0,25.0,23.0,8.0,8.0,8.0,8.0,8.0
50%,6622.0,24.0,500000.0,2000.0,51.0,45.0,54.0,60.0,41.0,58.0,...,47.0,56.0,51.0,54.0,51.0,11.0,11.0,11.0,11.0,11.0
75%,9876.0,28.0,850000.0,4000.0,61.0,59.0,62.0,65.0,53.0,65.0,...,58.0,63.0,62.0,64.0,62.0,14.0,14.0,14.0,14.0,14.0
max,13125.0,45.0,118500000.0,565000.0,93.0,95.0,94.0,93.0,90.0,97.0,...,91.0,96.0,93.0,93.0,91.0,90.0,92.0,91.0,90.0,94.0


Здесь для каждого числового (int64) столбца показано число непустых значений (count), среднее (mean), стандартное отклонение (std), минимум и максимум (min и max), 25% и 75% квартили и медиана (50%). 

Подробнее про стандартное отклонение можно прочитать [тут](https://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5), а про квартили [здесь](https://www.mathsisfun.com/data/quartiles.html).

Чтобы посмотреть статистику по нечисловым признакам (например, по строчным (object) или булевым (bool) данным), нужно явно указать интересующие нас типы в параметре метода describe **include**:

In [97]:
df.describe(include = ['object'])

Unnamed: 0,Name,Nationality,Club,Position
count,12897,12897,12897,12897
unique,12326,156,650,27
top,J. Rodríguez,England,V-Varen Nagasaki,GK
freq,9,1368,30,1641


Здесь для каждой колонки с типом object (строчные данные) выводится количество непустых строк, уникальных значений, самое частое значение (top) и частота этого значения (freq).

Чтобы вывести информацию целиком, а не в обрезанном виде, можно написать:

In [98]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    display(df.describe())

Unnamed: 0.1,Unnamed: 0,Age,Value,Wage,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,Curve,FKAccuracy,LongPassing,BallControl,Acceleration,SprintSpeed,Agility,Reactions,Balance,ShotPower,Jumping,Stamina,Strength,LongShots,Aggression,Interceptions,Positioning,Vision,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
count,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0
mean,6605.040862,24.795379,2112449.0,7517.562224,47.076374,42.876328,50.202528,56.026983,40.29503,52.461735,44.264403,40.321625,50.115143,55.463596,63.109715,63.205629,61.819648,59.430565,63.171978,52.530666,64.285415,61.123052,64.271614,43.971931,53.777933,44.87594,47.166008,50.843374,46.459874,55.942932,45.655811,46.18671,44.386679,17.218345,16.962317,16.797938,16.950221,17.315965
std,3782.545526,4.872212,6498424.0,23061.985387,18.04347,19.096935,17.281593,14.740436,17.080687,18.871643,17.781283,16.718481,15.21516,16.692643,15.129988,14.903845,14.858729,8.875832,14.1907,16.975214,11.765467,16.194498,12.550696,18.769749,17.232716,20.188799,19.245882,13.74596,15.479313,11.280631,19.456346,21.172586,20.726546,18.085618,17.349624,16.971411,17.369297,18.335817
min,0.0,16.0,0.0,1000.0,5.0,2.0,4.0,7.0,4.0,4.0,6.0,3.0,9.0,5.0,12.0,12.0,15.0,21.0,16.0,2.0,15.0,12.0,17.0,3.0,11.0,3.0,2.0,10.0,5.0,12.0,3.0,2.0,3.0,1.0,1.0,1.0,1.0,1.0
25%,3357.0,21.0,250000.0,1000.0,35.0,28.0,43.0,50.0,28.0,45.0,32.0,29.0,40.0,51.0,55.0,55.0,53.0,54.0,55.0,42.0,57.0,54.0,57.0,29.0,41.0,24.0,35.0,42.0,37.0,49.0,29.0,25.0,23.0,8.0,8.0,8.0,8.0,8.0
50%,6622.0,24.0,500000.0,2000.0,51.0,45.0,54.0,60.0,41.0,58.0,45.0,39.0,53.0,60.0,66.0,66.0,64.0,59.0,65.0,56.0,65.0,64.0,65.0,47.0,56.0,51.0,52.0,52.0,47.0,56.0,51.0,54.0,51.0,11.0,11.0,11.0,11.0,11.0
75%,9876.0,28.0,850000.0,4000.0,61.0,59.0,62.0,65.0,53.0,65.0,58.0,52.0,61.0,65.0,74.0,73.0,72.0,65.0,73.0,65.0,72.0,72.0,73.0,59.0,67.0,62.0,61.0,60.0,58.0,63.0,62.0,64.0,62.0,14.0,14.0,14.0,14.0,14.0
max,13125.0,45.0,118500000.0,565000.0,93.0,95.0,94.0,93.0,90.0,97.0,93.0,94.0,93.0,96.0,97.0,96.0,96.0,96.0,96.0,95.0,95.0,96.0,97.0,94.0,95.0,92.0,95.0,94.0,91.0,96.0,93.0,93.0,91.0,90.0,92.0,91.0,90.0,94.0


## Pandas: statistic methods

Для вычисления отдельных статистических параметров DataFrame можно использовать не только метод .describe(), но и отдельные методы для каждого параметра:

| Метод | Статистический параметр |
| :-- | :-- |
| .max() | Максимум |
| .min() | Минимум |
| .mean() | Среднее значение |
| .sum() | Сумма |
| .count() | Количество непустых элементов |
| .std() | Стандартное отклонение |

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series. В случае применения метода к отдельному столбцу, результатом вычислений станет число (среднее значение элементов столбца, минимум, максимум и т.п.).

В каждый метод можно передать некоторые параметры, среди которых:

- **axis** — определяет, подсчитывать максимум по строкам (1) или по столбцам (0) (по умолчанию 0);
- **numeric_only** — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False). Если передать False в методы **.mean()** или **.std()**, компилятор выдаст ошибку. 

Пример применения: 

In [99]:
df2 = pd.DataFrame([[i, i+1.2, i+2, 'hi'] for i in range(10)],
                  columns = ['foo', 'bar', 'baz', 'foobar'])
df2.mean()

foo    4.5
bar    5.7
baz    6.5
dtype: float64

Здесь вычисляется среднее по столбцам (так как не передан параметр axis), причем только по числовым столбцам, так как метод .mean() не может применяться к столбцам с другим типом.

 Доступ к колонке можно получить разными способами: df['column_name'] или df.column_name. Например, так:

In [100]:
# df2['bar']
df2.bar

0     1.2
1     2.2
2     3.2
3     4.2
4     5.2
5     6.2
6     7.2
7     8.2
8     9.2
9    10.2
Name: bar, dtype: float64

Как мы помним, колонки в DataFrame представляют собой Series, поэтому к ним можно применять методы .max(), .std() и другие.

In [101]:
# Эта операция выведет на экран среднее по колонке 'bar', то есть 5.7.
df2.bar.mean()

5.7

#### Каково количество непустых строк в колонке Composure (Хладнокровие) набора данных о футболистах?

In [102]:
df['Composure'].count()

12897

#### Чему равен средний возраст (Age), футболистов в наборе данных, округлённый до целого?

In [103]:
df['Age'].mean()

24.795378770256647

#### Каково в наборе данных о футболистах стандартное отклонение параметра коротких пасов (ShortPassing), округлённое до второго знака после запятой?

In [104]:
df['ShortPassing'].std()

14.740435689517149

#### Какова сумма заработных плат за год (Wage) в наборе данных о футболистах?

In [105]:
df['Wage'].sum()

96954000

#### Какова минимальная стоимость футболиста (Value) в наборе данных о футболистах?

In [106]:
df['Value'].min()

0

## Pandas: Как получить из DataFrame только нужные данные?

Часто возникает необходимость выбрать данные из DataFrame по определённому условию. Например, если в уже известном нам наборе данных о футболистах мы хотим выбрать только тех, у кого возраст больше 20 лет, используется следующий код:

In [107]:
df[df.Age > 20]

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12838,13067,D. Mackay,21,Scotland,Kilmarnock,30000,1000,GK,14,20,...,24,30,12,18,18,48,50,47,48,48
12857,13086,Wu Lei,21,China PR,Tianjin Quanjian FC,9000000,2000,LDM,52,29,...,46,39,52,40,49,8,15,11,8,5
12861,13090,Y. Uchimura,33,Japan,Hokkaido Consadole Sapporo,20000,1000,CAM,51,31,...,33,62,45,48,42,13,15,7,15,15
12870,13099,M. Hurst,22,Scotland,St. Johnstone FC,40000,1000,GK,19,15,...,29,28,12,15,16,45,49,50,50,45


Можно для фильтрации использовать и методы получения статистических параметров. Например, если нам нужны только те футболисты, возраст которых больше среднего возраста футболистов, можно использовать следующую конструкцию:

In [108]:
df[df.Age > df.Age.mean()]

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12746,12975,Teng Shangkun,27,China PR,Tianjin TEDA FC,20000,1000,GK,10,8,...,17,58,28,10,13,46,56,55,45,53
12749,12978,M. Mansour,26,Saudi Arabia,Al Batin,30000,2000,LB,36,18,...,33,37,45,54,54,10,8,6,13,13
12767,12996,Sun Qibin,26,China PR,Tianjin Quanjian FC,20000,2000,GK,14,7,...,12,30,46,11,10,50,46,51,48,50
12861,13090,Y. Uchimura,33,Japan,Hokkaido Consadole Sapporo,20000,1000,CAM,51,31,...,33,62,45,48,42,13,15,7,15,15


Условия можно и комбинировать, используя операторы & (логическое и) и | (логическое или). Условия при этом заключаются в скобки. Например, если мы хотим получить только тех футболистов, у которых возраст меньше среднего, или игроков 'FC Barcelona':

In [109]:
df[(df.Age < df.Age.mean())|(df.Club == 'FC Barcelona')]

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
7,7,L. Suárez,31,Uruguay,FC Barcelona,80000000,455000,RS,77,93,...,85,85,62,45,38,27,25,31,33,37
15,15,P. Dybala,24,Argentina,Juventus,89000000,205000,LF,82,84,...,86,84,23,20,20,5,4,4,5,8
16,16,H. Kane,24,England,Tottenham Hotspur,83500000,205000,ST,75,94,...,90,89,56,36,38,8,10,11,14,11
18,18,M. ter Stegen,26,Germany,FC Barcelona,58000000,240000,GK,15,14,...,25,69,25,13,10,87,85,88,85,90
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12892,13121,J. Lundstram,19,England,Crewe Alexandra,1100000,1000,CM,34,38,...,43,45,40,48,47,10,13,7,8,9
12893,13122,N. Christoffersson,19,Sweden,Trelleborgs FF,60000,1000,ST,23,52,...,43,42,22,15,19,10,9,9,5,12
12894,13123,B. Worman,16,England,Cambridge United,60000,1000,ST,25,40,...,55,41,32,13,11,6,5,10,6,13
12895,13124,D. Walker-Rice,17,England,Tranmere Rovers,60000,1000,RW,44,50,...,50,46,20,25,27,14,6,14,8,9


Статистические параметры можно посчитать и по отфильтрованному DataFrame, например среднюю заработную плату футболистов с возрастом меньше среднего и из 'FC Barcelona':

In [110]:
df[(df.Age < df.Age.mean())&(df.Club == 'FC Barcelona')].Wage.mean()

77454.54545454546

Здесь мы получили среднюю годовую заработную плату футболистов из клуба FC Barcelona, возраст которых меньше среднего [возраста футболистов всех клубов].

#### Какова средняя скорость (SprintSpeed) футболистов, зарплата (Wage) которых выше среднего? Ответ округлите до сотых.

In [111]:
df[(df.Wage > df.Wage.mean())].SprintSpeed.mean()

67.56638061585058

#### Какова средняя скорость (SprintSpeed) футболистов, зарплата (Wage) которых ниже среднего? Ответ округлите до сотых.

In [112]:
df[(df.Wage < df.Wage.mean())].SprintSpeed.mean()

62.41425430560645

#### Какую позицию (Position) занимает футболист с самой высокой зарплатой (Wage)?

In [113]:
df[(df.Wage == df.Wage.max())].Position

0    RF
Name: Position, dtype: object

#### Сколько пенальти (Penalties) забили бразильские (Nationality, Brazil) футболисты за период, данные о котором представлены в датасете?

In [114]:
df[(df.Nationality == 'Brazil')].Penalties.sum()

22789

#### Укажите средний возраст (Age) игроков, у которых точность удара головой (HeadingAccuracy) > 50. Ответ округлите до сотых.

In [115]:
df[(df.HeadingAccuracy > 50)].Age.mean()

25.58771113179944

#### Укажите возраст (Age) самого молодого игрока, у которого хладнокровие (Composure) и реакция (Reactions) превышают 90% от максимального значения, представленного в датасете.

In [116]:
df[(df.Composure > (df.Composure.max()*0.9))&(df.Reactions > (df.Reactions.max()*0.9))].Age.min()

24

#### Определите, насколько средняя реакция (Reactions) самых взрослых игроков (т.е. игроков, чей возраст (Age) равен максимальному) больше средней реакции самых молодых игроков. Ответ округлите до сотых.

In [117]:
df[df.Age == df.Age.max()].Reactions.mean() - df[df.Age == df.Age.min()].Reactions.mean()

22.642857142857146

#### Из какой страны (Nationality) происходит больше всего игроков, чья стоимость (Value) превышает среднее значение?

In [118]:
import collections

c = collections.Counter()

for nationality in df[df.Value > df.Value.mean()]['Nationality']:
    c[nationality] += 1

print(c)

Counter({'Spain': 211, 'Brazil': 130, 'France': 123, 'Argentina': 122, 'England': 113, 'Germany': 110, 'Colombia': 73, 'Italy': 71, 'Portugal': 64, 'Mexico': 52, 'Netherlands': 48, 'Belgium': 34, 'Chile': 31, 'Uruguay': 25, 'Denmark': 23, 'Croatia': 21, 'Senegal': 21, 'Serbia': 21, 'United States': 21, 'Switzerland': 19, 'Austria': 18, 'Sweden': 18, 'Turkey': 18, 'Japan': 17, 'Greece': 15, 'Ivory Coast': 15, 'Poland': 13, 'Norway': 13, 'Ukraine': 13, 'Morocco': 12, 'Cameroon': 12, 'Scotland': 12, 'Algeria': 11, 'Czech Republic': 11, 'Republic of Ireland': 10, 'Venezuela': 10, 'Wales': 9, 'Bosnia Herzegovina': 9, 'Ghana': 9, 'Guinea': 8, 'Ecuador': 8, 'Nigeria': 8, 'Russia': 8, 'Paraguay': 8, 'Australia': 8, 'DR Congo': 7, 'Peru': 7, 'Slovenia': 6, 'Mali': 6, 'Slovakia': 5, 'Korea Republic': 5, 'Finland': 4, 'Albania': 4, 'Romania': 4, 'Northern Ireland': 4, 'Canada': 4, 'Egypt': 3, 'Costa Rica': 3, 'Montenegro': 3, 'Zimbabwe': 3, 'New Zealand': 3, 'FYR Macedonia': 3, 'Gabon': 2, 'Angol

#### Определите, во сколько раз средняя зарплата (Wage) голкипера (Position, GK) с максимальным значением показателя " Рефлексы" (GKReflexes) выше средней зарплаты голкипера с максимальным значением показателя "Владение мячом" (GKHandling). Ответ округлите до сотых.

In [119]:
df[(df.Position == 'GK')&(df.GKReflexes == df.GKReflexes.max())].Wage.mean() / df[(df.Position == 'GK')&(df.GKHandling == df.GKHandling.max())].Wage.mean()

2.765957446808511

#### Определите, во сколько раз средняя сила удара (ShotPower) самых агрессивных игроков (игроков с максимальным значением показателя "Агрессивность" (Aggression)) выше средней силы удара игроков с минимальной агрессией. Ответ округлите до сотых.

In [120]:
df[(df.Aggression == df.Aggression.max())].ShotPower.mean() / df[(df.Aggression == df.Aggression.min())].ShotPower.mean()

2.076923076923077

## Pandas: value_counts()

Перед нами стоит задача быстро оценить, сколько футболистов относится к каждой из представленных национальностей.

Так как каждая строка нашего датафрейма содержит информацию об отдельно взятом футболисте, то нам достаточно посчитать, сколько раз каждая из национальностей встречается в столбце (в серии) Nationality. Сделать это мы можем с помощью функции **value_counts**:

In [121]:
s = df['Nationality'].value_counts()
display(s)

England      1368
Germany       919
Spain         671
France        614
Argentina     574
             ... 
Guam            1
St Lucia        1
Rwanda          1
Oman            1
Indonesia       1
Name: Nationality, Length: 156, dtype: int64

In [122]:
s.index

Index(['England', 'Germany', 'Spain', 'France', 'Argentina', 'Italy',
       'Colombia', 'Japan', 'Brazil', 'China PR',
       ...
       'Puerto Rico', 'Central African Rep.', 'Grenada', 'Nicaragua', 'Libya',
       'Guam', 'St Lucia', 'Rwanda', 'Oman', 'Indonesia'],
      dtype='object', length=156)

Обратите внимание, что в индексе названия сборных идут так же, как в серии, то есть по убыванию числа футболистов. Значит, вызвав первый элемент индекса, мы получим название сборной, у которой больше всего футболистов в рамках нашего небольшого датафрейма:

In [123]:
s.index[0]

'England'

Если мы хотим определить количество футболистов в small_df, которые относятся к определенной национальности, то достаточно обратиться по нужному индексу к элементу серии:

In [124]:
s['Germany']

919

Получившуюся серию s можно отфильтровать по определенному значению. Например, оставить только такие сборные, в которых больше 100 футболиста:

In [125]:
s.loc[s > 100]

England                1368
Germany                 919
Spain                   671
France                  614
Argentina               574
Italy                   469
Colombia                445
Japan                   425
Brazil                  423
China PR                349
Republic of Ireland     332
Saudi Arabia            324
Sweden                  319
Netherlands             309
Chile                   296
Poland                  296
Korea Republic          290
Norway                  283
Mexico                  276
Denmark                 275
United States           271
Austria                 240
Scotland                221
Turkey                  215
Australia               206
Belgium                 164
Portugal                159
Switzerland             156
Wales                   102
Name: Nationality, dtype: int64

#### Сколько футбольных клубов представлено в датасете?

In [126]:
df['Club'].value_counts()
# 650

V-Varen Nagasaki     30
Shonan Bellmare      30
Vissel Kobe          29
De Graafschap        29
Padova               29
                     ..
FC Metz               8
Vitória Guimarães     7
GD Chaves             7
Dinamo Zagreb         7
Atlético Mineiro      6
Name: Club, Length: 650, dtype: int64

#### Отметьте названия футбольных клубов, представленных в датасете наибольшим количеством игроков.

In [127]:
# Shonan Bellmare == 30, V-Varen Nagasaki == 30

#### Как называется футбольный клуб, представленный наименьшим количеством игроков в датасете (скопируйте ответ из Jupyter Notebook)?

In [128]:
# Atlético Mineiro == 6

## Подсчет количества значений в процентах

Можно посчитать количество футболистов не в абсолютных числах, а в процентах от общего числа в датасете. Для этого надо вызвать функцию **value_counts()** с параметром **normalize=True**:

In [129]:
s = df['Nationality'].value_counts(normalize=True)
display(s)

England      0.106071
Germany      0.071257
Spain        0.052028
France       0.047608
Argentina    0.044506
               ...   
Guam         0.000078
St Lucia     0.000078
Rwanda       0.000078
Oman         0.000078
Indonesia    0.000078
Name: Nationality, Length: 156, dtype: float64

Таким образом, мы можем быстро определить характеристики распределения футболистов между национальностями в нашем наборе данных. 

#### Данные об игроках каких позиций (Position) занимают более 10% датасета?

In [130]:
df['Position'].value_counts(normalize=True)

GK     0.127239
ST     0.117237
CB     0.108785
CM     0.082732
LB     0.077692
RB     0.073505
RM     0.059394
LM     0.056447
CDM    0.053578
CAM    0.049081
RCB    0.032411
LCB    0.031713
LW     0.018764
RCM    0.018609
RW     0.018376
LCM    0.018066
LDM    0.011476
RDM    0.010700
LS     0.009382
RS     0.008839
RWB    0.005428
LWB    0.004652
CF     0.003954
LF     0.000620
LAM    0.000465
RF     0.000465
RAM    0.000388
Name: Position, dtype: float64

In [131]:
# GK, ST, CB   

#### Данные об игроках каких позиций (Position) занимают менее 1% датасета?

In [132]:
# LS, RS, RWB, LWB, CF, LF, LAM, RF, RAM  

### Подсчет количества значений по численным признакам

Ещё один параметр, который можно передать в функцию **value_counts**, — это параметр **bins**. Этот параметр удобно передавать, когда мы хотим сгруппировать данные не по категориальному признаку (каким, например, является национальность), а по численному признаку (например, по возрасту). 

Из-за того, что цифры зарплат повторяются не часто , трудно сделать какие-то выводы. Но всё будет более наглядно, если мы разобьем весь возможный диапазон зарплат на 4 равных промежутка и подсчитаем количество футболистов, попадающих в каждый из промежутков. Именно для этого нужен параметр **bins**:

In [133]:
s = df['Wage'].value_counts(bins=4)
display(s)

(435.999, 142000.0]     12818
(142000.0, 283000.0]       61
(283000.0, 424000.0]       16
(424000.0, 565000.0]        2
Name: Wage, dtype: int64

Теперь видно, что распределение неравномерное и только 2 футболиста из всех получают сверхвысокую зарплату.

In [134]:
small_df = df[df.columns[1:8]]

In [135]:
small_df.loc[(small_df['Wage'] > s.index[3].left) & (small_df['Wage'] <= s.index[3].right)]

Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position
0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF
7,L. Suárez,31,Uruguay,FC Barcelona,80000000,455000,RS


In [136]:
 s.index[3].right

565000.0

#### В каких пределах находятся худшие 20% показателей точности ударов ногой (FKAccuracy)?

In [137]:
df['FKAccuracy'].value_counts(bins=5)

# 2.908, 21.2

(21.2, 39.4]     4859
(39.4, 57.6]     3957
(57.6, 75.8]     2108
(2.908, 21.2]    1760
(75.8, 94.0]      213
Name: FKAccuracy, dtype: int64

#### Какие показатели точности ударов ногой демонстрирует большинство футболистов?

In [138]:
df['FKAccuracy'].value_counts(bins=5)

# 21.2, 39.4

(21.2, 39.4]     4859
(39.4, 57.6]     3957
(57.6, 75.8]     2108
(2.908, 21.2]    1760
(75.8, 94.0]      213
Name: FKAccuracy, dtype: int64

## Pandas: Функции unique и nunique и преобразование серии value_counts в датафрейм

Функция **unique** возвращает список уникальных элементов из серии:

In [139]:
df['Nationality'].unique()

array(['Argentina', 'Portugal', 'Brazil', 'Spain', 'Belgium', 'Croatia',
       'Uruguay', 'Slovenia', 'Poland', 'Germany', 'France', 'England',
       'Italy', 'Egypt', 'Colombia', 'Denmark', 'Gabon', 'Wales',
       'Senegal', 'Costa Rica', 'Slovakia', 'Netherlands',
       'Bosnia Herzegovina', 'Morocco', 'Serbia', 'Algeria', 'Austria',
       'Greece', 'Chile', 'Sweden', 'Korea Republic', 'Finland', 'Guinea',
       'Montenegro', 'Switzerland', 'Norway', 'DR Congo', 'Ukraine',
       'Mexico', 'Czech Republic', 'Ivory Coast', 'Albania', 'Turkey',
       'Ghana', 'Ecuador', 'Mali', 'Nigeria', 'Dominican Republic',
       'Japan', 'Cameroon', 'Republic of Ireland', 'Romania',
       'United States', 'Russia', 'Hungary', 'Iceland', 'Zimbabwe',
       'Togo', 'Angola', 'Burkina Faso', 'Peru', 'Scotland', 'Venezuela',
       'Estonia', 'Tunisia', 'Israel', 'Equatorial Guinea', 'New Zealand',
       'FYR Macedonia', 'Paraguay', 'China PR', 'Kosovo', 'Tanzania',
       'Iran', 'Uzbekistan

Но если наша конечная цель - получить количество уникальных значений в серии, то мы можем поступить ещё проще, вызвав функцию **nunique**:

In [140]:
small_df['Nationality'].nunique()

156

#### Отметьте все варианты кода, после выполнения которого переменная result будет содержать количество видов позиций (Position), которые занимают игроки, представленные в датасете:

In [141]:
len(df['Position'].unique())

27

In [142]:
df['Position'].nunique()

27

In [143]:
len(df['Position'].value_counts())

27

## Преобразование серии value_counts в датафрейм

Иногда бывает полезно преобразовать серию, получившуюся в результате работы функции **value_counts**, в *датафрейм*. Для этого нужно к получившейся серии применить функцию **reset_index**. Эта операция может пригодиться вам в ходе дальнейшего решения задач.

In [144]:
s = df['Nationality'].value_counts()
s_df = s.reset_index()
display(s_df)

Unnamed: 0,index,Nationality
0,England,1368
1,Germany,919
2,Spain,671
3,France,614
4,Argentina,574
...,...,...
151,Guam,1
152,St Lucia,1
153,Rwanda,1
154,Oman,1


Ну и чтобы всё выглядело красиво и правильно, переименуем столбцы получившегося датафрейма в соответствии с тем, что в них хранится:

In [145]:
s_df.columns = ['Nationality','Players Count']
display(s_df)

Unnamed: 0,Nationality,Players Count
0,England,1368
1,Germany,919
2,Spain,671
3,France,614
4,Argentina,574
...,...,...
151,Guam,1
152,St Lucia,1
153,Rwanda,1
154,Oman,1


#### У какого процента испанских специалистов (Nationality = 'Spain') зарплата (Wage) находится в пределах 25% минимума от наблюдаемого уровня зарплат?

In [146]:
df[(df.Nationality == 'Spain')]['Wage'].value_counts(bins=4, normalize=True)

# 0.970194 ~ 97%

(620.999, 95750.0]      0.970194
(95750.0, 190500.0]     0.016393
(190500.0, 285250.0]    0.008942
(285250.0, 380000.0]    0.004471
Name: Wage, dtype: float64

#### Укажите количество уникальных сборных (Nationality), к которым относятся футболисты, выступающие за клуб (Club) "Manchester United":

In [147]:
df[(df.Club == 'Manchester United')]['Nationality'].nunique()

13

#### С помощью функции unique определите двух футболистов из Бразилии (Nationality = 'Brazil'), выступающих за клуб (Club) 'Juventus'.

In [148]:
df[(df.Nationality == 'Brazil')&(df.Club == 'Juventus')]['Name'].unique()

array(['Alex Sandro', 'Douglas Costa'], dtype=object)

#### Укажите, какой из клубов (Club) насчитывает большее количество футболистов возрастом (Age) старше 35 лет.

In [149]:
df[df.Age > 35]['Club'].value_counts()

# Hokkaido Consadole Sapporo     4
# Club Atlético Huracán          4

Hokkaido Consadole Sapporo     4
Club Atlético Huracán          4
San Martín de San Juan         3
Morecambe                      3
Gimnasia y Esgrima La Plata    3
                              ..
AIK                            1
Watford                        1
Reading                        1
Shimizu S-Pulse                1
Beijing Renhe FC               1
Name: Club, Length: 212, dtype: int64

#### С помощью функции value_counts с параметром bins разбейте всех футболистов сборной (Nationality) Аргентины ('Argentina') на 4 равные группы. Укажите, сколько футболистов в возрасте от 34.75 до 41 года в сборной Аргентины.

In [150]:
df[df.Nationality == 'Argentina']['Age'].value_counts(bins=4)

# 49

(22.25, 28.5]      200
(15.974, 22.25]    197
(28.5, 34.75]      128
(34.75, 41.0]       49
Name: Age, dtype: int64

#### Сколько процентов футболистов из Испании (Nationality = 'Spain') имеют возраст (Age) 21 год? Введите с точностью до 2 знаков после запятой без указания знака % (например, 12.35).

In [151]:
df[df.Nationality == 'Spain']['Age'].value_counts(normalize=True)

# 0.117735 ~ 11.8%

21    0.117735
22    0.095380
20    0.077496
23    0.071535
25    0.064083
27    0.062593
24    0.059613
28    0.053651
26    0.053651
29    0.047690
19    0.047690
18    0.038748
30    0.038748
31    0.032787
32    0.032787
33    0.031297
34    0.022355
17    0.013413
35    0.011923
36    0.010432
37    0.008942
39    0.002981
16    0.002981
38    0.001490
Name: Age, dtype: float64

## Pandas: groupby

Предположим, что перед нами стоит задача посчитать сумму зарплат по клубам, чтобы найти клуб с самой высокой зарплатой.

Мы можем сделать это с помощью функции **groupby**:

In [152]:
df.groupby(['Club'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000013DB70039A0>

In [153]:
df.groupby(['Club']).groups

{' SSV Jahn Regensburg': Int64Index([ 1642,  2284,  2374,  2401,  2575,  2583,  2850,  2868,  3418,
              3908,  3989,  4154,  5151,  5177,  5525,  5885,  6070,  6679,
              7173,  7477,  8905,  9061, 10825, 12482],
            dtype='int64'),
 '1. FC Heidenheim 1846': Int64Index([ 1060,  1805,  1978,  2050,  2066,  2926,  3584,  3605,  4312,
              4457,  4783,  6818,  7160,  7166,  7460,  9475, 10052, 10565,
             11217, 12236],
            dtype='int64'),
 '1. FC Kaiserslautern': Int64Index([ 2931,  3590,  4270,  4413,  4475,  4483,  4709,  4779,  5079,
              5325,  5403,  5855,  5917,  7295,  8784,  9496,  9964, 10019,
             10122, 10671, 11500, 11970, 12222],
            dtype='int64'),
 '1. FC Köln': Int64Index([166, 379, 899, 1399, 3415, 6904, 7052, 8892, 12171, 12376], dtype='int64'),
 '1. FC Magdeburg': Int64Index([ 1967,  2069,  2152,  2569,  2886,  3030,  3300,  3332,  4436,
              4913,  5002,  5033,  5493,  5768,  6329,  

Это означает, что FC Köln соответствуют следующие строки: 166, 379, 899, 1399, 3415, 6904, 7052, 8892, 12171, 12376.

### О чем нам это говорит?

Нам — ни о чем, но для алгоритма группировки это важная информация. Он поймет, какие строки брать для включения в группу, когда мы решим применить к этим строкам какую-нибудь агрегирующую функцию, например функцию суммы **sum**:

In [154]:
grouped_df = df.groupby(['Club']).sum()
display(grouped_df)

Unnamed: 0_level_0,Unnamed: 0,Age,Value,Wage,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
Club,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
SSV Jahn Regensburg,129124,609,15195000,90000,1104,944,1283,1362,944,1196,...,1042,1332,1205,1146,1088,405,406,368,409,424
1. FC Heidenheim 1846,117834,473,18290000,76000,961,860,955,1136,846,1040,...,923,1093,888,952,890,335,317,287,335,306
1. FC Kaiserslautern,167351,544,11195000,33000,1106,918,1133,1272,899,1131,...,1030,1174,938,989,996,392,373,348,368,356
1. FC Köln,54865,225,46810000,92000,444,357,434,567,320,486,...,431,515,453,458,452,272,251,276,252,268
1. FC Magdeburg,116731,515,57525000,84000,948,903,1044,1157,769,1024,...,938,1057,933,930,892,367,373,354,361,394
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Zagłębie Sosnowiec,220803,656,6815000,27000,1161,1007,1152,1357,979,1252,...,1113,1371,1219,1187,1156,427,391,417,391,413
Çaykur Rizespor,119137,557,27515000,118000,1110,921,1137,1290,888,1233,...,1063,1200,1050,1155,1143,375,394,387,388,389
Örebro SK,224465,622,8465000,36000,1114,974,1149,1311,965,1270,...,1066,1393,1112,1045,1008,412,406,386,428,407
Östersunds FK,136103,478,11030000,39000,944,805,856,1109,801,1066,...,847,1132,920,842,816,342,357,369,337,363


Получился датафрейм, где все параметры, к которым можно было применить соответствующую агрегирующую функцию, были просуммированы. Если точнее, **были просуммированы все численные параметры**. *Другие параметры, такие как национальность (Nationality), не будут отображены в датафрейме сгруппированных данных*. Это связано с тем, что к таким колонкам **нельзя применить агрегирующую функцию, потому что они содержат не численные параметры, а текст**.

Давайте обратимся по индексу к какой-то из строк получившегося датафрейма:

In [155]:
grouped_df.loc['Ajax']

Unnamed: 0             26041
Age                      275
Value              152250000
Wage                  158000
Crossing                 844
Finishing                723
HeadingAccuracy          848
ShortPassing             940
Volleys                  696
Dribbling                932
Curve                    779
FKAccuracy               680
LongPassing              878
BallControl              951
Acceleration             944
SprintSpeed              969
Agility                  969
Reactions                924
Balance                  918
ShotPower                876
Jumping                  915
Stamina                  974
Strength                 896
LongShots                720
Aggression               847
Interceptions            801
Positioning              813
Vision                   881
Penalties                710
Composure                929
Marking                  750
StandingTackle           814
SlidingTackle            756
GKDiving                 150
GKHandling    

Таким образом, мы получили серию, где индекс содержит все параметры, которые можно было просуммировать, а значения серии — суммы параметров для всех игроков ФК "Ajax".

Теперь мы можем получить сумму зарплат игроков этого футбольного клуба:

In [156]:
grouped_df.loc['Ajax']['Wage']

158000

Тут важно заметить, что особого смысла суммировать другие параметры нет. Например, что нам даёт сумма возрастов? Это неинформативная метрика, а значит смысла её подсчитывать нет. Поэтому мы можем ограничить список наших параметров и при группировке осуществлять суммирование только по параметру "Wage" (заработная плата):

In [157]:
grouped_df = df.groupby(['Club'])['Wage'].sum()
display(grouped_df)

Club
 SSV Jahn Regensburg      90000
1. FC Heidenheim 1846     76000
1. FC Kaiserslautern      33000
1. FC Köln                92000
1. FC Magdeburg           84000
                          ...  
Zagłębie Sosnowiec        27000
Çaykur Rizespor          118000
Örebro SK                 36000
Östersunds FK             39000
Śląsk Wrocław             50000
Name: Wage, Length: 650, dtype: int64

Но помните наш исходный вопрос: "В каком клубе самая высокая зарплата?"

Для ответа на этот вопрос нам достаточно лишь отсортировать полученные данные по убыванию суммы зарплат с помощью функции **sort_values**:

In [158]:
grouped_df = df.groupby(['Club'])['Wage'].sum().sort_values(ascending=False)
print(grouped_df.head(5))

Club
Real Madrid          4138000
FC Barcelona         3967000
Manchester City      3097000
Manchester United    2357000
Juventus             2335000
Name: Wage, dtype: int64


И это Real Madrid, что вполне ожидаемо!

### !!! Внимание !!!
При использовании функции sort_values мы ввели дополнительный параметр **ascending=False**, который указывает, что данные надо сортировать по убыванию.

#### Отметьте позиции (Position), по которым общая сумма зарплат (Wage) игроков превышает 5 млн евро в год.

In [170]:
grouped_df = df.groupby(['Position'])['Wage'].sum().sort_values(ascending=False)
grouped_df_c = grouped_df.reset_index()
grouped_df_c.columns = ['Position', 'Wage sum']
print(grouped_df_c)

# ST, GK, CB, CM, LB, CAM, LM, RM, RB

   Position  Wage sum
0        ST  11873000
1        GK   8784000
2        CB   7476000
3        CM   6194000
4        LB   6096000
5       CAM   5500000
6        LM   5440000
7        RM   5098000
8        RB   5034000
9       CDM   4921000
10      RCB   4711000
11      LCB   3989000
12       RW   3276000
13      RCM   3241000
14      LCM   3145000
15       LW   2945000
16       LS   1866000
17      RDM   1557000
18       RS   1537000
19      LDM   1516000
20       RF    714000
21       LF    601000
22      RWB    420000
23      LAM    366000
24      LWB    347000
25       CF    248000
26      RAM     59000


Построим такую таблицу, где сгруппируем игроков по национальностям (Nationality) и посчитаем среднюю зарплату, средний возраст и среднюю силу удара. Ну а что, вдруг это всё как-то взаимосвязано?

Для подсчета среднего мы будем использовать агрегирующую функцию **mean**:

In [171]:
df.groupby(['Nationality'])[['Wage', 'Age', 'ShotPower']].mean()

Unnamed: 0_level_0,Wage,Age,ShotPower
Nationality,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Afghanistan,1250.000000,22.500000,53.750000
Albania,5931.034483,23.689655,54.551724
Algeria,15810.810811,27.027027,56.567568
Andorra,1000.000000,28.000000,58.000000
Angola,7100.000000,24.700000,63.700000
...,...,...,...
Uzbekistan,9000.000000,29.500000,71.500000
Venezuela,6611.111111,23.638889,57.222222
Wales,9529.411765,24.754902,48.558824
Zambia,2833.333333,21.833333,66.833333


Далее отсортируем по убыванию усредненной зарплаты:

In [172]:
df.groupby(['Nationality'])[['Wage', 'Age', 'ShotPower']].mean().sort_values(['Wage'], ascending=False).head(10)

Unnamed: 0_level_0,Wage,Age,ShotPower
Nationality,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Dominican Republic,71000.0,23.0,75.5
Egypt,35545.454545,25.818182,59.363636
Gabon,28900.0,26.4,56.9
Croatia,26722.222222,24.819444,54.305556
Equatorial Guinea,25666.666667,28.0,55.333333
Belgium,20024.390244,24.030488,56.390244
Ecuador,18333.333333,24.619048,60.666667
Uruguay,17590.361446,26.771084,56.192771
Brazil,17371.158392,27.898345,58.20331
Algeria,15810.810811,27.027027,56.567568


Что?! Доминиканская республика? Очень странно, давайте поближе посмотрим на данные по этой стране:

In [173]:
df.loc[df['Nationality'] == 'Dominican Republic'][['Name', 'Club', 'Wage', 'Age', 'ShotPower']]

Unnamed: 0,Name,Club,Wage,Age,ShotPower
291,Mariano,Real Madrid,140000,24,85
6279,L. Quezada,Córdoba CF,2000,22,66


Теперь всё ясно. В нашей выборке только два футболиста из этой страны, один из них играет в клубе "Real Madrid" и получает 140000 евро, а другой в испанском клубе второго дивизиона с зарплатой в 70 раз ниже! Поэтому среднее и получилось таким высоким.

### !!! Важно !!!

Всегда учитывайте, насколько могут быть обманчивы данные, которые получаются в результате группировки.

#### Посчитайте среднюю зарплату (Wage) и цену (Value) игроков разных позиций (Position). Представители какой позиции имеют самую высокую среднюю цену?

In [176]:
df.groupby(['Position'])[['Wage', 'Value']].mean().sort_values(['Value'], ascending=False).head(10)

# LF = 75125

Unnamed: 0_level_0,Wage,Value
Position,Unnamed: 1_level_1,Unnamed: 2_level_1
LF,75125.0,27362500.0
RF,119000.0,26365830.0
LAM,61000.0,13245830.0
RAM,11800.0,8345000.0
LS,15421.487603,5848430.0
LCM,13497.854077,4318090.0
RCM,13504.166667,4217604.0
RS,13482.45614,3645833.0
LW,12169.421488,3603099.0
RW,13822.78481,3495738.0


Функция **nunique**, которая позволяет посчитать количество уникальных значений по серии. Её лучше всего применять к тем колонкам датафрейма, в которых хранятся категорийные данные:

In [177]:
df.groupby(['Nationality'])[['Club', 'Name']].nunique()

Unnamed: 0_level_0,Club,Name
Nationality,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,4,4
Albania,26,29
Algeria,33,37
Andorra,1,1
Angola,9,10
...,...,...
Uzbekistan,2,2
Venezuela,34,36
Wales,56,101
Zambia,5,6


Функция **count**, с помощью которой можно посчитать количество элементов в группе. То есть результат её будет такой же, как у функции **value_counts**:

In [178]:
df.groupby(['Club'])['Name'].count()

Club
 SSV Jahn Regensburg     24
1. FC Heidenheim 1846    20
1. FC Kaiserslautern     23
1. FC Köln               10
1. FC Magdeburg          21
                         ..
Zagłębie Sosnowiec       25
Çaykur Rizespor          22
Örebro SK                26
Östersunds FK            20
Śląsk Wrocław            24
Name: Name, Length: 650, dtype: int64

Функция **median**, с помощью которой можно посчитать медианное значение:

In [179]:
df.groupby(['Club'])['Dribbling'].median()

Club
 SSV Jahn Regensburg     57.5
1. FC Heidenheim 1846    59.5
1. FC Kaiserslautern     54.0
1. FC Köln               60.5
1. FC Magdeburg          53.0
                         ... 
Zagłębie Sosnowiec       58.0
Çaykur Rizespor          62.0
Örebro SK                55.0
Östersunds FK            61.5
Śląsk Wrocław            54.5
Name: Dribbling, Length: 650, dtype: float64

Функция **max**, с помощью которой можно посчитать максимальное значение внутри группы:

In [180]:
df.groupby(['Club'])['Strength'].max()

Club
 SSV Jahn Regensburg     92
1. FC Heidenheim 1846    86
1. FC Kaiserslautern     85
1. FC Köln               76
1. FC Magdeburg          86
                         ..
Zagłębie Sosnowiec       84
Çaykur Rizespor          81
Örebro SK                85
Östersunds FK            88
Śląsk Wrocław            85
Name: Strength, Length: 650, dtype: int64

Функция **min**, с помощью которой можно посчитать минимальное значение внутри группы:

In [181]:
df.groupby(['Club'])['Balance'].min()

Club
 SSV Jahn Regensburg     29
1. FC Heidenheim 1846    22
1. FC Kaiserslautern     29
1. FC Köln               31
1. FC Magdeburg          19
                         ..
Zagłębie Sosnowiec       28
Çaykur Rizespor          39
Örebro SK                34
Östersunds FK            32
Śląsk Wrocław            31
Name: Balance, Length: 650, dtype: int64

#### Посчитайте среднюю (mean) и медианную (median) зарплату (Wage) футболистов из разных клубов (Club). В скольких клубах средняя и медианная зарплаты совпадают?

In [216]:
df_grouped = df.groupby(['Club'])['Wage'].agg(['mean', 'median'])
df_grouped.loc[df_grouped['mean'] == df_grouped['median']].count()

mean      52
median    52
dtype: int64

#### Продолжаем работать с клубами, в которых средняя зарплата совпадает с медианной. Каков максимальный размер средней зарплаты в этой группе клубов?

In [229]:
df_grouped = df.groupby(['Club'])['Wage'].agg(['mean', 'median'])
df_grouped.loc[df_grouped['mean'] == df_grouped['median']].sort_values(['mean'], ascending=False).head(5)

Unnamed: 0_level_0,mean,median
Club,Unnamed: 1_level_1,Unnamed: 2_level_1
Cruzeiro,13000.0,13000
Göztepe SK,7000.0,7000
Brøndby IF,6000.0,6000
Sunderland,4000.0,4000
CD Feirense,4000.0,4000


#### С помощью функции groupby посчитайте сумму зарплат (Wage) футболистов клуба (Club) "Chelsea".

In [232]:
df.groupby('Club')['Wage'].sum()['Chelsea']

2035000

#### Определите максимальную зарплату футболиста национальности (Nationality) Аргентина ("Argentina") в возрасте 20 лет.

In [236]:
df[(df['Nationality'] == 'Argentina')&(df['Age'] == 20)]['Wage'].max()

54000

#### Определите максимальную зарплату футболиста национальности (Nationality) Аргентина ("Argentina") в возрасте 30 лет.

In [237]:
df[(df['Nationality'] == 'Argentina')&(df['Age'] == 30)]['Wage'].max()

300000

#### Определите минимальную зарплату футболиста национальности (Nationality) Аргентина ("Argentina") в возрасте 30 лет.

In [238]:
df[(df['Nationality'] == 'Argentina')&(df['Age'] == 30)]['Wage'].min()

1000

#### Определите максимальную силу (Strength) и баланс (Balance) среди игроков клуба (Club) "FC Barcelona" из Аргентины ("Argentina"). Ответ введите через точку с запятой без пробела.

In [245]:
df[(df['Nationality'] == 'Argentina')&(df['Club'] == 'FC Barcelona')][['Strength', 'Balance']].max()

Strength    59
Balance     95
dtype: int64

## Pandas: pivot_table

Функция **pivot_table** позволяет быстро и просто составлять сводные таблицы. Попробуем сформировать таблицу, которая представлена выше:

In [246]:
pivot = df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])].pivot_table(values=['Wage'],
                                                                                                          index=['Nationality'],
                                                                                                          columns=['Club'],
                                                                                                          aggfunc='sum')
display(pivot)

Unnamed: 0_level_0,Wage,Wage,Wage,Wage
Club,FC Barcelona,Juventus,Manchester United,Real Madrid
Nationality,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Argentina,565000.0,205000.0,206000.0,
Belgium,110000.0,,230000.0,240000.0
Bosnia Herzegovina,,180000.0,,
Brazil,465000.0,335000.0,91000.0,570000.0
Chile,205000.0,,215000.0,
Costa Rica,,,,195000.0
Croatia,260000.0,160000.0,,420000.0
Dominican Republic,,,,140000.0
Ecuador,,,120000.0,
England,,,478000.0,


Для начала разберем конструкцию *df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])]*. Она позволяет отфильтровать датафрейм по колонке Club, где значение в колонке соответствует одному из перечисленных в массиве клубов.

Дальше посмотрим на параметры функции pivot_table:

- В параметр **values** мы передаем ту колонку, по которой нам нужно строить сводные данные, применяя агрегирующую функцию сумма.
- В параметр **index** передадим ту колонку, данные которой будут представлены строками сводной таблицы.
- В параметр **columns** передаем колонку, значения которой будут в столбцах.
- В параметр **aggfunc** передаем агрегирующую функцию. Помните, мы проходили их, когда рассматривали функцию **groupby**? Все эти функции можно применять и при построении сводных таблиц.

Для того, чтобы добавить столбец и строку с итоговыми значениями, нужно добавить параметр **margins=True**:

In [248]:
pivot = df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])].pivot_table(
            values=['Wage'],
            index=['Nationality'],
            columns=['Club'],
            aggfunc='sum',
            margins=True)

display(pivot)

Unnamed: 0_level_0,Wage,Wage,Wage,Wage,Wage
Club,FC Barcelona,Juventus,Manchester United,Real Madrid,All
Nationality,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Argentina,565000.0,205000.0,206000.0,,976000
Belgium,110000.0,,230000.0,240000.0,580000
Bosnia Herzegovina,,180000.0,,,180000
Brazil,465000.0,335000.0,91000.0,570000.0,1461000
Chile,205000.0,,215000.0,,420000
Costa Rica,,,,195000.0,195000
Croatia,260000.0,160000.0,,420000.0,840000
Dominican Republic,,,,140000.0,140000
Ecuador,,,120000.0,,120000
England,,,478000.0,,478000


#### Сводная таблица, показывающая максимальные зарплаты игроков на разных позициях, играющих за разные клубы, была создана с помощью кода:

df2 = df.pivot_table(columns = 'Position', index = 'Club', values = 'Wage', aggfunc = 'max')

С помощью какого кода можно получить из этой таблицы информацию о максимальной зарплате вратаря (GK), играющего за футбольный клуб "Manchester City"?

In [249]:
df2 = df.pivot_table(columns = 'Position', index = 'Club', values = 'Wage', aggfunc = 'max')

In [250]:
display(df2)

Position,CAM,CB,CDM,CF,CM,GK,LAM,LB,LCB,LCM,...,RB,RCB,RCM,RDM,RF,RM,RS,RW,RWB,ST
Club,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
SSV Jahn Regensburg,,5000.0,5000.0,,4000.0,5000.0,,6000.0,,,...,4000.0,8000.0,,5000.0,,,,,,3000.0
1. FC Heidenheim 1846,5000.0,7000.0,,,1000.0,4000.0,,6000.0,6000.0,,...,6000.0,3000.0,,,,3000.0,,,,4000.0
1. FC Kaiserslautern,,1000.0,1000.0,,,1000.0,,2000.0,2000.0,,...,2000.0,,,2000.0,,2000.0,2000.0,,,1000.0
1. FC Köln,,1000.0,10000.0,,3000.0,25000.0,,,,,...,5000.0,,,,,18000.0,,,,
1. FC Magdeburg,,7000.0,,4000.0,,6000.0,,2000.0,5000.0,4000.0,...,,3000.0,3000.0,,,5000.0,8000.0,4000.0,,1000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Zagłębie Sosnowiec,2000.0,1000.0,1000.0,,,1000.0,,1000.0,1000.0,,...,1000.0,1000.0,,1000.0,,1000.0,,,,2000.0
Çaykur Rizespor,11000.0,11000.0,13000.0,,,3000.0,,7000.0,4000.0,,...,6000.0,,,10000.0,,12000.0,,,,2000.0
Örebro SK,,2000.0,,,1000.0,2000.0,,,2000.0,2000.0,...,,2000.0,2000.0,,,,,2000.0,1000.0,2000.0
Östersunds FK,1000.0,1000.0,,3000.0,8000.0,1000.0,,2000.0,3000.0,5000.0,...,1000.0,1000.0,,,,2000.0,,1000.0,,1000.0


In [251]:
df2.loc['Manchester City']['GK']

125000.0

## Замена отсутствующих значений

Обратите внимание, что в нашем датафрейме получилось много NaN (Not a Number). Это означает, что на пересечении строки и столбца нет данных, например, в клубе Juventus нет футболистов из Бельгии:

In [255]:
pivot.loc['Belgium']

      Club             
Wage  FC Barcelona         110000.0
      Juventus                  NaN
      Manchester United    230000.0
      Real Madrid          240000.0
      All                  580000.0
Name: Belgium, dtype: float64

Для того, чтобы заменить NaN на 0, можно применить дополнительный параметр **fill_value**. Этот параметр принимает значение, которым нужно заполнить все NaN в получившейся сводной таблице:

In [256]:
pivot = df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])].pivot_table(
    values=['Wage'],
    index=['Nationality'],
    columns=['Club'],
    aggfunc='sum',
    margins=True,
    fill_value=0)

display(pivot)

Unnamed: 0_level_0,Wage,Wage,Wage,Wage,Wage
Club,FC Barcelona,Juventus,Manchester United,Real Madrid,All
Nationality,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Argentina,565000,205000,206000,0,976000
Belgium,110000,0,230000,240000,580000
Bosnia Herzegovina,0,180000,0,0,180000
Brazil,465000,335000,91000,570000,1461000
Chile,205000,0,215000,0,420000
Costa Rica,0,0,0,195000,195000
Croatia,260000,160000,0,420000,840000
Dominican Republic,0,0,0,140000,140000
Ecuador,0,0,120000,0,120000
England,0,0,478000,0,478000


Применим другую агрегирующую функцию **count**, чтобы посчитать количество футболистов по клубам и национальностям:

In [257]:
pivot = df.loc[df['Club'].isin(['FC Barcelona','Real Madrid','Juventus','Manchester United'])].pivot_table(
    values=['Name'],
    index=['Nationality'],
    columns=['Club'],
    aggfunc='count',
    fill_value=0)

display(pivot)

Unnamed: 0_level_0,Name,Name,Name,Name
Club,FC Barcelona,Juventus,Manchester United,Real Madrid
Nationality,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Argentina,1,1,2,0
Belgium,1,0,1,1
Bosnia Herzegovina,0,1,0,0
Brazil,2,2,1,2
Chile,1,0,1,0
Costa Rica,0,0,0,1
Croatia,1,1,0,1
Dominican Republic,0,0,0,1
Ecuador,0,0,1,0
England,0,0,6,0


А вот таким образом мы можем обращаться к элементам сводной таблицы:

In [258]:
pivot.loc['Argentina']['Name']['Manchester United']

2

Создайте сводную таблицу, содержащую сведения о количестве игроков, занимающих разные позиции в каждом клубе. Отсутствующие значения замените нулями.

In [267]:
pivot = df.pivot_table(
    values=['Name'],
    columns=['Club'],
    index=['Position'],
    aggfunc='count',
    fill_value=0)

display(pivot)

Unnamed: 0_level_0,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name,Name
Club,SSV Jahn Regensburg,1. FC Heidenheim 1846,1. FC Kaiserslautern,1. FC Köln,1. FC Magdeburg,1. FC Nürnberg,1. FC Union Berlin,1. FSV Mainz 05,AC Ajaccio,AC Horsens,...,Wycombe Wanderers,Yeni Malatyaspor,Yeovil Town,Yokohama F. Marinos,Zagłębie Lubin,Zagłębie Sosnowiec,Çaykur Rizespor,Örebro SK,Östersunds FK,Śląsk Wrocław
Position,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
CAM,0,1,0,0,0,1,1,0,3,0,...,0,2,0,3,0,3,1,0,1,0
CB,5,3,3,1,4,1,2,2,1,3,...,3,2,3,4,0,2,2,4,1,1
CDM,1,0,3,1,0,2,2,0,0,1,...,0,3,0,2,2,2,5,0,0,3
CF,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
CM,2,1,0,2,0,1,1,1,1,2,...,4,2,1,1,1,0,0,1,3,1
GK,3,2,3,3,3,1,1,1,1,3,...,2,4,3,4,3,3,3,3,3,3
LAM,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
LB,2,2,2,0,1,1,2,1,3,3,...,1,1,2,1,2,3,2,0,2,2
LCB,0,1,1,0,1,0,1,0,1,1,...,1,0,1,0,1,1,1,1,1,1
LCM,0,0,0,0,1,0,0,1,0,1,...,1,0,1,1,0,0,0,1,1,0


#### Каково среднее количество вратарей (GK) в клубе? Ответ округлите до трёх цифр после запятой.

In [268]:
pivot.loc['GK'].mean()

2.5246153846153847

#### Используя таблицу, созданную на предыдущем шаге, определите, сколько клубов не содержат данных о центральных полузащитниках. (CM)

Подсказка: для выполнения этого задания желательно сохранить сводную таблицу в виде отдельного датафрейма и сгруппировать часть данных этого датафрейма с помощью value_counts().

In [275]:
pivot.loc['CM'].value_counts()
# 136

1    211
2    149
0    136
3     89
4     39
5     21
6      5
Name: CM, dtype: int64

#### С помощью сводной таблицы и функции loc посчитайте, сколько получают ("Wage") русские футболисты ("Russia"), играющие за ФК "AS Monaco".

In [291]:
pivot = df.loc[df['Club'].isin(['AS Monaco'])].pivot_table(
    values=['Wage'],
    index=['Nationality'],
    columns=['Name'],
    fill_value=0)

display(pivot)

Unnamed: 0_level_0,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage,Wage
Name,A. Golovin,A. Raggi,B. Badiashile,D. Sidibé,D. Subašić,Falcao,H. Massengo,J. Gaspar,J. Serrano,Jemerson,K. Glik,L. Badiashile,Rony Lopes,S. Jovetić,S. Sy,W. Geubbels,Y. Aït Bennasser,Y. Tielemans
Nationality,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
Belgium,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,47000
Brazil,0,0,0,0,0,0,0,0,0,55000,0,0,0,0,0,0,0,0
Colombia,0,0,0,0,0,115000,0,0,0,0,0,0,0,0,0,0,0,0
Croatia,0,0,0,0,70000,0,0,0,0,0,0,0,0,0,0,0,0,0
France,0,0,4000,61000,0,0,2000,7000,8000,0,0,8000,0,0,0,5000,0,0
Italy,0,48000,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
Montenegro,0,0,0,0,0,0,0,0,0,0,0,0,0,79000,0,0,0,0
Morocco,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,39000,0
Poland,0,0,0,0,0,0,0,0,0,0,86000,0,0,0,0,0,0,0
Portugal,0,0,0,0,0,0,0,0,0,0,0,0,65000,0,0,0,0,0


In [292]:
pivot.loc['Russia'].sum()

61000

#### Создайте сводную таблицу, содержащую сведения о средней скорости футболистов, занимающих разные позиции (Position) в разных футбольных клубах (Club).

In [400]:
pivot = df.pivot_table(index=['Club'], columns=['Position'], values=['SprintSpeed'], aggfunc='mean', fill_value=0, margins=True)

display(pivot)

Unnamed: 0_level_0,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed,SprintSpeed
Position,CAM,CB,CDM,CF,CM,GK,LAM,LB,LCB,LCM,...,RCB,RCM,RDM,RF,RM,RS,RW,RWB,ST,All
Club,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
SSV Jahn Regensburg,0.000000,46.600000,82.000000,0.000000,61.000000,33.000000,0.000000,76.000000,0.00000,0.000000,...,57.000000,0.000000,65.000000,0.000000,0.000000,0.000000,0.000000,0.000000,61.666667,59.041667
1. FC Heidenheim 1846,68.000000,61.333333,0.000000,0.000000,68.000000,41.000000,0.000000,60.000000,55.00000,0.000000,...,59.000000,0.000000,0.000000,0.000000,78.333333,0.000000,0.000000,0.000000,69.000000,65.450000
1. FC Kaiserslautern,0.000000,59.000000,65.666667,0.000000,0.000000,42.666667,0.000000,68.000000,45.00000,0.000000,...,0.000000,0.000000,55.000000,0.000000,82.500000,69.000000,0.000000,0.000000,79.000000,65.217391
1. FC Köln,0.000000,60.000000,32.000000,0.000000,68.500000,33.000000,0.000000,0.000000,0.00000,0.000000,...,0.000000,0.000000,0.000000,0.000000,77.000000,0.000000,0.000000,0.000000,0.000000,55.200000
1. FC Magdeburg,0.000000,60.000000,0.000000,64.000000,0.000000,39.333333,0.000000,69.000000,60.00000,66.000000,...,68.000000,71.000000,0.000000,0.000000,76.000000,53.000000,80.500000,0.000000,44.000000,63.238095
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Çaykur Rizespor,74.000000,58.000000,62.800000,0.000000,0.000000,47.000000,0.000000,75.500000,63.00000,0.000000,...,0.000000,0.000000,32.000000,0.000000,85.000000,0.000000,0.000000,0.000000,48.000000,61.318182
Örebro SK,0.000000,60.750000,0.000000,0.000000,63.000000,33.666667,0.000000,0.000000,58.00000,44.000000,...,62.000000,66.000000,0.000000,0.000000,0.000000,0.000000,77.500000,72.000000,72.200000,63.000000
Östersunds FK,67.000000,76.000000,0.000000,77.000000,56.333333,32.666667,0.000000,74.500000,53.00000,62.000000,...,73.000000,0.000000,0.000000,0.000000,85.000000,0.000000,67.000000,0.000000,52.000000,61.450000
Śląsk Wrocław,0.000000,62.000000,66.666667,0.000000,72.000000,30.666667,0.000000,78.500000,59.00000,0.000000,...,58.000000,0.000000,69.000000,0.000000,68.000000,81.000000,0.000000,0.000000,54.000000,60.583333


#### Основываясь на данных таблицы, отметьте три позиции, представители которых в среднем обладают самой высокой скоростью.

In [420]:
pivot.max().sort_values(ascending=False).head(3)
# RS          94.0
# RM          94.0
# LM          94.0

             Position
SprintSpeed  RS          94.0
             RM          94.0
             LM          94.0
dtype: float64

#### Используя таблицу, созданную на предыдущем шаге, отметьте названия трёх клубов, в которых центральные форварды (ST) обладают наибольшей средней скоростью.

In [413]:
pivot.sort_values([('SprintSpeed', 'ST')], ascending=False).head(3)[[('SprintSpeed',  'ST')]]

Unnamed: 0_level_0,SprintSpeed
Position,ST
Club,Unnamed: 1_level_2
Vitória,91.0
Sydney FC,88.0
CD Lugo,87.0
