Возьмем по `5 футболистов` трех различных национальностей, а затем посчитаем средний возраст внутри каждой из национальностей.

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/split_apply_combine.png">

Мы видим, что средний возраст приблизительно одинаков между всеми тремя группами.

In [None]:
import pandas as pd

url = "https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/football.csv"

football = pd.read_csv(url)
football.head(3)

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,Curve,FKAccuracy,LongPassing,BallControl,Acceleration,SprintSpeed,Agility,Reactions,Balance,ShotPower,Jumping,Stamina,Strength,LongShots,Aggression,Interceptions,Positioning,Vision,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,70,90,86,97,93,94,87,96,91,86,91,95,95,85,68,72,59,94,48,22,94,94,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,89,81,87,88,81,76,77,94,89,91,87,96,70,95,95,88,79,93,63,29,95,82,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,62,84,84,96,88,87,78,95,94,90,96,94,84,80,61,81,49,82,56,36,89,87,81,94,27,24,33,9,9,15,15,11


In [None]:
football.index

RangeIndex(start=0, stop=12897, step=1)

In [None]:
football.columns

Index(['Unnamed: 0', 'Name', 'Age', 'Nationality', 'Club', 'Value', 'Wage',
       'Position', 'Crossing', 'Finishing', 'HeadingAccuracy', 'ShortPassing',
       'Volleys', 'Dribbling', 'Curve', 'FKAccuracy', 'LongPassing',
       'BallControl', 'Acceleration', 'SprintSpeed', 'Agility', 'Reactions',
       'Balance', 'ShotPower', 'Jumping', 'Stamina', 'Strength', 'LongShots',
       'Aggression', 'Interceptions', 'Positioning', 'Vision', 'Penalties',
       'Composure', 'Marking', 'StandingTackle', 'SlidingTackle', 'GKDiving',
       'GKHandling', 'GKKicking', 'GKPositioning', 'GKReflexes'],
      dtype='object')

In [None]:
small_football = football[football.columns[1:8]].head(25)
small_football.sample(frac=0.3)

Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position
23,S. Agüero,30,Argentina,Manchester City,64500000,300000,ST
19,T. Courtois,26,Belgium,Real Madrid,53500000,240000,GK
16,H. Kane,24,England,Tottenham Hotspur,83500000,205000,ST
20,Sergio Busquets,29,Spain,FC Barcelona,51500000,315000,CDM
24,G. Chiellini,33,Italy,Juventus,27000000,215000,LCB
1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST
11,T. Kroos,28,Germany,Real Madrid,76500000,355000,LCM
17,A. Griezmann,27,France,Atlético Madrid,78000000,145000,CAM


Предположим, что перед нами стоит задача быстро оценить, сколько футболистов относится к каждой из представленных национальностей.

Так как каждая строка датафрейма содержит информацию об отдельно взятом футболисте, то достаточно посчитать, сколько раз каждая из национальностей встречается в столбце (в серии) `Nationality`:

In [None]:
s = small_football['Nationality'].value_counts()
s

Spain        4
Belgium      3
Argentina    3
Germany      3
Uruguay      3
France       2
Poland       1
Portugal     1
Croatia      1
Brazil       1
Italy        1
England      1
Slovenia     1
Name: Nationality, dtype: int64

Таким образом, функция `value_counts` подсчитывает для каждого значения в серии количество раз, которое это значение встречается.

Индекс серии `s` — это уникальные значения, встречающиеся в исходной серии `small_df['Nationality']`:

In [None]:
s.index

Index(['Spain', 'Belgium', 'Germany', 'Argentina', 'Uruguay', 'France',
       'Portugal', 'Slovenia', 'Brazil', 'Italy', 'Croatia', 'Poland',
       'England'],
      dtype='object')

Обратите внимание, что в индексе названия сборных идут так же, как в серии, то есть по убыванию числа футболистов. Значит, вызвав первый элемент индекса, мы получим название сборной, у которой больше всего футболистов в рамках датафрейма:

In [None]:
s.index[0]

'Spain'

Если вызовем функцию `len` для серии `s`, то получим количество уникальных значений исходной серии, то есть количество национальностей, которые встречаются в датафрейме `small_football`:

In [None]:
len(s.index)

13

Если хотим определить количество футболистов в `small_football`, которые относятся к определенной национальности, то достаточно обратиться по нужному индексу к элементу серии:

In [None]:
s['Germany']

3

Получившуюся серию s можно отфильтровать по определенному значению. Например, оставить только такие сборные, в которых больше 1 футболиста:

In [None]:
s.loc[s > 1]

Spain        4
Belgium      3
Argentina    3
Germany      3
Uruguay      3
France       2
Name: Nationality, dtype: int64

### Сколько футбольных клубов представлено в датасете?

In [None]:
football.Club.value_counts().count()

650

### Как называется футбольный клуб, представленный наименьшим количеством игроков в датасете?

In [None]:
football.Club.value_counts().index[-1]

'Atlético Mineiro'

Можно посчитать количество футболистов не в абсолютных числах, а в процентах от общего числа в датасете. Для этого надо вызвать функцию `value_counts()` с параметром `normalize=True`:

In [None]:
s = small_football['Nationality'].value_counts(normalize=True)
s

Spain        0.16
Belgium      0.12
Germany      0.12
Uruguay      0.12
Argentina    0.12
France       0.08
Slovenia     0.04
Brazil       0.04
Poland       0.04
Croatia      0.04
Portugal     0.04
Italy        0.04
England      0.04
Name: Nationality, dtype: float64

Таким образом, мы можем быстро определить характеристики распределения футболистов между национальностями в нашем наборе данных. Например, мы узнали, что испанцы составляют 16% от общего числа футболистов, которые были взяты нами для выборки `small_football`.

### Данные об игроках каких позиций (Position) занимают более 10% датасета?

In [None]:
s = football['Position'].value_counts(normalize=True)
s[s>0.1].index[:]

Index(['GK', 'ST', 'CB'], dtype='object')

### Данные об игроках каких позиций (Position) занимают менее 1% датасета?

In [None]:
s = football['Position'].value_counts(normalize=True)
list(s[s<0.01].index[:])

['LS', 'RS', 'RWB', 'LWB', 'CF', 'LF', 'LAM', 'RF', 'RAM']

Ещё один параметр, который можно передать в функцию `value_counts`, — это параметр `bins`. Этот параметр удобно передавать, когда мы хотим сгруппировать данные не по категориальному признаку (каким, например, является национальность), а по численному признаку (например, по возрасту).

Сначала сгруппируем данные по численному признаку без параметра `bins`:

In [None]:
s = small_football['Age'].value_counts()
s

27    5
32    5
31    3
26    3
29    2
24    2
33    2
30    1
28    1
25    1
Name: Age, dtype: int64

Как видно, мы просто сгруппировали футболистов по возрасту и посчитали количество футболистов внутри каждой возрастной группы. Разброс возрастов не слишком большой, поэтому воспринимается эта информация достаточно легко. Например, мы узнали, что больше всего футболистов в двух группах: `27 лет` и `32 года`.

Другая ситуация складывается, когда мы попытаемся сгруппировать футболистов по их заработной плате:

In [None]:
s = small_football['Wage'].value_counts()
s

205000    3
355000    2
240000    2
300000    1
130000    1
225000    1
455000    1
340000    1
315000    1
565000    1
405000    1
215000    1
380000    1
285000    1
145000    1
290000    1
125000    1
200000    1
420000    1
94000     1
260000    1
Name: Wage, dtype: int64

Из-за того, что цифры зарплат повторяются не часто , трудно сделать какие-то выводы. Но всё будет более наглядно, если мы разобьем весь возможный диапазон зарплат на 4 равных промежутка и подсчитаем количество футболистов, попадающих в каждый из промежутков. Именно для этого нужен параметр `bins`:

In [None]:
s = small_football['Wage'].value_counts(bins=4)
s

(211750.0, 329500.0]     9
(93528.999, 211750.0]    8
(329500.0, 447250.0]     6
(447250.0, 565000.0]     2
Name: Wage, dtype: int64

Теперь видно, что распределение неравномерное и только 2 футболиста из 25 получают сверхвысокую зарплату.

Давайте посмотрим, что это за футболисты:

In [None]:
small_football.loc[(small_football['Wage'] > s.index[3].left) &
                   (small_football['Wage'] <= s.index[3].right)]

Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position
0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF
7,L. Suárez,31,Uruguay,FC Barcelona,80000000,455000,RS


Попробуйте самостоятельно разобраться в том, как работает приведенный выше код, поэтапно вызвав несколько команд и наблюдая за результатом вывода:

In [None]:
small_football = football[football.columns[0:7]].head(25)
small_football.sample(frac=0.5)

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage
17,17,A. Griezmann,27,France,Atlético Madrid,78000000,145000
3,3,De Gea,27,Spain,Manchester United,72000000,260000
13,13,David Silva,32,Spain,Manchester City,60000000,285000
9,9,J. Oblak,25,Slovenia,Atlético Madrid,68000000,94000
8,8,Sergio Ramos,32,Spain,Real Madrid,51000000,380000
5,5,E. Hazard,27,Belgium,Chelsea,93000000,340000
18,18,M. ter Stegen,26,Germany,FC Barcelona,58000000,240000
11,11,T. Kroos,28,Germany,Real Madrid,76500000,355000
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000
7,7,L. Suárez,31,Uruguay,FC Barcelona,80000000,455000


In [None]:
s = small_football['Wage'].value_counts(bins=4)

In [None]:
s

(211750.0, 329500.0]     9
(93528.999, 211750.0]    8
(329500.0, 447250.0]     6
(447250.0, 565000.0]     2
Name: Wage, dtype: int64

In [None]:
s.index

IntervalIndex([(211750.0, 329500.0], (93528.999, 211750.0], (329500.0, 447250.0], (447250.0, 565000.0]],
              closed='right',
              dtype='interval[float64]')

In [None]:
s.index[3]

Interval(447250.0, 565000.0, closed='right')

In [None]:
s.index[3].left

447250.0

In [None]:
s.index[3].right

565000.0

In [None]:
small_football['Wage'] > s.index[3].left

0      True
1     False
2     False
3     False
4     False
5     False
6     False
7      True
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
Name: Wage, dtype: bool

In [None]:
small_football[small_football['Wage'] > s.index[3].left]['Name']

0     L. Messi
7    L. Suárez
Name: Name, dtype: object

### В каких пределах находятся худшие 20% показателей точности ударов ногой (FKAccuracy)?

In [None]:
football.sample(2)

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,Curve,FKAccuracy,LongPassing,BallControl,Acceleration,SprintSpeed,Agility,Reactions,Balance,ShotPower,Jumping,Stamina,Strength,LongShots,Aggression,Interceptions,Positioning,Vision,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
10647,10866,A. Bacci,22,Italy,Ascoli,140000,1000,GK,14,6,14,23,6,10,14,13,19,17,22,29,36,42,22,25,36,21,64,9,17,8,7,40,13,30,7,14,13,58,58,60,60,58
7008,7187,T. Eriksson,33,Sweden,Kalmar FF,220000,1000,LM,64,55,45,64,59,56,63,65,62,64,65,58,73,63,73,57,76,76,61,63,66,53,62,67,49,55,50,54,47,15,6,11,11,6


In [None]:
i = football['FKAccuracy'].value_counts(bins=5).index[-1]
print(i)

(75.8, 94.0]


### Какие показатели точности ударов ногой демонстрирует большинство футболистов?

In [None]:
i = football['FKAccuracy'].value_counts().index[0]
print(f'Наиболее встречающийся показател точности ударов ногой: {i}')

Наиболее встречающийся показател точности ударов ногой: 32


В одном из предыдущих примеров мы подсчитывали количество уникальных национальностей с помощью следующего кода:

In [None]:
s = small_football['Nationality'].value_counts()
s.index

Index(['Spain', 'Uruguay', 'Germany', 'Argentina', 'Belgium', 'France',
       'Slovenia', 'England', 'Portugal', 'Croatia', 'Poland', 'Brazil',
       'Italy'],
      dtype='object')

In [None]:
len(s.index)

13

s.index в данном случае выводит количество уникальных значений, а `len(s.index)` подсчитывает количество этих значений. На самом деле, сделать это можно было проще, при помощи функции `unique`:

In [None]:
small_football['Nationality'].unique()

array(['Argentina', 'Portugal', 'Brazil', 'Spain', 'Belgium', 'Croatia',
       'Uruguay', 'Slovenia', 'Poland', 'Germany', 'France', 'England',
       'Italy'], dtype=object)

Функция unique возвращает список уникальных элементов из серии.

Передав получившийся список в функцию `len`, мы можем подсчитать количество уникальных значений в серии:

In [None]:
len(small_football['Nationality'].unique())

13

Но если наша конечная цель - получить количество уникальных значений в серии, то мы можем поступить ещё проще, вызвав функцию nunique:

In [None]:
small_football['Nationality'].nunique()

13

Иногда бывает полезно преобразовать серию, получившуюся в результате работы функции `value_counts`, в датафрейм. Для этого нужно к получившейся серии применить функцию `reset_index`. Эта операция может пригодиться вам в ходе дальнейшего решения задач.

In [None]:
s = small_football['Nationality'].value_counts()
s_df = s.reset_index()
s_df

Unnamed: 0,index,Nationality
0,Spain,4
1,Uruguay,3
2,Germany,3
3,Argentina,3
4,Belgium,3
5,France,2
6,Slovenia,1
7,England,1
8,Portugal,1
9,Croatia,1


Ну и чтобы всё выглядело красиво и правильно, переименуем столбцы получившегося датафрейма в соответствии с тем, что в них хранится:

In [None]:
s_df.columns = ['Nationality','Players Count']
s_df

Unnamed: 0,Nationality,Players Count
0,Spain,4
1,Uruguay,3
2,Germany,3
3,Argentina,3
4,Belgium,3
5,France,2
6,Slovenia,1
7,England,1
8,Portugal,1
9,Croatia,1


### Задача 1

У какого процента испанских специалистов (`Nationality = 'Spain'`) зарплата (`Wage`) находится в пределах 25% минимума от наблюдаемого уровня зарплат? Ответ в виде целого числа (округлите полученный результат) без знака %.

Подсказка: Для решения задачи используйте `value_counts()` с параметром `bins = 4`.

In [None]:
football.sample()

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,Curve,FKAccuracy,LongPassing,BallControl,Acceleration,SprintSpeed,Agility,Reactions,Balance,ShotPower,Jumping,Stamina,Strength,LongShots,Aggression,Interceptions,Positioning,Vision,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
9376,9577,M. Drennan,24,Republic of Ireland,Sligo Rovers,350000,1000,ST,41,61,58,41,64,52,70,70,39,53,70,72,74,52,57,63,51,55,68,57,76,18,67,31,60,51,24,23,17,13,7,11,8,8


In [None]:
i = football['Wage'].value_counts(bins = 4).index[0].right
j = football[(football['Nationality'] == 'Spain') & (football['Wage'] < i)].Nationality.count()
s = football[football.Nationality == 'Spain'].Nationality.count()
import numpy as np
print(int(np.around(j*100/s)))

99


### Задача 2

Укажите количество уникальных сборных (`Nationality`), к которым относятся футболисты, выступающие за клуб (`Club`) `"Manchester United"`.

In [None]:
football[football.Club == "Manchester United"].Nationality.nunique()

13

### Задача 3

С помощью функции unique определите двух футболистов из Бразилии (`Nationality = 'Brazil'`), выступающих за клуб (`Club`) `'Juventus'`. Перечислите их имена (`Name`, как в датафрейме) через запятую в алфавитном порядке.

In [None]:
i = football[(football.Nationality == 'Brazil') & (football.Club == 'Juventus')].Name.unique()
print(i)
t = pd.Series(i)
print(t)
print(i[0],i[1],sep=', ')

['Alex Sandro' 'Douglas Costa']
0      Alex Sandro
1    Douglas Costa
dtype: object
Alex Sandro, Douglas Costa


### Задача 4

Укажите, какой из клубов (`Club`) насчитывает большее количество футболистов возрастом (`Age`) `старше 35 лет`.

In [None]:
i = football[football.Age > 35].Club.value_counts()
print('В таблице указаны клубы удовлетворяющие условию.')
s = i.reset_index()
s.columns = ['Команда','Игроки']
s[s['Игроки'] == s['Игроки'][0]]

В таблице указаны клубы удовлетворяющие условию.


Unnamed: 0,Команда,Игроки
0,Hokkaido Consadole Sapporo,4
1,Club Atlético Huracán,4


### Задача 5

С помощью функции `value_counts` с параметром `bins` разбейте всех футболистов сборной (`Nationality`) Аргентины (`'Argentina'`) на 4 равные группы. Укажите, сколько футболистов в возрасте от `34.75 до 41 года` в сборной `Аргентины`.

In [None]:
i = football[football.Nationality == 'Argentina'].Age.value_counts(bins=4)
s = i.reset_index()
print(s)
s.Age.min()

             index  Age
0    (22.25, 28.5]  200
1  (15.974, 22.25]  197
2    (28.5, 34.75]  128
3    (34.75, 41.0]   49


49

### Задача 6

Сколько процентов футболистов из Испании (`Nationality = 'Spain'`) имеют возраст (`Age`) `21 год`? Введите с точностью до 2 знаков после запятой без указания знака % (например, 12.35).

In [None]:
i = len(football[(football.Nationality == 'Spain') & (football.Age == 21)])
j = len(football[(football.Nationality == 'Spain')])
round(i/j*100,2)

11.77

In [None]:
(round(football[(football.Nationality == 'Spain')].Age.value_counts(normalize=True)*100,2)).loc[21]

11.77