Решение задачи группировки предполагает разделение данных по некоторому признаку (атрибуту), после чего к каждому элементу этих разделенных данных мы можем применить агрегирующую операцию. Это такая операция, которая позволяет вычислить какой-либо показатель.

Затем мы можем оценить, как отличаются эти показатели в зависимости от признака, по которому было осуществлено разделение. Такое разделение мы можем назвать группировкой данных.

Возьмем по 5 футболистов трех различных национальностей, а затем посчитаем средний возраст внутри каждой из национальностей.

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/split_apply_combine.png">

Этот пример немного далёк от реальности, с которой приходится иметь дело в ходе полноценного анализа данных, так как мы специально, для простоты восприятия, взяли по 5 футболистов из каждой национальности. На основе таких маленьких выборок сложно строить какие-то выводы. Но даже такой простой пример позволяет делать некоторые выводы и демонстрирует важность группировки данных. Мы видим, что средний возраст приблизительно одинаков между всеми тремя группами. 

In [None]:
import pandas as pd

football = pd.read_csv('../data/football.csv')
football.head()

In [None]:
small_football = football[football.columns[1:8]].head(25)
small_football

Предположим, что перед нами стоит задача быстро оценить, сколько футболистов относится к каждой из представленных национальностей.

Так как каждая строка нашего датафрейма содержит информацию об отдельно взятом футболисте, то нам достаточно посчитать, сколько раз каждая из национальностей встречается в столбце (в серии) Nationality. Сделать это мы можем с помощью функции value_counts:

In [None]:
s = small_football['Nationality'].value_counts()
s

Таким образом, функция value_counts подсчитывает для каждого значения в серии количество раз, которое это значение встречается.

Функция value_counts возвращает серию. В примере выше мы записали её как переменную s. Индекс серии s — это уникальные значения, встречающиеся в исходной серии small_df['Nationality']:

In [None]:
s.index

Обратите внимание, что в индексе названия сборных идут так же, как в серии, то есть по убыванию числа футболистов. Значит, вызвав первый элемент индекса, мы получим название сборной, у которой больше всего футболистов в рамках нашего небольшого датафрейма:

In [None]:
s.index[0]

Если мы вызовем функцию len для серии s, то получим количество уникальных значений исходной серии, то есть количество национальностей, которые встречаются в датафрейме small_df:

In [None]:
len(s.index)

Если мы хотим определить количество футболистов в small_df, которые относятся к определенной национальности, то достаточно обратиться по нужному индексу к элементу серии:

In [None]:
s['Germany']

Получившуюся серию s можно отфильтровать по определенному значению. Например, оставить только такие сборные, в которых больше 1 футболиста:

In [None]:
s.loc[s > 1]

### Сколько футбольных клубов представлено в датасете?

### Как называется футбольный клуб, представленный наименьшим количеством игроков в датасете?

Можно посчитать количество футболистов не в абсолютных числах, а в процентах от общего числа в датасете. Для этого надо вызвать функцию value_counts() с параметром normalize=True:

In [None]:
s = small_football['Nationality'].value_counts(normalize=True)
s

Таким образом, мы можем быстро определить характеристики распределения футболистов между национальностями в нашем наборе данных. Например, мы узнали, что испанцы составляют 16% от общего числа футболистов, которые были взяты нами для выборки small_df.

### Данные об игроках каких позиций (Position) занимают более 10% датасета?

### Данные об игроках каких позиций (Position) занимают менее 1% датасета?

Ещё один параметр, который можно передать в функцию value_counts, — это параметр bins. Этот параметр удобно передавать, когда мы хотим сгруппировать данные не по категориальному признаку (каким, например, является национальность), а по численному признаку (например, по возрасту).

Сначала сгруппируем данные по численному признаку без параметра bins:

In [None]:
s = small_football['Age'].value_counts()
s

Как видно, мы просто сгруппировали футболистов по возрасту и посчитали количество футболистов внутри каждой возрастной группы. Разброс возрастов не слишком большой, поэтому воспринимается эта информация достаточно легко. Например, мы узнали, что больше всего футболистов в двух группах: 27 лет и 32 года.

Другая ситуация складывается, когда мы попытаемся сгруппировать футболистов по их заработной плате:

In [None]:
s = small_football['Wage'].value_counts()
s

Из-за того, что цифры зарплат повторяются не часто , трудно сделать какие-то выводы. Но всё будет более наглядно, если мы разобьем весь возможный диапазон зарплат на 4 равных промежутка и подсчитаем количество футболистов, попадающих в каждый из промежутков. Именно для этого нужен параметр bins:

In [None]:
s = small_df['Wage'].value_counts(bins=4)
s

Теперь видно, что распределение неравномерное и только 2 футболиста из 25 получают сверхвысокую зарплату.

Давайте посмотрим, что это за футболисты:

In [None]:
small_df.loc[(small_df['Wage'] > s.index[3].left) & (small_df['Wage'] <= s.index[3].right)]

Попробуйте самостоятельно разобраться в том, как работает приведенный выше код, поэтапно вызвав несколько команд и наблюдая за результатом вывода:

In [None]:
small_df = df[df.columns[0:7]].head(25)

s = small_df['Wage'].value_counts(bins=4)

display(s)

s.index

s.index[3]

s.index[3].left

s.index[3].right

small_df['Wage'] > s.index[3].left

### В каких пределах находятся худшие 20% показателей точности ударов ногой (FKAccuracy)?

### Какие показатели точности ударов ногой демонстрирует большинство футболистов?

В одном из предыдущих примеров мы подсчитывали количество уникальных национальностей с помощью следующего кода:

In [None]:
s = small_df['Nationality'].value_counts()
print(s.index)
print(len(s.index))

s.index в данном случае выводит количество уникальных значений, а len(s.index) подсчитывает количество этих значений. На самом деле, сделать это можно было проще, при помощи функции unique:

In [None]:
small_df['Nationality'].unique()

Функция unique возвращает список уникальных элементов из серии.

Передав получившийся список в функцию len, мы можем подсчитать количество уникальных значений в серии:

In [None]:
len(small_df['Nationality'].unique())

Но если наша конечная цель - получить количество уникальных значений в серии, то мы можем поступить ещё проще, вызвав функцию nunique:

In [None]:
small_df['Nationality'].nunique()

Иногда бывает полезно преобразовать серию, получившуюся в результате работы функции value_counts, в датафрейм. Для этого нужно к получившейся серии применить функцию reset_index. Эта операция может пригодиться вам в ходе дальнейшего решения задач.

In [None]:
s = small_df['Nationality'].value_counts()
s_df = s.reset_index()
display(s_df)

Ну и чтобы всё выглядело красиво и правильно, переименуем столбцы получившегося датафрейма в соответствии с тем, что в них хранится:

In [None]:
s_df.columns = ['Nationality','Players Count']
display(s_df)

### Задача 1

У какого процента испанских специалистов (Nationality = 'Spain') зарплата (Wage) находится в пределах 25% минимума от наблюдаемого уровня зарплат? Ответ дайте в виде целого числа (округлите полученный результат) без знака %.

Подсказка: Для решения задачи используйте value_counts() с параметром bins = 4.

### Задача 2

Укажите количество уникальных сборных (Nationality), к которым относятся футболисты, выступающие за клуб (Club) "Manchester United".

### Задача 3

С помощью функции unique определите двух футболистов из Бразилии (Nationality = 'Brazil'), выступающих за клуб (Club) 'Juventus'. Перечислите их имена (Name, как в датафрейме) через запятую в алфавитном порядке.

### Задача 4

Укажите, какой из клубов (Club) насчитывает большее количество футболистов возрастом (Age) старше 35 лет.

### Задача 5

С помощью функции value_counts с параметром bins разбейте всех футболистов сборной (Nationality) Аргентины ('Argentina') на 4 равные группы. Укажите, сколько футболистов в возрасте от 34.75 до 41 года в сборной Аргентины.

### Задача 6

Сколько процентов футболистов из Испании (Nationality = 'Spain') имеют возраст (Age) 21 год? Введите с точностью до 2 знаков после запятой без указания знака % (например, 12.35).