Данные можно представить себе как последовательность каких-то единичных наблюдений, например, в нашем [датасете](https://lms.skillfactory.ru/assets/courseware/v1/d05df2022e56c6de021ab6e54949fe6c/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/data_sf.csv) единичное наблюдение — это конкретный футболист.

In [1]:
import pandas as pd
data = pd.read_csv('./data/data_sf.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13


Возьмем небольшой фрагмент из исходного датафрейма:

In [2]:
small_df = data[data.columns[1:8]].head(25)
display(small_df)


Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position
0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF
1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST
2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW
3,De Gea,27,Spain,Manchester United,72000000,260000,GK
4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM
5,E. Hazard,27,Belgium,Chelsea,93000000,340000,LF
6,L. Modrić,32,Croatia,Real Madrid,67000000,420000,RCM
7,L. Suárez,31,Uruguay,FC Barcelona,80000000,455000,RS
8,Sergio Ramos,32,Spain,Real Madrid,51000000,380000,RCB
9,J. Oblak,25,Slovenia,Atlético Madrid,68000000,94000,GK


In [3]:
s = small_df['Nationality'].value_counts()
display(s)
display(s.index)

Spain        4
Argentina    3
Belgium      3
Uruguay      3
Germany      3
France       2
Slovenia     1
Poland       1
Portugal     1
England      1
Italy        1
Croatia      1
Brazil       1
Name: Nationality, dtype: int64

Index(['Spain', 'Argentina', 'Belgium', 'Uruguay', 'Germany', 'France',
       'Slovenia', 'Poland', 'Portugal', 'England', 'Italy', 'Croatia',
       'Brazil'],
      dtype='object')

### Подсчет количества значений в процентах
Можно посчитать количество футболистов не в абсолютных числах, а в процентах от общего числа в датасете. Для этого надо вызвать функцию value_counts() с параметром normalize=True:

In [4]:
s = small_df['Nationality'].value_counts(normalize=True)
display(s)

Spain        0.16
Argentina    0.12
Belgium      0.12
Uruguay      0.12
Germany      0.12
France       0.08
Slovenia     0.04
Poland       0.04
Portugal     0.04
England      0.04
Italy        0.04
Croatia      0.04
Brazil       0.04
Name: Nationality, dtype: float64

### Подсчет количества значений по численным признакам
Ещё один параметр, который можно передать в функцию value_counts, — это параметр bins. Этот параметр удобно передавать, когда мы хотим сгруппировать данные не по категориальному признаку (каким, например, является национальность), а по численному признаку (например, по возрасту).

Сначала сгруппируем данные по численному признаку без параметра bins:

In [5]:
s = small_df['Age'].value_counts()
display(s)

27    5
32    5
31    3
26    3
29    2
24    2
33    2
30    1
28    1
25    1
Name: Age, dtype: int64

Как видно, мы просто сгруппировали футболистов по возрасту и посчитали количество футболистов внутри каждой возрастной группы. Разброс возрастов не слишком большой, поэтому воспринимается эта информация достаточно легко. Например, мы узнали, что больше всего футболистов в двух группах: 27 лет и 32 года.

Другая ситуация складывается, когда мы попытаемся сгруппировать футболистов по их заработной плате:

In [6]:
s = small_df['Wage'].value_counts()
display(s)

205000    3
355000    2
240000    2
300000    1
130000    1
225000    1
455000    1
340000    1
315000    1
565000    1
405000    1
215000    1
380000    1
285000    1
145000    1
290000    1
125000    1
200000    1
420000    1
94000     1
260000    1
Name: Wage, dtype: int64

Из-за того, что цифры зарплат повторяются не часто , трудно сделать какие-то выводы. Но всё будет более наглядно, если мы разобьем весь возможный диапазон зарплат на 4 равных промежутка и подсчитаем количество футболистов, попадающих в каждый из промежутков. Именно для этого нужен параметр bins:

In [7]:
s = small_df['Wage'].value_counts(bins=4)
display(s)

(211750.0, 329500.0]     9
(93528.999, 211750.0]    8
(329500.0, 447250.0]     6
(447250.0, 565000.0]     2
Name: Wage, dtype: int64

Теперь видно, что распределение неравномерное и только 2 футболиста из 25 получают сверхвысокую зарплату.

Давайте посмотрим, что это за футболисты:

In [8]:
small_df.loc[(small_df['Wage'] > s.index[3].left) & (small_df['Wage'] <= s.index[3].right)]


Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position
0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF
7,L. Suárez,31,Uruguay,FC Barcelona,80000000,455000,RS


### Функции unique и nunique
В одном из предыдущих примеров мы подсчитывали количество уникальных национальностей с помощью следующего кода:

In [9]:
s = small_df['Nationality'].value_counts()
print(s.index)
print(len(s.index))

Index(['Spain', 'Argentina', 'Belgium', 'Uruguay', 'Germany', 'France',
       'Slovenia', 'Poland', 'Portugal', 'England', 'Italy', 'Croatia',
       'Brazil'],
      dtype='object')
13


```s.index``` в данном случае выводит список уникальных значений, а ```len(s.index)``` подсчитывает количество этих значений. На самом деле, сделать это можно было проще, при помощи функции ```unique```:

In [10]:
small_df['Nationality'].unique()

array(['Argentina', 'Portugal', 'Brazil', 'Spain', 'Belgium', 'Croatia',
       'Uruguay', 'Slovenia', 'Poland', 'Germany', 'France', 'England',
       'Italy'], dtype=object)

Функция ```unique``` возвращает список уникальных элементов из серии.

Передав получившийся список в функцию ```len```, мы можем подсчитать количество уникальных значений в серии:

In [11]:
len(small_df['Nationality'].unique())

13

Но если наша конечная цель - получить количество уникальных значений в серии, то мы можем поступить ещё проще, вызвав функцию ```nunique```:

In [12]:
small_df['Nationality'].nunique()

13

### Преобразование серии value_counts в датафрейм
Иногда бывает полезно преобразовать серию, получившуюся в результате работы функции value_counts, в датафрейм. Для этого нужно к получившейся серии применить функцию reset_index. Эта операция может пригодиться вам в ходе дальнейшего решения задач.

In [13]:
s = small_df['Nationality'].value_counts()
display(s)
s_df = s.reset_index()
display(s_df)

Spain        4
Argentina    3
Belgium      3
Uruguay      3
Germany      3
France       2
Slovenia     1
Poland       1
Portugal     1
England      1
Italy        1
Croatia      1
Brazil       1
Name: Nationality, dtype: int64

Unnamed: 0,index,Nationality
0,Spain,4
1,Argentina,3
2,Belgium,3
3,Uruguay,3
4,Germany,3
5,France,2
6,Slovenia,1
7,Poland,1
8,Portugal,1
9,England,1


Ну и чтобы всё выглядело красиво и правильно, переименуем столбцы получившегося датафрейма в соответствии с тем, что в них хранится:

In [14]:
s_df.columns = ['Nationality','Players Count']
display(s_df)

Unnamed: 0,Nationality,Players Count
0,Spain,4
1,Argentina,3
2,Belgium,3
3,Uruguay,3
4,Germany,3
5,France,2
6,Slovenia,1
7,Poland,1
8,Portugal,1
9,England,1


### Функция groupby

Мы уже рассмотрели, как можно подсчитать количество значений по различным группам. Это пример группировки данных, при которой мы используем функцию подсчета количества значений в качестве агрегирующей функции. Давайте теперь рассмотрим более сложные функции группировки.

Предположим, что перед нами стоит задача посчитать сумму зарплат по клубам, чтобы найти клуб с самой высокой зарплатой.

Мы можем сделать это с помощью функции ```groupby```:

In [21]:
display(data.groupby(['Club']))

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x11ca4de90>

Мы передали в функцию groupby на вход колонку (или список колонок), по которой будет осуществляться группировка. Но в ответ получили что-то странное. Это объект группировки, он хранит в себе информацию о том, какие строки датафрейма (по индексным номерам) соответствуют определенной группе (в нашем случае определенному клубу). Увидеть это можно, вызвав у объекта группировки атрибут groups:

In [25]:
data.groupby(['Club']).groups

4, 10814],
            dtype='int64'),
 'Stade Malherbe Caen': Int64Index([  498,   843,   987,  1098,  1364,  2197,  2487,  3235,  3342,
              5141,  6178,  6559,  8701, 10315, 12810],
            dtype='int64'),
 'Stade Rennais FC': Int64Index([438, 551, 660, 780, 1021, 1026, 1320, 1425, 1964, 7248, 9640, 9648,
             9915],
            dtype='int64'),
 'Stade de Reims': Int64Index([  978,  1865,  2071,  3248,  5187,  5562,  5827,  7089,  8517,
              9320, 11231, 11922, 12086, 12150],
            dtype='int64'),
 'Standard de Liège': Int64Index([655, 872, 1081, 1210, 1621, 1683, 3616, 3719, 3901, 4085, 8196,
             9508, 9906],
            dtype='int64'),
 'Stevenage': Int64Index([ 2731,  6955,  7274,  7311,  7640,  8319,  8485,  8835,  9177,
              9267,  9684,  9893, 10212, 10318, 10984, 11018, 11127, 11161,
             11384, 11418, 11533, 12131, 12413, 12453, 12461, 12606, 12839,
             12840],
            dtype='int64'),
 'Stoke City': I

Это означает, что FC Köln соответствуют следующие строки: 166, 379, 899, 1399, 3415, 6904, 7052, 8892, 12171, 12376.

### О чем нам это говорит?
Нам — ни о чем, но для алгоритма группировки это важная информация. Он поймет, какие строки брать для включения в группу, когда мы решим применить к этим строкам какую-нибудь агрегирующую функцию, например функцию суммы sum:

In [22]:
grouped_data = data.groupby(['Club']).sum()
display(grouped_data)

Unnamed: 0_level_0,Unnamed: 0,Age,Value,Wage,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
Club,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
SSV Jahn Regensburg,129124,609,15195000,90000,1104,944,1283,1362,944,1196,...,1042,1332,1205,1146,1088,405,406,368,409,424
1. FC Heidenheim 1846,117834,473,18290000,76000,961,860,955,1136,846,1040,...,923,1093,888,952,890,335,317,287,335,306
1. FC Kaiserslautern,167351,544,11195000,33000,1106,918,1133,1272,899,1131,...,1030,1174,938,989,996,392,373,348,368,356
1. FC Köln,54865,225,46810000,92000,444,357,434,567,320,486,...,431,515,453,458,452,272,251,276,252,268
1. FC Magdeburg,116731,515,57525000,84000,948,903,1044,1157,769,1024,...,938,1057,933,930,892,367,373,354,361,394
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Zagłębie Sosnowiec,220803,656,6815000,27000,1161,1007,1152,1357,979,1252,...,1113,1371,1219,1187,1156,427,391,417,391,413
Çaykur Rizespor,119137,557,27515000,118000,1110,921,1137,1290,888,1233,...,1063,1200,1050,1155,1143,375,394,387,388,389
Örebro SK,224465,622,8465000,36000,1114,974,1149,1311,965,1270,...,1066,1393,1112,1045,1008,412,406,386,428,407
Östersunds FK,136103,478,11030000,39000,944,805,856,1109,801,1066,...,847,1132,920,842,816,342,357,369,337,363
