Данные можно представить себе как последовательность каких-то единичных наблюдений, например, в нашем [датасете](https://lms.skillfactory.ru/assets/courseware/v1/d05df2022e56c6de021ab6e54949fe6c/asset-v1:Skillfactory+DST-12+11MAR2020+type@asset+block/data_sf.csv) единичное наблюдение — это конкретный футболист.

In [3]:
import pandas as pd
data = pd.read_csv('./data/data_sf.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,Curve,FKAccuracy,LongPassing,BallControl,Acceleration,SprintSpeed,Agility,Reactions,Balance,ShotPower,Jumping,Stamina,Strength,LongShots,Aggression,Interceptions,Positioning,Vision,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,70,90,86,97,93,94,87,96,91,86,91,95,95,85,68,72,59,94,48,22,94,94,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,89,81,87,88,81,76,77,94,89,91,87,96,70,95,95,88,79,93,63,29,95,82,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,62,84,84,96,88,87,78,95,94,90,96,94,84,80,61,81,49,82,56,36,89,87,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,21,50,13,18,21,19,51,42,57,58,60,90,43,31,67,43,64,12,38,30,12,68,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,55,92,82,86,85,83,91,91,78,76,79,91,77,91,63,90,75,91,76,61,87,94,79,88,68,58,51,15,13,5,10,13


Возьмем небольшой фрагмент из исходного датафрейма:

In [12]:
small_df = data[data.columns[1:8]].head(25)
display(small_df)


Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position
0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF
1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST
2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW
3,De Gea,27,Spain,Manchester United,72000000,260000,GK
4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM
5,E. Hazard,27,Belgium,Chelsea,93000000,340000,LF
6,L. Modrić,32,Croatia,Real Madrid,67000000,420000,RCM
7,L. Suárez,31,Uruguay,FC Barcelona,80000000,455000,RS
8,Sergio Ramos,32,Spain,Real Madrid,51000000,380000,RCB
9,J. Oblak,25,Slovenia,Atlético Madrid,68000000,94000,GK


In [11]:
s = small_df['Nationality'].value_counts()
display(s)
display(s.index)

Spain        0.200000
Belgium      0.133333
Uruguay      0.133333
Brazil       0.066667
Croatia      0.066667
Portugal     0.066667
Poland       0.066667
Slovenia     0.066667
Germany      0.066667
Argentina    0.066667
France       0.066667
Name: Nationality, dtype: float64

Index(['Spain', 'Belgium', 'Uruguay', 'Brazil', 'Croatia', 'Portugal',
       'Poland', 'Slovenia', 'Germany', 'Argentina', 'France'],
      dtype='object')

### Подсчет количества значений в процентах
Можно посчитать количество футболистов не в абсолютных числах, а в процентах от общего числа в датасете. Для этого надо вызвать функцию value_counts() с параметром normalize=True:

In [10]:
s = small_df['Nationality'].value_counts(normalize=True)
display(s)

Spain        0.200000
Belgium      0.133333
Uruguay      0.133333
Brazil       0.066667
Croatia      0.066667
Portugal     0.066667
Poland       0.066667
Slovenia     0.066667
Germany      0.066667
Argentina    0.066667
France       0.066667
Name: Nationality, dtype: float64

### Подсчет количества значений по численным признакам
Ещё один параметр, который можно передать в функцию value_counts, — это параметр bins. Этот параметр удобно передавать, когда мы хотим сгруппировать данные не по категориальному признаку (каким, например, является национальность), а по численному признаку (например, по возрасту).

Сначала сгруппируем данные по численному признаку без параметра bins:

In [15]:
s = small_df['Age'].value_counts()
display(s)

27    5
32    5
31    3
26    3
29    2
24    2
33    2
30    1
28    1
25    1
Name: Age, dtype: int64

Как видно, мы просто сгруппировали футболистов по возрасту и посчитали количество футболистов внутри каждой возрастной группы. Разброс возрастов не слишком большой, поэтому воспринимается эта информация достаточно легко. Например, мы узнали, что больше всего футболистов в двух группах: 27 лет и 32 года.

Другая ситуация складывается, когда мы попытаемся сгруппировать футболистов по их заработной плате:

In [20]:
s = small_df['Wage'].value_counts()
display(s)

205000    3
355000    2
240000    2
300000    1
130000    1
225000    1
455000    1
340000    1
315000    1
565000    1
405000    1
215000    1
380000    1
285000    1
145000    1
290000    1
125000    1
200000    1
420000    1
94000     1
260000    1
Name: Wage, dtype: int64

Из-за того, что цифры зарплат повторяются не часто , трудно сделать какие-то выводы. Но всё будет более наглядно, если мы разобьем весь возможный диапазон зарплат на 4 равных промежутка и подсчитаем количество футболистов, попадающих в каждый из промежутков. Именно для этого нужен параметр bins:

In [23]:
s = small_df['Wage'].value_counts(bins=4)
display(s)

(211750.0, 329500.0]     9
(93528.999, 211750.0]    8
(329500.0, 447250.0]     6
(447250.0, 565000.0]     2
Name: Wage, dtype: int64

Теперь видно, что распределение неравномерное и только 2 футболиста из 25 получают сверхвысокую зарплату.

Давайте посмотрим, что это за футболисты:

In [25]:
small_df.loc[(small_df['Wage'] > s.index[3].left) & (small_df['Wage'] <= s.index[3].right)]


Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position
0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF
7,L. Suárez,31,Uruguay,FC Barcelona,80000000,455000,RS


### Функции unique и nunique
В одном из предыдущих примеров мы подсчитывали количество уникальных национальностей с помощью следующего кода:

In [26]:
s = small_df['Nationality'].value_counts()
print(s.index)
print(len(s.index))

Index(['Spain', 'Uruguay', 'Germany', 'Argentina', 'Belgium', 'France',
       'Italy', 'England', 'Slovenia', 'Brazil', 'Croatia', 'Portugal',
       'Poland'],
      dtype='object')
13


```s.index``` в данном случае выводит список уникальных значений, а ```len(s.index)``` подсчитывает количество этих значений. На самом деле, сделать это можно было проще, при помощи функции ```unique```:

In [27]:
small_df['Nationality'].unique()

array(['Argentina', 'Portugal', 'Brazil', 'Spain', 'Belgium', 'Croatia',
       'Uruguay', 'Slovenia', 'Poland', 'Germany', 'France', 'England',
       'Italy'], dtype=object)

Функция ```unique``` возвращает список уникальных элементов из серии.

Передав получившийся список в функцию ```len```, мы можем подсчитать количество уникальных значений в серии:

In [28]:
len(small_df['Nationality'].unique())

13

Но если наша конечная цель - получить количество уникальных значений в серии, то мы можем поступить ещё проще, вызвав функцию ```nunique```:

In [29]:
small_df['Nationality'].nunique()

13