
* Работа для агенства "Digital Scouting"
* Данные по зарплатам игроков примерно 30 ведущих футбольных лиг.

# Содержание

1. [Подготовим данные и сделаем первые выводы](#view1)
2. [Зарплатный рейтинг по возврастам](#view5)
  - 2.1 [Итоговая таблица по возрастам](#age1)
3. [Зарплатный рейтинг по позициям](#view4)
  - 3.1 [Итоговая таблица по позициям](#poz1)
4. [Национальный рейтинг](#naz1)
  - 4.1 [Национальный рейтинг итоговая таблица](#nazf)
5. [Национальный рейтинг по зп](#naz2)
  - 5.1 [Национальный рейтинг по игрокам итоговая таблица](#nazf2)
6. [Рейтинг клубов по ЗП ведомости](#view2) 

 - 6.1 [Итог таблица перцентили](#final1)
 - 6.2 [Итог таблица по игрокам](#final2)
 
7. [Рейтинг лиг по зп ведомости](#view3)
  - 7.1 [Итоговая таблица по рейтингу лиг](#zp1)


8. [Вывод](#vivod1)

## 1.Подготовим данные и сделаем первые выводы<a name="view1"></a>

In [1]:
import pandas as pd
import json
from IPython.display import display
import sklearn
from sklearn.cluster import KMeans
import numpy as np
import math
import matplotlib.pyplot as plt
import os

pd.set_option('display.max_colwidth', None)
pd.set_option('display.float_format', '{:.2f}'.format)

In [2]:
data = pd.read_csv('data_capology.csv',sep = ",",low_memory=False)
data = data.replace("\'", '\"')

In [3]:
#увеличим вывод строк
pd.options.display.max_rows = 1000

In [4]:
display(data.head(12))
display(data.shape)

Unnamed: 0,player,net_pw,net_py,position,age,country,club,league
0,Kylian Mbappé,977432,50826480,F,23,France,PSG,Ligue 1
1,Lionel Messi,684203,35578536,F,34,Argentina,PSG,Ligue 1
2,Neymar,606008,31512418,F,29,Brazil,PSG,Ligue 1
3,Cristiano Ronaldo,579644,30141507,F,36,Portugal,Manchester United,Premier League
4,Gareth Bale,319034,16589763,F,32,Wales,Real Madrid,La Liga
5,Eden Hazard,293230,15247944,F,31,Belgium,Real Madrid,La Liga
6,Sergio Ramos,293230,15247944,D,35,Spain,PSG,Ligue 1
7,Frenkie de Jong,273681,14231414,M,24,Netherlands,Barcelona,La Liga
8,Kevin De Bruyne,265245,13792754,F,30,Belgium,Manchester City,Premier League
9,David de Gea,248783,12936735,K,31,Spain,Manchester United,Premier League


(14291, 8)

In [5]:
#проверим тип данных
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14291 entries, 0 to 14290
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   player    14291 non-null  object
 1   net_pw    14291 non-null  object
 2   net_py    14291 non-null  int64 
 3   position  14291 non-null  object
 4   age       14291 non-null  int64 
 5   country   14291 non-null  object
 6   club      14291 non-null  object
 7   league    14291 non-null  object
dtypes: int64(2), object(6)
memory usage: 893.3+ KB


In [6]:
# с помощью лямб функции поменяем тип данных с object  на  float для того что бы произвести расчеты
#data['net_py'] = data['net_py'].apply(lambda x: x.replace('$', '').replace(',', '')).astype('float')
#data['net_pw'] = data['net_pw'].apply(lambda x: x.replace('$', '').replace(',', '')).astype('float')


## 2.Зарплатный рейтинг по возврастам <a name="view5"></a>
Возрастная категория - Максимальная зп - Перцентиль 90 -Перцентиль 80 -Перцентиль 60 -Перцентиль 40
- до 20					
21-23					
24-26					
27-29					
30-32					
от 33					
					

In [7]:
def age_group(age):
    if age <= 20:
        return('до 20')
    if 21 <= age <= 23:
        return('21-23')
    if 24 <= age <= 26:
        return('24-26')
    if 27 <= age <= 29:
        return('27-29')
    if 30 <= age <= 32:
        return('30-32')
    if age > 30:
        return('от 33')
    return 

In [8]:
data['age_group'] = data['age'].apply(age_group)
print(data['age_group'].value_counts())

21-23    3364
24-26    3205
27-29    2600
до 20    2123
30-32    1794
от 33    1205
Name: age_group, dtype: int64


In [9]:
age = data.groupby(['age_group']).agg({'net_py':'max'})
age.sort_values(by='net_py',ascending = False,inplace=True)
display(age.shape)

(6, 1)

In [10]:
perage_40 = data.groupby('age_group')['net_py'].quantile(0.4)
perage_60 = data.groupby('age_group')['net_py'].quantile(0.6)
perage_80 = data.groupby('age_group')['net_py'].quantile(0.8)
perage_90 = data.groupby('age_group')['net_py'].quantile(0.9)

data_perc_age = pd.DataFrame()
data_perc_age['percentil40'] = perage_40
data_perc_age['percentil60'] = perage_60
data_perc_age['percentil80'] = perage_80
data_perc_age['percentil90'] = perage_90
display(data_perc_age.shape)

(6, 4)

In [11]:
#соеденим таблицы 
rating_age = age.merge(data_perc_age ,left_on='age_group' ,right_on = 'age_group' )
display(rating_age.shape)

(6, 5)

## 2.1 Итоговая таблица по возрастам<a name="age1"></a>

In [12]:
#Рейтинг зп по возрастам
final_age = rating_age.rename({'net_py':'макс зп','percentil40':'перцентиль40','percentil60':'перцентиль60','percentil80':'перцентиль80','percentil90':'перцентиль90'}, axis=1)
final_age = final_age.sort_values(by=['макс зп'],ascending=False).reset_index()
final_age.groupby('age_group')
display(final_age.shape)
final_age

(6, 6)

Unnamed: 0,age_group,макс зп,перцентиль40,перцентиль60,перцентиль80,перцентиль90
0,21-23,50826480,48226.0,91488.0,213471.0,437108.0
1,от 33,35578536,182975.0,365951.0,753698.8,1502678.4
2,27-29,31512418,142314.0,294794.0,640414.0,1266414.9
3,30-32,16589763,172810.0,374751.0,823389.0,1493009.3
4,24-26,14231414,91488.0,200000.0,461520.8,1002298.0
5,до 20,6810748,24113.0,40661.0,91488.0,193141.0


In [13]:
data.sort_values(by='net_py',ascending = False)
data.head(541)

Unnamed: 0,player,net_pw,net_py,position,age,country,club,league,age_group
0,Kylian Mbappé,977432,50826480,F,23,France,PSG,Ligue 1,21-23
1,Lionel Messi,684203,35578536,F,34,Argentina,PSG,Ligue 1,от 33
2,Neymar,606008,31512418,F,29,Brazil,PSG,Ligue 1,27-29
3,Cristiano Ronaldo,579644,30141507,F,36,Portugal,Manchester United,Premier League,от 33
4,Gareth Bale,319034,16589763,F,32,Wales,Real Madrid,La Liga,30-32
5,Eden Hazard,293230,15247944,F,31,Belgium,Real Madrid,La Liga,30-32
6,Sergio Ramos,293230,15247944,D,35,Spain,PSG,Ligue 1,от 33
7,Frenkie de Jong,273681,14231414,M,24,Netherlands,Barcelona,La Liga,24-26
8,Kevin De Bruyne,265245,13792754,F,30,Belgium,Manchester City,Premier League,30-32
9,David de Gea,248783,12936735,K,31,Spain,Manchester United,Premier League,30-32


 ## Вывод:  
 * Игроки 21-23 лет имеют наивысшую зп в своих клубах с достаточно сильным отрывом. 
 * Наименее оплачеваемые игроки оказались в возрасте до 20 лет, что в целом логично.
 

## 3.Зарплатный рейтинг по позициям<a name="view4"></a>
Позиция - Максимальная зп - Перцентиль 90 -Перцентиль 80 -Перцентиль 60 -Перцентиль 40

In [14]:
pos = data.groupby(['position']).agg({'net_py':'max'})
pos.sort_values(by='net_py',ascending = False,inplace=True)
display(pos.shape)

(4, 1)

In [15]:
perpos_40 = data.groupby('position')['net_py'].quantile(0.4)
perpos_60 = data.groupby('position')['net_py'].quantile(0.6)
perpos_80 = data.groupby('position')['net_py'].quantile(0.8)
perpos_90 = data.groupby('position')['net_py'].quantile(0.9)

data_perc_pos = pd.DataFrame()
data_perc_pos['percentil40'] = perpos_40
data_perc_pos['percentil60'] = perpos_60
data_perc_pos['percentil80'] = perpos_80
data_perc_pos['percentil90'] = perpos_90
display(data_perc_pos.shape)

(4, 4)

In [16]:
#соеденим таблицы 
rating_pos = pos.merge(data_perc_pos ,left_on='position' ,right_on = 'position' )
display(rating_pos.shape)

(4, 5)

## 3.1 Итоговая таблица по позициям <a name="poz1"></a>

In [17]:
#Рейтинг зп по позициям
final_pos = rating_pos.rename({'position':'позиция','net_py':'макс зп','percentil40':'перцентиль40','percentil60':'перцентиль60','percentil80':'перцентиль80','percentil90':'перцентиль90'}, axis=1)
final_pos = final_pos.sort_values(by=['макс зп'],ascending=False).reset_index()
final_pos.groupby('position')
display(final_pos.shape)
final_pos

(4, 6)

Unnamed: 0,position,макс зп,перцентиль40,перцентиль60,перцентиль80,перцентиль90
0,F,50826480,80000.0,180849.0,490536.0,1016530.0
1,D,15247944,81322.0,172810.0,437108.0,813224.0
2,M,14231414,72340.0,180000.0,478215.2,914877.0
3,K,12936735,48226.0,101653.0,304959.0,609918.0


## 4. Национальный рейтинг <a name="naz1"></a>

* Национальность * Кол-во игроков в выборке * Зарабатывают больше 2 000 000 * Зарабатывают больше 1 000 000	Зарабатывают больше 600 000 *Зарабатывают больше 400 000 * Зарабатывают больше 200 000	* Зарабатывают больше 100 000

In [18]:
def player_group(net_py):
    if net_py >= 2000000:
         return('2000000')
    if net_py >= 1000000:
         return('1000000')
    if net_py >= 600000:
         return('600000')
    if net_py >= 400000:
         return('400000')
    if net_py >= 200000:
         return('200000')
    if net_py >= 100000:
         return('100000')
    return 

In [19]:
data['player_group'] = data['net_py'].apply(player_group)

In [20]:
dtt = data[['country','net_py','player_group']]
dtt.sort_values(by='net_py',ascending = False)
dtt.head(552)

Unnamed: 0,country,net_py,player_group
0,France,50826480,2000000
1,Argentina,35578536,2000000
2,Brazil,31512418,2000000
3,Portugal,30141507,2000000
4,Wales,16589763,2000000
5,Belgium,15247944,2000000
6,Spain,15247944,2000000
7,Netherlands,14231414,2000000
8,Belgium,13792754,2000000
9,Spain,12936735,2000000


In [21]:
zar = data.groupby(['country']).agg({'player':'count'})
zar.sort_values(by='player',ascending = False,inplace=True)
display(zar.shape)

(153, 1)

In [22]:
zar_test = data.groupby(['country']).agg({'player':'count','player_group':'count'})
zar_test.sort_values(by='player',ascending = False,inplace=True)
display(zar_test.shape)

(153, 2)

In [23]:
#zar_test_2 = data.groupby(['country','player_group','net_py']).agg({'player':'count'})
#zar_test_2.sort_values(by='player',ascending = False,inplace=True)
#display(zar_test_2.shape)
#zar_test_2

zar_test_2 = data.groupby(['country','player_group']).agg({'net_py':'count'})
#zar_test_2.sort_values(by='player',ascending = False,inplace=True)
display(zar_test_2.shape)

(543, 1)

In [24]:
gpoup_pivot = pd.pivot_table(zar_test_2,
               index="country",
               values="net_py",
               columns="player_group"              
               ).reset_index()

#right_pivot.sort_values(by='player_group',ascending = False)

gpoup_pivot=gpoup_pivot.fillna(0)
display(gpoup_pivot.shape)

(140, 7)

In [25]:
play = gpoup_pivot.merge(zar ,left_on='country' ,right_on = 'country')
display(play.shape)
play = play.sort_values(by='player',ascending = False)

(140, 8)

## 4.1. Национальный рейтинг итоговая табица<a name="nazf"></a>

In [26]:
play = play.rename({'country':'Cтрана','player':'Кол-во игроков в выборке'}, axis=1)
display(play.shape)
play.reset_index()
play.head()

(140, 8)

Unnamed: 0,Cтрана,100000,1000000,200000,2000000,400000,600000,Кол-во игроков в выборке
43,England,206.0,84.0,159.0,56.0,57.0,57.0,1532
15,Brazil,153.0,71.0,171.0,50.0,87.0,63.0,1078
47,France,164.0,41.0,102.0,55.0,47.0,45.0,926
117,Spain,172.0,65.0,171.0,65.0,61.0,52.0,883
4,Argentina,204.0,35.0,171.0,22.0,93.0,57.0,860


In [27]:
play['more100_000'] = play[['100000','1000000','200000','2000000','400000','600000']].sum( axis=1)
play['more200_000'] = play[['1000000','200000','2000000','400000','600000']].sum( axis=1)
play['more400_000'] = play[['1000000','2000000','400000','600000']].sum( axis=1)
play['more600_000'] = play[['1000000','2000000','600000']].sum( axis=1)
play['more1_000_000'] = play[['1000000','2000000']].sum( axis=1)
play['more2_000_000'] = play[['2000000']].sum( axis=1)
play

Unnamed: 0,Cтрана,100000,1000000,200000,2000000,400000,600000,Кол-во игроков в выборке,more100_000,more200_000,more400_000,more600_000,more1_000_000,more2_000_000
43,England,206.0,84.0,159.0,56.0,57.0,57.0,1532,619.0,413.0,254.0,197.0,140.0,56.0
15,Brazil,153.0,71.0,171.0,50.0,87.0,63.0,1078,595.0,442.0,271.0,184.0,121.0,50.0
47,France,164.0,41.0,102.0,55.0,47.0,45.0,926,454.0,290.0,188.0,141.0,96.0,55.0
117,Spain,172.0,65.0,171.0,65.0,61.0,52.0,883,586.0,414.0,243.0,182.0,130.0,65.0
4,Argentina,204.0,35.0,171.0,22.0,93.0,57.0,860,582.0,378.0,207.0,114.0,57.0,22.0
26,Colombia,129.0,11.0,93.0,3.0,30.0,14.0,838,280.0,151.0,58.0,28.0,14.0,3.0
51,Germany,155.0,43.0,127.0,34.0,59.0,52.0,754,470.0,315.0,188.0,129.0,77.0,34.0
67,Italy,115.0,56.0,130.0,36.0,58.0,56.0,714,451.0,336.0,206.0,148.0,92.0,36.0
93,Netherlands,58.0,25.0,46.0,16.0,25.0,21.0,413,191.0,133.0,87.0,62.0,41.0,16.0
133,United States,62.0,6.0,52.0,5.0,24.0,13.0,403,162.0,100.0,48.0,24.0,11.0,5.0


In [28]:
play_drop=play.drop(['100000','1000000','200000','2000000','400000','600000'], axis=1)
play_drop

Unnamed: 0,Cтрана,Кол-во игроков в выборке,more100_000,more200_000,more400_000,more600_000,more1_000_000,more2_000_000
43,England,1532,619.0,413.0,254.0,197.0,140.0,56.0
15,Brazil,1078,595.0,442.0,271.0,184.0,121.0,50.0
47,France,926,454.0,290.0,188.0,141.0,96.0,55.0
117,Spain,883,586.0,414.0,243.0,182.0,130.0,65.0
4,Argentina,860,582.0,378.0,207.0,114.0,57.0,22.0
26,Colombia,838,280.0,151.0,58.0,28.0,14.0,3.0
51,Germany,754,470.0,315.0,188.0,129.0,77.0,34.0
67,Italy,714,451.0,336.0,206.0,148.0,92.0,36.0
93,Netherlands,413,191.0,133.0,87.0,62.0,41.0,16.0
133,United States,403,162.0,100.0,48.0,24.0,11.0,5.0


In [29]:
teto = data.query('country == "England"')
teto =teto.sort_values(by='net_py',ascending = False)
teto.head(57).reset_index()

Unnamed: 0,index,player,net_pw,net_py,position,age,country,club,league,age_group,player_group
0,11,Jadon Sancho,232090,12068660,F,21,England,Manchester United,Premier League,21-23,2000000
1,25,Raheem Sterling,198934,10344565,F,27,England,Manchester City,Premier League,27-29,2000000
2,24,Jack Grealish,198934,10344565,F,26,England,Manchester City,Premier League,24-26,2000000
3,39,John Stones,165778,8620471,D,27,England,Manchester City,Premier League,27-29,2000000
4,65,Marcus Rashford,132623,6896377,F,24,England,Manchester United,Premier League,24-26,2000000
5,64,Harry Kane,132623,6896377,F,28,England,Tottenham,Premier League,27-29,2000000
6,77,Ben Chilwell,125899,6546735,D,25,England,Chelsea,Premier League,24-26,2000000
7,78,Harry Maguire,125899,6546735,D,28,England,Manchester United,Premier League,27-29,2000000
8,83,Trent Alexander-Arnold,119407,6209151,D,23,England,Liverpool,Premier League,21-23,2000000
9,103,Luke Shaw,99467,5172283,D,26,England,Manchester United,Premier League,24-26,2000000


## 5. Национальный рейтинг по зп <a name="naz2"></a>

Национальность	Наивысшая зарплата	Зарплата 10 игрока	Зарплата 30 игрока	Зарплата 50 игрока	Зарплата 100 игрока	Зарплата 200 игрока	Зарплата 300 игрока

In [30]:
zp = data.groupby(['country']).agg({'net_py':'max'})
zp.sort_values(by='net_py',ascending = False,inplace=True)
display(zp.shape)
zp.head(1)

(153, 1)

Unnamed: 0_level_0,net_py
country,Unnamed: 1_level_1
France,50826480


In [31]:
filter_list=[10,30,50,100,200,300]

In [32]:
#data_coutry = data.copy()
#data_coutry['rank'] = data_coutry.groupby('country')['net_py'].rank(method='dense',ascending=False)
#data_coutry_filtered = data_coutry.query("rank == @filter_list")
#data_coutry_filtered.sort_values(by = 'rank', ascending = False)
#display(data_coutry_filtered.shape)
#data_coutry_filtered.head(305)


data['rank'] = data.groupby('country')['net_py'].rank(method='dense',ascending=False)
data_coutry_filtered = data.query("rank == @filter_list")
data_coutry_filtered.sort_values(by = 'rank', ascending = False)
display(data_coutry_filtered.shape)
data_coutry_filtered.head(305)

(305, 11)

Unnamed: 0,player,net_pw,net_py,position,age,country,club,league,age_group,player_group,rank
40,Anthony Martial,165778,8620471,F,25,France,Manchester United,Premier League,24-26,2000000.0,10.0
81,Cesc Fàbregas,122375,6363475,M,34,Spain,Monaco,Ligue 1,от 33,2000000.0,10.0
109,Kai Havertz,99467,5172283,F,22,Germany,Chelsea,Premier League,21-23,2000000.0,10.0
132,Casemiro,92465,4808185,M,29,Brazil,Real Madrid,La Liga,27-29,2000000.0,10.0
138,Tammy Abraham,87969,4574383,F,24,England,Roma,Serie A,24-26,2000000.0,10.0
246,Vitolo,63338,3293556,F,32,Spain,Getafe,La Liga,30-32,2000000.0,30.0
252,Rodrigo de Paul,62556,3252895,M,27,Argentina,Atletico Madrid,La Liga,27-29,2000000.0,10.0
259,Gelson Martins,61187,3181738,F,26,Portugal,Monaco,Ligue 1,24-26,2000000.0,10.0
261,Thomas Lemar,60992,3171572,F,26,France,Atletico Madrid,La Liga,24-26,2000000.0,30.0
271,Leander Dendoncker,59587,3098547,M,26,Belgium,Wolverhampton,Premier League,24-26,2000000.0,10.0


In [33]:
data_c = data.query('country == "France"')
data_c

Unnamed: 0,player,net_pw,net_py,position,age,country,club,league,age_group,player_group,rank
0,Kylian Mbappé,977432,50826480,F,23,France,PSG,Ligue 1,21-23,2000000.0,1.0
12,Raphaël Varane,225366,11719018,D,28,France,Manchester United,Premier League,27-29,2000000.0,2.0
13,Karim Benzema,225200,11710421,F,34,France,Real Madrid,La Liga,от 33,2000000.0,3.0
26,Antoine Griezmann,195486,10165296,F,30,France,Atletico Madrid,La Liga,30-32,2000000.0,4.0
27,Presnel Kimpembe,195486,10165296,D,26,France,PSG,Ligue 1,24-26,2000000.0,4.0
31,Paul Pogba,192210,9994924,M,28,France,Manchester United,Premier League,27-29,2000000.0,5.0
32,N'Golo Kanté,191978,9982867,M,30,France,Chelsea,Premier League,30-32,2000000.0,6.0
33,Ousmane Dembélé,187667,9758684,F,24,France,Barcelona,La Liga,24-26,2000000.0,7.0
34,Lucas Hernández,186494,9697692,D,25,France,Bayern Munich,1.Bundesliga,24-26,2000000.0,8.0
38,Kingsley Coman,176133,9158932,F,25,France,Bayern Munich,1.Bundesliga,24-26,2000000.0,9.0


In [34]:
data_pivot = pd.pivot_table(data_coutry_filtered,
               index='country',
               values="net_py",
               columns="rank"
               )

display(data_pivot.shape)

(84, 5)

In [35]:
zar = data.groupby(['country']).agg({'player':'count'})
zar.sort_values(by='player',ascending = False,inplace=True)
display(zar.shape)

(153, 1)

## 5.1. Национальный рейтинг по игрокам итоговая табица<a name="nazf2"></a>

In [36]:
rating_naz = data_pivot.merge(zp ,left_on='country' ,right_on = 'country')
display(rating_naz.shape)
rating_naz = rating_naz.sort_values(by='net_py',ascending = False)
rating_naz = rating_naz.fillna(0)
rating_naz 

(84, 6)

Unnamed: 0_level_0,10.0,30.0,50.0,100.0,200.0,net_py
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
France,8620471.0,3171572.0,1844660.0,660744.0,0.0,50826480
Argentina,3252895.0,1423141.0,1016530.0,540000.0,0.0,35578536
Brazil,4808185.0,2390000.0,1670000.0,792893.0,203306.0,31512418
Portugal,3181738.0,1301158.0,542547.0,38128.0,0.0,30141507
Wales,904245.0,192906.0,0.0,0.0,0.0,16589763
Spain,6363475.0,3293556.0,2155043.0,914877.0,50826.0,15247944
Belgium,3098547.0,864050.0,355785.0,0.0,0.0,15247944
Netherlands,2592170.0,1321488.0,681075.0,132623.0,0.0,14231414
Poland,1118183.0,349641.0,60283.0,0.0,0.0,12391496
England,4574383.0,2033059.0,1350340.0,385811.0,0.0,12068660


## Вывод:
* По максимально зарплате в клубе лидеры Франция, Аргентина,Бразилия и Португалия, думаю можно без проблем называть этих игроков. Франция сильно в отрыве по игрокам из всех корзин. 

* Только у Бразили и Испании оказались 200е и 100е игроки у которых больши разброс по зп.

* Нули представлены здесь как замена пропущенным значениям, не все игроки  дотягивают до отметки 100е и 200е и ранк кидает их в другую корзину. Для того что бы проверить это оставил вычесления выше. 

* Получается, что несмотря на количество игроков зп могут быть сильно в разных диапозонах.

##  Найдем суммы зарплат 
(платежные ведомости) всех команд. 
* найти где граница между топ-клубами и просто сильными командами.

In [37]:
data_new = pd.read_csv('Capology_vedomosti.csv',sep = ",",low_memory=False)
data_new = data_new.replace("\'", '\"')

In [38]:
# с помощью лямб функции поменяем тип данных с object  на  float для того что бы произвести расчеты
#data_new['net_py'] = data_new['net_py'].apply(lambda x: x.replace('$', '').replace(',', '')).astype('float')
#data_new['net_pw'] = data_new['net_pw'].apply(lambda x: x.replace('$', '').replace(',', '')).astype('float')



In [39]:
# в расчет берем зп за год
total_salary = data_new.groupby(['club']).agg({'net_py':'sum'})
total_salary.sort_values(by='net_py',ascending = False,inplace=True)

In [40]:
total_salary.reset_index()

Unnamed: 0,club,net_py
0,PSG,240333009
1,Manchester United,163547819
2,Real Madrid,157389280
3,Bayern Munich,128184381
4,Chelsea,115478143
5,Barcelona,114644205
6,Juventus,102262875
7,Manchester City,99485060
8,Liverpool,93089032
9,Inter Milan,85693444


## Вывод:
По таблице можно сказать что суммы от 48569786 млн евро зарплатной ведомости - это топ клубы, после этой отметки категория сильные клубы. ПСЖ вне конкуренции - сильный отрыв по зп. Остальные топ 4 имеют примерно одинаковую зп ведомость, между остальными топ клубами разница существенная.

Наш топ 5 довольно очевидный:
* PSG	240439745
* Manchester United	163547819
* Real Madrid	157389280
* Bayern Munich	128184381
* Chelsea 116225653

## Посмотрим на таблицу более подробно
Нужно найти:

* где будут российские клубы, Аякс, Спортинг, Зальцбург, Шахтер 

* Где будет первый клуб МЛС, первый мексиканский и т.д.

In [41]:
#найдем сумму платежной ведомости клуба
total_sum_test = data_new.groupby(['club','league']).agg({'net_py':'sum'})
total_sum_test.sort_values(by='net_py',ascending = False,inplace=True)
total_sum_test.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,net_py
club,league,Unnamed: 2_level_1
PSG,Ligue 1,240333009
Manchester United,Premier League,163547819
Real Madrid,La Liga,157389280


In [42]:
#найдем максимальную зп
total_sum_2 = data_new.groupby(['club','league']).agg({'net_py':'max'})
total_sum_2.sort_values(by='net_py',ascending = False,inplace=True)

In [43]:
test_two = total_sum_test.merge(total_sum_2,left_on=['club','league'],right_on=['club','league'],how='right')
display(test_two.shape)

(488, 2)

In [44]:
total = test_two.rename({'net_py_x':'net_py','net_py_y':'net_pw'}, axis=1)

In [45]:
display(total.shape)
display(total.head(4))



(488, 2)

Unnamed: 0_level_0,Unnamed: 1_level_0,net_py,net_pw
club,league,Unnamed: 2_level_1,Unnamed: 3_level_1
PSG,Ligue 1,240333009,50826480
Manchester United,Premier League,163547819,30141507
Real Madrid,La Liga,157389280,16589763
Barcelona,La Liga,114644205,14231414


In [46]:
#сохраняем таблицу с чтобы отправить себе и потом загрузим снова с индексами
total.to_csv(r'total_ver2.csv')

In [47]:
#проставим индексы места в рейтинге
dt = pd.read_csv('total_ver2.csv',sep = ",",index_col = 0,low_memory=False)
dt = dt.replace("\'", '\"')

In [48]:
dt.groupby('club')
dt = dt.sort_values(by='net_py',ascending = False)
dt.reset_index()

Unnamed: 0,club,league,net_py,net_pw
0,PSG,Ligue 1,240333009,50826480
1,Manchester United,Premier League,163547819,30141507
2,Real Madrid,La Liga,157389280,16589763
3,Bayern Munich,1.Bundesliga,128184381,12391496
4,Chelsea,Premier League,115478143,11212641
5,Barcelona,La Liga,114644205,14231414
6,Juventus,Serie A,102262875,8132237
7,Manchester City,Premier League,99485060,13792754
8,Liverpool,Premier League,93089032,7583603
9,Inter Milan,Serie A,85693444,7115707


* первый клуб не из топ 5 это Бешикташ 26 место, следом Зенит 33 место.
* Фламенго 42 место * Спартак  - 48 место * Краснодар - 68 место * Аякс - 63 место  * Локомотив - 66 место * ЦСКА- 72 место * Динамо - 74 место * Рейнджерс - 77 место * Мексиканский UANL - 80 место * Орландо - 91 место *  Арсенал Тула - 114 место * Спортинг - 117 * Ростов - 122 * Сочи - 123 * Рубин - 135 * Ахмат - 143 * * Базель - 160 * Уфа 182 * Нижний - 206 * Урал - 217  * Крылья - 275 

## 6.Рейтинг клубов по ЗП ведомости<a name="view2"></a>

Задача: Собрать таблицу с колонками

- место в рейтинге - клуб - место в лиге по зп - размер ведомости net - максимальная зп - Перцентиль 90	- Перцентиль 80 - Перцентиль 60	- Перцентиль 40

Шаги:
1.Собрать зп ведомость по лигам и распределить клубы 
2.Собрать размезмер зп ведомости (сделано)
3.Найти максимальную зп
4.Найти перцентили и добавить в таблицу

In [49]:
percentil_40 = data_new.groupby('club')['net_py'].quantile(0.4)
percentil_60 = data_new.groupby('club')['net_py'].quantile(0.6)
percentil_80 = data_new.groupby('club')['net_py'].quantile(0.8)
percentil_90 = data_new.groupby('club')['net_py'].quantile(0.9)

In [50]:
#соберем перцентили
data_perc = pd.DataFrame()
data_perc['percentil40'] = percentil_40
data_perc['percentil60'] = percentil_60
data_perc['percentil80'] = percentil_80 
data_perc['percentil90'] = percentil_90
display(data_perc.shape)

(488, 4)

In [51]:
#максимальная зарпатная ведомость по команде
maxzp = data_new.groupby(['club','league']).agg({'net_pw':'max'})
maxzp.sort_values(by='net_pw',ascending = False,inplace=True)
display(maxzp.shape)
maxzp 

(488, 1)

Unnamed: 0_level_0,Unnamed: 1_level_0,net_pw
club,league,Unnamed: 2_level_1
Cardiff,Championship,9970
Karagumrukspor,Super Lig,9970
Bournemouth,Championship,9970
Granada,La Liga,9970
Celtic,Premiership,9970
Hoffenheim,1.Bundesliga,9970
Newcastle,Premier League,9970
Nottingham Forest,Championship,9970
Huddersfield,Championship,9970
CSKA,Premier Liga,9970


In [52]:
#соеденим таблицы
test_2 = maxzp.merge(dt,left_on='club',right_on='club',how='right')
display(test_2.shape)
test_2 

(488, 4)

Unnamed: 0_level_0,net_pw_x,league,net_py,net_pw_y
club,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PSG,977432,Ligue 1,240333009,50826480
Manchester United,99467,Premier League,163547819,30141507
Real Madrid,92465,La Liga,157389280,16589763
Bayern Munich,977,1.Bundesliga,128184381,12391496
Chelsea,99467,Premier League,115478143,11212641
Barcelona,97743,La Liga,114644205,14231414
Juventus,97743,Serie A,102262875,8132237
Manchester City,99467,Premier League,99485060,13792754
Liverpool,9970,Premier League,93089032,7583603
Inter Milan,97743,Serie A,85693444,7115707


In [53]:
#соеденим таблицы
df_merge = test_2.merge(data_perc,left_on='club' ,right_on = 'club' )
#df_merge.sort_values(by=['net_py'],ascending=False).reset_index()
df_merge.groupby('club')
display(df_merge.shape)
df_merge 

(488, 8)

Unnamed: 0_level_0,net_pw_x,league,net_py,net_pw_y,percentil40,percentil60,percentil80,percentil90
club,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
PSG,977432,Ligue 1,240333009,50826480,527578.6,4159639.0,8050914.0,10673560.8
Manchester United,99467,Premier League,163547819,30141507,2963513.0,4205343.0,8340758.2,11753982.2
Real Madrid,92465,La Liga,157389280,16589763,4116945.0,4808185.0,10704057.0,11344470.5
Bayern Munich,977,1.Bundesliga,128184381,12391496,1813488.8,4525590.2,9697692.0,10857552.9
Chelsea,99467,Premier League,115478143,11212641,3421663.6,4135415.0,5172283.0,7599276.9
Barcelona,97743,La Liga,114644205,14231414,1500397.6,2976398.6,5133474.4,8579509.6
Juventus,97743,Serie A,102262875,8132237,3049589.0,4066118.0,5895872.0,6810748.0
Manchester City,99467,Premier League,99485060,13792754,3098547.0,4135415.0,5312139.4,9827336.8
Liverpool,9970,Premier League,93089032,7583603,2141253.0,3448188.0,5587030.2,6346596.2
Inter Milan,97743,Serie A,85693444,7115707,1951736.6,3130911.4,5082648.0,6099178.0


In [54]:
df_merge = df_merge.drop(['net_pw_x'],axis=1)

In [55]:
final = df_merge
#.rename({'club':'клуб','net_pw_y':'макс зп','ligue':'лига','net_py':'размер ведомости','percentil40':'перцентиль40','percentil60':'перцентиль60','percentil80':'перцентиль80','percentil90':'перцентиль90'}, axis=1)
display(final.shape)
final.head(2)

(488, 7)

Unnamed: 0_level_0,league,net_py,net_pw_y,percentil40,percentil60,percentil80,percentil90
club,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
PSG,Ligue 1,240333009,50826480,527578.6,4159639.0,8050914.0,10673560.8
Manchester United,Premier League,163547819,30141507,2963513.0,4205343.0,8340758.2,11753982.2


In [56]:
#создадим фильтр лист для ранк
filter_list_rank=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30]

In [57]:
dt_ranked = final.copy()
dt_ranked['rank'] = final.groupby('league')['net_py'].rank(method='dense',ascending=False)
dt_rank_filtered = dt_ranked.query("rank == @filter_list_rank")
#dt_rank_filtered.sort_values(by = ['net_py'], ascending = False)
dt_rank_filtered.head(1)

Unnamed: 0_level_0,league,net_py,net_pw_y,percentil40,percentil60,percentil80,percentil90,rank
club,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
PSG,Ligue 1,240333009,50826480,527578.6,4159639.0,8050914.0,10673560.8,1.0


### 6.1 Итог таблица перцентили<a name="final1"></a>

In [58]:
dt_rank_filtered = dt_rank_filtered.rename({'club':'клуб','ligue':'лига','net_pw_y':'макс зп','net_py':'размер ведомости','percentil40':'перцентиль40','percentil60':'перцентиль60','percentil80':'перцентиль80','percentil90':'перцентиль90'}, axis=1)
dt_rank_filtered = dt_rank_filtered.sort_values(by = 'размер ведомости', ascending = False)
dt_rank_filtered

Unnamed: 0_level_0,league,размер ведомости,макс зп,перцентиль40,перцентиль60,перцентиль80,перцентиль90,rank
club,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
PSG,Ligue 1,240333009,50826480,527578.6,4159639.0,8050914.0,10673560.8,1.0
Manchester United,Premier League,163547819,30141507,2963513.0,4205343.0,8340758.2,11753982.2,1.0
Real Madrid,La Liga,157389280,16589763,4116945.0,4808185.0,10704057.0,11344470.5,1.0
Bayern Munich,1.Bundesliga,128184381,12391496,1813488.8,4525590.2,9697692.0,10857552.9,1.0
Chelsea,Premier League,115478143,11212641,3421663.6,4135415.0,5172283.0,7599276.9,2.0
Barcelona,La Liga,114644205,14231414,1500397.6,2976398.6,5133474.4,8579509.6,2.0
Juventus,Serie A,102262875,8132237,3049589.0,4066118.0,5895872.0,6810748.0,1.0
Manchester City,Premier League,99485060,13792754,3098547.0,4135415.0,5312139.4,9827336.8,3.0
Liverpool,Premier League,93089032,7583603,2141253.0,3448188.0,5587030.2,6346596.2,4.0
Inter Milan,Serie A,85693444,7115707,1951736.6,3130911.4,5082648.0,6099178.0,2.0


### Теперь соберем таблицу по игрокам

In [59]:
# отсортируем лиги по зп
total_ligue = dt.groupby(['league']).agg({'net_py':'sum'})
total_ligue.sort_values(by='net_py',ascending = False,inplace=True)
total_ligue.head(2)

Unnamed: 0_level_0,net_py
league,Unnamed: 1_level_1
Premier League,1076895758
La Liga,670741783


In [60]:
filter_list=[1,3,7,12,18]

#df_new.query("rank == @filter_list")

In [61]:
data_ranked = data_new.copy()
data_ranked['rank'] = data_new.groupby('club')['net_py'].rank(method='dense',ascending=False)
data_rank_filtered = data_ranked.query("rank == @filter_list")
display(data_rank_filtered.shape)
data_rank_filtered.sort_values(by = ['club','net_py'], ascending = False)
data_rank_filtered.head(1)

(3268, 9)

Unnamed: 0,player,net_pw,net_py,posotion,age,country,club,league,rank
0,Kylian Mbappé,977432,50826480,F,23,France,PSG,Ligue 1,1.0


In [62]:
statistic_pivot = pd.pivot_table(data_rank_filtered  ,
               index=['league','club'],
               values="net_py",
               columns="rank"
               )

display(statistic_pivot.shape)
statistic_pivot.head(2)

(488, 5)

Unnamed: 0_level_0,rank,1.00,3.00,7.00,12.00,18.00
league,club,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1.Bundesliga,Arminia Bielefeld,650579.0,487934.0,203306.0,111818.0,
1.Bundesliga,Augsburg,1128348.0,813224.0,487934.0,315124.0,223637.0


In [63]:
final_player = statistic_pivot.merge(dt_rank_filtered,left_on=['league','club'],right_on=['league','club'],how='left').reset_index()
final_player = final_player[['league','club', 'rank','размер ведомости' ,1.0, 3.0, 7.0, 12.0, 18.0]]
#final_player = final_player.sort_values(by = ['net_py'], ascending = False)
final_player = final_player.fillna(0)
final_player 

Unnamed: 0,league,club,rank,размер ведомости,1.0,3.0,7.0,12.0,18.0
0,1.Bundesliga,Arminia Bielefeld,18.0,4930166,650579.0,487934.0,203306.0,111818.0,0.0
1,1.Bundesliga,Augsburg,11.0,12721868,1128348.0,813224.0,487934.0,315124.0,223637.0
2,1.Bundesliga,Bayer Leverkusen,5.0,26516173,1728100.0,1606117.0,1240166.0,874215.0,599752.0
3,1.Bundesliga,Bayern Munich,1.0,128184381,12391496.0,11049677.0,9158932.0,3771325.0,1026695.0
4,1.Bundesliga,Bochum,15.0,6937815,701405.0,498100.0,396447.0,233802.0,101653.0
5,1.Bundesliga,Borussia Dortmund,2.0,48610448,5926368.0,4737028.0,2155043.0,1402811.0,569257.0
6,1.Bundesliga,Eintracht Frankfurt,8.0,19141255,1504464.0,1412976.0,1016530.0,752232.0,386281.0
7,1.Bundesliga,Freiburg,16.0,6236411,508265.0,437108.0,304959.0,203306.0,50826.0
8,1.Bundesliga,Furth,17.0,6150005,569257.0,437108.0,325289.0,162645.0,101653.0
9,1.Bundesliga,Hertha Berlin,9.0,17962076,1687439.0,1402811.0,813224.0,528595.0,289711.0


## 6.2.Итог таблица по игрокам<a name="final2"></a>

In [64]:
final_player_2 = final_player.rename({'league':'лига','club':'клуб','rank':'ранг','net_py':'размер ведомости',1.0:'зп 1 игрока',3.0:'зп 3 игрока',7.0:'зп 7 игрока',12.0:'зп 12 игрока',18.0:'зп 18 игрока'}, axis=1)
final_player_2 = final_player.sort_values(by = 'размер ведомости', ascending = False)
final_player_2.reset_index()

Unnamed: 0,index,league,club,rank,размер ведомости,1.0,3.0,7.0,12.0,18.0
0,299,Ligue 1,PSG,1.0,240333009,50826480.0,31512418.0,8050914.0,5031822.0,2754795.0
1,364,Premier League,Manchester United,1.0,163547819,30141507.0,12068660.0,8270830.0,4310235.0,2592170.0
2,192,La Liga,Real Madrid,1.0,157389280,16589763.0,11710421.0,6404136.0,4574383.0,3252895.0
3,3,1.Bundesliga,Bayern Munich,1.0,128184381,12391496.0,11049677.0,9158932.0,3771325.0,1026695.0
4,357,Premier League,Chelsea,2.0,115478143,11212641.0,9380037.0,4135415.0,2760962.0,747509.0
5,180,La Liga,Barcelona,2.0,114644205,14231414.0,10165296.0,5336780.0,3049589.0,1463803.0
6,427,Serie A,Juventus,1.0,102262875,8132237.0,7115707.0,4066118.0,1524794.0,0.0
7,363,Premier League,Manchester City,3.0,99485060,13792754.0,8620471.0,4183641.0,2760962.0,470208.0
8,362,Premier League,Liverpool,4.0,93089032,7583603.0,6209151.0,3448188.0,2001396.0,434037.0
9,426,Serie A,Inter Milan,2.0,85693444,7115707.0,6099178.0,3557854.0,2033059.0,1016529.0


In [83]:
qq = data_new.query('club =="PSG"')
qq.sort_values(by = 'rank',ascending = False)

#а data_new?

KeyError: 'rank'

In [65]:
club = data_new.groupby(['club','league','player']).agg({'net_py':'sum'})
club.sort_values(by='net_py',ascending = False,inplace=True)
club.head(160)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,net_py
club,league,player,Unnamed: 3_level_1
PSG,Ligue 1,Kylian Mbappé,50826480
PSG,Ligue 1,Lionel Messi,35578536
PSG,Ligue 1,Neymar,31512418
Manchester United,Premier League,Cristiano Ronaldo,30141507
Real Madrid,La Liga,Gareth Bale,16589763
PSG,Ligue 1,Sergio Ramos,15247944
Real Madrid,La Liga,Eden Hazard,15247944
Barcelona,La Liga,Frenkie de Jong,14231414
Manchester City,Premier League,Kevin De Bruyne,13792754
Manchester United,Premier League,David de Gea,12936735


## 7.Рейтинг лиг по зп ведомости<a name="view3"></a>
Место в рейтинге - Лига	- Максимальная зп -  Перцентиль 90 -Перцентиль 80 -Перцентиль 60 -Перцентиль 40

In [66]:
liga = data_new.groupby(['league']).agg({'net_py':'max'})
liga.sort_values(by='net_py',ascending = False,inplace=True)
display(liga.shape)

(25, 1)

In [67]:
percent_40 = data_new.groupby('league')['net_py'].quantile(0.4)
percent_60 = data_new.groupby('league')['net_py'].quantile(0.6)
percent_80 = data_new.groupby('league')['net_py'].quantile(0.8)
percent_90 = data_new.groupby('league')['net_py'].quantile(0.9)

data_perc_ligue = pd.DataFrame()
data_perc_ligue['percentil40'] = percent_40
data_perc_ligue['percentil60'] = percent_60
data_perc_ligue['percentil80'] = percent_80 
data_perc_ligue['percentil90'] = percent_90
display(data_perc_ligue.shape)

(25, 4)

In [68]:
#соеденим таблицы 
rating_ligue = liga.merge(data_perc_ligue ,left_on='league' ,right_on = 'league' )
display(rating_ligue.shape)

(25, 5)

## 7.1 Итоговая таблица по рейтингу лиг<a name="zp1"></a>

In [69]:
#Рейтинг лиг по зп ведомостям
final_ligue = rating_ligue.rename({'league':'лига','net_py':'макс зп','percentil40':'перцентиль40','percentil60':'перцентиль60','percentil80':'перцентиль80','percentil90':'перцентиль90'}, axis=1)
final_ligue = final_ligue.sort_values(by=['макс зп'],ascending=False).reset_index()
final_ligue.groupby('league')
display(final_ligue.shape)
final_ligue



(25, 6)

Unnamed: 0,league,макс зп,перцентиль40,перцентиль60,перцентиль80,перцентиль90
0,Ligue 1,50826480,121984.0,274463.0,599752.0,1209670.0
1,Premier League,30141507,882543.0,1724094.0,2760962.0,4135415.0
2,La Liga,16589763,315124.0,630248.0,1463803.0,3067886.0
3,1.Bundesliga,12391496,223637.0,453372.0,914877.0,1597984.2
4,Serie A,8132237,406612.0,813224.0,1524794.0,2541324.0
5,Premier Liga,7075046,304959.0,548926.0,853885.0,1242199.0
6,Super Lig,5082648,172810.0,345620.0,677009.0,1075488.0
7,Brasileiro,3900000,50000.0,150000.0,330000.0,582000.0
8,Liga MX,3760000,100000.0,210000.0,362000.0,500000.0
9,MLS,3600000,79200.0,165216.0,330000.0,506398.8


In [70]:
mls = data_new.query('league == "MLS"')

In [71]:
mls

Unnamed: 0,player,net_pw,net_py,posotion,age,country,club,league
201,Chicharito,69231,3600000,F,33,Mexico,LA Galaxy,MLS
266,Gonzalo Higuaín,588462,3060000,F,33,Argentina,Inter Miami,MLS
320,Carlos Vela,519228,2700000,F,32,Mexico,LA FC,MLS
405,Alejandro Pozuelo,438462,2280000,F,30,Spain,Toronto FC,MLS
438,Luiz Araújo,415386,2160000,F,25,Brazil,Atlanta United,MLS
457,Josef Martínez,403848,2100000,F,28,Venezuela,Atlanta United,MLS
698,Sebastián Driussi,29670,1542852,F,25,Argentina,Austin,MLS
756,Maxi Moralez,288462,1500000,F,34,Argentina,NYC FC,MLS
781,Victor Wanyama,276924,1440000,M,30,Kenya,Montreal Impact,MLS
803,Adrien Hunou,271152,1410000,F,27,France,Minnesota United,MLS
