**TP 3 : Exploratory Data Analysis**

# <center>FOOT ET STATS</center>

## Sommaire

[1](#section-1) : <font color='orange'>Analyse de la performance des equipes en fonction de leur capacité à convertir les occasions en buts</font>

[2](#section-2) : <font color='orange'>Analyse de l'impact du pressing offensif sur la performance des équipes</font>

[3](#section-3) : <font color='orange'>Analyse de l'efficacité des joueurs dans la conversion des occasions en buts</font>

[4](#section-4) : <font color='orange'>Analyse de la corrélation entre la performance des joueurs et celle de leur équipe</font>

[5](#section-5) : <font color='orange'>Analyse de l'impact de la pression offensive sur la performance des équipes en fonction de la qualité des joueurs</font>

[6](#section-6) : <font color='orange'>Fin du notebook</font>

## DATA

In [3]:
import numpy as np
import pandas as pd
import altair as alt

In [4]:
# chargement des données sur les joueurs et les matchs
player_info = pd.read_csv("/home/mkbrad7/afs_epita/ING2/DataViz/mini_projet/Dataset/player_data.csv")
game_info = pd.read_csv("/home/mkbrad7/afs_epita/ING2/DataViz/mini_projet/Dataset/understat.com.csv")

In [5]:
player_info.head()

Unnamed: 0,Country,League,Club,Player Names,Matches_Played,Substitution,Mins,Goals,xG,xG Per Avg Match,Shots,OnTarget,Shots Per Avg Match,On Target Per Avg Match,Year
0,Spain,La Liga,(BET),Juanmi Callejon,19,16,1849,11,6.62,0.34,48,20,2.47,1.03,2016
1,Spain,La Liga,(BAR),Antoine Griezmann,36,0,3129,16,11.86,0.36,88,41,2.67,1.24,2016
2,Spain,La Liga,(ATL),Luis Suarez,34,1,2940,28,23.21,0.75,120,57,3.88,1.84,2016
3,Spain,La Liga,(CAR),Ruben Castro,32,3,2842,13,14.06,0.47,117,42,3.91,1.4,2016
4,Spain,La Liga,(VAL),Kevin Gameiro,21,10,1745,13,10.65,0.58,50,23,2.72,1.25,2016


In [6]:
game_info.head()

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,position,team,matches,wins,draws,loses,scored,missed,...,xGA,xGA_diff,npxGA,npxGD,ppda_coef,oppda_coef,deep,deep_allowed,xpts,xpts_diff
0,La_liga,2014,1,Barcelona,38,30,4,4,110,21,...,28.444293,7.444293,24.727907,73.049305,5.683535,16.367593,489,114,94.0813,0.0813
1,La_liga,2014,2,Real Madrid,38,30,2,6,118,38,...,42.607198,4.607198,38.890805,47.21309,10.209085,12.92951,351,153,81.7489,-10.2511
2,La_liga,2014,3,Atletico Madrid,38,23,9,6,67,29,...,29.069107,0.069107,26.839271,25.748737,8.982028,9.237091,197,123,73.1353,-4.8647
3,La_liga,2014,4,Valencia,38,22,11,5,70,32,...,39.392572,7.392572,33.446477,16.257501,8.709827,7.870225,203,172,63.7068,-13.2932
4,La_liga,2014,5,Sevilla,38,23,7,8,71,45,...,47.862742,2.862742,41.916529,20.17807,8.276148,9.477805,305,168,67.3867,-8.6133


In [7]:
player_info.columns

Index(['Country', 'League', 'Club', 'Player Names', 'Matches_Played',
       'Substitution ', 'Mins', 'Goals', 'xG', 'xG Per Avg Match', 'Shots',
       'OnTarget', 'Shots Per Avg Match', 'On Target Per Avg Match', 'Year'],
      dtype='object')

**xG** - expected goals metric, it is a statistical measure of the quality of chances created and conceded. More at understat.com

**xG_diff** - difference between actual goals scored and expected goals.

**npxG** - expected goals without penalties and own goals.

**xGA** - expected goals against.

**xGA_diff** - difference between actual goals missed and expected goals against.

**npxGA** - expected goals against without penalties and own goals.

**npxGD** - difference between "for" and "against" expected goals without penalties and own goals.

**ppda_coef** - passes allowed per defensive action in the opposition half (power of pressure)

**oppda_coef** - opponent passes allowed per defensive action in the opposition half (power of opponent's pressure)

**deep** - passes completed within an estimated 20 yards of goal (crosses excluded)

**deep_allowed** - opponent passes completed within an estimated 20 yards of goal (crosses excluded)

**xpts** - expected points

**xpts_diff** - difference between actual and expected points

In [8]:
game_info.columns

Index(['Unnamed: 0', 'Unnamed: 1', 'position', 'team', 'matches', 'wins',
       'draws', 'loses', 'scored', 'missed', 'pts', 'xG', 'xG_diff', 'npxG',
       'xGA', 'xGA_diff', 'npxGA', 'npxGD', 'ppda_coef', 'oppda_coef', 'deep',
       'deep_allowed', 'xpts', 'xpts_diff'],
      dtype='object')

In [9]:
# renommer les colonnes Unnamed: 0 en league et Unnamed: 1 en year
game_info = game_info.rename(columns={"Unnamed: 0": "league", "Unnamed: 1": "year"})

## Vérifivation de la cohérence et de létat des données

In [10]:
game_info.isnull().sum()

league          0
year            0
position        0
team            0
matches         0
wins            0
draws           0
loses           0
scored          0
missed          0
pts             0
xG              0
xG_diff         0
npxG            0
xGA             0
xGA_diff        0
npxGA           0
npxGD           0
ppda_coef       0
oppda_coef      0
deep            0
deep_allowed    0
xpts            0
xpts_diff       0
dtype: int64

In [11]:
player_info.isnull().sum()

Country                    0
League                     0
Club                       0
Player Names               0
Matches_Played             0
Substitution               0
Mins                       0
Goals                      0
xG                         0
xG Per Avg Match           0
Shots                      0
OnTarget                   0
Shots Per Avg Match        0
On Target Per Avg Match    0
Year                       0
dtype: int64

In [12]:
player_info.duplicated().sum()

0

In [13]:
game_info.duplicated().sum()

0

In [14]:
# on vérifie que les données sont sur les memes années pour les deux datasets 
player_info['Year'].sort_values().unique()

array([2016, 2017, 2018, 2019, 2020])

In [15]:
game_info['year'].sort_values().unique()

array([2014, 2015, 2016, 2017, 2018, 2019])

In [16]:
# on va juste garder des données avec les années communes au deux datasets c'est a dire on va juste garder les données de 2016 à 2019 inclus pour les deux datasets
player_info = player_info[player_info['Year'] >= 2016]
player_info = player_info[player_info['Year'] <= 2019]
game_info = game_info[game_info['year'] >= 2016]
game_info = game_info[game_info['year'] <= 2019]

In [17]:
game_info['year'].sort_values().unique()

array([2016, 2017, 2018, 2019])

In [18]:
player_info['Year'].sort_values().unique()

array([2016, 2017, 2018, 2019])

In [19]:
game_info.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 456 entries, 40 to 683
Data columns (total 24 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   league        456 non-null    object 
 1   year          456 non-null    int64  
 2   position      456 non-null    int64  
 3   team          456 non-null    object 
 4   matches       456 non-null    int64  
 5   wins          456 non-null    int64  
 6   draws         456 non-null    int64  
 7   loses         456 non-null    int64  
 8   scored        456 non-null    int64  
 9   missed        456 non-null    int64  
 10  pts           456 non-null    int64  
 11  xG            456 non-null    float64
 12  xG_diff       456 non-null    float64
 13  npxG          456 non-null    float64
 14  xGA           456 non-null    float64
 15  xGA_diff      456 non-null    float64
 16  npxGA         456 non-null    float64
 17  npxGD         456 non-null    float64
 18  ppda_coef     456 non-null   

In [20]:
player_info.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 500 entries, 0 to 499
Data columns (total 15 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Country                  500 non-null    object 
 1   League                   500 non-null    object 
 2   Club                     500 non-null    object 
 3   Player Names             500 non-null    object 
 4   Matches_Played           500 non-null    int64  
 5   Substitution             500 non-null    int64  
 6   Mins                     500 non-null    int64  
 7   Goals                    500 non-null    int64  
 8   xG                       500 non-null    float64
 9   xG Per Avg Match         500 non-null    float64
 10  Shots                    500 non-null    int64  
 11  OnTarget                 500 non-null    int64  
 12  Shots Per Avg Match      500 non-null    float64
 13  On Target Per Avg Match  500 non-null    float64
 14  Year                     5

Après les vérifications et mise en forme faites on peux conclure que les données sont cohérentes car il ya pas de doublons dans les deux datasets et les données sont sur les meme années et n'ont pas de valeurs manquantes

In [21]:
player_info["League"].unique()

array(['La Liga', 'Serie A', 'Bundesliga', 'Premier League',
       'Campeonato Brasileiro SÃ©rie A', 'France Ligue 11',
       'France Ligue 20', 'France Ligue 2', 'France Ligue 12',
       'France Ligue 9', 'France Ligue 15', 'France Ligue 6',
       'France Ligue 3', 'France Ligue 16', 'France Ligue 14',
       'France Ligue 4', 'France Ligue 1', 'France Ligue 10',
       'France Ligue 7', 'France Ligue 13', 'France Ligue 8',
       'France Ligue 5', 'France Ligue 19', 'France Ligue 18',
       'France Ligue 17', 'MLS', 'Primeira Liga', 'Eredivisie'],
      dtype=object)

on remarque un probleme dans les données la ligue <<France League 1>> a été substitué des fois en France League + un chiffre

In [22]:
# dans player info dans la colone League on modifie toute les valeurs egale France Ligue * (*c'est a dire n'importe quel caractère) par France Ligue 1
player_info['League'] = player_info['League'].str.replace('France Ligue.*', 'France Ligue 1')

  player_info['League'] = player_info['League'].str.replace('France Ligue.*', 'France Ligue 1')


In [23]:
player_info["League"].unique()

array(['La Liga', 'Serie A', 'Bundesliga', 'Premier League',
       'Campeonato Brasileiro SÃ©rie A', 'France Ligue 1', 'MLS',
       'Primeira Liga', 'Eredivisie'], dtype=object)

In [24]:
player_info['Club'].unique()

array(['(BET)', '(BAR)', '(ATL)', '(CAR)', '(VAL)', '(JUV)', '(RMA)',
       '(PSG)', '(CEL)', '(EIB)', 'None', '(HUE)', '(VIL)', '(MON)',
       '(SOC)', 'Florin', '(LIV)', '(SAS)', '(LAZ)', '(VER)', '(NAP)',
       '(ATA)', '(FIO)', '(BEN)', '(CAG)', '(CRZ)', 'Cyril', '(ROM)',
       '(SAM)', 'Marco', '(IMI)', '(TOR)', '(HKI)', '(BMG)', '(BAY)',
       'Sandro', '(HOF)', '(FCA)', '(RBL)', '(CHE)', '(SCF)', '(SCH)',
       '(WOB)', '(MAI)', '(ARS)', '(STP)', '(UNB)', '(LAG)', '(KOL)',
       '(GRO)', '(INT)', '(TOT)', '(LEI)', '(CRY)', '(MNC)', '(RAN)',
       '(WHU)', '(ACM)', '(BOU)', '(GRE)', '(SAP)', '(CEA)', '(SAN)',
       '(HUR)', '(BOT)', '(FLA)', '(CAM)', '(FLU)', '(CFC)', '(GET)',
       '(LEV)', '(GIR)', '(SEV)', '(PAR)', '(UDI)', '(SVW)', '(DOR)',
       '(NAN)', '(VfB)', '(OPE)', '(CRU)', '(FOR)', '(COR)', '(SCR)',
       '(BIL)', '(OSA)', '(ESP)', '(GRA)', 'Mario', '(BSC)', '(BOR)',
       '(CAE)', '(LIL)', '(REN)', '(MNU)', '(ANG)', '(SIV)', '(MAR)',
       '(STE)', '(G

In [25]:
game_info['team'].unique()

array(['Real Madrid', 'Barcelona', 'Atletico Madrid', 'Sevilla',
       'Villarreal', 'Real Sociedad', 'Athletic Club', 'Espanyol',
       'Alaves', 'Eibar', 'Malaga', 'Valencia', 'Celta Vigo',
       'Las Palmas', 'Real Betis', 'Deportivo La Coruna', 'Leganes',
       'Sporting Gijon', 'Osasuna', 'Granada', 'Getafe', 'Girona',
       'Levante', 'Real Valladolid', 'SD Huesca', 'Rayo Vallecano',
       'Mallorca', 'Chelsea', 'Tottenham', 'Manchester City', 'Liverpool',
       'Arsenal', 'Manchester United', 'Everton', 'Bournemouth',
       'Southampton', 'West Ham', 'West Bromwich Albion', 'Stoke',
       'Leicester', 'Crystal Palace', 'Swansea', 'Watford', 'Burnley',
       'Hull', 'Middlesbrough', 'Sunderland', 'Newcastle United',
       'Brighton', 'Huddersfield', 'Wolverhampton Wanderers', 'Cardiff',
       'Fulham', 'Sheffield United', 'Aston Villa', 'Norwich',
       'Bayern Munich', 'RasenBallsport Leipzig', 'Borussia Dortmund',
       'Hoffenheim', 'Hertha Berlin', 'FC Cologne',

On remarque aussi que les club dans les deux dataset ne sont pas renseigné de la meme manière

In [26]:
# Créer un dictionnaire de correspondance entre les abréviations et les noms complets des clubs
club_mapping = {
    '(BET)': 'Real Betis',
    '(BAR)': 'Barcelona',
    '(ATL)': 'Atletico Madrid',
    '(CAR)': 'Celta Vigo',
    '(VAL)': 'Valencia',
    '(JUV)': 'Juventus',
    '(RMA)': 'Real Madrid',
    '(PSG)': 'Paris Saint Germain',
    '(CEL)': 'Celtic',
    '(EIB)': 'Eibar',
    '(HUE)': 'Huesca',
    '(VIL)': 'Villarreal',
    '(MON)': 'Monaco',
    '(SOC)': 'Sociedad',
    '(LIV)': 'Liverpool',
    '(SAS)': 'Sassuolo',
    '(LAZ)': 'Lazio',
    '(VER)': 'Verona',
    '(NAP)': 'Napoli',
    '(ATA)': 'Atalanta',
    '(FIO)': 'Fiorentina',
    '(BEN)': 'Benfica',
    '(CAG)': 'Cagliari',
    '(CRZ)': 'Cruz Azul',
    '(ROM)': 'Roma',
    '(SAM)': 'Sampdoria',
    '(IMI)': 'Inter Miami',
    '(TOR)': 'Torino',
    '(HKI)': 'HJK Helsinki',
    '(BMG)': 'Borussia Monchengladbach',
    '(BAY)': 'Bayern Munich',
    '(HOF)': 'Hoffenheim',
    '(FCA)': 'Augsburg',
    '(RBL)': 'RB Leipzig',
    '(CHE)': 'Chelsea',
    '(SCF)': 'Freiburg',
    '(SCH)': 'Schalke 04',
    '(WOB)': 'Wolfsburg',
    '(MAI)': 'Mainz 05',
    '(ARS)': 'Arsenal',
    '(STP)': 'St. Pauli',
    '(UNB)': 'Union Berlin',
    '(LAG)': 'Lagos',
    '(KOL)': 'FC Koln',
    '(GRO)': 'Groningen',
    '(INT)': 'Inter Milan',
    '(TOT)': 'Tottenham',
    '(LEI)': 'Leicester City',
    '(CRY)': 'Crystal Palace',
    '(MNC)': 'Manchester City',
    '(RAN)': 'Rangers',
    '(WHU)': 'West Ham United',
    '(ACM)': 'AC Milan',
    '(BOU)': 'Bournemouth',
    '(GRE)': 'Greuther Furth',
    '(SAP)': 'Spartak Moscow',
    '(CEA)': 'Ceara',
    '(SAN)': 'Santos',
    '(HUR)': 'Huracan',
    '(BOT)': 'Botafogo',
    '(FLA)': 'Flamengo',
    '(CAM)': 'Cameron',
    '(FLU)': 'Fluminense',
    '(CFC)': 'Chelsea FC',
    '(GET)': 'Getafe',
    '(LEV)': 'Levante',
    '(GIR)': 'Girona',
    '(SEV)': 'Sevilla',
    '(PAR)': 'Parma',
    '(UDI)': 'Udinese',
    '(SVW)': 'Werder Bremen',
    '(DOR)': 'Dortmund',
    '(NAN)': 'Nantes',
    '(VfB)': 'VfB Stuttgart',
    '(OPE)': 'Ope IF',
    '(CRU)': 'Cruzeiro',
    '(FOR)': 'Fortaleza',
    '(COR)': 'Corinthians',
    '(SCR)': 'Sport Recife',
    '(BIL)': 'Athletic Bilbao',
    '(OSA)': 'Osasuna',
    '(ESP)': 'Espanyol',
    '(GRA)': 'Granada',
    '(BSC)': 'Hertha Berlin',
    '(BOR)': 'Borussia Dortmund',
    '(CAE)': 'Caen',
    '(LIL)': 'Lille',
    '(REN)': 'Rennes',
    '(MNU)': 'Manchester United',
    '(ANG)': 'Angers',
    '(SIV)': 'Sivasspor',
    '(MAR)': 'Marseille',
    '(STE)': 'Saint-Etienne',
    '(GAL)': 'Galatasaray',
    '(MPE)': 'Montpellier',
    '(LYO)': 'Lyon',
    '(STR)': 'Strasbourg',
    '(LOK)': 'Lokomotiv Moscow',
    '(BUR)': 'Burnley',
    '(WAT)': 'Watford',
    '(EVE)': 'Everton',
    '(NEW)': 'Newcastle United',
    '(WOL)': 'Wolverhampton Wanderers',
    '(ALA)': 'Alaves',
    '(VDG)': 'Vitoria Guimaraes',
    '(SJE)': 'San Jose Earthquakes',
    '(TIG)': 'Tigres',
    '(BAH)': 'Bahia',
    'Bruno': 'Bruno FC',
    '(PAL)': 'Palmeiras',
    '(LAF)': 'LAFC',
    '(ORL)': 'Orlando City',
    '(PHI)': 'Philadelphia Union',
    '(MIN)': 'Minnesota United',
    '(CHF)': 'Chicago Fire',
    '(CCR)': 'Columbus Crew',
    '(NYC)': 'New York City FC',
    '(HDY)': 'Houston Dynamo',
    '(COL)': 'Colorado Rapids',
    '(SKC)': 'Sporting Kansas City',
    '(SOU)': 'Southampton',
    '(VID)': 'Vitoria',
    '(NYC FC)': 'New York City FC',
    'Santi': 'Santiago Wanderers',
    '(LIS)': 'Sporting Lisbon',
    '(FAR)': 'Farense',
    '(BRA)': 'Brasiliense',
    '(AVE)': 'Aves',
    '(FAM)': 'Famalicao',
    '(POR)': 'Porto',
    '(GIL)': 'Gil Vicente',
    '(VGU)': 'Vitoria Guimaraes',
    '(FER)': 'Ferreira',
    '(NAC)': 'Nacional',
    '(FEY)': 'Feyenoord',
    '(BOA)': 'Boavista',
    '(MIJ)': 'Mijas',
    '(Sassuolo )': 'Sassuolo',
    '(LEC)': 'Lecce',
    '(DUS)': 'Fortuna Dusseldorf',
    '(FRA)': 'Frosinone',
    '(NIC)': 'Nimes',
    '(NOR)': 'Norwich City',
    '(RBB)': 'Rangers',
    '(chongqing dangdai lifan f.c)': 'Chongqing Lifan',
    '(GOI)': 'Goias',
    '(AJA)': 'Ajax',
    '(VIT)': 'Vitoria',
    '(EMM)': 'Emmen',
    '(TWE)': 'Twente',
    '(SPR)': 'Sparta Rotterdam',
    '(PSV)': 'PSV Eindhoven',
    '(WIL)': 'Willem II',
    '(HEE)': 'Heerenveen',
    '(HER)': 'Heracles',
    '(VVV)': 'VVV-Venlo'
}


In [27]:
# Remplacer les abréviations par les noms complets des clubs dans player_info['Club']
player_info['Club'] = player_info['Club'].map(club_mapping)

In [28]:
player_info['Club'].unique()

array(['Real Betis', 'Barcelona', 'Atletico Madrid', 'Celta Vigo',
       'Valencia', 'Juventus', 'Real Madrid', 'Paris Saint Germain',
       'Celtic', 'Eibar', nan, 'Huesca', 'Villarreal', 'Monaco',
       'Sociedad', 'Liverpool', 'Sassuolo', 'Lazio', 'Verona', 'Napoli',
       'Atalanta', 'Fiorentina', 'Benfica', 'Cagliari', 'Cruz Azul',
       'Roma', 'Sampdoria', 'Inter Miami', 'Torino', 'HJK Helsinki',
       'Borussia Monchengladbach', 'Bayern Munich', 'Hoffenheim',
       'Augsburg', 'RB Leipzig', 'Chelsea', 'Freiburg', 'Schalke 04',
       'Wolfsburg', 'Mainz 05', 'Arsenal', 'St. Pauli', 'Union Berlin',
       'Lagos', 'FC Koln', 'Groningen', 'Inter Milan', 'Tottenham',
       'Leicester City', 'Crystal Palace', 'Manchester City', 'Rangers',
       'West Ham United', 'AC Milan', 'Bournemouth', 'Greuther Furth',
       'Spartak Moscow', 'Ceara', 'Santos', 'Huracan', 'Botafogo',
       'Flamengo', 'Cameron', 'Fluminense', 'Chelsea FC', 'Getafe',
       'Levante', 'Girona', 'Sevi

<a id="section-1"></a>

## Analyse de la performance des équipes en fonction de leur capacité à convertir les occasions en buts :
Comment varie la performance des équipes en termes de différence entre les buts marqués et les expected goals (xG_diff) dans différentes ligues UEFA au fil des saisons ?
Cette question permettra d'explorer comment les équipes se comportent par rapport à leurs attentes statistiques en termes de conversion des occasions en buts, et si cette performance varie d'une ligue à l'autre.

In [29]:
# selectioner les colonnes year team match xg et srored
game_info[["year", "team", "matches", "xG", "scored", "xG_diff"]]

Unnamed: 0,year,team,matches,xG,scored,xG_diff
40,2016,Real Madrid,38,90.866410,106,-15.133590
41,2016,Barcelona,38,93.551594,116,-22.448406
42,2016,Atletico Madrid,38,60.658900,70,-9.341100
43,2016,Sevilla,38,59.094825,69,-9.905175
44,2016,Villarreal,38,52.228737,56,-3.771263
...,...,...,...,...,...,...
679,2019,PFC Sochi,30,36.456222,40,-3.543778
680,2019,FK Akhmat,30,33.901702,27,6.901702
681,2019,Krylya Sovetov Samara,30,33.579462,33,0.579462
682,2019,FC Tambov,30,26.007424,37,-10.992576


La difference between actual goals scored and expected goals est xG_diff = xG - scored

In [30]:
# Calcul de la moyenne de xG_diff pour chaque ligue UEFA pour chaque saison
mean_xG_diff = game_info.groupby(['league', 'year'])['xG_diff'].mean().reset_index()
mean_xG_diff

Unnamed: 0,league,year,xG_diff
0,Bundesliga,2016,-1.904428
1,Bundesliga,2017,-2.074734
2,Bundesliga,2018,0.08892
3,Bundesliga,2019,-1.37254
4,EPL,2016,-4.022599
5,EPL,2017,-1.301569
6,EPL,2018,0.661933
7,EPL,2019,2.462636
8,La_liga,2016,-8.287127
9,La_liga,2017,1.07111


On va d'abord visualiser comment xG_diff varie en fonction des leagues

In [31]:
alt.Chart(mean_xG_diff).mark_bar().encode(
    x=alt.X('year:N', title='Saison'),
    y=alt.Y('xG_diff:Q', title='Moyenne de xG_diff'),
    color=alt.Color('year:N', title='Saison'),
    column=alt.Column('league:N', title='Ligue UEFA', sort=alt.EncodingSortField(field='xG_diff', order='descending')),
    row=alt.Row('team:N', title='Équipe')
).properties(
    width=100, 
    height=100,
    title="Performance des équipes en fonction de xG_diff par ligue UEFA"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)

Maintenant pour apporter une réponse a notre question va tout d'abord prendre la top de chaque league puis la moins bien classé et etudier leur xg_diff

In [32]:
top_teams = game_info.groupby(['league', 'year', 'team']).agg({'position': 'min'}).reset_index()
top_teams = top_teams.groupby(['league', 'team']).agg({'position': 'mean'}).reset_index()
top_teams = top_teams.groupby('team').apply(lambda x: x.nlargest(1, 'position')).reset_index(drop=True)
top_teams = top_teams[top_teams['position'] < 2]

top_teams

Unnamed: 0,league,team,position
13,La_liga,Barcelona,1.5
15,Bundesliga,Bayern Munich,1.0
70,Serie_A,Juventus,1.0
86,EPL,Manchester City,1.75
105,Ligue_1,Paris Saint Germain,1.25


In [33]:
# prendre les donnée game-info des team selectionné dans top_teams
top_teams = pd.merge(top_teams, game_info, on=['team', 'league'])
# prendre chacune des team de top_teams et calculer la moyenne de xG_diff pour chaque team
top_teams_xg = top_teams.groupby(['team', 'year'])['xG_diff'].mean().reset_index()
top_teams_xg

Unnamed: 0,team,year,xG_diff
0,Barcelona,2016,-22.448406
1,Barcelona,2017,-8.513248
2,Barcelona,2018,-6.720466
3,Barcelona,2019,-13.990551
4,Bayern Munich,2016,-15.091411
5,Bayern Munich,2017,-15.451095
6,Bayern Munich,2018,4.240857
7,Bayern Munich,2019,-7.148438
8,Juventus,2016,-8.263796
9,Juventus,2017,-26.771265


In [34]:
# calcul npXG_diff qui est difference between actual goals scored and expected goals without penalties and own goals.
game_info['npxG_diff'] = game_info['npxG'] - game_info['scored']

In [35]:
# selectionner le dernier de chaque league de la saison 2019
bottom_teams = game_info.groupby(['league', 'year', 'team', 'xG_diff', 'npxG_diff', 'ppda_coef', 'scored']).agg({'position': 'max'}).reset_index()
bottom_teams = bottom_teams[bottom_teams['year'] == 2019]
bottom_teams = bottom_teams.groupby('team').apply(lambda x: x.nsmallest(1, 'position')).reset_index(drop=True)

bottom_teams = bottom_teams[bottom_teams['position'] == 20]

bottom_teams

Unnamed: 0,league,year,team,xG_diff,npxG_diff,ppda_coef,scored,position
32,La_liga,2019,Espanyol,10.002815,7.029713,9.441301,27,20
74,EPL,2019,Norwich,11.234175,9.711834,14.340709,26,20
89,Serie_A,2019,SPAL 2013,12.210886,6.881789,12.44311,26,20
101,Ligue_1,2019,Toulouse,9.294048,4.733495,14.032994,22,20


In [36]:
# Création de la visualisation pour les top teams
alt.Chart(top_teams_xg).mark_bar().encode(
    x=alt.X('year:N', title='Saison'),
    y=alt.Y('xG_diff:Q', title='Moyenne de xG_diff'),
    color=alt.Color('year:N', title='Saison'),
    column=alt.Column('team:N', title='Équipe', sort=alt.EncodingSortField(field='xG_diff', order='descending'))
).properties(
    width=100, 
    height=100,
    title="Performance des meilleures équipes en fonction de xG_diff par ligue UEFA"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)


In [37]:
# Création de la visualisation pour les bottom teams
alt.Chart(bottom_teams).mark_bar().encode(
    x=alt.X('team:N', title='Club', sort=alt.EncodingSortField(field='xG_diff', order='descending')),
    y=alt.Y('xG_diff:Q', title='Moyenne de xG_diff'),
    color=alt.Color('year:N', title='Saison')
).properties(
    width=600,
    height=400,
    title="Performance des équipes en fonction de xG_diff par ligue UEFA"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)

In [38]:
# # visualtion pour les top teams (juste l'année 2019) et les bottom teams en meme temps 
top_teams_2019 = top_teams_xg[top_teams_xg['year'] == 2019]
top_teams_2019['position'] = 'Top'
bottom_teams['position'] = 'Bottom'
top_bottom_teams = pd.concat([top_teams_2019, bottom_teams])

alt.Chart(top_bottom_teams).mark_bar().encode(
    x=alt.X('team:N', title='Club', sort=alt.EncodingSortField(field='xG_diff', order='descending')),
    y=alt.Y('xG_diff:Q', title='Moyenne de xG_diff'),
    color=alt.Color('year:N', title='Saison'),
    #column=alt.Column('position:N', title='Position')
).properties(
    width=600,
    height=400,
    title="Performance des équipes en fonction de xG_diff par ligue UEFA"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  top_teams_2019['position'] = 'Top'


## Affinons un peu notre analyse :
Performance des équipes en fonction de leur capacité à convertir les occasions en buts sans considéré les  penalties and own goals:
npxG - expected goals without penalties and own goals.
xG - expected goals metric, it is a statistical measure of the quality of chances created and conceded. More at understat.com
xG_diff - difference between actual goals scored and expected goals.


In [39]:
# Calcul de la moyenne et de l'écart-type de xG_diff pour chaque ligue UEFA pour chaque saison

mean_npxG_diff = game_info.groupby(['league', 'year'])['npxG_diff'].mean().reset_index()
mean_npxG_diff

Unnamed: 0,league,year,npxG_diff
0,Bundesliga,2016,-6.04458
1,Bundesliga,2017,-6.024817
2,Bundesliga,2018,-3.752864
3,Bundesliga,2019,-4.447176
4,EPL,2016,-8.080561
5,EPL,2017,-4.378006
6,EPL,2018,-3.27035
7,EPL,2019,-1.077062
8,La_liga,2016,-12.830135
9,La_liga,2017,-3.158458


In [40]:
# Création de la visualisation
alt.Chart(mean_npxG_diff).mark_bar().encode(
    x=alt.X('year:N', title='Saison'),
    y=alt.Y('npxG_diff:Q', title='Moyenne de npxG_diff'),
    color=alt.Color('year:N', title='Saison'),
    column=alt.Column('league:N', title='Ligue UEFA', sort=alt.EncodingSortField(field='npxG_diff', order='descending'))
).properties(
    width=100,
    height=100,
    title="Performance des équipes en fonction de npxG_diff par ligue UEFA"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)

In [41]:
top_teams = game_info.groupby(['league', 'year', 'team']).agg({'position': 'min'}).reset_index()
top_teams = top_teams.groupby(['league', 'team']).agg({'position': 'mean'}).reset_index()
top_teams = top_teams.groupby('team').apply(lambda x: x.nlargest(1, 'position')).reset_index(drop=True)
top_teams = top_teams[top_teams['position'] < 2]

top_teams
# prendre les donnée game-info des team selectionné dans top_teams
top_teams = pd.merge(top_teams, game_info, on=['team', 'league'])
# prendre chacune des team de top_teams et calculer la moyenne de xG_diff pour chaque team
top_teams_npxg = top_teams.groupby(['team', 'year'])['npxG_diff'].mean().reset_index()
top_teams_npxg

Unnamed: 0,team,year,npxG_diff
0,Barcelona,2016,-29.137766
1,Barcelona,2017,-12.229638
2,Barcelona,2018,-13.415296
3,Barcelona,2019,-18.450219
4,Bayern Munich,2016,-18.880051
5,Bayern Munich,2017,-21.513315
6,Bayern Munich,2018,1.209907
7,Bayern Munich,2019,-11.695097
8,Juventus,2016,-10.547686
9,Juventus,2017,-32.861569


In [42]:
# Création de la visualisation pour les top teams

alt.Chart(top_teams_npxg).mark_bar().encode(
    x=alt.X('year:N', title='Saison'),
    y=alt.Y('npxG_diff:Q', title='Moyenne de npxG_diff'),
    color=alt.Color('year:N', title='Saison'),
    column=alt.Column('team:N', title='Équipe', sort=alt.EncodingSortField(field='npxG_diff', order='descending'))
).properties(
    width=100,
    height=100,
    title="Performance des meilleures équipes en fonction de npxG_diff par ligue UEFA"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)

In [43]:
top_teams_np2019 = top_teams_npxg[top_teams_npxg['year'] == 2019]
top_teams_np2019['position'] = 'Top'
top_bottom_teams2 = pd.concat([top_teams_np2019, bottom_teams])
alt.Chart(top_bottom_teams2).mark_bar().encode(
    x=alt.X('team:N', title='Club', sort=alt.EncodingSortField(field='npxG_diff', order='descending')),
    y=alt.Y('npxG_diff:Q', title='Moyenne de npxG_diff'),
    color=alt.Color('year:N', title='Saison'),
    #column=alt.Column('position:N', title='Position')
).properties(
    width=600,
    height=400,
    title="Performance des équipes en fonction de npxG_diff par ligue UEFA"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  top_teams_np2019['position'] = 'Top'


<a id="section-2"></a>

## Analyse de l'impact du pressing offensif sur la performance des équipes :
Est ce que plus une équipe est active et intense défensivement dans le camp adverse plus elle est performante ? On va faire une analyse avec le nombre de but marqué puis le nombre de victoire. 
Dans cette etude, pour mesuré l'activité défensive d'une équipe on va utiliser ppda_coef (Passes adverses par action défensive dans le camp adverse)
Plus l'indicateur est bas, plus une équipe est active et intense défensivement dans le camp adverse.

Le PPDA (Passes adverses par action défensive dans le camp adverse, disponible sur understat.com) confronte passes de l'adversaire dans son camp et interventions défensives (tacles, interceptions, duels et fautes). Plus l'indicateur est bas, plus une équipe est active et intense défensivement dans le camp adverse

Visualisons d'abord la variation du ppad par league

In [44]:
# Calcul de la moyenne de ppda pour chaque League pour chaque saison
mean_ppda = game_info.groupby(['league', 'year'])['ppda_coef'].mean().reset_index()
mean_ppda

Unnamed: 0,league,year,ppda_coef
0,Bundesliga,2016,10.206399
1,Bundesliga,2017,11.002644
2,Bundesliga,2018,13.277777
3,Bundesliga,2019,12.42826
4,EPL,2016,11.155649
5,EPL,2017,12.978451
6,EPL,2018,13.136067
7,EPL,2019,12.676815
8,La_liga,2016,9.549911
9,La_liga,2017,10.025211


In [45]:
alt.Chart(mean_ppda).mark_bar().encode(
    x=alt.X('year:N', title='Saison'),
    y=alt.Y('ppda_coef:Q', title='Moyenne de ppda'),
    color=alt.Color('year:N', title='Saison'),
    column=alt.Column('league:N', title='Ligue UEFA', sort=alt.EncodingSortField(field='ppda_coef', order='descending'))
).properties(
    width=100, 
    height=100,
    title="Variation du ppda_coef de chaque ligue UEFA par année"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)

Visualisons de la variation de ppda pour les top equipe de chaque league

In [46]:
# Calcul de la moyenne de ppda pour chaque League pour chaque saison
top_teams_ppda = top_teams.groupby(['team', 'year'])['ppda_coef'].mean().reset_index()
top_teams_ppda

Unnamed: 0,team,year,ppda_coef
0,Barcelona,2016,6.70233
1,Barcelona,2017,9.109883
2,Barcelona,2018,9.015264
3,Barcelona,2019,8.256988
4,Bayern Munich,2016,6.467688
5,Bayern Munich,2017,8.482019
6,Bayern Munich,2018,8.642573
7,Bayern Munich,2019,8.064508
8,Juventus,2016,9.497838
9,Juventus,2017,11.534032


In [47]:
alt.Chart(top_teams_ppda).mark_bar().encode(
    x=alt.X('year:N', title='Saison'),
    y=alt.Y('ppda_coef:Q', title='Moyenne de ppda_coef'),
    color=alt.Color('year:N', title='Saison'),
    column=alt.Column('team:N', title='Équipe', sort=alt.EncodingSortField(field='ppda_coef', order='descending'))
).properties(
    width=100, 
    height=100,
    title="Performance des meilleures équipes en fonction de ppda_coef par ligue UEFA"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)

Visualisation des ppada pour ls equipes les moins bien classés de chaque championnant

In [48]:
# Création de la visualisation pour les bottom teams
alt.Chart(bottom_teams).mark_bar().encode(
    x=alt.X('team:N', title='Club', sort=alt.EncodingSortField(field='ppda_coef', order='descending')),
    y=alt.Y('ppda_coef:Q', title='Moyenne de ppda_coef'),
    color=alt.Color('year:N', title='Saison')
).properties(
    width=600,
    height=400,
    title="Performance des équipes en fonction de ppda_coef par ligue UEFA"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)

Graph comparant la variation de ppda entre les top et les equipes les moins bien classés

In [49]:
top_teams_ppda2019 = top_teams_ppda[top_teams_ppda['year'] == 2019]
top_teams_ppda2019['position'] = 'Top'
top_bottom_teams3 = pd.concat([top_teams_ppda2019, bottom_teams])
alt.Chart(top_bottom_teams3).mark_bar().encode(
    x=alt.X('team:N', title='Club', sort=alt.EncodingSortField(field='ppda_coef', order='descending')),
    y=alt.Y('ppda_coef:Q', title='Moyenne de ppda_coef'),
    color=alt.Color('year:N', title='Saison'),
    #column=alt.Column('position:N', title='Position')
).properties(
    width=600,
    height=400,
    title="Performance des équipes en fonction de ppda_coef par ligue UEFA"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  top_teams_ppda2019['position'] = 'Top'


## Rapport en entre le nombre de but marqué et le ppda des top_teams

In [50]:
# Calcul de la moyenne de ppda pour chaque League pour chaque saison
top_teams_scored = top_teams.groupby(['team', 'year'])['ppda_coef', 'scored'].mean().reset_index()
top_teams_scored

  top_teams_scored = top_teams.groupby(['team', 'year'])['ppda_coef', 'scored'].mean().reset_index()


Unnamed: 0,team,year,ppda_coef,scored
0,Barcelona,2016,6.70233,116.0
1,Barcelona,2017,9.109883,99.0
2,Barcelona,2018,9.015264,90.0
3,Barcelona,2019,8.256988,86.0
4,Bayern Munich,2016,6.467688,89.0
5,Bayern Munich,2017,8.482019,92.0
6,Bayern Munich,2018,8.642573,88.0
7,Bayern Munich,2019,8.064508,100.0
8,Juventus,2016,9.497838,77.0
9,Juventus,2017,11.534032,86.0


In [51]:
top_teams_scored2019 = top_teams_scored[top_teams_scored['year'] == 2019]
top_teams_scored2019['position'] = 'Top'
top_bottom_teams4 = pd.concat([top_teams_scored2019, bottom_teams])
top_bottom_teams4

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  top_teams_scored2019['position'] = 'Top'


Unnamed: 0,team,year,ppda_coef,scored,position,league,xG_diff,npxG_diff
3,Barcelona,2019,8.256988,86.0,Top,,,
7,Bayern Munich,2019,8.064508,100.0,Top,,,
11,Juventus,2019,9.0416,76.0,Top,,,
15,Manchester City,2019,9.314521,102.0,Top,,,
19,Paris Saint Germain,2019,7.460972,75.0,Top,,,
32,Espanyol,2019,9.441301,27.0,Bottom,La_liga,10.002815,7.029713
74,Norwich,2019,14.340709,26.0,Bottom,EPL,11.234175,9.711834
89,SPAL 2013,2019,12.44311,26.0,Bottom,Serie_A,12.210886,6.881789
101,Toulouse,2019,14.032994,22.0,Bottom,Ligue_1,9.294048,4.733495


In [52]:
# Sélection des données des top teams et bottom teams
top_bottom_teams = top_bottom_teams4[['team', 'ppda_coef', 'scored', 'position', 'league']]

# Création du graphique à barres
bar_chart = alt.Chart(top_bottom_teams).mark_bar().encode(
    x=alt.X('ppda_coef:Q', title='PPDA Coefficient'),
    y=alt.Y('scored:Q', title='Moyenne de buts marqués'),
    color=alt.Color('position:N', title='Position de l\'équipe', scale=alt.Scale(domain=['Top', 'Bottom'], range=['#1f77b4', '#ff7f0e'])),
    tooltip=['team', 'scored', 'ppda_coef', 'position']
).properties(
    width=600,
    height=400,
    title="Relation entre le PPDA Coefficient et les buts marqués pour les équipes de haut et bas de classement"
).configure_axis(
    labelFontSize=12,
    titleFontSize=14
).configure_legend(
    titleFontSize=12,
    labelFontSize=10
).configure_title(
    fontSize=16
)

# Affichage du graphique
bar_chart








<a id="section-3"></a>

## Analyse de l'efficacité des joueurs dans la conversion des occasions en buts :
Comment varie l'efficacité des joueurs dans la conversion des expected goals (xG) en buts réels dans différentes ligues au cours des dernières saisons ?
Cette question permettra d'explorer la performance individuelle des joueurs par rapport à leurs attentes statistiques et de comparer ces performances entre les différentes compétitions.


In [53]:
plot = alt.Chart(player_info).mark_circle().encode(
    x=alt.X('xG:Q', title='Expected Goals (xG)'),
    y=alt.Y('Goals:Q', title='Buts marqués'),
    color=alt.Color('League:N', title='Ligue'),
    size=alt.Size('Matches_Played:Q', title='Matches Joués'),
    tooltip=['Player Names', 'League', 'Goals', 'xG', 'Matches_Played', 'Year']
).properties(
    width=600,
    height=400,
    title="Efficacité des joueurs dans la conversion des expected goals (xG) en buts réels"
)

# Régression linéaire
linear_regression = plot.transform_regression(
    'xG', 'Goals', method='linear'
).mark_line(color='black').encode(
    color=alt.value('black')
).properties(
    title='Ligne'
)

#regression_layer = alt.layer(linear_regression).resolve_scale(color='independent')
# Combinaison du plot et de la régression linéaire
final_plot = plot + linear_regression

final_plot.interactive()

## Pour affiner la visualisation et explorer davantage les données
nous pouvons filtrer les données pour ne montrer que les joueurs ayant joué un certain nombre de matches(20) ou ayant un certain nombre de buts marqués(15). Cela pourrait nous permettre de nous concentrer sur les joueurs les plus performants.
De plus on peux regrouper les données par ligue et par saison c'est a dire plutôt que d'afficher toutes les données en même temps, nous pourrions regrouper les données par ligue et par saison

In [54]:


# Filtrer les données pour ne montrer que les joueurs ayant joué au moins 20 matches et ayant marqué au moins 15 buts
filtered_player_info = player_info[(player_info['Matches_Played'] >= 20) & (player_info['Goals'] >= 15)]

# Créer la visualisation avec Altair et ajouter une ligne de tendance
scatter_plot = alt.Chart(filtered_player_info).mark_circle().encode(
    x=alt.X('xG:Q', title='Expected Goals (xG)'),
    y=alt.Y('Goals:Q', title='Buts marqués'),
    color=alt.Color('League:N', title='Ligue'),
    size=alt.Size('Matches_Played:Q', title='Matches Joués'),
    tooltip=['Player Names', 'League', 'Goals', 'xG', 'Matches_Played']
).properties(
    width=600,
    height=400,
    title="Efficacité des joueurs dans la conversion des expected goals (xG) en buts réels"
).interactive()

# Régression linéaire pour le premier graphique
linear_regression_scatter = scatter_plot.transform_regression(
    'xG', 'Goals', method='linear'
).mark_line(color='black').encode(
    color=alt.value('black')
).properties(
    title='Ligne'
)

final_scatter_plot = scatter_plot + linear_regression_scatter

# Regrouper les données par ligue et par saison
grouped_player_info = player_info.groupby(['League', 'Year']).agg({'Player Names': 'count'}).reset_index()

# Créer un menu déroulant pour sélectionner la ligue et un autre pour sélectionner la saison
league_dropdown = alt.binding_select(options=grouped_player_info['League'].unique().tolist())
league_selector = alt.selection_single(fields=['League'], bind=league_dropdown, name='Choisir une ligue')

year_dropdown = alt.binding_select(options=grouped_player_info['Year'].unique().tolist())
year_selector = alt.selection_single(fields=['Year'], bind=year_dropdown, name='Choisir une saison')

# Créer la visualisation regroupée par ligue et par saison avec des onglets interactifs
grouped_scatter_plot = alt.Chart(player_info).mark_circle().encode(
    x=alt.X('xG:Q', title='Expected Goals (xG)'),
    y=alt.Y('Goals:Q', title='Buts marqués'),
    color=alt.Color('League:N', title='Ligue'),
    size=alt.Size('Matches_Played:Q', title='Matches Joués'),
    tooltip=['Player Names', 'League', 'Goals', 'xG', 'Matches_Played', 'Year']
).transform_filter(
    league_selector
).transform_filter(
    year_selector
).properties(
    width=600,
    height=400,
    title="Efficacité des joueurs dans la conversion des expected goals (xG) en buts réels, par ligue et par saison"
).add_selection(
    league_selector, year_selector
)

# Régression linéaire pour le deuxième graphique
linear_regression_grouped = grouped_scatter_plot.transform_regression(
    'xG', 'Goals', method='linear'
).mark_line(color='black').encode(
    color=alt.value('black')
).properties(
    title='Ligne'
)

# Combinaison du scatter plot et de la régression linéaire pour le deuxième graphique
final_grouped_plot = grouped_scatter_plot + linear_regression_grouped

# Afficher les visualisations
final_scatter_plot | final_grouped_plot




<a id="section-4"></a>

## Analyse de la corrélation entre la performance des joueurs et celle de leur équipe :
Existe-t-il une corrélation significative entre l'efficacité des joueurs dans la conversion des expected goals (xG) en buts réels et la performance globale de leur équipe dans chaque ligue ?
Cette question nécessitera de joindre les données des joueurs et des équipes pour explorer la relation entre la performance individuelle des joueurs et celle de leur équipe.

In [55]:
game_info['goals_avg_team'] = game_info['scored'] / 38
game_info['missed_avg'] = game_info['missed'] / 38
game_info['xG_avg_team'] = game_info['xG'] / 38

In [56]:
team_performance = game_info.groupby(['league', 'year', 'team']).agg({
    'scored': 'mean',
    'missed': 'mean',
    'goals_avg_team': 'mean',
    'missed_avg': 'mean',
    'xG_avg_team': 'mean',
    'xG': 'mean',
    'ppda_coef': 'mean'
}).reset_index()
team_performance['goals_conceded'] = team_performance['missed']
# supprimer la colonne missed
team_performance = team_performance.drop('missed', axis=1)
team_performance = team_performance.rename(columns={'scored': 'goals_scored'})
team_performance = team_performance.rename(columns={'missed_avg': 'goals_conceded_avg'})
team_performance

Unnamed: 0,league,year,team,goals_scored,goals_avg_team,goals_conceded_avg,xG_avg_team,xG,ppda_coef,goals_conceded
0,Bundesliga,2016,Augsburg,35.0,0.921053,1.342105,0.891651,33.882750,11.783889,51.0
1,Bundesliga,2016,Bayer Leverkusen,53.0,1.394737,1.447368,1.397479,53.104216,8.118763,55.0
2,Bundesliga,2016,Bayern Munich,89.0,2.342105,0.578947,1.944963,73.908589,6.467688,22.0
3,Bundesliga,2016,Borussia Dortmund,72.0,1.894737,1.052632,1.971275,74.908462,7.852328,40.0
4,Bundesliga,2016,Borussia M.Gladbach,45.0,1.184211,1.289474,1.205836,45.821755,11.283654,49.0
...,...,...,...,...,...,...,...,...,...,...
451,Serie_A,2019,Sampdoria,48.0,1.263158,1.710526,1.287243,48.915226,12.973794,65.0
452,Serie_A,2019,Sassuolo,69.0,1.815789,1.631579,1.379488,52.420540,10.162150,62.0
453,Serie_A,2019,Torino,45.0,1.184211,1.763158,1.105878,42.023372,9.299745,67.0
454,Serie_A,2019,Udinese,36.0,0.947368,1.342105,1.093143,41.539416,15.921064,51.0


In [57]:
team_performance[['league', 'year', 'team']]

Unnamed: 0,league,year,team
0,Bundesliga,2016,Augsburg
1,Bundesliga,2016,Bayer Leverkusen
2,Bundesliga,2016,Bayern Munich
3,Bundesliga,2016,Borussia Dortmund
4,Bundesliga,2016,Borussia M.Gladbach
...,...,...,...
451,Serie_A,2019,Sampdoria
452,Serie_A,2019,Sassuolo
453,Serie_A,2019,Torino
454,Serie_A,2019,Udinese


In [58]:
# afficher les collonnes League et year et Club de player_info
player_info[['League', 'Year', 'Club']].head()
# afficher toutes les League de player_info
player_info['League'].unique()

array(['La Liga', 'Serie A', 'Bundesliga', 'Premier League',
       'Campeonato Brasileiro SÃ©rie A', 'France Ligue 1', 'MLS',
       'Primeira Liga', 'Eredivisie'], dtype=object)

In [59]:
# afficher toutes les league de team_performance
team_performance['league'].unique()

array(['Bundesliga', 'EPL', 'La_liga', 'Ligue_1', 'RFPL', 'Serie_A'],
      dtype=object)

On remarque un manque de cohérence dans le nom des ligues des deux dataset

In [60]:
# Corriger les noms des ligues dans les données des équipes
team_performance['league'] = team_performance['league'].str.replace('La_liga', 'La Liga')
team_performance['league'] = team_performance['league'].str.replace('EPL', 'Premier League')
team_performance['league'] = team_performance['league'].str.replace('Bundesliga', 'Bundesliga')
team_performance['league'] = team_performance['league'].str.replace('Serie_A', 'Serie A')
team_performance['league'] = team_performance['league'].str.replace('Ligue_1', 'France Ligue 1')

# supprimer les ligues pas communes aux deux datasets
team_performance = team_performance[team_performance['league'].isin(player_info['League'].unique())]

# supprimer les ligues pas communes aux deux datasets dans player_info
player_info = player_info[player_info['League'].isin(team_performance['league'].unique())]

In [61]:
player_info['League'].unique()

array(['La Liga', 'Serie A', 'Bundesliga', 'Premier League',
       'France Ligue 1'], dtype=object)

In [62]:
team_performance['league'].unique()

array(['Bundesliga', 'Premier League', 'La Liga', 'France Ligue 1',
       'Serie A'], dtype=object)

In [63]:
# dans player_info supprimer les club qui ne sont pas dans team_performance
player_info = player_info[player_info['Club'].isin(team_performance['team'].unique())]
# dans team_performance supprimer les club qui ne sont pas dans player_info
team_performance = team_performance[team_performance['team'].isin(player_info['Club'].unique())]

In [64]:
# creer une colonne moyenne de but marqué par match pour chaque joueur de la dataset player_info
player_info['Goals_per_match'] = player_info['Goals'] / player_info['Matches_Played']
# Joindre les données des joueurs avec les performances des équipes

merged_data = player_info.merge(team_performance, how='left', left_on=['League', 'Year', 'Club'], right_on=['league', 'year', 'team'])


# supprimer les colonnes qui donnes les meme informations
merged_data = merged_data.drop(['league', 'year', 'team'], axis=1)
merged_data

Unnamed: 0,Country,League,Club,Player Names,Matches_Played,Substitution,Mins,Goals,xG_x,xG Per Avg Match,...,On Target Per Avg Match,Year,Goals_per_match,goals_scored,goals_avg_team,goals_conceded_avg,xG_avg_team,xG_y,ppda_coef,goals_conceded
0,Spain,La Liga,Real Betis,Juanmi Callejon,19,16,1849,11,6.62,0.34,...,1.03,2016,0.578947,41.0,1.078947,1.684211,0.939879,35.715405,9.142622,64.0
1,Spain,La Liga,Barcelona,Antoine Griezmann,36,0,3129,16,11.86,0.36,...,1.24,2016,0.444444,116.0,3.052632,0.973684,2.461884,93.551594,6.702330,37.0
2,Spain,La Liga,Atletico Madrid,Luis Suarez,34,1,2940,28,23.21,0.75,...,1.84,2016,0.823529,70.0,1.842105,0.710526,1.596287,60.658900,9.954444,27.0
3,Spain,La Liga,Celta Vigo,Ruben Castro,32,3,2842,13,14.06,0.47,...,1.40,2016,0.406250,53.0,1.394737,1.815789,1.065283,40.480753,8.830990,69.0
4,Spain,La Liga,Valencia,Kevin Gameiro,21,10,1745,13,10.65,0.58,...,1.25,2016,0.619048,56.0,1.473684,1.710526,1.324726,50.339573,9.849351,65.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
255,England,Premier League,Arsenal,Pierre-Emerick Aubameyang,35,1,3392,22,16.07,0.45,...,1.18,2019,0.628571,56.0,1.473684,1.263158,1.337427,50.822218,12.367654,48.0
256,England,Premier League,Tottenham,Harry Kane,29,0,2801,18,12.97,0.44,...,1.25,2019,0.620690,61.0,1.605263,1.236842,1.290034,49.021303,12.802596,47.0
257,England,Premier League,Everton,Richarlison,36,0,3289,13,10.73,0.31,...,0.92,2019,0.361111,44.0,1.157895,1.473684,1.413425,53.710143,10.840476,56.0
258,England,Premier League,Chelsea,Tammy Abraham,25,9,2380,15,19.29,0.77,...,1.40,2019,0.600000,69.0,1.815789,1.421053,2.005994,76.227787,9.688096,54.0


In [65]:

scatter_plot = alt.Chart(merged_data).mark_circle().encode(
    x=alt.X('xG_avg_team:Q', title='Moyenne expected Goals (xG) de l\'équipe par match'),
    y=alt.Y('goals_avg_team:Q', title='Moyenne buts marqués par l\'équipe par match'),
    color=alt.Color('League:N', title='Ligue'),
    tooltip=['Player Names', 'Club', 'Goals_per_match', 'xG Per Avg Match']
).properties(
    width=600,
    height=400,
    title="Corrélation entre l'efficacité des joueurs et la performance de leur équipe"
)

# Afficher la visualisation
scatter_plot

## selection des joueurs les plus perfomants pour l'analyse 

In [66]:
# ne garder que les joueurs ayant joué au moins 20 matchs et marqué au moins 15 buts
filtered_merged_data = merged_data[(merged_data['Matches_Played'] >= 20) & (merged_data['Goals'] >= 15)]
# Créer la visualisation avec Altair et ajouter une ligne de tendance
scatter_plot = alt.Chart(filtered_merged_data).mark_circle().encode(
    x=alt.X('xG_avg_team:Q', title='Moyenne expected Goals (xG) de l\'équipe par match'),
    y=alt.Y('goals_avg_team:Q', title='Moyenne buts marqués par l\'équipe par match'),
    color=alt.Color('League:N', title='Ligue'),
    tooltip=['Player Names', 'Club', 'Goals_per_match', 'xG Per Avg Match']
).properties(
    width=600,
    height=400,
    title="Corrélation entre l'efficacité des joueurs et la performance de leur équipe"
).interactive()

scatter_plot

on affine la visualisation en effectuant une étude par league avec que les joueurs vedettes

In [67]:
# changer le nom de la colonne goals_scored en number_of_goals_scored_by_team
merged_data = merged_data.rename(columns={'goals_scored': 'goals_scored_by_team'})

In [68]:
# Créer un menu déroulant pour choisir la ligue
league_dropdown = alt.binding_select(options=list(merged_data['League'].unique()))
league_selector = alt.selection_single(fields=['League'], bind=league_dropdown, name='Choisir une ligue')


# Créer la visualisation avec Altair et ajouter une ligne de tendance
scatter_plot = alt.Chart(filtered_merged_data).mark_circle().encode(
    x=alt.X('xG_avg_team:Q', title='Moyenne expected Goals (xG) de l\'équipe par match'),
    y=alt.Y('goals_avg_team:Q', title='Moyenne buts marqués par l\'équipe par match'),
    color=alt.Color('League:N', title='Ligue'),
    tooltip=['Player Names', 'Club', 'Goals_per_match', 'xG Per Avg Match']
).add_selection(
    league_selector
).transform_filter(
    league_selector
).properties(
    width=600,
    height=400,
    title="Corrélation entre l'efficacité des joueurs et la performance de leur équipe"
).interactive()


# Afficher la visualisation
scatter_plot



<a id="section-5"></a>

## Analyse de l'impact de la pression défensive sur la performance des équipes en fonction de la qualité des joueurs :
Existe-t-il une relation entre la capacité des équipes à exercer une pression défensive (mesurée par ppda_coef) et l'efficacité des joueurs dans la conversion des expected goals (xG) en buts réels, en tenant compte de la qualité des joueurs (mesurée par le nombre de buts marqués) ?
Cette question nécessitera de créer une nouvelle variable qui combine les informations sur la qualité des joueurs et la capacité des équipes à exercer une pression défensive, afin d'explorer leur impact combiné sur la performance des équipes.

In [69]:
# Définir la charte
scatter_plot2 = alt.Chart(merged_data).mark_circle().encode(
    x=alt.X('ppda_coef:Q', title='ppda_coef'),
    y=alt.Y('xG_avg_team:Q', title='Moyenne expected Goals (xG) par match'),
    color=alt.Color('League:N', title='Ligue'),
    tooltip=['Player Names', 'League', 'Goals', 'xG Per Avg Match', 'Club']
).properties(
    width=600,
    height=400,
    title="Relation entre pression défensive et la productivité des joueurs et la performance des équipes par ligue UEFA"
)

# Afficher la visualisation
scatter_plot2


<a id="section-6"></a>