# <u>**Modélisation statistique de la valeur des joueurs de football à partir de leurs performances.**</u>

Par Roman Dupraz-Bardou, Lenny Ouakil et Paul Lemoine Vandermoere

## <u>**Introduction :**</u>

L’évaluation de la valeur des joueurs est une composante clé dans le football moderne. Des plateformes comme Transfermarkt et le CIES fournissent des estimations, mais les clubs cherchent souvent à obtenir des informations plus précises basées sur des performances actualisées. Ce projet vise à construire un modèle qui estime la valeur des joueurs à partir de diverses sources de données sur les performances (open data, scraping, API), puis à comparer les estimations avec celles des plateformes publiques comme Transfermarkt ou le CIES. Pour cela, nous nous concentrerons sur les sept grands championnats européens (Premier League, Ligue 1, Bundesliga, Liga, Serie A, Eredivisie, Liga Portugal) de 2015 à 2024 (championnats écourtés pour cause de pandémie du covid19).

Ainsi, nous nous attendons à observer une corrélation positive entre les performances des joueurs (nombre de buts, de passes décisives, taux de clean sheet...) et leur valeur. Afin d'obtenir un nombre conséquent de données nécessaires à la construction de ce modèle, nous utiliserons des API comme API Football qui offrent des statistiques détaillées sur les performances des joueurs des sept grands championnats européens (xG, passes clés, interceptions, dribbles, etc.), du scraping depuis des plateformes comme Transfermarkt pour récupérer les valeurs marchandes publiques des joueurs. Il pourrait aussi être intéressant d'intégrer des variables démographiques et/ou caractéristiques (âge, position, durée du contrat) depuis des sources telles que Transfermarkt ou d'autres bases de données disponibles en open data. 

### <u> Sommaire</u>

1. [Installation](#installation)
2. [Obtention des données](#obtention-des-données)
   - [Utilisation d'API](#utilisation-d'api)
   - [Scraping des données de valeur marchande](#scraping-des-données-de-valeur-marchande)
   - [Scraping des données de performances depuis FBref](#scraping-depuis-fbref)
   - [Cartographie](#cartographie)
3. [Statistiques descriptives](#statistiques-descriptives)
4. [Modèle de prédiction](#modèle-de-prédiction)
5. [Conclusion](#conclusion)


<a id="installation"></a>
## <u>**1. Installation** </u>

Afin de construire ce projet, nous avons eu besoin de différentes librairies : 


In [None]:
import requests
import bs4
import pandas as pd
import geopandas as gpd
import folium
import webbrowser
import matplotlib.pyplot as plt
import matplotlib.patheffects as path_effects

<a id="obtention-des-données"></a>
## <u>2. Obtention des données</u>

<a id="utilisation-d'api"></a>
### <u> Utilisation d'API </u>

Dans un premier temps, il nous a paru intéressant d'utiliser des API afin de récupérer des données essentielles sur les joueurs. Il existe différentes API sur le sujet, mais pour des raisons d'efficacité, nous nous focaliserons sur celle fournie par Footballdata.org, dont le plan gratuit permet d'extraire davantage d'informations. Avec cette API, nous avons accès aux informations élémentaires sur les équipes de 10 championnats : Champions League, Primeira Liga, Premier League, Championship, Ligue 1, Eredivisie, Bundesliga, Serie A, Liga Santander ainsi que la Serie A brésilienne. Nous sommes aussi en mesure de fournir des données de l'Euro 2024 et de la Coupe du Monde 2022.

Toutefois, nous nous concentrons ici sur les sept grands championnats européens, dont les ID sont 2021 (Premier League), 2014 (Liga Santander), 2015 (Ligue 1), 2002 (Bundesliga), 2019 (Serie A), 2003 (Eredivisie), 2017 (Primeira Liga). Nous pouvons ainsi accéder à différentes informations sur les équipes qui composent ces championnats. Prenons le cas de la Premier League :

In [None]:
from infoapi import get_teams 

get_teams(2021) 


Ainsi, grâce à ce data frame nous sommes en capacité d'observer les équipes présentes dans le championnat anglais, mais aussi leur ID. Cela nous permettra ensuite de pouvoir réaliser des recherches plus poussées sur ces équipes afin de nous concentrer sur les joueurs. Regardons plus en détail l'effectif de Manchester United, à l'aide d'un data frame ainsi que d'une représentation par poste: 

In [None]:
from infoapi import get_players 
from infoapi import draw_team

get_players(66) #crée le data frame de l'effectif
draw_team(66) #crée une représentation de l'effectif par poste 

Nous avons ainsi pu extraire des informations essentielles sur les joueurs de Manchester United. Toutefois, le plan gratuit ne nous permet pas d'accéder à la valeur marchande des joueurs, pourtant centrale dans notre projet. Il sera donc nécessaire d'utiliser d'autres moyens pour l'obtenir. C'est ce que nous allons voir désormais.

<a id="scraping-des-données-de-valeur-marchande"></a>
### <u>Scraping des données de valeur marchande </u>

''' Là Roman raconte sa partie'''

In [None]:
'''Code de Roman sur la partie valeur marchande

Scraping plus court donc à voir si on fait tourner ou pas (question de reproductibilité)'''

<a id="scraping-depuis-fbref"></a>
### <u> Scraping des données de performances depuis FBref </u>

'''Là Lenny tu peux expliquer tes méthodes de scraping, tes choix, difficultés rencontrées, manières de les contourner...'''




In [None]:
'''Code de Lenny pour le montrer au correcteur sans le faire tourner car il est long mdrr

Mettre le data frame csv dans un fichier csv et le lire avec pandas'''

<a id="cartographie"></a>
### <u>Cartographie </u>

Dans le cadre de notre projet, nous avons aussi souhaité réutiliser des méthodes que nous avions découvertes lors du cours de *Python pour la data science*. C'est pourquoi nous avons voulu créer une nouvelle carte des stades de Ligue 1 et Ligue 2, actualisée à la saison 2024/2025, en distinguant les stades appartenant à des clubs de Ligue 1 et de Ligue 2.

In [None]:
from mapping import retrieve_all_stadium_from_league


# URLs for different divisions
url_list = {
    "L1": "http://fr.wikipedia.org/wiki/Championnat_de_France_de_football_2024-2025",
    "L2": "https://fr.wikipedia.org/wiki/Championnat_de_France_de_football_de_deuxi%C3%A8me_division_2024-2025",
}

# Retrieve stadiums information for Ligue 1
stades_ligue1 = retrieve_all_stadium_from_league(url_list, "L1")
stades_ligue2 = retrieve_all_stadium_from_league(url_list, "L2")

stades = pd.concat([stades_ligue1, stades_ligue2])

stades = stades.dropna(subset=["latitude", "longitude"])
stades.loc[:, ["latitude", "longitude"]] = stades.loc[
    :, ["latitude", "longitude"]
].astype(float)
stadium_locations = gpd.GeoDataFrame(
    stades, geometry=gpd.points_from_xy(stades.longitude, stades.latitude)
)

center = stadium_locations[["latitude", "longitude"]].mean().values.tolist()
sw = stadium_locations[["latitude", "longitude"]].min().values.tolist()
ne = stadium_locations[["latitude", "longitude"]].max().values.tolist()

m = folium.Map(location=center, tiles="openstreetmap")

# I can add marker one by one on the map
for i in range(0, len(stadium_locations)):
    row = stadium_locations.iloc[i]
    color = "blue" if row["division"] == "L1" else "green"
    folium.Marker(
        [stadium_locations.iloc[i]["latitude"], stadium_locations.iloc[i]["longitude"]],
        popup=stadium_locations.iloc[i]["stade"],  icon=folium.Icon(color=color)
    ).add_to(m)

m.fit_bounds([sw, ne])
m.save("stadiums_map.html")
webbrowser.open("stadiums_map.html")

<a id="statistiques-descriptives"></a>
## <u>3. Statistiques descriptives</u>

Il s'agit désormais d'utiliser les données que nous avons récupérées afin de mieux comprendre certains enjeux liés aux transferts de joueurs. 