https://pandas.pydata.org/docs/user_guide/style.html

# Projet REP
### Solène Lemonnier & Pauline Roches

Ce projet est basé sur le papier "[COVID and Home Advantage in Football: An Analysis of Results and xG Data in European Leagues](https://blog.mathieuacher.com/FootballAnalysis-xG-COVIDHome/)" de Mathieu Acher. Cette étude a été publiée le 23 mai 2021. 

## Analyse de l'étude

Après lecture de l'étude, nous avons pu dresser le contexte et saisir les enjeux. Le but de l'étude est de vérifier l'impact de jouer à domicile au vue de la présence des supporters dans un stade de football. L'hypothèse de départ est que leur présence a un impact positif sur la performance des équipes, que ce soit en termes de points et buts marqués mais aussi par rapport aux points et buts attendus.\
\
L'évènement du COVID-19 a permis de fournir des données permettant une comparaison entre un stade vide ou non. Il faut cependant souligner que l'impact n'a pas été que sur les spectateurs mais a aussi touché le sein de l'équipe, notamment en pouvant perturber des entrainements ou avec des joueurs malades.\
\
Pour cela, 6 ligues européennes de football ont été étudiées de 2014 à 2021. Il est important de noter que la crise n'a pas été gérée de la même manière par toutes les ligues, ce qui rend la comparaison entre elles plus ardue.\
\
Au niveau de la méthode : les données sont tirées du site "[Understat](https://understat.com/)". On utilise comme données : le nombre de matchs, les buts (goals), les buts attendus (xG), les buts encaissés attendus (xGA) les points (points) et les points attendus.(xPoints).\
\
Pour étudier les données, les méthodes utilisées sont : 
- le **test non-paramétrique des rangs signés de Wilcoxon** ( utilisé pour comparer deux séries de valeurs appariées (ou liées), généralement avant et après un traitement. Le but du test est de vérifier si ces deux mesures sont réellement différentes sans supposer que les différences suivent une distribution particulière. ) dont on tire la **p-value** ( probabilité d'obtenir des résultats aussi extrêmes que ceux observés dans l'échantillon, sous l'hypothèse nulle qui postule qu'il n'y a pas d'effet ou de différence. Si la p-value est petite (<0,05), alors l'hypothèse nulle est rejetée et on considère qu'il y a un effet ),
- le **d de Cohen** ( permet de savoir si une différence observée entre deux groupes est significative en termes de taille, c’est-à-dire si elle a une importance pratique, pas seulement statistique ),
- le **test non paramétrique de Mann-Whitney** ( qui permet de comparer deux groupes indépendants pour voir s'ils diffèrent significativement en termes de leur distribution ). \
\
Dans l'étude on remarque qu'en général, il y a un avantage notable en nombre de points gagnés à jouer à la maison, sauf pendant les saisons Covid où cet avantage s'amoindrit voire s'inverse.




## Reproduction de l'étude

Nous commencons par récupérer les données de chaque ligue et de chaque saison à l'aide du scraping.

Nous avons ajouté le fichier `scrap.py` qui nous permet de récupérer toutes les données des équipes entre *2014* et *2022* at *home* et *away*.  Les résultats sont stockés dans le csv `understat_team_stats_home_away.csv`.

### Graphique 1

Puis nous avons reproduit le premier graphique avec `reproduce_diff_points.py` permettant d'observer les différences de points et d'xPoints entre les saisons pour toutes les ligues. Le graphique est `diff_points_xpoints.png`.

In [14]:
from IPython.display import display, HTML

# Créez du code HTML pour afficher les images côte à côte
html_code = """
<div style="display: flex; justify-content: space-between;">
    <img src="diff_points_xpoints.png" style="max-width: 48%; height: auto;" />
    <img src="diff_points_xpoints_acherm.png" style="max-width: 48%; height: 50%;" />
</div>
"""

# Afficher les images côte à côte
display(HTML(html_code))


En comparant nos résulats (tableau de gauche) à ceux de Mathieu Acher (tableau de droite), on observe les mêmes résultats après avoir bien vérifié les arrondis. En effet, les xPoints étant des float, il faut s'assurer que le points soient arrondis classiquement. Par défaut ils étaient arrondis à l'inférieur.\
\
On observe bien un avantage à jouer à la maison visible dans les différentes ligues qui s'attenue pendant le Covid.

### Graphique 2