

# Modèle 1 : Prédiction de la Victoire de l'Équipe à Domicile ou en Déplacement Basée sur les Statistiques d'un Match

Ce Zeppelin notebook décrit le processus complet pour créer un modèle de prédiction des résultats de matchs de foot. Bien que le cours porte sur le big data, nous avons tenté d'utiliser des méthodes et des traitements de données typiques du big data, malgré un nombre de données d'entraînement relativement limité (nous possédons pour ce model de **10Gb de données**). Il est donc important de prendre cela en compte. Les fonctions utilisées ont été développées par nous même et en consultant des exemples en ligne et en se référant à la documentation, et chaque fonction complexe a été expliquée pour illustrer le processus de traitement.

### Prétraitement des Données

Le dossier `./data/events` contient plusieurs fichiers JSON, chacun étant nommé avec un identifiant unique représentant un match dans le dataset. Le contenu de chaque fichier est à la fois vaste et bien structuré, comme documenté dans le [répertoire GitHub de StatsBomb](https://github.com/statsbomb/open-data/tree/master/doc). Chaque fichier inclut toutes les actions du match, telles que chaque passe, tir, carton jaune, réception, arrêt de balle, etc. Nous avons donc supposé qu'il était possible de regrouper les statistiques d'un match pour créer un modèle capable de prédire laquelle des deux équipes remportera le match.

### Features Définies

Pour les deux équipes, nous avons défini un total de 21 features. Ces features permettent de décrire le match en question. Les features avec les valeurs `team1` ou `home` se réfèrent à l'équipe à domicile, tandis que celles avec `team2` ou `away` concernent l'équipe en déplacement.

#### Liste des Features
```
root
 |-- match_id: string (non utilisé)
 |-- match_teams: string (non utilisé)
 |-- Pass_team1: long (utilisé)
 |-- Pass_team2: long (utilisé)
 |-- Shot_team1: long (utilisé)
 |-- Shot_team2: long (utilisé)
 |-- Foul_won_team1: long (utilisé)
 |-- Foul_won_team2: long (utilisé)
 |-- Foul_committed_team1: long (utilisé)
 |-- Foul_committed_team2: long (utilisé)
 |-- Bad_Behaviour_Yellow_Card_team1: long (utilisé)
 |-- Bad_Behaviour_Yellow_Card_team2: long (utilisé)
 |-- total_red_cards_team1: long (utilisé)
 |-- total_red_cards_team2: long (utilisé)
 |-- total_actions_team1: long (utilisé)
 |-- total_actions_team2: long (utilisé)
 |-- match_date: string (utilisé)
 |-- home_score: long (utilisé)
 |-- away_score: long (utilisé)
 |-- home_team_id: long (utilisé)
 |-- team1_results: double (utilisé)
 |-- away_team_id: long (utilisé)
 |-- team2_results: double (utilisé)
 |-- winning_team: string (non utilisé) --> utilisé pour la ground truth (valeur y)
```

Ce modèle et ces données nous permettent de prédire le vainqueur d'un match en se basant sur les statistiques des équipes.

### Définitin des variables statiques

Afin de permettre le bon fonctionnement, du zeppelin nous définissons ici des variables statiques qui permettent de facilement récupérer les données nécessaires.

In [2]:
val jsonDirectory = "./data/events"

### Créations des features 

Nous abordons ici une étape importante : la création des features principales. Bien que le code soit relativement long en raison du nombre de features à générer, chaque section est expliquée à l'aide de commentaires pour faciliter la compréhension.

In [4]:
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._
import org.apache.hadoop.fs.{FileSystem, Path}

// Partie où nous définissons la session Spark
val spark = SparkSession.builder.appName("Soccer Match Analysis").getOrCreate()
val sc = spark.sparkContext
val hadoopConf = sc.hadoopConfiguration
val fs = FileSystem.get(hadoopConf)
val fileStatus = fs.listStatus(new Path(jsonDirectory))
val files = fileStatus.map(_.getPath.toString)

// Lecture de tous les fichiers JSON dans un DataFrame Spark
val allMatchesDf = spark.read.option("multiLine", true).json(files: _*)

// Récupération de l'ID du match à partir du nom du fichier (ex: 657.json = 657)
val filePathColumn = input_file_name()
val matchIdDf = allMatchesDf.withColumn("match_id", regexp_extract(filePathColumn, """(\d+)\.json$""", 1))

val startTime = System.nanoTime()

// Définition des features basées sur les types d'actions dans le match --> types d actions basiques
val featureColumns2 = Seq(
  ("type.name", "Pass", "Pass_feature"),
  ("type.name", "Shot", "Shot_feature"),
  ("type.name", "Foul Won", "Foul_won_feature"),
  ("type.name", "Foul Committed", "Foul_committed_feature")
)

// Définition des features pour les cartons et actions spécifiques du gardien de but
val featureColumns3 = Seq(
  ("type.name", "Bad Behaviour", "bad_behaviour.card.name", "Yellow Card", "Bad_Behaviour_Yellow_Card_feature"),
  ("type.name", "Bad Behaviour", "bad_behaviour.card.name", "Second Yellow", "Bad_Behaviour_Second_Yellow_feature"),
  ("type.name", "Goal Keeper", "goalkeeper.type.name", "Penalty Saved", "Goalkeeper_Penalty_Saved_feature"),
  ("type.name", "Goal Keeper", "goalkeeper.type.name", "Punch", "Goalkeeper_Punch_feature"),
  ("type.name", "Goal Keeper", "goalkeeper.type.name", "Save", "Goalkeeper_Save_feature"),
  ("type.name", "Goal Keeper", "goalkeeper.type.name", "Shot Saved", "Goalkeeper_Shot_Saved_feature"),
  ("type.name", "Goal Keeper", "goalkeeper.type.name", "Smother", "Goalkeeper_Smother_feature"),
  ("type.name", "Goal Keeper", "goalkeeper.type.name", "Shot Saved To Post", "Goalkeeper_Shot_Saved_To_Post_feature")
)

// Définition des features pour les cartons rouges et deuxiémes cartons
val featureColumnsSeq = Seq(
  ("type.name", "Bad Behaviour", "bad_behaviour.card.name", Seq("Red Card", "Second Yellow"), "Bad_Behaviour_Red_Card_feature")
)

// Ajout des colonnes de features au DataFrame pour les types d'actions de base
val updatedDf2 = featureColumns2.foldLeft(matchIdDf)((df, colInfo) => {
  val (col1, col2, newCol) = colInfo // On prend la séquence 1 de features column comme exemple --> ("type.name", "Pass", "Pass_feature")
  df.withColumn(newCol, when(col(col1) === col2, 1).otherwise(0)) // newCol = le nom de la nouvelle colonne dans matchIdDf,  si la col1 (type.name) est = Bad Behaviour alors on mets un 1 à cette emplacement sinon 0 et ainsi de suite pour chaque object
})

// Ajout des colonnes de features pour les cartons et actions spécifiques --> le fonctionnement est le meme que pour la fonction précédente
val updatedDf3 = featureColumns3.foldLeft(updatedDf2)((df, colInfo) => {
  val (col1, col2, col3, col4, newCol) = colInfo
  df.withColumn(newCol, when(col(col1) === col2 && col(col3) === col4, 1).otherwise(0))
})

// Ajout des colonnes de features pour les cartons rouges et deuxiémes cartons --> le fonctionnement est le meme que pour la fonction précédente
val updatedDfSeq = featureColumnsSeq.foldLeft(updatedDf3)((df, colInfo) => {
  val (col1, col2, col3, col4, newCol) = colInfo
  df.withColumn(newCol, when(col(col1) === col2 && col(col3).isin(col4: _*), 1).otherwise(0)) // la fonction col(col3).isin(col4: _*) permet de dire que si col3 contient une des valeurs dans col4 (Seq("Red Card", "Second Yellow"))
})

// Agrégation des features par match et par équipe avec la somme de chaque --> renommé chaque colonne car plus simple
val aggregatedDf = updatedDfSeq.groupBy("match_id", "possession_team.name").agg(
  sum("Pass_feature").alias("Pass"),
  sum("Shot_feature").alias("Shot"),
  sum("Foul_won_feature").alias("Foul_won"),
  sum("Foul_committed_feature").alias("Foul_committed"),
  sum("Bad_Behaviour_Yellow_Card_feature").alias("Bad_Behaviour_Yellow_Card"),
  sum("Bad_Behaviour_Second_Yellow_feature").alias("Bad_Behaviour_Second_Yellow"),
  sum("Bad_Behaviour_Red_Card_feature").alias("Bad_Behaviour_Red_Card"),
  sum("Goalkeeper_Penalty_Saved_feature").alias("Goalkeeper_Penalty_Saved"),
  sum("Goalkeeper_Punch_feature").alias("Goalkeeper_Punch"),
  sum("Goalkeeper_Save_feature").alias("Goalkeeper_Save"),
  sum("Goalkeeper_Shot_Saved_feature").alias("Goalkeeper_Shot_Saved"),
  sum("Goalkeeper_Smother_feature").alias("Goalkeeper_Smother"),
  sum("Goalkeeper_Shot_Saved_To_Post_feature").alias("Goalkeeper_Shot_Saved_To_Post")
)

// Jointure des données agrégées pour les deux équipes dans un même match
val joinedDf = aggregatedDf.as("df1")
  .join(aggregatedDf.as("df2"), col("df1.match_id") === col("df2.match_id") && col("df1.name") < col("df2.name"))
  .select(
    col("df1.match_id"),
    concat_ws(" vs ", col("df1.name"), col("df2.name")).alias("match_teams"),
    col("df1.Pass").alias("Pass_team1"),
    col("df2.Pass").alias("Pass_team2"),
    col("df1.Shot").alias("Shot_team1"),
    col("df2.Shot").alias("Shot_team2"),
    col("df1.Foul_won").alias("Foul_won_team1"),
    col("df2.Foul_won").alias("Foul_won_team2"),
    col("df1.Foul_committed").alias("Foul_committed_team1"),
    col("df2.Foul_committed").alias("Foul_committed_team2"),
    col("df1.Bad_Behaviour_Yellow_Card").alias("Bad_Behaviour_Yellow_Card_team1"),
    col("df2.Bad_Behaviour_Yellow_Card").alias("Bad_Behaviour_Yellow_Card_team2"),
    (col("df1.Bad_Behaviour_Red_Card") + col("df1.Bad_Behaviour_Second_Yellow")).alias("total_red_cards_team1"),
    (col("df2.Bad_Behaviour_Red_Card") + col("df2.Bad_Behaviour_Second_Yellow")).alias("total_red_cards_team2"),
    (col("df1.Goalkeeper_Penalty_Saved") +
      col("df1.Goalkeeper_Punch") +
      col("df1.Goalkeeper_Save") +
      col("df1.Goalkeeper_Shot_Saved") +
      col("df1.Goalkeeper_Smother") +
      col("df1.Goalkeeper_Shot_Saved_To_Post")).alias("total_actions_team1"),
    (col("df2.Goalkeeper_Penalty_Saved") +
      col("df2.Goalkeeper_Punch") +
      col("df2.Goalkeeper_Save") +
      col("df2.Goalkeeper_Shot_Saved") +
      col("df2.Goalkeeper_Smother") +
      col("df2.Goalkeeper_Shot_Saved_To_Post")).alias("total_actions_team2")
  )

val endTime = System.nanoTime()
val duration = (endTime - startTime) / 1e9d
println(s"Time taken: $duration seconds")


# Load all matches from local file --> see other notebook

In [6]:
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.DataFrame

val spark = SparkSession.builder
  .appName("Load Football Matches Analysis")
  .getOrCreate()


val matchesDf = spark.read.parquet("./data/all_matches.parquet")

matchesDf.printSchema()
matchesDf.show()
val totalMatches = matchesDf.count()
println(s"Total number of matches: $totalMatches")

### Ajouter aux vecteurs les derniers scores des équipes (2 derniers matchs) et ajouter une colonne y qui concerne l'équipe qui a gagner

In [8]:
import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._

// Enrichir le DataFrame avec des informations supplémentaires sur les matchs
val enrichedDf = joinedDf.join(matchesDf.select("match_id", "match_date", "home_team_id", "away_team_id", "home_score", "away_score"), Seq("match_id"))

// Fonction pour calculer les résultats des deux derniers matchs pour une équipe donnée
def calculateLastTwoResults(teamId: String, teamColumn: String, scoreColumn: String, opponentScoreColumn: String): DataFrame = {
    
  // Définition d'une Window pour partitionner par équipe et ordonner par date de match en ordre décroissant
  val windowSpec = Window.partitionBy(teamId).orderBy($"match_date".desc) // fonction très importante de trier par date

  matchesDf
    .withColumn("row_number", row_number().over(windowSpec)) // Ajout d'un numéro de ligne pour chaque partition
    .withColumn("result", when(col(scoreColumn) > col(opponentScoreColumn), 1.0) // Calcul du résultat du match (1.0 pour victoire, 0.5 pour match nul, 0.0 pour défaite)
                          .when(col(scoreColumn) === col(opponentScoreColumn), 0.5)
                          .otherwise(0.0))
    .filter($"row_number" <= 2) // Filtrer pour ne conserver que les deux derniers matchs
    .groupBy(teamId) // GroupBy par équipe et agg les résultats des deux derniers matchs
    .agg(sum("result").alias(s"${teamColumn}_results"))
    
    // Normaliser les résultats sur une échelle de 0 à 1 (moyenne des deux derniers résultats)
    .withColumn(s"${teamColumn}_results", when(col(s"${teamColumn}_results").isNull, 0.0)
                                          .otherwise(col(s"${teamColumn}_results") / 2.0))
}

// Calcul des résultats des deux derniers matchs pour l'équipe à domicile et extérieur
val homeTeamResults = calculateLastTwoResults("home_team_id", "team1", "home_score", "away_score")
val awayTeamResults = calculateLastTwoResults("away_team_id", "team2", "away_score", "home_score")

// Joindre les résultats calculés avec le nouveau df
val finalDf = enrichedDf
  .join(homeTeamResults, enrichedDf("home_team_id") === homeTeamResults("home_team_id"), "left")
  .drop(homeTeamResults("home_team_id"))
  .join(awayTeamResults, enrichedDf("away_team_id") === awayTeamResults("away_team_id"), "left")
  .drop(awayTeamResults("away_team_id"))

// Ajouter la colonne "winning_team" avec les valeurs "home_team", "away_team" ou "draw"
val finalDfWithWinningTeam = finalDf.withColumn("winning_team", 
  when(col("home_score") > col("away_score"), "home_team")
  .when(col("home_score") < col("away_score"), "away_team")
  .otherwise("draw")
)

finalDfWithWinningTeam.show()


In [9]:
finalDfWithWinningTeam.printSchema()

### Dernier filtre du preprocessing du dataset

Pour cette analyse, nous avons décidé de retirer les matchs qui se sont terminés sur un score d'égalité. Cette décision est motivée par plusieurs essais préliminaires qui ont montré que le nombre de matchs nuls est très faible comparé aux matchs avec un vainqueur. Cela crée un "unbalanced data" dans les données, rendant l'amélioration de notre modèle très compliquée. En excluant ces matchs, nous avons pu obtenir des résultats plus fiables et une meilleure performance du modèle.



In [11]:
val filteredDf = finalDfWithWinningTeam.filter(col("winning_team") =!= "draw") // Filtrer le DataFrame pour ne conserver que les matchs avec un gagnant (exclure les matchs nuls) comme dit


//Afficher les victoires des 2 équipes
val teamWins = filteredDf.groupBy("winning_team").count()
teamWins.show()

# Machine Learning with Spark ML

In [13]:
import org.apache.spark.ml.{Pipeline, PipelineModel}
import org.apache.spark.ml.feature.{VectorAssembler, StringIndexer, OneHotEncoder}
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import org.apache.spark.sql.types._

val spark = SparkSession.builder()
  .appName("WinningTeamPrediction")
  .getOrCreate()

val schema = new StructType()
  .add("match_id", StringType, false)
  .add("match_teams", StringType, false)
  .add("Pass_team1", LongType, true)
  .add("Pass_team2", LongType, true)
  .add("Shot_team1", LongType, true)
  .add("Shot_team2", LongType, true)
  .add("Foul_won_team1", LongType, true)
  .add("Foul_won_team2", LongType, true)
  .add("Foul_committed_team1", LongType, true)
  .add("Foul_committed_team2", LongType, true)
  .add("Bad_Behaviour_Yellow_Card_team1", LongType, true)
  .add("Bad_Behaviour_Yellow_Card_team2", LongType, true)
  .add("total_red_cards_team1", LongType, true)
  .add("total_red_cards_team2", LongType, true)
  .add("total_actions_team1", LongType, true)
  .add("total_actions_team2", LongType, true)
  .add("match_date", StringType, true)
  .add("home_score", LongType, true)
  .add("away_score", LongType, true)
  .add("home_team_id", LongType, true)
  .add("team1_results", DoubleType, true)
  .add("away_team_id", LongType, true)
  .add("team2_results", DoubleType, true)
  .add("winning_team", StringType, false)


In [14]:
import org.apache.spark.ml.classification.{LogisticRegression, LinearSVC, GBTClassifier, RandomForestClassifier}
import org.apache.spark.ml.tuning.{ParamGridBuilder, CrossValidator}

// Step 1
val featureCols = Array("Pass_team1", "Pass_team2", "Shot_team1", "Shot_team2", "Foul_won_team1", "Foul_won_team2", 
  "Foul_committed_team1", "Foul_committed_team2", "Bad_Behaviour_Yellow_Card_team1", 
  "Bad_Behaviour_Yellow_Card_team2", "total_red_cards_team1", "total_red_cards_team2", 
  "total_actions_team1", "total_actions_team2", "team1_results", "team2_results")

val assembler = new VectorAssembler()
  .setInputCols(featureCols)
  .setOutputCol("features")

// Step 2
val labelIndexer = new StringIndexer()
  .setInputCol("winning_team")
  .setOutputCol("label")
  .fit(filteredDf)

val indexedData = labelIndexer.transform(filteredDf)

// Step 3
val Array(trainingData, testData) = indexedData.randomSplit(Array(0.8, 0.2))

// Step 4
val lr = new LogisticRegression()
  .setLabelCol("label")
  .setFeaturesCol("features")
  .setMaxIter(10)

val rf = new RandomForestClassifier()
  .setLabelCol("label")
  .setFeaturesCol("features")

// Step 5
val lrParamGrid = new ParamGridBuilder()
  .addGrid(lr.regParam, Array(0.1, 0.01))
  .addGrid(lr.elasticNetParam, Array(0.0, 0.5, 1.0))
  .build()

val rfParamGrid = new ParamGridBuilder()
  .addGrid(rf.numTrees, Array(20, 50))
  .addGrid(rf.maxDepth, Array(5, 10))
  .build()

// Step 6
val evaluator = new MulticlassClassificationEvaluator()
  .setLabelCol("label")
  .setPredictionCol("prediction")
  .setMetricName("accuracy")

// Step 7
val lrCv = new CrossValidator()
  .setEstimator(lr)
  .setEvaluator(evaluator)
  .setEstimatorParamMaps(lrParamGrid)
  .setNumFolds(3)

val rfCv = new CrossValidator()
  .setEstimator(rf)
  .setEvaluator(evaluator)
  .setEstimatorParamMaps(rfParamGrid)
  .setNumFolds(3)

// Step 8
val lrPipeline = new Pipeline().setStages(Array(assembler, lrCv))
val rfPipeline = new Pipeline().setStages(Array(assembler, rfCv))

// Train the models
val lrModel = lrPipeline.fit(trainingData)
val rfModel = rfPipeline.fit(trainingData)

// Make predictions
val lrPredictions = lrModel.transform(testData)
val rfPredictions = rfModel.transform(testData)

// Evaluate the models
val lrAccuracy = evaluator.evaluate(lrPredictions)
val rfAccuracy = evaluator.evaluate(rfPredictions)

println(s"Logistic Regression Test set accuracy = $lrAccuracy")
println(s"Random Forest Test set accuracy = $rfAccuracy")

//lrPredictions.select("match_id", "winning_team", "prediction").show(10)
//rfPredictions.select("match_id", "winning_team", "prediction").show(10)