# Opportunité de Démontrer Mes Compétences :

Je tiens à souligner la chance que représente l'opportunité de mettre en avant mes compétences à travers ce projet, bien que le temps dont j'ai pu disposer ait été limité. Sur les deux semaines allouées, j'ai eu l'opportunité de travailler activement sur cette problématique pendant seulement cinq jours en raison d'engagements personnels, notamment des vacances planifiées. Néanmoins, j'ai consacré chaque moment disponible pour avancer dans la résolution du problème, explorant différentes approches et effectuant des tests pour affiner la solution. Ce petit projet s'est avéré extrêmement intéressant et plaisant, m'offrant une opportunité précieuse d'explorer des techniques novatrices en intelligence artificielle. Tout retour, même succinct, sur le travail accompli serait grandement apprécié, contribuant ainsi à ma compréhension et à mon apprentissage continu. Merci par avance pour votre compréhension et considération.

# Sommaire

1. [Contexte et Problématique](#contexte-et-problématique)
   - [Aspects Temporels](#aspects-temporels)
   - [Paires Action-Norme Cohérentes](#paires-action-norme-cohérentes)
   - [Construction de Matchs Cohérents](#construction-de-matchs-cohérents)
2. [Solutions Techniques](#solutions-techniques)
   - [Dynamique Temporelle](#dynamique-temporelle)
   - [Création de Paires Cohérentes](#création-de-paires-cohérentes)
   - [Construction de Matchs Significatifs](#construction-de-matchs-significatifs)
   - [Détermination du Style de Jeu](#détermination-du-style-de-jeu)
3. [Processus d'Assemblage](#processus-dassemblage)
4. [Limitations](#limitations)
5. [Étapes Futures](#étapes-futures)
6. [Installation]
7. [Execution


# Contexte et Problématique :

Je dispose de données représentant deux matchs de football. Pour chaque match, j'ai des fichiers JSON suivant le format "action : **A**, norme : [..., **k**, ...]". Ici, **A** représente les actions des joueurs et **k** les valeurs d'accélération capturées par des capteurs montés au niveau des genoux.

Le problème peut être divisé en trois sous-questions :

- **Aspects Temporels : ** Comment gérer la dynamique temporelle des matchs de football ?
- **Paires Action-Norme Cohérentes :** Comment créer des paires action-norme cohérentes où les valeurs d'accélération représentent avec précision les actions des joueurs ?
- **Construction de Matchs Cohérents :** Comment assembler ces paires en matchs de football significatifs et cohérents ? De plus, il y a une question bonus : comment déterminer le style de jeu (offensif, défensif ou équilibré) ?

**Solutions Techniques :**

1. **Dynamique Temporelle :** Étant donné que les données d'accéléromètre sont essentiellement des séries temporelles, j'ai exploré deux solutions spécifiques : TimeGAN et DoppelGANger. Ce sont des modèles d'IA générative conçus pour reproduire des données temporelles basées sur des ensembles de données existants. Après avoir examiné des articles de recherche, j'ai opté pour DoppelGANger en raison de sa performance supérieure.
Cette génération de time series est contrôlable : en choisissant le nombre de séries à générer, nous pouvons facilement choisir la durée du match.

2. **Création de Paires Cohérentes :** DoppelGANger abordait théoriquement la génération de paires action-norme. Cependant, l'implémentation pratique a révélé des résultats insatisfaisants en raison du petit jeu de données (seulement deux matchs). La performance de ce modèle s'améliore avec un jeu de données plus important, qui faisait défaut dans notre cas.
Une tentative a été de faire de la data augmentation, en créant des translations vertical (pour garder la forme) aléatoire de nos times séries. 

3. **Construction de Matchs Significatifs :** Pour garantir la génération cohérente de matchs, j'ai envisagé deux approches. Premièrement, en utilisant le hasard tout en respectant une distribution spécifique des actions. Cependant, cette approche manquait de fiabilité. Deuxièmement, j'ai exploré l'utilisation de réseaux neuronaux récurrents (RNN) ou de réseaux LSTM (mémoire à court terme à longue) qui excellent dans la génération de séquences, les rendant adaptés à la création de matchs cohérents et significatifs. Malheureusement, après quelques tests, je me suis rapidement aperçu que l'entrainement n'étais pas suffisant. Je me suis donc rabattu sur mon idée d'aléatoire suivant une distribution.

4. **Détermination du Style de Jeu :** Il existe une méthode potentielle pour influencer les sorties LSTM avec des entrées spécifiques, bien que cela reste non testé en raison des limitations rencontrées lors de l'implémentation. Cependant, en utilisant et modifiant la distribution des actions, il est possible d'influer sur le style du match. 

**Processus d'Assemblage :**

Dans un scénario de production, le processus impliquerait la génération des actions de match en utilisant LSTM pour déterminer le style de match. Ensuite, DoppelGANger générerait les normes d'accélération associées.

**Limitations :**
- L'implémentation de DoppelGANger ne permet pas de choisir l'étiquette de sortie, limitant ainsi la génération directe de paires action-norme. Pour contourner cela, j'ai choisi de créer un "pool" de paires assez large, dans lequel je vais piocher afin de construire mon match, en me basant sur la distribution indiquée. 

- La librairie gère les entrées avec des longueurs différentes, mais ne permet **pas encore** de générer des sorties différentes. Ceci rend les résultats assez linéaires, et non réaliste.

- Le nombre de données étant assez faible, et malgré la data augmentation réalisée, les résultats de DoppelGANger sont insuffisants. Un travail sur les (hyper)paramètres pourraient être réalisé pour améliorer nos résultats.


**Étapes Futures :**
- Rechercher des solutions de contournement ou des méthodes alternatives pour résoudre la limitation de l'étiquette de DoppelGANger.
- Explorer des techniques avancées ou des méthodes d'ensemble pour améliorer la précision et la fiabilité des matchs générés.
- Développer des critères d'évaluation pour évaluer la qualité des données de match générées.
- Il serait intéressant d'avoir d'autres données, comme par exemple le rôle du joueur dans l'équipe, son genre, poids, taille ou idéalement son style de jeu (plutôt karting ou formule1 ? Cyborg ou tortue ninja ?)
- Optimisation des modèles (cross validation / hyperparamètres)
- Réaliser du post-processing afin de corriger certaines valeurs (valeurs négatives ou extrêmes, par exemple)


# Contexte et problématique
Je dispose de données représentant 2 matchs.  
Pour chaque match, je posséde un json suivant le format "action : **A**, norm : [...,**k**,...] "
**A** sont des actions faite par un joueur, et **k** les valeurs d'accéleration du capteur positionnée au niveau du genoux.  

On souhaite, à partir de ces données, recréer des matchs.
La problématique peut être coupés en 3 sous questions :  
- temporalité des matchs
- Il faut pouvoir recréer des duos action-norm, avec des norm qui représentent bien l'action
- Pouvoir rattacher ces duos afin de constituer un match qui a du sens
- en bonus, choisir le sens du match (par exemple  offensif, defensif ou equilibre)

# Solutions techniques
Nos données d'accelerometre sont des séries temporelles. Il a donc fallu trouver une solution spéficique à cela.
J'en ai trouvé 2 : TimeGAN, et doppelGANger. Ce sont 2 modéles d'IA générative, permettant de (re)produire des times-series en s'entrainant sur des données existantes.
D'aprés son papier de recherche, DoppelGANger est plus puissant que TimeGAN. 
Il existe 2 librairies implémentant le modéle (Gretel.ai, et ydata-synthetics). Malheureusement, DoppelGANger étant assez récent, il manque encore des fonctionnalités a ces librairies.  
ydata ne permet pas de travailler sur des données au format 'wide', càd avec notre temporalité en colonne.
Gretel est plus développer, et permet le format wide.
Malheureusement, étant très récente, il manque encore des fonctionnalités, et des bugs existent. Notamment sur Windows, sur lequel Gretel n'assure (pas encore) le support.
J'ai donc du travailler sur une machinue virtuelle linux (Ubuntu)

DoppelGANger me permet de répondre en théorie à la premiere question, en recréant des duos action-norm.
En pratique, on remarque très rapidement qu'avec les données actuelles, les résultats ne sont pas satisfaisant. 
Ce modéle est d'autant plus performant qu'il a de données, et 2 matchs ne semblent pas suffisant.

2/ temporalité 
Gretel gére les entrées à longueur variable, mais ne permet pas (encore) de génrérer des sorties à longueur variable.
Nous avons donc des norm à longueur fixes, et sachant que 50 données correspondent à 1 seconde, nous pouvons facilement choisir  la durée d'un match, en générant X duo

3/ Avoir du sens
Pour construire un match qui a du sens, une premiére idée serait d'utiliser l'aléatoire, tout en respectant une certaine distribution des actions
Avec cette solution, les matchs pourraient avoir du sens, ou peut être pas. En somme, la solution n'est pas assez fiable.
Une 2e idée est d'utiliser encore une fois de l'IA, et notamment des modéles type RNN ou LSTM.
Ces modéles permettent notamment de (re)créer des sequences. On peut ainsi, à partir de matchs, générer de nouveaux matchs qui ont du sens. 

4/ Choisir le sens
Il semblerait qu'il est possible d'influencer les données de sorties du LSTM, avec des entrée bien spécifiques. Mais comme je n'ai pas pu tester cette solution, je ne peux entrer dans les détails ni dire si cela marche bien pour notre cas.


5/ Assemblement

En production le processus serait celui la :

Génération des actions du matchs, avec le LSTM => le sens

Avec les actions, nous générons grâce à DoppelGANger les norms associés 

Conclusion : 

limitations : 

Que faire de plus :


Gretel ne permet pas de choisir le label de sortie.



# 