# Light-contact boxing 

# Import
Import différentes bibliothèques et modules Python utilisés dans l'analyse de données et la visualisation. Voici une brève description de chaque import :

- `pandas as pd` : Il importe la bibliothèque Pandas, qui est utilisée pour la manipulation et l'analyse de données tabulaires.
- `numpy as np` : Il importe la bibliothèque NumPy, qui fournit des structures de données et des fonctions pour effectuer des calculs numériques efficaces.
- `matplotlib.pyplot as plt` : Il importe la bibliothèque Matplotlib, qui est utilisée pour créer des visualisations graphiques, et spécifiquement le module `pyplot` pour les tracés de base.
- `plotly.graph_objects as go` : Il importe la bibliothèque Plotly, qui permet de créer des visualisations interactives et dynamiques. L'importation de `graph_objects` permet d'utiliser les fonctionnalités avancées de Plotly.
- `matplotlib.dates as mdates` : Il importe le module `dates` de Matplotlib, qui fournit des fonctionnalités pour travailler avec des données de type date et heure dans les tracés.
- `scipy.stats as stats` : Il importe le module `stats` de SciPy, qui offre des fonctions statistiques et des distributions de probabilité.
- `sklearn.ensemble import IsolationForest` : Il importe la classe `IsolationForest` de la bibliothèque scikit-learn, qui est utilisée pour détecter les anomalies dans les données à l'aide de l'algorithme de la forêt isolante.
- `sklearn.cluster import DBSCAN` : Il importe la classe `DBSCAN` de scikit-learn, qui est utilisée pour effectuer le clustering basé sur la densité des données.
- `sklearn import metrics` : Il importe le module `metrics` de scikit-learn, qui fournit des métriques pour évaluer la performance des modèles d'apprentissage automatique.
- `sklearn.preprocessing import StandardScaler` : Il importe la classe `StandardScaler` de scikit-learn, qui est utilisée pour normaliser les données en les mettant à l'échelle.
- `fastdtw` : Il importe la fonction `fastdtw` de la bibliothèque FastDTW, qui est utilisée pour calculer la distance DTW (Dynamic Time Warping) entre deux séries temporelles.
- `scipy.spatial.distance import euclidean` : Il importe la fonction `euclidean` du module `distance` de SciPy, qui est utilisée pour calculer la distance euclidienne entre deux vecteurs.


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import matplotlib.dates as mdates
import scipy.stats as stats
from sklearn.ensemble import IsolationForest
from sklearn.cluster import DBSCAN
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from fastdtw import fastdtw
from scipy.spatial.distance import euclidean

# Exploration

In [2]:
data = pd.read_csv('LCBA_scores.csv')

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38783 entries, 0 to 38782
Data columns (total 37 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   score_id                  38783 non-null  int64  
 1   red_penalty               38783 non-null  int64  
 2   red_point                 38783 non-null  int64  
 3   blue_penalty              38783 non-null  int64  
 4   blue_point                38783 non-null  int64  
 5   date_create               38783 non-null  object 
 6   date_change               38783 non-null  object 
 7   judge_id                  38783 non-null  int64  
 8   match_id                  38783 non-null  int64  
 9   date_create_app           36786 non-null  object 
 10  uuid                      36786 non-null  object 
 11  judge_club_id             38783 non-null  int64  
 12  match_id.1                38783 non-null  int64  
 13  PalmaresDate              38783 non-null  object 
 14  winner

In [4]:
num_distinct_match_ids = data['match_id'].nunique()
print("Nombre de match_id distincts :", num_distinct_match_ids)

Nombre de match_id distincts : 813


#### Description détaillés des colonnes qui seront les plus utilisées

In [5]:
data.red_point.describe()

count    38783.000000
mean         0.456102
std          0.561632
min         -3.000000
25%          0.000000
50%          0.000000
75%          1.000000
max          3.000000
Name: red_point, dtype: float64

In [6]:
data.red_penalty.describe()

count    38783.000000
mean         0.098858
std          0.359887
min         -3.000000
25%          0.000000
50%          0.000000
75%          0.000000
max          3.000000
Name: red_penalty, dtype: float64

In [7]:
data.blue_point.describe()

count    38783.000000
mean         0.457288
std          0.556790
min         -3.000000
25%          0.000000
50%          0.000000
75%          1.000000
max          3.000000
Name: blue_point, dtype: float64

In [8]:
data.blue_penalty.describe()

count    38783.000000
mean         0.106825
std          0.380282
min         -3.000000
25%          0.000000
50%          0.000000
75%          0.000000
max          3.000000
Name: blue_penalty, dtype: float64

In [9]:
data.date_create_app.describe()

count                          36786
unique                         36782
top       2022-06-18 12:36:59.029+00
freq                               2
Name: date_create_app, dtype: object

In [10]:
data.judge_id.describe()

count     38783.000000
mean     113041.017688
std        3890.411609
min      100124.000000
25%      113341.000000
50%      114926.000000
75%      114928.000000
max      115285.000000
Name: judge_id, dtype: float64

In [11]:
data.match_id.describe()

count    38783.000000
mean     21845.530645
std        401.528301
min      21089.000000
25%      21487.000000
50%      21923.000000
75%      22202.000000
max      22515.000000
Name: match_id, dtype: float64

In [12]:
data.winner.describe()

count     38745
unique        4
top        blue
freq      17296
Name: winner, dtype: object

In [13]:
data.judge_club_id.describe()

count    38783.000000
mean       109.258979
std         42.095726
min          4.000000
25%        101.000000
50%        118.000000
75%        138.000000
max        213.000000
Name: judge_club_id, dtype: float64

In [14]:
data.PalmaresBlueClubID.describe()

count    38783.000000
mean        93.819354
std         58.227887
min          4.000000
25%         47.000000
50%        101.000000
75%        154.000000
max        213.000000
Name: PalmaresBlueClubID, dtype: float64

In [15]:
data.PalmaresRedClubID.describe()

count    38783.000000
mean       100.609004
std         58.236669
min          4.000000
25%         67.000000
50%        101.000000
75%        155.000000
max        213.000000
Name: PalmaresRedClubID, dtype: float64

# Preparation

### Conversion date

Ce code convertit les colonnes spécifiées dans la liste `cols_to_convert` en objets de type datetime à l'aide de la fonction `pd.to_datetime` de la bibliothèque Pandas. 

La méthode `apply` est utilisée pour appliquer la fonction `pd.to_datetime` à chaque colonne spécifiée dans `cols_to_convert`. Cela permet de convertir les valeurs de ces colonnes en objets de type datetime. Une fois les colonnes converties, les nouvelles valeurs sont assignées aux colonnes correspondantes dans le DataFrame `data`.

En résumé, ce code convertit les colonnes spécifiées en objets de type datetime, ce qui facilite la manipulation et l'analyse des données temporelles.

In [16]:
cols_to_convert = ['date_create', 'date_change','date_create_app','PalmaresDate','PalmaresRealEndTime','PalmaresRealStartTime','open_time']
data[cols_to_convert] = data[cols_to_convert].apply(pd.to_datetime)

### Suppresion des colonnes nulles

Ce code effectue les opérations suivantes :

1. Il sélectionne les lignes du DataFrame `data` pour lesquelles la colonne 'date_create_app' a une valeur nulle (NaN) et les assigne à la variable `null_rows`. Cela permet de filtrer les lignes qui ont une valeur manquante dans la colonne 'date_create_app'.

2. Il crée une liste `cols_to_display2` qui contient les noms des colonnes que l'on souhaite afficher dans le résultat.

3. Il affiche les colonnes spécifiées (`score_id`, `red_point`, `blue_point`, `judge_id`, `date_create_app`) des lignes où la colonne 'date_create_app' a une valeur nulle. Cela permet d'afficher les informations des lignes avec des valeurs manquantes dans la colonne 'date_create_app'.

4. Ensuite, il utilise la méthode `dropna` du DataFrame pour supprimer les lignes qui ont une valeur manquante dans la colonne 'date_create_app'. Cela modifie le DataFrame `data` en supprimant les lignes avec des valeurs nulles dans la colonne spécifiée.

En résumé, ce code identifie et affiche les lignes du DataFrame `data` qui ont une valeur manquante dans la colonne 'date_create_app', puis supprime ces lignes du DataFrame `data`.

In [17]:
null_rows = data[data['date_create_app'].isnull()]

cols_to_display2 = ['score_id', 'red_point', 'blue_point', 'judge_id', 'date_create_app']
print(null_rows[cols_to_display2])

# Supprimer les lignes
data = data.dropna(subset=['date_create_app'])

       score_id  red_point  blue_point  judge_id date_create_app
0             1          0           0    114816             NaT
1             2          0           0    114822             NaT
2             3          0           0    114824             NaT
3             4          0           0    114826             NaT
4             5          0           0    114813             NaT
...         ...        ...         ...       ...             ...
38639     38813          0           0    114927             NaT
38640     38814          0           0    114926             NaT
38711     38885          0           0    114927             NaT
38712     38886          0           0    114926             NaT
38713     38887          0           0    115226             NaT

[1997 rows x 5 columns]


### Correction des points
Ce code effectue les opérations suivantes :

1. Il met à jour les valeurs de la colonne 'blue_point' à 0 pour les lignes où la colonne 'red_penalty' est différente de 0. Cela signifie que si la valeur de 'red_penalty' est différente de 0, la valeur de 'blue_point' sera mise à 0 pour cette ligne.

2. Il met à jour les valeurs de la colonne 'red_point' à 0 pour les lignes où la colonne 'blue_penalty' est différente de 0. Cela signifie que si la valeur de 'blue_penalty' est différente de 0, la valeur de 'red_point' sera mise à 0 pour cette ligne.

3. Il compte le nombre de lignes modifiées en comptant le nombre de lignes où soit la colonne 'red_penalty' est différente de 0, soit la colonne 'blue_penalty' est différente de 0. Cela compte le nombre de lignes où au moins l'une des colonnes de pénalité a une valeur différente de 0.

4. Enfin, il affiche le nombre de lignes modifiées.

En résumé, ce code met à jour les valeurs des colonnes 'blue_point' et 'red_point' en fonction des valeurs des colonnes de pénalité ('red_penalty' et 'blue_penalty'). Il compte ensuite le nombre de lignes modifiées et l'affiche.

In [18]:
# Mettre à jour les lignes avec des pénalités
data.loc[data['red_penalty'] != 0, 'blue_point'] = 0
data.loc[data['blue_penalty'] != 0, 'red_point'] = 0

# Compter le nombre de lignes modifiées
num_modified_rows = sum((data['red_penalty'] != 0) | (data['blue_penalty'] != 0))

print("Nombre de lignes modifiées :", num_modified_rows)


Nombre de lignes modifiées : 7805


### Correction user
Ce code effectue les opérations suivantes :

1. Il compte le nombre de lignes où la valeur de la colonne 'red_point' est négative en utilisant la condition `data['red_point'] < 0`. La fonction `sum` est utilisée pour compter le nombre de lignes satisfaisant cette condition.

2. Il compte le nombre de lignes où la valeur de la colonne 'blue_point' est négative en utilisant la condition `data['blue_point'] < 0`. La fonction `sum` est utilisée pour compter le nombre de lignes satisfaisant cette condition.

3. Ensuite, il affiche le nombre de lignes avec des valeurs négatives dans la colonne 'red_point' et le nombre de lignes avec des valeurs négatives dans la colonne 'blue_point'.

En résumé, ce code compte le nombre de lignes dans le DataFrame 'data' où les colonnes 'red_point' et 'blue_point' ont des valeurs négatives, puis affiche ces nombres.

In [19]:
# Compter le nombre de lignes négatives dans red_point et blue_point
num_negative_red_points = sum(data['red_point'] < 0)
num_negative_blue_points = sum(data['blue_point'] < 0)

print("Nombre de lignes avec red_point négatif :", num_negative_red_points)
print("Nombre de lignes avec blue_point négatif :", num_negative_blue_points)


Nombre de lignes avec red_point négatif : 352
Nombre de lignes avec blue_point négatif : 415


Ce code permet de supprimer les lignes qui ont une valeur négative dans les colonnes 'red_point' ou 'blue_point' tout en conservant la ligne la plus proche en termes de temps (utilisant la colonne 'date_create_app') pour chaque combinaison de 'judge_id' et 'match_id'.

In [20]:
# Convertir la colonne 'date_create_app' en datetime
data['date_create_app'] = pd.to_datetime(data['date_create_app'])

# Compter le nombre de lignes supprimées
num_deleted_rows = 0

for index, row in data.iterrows():
    if row['red_point'] < 0 or row['blue_point'] < 0:
        judge_id = row['judge_id']
        match_id = row['match_id']
        current_timestamp = row['date_create_app']

        # Rechercher les lignes avec le même judge_id et match_id
        same_judge_id_rows = data[(data['judge_id'] == judge_id) & (data['match_id'] == match_id)]

        if len(same_judge_id_rows) > 1:
            # Calculer la différence de temps avec chaque ligne
            time_diff = abs(same_judge_id_rows['date_create_app'] - current_timestamp)

            # Trouver l'index de la ligne la plus proche (à l'exception de la ligne actuelle)
            closest_index = time_diff[time_diff.index != index].idxmin()

            # Supprimer la ligne la plus proche (si elle existe)
            data = data.drop(closest_index, errors='ignore')
            num_deleted_rows += 1

        # Supprimer la ligne actuelle
        data = data.drop(index, errors='ignore')
        num_deleted_rows += 1

print("Nombre de lignes supprimées :", num_deleted_rows)


Nombre de lignes supprimées : 1534


# Modelling

In [21]:
total_points = data.groupby("match_id")[["red_point", "blue_point"]].sum().reset_index()

print(total_points)

     match_id  red_point  blue_point
0       21089         20          15
1       21092          9          22
2       21093         19          32
3       21095         31          25
4       21096         35          27
..        ...        ...         ...
803     22511          8          23
804     22512          4          10
805     22513         40          23
806     22514         22          26
807     22515         25          25

[808 rows x 3 columns]


## DBSCAN

### Détection des rounds
Ce code effectue les opérations suivantes :

1. Il définit une liste `match_ids` contenant les identifiants uniques des matchs dans la colonne 'match_id' du DataFrame 'data'.

2. Il crée une nouvelle colonne 'round' dans le DataFrame 'data' pour stocker les valeurs du round.

3. Il définit une liste 'outliers' pour stocker les indices des lignes identifiées comme des outliers.

4. Il itère sur chaque match_id dans la liste 'match_ids'.

5. Pour chaque match_id, il sélectionne les lignes correspondant à ce match_id et les trie par ordre chronologique dans la colonne 'date_create_app'.

6. Il convertit la colonne 'date_create_app' en valeurs numériques (timestamps) pour être utilisée dans le clustering.

7. Il effectue le clustering DBSCAN sur les valeurs normalisées des timestamps.

8. Il crée une colonne 'round' dans le sous-dataframe 'match_data' pour stocker les numéros de round attribués par le clustering.

9. Il met à jour la colonne 'round' dans le DataFrame 'data' en utilisant la méthode `.loc`.

10. Il stocke les indices des outliers détectés dans le sous-dataframe 'match_outliers' dans la liste 'outliers'.

11. Après avoir itéré sur tous les match_ids, il ajoute une colonne 'outlier' dans le DataFrame 'data' et attribue la valeur True aux lignes identifiées comme outliers.

12. Enfin, il affiche les colonnes 'score_id', 'match_id', 'date_create_app', 'round' et 'outlier' du DataFrame 'data'.

En résumé, ce code effectue le clustering des matchs en utilisant la colonne 'date_create_app' comme caractéristique temporelle, attribue un numéro de round à chaque match basé sur le clustering et identifie les outliers dans les données.


In [22]:
# Définir la liste des match_ids
match_ids = data['match_id'].unique()

# Créer une nouvelle colonne pour stocker les valeurs de round
data['round'] = None

# Définir la liste des outliers
outliers = []

# Parcourir tous les match_ids
for match_id in match_ids:
    # Sélectionner les lignes correspondant au match_id actuel
    match_data = data[data['match_id'] == match_id].copy()  # Fait une copie du sous-dataframe

    # Trier les valeurs par ordre chronologique dans la colonne "date_create_app"
    match_data.sort_values(by='date_create_app', inplace=True)

    # Conversion de la colonne "date_create_app" en valeurs numériques
    match_data['timestamp'] = match_data['date_create_app'].apply(lambda x: pd.to_datetime(x).timestamp())

    # Sélection des colonnes à utiliser pour le clustering
    features = match_data[['timestamp']]

    # Normalisation des caractéristiques
    scaler = StandardScaler()
    normalized_features = scaler.fit_transform(features)

    # Application de DBSCAN
    dbscan = DBSCAN(eps=0.5, min_samples=5)
    labels = dbscan.fit_predict(normalized_features)

    # Création de la colonne "round" pour stocker le numéro du round
    match_data['round'] = labels + 1

    # Mise à jour de la colonne "round" dans data en utilisant .loc
    data.loc[data['match_id'] == match_id, 'round'] = match_data['round'].values

    # Stocker les indices des outliers dans le tableau outliers
    match_outliers = match_data[labels == -1]
    outliers.extend(match_outliers.index.tolist())

# Ajouter une colonne "outlier" avec la valeur "True" pour les lignes détectées comme outliers dans data
data.loc[outliers, 'outlier'] = True

# Affichage du résultat
print(data[['score_id', 'match_id', 'date_create_app', 'round', 'outlier']])


       score_id  match_id                  date_create_app round outlier
5             6     21089 2021-06-26 11:14:51.610000+00:00     1     NaN
6             7     21089 2021-06-26 11:14:48.802000+00:00     1     NaN
7             8     21089 2021-06-26 11:14:53.035000+00:00     1     NaN
8             9     21089 2021-06-26 11:14:53.541000+00:00     1     NaN
9            10     21093 2021-06-26 11:14:52.862000+00:00     1     NaN
...         ...       ...                              ...   ...     ...
38778     38952     22514 2023-04-15 14:18:52.200000+00:00     3     NaN
38779     38953     22514 2023-04-15 14:18:51.485000+00:00     3     NaN
38780     38954     22514 2023-04-15 14:18:56.330000+00:00     3     NaN
38781     38955     22514 2023-04-15 14:18:56.889000+00:00     3     NaN
38782     38956     22514 2023-04-15 14:19:01.423000+00:00     3     NaN

[35321 rows x 5 columns]


### Détection des phases

Ce code effectue les opérations suivantes :

1. Il crée une nouvelle colonne 'phase' dans le DataFrame 'data' pour stocker les clusters de phases.

2. Il itère sur chaque match_id dans la liste 'match_ids'.

3. Pour chaque match_id, il sélectionne les lignes correspondant à ce match_id et les copie dans le sous-dataframe 'match_data'.

4. Il obtient les rounds distincts pour le match_id actuel.

5. Il itère sur chaque round dans la liste des rounds.

6. Pour chaque round, il sélectionne les lignes correspondant à ce round dans le sous-dataframe 'match_data' et les copie dans le sous-dataframe 'round_data'.

7. Il trie les valeurs par ordre chronologique dans la colonne 'date_create_app' du sous-dataframe 'round_data'.

8. Il convertit la colonne 'date_create_app' en valeurs numériques (timestamps) pour être utilisée dans le clustering.

9. Il effectue le clustering DBSCAN sur les valeurs normalisées des timestamps sans la détection d'outliers (min_samples=1).

10. Il ajuste les étiquettes de cluster pour commencer à 1 au lieu de 0.

11. Il crée une colonne 'cluster' dans le sous-dataframe 'round_data' pour stocker les clusters détectés.

12. Il met à jour la colonne 'phase' dans le DataFrame 'data' en utilisant la méthode `.loc`.

13. Après avoir itéré sur tous les rounds d'un match_id, il passe au match_id suivant.

14. Enfin, il affiche les colonnes 'score_id', 'match_id', 'date_create_app', 'round' et 'phase' du DataFrame 'data'.

En résumé, ce code effectue le clustering des phases dans chaque round d'un match en utilisant la colonne 'date_create_app' comme caractéristique temporelle. Chaque phase est attribuée à un cluster distinct, et ces informations sont stockées dans la colonne 'phase' du DataFrame 'data'.


In [23]:
# Détection des phases dans les rounds
data['phase'] = None

# Parcourir tous les match_ids
for match_id in match_ids:
    # Sélectionner les lignes correspondant au match_id actuel
    match_data = data[data['match_id'] == match_id].copy()

    # Obtenir les rounds distincts pour le match_id actuel
    rounds = match_data['round'].unique()

    # Parcourir tous les rounds
    for round_val in rounds:
        # Trier les valeurs par ordre chronologique dans la colonne "date_create_app"
        round_data = match_data[match_data['round'] == round_val].copy()
        round_data.sort_values(by='date_create_app', inplace=True)

        # Conversion de la colonne "date_create_app" en valeurs numériques
        round_data['timestamp'] = round_data['date_create_app'].apply(lambda x: pd.to_datetime(x).timestamp())

        # Sélection des colonnes à utiliser pour le clustering
        features = round_data[['timestamp']]

        # Normalisation des caractéristiques
        scaler = StandardScaler()
        normalized_features = scaler.fit_transform(features)

        # Application de DBSCAN sans détection d'outliers
        dbscan = DBSCAN(eps=0.5, min_samples=1)  # min_samples > 0 pour désactiver la détection d'outliers
        labels = dbscan.fit_predict(normalized_features)

        # Ajuster les étiquettes de cluster pour commencer à 1 au lieu de 0
        labels += 1

        # Création de la colonne "phase" pour stocker les clusters détectés
        round_data['cluster'] = labels

        # Mise à jour de la colonne "phase" dans le dataframe d'origine en utilisant .loc
        data.loc[(data['match_id'] == match_id) & (data['round'] == round_val), 'phase'] = round_data['cluster'].values

# Affichage du résultat
print(data[['score_id', 'match_id', 'date_create_app', 'round', 'phase']])


       score_id  match_id                  date_create_app round phase
5             6     21089 2021-06-26 11:14:51.610000+00:00     1     1
6             7     21089 2021-06-26 11:14:48.802000+00:00     1     1
7             8     21089 2021-06-26 11:14:53.035000+00:00     1     1
8             9     21089 2021-06-26 11:14:53.541000+00:00     1     1
9            10     21093 2021-06-26 11:14:52.862000+00:00     1     1
...         ...       ...                              ...   ...   ...
38778     38952     22514 2023-04-15 14:18:52.200000+00:00     3     2
38779     38953     22514 2023-04-15 14:18:51.485000+00:00     3     2
38780     38954     22514 2023-04-15 14:18:56.330000+00:00     3     2
38781     38955     22514 2023-04-15 14:18:56.889000+00:00     3     2
38782     38956     22514 2023-04-15 14:19:01.423000+00:00     3     2

[35321 rows x 5 columns]


## DTW

### Détéction des échanges

Ce code effectue le filtrage des données en utilisant plusieurs conditions :

1. Il crée un nouveau DataFrame appelé 'dataset' en filtrant les lignes du DataFrame 'data' qui satisfont les conditions suivantes :
   - Les colonnes 'blue_point' et 'red_point' doivent être supérieures ou égales à zéro.
   - Les colonnes 'red_penalty' et 'blue_penalty' doivent être égales à zéro.

2. Il crée un nouveau DataFrame appelé 'filtered_data' en filtrant les lignes du DataFrame 'data' qui satisfont au moins une des conditions suivantes :
   - La colonne 'blue_point' est inférieure à zéro.
   - La colonne 'red_point' est inférieure à zéro.
   - La colonne 'red_penalty' est supérieure à zéro.
   - La colonne 'blue_penalty' est supérieure à zéro.

3. Il affiche le résultat du DataFrame 'dataset' qui contient les lignes sans points négatifs dans 'blue_point' et 'red_point', ainsi que sans 'red_penalty' ou 'blue_penalty'.

4. Il affiche le résultat du DataFrame 'filtered_data' qui contient les lignes avec des points négatifs dans 'blue_point' et 'red_point', ou avec 'red_penalty' ou 'blue_penalty'.

En résumé, ce code sépare les données en deux ensembles : un ensemble contenant les lignes sans points négatifs ni pénalités, et un autre ensemble contenant les lignes avec des points négatifs ou des pénalités.


In [24]:
# Filtrage des lignes sans points négatifs dans blue_point et red_point, et sans red_penalty ou blue_penalty
dataset = data[(data['blue_point'] >= 0) & (data['red_point'] >= 0) & (data['red_penalty'] == 0) & (data['blue_penalty'] == 0)]

# Filtrage des lignes avec des points négatifs dans blue_point et red_point, ou avec red_penalty ou blue_penalty
filtered_data = data[(data['blue_point'] < 0) | (data['red_point'] < 0) | (data['red_penalty'] > 0) | (data['blue_penalty'] > 0)]

# Affichage du résultat
print("Dataset sans points négatifs et pénalités:")
print(dataset)

# Affichage du résultat
print("----------------------------------------------------------")
print("Dataset filtré:")
print(filtered_data)


Dataset sans points négatifs et pénalités:
       score_id  red_penalty  red_point  blue_penalty  blue_point  \
5             6            0          0             0           1   
6             7            0          0             0           1   
7             8            0          1             0           0   
8             9            0          0             0           1   
9            10            0          0             0           1   
...         ...          ...        ...           ...         ...   
38778     38952            0          1             0           0   
38779     38953            0          1             0           0   
38780     38954            0          1             0           0   
38781     38955            0          1             0           0   
38782     38956            0          1             0           0   

                           date_create                      date_change  \
5     2021-06-26 11:14:50.485437+00:00 2021-06-26 11:

Ce code effectue les opérations suivantes :

1. Il définit une fonction appelée `dtw_distance` qui calcule la distance DTW (Dynamic Time Warping) entre deux séquences de dates. La fonction utilise la bibliothèque `fastdtw` et la distance euclidienne comme mesure de distance.

2. Il initialise une liste appelée `final_data` pour stocker les données finales.

3. Il itère sur chaque `match_id` unique dans le DataFrame `dataset`.

4. Pour chaque `match_id`, il sélectionne les données correspondantes dans le DataFrame `dataset`.

5. Il obtient les rounds distincts pour le `match_id` spécifique.

6. Pour chaque round, il sélectionne les données du round actuel.

7. Il obtient les phases distinctes pour le round actuel.

8. Pour chaque phase, il sélectionne les données de la phase actuelle.

9. Les données de la phase sont triées par la colonne 'date_create_app' et la colonne 'date_create_app' est convertie en valeurs de temps en millisecondes.

10. Il calcule la distance DTW pour chaque paire de lignes consécutives dans la phase en utilisant la fonction `dtw_distance`. La distance est stockée dans la colonne 'dtw_distance' du DataFrame.

11. Il calcule l'écart-type de la distance DTW pour la phase actuelle.

12. Il effectue la détection des échanges dans la phase en vérifiant certaines conditions. Les informations sur les échanges sont stockées dans la colonne 'echange' du DataFrame.

13. Il ajoute les colonnes 'error' et 'judge_id_miss' au DataFrame pour détecter les erreurs et les identifiants de juge manquants dans les échanges.

14. Les colonnes 'date_create_app' et 'timestamp_ms' sont converties au format heures, minutes, secondes et millisecondes.

15. Les données de la phase sont ajoutées à la liste `final_data`.

16. Une fois toutes les phases traitées pour un `match_id`, le code continue avec le prochain `match_id` dans la boucle.

17. Une fois toutes les données traitées, les données de toutes les phases sont concaténées dans le DataFrame `final_data`.

18. Les données du DataFrame `filtered_data` (résultant du filtrage précédent) sont fusionnées avec `final_data` pour former `merged_data`.

19. Les données fusionnées sont exportées dans un fichier CSV appelé "resultat.csv".

20. Le code affiche "Fichier exporté." pour indiquer que l'exportation a réussi.

En résumé, ce code effectue une série de traitements et de calculs sur les données pour détecter les échanges, les erreurs et les identifiants de juge manquants dans les phases des matchs. Les résultats sont ensuite exportés dans un fichier CSV.

In [25]:
# Fonction pour calculer la distance DTW entre deux séquences de dates
def dtw_distance(sequence1, sequence2):
    sequence1 = np.array(sequence1).reshape(-1, 1)
    sequence2 = np.array(sequence2).reshape(-1, 1)
    distance, _ = fastdtw(sequence1, sequence2, dist=euclidean)
    return distance

# Liste pour stocker les données finales
final_data = []

# Parcours de chaque match_id dans le dataset
for match_id in dataset['match_id'].unique():
    # Sélection des données correspondant au match_id spécifique
    match_data = dataset[dataset['match_id'] == match_id].copy()

    # Obtention des rounds distincts pour le match_id spécifique
    rounds = match_data['round'].unique()

    # Parcours de chaque round
    for round_val in rounds:
        # Sélection des données du round actuel
        round_data = match_data[match_data['round'] == round_val].copy()

        # Obtention des phases distinctes pour le round actuel
        phases = round_data['phase'].unique()

        # Parcours de chaque phase
        for phase_val in phases:
            # Sélection des données de la phase actuelle
            phase_data = round_data[round_data['phase'] == phase_val].copy()

            # Tri des données par 'date_create_app'
            phase_data.sort_values(by='date_create_app', inplace=True)

            # Conversion de la colonne 'date_create_app' en valeurs de temps en millisecondes
            phase_data['timestamp_ms'] = phase_data['date_create_app'].view('int64') // 10**6

            # Calcul de la distance DTW pour chaque paire de lignes consécutives
            phase_data['dtw_distance'] = 100  # Initialisation de la colonne "dtw_distance"

            for i in range(1, len(phase_data)):
                previous_row = phase_data.iloc[i-1]
                current_row = phase_data.iloc[i]
                previous_sequence = [previous_row['timestamp_ms']]
                current_sequence = [current_row['timestamp_ms']]

                # Calcul de la distance DTW entre les deux séquences
                distance = dtw_distance(previous_sequence, current_sequence)

                # Mise à jour de la colonne "dtw_distance" avec la distance calculée
                phase_data.at[current_row.name, 'dtw_distance'] = distance

            # Calcul de l'écart-type de la distance DTW pour la phase actuelle
            phase_std = phase_data['dtw_distance'].std()

            # Détection des échanges
            phase_data['echange'] = 1  # Initialisation de la colonne "echange"
            echange_number = 1
            line_count = 1
            unique_judge_ids = set()

            for i in range(len(phase_data)):
                current_row = phase_data.iloc[i]
                current_distance = current_row['dtw_distance']
                current_judge_id = current_row['judge_id']
                blue_point = current_row['blue_point']
                red_point = current_row['red_point']

                # Vérifier les conditions pour un nouvel échange
                if (current_distance > phase_std or line_count == 3 or
                        (line_count > 0 and (blue_point < 0 or red_point < 0)) or
                        current_judge_id in unique_judge_ids):  # Nouvel échange si le judge_id est déjà présent
                    echange_number += 1
                    line_count = 1
                    unique_judge_ids = set([current_judge_id])
                else:
                    line_count += 1
                    unique_judge_ids.add(current_judge_id)

                phase_data.at[current_row.name, 'echange'] = echange_number

            # Ajout des colonnes "error" et "judge_id_miss"
            phase_data['error'] = False  # Initialisation de la colonne "error"
            phase_data['judge_id_miss'] = ''  # Initialisation de la colonne "judge_id_miss"

            # Parcours des échanges pour détecter les erreurs et les judge_id manquants
            exchanges = phase_data['echange'].unique()

            for exchange in exchanges:
                exchange_data = phase_data[phase_data['echange'] == exchange].copy()

                if len(exchange_data['judge_id'].unique()) == 3:
                    # Erreur détectée si trois judge_id différents dans l'échange
                    unique_blue_points = exchange_data['blue_point'].unique()
                    unique_red_points = exchange_data['red_point'].unique()

                    if len(unique_blue_points) > 1 or len(unique_red_points) > 1:
                        phase_data.loc[exchange_data.index, 'error'] = False
                        if len(unique_blue_points) > 1:
                            phase_data.loc[exchange_data[exchange_data['blue_point'] != unique_blue_points[0]].index, 'error'] = True
                        if len(unique_red_points) > 1:
                            phase_data.loc[exchange_data[exchange_data['red_point'] != unique_red_points[0]].index, 'error'] = True

                if len(exchange_data['judge_id'].unique()) == 2:
                    # Détecter le judge_id manquant si deux judge_id dans l'échange
                    missing_judge_id = set(phase_data['judge_id'].unique()) - set(exchange_data['judge_id'].unique())
                    if missing_judge_id:
                        phase_data.loc[exchange_data.index, 'judge_id_miss'] = missing_judge_id.pop()

            # Conversion de la colonne 'date_create_app' au format heures, minutes, secondes et millisecondes
            phase_data['date_create_app'] = pd.to_datetime(phase_data['date_create_app'])
            phase_data['timestamp_ms'] = phase_data['date_create_app'].dt.strftime('%H:%M:%S.%f')

            # Ajout des données de la phase au tableau final
            final_data.append(phase_data)

# Concaténation des données de toutes les phases
final_data = pd.concat(final_data)

# Fusion du dataset avec filtered_data
merged_data = pd.concat([final_data, filtered_data])

# Exportation des données fusionnées dans un fichier CSV
print("Fichier exporté.")
merged_data.to_csv('resultat.csv', index=False)


Fichier exporté.


Ce code effectue les opérations suivantes :

1. Il charge deux fichiers CSV : "resultat.csv" dans le DataFrame `df_resultat` et "LCBA_scores.csv" dans le DataFrame `df_lcba_scores`.

2. Il vérifie les "score_id" manquants dans le DataFrame `df_resultat` par rapport à ceux présents dans le DataFrame `df_lcba_scores`.

3. Il crée un ensemble (`lcba_scores_ids`) contenant tous les "score_id" du DataFrame `df_lcba_scores` et un autre ensemble (`resultat_ids`) contenant tous les "score_id" du DataFrame `df_resultat`.

4. Il détermine les "score_id" manquants en effectuant la différence entre `lcba_scores_ids` et `resultat_ids`. Si des "score_id" manquants sont détectés (la longueur de `missing_ids` est supérieure à 0), le code continue avec les étapes suivantes. Sinon, il affiche "Tous les score_id de LCBA_scores se trouvent déjà dans resultat." et se termine.

5. Il filtre les lignes du DataFrame `df_lcba_scores` qui contiennent les "score_id" manquants, créant ainsi un nouveau DataFrame appelé `missing_rows`.

6. Il concatène les lignes manquantes (`missing_rows`) avec le DataFrame `df_resultat`, en ignorant les index existants (`ignore_index=True`), pour former un nouveau DataFrame appelé `df_resultat`.

7. Il exporte le DataFrame `df_resultat` avec les lignes manquantes dans un nouveau fichier CSV appelé "resultat_final.csv" en utilisant `to_csv`.

8. Il affiche "Les lignes des score_id manquants ont été ajoutées dans resultat_final.csv." pour indiquer que les lignes manquantes ont été ajoutées avec succès.

En résumé, ce code compare les "score_id" entre deux fichiers CSV et ajoute les lignes correspondantes manquantes dans le DataFrame `df_resultat`. Le DataFrame mis à jour est ensuite exporté dans un nouveau fichier CSV appelé "resultat_final.csv".

In [26]:
# Charger les deux fichiers CSV
df_resultat = pd.read_csv('resultat.csv')
df_lcba_scores = pd.read_csv('LCBA_scores.csv')

# Vérifier les "score_id" manquants dans resultat
lcba_scores_ids = set(df_lcba_scores['score_id'])
resultat_ids = set(df_resultat['score_id'])

missing_ids = lcba_scores_ids - resultat_ids

if len(missing_ids) > 0:
    # Filtrer les lignes du DataFrame LCBA_scores contenant les "score_id" manquants
    missing_rows = df_lcba_scores[df_lcba_scores['score_id'].isin(missing_ids)]

    # Concaténer les lignes manquantes avec le DataFrame resultat
    df_resultat = pd.concat([df_resultat, missing_rows], ignore_index=True)

    # Exporter le DataFrame résultat avec les lignes manquantes dans un nouveau fichier CSV
    df_resultat.to_csv('resultat_final.csv', index=False)
    print("Les lignes des score_id manquants ont été ajoutées dans resultat_final.csv.")
else:
    print("Tous les score_id de LCBA_scores se trouvent déjà dans resultat.")


  df_resultat = pd.read_csv('resultat.csv')


Les lignes des score_id manquants ont été ajoutées dans resultat_final.csv.
