# Light-contact boxing 

# Import

Le code effectue l'importation de différentes bibliothèques et modules Python nécessaires à l'analyse de données et à la visualisation. Voici une description synthétique de chaque import :

- `pandas as pd` : Importe la bibliothèque Pandas pour la manipulation et l'analyse de données tabulaires.
- `numpy as np` : Importe la bibliothèque NumPy pour les calculs numériques efficaces.
- `matplotlib.pyplot as plt` : Importe la bibliothèque Matplotlib pour la création de visualisations graphiques, en utilisant le module `pyplot`.
- `plotly.graph_objects as go` : Importe la bibliothèque Plotly pour les visualisations interactives et dynamiques, en utilisant le module `graph_objects`.
- `matplotlib.dates as mdates` : Importe le module `dates` de Matplotlib pour travailler avec des données de type date et heure dans les tracés.
- `scipy.stats as stats` : Importe le module `stats` de SciPy pour les fonctions statistiques et les distributions de probabilité.
- `sklearn.ensemble import IsolationForest` : Importe la classe `IsolationForest` de scikit-learn pour détecter les anomalies à l'aide de l'algorithme de la forêt isolante.
- `sklearn.cluster import DBSCAN` : Importe la classe `DBSCAN` de scikit-learn pour effectuer le clustering basé sur la densité des données.
- `sklearn import metrics` : Importe le module `metrics` de scikit-learn pour les métriques d'évaluation des modèles d'apprentissage automatique.
- `sklearn.preprocessing import StandardScaler` : Importe la classe `StandardScaler` de scikit-learn pour la normalisation des données.
- `fastdtw` : Importe la fonction `fastdtw` de la bibliothèque FastDTW pour calculer la distance DTW entre deux séries temporelles.
- `scipy.spatial.distance import euclidean` : Importe la fonction `euclidean` du module `distance` de SciPy pour calculer la distance euclidienne entre deux vecteurs.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import matplotlib.dates as mdates
import scipy.stats as stats
from sklearn.ensemble import IsolationForest
from sklearn.cluster import DBSCAN
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from fastdtw import fastdtw
from scipy.spatial.distance import euclidean

# Exploration

In [2]:
data = pd.read_csv('LCBA_scores.csv')

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38783 entries, 0 to 38782
Data columns (total 37 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   score_id                  38783 non-null  int64  
 1   red_penalty               38783 non-null  int64  
 2   red_point                 38783 non-null  int64  
 3   blue_penalty              38783 non-null  int64  
 4   blue_point                38783 non-null  int64  
 5   date_create               38783 non-null  object 
 6   date_change               38783 non-null  object 
 7   judge_id                  38783 non-null  int64  
 8   match_id                  38783 non-null  int64  
 9   date_create_app           36786 non-null  object 
 10  uuid                      36786 non-null  object 
 11  judge_club_id             38783 non-null  int64  
 12  match_id.1                38783 non-null  int64  
 13  PalmaresDate              38783 non-null  object 
 14  winner

In [4]:
num_distinct_match_ids = data['match_id'].nunique()
print("Nombre de match_id distincts :", num_distinct_match_ids)

Nombre de match_id distincts : 813


#### Description détaillés des colonnes qui seront les plus utilisées

In [5]:
data.red_point.describe()

count    38783.000000
mean         0.456102
std          0.561632
min         -3.000000
25%          0.000000
50%          0.000000
75%          1.000000
max          3.000000
Name: red_point, dtype: float64

In [6]:
data.red_penalty.describe()

count    38783.000000
mean         0.098858
std          0.359887
min         -3.000000
25%          0.000000
50%          0.000000
75%          0.000000
max          3.000000
Name: red_penalty, dtype: float64

In [7]:
data.blue_point.describe()

count    38783.000000
mean         0.457288
std          0.556790
min         -3.000000
25%          0.000000
50%          0.000000
75%          1.000000
max          3.000000
Name: blue_point, dtype: float64

In [8]:
data.blue_penalty.describe()

count    38783.000000
mean         0.106825
std          0.380282
min         -3.000000
25%          0.000000
50%          0.000000
75%          0.000000
max          3.000000
Name: blue_penalty, dtype: float64

In [9]:
data.date_create_app.describe()

count                          36786
unique                         36782
top       2022-06-18 12:36:59.029+00
freq                               2
Name: date_create_app, dtype: object

In [10]:
data.judge_id.describe()

count     38783.000000
mean     113041.017688
std        3890.411609
min      100124.000000
25%      113341.000000
50%      114926.000000
75%      114928.000000
max      115285.000000
Name: judge_id, dtype: float64

In [11]:
data.match_id.describe()

count    38783.000000
mean     21845.530645
std        401.528301
min      21089.000000
25%      21487.000000
50%      21923.000000
75%      22202.000000
max      22515.000000
Name: match_id, dtype: float64

In [12]:
data.winner.describe()

count     38745
unique        4
top        blue
freq      17296
Name: winner, dtype: object

In [13]:
data.judge_club_id.describe()

count    38783.000000
mean       109.258979
std         42.095726
min          4.000000
25%        101.000000
50%        118.000000
75%        138.000000
max        213.000000
Name: judge_club_id, dtype: float64

In [14]:
data.PalmaresBlueClubID.describe()

count    38783.000000
mean        93.819354
std         58.227887
min          4.000000
25%         47.000000
50%        101.000000
75%        154.000000
max        213.000000
Name: PalmaresBlueClubID, dtype: float64

In [15]:
data.PalmaresRedClubID.describe()

count    38783.000000
mean       100.609004
std         58.236669
min          4.000000
25%         67.000000
50%        101.000000
75%        155.000000
max        213.000000
Name: PalmaresRedClubID, dtype: float64

In [16]:
count_lost_matches = data[data['winner'] == 'lost']['match_id'].nunique()

count_draw_matches = data[data['winner'] == 'draw']['match_id'].nunique()

count_red_matches = data[data['winner'] == 'red']['match_id'].nunique()

count_blue_matches = data[data['winner'] == 'blue']['match_id'].nunique()


print("Nombre de match_ids avec 'lost' :", count_lost_matches)
print("Nombre de match_ids avec 'draw' :", count_draw_matches)
print("Nombre de match_ids avec 'red' :", count_red_matches)
print("Nombre de match_ids avec 'blue' :", count_blue_matches)

Nombre de match_ids avec 'lost' : 1
Nombre de match_ids avec 'draw' : 101
Nombre de match_ids avec 'red' : 350
Nombre de match_ids avec 'blue' : 360


In [17]:
# Définir la liste des match_ids
match_ids = data['match_id'].unique()

# Compteurs pour les match_ids
count_match_ids_with_3_judge_ids = 0
count_match_ids_with_2_judge_ids = 0
count_match_ids_with_1_judge_id = 0

# Parcourir tous les match_ids
for match_id in match_ids:
    # Sélectionner les lignes correspondant au match_id actuel
    match_data = data[data['match_id'] == match_id].copy()

    # Obtenir les judge_ids distincts pour le match_id actuel
    unique_judge_ids = match_data['judge_id'].unique()

    # Vérifier le nombre d'identifiants de juge distincts
    if len(unique_judge_ids) == 3:
        count_match_ids_with_3_judge_ids += 1
    elif len(unique_judge_ids) == 2:
        count_match_ids_with_2_judge_ids += 1
    elif len(unique_judge_ids) == 1:
        count_match_ids_with_1_judge_id += 1

# Afficher les résultats
print("Nombre de match_ids avec 3 judge_ids :", count_match_ids_with_3_judge_ids)
print("Nombre de match_ids avec 2 judge_ids :", count_match_ids_with_2_judge_ids)
print("Nombre de match_ids avec 1 judge_id :", count_match_ids_with_1_judge_id)


Nombre de match_ids avec 3 judge_ids : 523
Nombre de match_ids avec 2 judge_ids : 254
Nombre de match_ids avec 1 judge_id : 36


# Preparation

### Conversion date

Ce code convertit les colonnes spécifiées dans la liste `cols_to_convert` en objets de type datetime en utilisant la fonction `pd.to_datetime` de la bibliothèque Pandas. Les nouvelles valeurs converties sont ensuite assignées aux colonnes correspondantes dans le DataFrame `data`.

In [18]:
cols_to_convert = ['date_create', 'date_change','date_create_app','PalmaresDate','PalmaresRealEndTime','PalmaresRealStartTime','open_time']
data[cols_to_convert] = data[cols_to_convert].apply(pd.to_datetime)

### Suppresion des colonnes nulles

Ce code identifie et affiche les lignes du DataFrame `data` qui ont une valeur manquante dans la colonne 'date_create_app', puis supprime ces lignes du DataFrame `data`.

In [19]:
null_rows = data[data['date_create_app'].isnull()]

cols_to_display = ['score_id', 'red_point', 'blue_point', 'judge_id', 'date_create_app']
print(null_rows[cols_to_display])

data = data.dropna(subset=['date_create_app'])

num_rows_deleted = len(null_rows)
print("Nombre de lignes supprimées :", num_rows_deleted)


       score_id  red_point  blue_point  judge_id date_create_app
0             1          0           0    114816             NaT
1             2          0           0    114822             NaT
2             3          0           0    114824             NaT
3             4          0           0    114826             NaT
4             5          0           0    114813             NaT
...         ...        ...         ...       ...             ...
38639     38813          0           0    114927             NaT
38640     38814          0           0    114926             NaT
38711     38885          0           0    114927             NaT
38712     38886          0           0    114926             NaT
38713     38887          0           0    115226             NaT

[1997 rows x 5 columns]
Nombre de lignes supprimées : 1997


### Correction user
Ce code compte le nombre de lignes dans le DataFrame 'data' où les colonnes 'red_point' et 'blue_point' ont des valeurs négatives, puis affiche ces nombres. Ceci permet d'avoir une idée du nombre de lignes correspondant à une correction.

In [20]:
num_negative_red_points = sum((data['red_point'] < 0) & (data['blue_penalty'] == 0))
num_negative_blue_points = sum((data['blue_point'] < 0) & (data['red_penalty'] == 0))

print("Nombre de lignes avec red_point corrigés :", num_negative_red_points)
print("Nombre de lignes avec blue_point corrigés :", num_negative_blue_points)


Nombre de lignes avec red_point corrigés : 352
Nombre de lignes avec blue_point corrigés : 415


Ce code permet de supprimer les lignes qui ont une valeur négative dans les colonnes 'red_point' ou 'blue_point' tout en conservant la ligne la plus proche en termes de temps (utilisant la colonne 'date_create_app') pour chaque combinaison de 'judge_id' et 'match_id'.

In [21]:
# Convertir la colonne 'date_create_app' en datetime
data['date_create_app'] = pd.to_datetime(data['date_create_app'])

num_deleted_rows = 0

for index, row in data.iterrows():
    red_point = row['red_point'] 
    blue_point = row['blue_point']
    red_penalty = row['red_penalty']
    blue_penalty = row['blue_penalty']
    judge_id = row['judge_id']
    match_id = row['match_id']
    current_timestamp = row['date_create_app']

    # Vérifier si une seule colonne contient une valeur négative
    if ((red_point < 0) ^ (blue_point < 0)) and (red_penalty == 0) and (blue_penalty == 0):
        
        # Rechercher les lignes avec le même judge_id et match_id
        same_judge_id_rows = data[(data['judge_id'] == judge_id) & (data['match_id'] == match_id)]
        
        if len(same_judge_id_rows) > 1:
            # Calculer la distance
            time_diff = abs(same_judge_id_rows['date_create_app'] - current_timestamp)

            # Trouver l'index de la ligne la plus proche
            closest_index = time_diff[time_diff.index != index].idxmin()

            # Supprimer la ligne la plus proche (si elle existe)
            data = data.drop(closest_index, errors='ignore')
            num_deleted_rows += 1

        # Supprimer la ligne actuelle
        data = data.drop(index, errors='ignore')
        num_deleted_rows += 1

print("Nombre de lignes supprimées :", num_deleted_rows)


Nombre de lignes supprimées : 1534


# Modelling

In [22]:
total_points = data.groupby("match_id")[["red_point", "blue_point"]].sum().reset_index()

print(total_points)

     match_id  red_point  blue_point
0       21089         29          27
1       21092         12          25
2       21093         21          32
3       21095         31          37
4       21096         35          33
..        ...        ...         ...
803     22511         11          26
804     22512         10          10
805     22513         40          26
806     22514         34          35
807     22515         25          25

[808 rows x 3 columns]


## DBSCAN

### Détection des rounds

Ce code détecte les rounds dans les données de matchs en effectuant le clustering des dates de création à l'aide de l'algorithme DBSCAN. Il attribue ensuite un numéro de round à chaque match en fonction du résultat du clustering. Les outliers sont également identifiés et stockés.


In [23]:
# Filtrer le dataset pour ne conserver que les lignes avec 3 judge_id par match_id
data = data.groupby('match_id').filter(lambda x: x['judge_id'].nunique() == 3)

# Définir la liste des match_ids
match_ids = data['match_id'].unique()

# Créer une nouvelle colonne pour stocker les valeurs de round
data['round'] = None

# Définir la liste des outliers
outliers = []

# Parcourir tous les match_ids
for match_id in match_ids:
    
    # Sélectionner les lignes correspondant au match_id actuel
    match_data = data[data['match_id'] == match_id].copy()

    # Trier les valeurs par ordre chronologique dans la colonne "date_create_app"
    match_data.sort_values(by='date_create_app', inplace=True)

    # Conversion de la colonne "date_create_app" en valeurs numériques
    match_data['timestamp'] = match_data['date_create_app'].apply(lambda x: pd.to_datetime(x).timestamp())

    # Sélection des colonnes à utiliser pour le clustering
    features = match_data[['timestamp']]

    # Normalisation des caractéristiques
    scaler = StandardScaler()
    normalized_features = scaler.fit_transform(features)

    # Application de DBSCAN
    dbscan = DBSCAN(eps=0.4, min_samples=5)
    labels = dbscan.fit_predict(normalized_features)

    # Mise à jour de la colonne 
    match_data['round'] = labels + 1
    data.loc[data['match_id'] == match_id, 'round'] = match_data['round'].values

    # Stocker les indices des outliers dans le tableau outliers
    match_outliers = match_data[labels == -1]
    outliers.extend(match_outliers.index.tolist())

# Ajouter une colonne "outlier" avec la valeur "True" pour les lignes détectées comme outliers et les autres à "False"
data['outlier'] = False
data.loc[outliers, 'outlier'] = True

print(data[['score_id', 'match_id', 'date_create_app', 'outlier','round']])

       score_id  match_id                  date_create_app  outlier round
5             6     21089 2021-06-26 11:14:51.610000+00:00    False     1
6             7     21089 2021-06-26 11:14:48.802000+00:00    False     1
7             8     21089 2021-06-26 11:14:53.035000+00:00    False     1
8             9     21089 2021-06-26 11:14:53.541000+00:00    False     1
10           11     21089 2021-06-26 11:14:58.645000+00:00    False     1
...         ...       ...                              ...      ...   ...
38778     38952     22514 2023-04-15 14:18:52.200000+00:00    False     3
38779     38953     22514 2023-04-15 14:18:51.485000+00:00    False     3
38780     38954     22514 2023-04-15 14:18:56.330000+00:00    False     3
38781     38955     22514 2023-04-15 14:18:56.889000+00:00    False     3
38782     38956     22514 2023-04-15 14:19:01.423000+00:00    False     3

[26542 rows x 5 columns]


In [24]:
match_ids = data['match_id'].unique()

count_match_ids_without_3_rounds = 0
count_match_ids_with_3_rounds = 0

for match_id in match_ids:
    match_data = data[data['match_id'] == match_id].copy()

    unique_rounds = match_data['round'].unique()

    if len(unique_rounds) != 3:
        count_match_ids_without_3_rounds += 1

    if len(unique_rounds) == 3:
        count_match_ids_with_3_rounds += 1

print("Nombre de match_ids sans 3 rounds :", count_match_ids_without_3_rounds)

print("Nombre de match_ids avec 3 rounds :", count_match_ids_with_3_rounds)

match_ids = data['match_id'].unique()


Nombre de match_ids sans 3 rounds : 89
Nombre de match_ids avec 3 rounds : 430


### Détection des phases

Ce code détecte les phases des matchs en utilisant le clustering des dates de création pour chaque round. Il attribue des clusters distincts aux phases et met à jour la colonne 'phase'. Une phase est défini pour permettre un meilleur découpage du round pour le calcul des échanges plus tard.

In [25]:
# Détection des phases dans les rounds
data['phase'] = None

# Parcourir tous les match_ids
for match_id in match_ids:
    # Sélectionner les lignes correspondant au match_id actuel
    match_data = data[data['match_id'] == match_id].copy()

    # Obtenir les rounds distincts pour le match_id actuel
    rounds = match_data['round'].unique()

    # Parcourir tous les rounds
    for round_val in rounds:
        
        # Trier les valeurs par ordre chronologique dans la colonne "date_create_app"
        round_data = match_data[match_data['round'] == round_val].copy()
        round_data.sort_values(by='date_create_app', inplace=True)

        # Conversion de la colonne "date_create_app" en valeurs numériques
        round_data['timestamp'] = round_data['date_create_app'].apply(lambda x: pd.to_datetime(x).timestamp())

        # Sélection des colonnes à utiliser pour le clustering
        features = round_data[['timestamp']]

        # Normalisation des caractéristiques
        scaler = StandardScaler()
        normalized_features = scaler.fit_transform(features)

        # Application de DBSCAN sans détection d'outliers
        dbscan = DBSCAN(eps=0.5, min_samples=1)  # min_samples > 0 pour désactiver la détection d'outliers
        labels = dbscan.fit_predict(normalized_features)

        # Pour stocker les clusters détectés
        labels += 1
        round_data['cluster'] = labels

        # Mise à jour de la colonne "phase"
        data.loc[(data['match_id'] == match_id) & (data['round'] == round_val), 'phase'] = round_data['cluster'].values

print(data[['score_id', 'match_id', 'date_create_app','round','phase']])

       score_id  match_id                  date_create_app round phase
5             6     21089 2021-06-26 11:14:51.610000+00:00     1     1
6             7     21089 2021-06-26 11:14:48.802000+00:00     1     1
7             8     21089 2021-06-26 11:14:53.035000+00:00     1     1
8             9     21089 2021-06-26 11:14:53.541000+00:00     1     1
10           11     21089 2021-06-26 11:14:58.645000+00:00     1     1
...         ...       ...                              ...   ...   ...
38778     38952     22514 2023-04-15 14:18:52.200000+00:00     3     2
38779     38953     22514 2023-04-15 14:18:51.485000+00:00     3     2
38780     38954     22514 2023-04-15 14:18:56.330000+00:00     3     2
38781     38955     22514 2023-04-15 14:18:56.889000+00:00     3     2
38782     38956     22514 2023-04-15 14:19:01.423000+00:00     3     2

[26542 rows x 5 columns]


## DTW

### Détéction des échanges

Ce code filtre les données en deux ensembles : 
 - un ensemble sans pénalités
 - un ensemble avec pénalités. 

In [26]:
# Filtrage des lignes sans penalités
dataset = data[(data['red_penalty'] == 0) & (data['blue_penalty'] == 0)]

# Filtrage des lignes avec penalités
filtered_data = data[(data['red_penalty'] != 0) | (data['blue_penalty'] != 0)]

# Nombre de lignes dans chaque ensemble
num_rows_dataset = len(dataset)
num_rows_filtered_data = len(filtered_data)

# Affichage des résultats
print("Nombre de lignes sans penalité :", num_rows_dataset)
print("Nombre de lignes de penalités :", num_rows_filtered_data)


Nombre de lignes sans penalité : 20505
Nombre de lignes de penalités : 6037


Ce code effectue les opérations suivantes sur le jeu de données sans les pénalités :

1. Il définit une fonction appelée `dtw_distance` qui calcule la distance DTW (Dynamic Time Warping) entre deux séquences de dates.

2. Une liste appelée `final_data` est initialisée pour stocker les données finales.

3. Le code parcourt chaque `match_id` unique dans le DataFrame `dataset`.

4. Pour chaque `match_id`, il sélectionne  les données correspondantes.

    5. Les rounds distincts pour le `match_id` spécifique sont obtenus.

    6. Pour chaque round, les données du round actuel sont sélectionnées.

        7. Les phases distinctes pour le round actuel sont obtenues.

        8. Pour chaque phase, les données de la phase actuelle sont sélectionnées.

            9. Les données de la phase sont triées par la colonne 'date_create_app' et la colonne 'date_create_app' est convertie en valeurs de temps en millisecondes.

            10. La distance DTW est calculée pour chaque paire de lignes consécutives dans la phase en utilisant la fonction `dtw_distance`.
            
            11. L'écart-type de la distance DTW est calculé pour la phase actuelle.
            
        12. La détection des échanges est effectuée dans la phase en vérifiant : 
            13. Distance DTW : Si la distance DTW entre deux lignes consécutives dépasse l'écart-type de la distance DTW pour la phase actuelle, cela indique une variation significative entre ces deux lignes, ce qui peut être considéré comme un nouvel échange.
            14. Identifiants de juge : Si le juge_id de la ligne actuelle est déjà présent dans les identifiants de juge uniques rencontrés précédemment dans l'échange, cela indique que le même juge a été sélectionné à nouveau pour cette ligne, ce qui peut être considéré comme un nouvel échange.   
            
            15. Nombre de lignes consécutives : Si le nombre de lignes consécutives atteint 3, cela indique que l'échange actuel est terminé et qu'un nouvel échange doit commencer.
     
        16. Les colonnes 'error' et 'judge_id_miss' sont ajoutées au DataFrame pour détecter les erreurs et les identifiants de juge manquants dans les échanges.

       17. Les données de la phase sont ajoutées à la liste `final_data`.

    18. Une fois toutes les phases traitées pour un `match_id`, le code continue avec le prochain `match_id` dans la boucle.

19. Une fois toutes les données traitées, les données de toutes les phases sont concaténées dans le DataFrame `final_data`.


Les données du DataFrame `filtered_data` (résultant du filtrage précédent) sont fusionnées avec `final_data` pour former `merged_data`. Les données fusionnées sont exportées dans un fichier CSV appelé "resultat.csv".

En résumé, ce code effectue une série de traitements et de calculs sur les données pour détecter les échanges, les erreurs et les identifiants de juge manquants dans les phases des matchs. Les résultats sont ensuite exportés dans un fichier CSV.

In [27]:
# Fonction pour calculer la distance DTW entre deux séquences de dates
def dtw_distance(sequence1, sequence2):
    sequence1 = np.array(sequence1).reshape(-1, 1)
    sequence2 = np.array(sequence2).reshape(-1, 1)
    distance, _ = fastdtw(sequence1, sequence2, dist=euclidean)
    return distance

# Liste pour stocker les données finales
final_data = []

# Parcours de chaque match_id
for match_id in dataset['match_id'].unique():
    
    # Sélection des données correspondant au match_id spécifique
    match_data = dataset[dataset['match_id'] == match_id].copy()

    # Rounds distincts pour le match_id spécifique
    rounds = match_data['round'].unique()

    # Parcours de chaque round
    for round_val in rounds:
        
        # Sélection des données du round actuel
        round_data = match_data[match_data['round'] == round_val].copy()

        # Phases distinctes pour le round actuel
        phases = round_data['phase'].unique()

        # Parcours de chaque phase
        for phase_val in phases:
            
            # Sélection des données de la phase actuelle
            phase_data = round_data[round_data['phase'] == phase_val].copy()

            # Tri des données par 'date_create_app'
            phase_data.sort_values(by='date_create_app', inplace=True)

            # Conversion de la colonne 'date_create_app' en valeurs de temps en millisecondes
            phase_data['timestamp_ms'] = phase_data['date_create_app'].view('int64') // 10**6

            # Calcul de la distance DTW pour chaque paire de lignes consécutives
            phase_data['dtw_distance'] = 100 # Initilisation d'un seuil minimum pour facilité le calcul sinon retourne des infinis

            for i in range(1, len(phase_data)):
                previous_row = phase_data.iloc[i-1]
                current_row = phase_data.iloc[i]
                previous_sequence = [previous_row['timestamp_ms']]
                current_sequence = [current_row['timestamp_ms']]

                # Calcul de la distance DTW entre les deux séquences
                distance = dtw_distance(previous_sequence, current_sequence)

                # Mise à jour de la colonne "dtw_distance" avec la distance calculée
                phase_data.at[current_row.name, 'dtw_distance'] = distance

            # Calcul de l'écart-type de la distance DTW pour la phase actuelle
            phase_std = phase_data['dtw_distance'].std()

            # Détection des échanges
            phase_data['echange'] = 1
            echange_number = 1
            line_count = 1
            unique_judge_ids = set()

            for i in range(len(phase_data)):
                current_row = phase_data.iloc[i]
                current_distance = current_row['dtw_distance']
                current_judge_id = current_row['judge_id']
                blue_point = current_row['blue_point']
                red_point = current_row['red_point']

                # Vérifier les conditions pour un nouvel échange
                if (current_distance > phase_std # Distance supérieur à l'écart-type
                    or current_judge_id in unique_judge_ids # Nouvel échange si le judge_id est déjà présent
                    or line_count == 3 ): # Nombre de ligne pour un échange atteint
                    
                    echange_number += 1
                    line_count = 1
                    unique_judge_ids = set([current_judge_id])
                else:
                    line_count += 1
                    unique_judge_ids.add(current_judge_id)

                phase_data.at[current_row.name, 'echange'] = echange_number

            # Ajout des colonnes "error" et "judge_id_miss"
            phase_data['error'] = False
            phase_data['judge_id_miss'] = 'ok' 

            # Parcours des échanges pour détecter les erreurs et les judge_id manquants
            exchanges = phase_data['echange'].unique()

            for exchange in exchanges:
                exchange_data = phase_data[phase_data['echange'] == exchange].copy()

                if len(exchange_data['judge_id'].unique()) == 3:
                    unique_blue_points = exchange_data['blue_point'].unique()
                    unique_red_points = exchange_data['red_point'].unique()

                    if len(unique_blue_points) == 1 and len(unique_red_points) == 1:
                        # Les trois judge_id ont attribué les mêmes points
                        phase_data.loc[exchange_data.index, 'error'] = False
                    else:
                        # Au moins un judge_id a un jugement différent
                        phase_data.loc[exchange_data[exchange_data['blue_point'] != unique_blue_points[0]].index, 'error'] = True
                        phase_data.loc[exchange_data[exchange_data['red_point'] != unique_red_points[0]].index, 'error'] = True

                if len(exchange_data['judge_id'].unique()) == 2:
                    # Détecter le judge_id manquant dans l'échange
                    missing_judge_id = set(phase_data['judge_id'].unique()) - set(exchange_data['judge_id'].unique())
                    if missing_judge_id:
                        phase_data.loc[exchange_data.index, 'judge_id_miss'] = missing_judge_id.pop()

            # Conversion de la colonne 'date_create_app' au format heures, minutes, secondes et millisecondes pour un affichage simplifié
            phase_data['date_create_app'] = pd.to_datetime(phase_data['date_create_app'])
            phase_data['timestamp_ms'] = phase_data['date_create_app'].dt.strftime('%H:%M:%S.%f')
           
            # Ajout des données de la phase au tableau final
            final_data.append(phase_data)

final_data = pd.concat(final_data)

merged_data = pd.concat([final_data, filtered_data])

print("Fichier exporté.")
merged_data.to_csv('Resultat.csv', index=False)


Fichier exporté.


Ce code compare les "score_id" entre deux fichiers CSV et ajoute les lignes correspondantes manquantes. Le DataFrame mis à jour est ensuite exporté dans un nouveau fichier CSV appelé "resultat_final.csv". Cette phase est pour récupérer toutes les lignes supprimées.

In [28]:
df_resultat = pd.read_csv('resultat.csv')
df_lcba_scores = pd.read_csv('LCBA_scores.csv')

# Vérifier les "score_id" manquants dans resultat
lcba_scores_ids = set(df_lcba_scores['score_id'])
resultat_ids = set(df_resultat['score_id'])

missing_ids = lcba_scores_ids - resultat_ids

if len(missing_ids) > 0:
    # Filtrer les lignes du DataFrame LCBA_scores contenant les "score_id" manquants
    missing_rows = df_lcba_scores[df_lcba_scores['score_id'].isin(missing_ids)]

    # Concaténer les lignes manquantes avec le DataFrame resultat
    df_resultat = pd.concat([df_resultat, missing_rows], ignore_index=True)

    # Exporter le DataFrame résultat avec les lignes manquantes dans un nouveau fichier CSV
    df_resultat.to_csv('LCBA_resultat.csv', index=False)
    print("Les lignes des score_id manquants ont été ajoutées dans resultat_final.csv.")
else:
    print("Tous les score_id de LCBA_scores se trouvent déjà dans resultat.")


  df_resultat = pd.read_csv('resultat.csv')


Les lignes des score_id manquants ont été ajoutées dans resultat_final.csv.


# Evaluation

Ce code caclul les éléments suivants :

- `outliers_count = df_resultat.groupby('match_id')['outlier'].sum()` : Calcule le nombre d'outlier pour chaque "match_id".
- `outliers_percentage = (outliers_count / total_rows_per_match_id) * 100` : Calcule le pourcentage d'outliers pour chaque "match_id".
- `outliers_df = pd.DataFrame({'Match_id': outliers_count.index, 'Nombre d\'anomalies': outliers_count, 'Pourcentage d\'outliers': outliers_percentage})` : Crée un DataFrame appelé `outliers_df` pour stocker les résultats des outliers, contenant les colonnes "Match_id", "Nombre d'anomalies" et "Pourcentage d'outliers".


- `errors_count = df_resultat.groupby('match_id')['error'].sum()` : Calcule le nombre d'erreur pour chaque "match_id".
- `errors_percentage = (errors_count / total_rows_per_match_id) * 100` : Calcule le pourcentage d'erreurs pour chaque "match_id".
- `errors_df = pd.DataFrame({'Match_id': errors_count.index, 'Nombre d\'erreurs': errors_count, 'Pourcentage d\'erreurs': errors_percentage})` : Crée un DataFrame appelé `errors_df` pour stocker les résultats des erreurs, contenant les colonnes "Match_id", "Nombre d'erreurs" et "Pourcentage d'erreurs".

- `total_rows_per_match_id = df_resultat.groupby('match_id').size()` : Calcule le nombre total de lignes pour chaque "match_id" en utilisant la fonction `size()`.
- `total_points = df_resultat.groupby(['match_id', 'judge_id'])[['red_point', 'blue_point']].sum()` : Calcule le nombre total de points attribués par chaque "judge_id" dans chaque "match_id".


Ce code permet d'analyser les données du fichier "resultat_final.csv", de calculer des statistiques sur les outliers, les erreurs, les points attribués et les résultats d'échanges pour chaque "match_id", et d'exporter les résultats dans des fichiers Excel distincts.


In [29]:
# Charger le fichier resultat_final.csv
df_resultat = pd.read_csv('LCBA_resultat.csv')

# Convertir les valeurs "True" dans la colonne "outlier" en 1 et les autres en 0
df_resultat['outlier'] = df_resultat['outlier'].map({True: 1, False: 0})

# Calculer le nombre de fois où il y a "True" dans la colonne "outlier" par "match_id"
outliers_count = df_resultat.groupby('match_id')['outlier'].sum()

# Calculer le nombre de fois où il y a "True" dans la colonne "error" par "match_id"
errors_count = df_resultat.groupby('match_id')['error'].sum()

# Calculer le nombre total de lignes par "match_id"
total_rows_per_match_id = df_resultat.groupby('match_id').size()

# Calculer le pourcentage d'outliers et d'erreurs par "match_id"
outliers_percentage = (outliers_count / total_rows_per_match_id) * 100
errors_percentage = (errors_count / total_rows_per_match_id) * 100

# Calculer le nombre total de points attribués par chaque judge_id dans chaque match_id
total_points = df_resultat.groupby(['match_id', 'judge_id'])[['red_point', 'blue_point']].sum()

# Créer un DataFrame pour les résultats des outliers
outliers_df = pd.DataFrame({'Match_id': outliers_count.index, 'Nombre d\'anomalies': outliers_count, 'Pourcentage d\'anomalie': outliers_percentage})

# Créer un DataFrame pour les résultats des erreurs
errors_df = pd.DataFrame({'Match_id': errors_count.index, 'Nombre d\'erreurs': errors_count, 'Pourcentage d\'erreurs': errors_percentage})

# Exporter les résultats dans des fichiers Excel séparés
outliers_df.to_excel('Anomalies.xlsx', index=False)
errors_df.to_excel('Erreur.xlsx', index=False)
total_points.to_excel('Total_points.xlsx')

print("Exportation des résultats dans les fichiers Excel terminée.")


  df_resultat = pd.read_csv('LCBA_resultat.csv')


Exportation des résultats dans les fichiers Excel terminée.


### Outliers

In [30]:
total_outliers = df_resultat['outlier'].sum()
print("Total d'outliers :", total_outliers)


Total d'outliers : 120.0


### Error

In [31]:
total_errors = df_resultat['error'].sum()
print("Total d'error dans le dataset :", total_errors)


Total d'error dans le dataset : 740


### Judge_id_miss

In [32]:
filtered_data = merged_data[merged_data['judge_id_miss'] != 'ok']

judge_id_counts = filtered_data['judge_id_miss'].value_counts().reset_index()

judge_id_counts.columns = ['judge_id', 'count']

judge_id_counts['count'] = judge_id_counts['count'] / 2

print("Total de juges manquants lors d'un échange :", judge_id_counts)

total_count = judge_id_counts['count'].sum()

print("Total de count :", total_count)

judge_id_counts.to_excel('Judge_id_miss.xlsx', index=False)
print("Exportation des résultats dans le fichier Excel terminée.")


Total de juges manquants lors d'un échange :     judge_id  count
0     114822  593.0
1     114926  554.0
2     114927  366.0
3     114928  216.0
4     113341  156.0
..       ...    ...
62    114980    5.0
63    115278    4.0
64    115277    3.0
65    114872    2.0
66    107723    1.0

[67 rows x 2 columns]
Total de count : 3830.0
Exportation des résultats dans le fichier Excel terminée.
