# TP : Application de la découverte de motifs pour l’analyse de parties de Tennis de Table

#### Louis-Maël Gueguen (p2006947), Bertrand Huguenin-Bizot (p2019360), Tommaso Barberis (p1708628), Amélie Lafont (p2017902), Marie Verneret (p1609009)

## Introduction 

Le but de ce TP est d'appliquer différents algorithmes de recherche de motifs dans le but d'analyser un fichier décrivant une partie de Tennis de Table où les échanges ont été annotés. 
Malheureusement, la personne qui a complété ce fichier a changé certaines notations en cours de route, a décalé certaines lignes ou a omis de remplir certaines cellules. 
Le jeu de données a donc été modifié à la main (en utilisant un logiciel tableur) afin de l'homogénéiser et de le rendre exploitable.  

Nous avons choisi d'orienter notre approche de sorte à comprendre quelles sont les meilleures combinaisons utilisées par les deux joueurs pour marquer un point. 
Trois stratégies différentes ont été adoptées :
- Influence du service sur le marquage des points (__pysubgroup__)
- Combinaison d'attributs qui mène à un point (__pysubgroup__ et __exceptional model mining__ - __EMM__)
- Stratégie adoptée par les joueurs (__mlxtend__)

## 1) Influence du service (pysubgroup)

In [4]:
import pysubgroup as ps
import pandas as pd

In [5]:
#importation du jeu de données
data=pd.read_csv("TT_game.csv", sep=';')

### Reformatage des données

Comme nous souhaitons analyser si le service donne un avantage pour marquer un point, il est important de produire un dataframe dans lequel une ligne correspond à un point. Il a donc été nécessaire de reformater les données en gardant uniquement les colonnes d'intérêt et en regroupant les informations d'un échange en une ligne. Pour cela, nous avons supprimé toutes les lignes pour lequelles nous n'avions pas d'information sur les types de services et les zones de jeu. Ainsi les lignes correspondant au service et au marquage d'un point sont conservées. 

In [6]:
###Reformatage des données (on ne garde que les colonnes qui nous intéressent)
data = data[['Nom', 'Coup', 'Score', 'Type de service', 'Type Coup TK', 'Zone de jeu']]

#Pour faire une ligne par échange, on ne garde que les services et les coups gagnants
list_ind = []
for ind in data.index:
    #retirer la ligne de services ratés
    if str(data['Type de service'][ind])!='nan' and (str(data['Zone de jeu'][ind])=='nan'):
        list_ind.append(ind)
    #retirer les lignes entre le service et le score
    elif str(data['Score'][ind])=="nan" and (str(data['Type de service'][ind])=='nan'):
        list_ind.append(ind)
data = data.drop(list_ind)
data = data.reset_index(drop=True)

#suppression de la colonne score
data = data.drop(columns = ['Score'])
data = data.reset_index(drop=True)
#pd.set_option('display.max_rows', None)
data

Unnamed: 0,Nom,Coup,Type de service,Type Coup TK,Zone de jeu
0,F.T. (1),F.T.,Latéral droit,,M2
1,F.T. (4),Serveur Point -,,Controle / Résistance,
2,F.T. (5),F.T.,Latéral droit,,M2
3,F.T. (7),Serveur Point -,,Attaque / Offensif,
4,B.T. (6),B.T.,Latéral gauche,,G21
...,...,...,...,...,...
209,F.T. (255),Serveur Point +,,Attaque / Offensif,
210,F.T. (257),F.T.,Latéral droit,,M2
211,F.T. (258),Serveur Point -,,Controle / Résistance,
212,F.T. (259),F.T.,Latéral droit,,M1


Pour pouvoir utiliser l'algorithme, la dernière étape a été de fusionner les deux lignes de service et de marquage de point. Pour cela, nous avons crée une nouvelle colonne appelée `Victory` qui indique si la personne qui a fait le service a marqué le point ou pas.

In [7]:
#creation de la table définitive avec une ligne par point
list_ind = []
victory = []
for ind in data.index:
    if (str(data['Zone de jeu'][ind])=='nan'):
        data['Type Coup TK'][ind-1] = str(data['Type Coup TK'][ind])
        list_ind.append(ind)
        if str(data['Coup'][ind]).endswith('-'):
            victory.append(0)
        elif str(data['Coup'][ind]).endswith('+'):
            victory.append(1)
data = data.drop(list_ind)
data = data.reset_index(drop=True)
#data = data.drop(columns=['Nom'])
data = data.drop(columns=['Nom', 'Coup'])
data['Victory'] = victory
data

Unnamed: 0,Type de service,Type Coup TK,Zone de jeu,Victory
0,Latéral droit,Controle / Résistance,M2,0
1,Latéral droit,Attaque / Offensif,M2,0
2,Latéral gauche,Controle / Résistance,G21,0
3,Latéral droit,Controle / Résistance,M1,0
4,Latéral droit,Controle / Résistance,M2,0
...,...,...,...,...
102,Latéral droit,Attaque / Offensif,G1,1
103,Latéral droit,Attaque / Offensif,D1,1
104,Latéral droit,Attaque / Offensif,G21,1
105,Latéral droit,Controle / Résistance,M2,0


### Execution de Pysubgroup

Cet algorithme va rechercher des sous-groupe à partir d'une target donnée. Dans notre cas, la target constitue la colonne de victoire. La recherche de sous-groupe est alors effectuée dans les autres colonnes (type de service, type de coup lors du service et zone de jeu pour le service).

In [17]:
#execution du langage pysubgroup en choisissant la colonne victory comme target 
target = ps.BinaryTarget ('Victory', True)
searchspace = ps.create_selectors(data, ignore=['Victory'])
task = ps.SubgroupDiscoveryTask (
    data, 
    target, 
    searchspace, 
    result_set_size=9, 
    depth=2, 
    qf=ps.WRAccQF())
result = ps.BeamSearch().execute(task)
result = result.to_dataframe()
for ind in result.index:
    print(result['quality'][ind], result['subgroup'][ind])

0.029434885142807246 Type de service=='Latéral droit' AND Zone de jeu=='M1'
0.027600663813433502 Zone de jeu=='M1'
0.021835968206830293 Zone de jeu=='G3'
0.017468774565464234 Type de service=='Latéral gauche' AND Zone de jeu=='G3'
0.01685736745567299 Type Coup TK=='Poussette' AND Zone de jeu=='M1'
0.01624596034588174 Type Coup TK=='Poussette' AND Type de service=='Latéral droit'
0.01624596034588174 Type Coup TK=='Poussette'
0.013101580924098176 Type Coup TK=='Controle / Résistance' AND Type de service=='Unknown'
0.013101580924098176 Type Coup TK=='Controle / Résistance' AND Zone de jeu=='G3'


  result = result.to_dataframe()


Les résultats de pysubgroup montrent que les services `lateral droit` dans la zone de jeu M1 sont plus propices pour marquer un point. Le type de service et la zone de jeu semblent plus influencer le score que le type de coup, ce dernier n'apparaissant qu'en cinqième position dans la liste des résultats. De manière général, c'est dans les zones `M1` et `G3` que les services sont les plus efficaces correspondant respectivement au centre de la table proche du filet et au coin extérieur gauche de l'adversaire.

## 2. Combinaison d'attributs qui mène à un point (EMM)

In [1]:
# import libraries
import pandas as pd
import numpy as np
import sys
sys.path.insert(0, './emm')
import EMM as emm

In [2]:
# import data
data = pd.read_csv("TT_game.csv", sep = ";",
                   dtype={
                          "Nom": str,
                          "Position": str,
                          "Durée": str,
                          "Genre": str,
                          "Latéralité": str,
                          "Set": str,
                          "Système": str,
                          "Coup": str,
                          "Nbre de coups par point": np.float64,
                          "Durée du point": str,
                          "Score": str,
                          "Points F": np.float64,
                          "Points B": np.float64,
                          "Type de service": str,
                          "Type Coup TK": str,
                          "Zone de jeu": str
})

### Reformatage des données

#### Déscription de la fonction permettant de formater les données `df_player`

Cette fonction permet de construire un tableau pour un joueur donné, où chaque ligne correspond à un point joué. Pour chaque point seront detaillés les attributs suivant:
- la __durée__ du point selon un intervalle (si le point a été de: __courte__, __moyenne__ ou __longue__ durée) $\Rightarrow$ colonne <u>Duree</u>;
- nb de __coups droits__ du jouer selectionné lors du point $\Rightarrow$ colonne <u>coup_droit_player_1</u>:
    - de même pour l'autre joueur <u>coup_droit_player_2</u>;
- nb de coups __revers__ du jouer  selectionné lors du point $\Rightarrow$ colonne <u>revers_player_1</u>:
    - de même pour l'autre joueur <u>revers_player_2</u>;
- nb de __coups effectués__ (par l'ensemble des joueurs) $\Rightarrow$ colonne <u>Nb_coups</u>;
- numéro du __set__ dans lequel le point est joué (au total 5 set) $\Rightarrow$ colonne <u>Set</u>;
- la __progression du set__, si après le point considéré, le joueur selectionné est en train de remporter ou pas le set ('__<__': s'il est en train de perdre le set, '__>__': s'il est en train de gagner le set, '__=__': si les deux joueur ont le même score) $\Rightarrow$ colonne <u>Gagnant_ou_pas</u>;
- qui a effectué le __service__ et de quel côté $\Rightarrow$ colonne <u>Service</u>;
- nb de fois que le joueur selectionné a joué en __controle__ $\Rightarrow$ colonne <u>controle_player_1</u>:
    - de même pour l'autre joueu, colonne <u>controle_player_2</u>;
- nb de fois que le joueur selectionné a joué en __attaque__ $\Rightarrow$ colonne <u>attaque_player_1</u>:
    - de même pour l'autre joueu, colonne <u>attaque_player_1</u>;
- nb de fois que le joueur selectionné a joué avec une __poussette__ $\Rightarrow$ colonne <u>poussette_player_1</u>:    
    - de même pour l'autre joueu, colonne <u>poussette_player_2</u>;
- nb de fois que le jouer __a envoyé__ la balle dans la zone __M1__ lors du point $\Rightarrow$ colonne <u>M1_envoie</u>:
    - de même pour les autres zones de jeu $\Rightarrow$ colonnes <u>M2_envoie</u>, <u>M3_envoie</u>, etc;
- nb de fois que le jouer __a reçu__ la balle dans la zone __M1__ lors du point $\Rightarrow$ colonne <u>M1_reception</u>:     
    - de même pour les autres zones de jeu $\Rightarrow$ colonnes <u>M2_reception</u>, <u>M3_reception</u>, etc;

In [3]:
# convert to deltatime
data['Position'] = pd.to_timedelta(data['Position'])
data['Durée'] = pd.to_timedelta(data['Durée'])

# convert deltatime format to float
data["Position"] = (data["Position"] / np.timedelta64(10**9,'ns')).astype(float)
data["Durée"] = (data["Durée"] / np.timedelta64(10**9,'ns')).astype(float)

# clean "Set" column
for index, row in data.iterrows():
    val = row["Nom"]
    if val.startswith("SET"):
        set_nb = val.split("(")[1][:1]
    data.at[index, "Set"] = set_nb   

# compute the number of hits for each point
c = 0
for index, row in data.iterrows():
    if (row["Coup"] != "F.T.") and (row["Coup"] != "B.T."):
        c = 0
        data.at[index, "Nbre de coups par point"] = c
    else:
        c += 1
        data.at[index, "Nbre de coups par point"] = c
data["Nbre de coups par point"] = pd.to_numeric(data["Nbre de coups par point"]).astype(int)  

# columns for the new dataframe    
columns = ["Duree", "coup_droit_player_1", "coup_droit_player_2", "revers_player_1", "revers_player_2", "Nb_coups", "Set", \
           "Gagnant_ou_pas", "Service", "controle_player_1", "controle_player_2", "attaque_player_1", "attaque_player_2", \
           "poussette_player_1", "poussette_player_2", "M1_envoie", "M1_reception", "M2_envoie", "M2_reception", \
           "M3_envoie", "M3_reception","D1_envoie", "D1_reception", "D2_envoie", "D2_reception", "D3_envoie",\
           "D3_reception", "G1_envoie", "G1_reception", "G2_envoie", "G2_reception", "G3_envoie", \
           "G3_reception", "Gagnant"] 

def pts_time(point):
    """
    Return the elapsed time for the point.
    """
    time = 0.000
    for index, row in point.iterrows():
        if index != 0:
            time += row["Durée"]
    return time

def class_time(time, quantiles):
    """
    Define the time of the point as class.
    """
    if time < quantiles[0]:
        return "short"
    elif time >= quantiles[0] and time <= quantiles[2]:
        return "middle"
    elif time > quantiles[2]:
        return "long"
    
def pts_score(point, player):
    """
    Return a string that define the player that is winning the set.
    '<': player F.T. is winning
    '>': player B.T. is winning
    '=': draw
    """
    if player == "F":
        score_player1 = int(point.iloc[-1]["Points F"])
        score_player2 = int(point.iloc[-1]["Points B"])
    else:
        score_player1 = int(point.iloc[-1]["Points B"])
        score_player2 = int(point.iloc[-1]["Points F"])
        
    if score_player1 < score_player2:
        return "<"
    elif score_player1 > score_player2:
        return ">"
    else:
        return "="
    
def pts_service(point, player):
    """
    Return a string that decode who did the service and the side
    """
    service = point[point["Type de service"].notna()]["Type de service"].tolist()
    try:
        # if a net is done, it keeps only the last service
        if service[-1] == "Serveur Point - 8-4+I216:I223":
            service = service[-2]
        else:
            service = service[-1]
    except:
        service = np.nan # if double fault
    player_c =  point[point["Coup"].notna()]["Coup"].tolist()[0]
    if player == player_c[0]:
        player = "player1"
    else:
        player = "player2"
    service = str(player) + " - " + str(service)
    return service

def point_winner(point, player): 
    """
    Define if the player has won the point or not. Return a boolean.
    """
    win = point.iloc[-1]["Coup"]
    service = pts_service(point, player)
    has_service = service.split(" ")[0] # get the player that have done the service

    if (has_service == "player1" and win.split(" ")[-1] == "-") or (has_service == "player2" and win.split(" ")[-1] == "+"):
        return "No"
    elif (has_service == "player1" and win.split(" ")[-1] == "+") or (has_service == "player2" and win.split(" ")[-1] == "-"):
        return "Yes"
    
def df_player(player, data):
    """
    Create a dataframe with stats for a given player.
    player: 'F' or 'B'
    data: dataframe
    """
    player_data = pd.DataFrame(columns=columns) # df initialisation
    
    if player == "F":
        player1 = "F.T."
        player2 = "B.T."
    elif player == "B":
        player1 = "B.T."
        player2 = "F.T." 
    
    # total number of pts
    nb_pts = data["Points F"].dropna()
    nb_pts = len(nb_pts)

    # indices of pts row in the original df
    pts_indices = list(data[data["Points F"].notna()].index)
    pts_indices = [x + 1 for x in pts_indices] # to match df index
    pts_indices.insert(0, 0)

    # vector with time for each point
    times = []                
    for i in range(0, len(pts_indices)):
        try:
            point = data[pts_indices[i]:pts_indices[i+1]] # extract info for one point
        except:
            break # last point analysed
        
        times.append(pts_time(point))
    quantiles = np.quantile(times, [0.25, 0.5, 0.75])
    
    for i in range(0, len(pts_indices)):
        try:
            point = data[pts_indices[i]:pts_indices[i+1]] # extract info for one point
        except:
            break # last point analysed
            
        coup_droit_player1 = len(point[(point["Latéralité"] == "Coup droit") & (point["Nom"].str.startswith(player1))])
        coup_droit_player2 = len(point[(point["Latéralité"] == "Coup droit") & (point["Nom"].str.startswith(player2))])
        revers_player1 = len(point[(point["Latéralité"] == "Revers") & (point["Nom"].str.startswith(player1))])
        revers_player2 = len(point[(point["Latéralité"] == "Revers") & (point["Nom"].str.startswith(player2))])
        time = class_time(times[i-1], quantiles)
        nb_hit = len(point)
        Set = point["Set"].unique()[0]
        score = pts_score(point, player) # if he is winning the set or not
        service = pts_service(point, player)
        controle_player1 = len(point[(point["Type Coup TK"] == "Controle / Résistance") & (point["Nom"].str.startswith(player1))])
        controle_player2 = len(point[(point["Type Coup TK"] == "Controle / Résistance") & (point["Nom"].str.startswith(player2))])
        attaque_player1 = len(point[(point["Type Coup TK"] == "Attaque / Offensif") & (point["Nom"].str.startswith(player1))])
        attaque_player2 = len(point[(point["Type Coup TK"] == "Attaque / Offensif") & (point["Nom"].str.startswith(player2))])
        poussette_player1 = len(point[(point["Type Coup TK"] == "Poussette") & (point["Nom"].str.startswith(player1))])
        poussette_player2 = len(point[(point["Type Coup TK"] == "Poussette") & (point["Nom"].str.startswith(player2))])
        M1_send = len(point[(point["Zone de jeu"] == "M1") & (point["Nom"].str.startswith(player2))])
        M1_reception = len(point[(point["Zone de jeu"] == "M1") & (point["Nom"].str.startswith(player1))])
        M2_send = len(point[(point["Zone de jeu"] == "M2") & (point["Nom"].str.startswith(player2))])
        M2_reception = len(point[(point["Zone de jeu"] == "M2") & (point["Nom"].str.startswith(player1))])
        M3_send = len(point[(point["Zone de jeu"] == "M3") & (point["Nom"].str.startswith(player2))])
        M3_reception = len(point[(point["Zone de jeu"] == "M3") & (point["Nom"].str.startswith(player1))])
        D1_send = len(point[(point["Zone de jeu"] == "D1") & (point["Nom"].str.startswith(player2))])
        D1_reception = len(point[(point["Zone de jeu"] == "D1") & (point["Nom"].str.startswith(player1))])
        D2_send = len(point[(point["Zone de jeu"] == "D2") & (point["Nom"].str.startswith(player2))])
        D2_reception = len(point[(point["Zone de jeu"] == "D2") & (point["Nom"].str.startswith(player1))])
        D3_send = len(point[(point["Zone de jeu"] == "D3") & (point["Nom"].str.startswith(player2))])
        D3_reception = len(point[(point["Zone de jeu"] == "D3") & (point["Nom"].str.startswith(player1))])    
        G1_send = len(point[(point["Zone de jeu"] == "G1") & (point["Nom"].str.startswith(player2))])
        G1_reception = len(point[(point["Zone de jeu"] == "G1") & (point["Nom"].str.startswith(player1))])
        G2_send = len(point[(point["Zone de jeu"] == "G2") & (point["Nom"].str.startswith(player2))])
        G2_reception = len(point[(point["Zone de jeu"] == "G2") & (point["Nom"].str.startswith(player1))])
        G3_send = len(point[(point["Zone de jeu"] == "G3") & (point["Nom"].str.startswith(player2))])
        G3_reception = len(point[(point["Zone de jeu"] == "G3") & (point["Nom"].str.startswith(player1))])
        win = point_winner(point, player)

        player_data = player_data.append({"Duree": time, "coup_droit_player_1": coup_droit_player1, "coup_droit_player_2": coup_droit_player2, \
            "revers_player_1": revers_player1, "revers_player_2": revers_player2, "Nb_coups": nb_hit, "Set": Set, \
            "Gagnant_ou_pas": score, "Service": service, "controle_player_1": controle_player1, "controle_player_2": controle_player2, \
            "attaque_player_1": attaque_player1, "attaque_player_2": attaque_player2, "poussette_player_1": poussette_player1, \
            "poussette_player_2": poussette_player2, "M1_envoie": M1_send, "M1_reception": M1_reception, \
            "M2_envoie": M2_send, "M2_reception": M2_reception, "M3_envoie": M3_send, \
            "M3_reception": M3_reception, "D1_envoie": D1_send, "D1_reception": D1_reception, "D2_envoie": D2_send, \
            "D2_reception": D2_reception, "D3_envoie": D3_send, "D3_reception": D3_reception, "G1_envoie": G1_send, \
            "G1_reception": G1_reception, "G2_envoie": G2_send, "G2_reception": G2_reception, "G3_envoie": G3_send, \
            "G3_reception": G3_reception, "Gagnant": win}, ignore_index=True)
        
    return player_data    

### Execution d'EMM

#### <u>Pour le joueur F.T.</u>

In [5]:
ft_data = df_player("F", data)

In [6]:
ft_data

Unnamed: 0,Duree,coup_droit_player_1,coup_droit_player_2,revers_player_1,revers_player_2,Nb_coups,Set,Gagnant_ou_pas,Service,controle_player_1,...,D2_reception,D3_envoie,D3_reception,G1_envoie,G1_reception,G2_envoie,G2_reception,G3_envoie,G3_reception,Gagnant
0,long,1,1,3,2,8,1,<,player1 - Latéral droit,1,...,0,0,0,0,0,0,0,1,1,No
1,short,2,2,1,0,5,1,<,player1 - Latéral droit,1,...,0,0,1,0,0,0,0,0,1,No
2,middle,0,3,2,0,5,1,<,player2 - Latéral gauche,0,...,0,0,0,0,0,0,0,1,1,Yes
3,middle,1,1,0,1,3,1,=,player2 - Latéral droit,0,...,0,0,0,0,0,0,0,0,0,Yes
4,short,1,1,1,0,3,1,<,player1 - Latéral droit,1,...,0,0,0,0,0,0,0,0,1,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
102,middle,1,0,1,2,4,5,>,player1 - Latéral droit,0,...,0,1,0,1,0,0,0,0,1,Yes
103,middle,2,1,0,1,4,5,>,player2 - Latéral droit,0,...,0,0,1,0,0,0,0,0,0,No
104,middle,1,3,1,0,5,5,>,player2 - Latéral droit,0,...,0,0,0,0,0,0,0,0,0,No
105,middle,2,1,1,0,4,5,>,player1 - Latéral droit,1,...,0,0,0,0,0,0,0,0,1,No


In [10]:
target_columns = ['Gagnant']
clf = emm.EMM(width=10, depth=2, evaluation_metric='distribution_cosine')
clf.search(ft_data, target_cols=target_columns)
clf.visualise(subgroups=8, cols=3)

Sur __107__ points joués, le joueur __F__ en gagne __60__.

1. Si __F__ joue de revers et que l'adversaire ne répond pas avec un revers, il a très peu de chance de remporter le point (14 points perdus sur 16);
2. Si pendant le point, __F__ joue sur la zone __M2__ et que l'adversaire pendant le même point ne joue jamais des coup de type "contrôle", le jouer __F__ n'a pas de chance de remporter le point (9 points perdus sur 9);
3. Si __F__ est en train de perdre le set et qu'il ne reçoit jamais la balle en __M1__, il a peu de chance de remporter le point (16 points perdus sur 20);
4. si __F__ joue un coup de type "contrôle" deux fois mais qu'il envoie jamais sur __M1__, il a peu de chances de remporter le point (8 points perdus sur 9);
5. si pendant le point __F__ joue un coup de "revers" mais qu'il envoie jamais sur __D3__, il a peu de chances de remporter le point (16 points perdus sur 19);
6. si __F__ joue deux fois un coup de type "contrôle" et qu'il n'envoie une fois sur __M1__, il a peu de chances de gagner le point (8 points perdus sur 9);
7. si pendant un point __F__ joue de revers et que l'adversaire ne joue aucun coup de type "contrôle", __F__ a très peu de chances de remporter le point (13 points perdus sur 16).


#### <u>Pour le joueur B.T.</u>

In [11]:
bt_data = df_player("B", data)

In [12]:
bt_data

Unnamed: 0,Duree,coup_droit_player_1,coup_droit_player_2,revers_player_1,revers_player_2,Nb_coups,Set,Gagnant_ou_pas,Service,controle_player_1,...,D2_reception,D3_envoie,D3_reception,G1_envoie,G1_reception,G2_envoie,G2_reception,G3_envoie,G3_reception,Gagnant
0,long,1,1,2,3,8,1,>,player2 - Latéral droit,2,...,0,0,0,0,0,0,0,1,1,Yes
1,short,2,2,0,1,5,1,>,player2 - Latéral droit,1,...,0,1,0,0,0,0,0,1,0,Yes
2,middle,3,0,0,2,5,1,>,player1 - Latéral gauche,1,...,0,0,0,0,0,0,0,1,1,No
3,middle,1,1,1,0,3,1,=,player1 - Latéral droit,1,...,1,0,0,0,0,0,0,0,0,No
4,short,1,1,0,1,3,1,>,player2 - Latéral droit,0,...,0,0,0,0,0,0,0,1,0,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
102,middle,0,1,2,1,4,5,<,player2 - Latéral droit,0,...,0,0,1,0,1,0,0,1,0,No
103,middle,1,2,1,0,4,5,<,player1 - Latéral droit,0,...,0,1,0,0,0,0,0,0,0,Yes
104,middle,3,1,0,1,5,5,<,player1 - Latéral droit,0,...,1,0,0,0,0,0,0,0,0,Yes
105,middle,1,2,0,1,4,5,<,player2 - Latéral droit,0,...,0,0,0,0,0,0,0,1,0,Yes


In [14]:
target_columns = ['Gagnant']
clf = emm.EMM(width=10, depth=2, evaluation_metric='distribution_cosine')
clf.search(bt_data, target_cols=target_columns)
clf.visualise(subgroups=8, cols=3)

Le joueur __B__ a gagné __46__ points sur __107__ joués.

1. si l'adversaire a joué un coup de revers et que __B__ ne joue aucun coup de revers, __B__ a des fortes chances de gagner le point (14 points gagnés sur 16);
2. si __B__ reçoie sur __M2__ une fois lors du point et qu'il effectue jamais un coup de type "contrôle", il a des fortes chances de gagner le point (9 points gagnés sur 9);
3. si __B__ est en train de ganger le set et que il envoie jamais sur __M1__, il a des fortes chances de gagner le point (16 points gagnés sur 20);
4. si l'adversaire joue une fois de revers et qu'il envoie jamais sur __D3__ pendant le point, __B__ a des fortes chances de gagner le point (16 points gagnés sur 19);
5. si pendant un point l'adversaire joue un seul coup de revers et que __B__ ne joue jamais avec un coup de type "poussette",le joueur __B__ a des bonnes chances de remporter le point (21 points gagnés sur 29);
6. Si l'adversaire joue un seul coup droit, __B__ a peu de chances de gagner le point (32 points perdus sur 46);
7. si l'adversaire joue un coup de revers et que __B__ ne joue aucun coup de type "controle" lors du point, alors il a des bonnes chances de gagner le point (13 points gagnés sur 16).


#### Considérations sur l'algoritmhe _EMM_

D'un point de vue technique, il n'est pas de facile implementation, étant le package pauvre en documentation. Pour en comprendre certains aspects, nous avons dû aller regarder le code source, notamment pour savoir le nombre de targets nécessité par chaque métrique (important pour appliquer une stratégie plutôt qu'une autre) ou encore le type que les colonnes sont censées avoir (type: <u>object</u>).

En dehors de ça, on peut vraiment remarquer comme l'algorithme fasse une _recherche excpetionnelle de motifs_; pour le joueur __F__ il nous propose uniquement des motifs dans lesquels il perd des points, alors qu'on sait _a priori_ qu'il est le joueur qui a remporté le plus de points et qui a gagné la partie. Viceversa, en considérant le joueur __B__, il nous retourne que des motifs pour lesquels il gagne des points.

La métrique utilisée, _distribution cosine_ permet évaluer la similarité d'objets en régardant leurs taille.