ECHANTILLONAGE DIRECT DE L'ESPACE DES MOTIFS

# Sommaire

Introduction

I) La fonction subset
    
    I-1) Problématique et algorithme proposé
    
    I-2) Modélisation probabiliste
    
II) Echantillonage des motifs fréquents

III) Echantillonage basé sur l'aire

IV) Calcul des fréquences et des aires

    IV-1) Calcul des fréquences
    
    IV-2) Calcul des aires 
    
V) Test sur des données réelles

    V-1) Test des fonctions fréquent et fréquence
    
    V-2) Test des fonctions area_based et aire
    
Conclusion

# Introduction

L’article étudié **Direct Local pattern Sampling by Efficient two-step random procédures (par Boley, M., Lucchese, C., Paurat, D., & Gärtner, T. (2011, August) présente plusieurs algorithmes d'échantillonnage de motifs locaux directs. qui peuvent être utilisés comme une **alternative** aux méthodes **exhaustives**.

Les avantages d'utiliser ces algorithmes sont une complexité temporelle optimale par motif ainsi qu'une distribution bien contrôlée des motifs générés.Ces algorithmes peuvent échantillonner des motifs basés sur la fréquence, l'aire, la fréquence au carré et la mesure de classe discriminatoire.

L'objectif  est d’implémenter les algorithmes d’échantillonnage de motifs par rapport à la fréquence et à l’aire décrits dans l'article ci-dessus avec le language de programmation python, de les appliquer et les tester sur plusieurs datasets réelles pour finalement pouvoir réaliser une étude empirique. Cette étude devrait nous permettre de vérifier la qualité de l'échantillonnage fait. 


# I) La fonction subset

## I-1) Problématique et algorithme proposé

### La problématique

L'algorithme d’échantillonnage des motifs fréquents qui est présenté dans l'article nécessite de savoir générer, pour un ensemble $E$ donné, un sous-ensemble $s$ de $E$ selon une loi uniforme sur $\mathcal{P}(E)$. Une approche naive pour réaliser cela serait de mettre dans une liste P tous les sous-ensembles de $E$ et d'entrer en paramétre cette liste dans une fonction du type np.random.choice. Cela est impossible à réaliser sur de grosses données car la liste P a une taille de $2^{|E|}$.  

D'ou la nécessité de créer une fonction qui permet d'effectuer cette tâche avec une complexité algorithmique raisonnable.   

La fonction **subset**, dont l'algorithme est décrit dans la section qui suit, répond a ce critère. Elle a une complexité en $O(|E|)$.

### L'algorithme de la fonction subset

**Entrée :** Une liste $E$ de taille $n$.

**Etape 1 :** On tire "au hasard" un entier $k$ entre $0$ et $n$.

**Etape 2 :** On tire,successivement, sans remise et selon une loi uniforme, $k$ élements de E. On range ces élements dans une liste $s$ qu'on trie 
   
   (on peut trier la liste s car on ne tient pas compte de l'ordre de tirage).

**Sortie :** On retourne $s$

Nous avons volontairement omis de mentionner **la loi de probabilité** suivant laquelle on tire l'entier $k$ entre $0$ et $n$.  
Nous allons lever cette ambiguïté dans les lignes qui suivent. Mais d'abord il est nécessaire d'introduire quelques notations.

## I-2) Modélisation probabiliste

Soit $K$ la variable aléatoire modélisant l'issue de l'étape 1 et $S$ la variable aléatoire modélisant l'issue de l'étape 2.

**On cherche une condition nécessaire et suffisante sur la loi de $K$ pour que $S$ suive la loi $\mathcal{U}(\mathcal{P}(E))$** (loi uniforme sur $\mathcal{P}(E)$)

### Condition nécessaire 

Supposons que $S$ suit la loi $\mathcal{U}(\mathcal{P}(E))$ 

En d'autres termes : $$\forall s \in \mathcal{P}(E),\ P(S=s)=\frac{1}{|\mathcal{P}(E)|}=\frac{1}{2^{n}}$$

Soit $k$ un entier tel que $0\leq k\leq n$.

On pose $A_k=\big\{s\in \mathcal{P}(E)\ \big |\   |s|=k\big\}$

**Lemme :** Les évenements $(K=k)$ et $(S\in A_k)$ sont équiprobables.


On a, d'après le lemme,  $$\begin{eqnarray*}
        P(K=k)&=&P(S\in A_k)\\
        &=& \sum_{s\in{A_k}}P(S=s) \\
        &=& \sum_{s\in{A_k}}\frac{1}{2^{n}}\\
        &=&|A_k|\times \frac{1}{2^{n}}\\
        &=&\binom{n}{k}\frac{1}{2^{k}}\frac{1}{2^{n-k}} \ \ \ \ \ \text{ car }|A_k|=\binom{n}{k}
\end{eqnarray*}$$

**Donc $K$ suit la loi $\color{blue}{\mathcal{Bin}(n,\frac{1}{2})}$**

**Preuve du lemme :**  

$\bullet$ Si l'évènement $(K=k)$ est réalisé a l'issue de l'étape 1, alors, dans l'étape 2, on effectue $k$ tirages qu'on range dans une liste $s$. Cette liste $s$, retournée en sortie, est de taille $k$. D'ou $(S\in A_k)$ est réalisé.

$\bullet$ Inversement si $(S\in A_k)$ est réalisé, cela veut dire que la liste $s$ retournée en sortie est de taille $k$. Cela implique qu'on a obtenu l'entier $k$ a l'issue de l'étape 1 de l'algorithme. D'ou (K=k) est realisé 

### Condition suffisante

Montrons qu'il est suffisant que $K$ suive la loi $Bin(n,\frac{1}{2})$ pour que $S$ suive la loi $\mathcal{U}(\mathcal{P}(E))$.

Supposons donc que $K$ suit la loi $Bin(n,\frac{1}{2})$.

Soit $s\in \mathcal{P}(E)$.

On note $k=|s|$.

On a : $P(S=s)=P(S=s|K=k)P(K=k)$

$(S=s|K=k)$ est l'évenement "tirer l'ensemble s sachant qu'il est de taille k".

Comme il y a $\binom{n}{k}$ sous-ensembles de $E$ de taille $k$ et que les élements de $s$ sont tires selon une loi uniforme sur $E$, $$P(S=s|K=k)=\frac{1}{\binom{n}{k}}$$
Donc $$\begin{eqnarray*} P(S=s)&=&\frac{1}{\binom{n}{k}}\times \binom{n}{k}\frac{1}{2^k}\frac{1}{2^{n-k}}\\
&=& \frac{1}{2^n}\end{eqnarray*}$$

D'ou $S$ suit la loi $\mathcal{U}(\mathcal{P}(E))$

### Conclusion

$\color{blue}{S\text{ suit la loi }\mathcal{U}(\mathcal{P}(E))\text{ si et seulement si }K \text{ suit la loi }Bin(n,\frac{1}{2}).}$

# II) Echantillonage des motifs fréquents

Dans la cellule ci-dessous, nous avons écrit deux fonctions :

$\bullet$ La fonction **subset** (décrite dans la section I) qui prend en entrée une liste $E$ et qui retourne une liste $s$ inclue dans $E$. La liste $s$ a été génerée selon une loi uniforme sur $\mathcal{P}(E)$. 

$\bullet$ La fonction **frequence** qui est une implementation de l'algorithme frequency-based sampling de l'article.

In [2]:
pip install natsort

Note: you may need to restart the kernel to use updated packages.


In [85]:
import numpy as np
from natsort import natsorted

def subset(E):#description et preuve de l'algorithme dans la section II
    
    k=np.random.binomial(n=len(E)+1,p=0.5) 
    s=np.random.choice(E,size=k,replace=False)
    s=list(s)
    s=natsorted(s)
    return s
    
    
def frequent(D): #D as a list
    
    d=[len(e) for e in D] #stocke la taille de chaque enregistrement dans d 
    
    try:
        d=np.array(d) 
        w=2**d     #calcul des poids
        w=w/sum(w) #normalisation
    
        #tire un indice dans D selon le vecteur de probas w
        i=np.random.choice(len(D),p=w)  
        L=list(D[i])
        f=subset(L)
    
        return f
    
    except ValueError: #il y a des valeurs trop petites dans w
                        #On va enlever les lignes qui leur correspondent
        print("Certaines lignes du dataset sont de trop grande taille par rapport à d'autres \nSupprimez les lignes de trop grande taille ou de trop petite taille\nLa valeur retournee est une liste contenant la taille des lignes")    
        return d

# III) Echantillonage basé sur l'aire

La fonction **area_based** est une implémentation de l'algorithme 2 de l'article

In [86]:
def area_based(D):
    
    D=[e for e in D if e!=[]]
    
    #poids#
    try:
        d=[len(e) for e in D] 
        d=np.array(d) 
        w=d*2**(d-1) 
        w=w/sum(w)
    
        #choisir un indice dans D selon les poids#
        i=np.random.choice(len(D),p=w)
    
        #choisir une taille k entre 0 et |D[i]|#
        L=D[i]
        m=len(L)
        p_k=np.arange(m)
        p_k=p_k/sum(p_k)
        k=np.random.choice(np.arange(1,m+1),p=p_k) 
    
        #choisir un element parmi les sous ensemble de D[i] 
        #de taille k
    
        f=np.random.choice(L,size=k,replace=False)
        f=list(f)
        f=natsorted(f)
        return f
    
    except ValueError: #il y a des valeurs trop petites dans w
                        #On va enlever les lignes qui leur correspondent
        print("Certaines lignes du dataset sont de trop grande taille par rapport à d'autres\nSupprimez les lignes de trop grande taille ou de trop petite taille\nLa valeur retournee est une liste contenant la taille des lignes")    
        return d

# IV) Calcul des fréquences et des aires 

## IV-1) Calcul des fréquences

La fonction count (frequence respectivement) retourne une liste contenant les supports (frequences respectivement) des motifs de la liste m dans le dataset D.

In [87]:
def subset_bool(m,U): #teste si m est un sous-ensemble de U 
    if len(U)<len(m):
        return False
    
    U1=list(U)
    for i in range(len(m)):
        if m[i] not in U1:
            return False
        U1.remove(m[i])
        
    return True


def count(D,m): #D le dataset et m la liste                 
                #de k motifs frequents
    k=len(m)
    count=[0]*k
    for e in D:
        for i in range(len(m)):
            if subset_bool(m[i],e):
                count[i]+=1
    return count

def frequence(D,m):
    support=count(D,m)
    support=np.array(support)
    n=len(D)
    return support/n


## IV-2) Calcul des aires

La fonction aire retourne une liste contenant les aires des motifs de la liste m dans le dataset D.

In [88]:
def aire(D,m):
    support=count(D,m)
    support=np.array(support)
    size=[len(e) for e in m]
    size=np.array(size)
    return support*size

# V) Test sur des données réelles

In [89]:
def load(path):
    try:
        text=open(path,"r")
        D=[(line.strip()).split() for line in text]
        text.close()
        return D
    except FileNotFoundError :
        print("Enregistrez le fichier .txt dans le repertoire contenant le fichier .ipynb\
 ou passez tout son chemin en parametre")

## V-1) Test des fonctions frequent et frequence

### Test sur chess.txt

In [93]:
D=load("chess.txt")

On appelle la fonction **frequent** 100 fois et on observe leurs fréquences dans le dataset D

In [95]:
m=[]
for i in range(100):
    f=frequent(D)
    m+=[f]
    
freq=frequence(D,m)


Parmi les 100 motifs generes, on visualise le motif le plus frequent dans le dataset: 

In [96]:
p=np.argmax(freq)
m[p]

['5', '7', '15', '29', '34', '39', '40', '50', '52', '56', '60', '66']

On calcule la fréquence *freq_obs* de ce motif dans la liste de 100 motifs que nous avons generes 

In [97]:
freq_obs=1
l=list(range(100))
l.remove(p)
for i in l:
    if subset_bool(m[p],m[i]) and subset_bool(m[i],m[p]):
        freq_obs+=1
        
freq_obs=freq_obs/100
freq_obs

0.01

Comparons **freq_obs** a la fréquence du motifs dans le dataset.

In [98]:
freq[p],count(D,[m[p]]),len(D)

(0.07916145181476845, [253], 3196)

In [99]:
freq[p]/np.mean(freq)

11.917098445595856

On peut voir que le motif **m[p]** est fréquent dans le dataset par rapport aux autres motifs de l'échantillon. En revanche, il n'est pas trés bien représente dans l'échantillon (car freq_obs vaut $0.01$). Il suffit de calculer le rapport $\frac{freq[p]}{freq\_obs}$ pour se rendre compte que ces deux fréquences sont loins d'être comparables.

In [100]:
freq[p]/freq_obs

7.916145181476845

In [101]:
p

54

Le motif n'est pas fréquent dans notre échantillon. De plus, il faut 43 itérations pour le génerer. Enfin il n'a qu'une fréquence de 7% dans le dataset. Etudions son comportement sur un deuxiéme dataset

### Test sur mushrooms.txt

In [102]:
D1=load("mushrooms.txt")

Appel de  la fonction **frequent** 100 fois :

In [103]:
m=[]
for i in range(100):
    f=frequent(D1)
    m+=[f]
    
freq=frequence(D1,m)


In [104]:
p=np.argmax(freq)
m[p]


['38', '42', '45', '71', '94', '97', '120']

On calcule la fréquence *freq_obs* de ce motif dans la liste de 100 motifs que nous avons géneres 

In [105]:
freq_obs=1
l=list(range(100))
l.remove(p)
for i in l:
    if subset_bool(m[p],m[i]) and subset_bool(m[i],m[p]):
        freq_obs+=1
        
freq_obs=freq_obs/100
freq_obs

0.01

Comparons **freq_obs** à la fréquence du motifs dans le dataset

In [106]:
freq[p],count(D1,[m[p]]),len(D1)

(0.10266159695817491, [864], 8416)

In [107]:
freq[p]/np.mean(freq)

19.018269865727493

In [108]:
freq[p]/freq_obs

10.26615969581749

On peut voir que le motif **m[p]** est fréquent dans le dataset par rapport aux autres motifs de l'échantillon. Parcontre on trouve aussi pour ce dataset le motif fréquent n'est pas trés bien représente dans l'échantillon avec freq_obs vaut $0.01$. 

In [109]:
p

12

En calculant le rapport $\frac{freq[p]}{freq\_obs}$ on comprend que la fréquence calculée par l'algrithme et celle qu'on tire du fichier sont considérablements loins en valeur.

C'est vrai qu'on nous faut que 10 itérations pour le génerer dans notre échantillon. Mais, il n'a qu'une fréquece de 5% dans le dataset. 

Il faut noter qu'à chaque fois qu'on génére d'autres motifs les résultats peuvent changer, pauvent s'améliorer ou pas.


### Test sur connect.txt


In [110]:
D2=load("connect.txt")

Appel de  la fonction **frequent** 100 fois :

In [112]:
m=[]
for i in range(100):
    f=frequent(D2)
    m+=[f]
    
freq=frequence(D2,m)


In [113]:
p=np.argmax(freq)
m[p]

['13',
 '19',
 '31',
 '46',
 '49',
 '52',
 '60',
 '63',
 '66',
 '72',
 '75',
 '79',
 '82',
 '85',
 '88',
 '97',
 '100',
 '103',
 '106',
 '109',
 '118',
 '127']

In [114]:
freq_obs=1
l=list(range(100))
l.remove(p)
for i in l:
    if subset_bool(m[p],m[i]) and subset_bool(m[i],m[p]):
        freq_obs+=1
        
freq_obs=freq_obs/100
freq_obs

0.01

Le motif **m[p]** est fréquent dans le dataset par rapport aux autres motifs de l'échantillon. Parcontre on trouve aussi pour ce dataset le motif fréquent n'est pas trés bien représente dans l'échantillon avec freq_obs vaut $0.01$. 

In [115]:
freq[p],count(D2,[m[p]]),len(D2)

(0.03426735941501251, [2315], 67557)

In [116]:
freq[p]/np.mean(freq)

26.539034735756047

In [117]:
freq[p]/freq_obs

3.4267359415012506

In [118]:
p

78

En calculant le rapport $\frac{freq[p]}{freq\_obs}$ on comprend que la fréquence calculée par l'algrithme et celle qu'on tire du fichier sont considérablements loins en valeur.

Il nous faut que 94 itérations pour génerer le motif dans notre échantillon. Ainsi il n'a qu'une fréquence de 6% dans le dataset. 



### Test sur accidents.dat.txt


In [119]:
D3=load("accidents.dat.txt")

Appel de  la fonction **frequent** 100 fois :

In [121]:
m=[]
for i in range(200):
    f=frequent(D3)
    m+=[f]
    
freq=frequence(D3,m)


In [122]:
p=np.argmax(freq)
m[p]

['1',
 '9',
 '12',
 '16',
 '17',
 '26',
 '27',
 '29',
 '31',
 '41',
 '56',
 '68',
 '72',
 '84',
 '108',
 '135']

In [123]:
freq_obs=1
l=list(range(100))
l.remove(p)
for i in l:
    if subset_bool(m[p],m[i]) and subset_bool(m[i],m[p]):
        freq_obs+=1
        
freq_obs=freq_obs/100
freq_obs

0.01

In [124]:
freq[p],count(D3,[m[p]]),len(D3)

(0.0002792614563337968, [95], 340183)

In [125]:
freq[p]/np.mean(freq)

48.34605597964378

In [126]:
freq[p]/freq_obs

0.02792614563337968

In [127]:
p

45

Le rapport $\frac{freq[p]}{freq\_obs}$ on comprend que la fréquence calculée par l'algrithme et celle qu'on tire du fichier sont considérablements proches dans cet exemple ( le rapport est inférieur à 1 ).

Il nous faut que 62 itérations pour génerer le motif dans notre échantillon. Ainsi il n'a qu'une fréquence de 0.4% dans le dataset.

Meme si pour ce dataset on trouve bien des fréquences qui sont plus proches en valeur, Mais le motif retourné ne représente que 0.4% de la totalité de dataset.

## V-2) Test des fonctions area_based et aire

### Test sur chess.txt


In [128]:
D=load("chess.txt")

Aprés avoir chargé la dataset, on appelle la focntion **area_based ( )** 100 fois et on affiche les aires calculés :

In [130]:
m=[]
for i in range(100):
    f=area_based(D)
    m+=[f]
a=aire(D,m)


On tire le motif avec critére aire le plus important:

In [131]:
p=np.argmax(a)
m[p]

['3', '5', '7', '11', '17', '27', '29', '36', '56', '60', '62']

In [132]:
a1=aire(D,m[p])
a1

array([2839, 2971, 3076,    0, 3268, 2884, 2734,  400,    0,    0,  212])

In [133]:
s=frequence(D,m[p])
s

array([0.88829787, 0.9295995 , 0.96245307, 0.        , 0.51126408,
       0.45118899, 0.42772215, 0.06257822, 0.        , 0.        ,
       0.03316646])

On remarque que plus l'aire du motif est important plus sa fréquence retournée par la fonction frequence( ) est élevé

In [134]:
p

75

Plus l'aire du motif est important plus sa fréquence est élevée plus il est probable qu'il soit tiré. Il a fallut 49 itérations pour que ce motif soit géneré dans notre échantillon.

On remarque pour cet algorithme d'échantillonnage  que la fréquence des motifs retournés est vraiment plus importante que celle donnée par l'algorithme d'échantillonnage de motif basé sur la fréquence.

### Test sur mushrooms.txt


In [135]:
D=load("mushrooms.txt")

on appelle la focntion **area_based ( )** 100 fois et on affiche les aires calculés :

In [136]:
m=[]
for i in range(100):
    f=area_based(D)
    m+=[f]
a=aire(D,m)


On tire le motif avec critére aire le plus important:

In [137]:
p=np.argmax(a)
m[p]

['57', '67', '71', '94', '104']

In [138]:
s=frequence(D,m[p])
s

array([0.        , 0.        , 0.02804183, 0.        , 0.        ])

In [139]:
p

46

### Test sur accidents.txt


In [148]:
D=load("accidents.dat.txt")

on appelle la focntion **area_based ( )** 100 fois et on affiche les aires calculés :

In [149]:
m=[]
for i in range(100):
    f=area_based(D)
    m+=[f]
a=aire(D,m)


On tire le motif avec critére aire le plus important:

In [150]:
p=np.argmax(a)
m[p]

['1', '19', '21', '23', '39', '63', '74']

In [151]:
s=frequence(D,m[p])
s

array([0.68993454, 0.14144152, 0.08297593, 0.01820785, 0.01530353,
       0.00206653, 0.06309251])

In [152]:
p

94

On remarque avec cet algorithme qu'on peut génerer des motifs fréquents au bout de 8 et 4  itération. Chose qui n'était pas possible avec l'algorithme d'échantillonnage de motif basé sur la fréquence.

# Conclusion

On a implémenté les deux algorithmes d'échantillonnage des motifs basé sur la fréquence ainsi que sur l'aire. On a aussi calculé les valeurs réelles de fréquence et d'aire en une seule passe de données.

Finalement, On attire l'attention en conclusion de ce Tp sur le fait que pour manipuler des datasets qui sont entre 10^3 et 10^4 des lignes il fallait effectuer un grand nombre de simulations pour générer plus d'échantillon et du coup on pourrait