# Etude des motifs - Antoine

Nous étudions les motifs présents dans le corpus d'Antoine. 
1. Dans un premier temps on se base sur les retranscriptions phonétiques d'Antoine issu de l'alphabet phonétique. 
2. Puis on se base les retranscriptions phonémiques issue de l'alphabet Fançais. 
3. Finalement, on se base sur les retranscriptions phonétiques d'Antoine que l'on pondèrent par la localisation du phonème dans le mot et par sa "valeur" de prononciation.  


Dans cette étude, on définit les items comme :
 - Un mot
 - Un phonème
 
Pour chaque items on utilise des algorithmes : 
 - Frequent Itemset Mining
 - Sequential Pattern Extraction
 
 Le but de cette étude est d'extraire les motifs fréquents du corpus.


In [2]:
from pymining import itemmining, assocrules, seqmining
import pandas as pd
import os

## Chargement des données

In [3]:
os.chdir('C:..\\data')
data_antoine = pd.read_csv('data_antoine_final.csv',
                           sep = '\t',
                           encoding = 'utf-8',
                           index_col=False)

# On supprime la colonne qui duplique les index
data_antoine = data_antoine.drop(columns = 'Unnamed: 0')

On récupère les retranscritpions phonétiques et phonémiques

In [4]:
chi_antoine = data_antoine[data_antoine['type'] == 'CHI']
pho_antoine = data_antoine[data_antoine['type'] == 'pho']

In [5]:
pho_antoine.head()

Unnamed: 0,enfant,age,type,seconde_debut,seconde_fin,contenu
1228,ANTOINE,1_00_24,pho,,,a
1230,ANTOINE,1_00_24,pho,,,a
1319,ANTOINE,1_00_24,pho,,,ahaa
1326,ANTOINE,1_00_24,pho,,,a
1342,ANTOINE,1_00_24,pho,,,ajabə


Suppression des valeur NaN

In [6]:
pho_antoine = pho_antoine.dropna(subset=['type', 'contenu'])

Ici nous avons nos données préparées

### Exemple de selection des lignes

Toutes les lignes du corpus strictement égales à un item

In [7]:
pho_antoine.loc[pho_antoine['contenu'] == 'a'].head()

Unnamed: 0,enfant,age,type,seconde_debut,seconde_fin,contenu
1228,ANTOINE,1_00_24,pho,,,a
1230,ANTOINE,1_00_24,pho,,,a
1326,ANTOINE,1_00_24,pho,,,a
1363,ANTOINE,1_00_24,pho,,,a
1385,ANTOINE,1_00_24,pho,,,a


Toutes les lignes du corpus contenant un item

In [8]:
def df_item_in_rows(item, df):
    '''
        param  : item (str)
                 df (pd.DataFrame)
        return : Un pd.DataFrame contenant les lignes du corpus qui contiennent un item
    '''
    list = []
    f=0
    for i in df['contenu']:            # On parcour la colonne contenu
        if item in i:                  # Pour chaque ligne de 'contenu'
            list.append(df.iloc[f])
        f+=1
    return pd.DataFrame(list)

In [9]:
df_item_in_rows('bɛ̃', pho_antoine).head()

Unnamed: 0,enfant,age,type,seconde_debut,seconde_fin,contenu
1556,ANTOINE,1_00_24,pho,,,ə bɛ̃
5858,ANTOINE,1_01_24,pho,,,bɛ̃
6856,ANTOINE,1_01_24,pho,,,bɛ̃
10170,ANTOINE,1_03_16,pho,,,bɛ̃
11228,ANTOINE,1_03_16,pho,,,bɛ̃


### DataFrame selon la structure établie 

In [10]:
'''
df = pho_antoine[{'age', 'contenu'}].groupby('age') # On regroupe les phrases par l'age de l'enfant (par enregistrement)
df = pd.DataFrame(df)
len(df[1][0]['contenu']) # Pour le 1er enregistrement on a 186 phrases
df[1][0]['contenu'].str.split(' ').tolist()
df[1][1]['contenu'].values
sequences = []
for i in range(df.shape[0]):
    tup = tuple(df[1][i]['contenu'].str.split(' ').tolist())
    sequences.append(tup)
sequences[0] # On retrouve notre liste des mots par phrase du 1er enregistrement
len(sequences[0])
relim_input = itemmining.get_relim_input(sequences[6])
item_sets = itemmining.relim(relim_input, min_support=50)
item_sets
freq_seqs = seqmining.freq_seq_enum(sequences[30], 10)
for seq in freq_seqs:
    print(seq)
'''

"\ndf = pho_antoine[{'age', 'contenu'}].groupby('age') # On regroupe les phrases par l'age de l'enfant (par enregistrement)\ndf = pd.DataFrame(df)\nlen(df[1][0]['contenu']) # Pour le 1er enregistrement on a 186 phrases\ndf[1][0]['contenu'].str.split(' ').tolist()\ndf[1][1]['contenu'].values\nsequences = []\nfor i in range(df.shape[0]):\n    tup = tuple(df[1][i]['contenu'].str.split(' ').tolist())\n    sequences.append(tup)\nsequences[0] # On retrouve notre liste des mots par phrase du 1er enregistrement\nlen(sequences[0])\nrelim_input = itemmining.get_relim_input(sequences[6])\nitem_sets = itemmining.relim(relim_input, min_support=50)\nitem_sets\nfreq_seqs = seqmining.freq_seq_enum(sequences[30], 10)\nfor seq in freq_seqs:\n    print(seq)\n"

# 1. Retranscription phonétique
---

## Item : mot

Les transactions sont des phrases, une phrase est une liste de mot

In [39]:
transactions = pho_antoine['contenu'].str.split(' ').tolist()
transactions

[['a'],
 ['a'],
 ['ahaa'],
 ['a'],
 ['ajabə'],
 ['abi'],
 ['a'],
 ['a'],
 ['bwaha'],
 ['a'],
 ['a'],
 ['yi'],
 ['a'],
 ['a'],
 ['ɛ'],
 ['a'],
 ['aaaaaa'],
 ['ɛdəd'],
 ['aa'],
 ['abəbə', 'X'],
 ['ə', 'bɛ̃'],
 ['hihi'],
 ['a'],
 ['wa'],
 ['datatata'],
 ['tata', 'X'],
 ['hɛ'],
 ['etɛ'],
 ['eta'],
 ['nɔp'],
 ['nei'],
 ['a'],
 ['a'],
 ['e'],
 ['m'],
 ['a'],
 ['a'],
 ['a'],
 ['Xsːi'],
 ['vwala', 'tsːi'],
 ['Xma'],
 ['məwɛ̃mɛ̃'],
 ['ɲamː'],
 ['nɲininini'],
 ['nː'],
 ['aː'],
 ['mmː'],
 ['m'],
 ['m'],
 ['aa'],
 ['az'],
 ['a'],
 ['e'],
 ['aa'],
 ['wɛ̃'],
 ['a'],
 ['m'],
 ['m'],
 ['və'],
 ['m'],
 ['ɛ̃'],
 ['ɛ̃'],
 ['hm'],
 ['a'],
 ['jɛ'],
 ['ɛ'],
 ['mm'],
 ['aaa'],
 ['ɛː'],
 ['m'],
 ['anani'],
 ['nanane'],
 ['jan'],
 ['ɲa'],
 ['abububja'],
 ['sis'],
 ['a', 'aa', 'aa'],
 ['ɛː'],
 ['ɛ'],
 ['ɑ̃'],
 ['ɑ̃', 'owa'],
 ['mja'],
 ['a'],
 ['a'],
 ['a'],
 ['m', 'ɛ', 'a'],
 ['a'],
 ['a'],
 ['m', 'm', 'a', 'm', 'm'],
 ['a'],
 ['wu'],
 ['wɛ'],
 ['χ', 'wawawəwəwə'],
 ['əw', 'bəbə'],
 ['wəbə'],
 ['b', 'bəbəbəbab

In [42]:
transactions[-1]

['dɛ', 'kʁəpɛt', 'e', 'dɛ', 'kʁab']

In [11]:
item_col = pd.DataFrame(transactions)
item_col = pd.unique(item_col.values.ravel())
item_col = pd.DataFrame(item_col)
item_col = item_col.dropna()
print(len(item_col))
item_col.head().T

6089


Unnamed: 0,0,2,3,4,5
0,a,ahaa,ajabə,abi,bwaha


Notre collection d'item est de 6089 mots

### Algorithm Frequent Itemset Mining

 - Quelle valeur de support minimum ? : A partir de quelle fréquence peut-on considérer qu'un item set est fréquent ? 

In [43]:
relim_input = itemmining.get_relim_input(transactions)
item_sets = itemmining.relim(relim_input, min_support=50)

In [44]:
item_sets

{frozenset({'py'}): 50,
 frozenset({'wa'}): 50,
 frozenset({'y'}): 50,
 frozenset({'ɑ̃twan'}): 50,
 frozenset({'sɔ̃'}): 51,
 frozenset({'tɔ̃be'}): 51,
 frozenset({'gʁɔ'}): 53,
 frozenset({'kʁitɔf'}): 53,
 frozenset({'n'}): 53,
 frozenset({'bɔ̃'}): 54,
 frozenset({'bjɛ̃'}): 55,
 frozenset({'ha'}): 55,
 frozenset({'de'}): 57,
 frozenset({'laba'}): 57,
 frozenset({'tjɛ̃'}): 57,
 frozenset({'vwa'}): 58,
 frozenset({'fini'}): 60,
 frozenset({'mɑ̃ʒe'}): 60,
 frozenset({'paskə'}): 60,
 frozenset({'mm'}): 61,
 frozenset({'tʁwa'}): 64,
 frozenset({'apʁɛ'}): 65,
 frozenset({'kə'}): 67,
 frozenset({'ʃ'}): 67,
 frozenset({'s'}): 69,
 frozenset({'ta'}): 70,
 frozenset({'tɔ̃tɔ̃'}): 70,
 frozenset({'me'}): 72,
 frozenset({'dy'}): 73,
 frozenset({'vy'}): 73,
 frozenset({'t', 'vy'}): 55,
 frozenset({'a', 't', 'vy'}): 52,
 frozenset({'a', 'vy'}): 65,
 frozenset({'kase'}): 77,
 frozenset({'atɑ̃'}): 78,
 frozenset({'avɛk'}): 78,
 frozenset({'ʁəgaʁd'}): 79,
 frozenset({'ma'}): 82,
 frozenset({'mami'}): 82,

#### Assocation rules

In [46]:
rules = assocrules.mine_assoc_rules(item_sets, min_support=2, min_confidence=0.5)
rules

[(frozenset({'a', 't'}), frozenset({'vy'}), 52, 0.6046511627906976),
 (frozenset({'t', 'vy'}), frozenset({'a'}), 52, 0.9454545454545454),
 (frozenset({'vy'}), frozenset({'a', 't'}), 52, 0.7123287671232876),
 (frozenset({'a', 'vy'}), frozenset({'t'}), 52, 0.8),
 (frozenset({'vy'}), frozenset({'t'}), 55, 0.7534246575342466),
 (frozenset({'vy'}), frozenset({'a'}), 65, 0.8904109589041096),
 (frozenset({'t'}), frozenset({'a'}), 86, 0.6231884057971014),
 (frozenset({'kɔm'}), frozenset({'sa'}), 85, 0.6115107913669064),
 (frozenset({'il'}), frozenset({'ɛ'}), 88, 0.5086705202312138)]

Comment interpréter ces résultats ?
 - Les phrases contenant un 'ʒ' elle ont 39% de chance de contenir un 'e'
 - 

### Sequential Pattern Extraction

In [15]:
sequences = pho_antoine['contenu'].str.split(' ').tolist()
#sequences

In [16]:
freq_seqs = seqmining.freq_seq_enum(sequences, 100)
for seq in freq_seqs:
    print(seq)

(('ja',), 138)
(('sa',), 648)
(('aː',), 154)
(('dø',), 197)
(('ʒə',), 212)
(('ʒ',), 318)
(('twa',), 103)
(('la',), 1023)
(('d',), 116)
(('ɛ',), 485)
(('pa',), 700)
(('ty',), 237)
(('œ̃̃',), 270)
(('ə',), 253)
(('bɛ̃',), 214)
(('sɛ',), 573)
(('l',), 368)
(('si',), 148)
(('ø',), 128)
(('pø',), 114)
(('va',), 211)
(('wiʃ',), 125)
(('œ̃',), 245)
(('nɑ̃',), 307)
(('lə',), 342)
(('papa',), 163)
(('ɛ̃',), 201)
(('lɛ',), 189)
(('mɛ',), 167)
(('fɛ',), 102)
(('se',), 290)
(('fe',), 129)
(('tu',), 118)
(('u',), 108)
(('a', 'a'), 100)
(('na',), 104)
(('ɔ̃',), 225)
(('vwatyʁ',), 139)
(('dɑ̃',), 124)
(('il',), 173)
(('ɛl',), 137)
(('o',), 220)
(('i',), 487)
(('isi',), 109)
(('kɔm',), 139)
(('χ',), 104)
(('a',), 1427)
(('e',), 856)
(('mː',), 121)
(('ɔ',), 209)
(('mwa',), 249)
(('t',), 138)
(('wi',), 855)
(('X',), 441)
(('nɔ̃',), 579)
(('kwa',), 129)
(('ɑ̃',), 128)
(('m',), 627)
(('yn',), 199)
(('də',), 179)
(('mamɑ̃',), 211)
(('vø',), 179)
(('ʒ', 'e'), 114)


Comment interpréter ces résultats ?

In [17]:
'''
df = pho_antoine[{'age', 'contenu'}].groupby('age') # On regroupe les phrases par l'age de l'enfant (par enregistrement)
df = pd.DataFrame(df)
print(len(df[1][0]['contenu'])) # Pour le 1er enregistrement on a 186 phrases
print(len(df))
df[1][0]['contenu'].str.split(' ').tolist()
df[1][1]['contenu'].values
sequences = []
for i in range(df.shape[0]):
    tup = tuple(df[1][i]['contenu'].str.split(' ').tolist())
    sequences.append(tup)
'''

"\ndf = pho_antoine[{'age', 'contenu'}].groupby('age') # On regroupe les phrases par l'age de l'enfant (par enregistrement)\ndf = pd.DataFrame(df)\nprint(len(df[1][0]['contenu'])) # Pour le 1er enregistrement on a 186 phrases\nprint(len(df))\ndf[1][0]['contenu'].str.split(' ').tolist()\ndf[1][1]['contenu'].values\nsequences = []\nfor i in range(df.shape[0]):\n    tup = tuple(df[1][i]['contenu'].str.split(' ').tolist())\n    sequences.append(tup)\n"

In [18]:
'''
sequences[0] # On retrouve notre liste des mots par phrase du 1er enregistrement
len(sequences[0])
relim_input = itemmining.get_relim_input(sequences[6])

item_sets = itemmining.relim(relim_input, min_support=50)
item_sets
'''

'\nsequences[0] # On retrouve notre liste des mots par phrase du 1er enregistrement\nlen(sequences[0])\nrelim_input = itemmining.get_relim_input(sequences[6])\n\nitem_sets = itemmining.relim(relim_input, min_support=50)\nitem_sets\n'

## Item : phonème

Quels sont les phonèmes uniques présent dans le corpus ? 

# /!\ TODO /!\

In [19]:
IPA = "a,r,l,e,s,i,ɛ,ə,t,k,p,d,m,ɑ̃,n,u,v,o,y,ɔ̃,ʒ,ɔ,ɛ̃,f,b,j,w,ɥ,z,ø,ʃ,œ̃,œ,g,ɑ,ɲ,tr,kr,dr,gr" 
IPA = IPA.split(',')

def ipa_(x): 
    x=x.replace('ɑ̃','0')
    x=x.replace('ã','0') ## ??
    x=x.replace('ɔ̃','1') 
    x=x.replace('ɛ̃','2') 
    x=x.replace('œ̃','3') 
    x=x.replace('tʁ','4')
    x=x.replace('kʁ','5')
    x=x.replace('dʁ','6')
    x=x.replace('gʁ','7')
    
    x=x.replace('ː', '')
    
    return x

In [20]:
#pho_antoine = ipa_(pho_antoine)

In [21]:
a = 'puʁ diʁ mɛgʁsi d tɑ̃ zɑ̃ tã i di i di si'
a = ipa_(a)
a

'puʁ diʁ mɛ7si d t0 z0 t0 i di i di si'

On modifie les phonènes du corpus, en fontcion de ceux présent dans la fonction ipa_()

In [22]:
for index, value in enumerate(pho_antoine['contenu']):
    pho_antoine['contenu'][index] = ipa_(value)

In [25]:
pho_antoine

Unnamed: 0,enfant,age,type,seconde_debut,seconde_fin,contenu
1228,ANTOINE,1_00_24,pho,,,a
1230,ANTOINE,1_00_24,pho,,,a
1319,ANTOINE,1_00_24,pho,,,ahaa
1326,ANTOINE,1_00_24,pho,,,a
1342,ANTOINE,1_00_24,pho,,,ajabə
1352,ANTOINE,1_00_24,pho,,,abi
1363,ANTOINE,1_00_24,pho,,,a
1385,ANTOINE,1_00_24,pho,,,a
1399,ANTOINE,1_00_24,pho,,,bwaha
1419,ANTOINE,1_00_24,pho,,,a


In [47]:
df_item_in_rows('a', pho_antoine)

Unnamed: 0,enfant,age,type,seconde_debut,seconde_fin,contenu
1228,ANTOINE,1_00_24,pho,,,a
1230,ANTOINE,1_00_24,pho,,,a
1319,ANTOINE,1_00_24,pho,,,ahaa
1326,ANTOINE,1_00_24,pho,,,a
1342,ANTOINE,1_00_24,pho,,,ajabə
1352,ANTOINE,1_00_24,pho,,,abi
1363,ANTOINE,1_00_24,pho,,,a
1385,ANTOINE,1_00_24,pho,,,a
1399,ANTOINE,1_00_24,pho,,,bwaha
1419,ANTOINE,1_00_24,pho,,,a


In [None]:
pho_antoine['contenu']

In [None]:
transactions = pho_antoine['contenu'].str.split('').tolist()
pho_col = pd.DataFrame(transactions)
pho_col = pd.unique(pho_col.values.ravel())
pho_col = pd.DataFrame(pho_col)
pho_col = pho_col.dropna()
print(len(pho_col))
#pho_col

In [None]:
#corpus = pho_antoine['contenu'].str.split(' ').tolist()
#transactions = []
#for list in corpus:
#    transactions.append(indexed_list(list)[0])

#### Récupérer les phrases qui contiennent une chaîne de caractère étrange

In [None]:
for pho in pho_col.values:
    #print(str(pho[0]))
    print(' phonème : '+str(pho[0])+' - '+ str(len(df_item_in_rows(str(pho[0]), pho_antoine))))

### Algorithm Frequent Itemset Mining

### Sequential Pattern Extraction

# 2. Retranscription phonémique
------------------------

# 3. Phonémes indexés
---

Le but est d'indexer les phonèmes en fonction de leur placement dans un mot:
 - Le phonème est placé en début de mot
 - Le phonème est placé en milieu de mot
 - Le phonème est placé en fin de mot

In [11]:
def indexed(x):
    """
        Index de phonème
        retourne list contenant les phonèmes indexés
        param : x (string) un mot phonétique
    """
    l = []
    # On décide de recoder les phonèmes suivant pour des raisons d'encodage
    #x=x.replace('ʁ','r') 
    x=x.replace('ɑ̃','0')
    x=x.replace('ɔ̃','1') 
    x=x.replace('ɛ̃','2') 
    x=x.replace('œ̃','3') 
    x=x.replace('tʁ','4')
    x=x.replace('kʁ','5')
    x=x.replace('dʁ','6')
    x=x.replace('gʁ','7')
    
    for i in range(0,len(x)): # On parcours chaque charactère du mot
        suff = '_d'           # On considère que le 1er charactère lu est au début du mot
        if(i>0):              # Ensuite on considère que tout les autres charactères sont en milieu de mot
            suff = '_m'
            if(i==len(x)-1):  # Sauf pour le dernier charactère lu
                suff = '_f'   
        l.append(x[i]+suff)   # On ajouter le phonème indexé 
    
    return l

In [12]:
#test = 'az'
test = 'kʁɑ̃liʁ'
#test = 'vœgaʃ'
#test = 'e'
indexed(test)

['5_d', '0_m', 'l_m', 'i_m', 'ʁ_f']

Attention la longueur des mots n'est plus la même

In [13]:
x = 'kʁɑ̃liʁ'
print(len(x))
print(len(indexed(x)))

7
5


# /!\ Verifier dans chaque corpus que les phonèmes que l'ont a recodé sont bien écrit de la même façon par les retranscripteurs /!\

In [14]:
def indexed_list(list):
    '''
        param : list (list)
        return
    '''
    l = []
    for word in list:
        l.append(indexed(word))
    return l

In [15]:
a = pho_antoine[-1:]['contenu'].str.split(' ').tolist()
a = a[0]
print(a)
print(indexed_list(a))

['dɛ', 'kʁəpɛt', 'e', 'dɛ', 'kʁab']
[['d_d', 'ɛ_f'], ['5_d', 'ə_m', 'p_m', 'ɛ_m', 't_f'], ['e_d'], ['d_d', 'ɛ_f'], ['5_d', 'a_m', 'b_f']]


In [16]:
b = ['eː','bɛ','vœga','gatœ̃','kaka','dœjøkɛka','m','taka','dɛka','gøgega','kaga','gɛda','eka','memː','kakam','kaka X','gli',
 'ta','da','lœ','gɛga','ɛ̃ɑ̃','iː','gɛga','ga','ga','gɛga','ɛɛeeiː','iii','gegɛga','gagaga','mœdada','mːmmaː','mamamamamamœkaga',
 'gaʁd','awaøː','œgaʁd','vega','ge','ga','œ̃','ɛ','mː','vøga','emɛ','myjajaja','lala','ejɛːajajajajajɛjɛːɛ',
 'ejɛajajajajajajɛɛ','nenenenenja','øgagagagaga','øga','nana','ga','a','ɔːmaː','øgaga','bølala','ala','m',
 'maːmmmœmœmː','øgalaøwa','la','X œgaga œga œga','gagaga','ma','gaga','ga a aː','a gagagaga','œ','gaga','aga',
 'gagad','bøgaga','øga','gaga','bøga','aː','gaga','gaga','ala','ga','gala','ga']

# indexed_list(b)

## Item : phonème indexé

In [27]:
corpus = pho_antoine['contenu'].str.split(' ').tolist()
transactions = []
for list in corpus:
    transactions.append(indexed_list(list)[0])
transactions

[['a_d'],
 ['a_d'],
 ['a_d', 'h_m', 'a_m', 'a_f'],
 ['a_d'],
 ['a_d', 'j_m', 'a_m', 'b_m', 'ə_f'],
 ['a_d', 'b_m', 'i_f'],
 ['a_d'],
 ['a_d'],
 ['b_d', 'w_m', 'a_m', 'h_m', 'a_f'],
 ['a_d'],
 ['a_d'],
 ['y_d', 'i_f'],
 ['a_d'],
 ['a_d'],
 ['ɛ_d'],
 ['a_d'],
 ['a_d', 'a_m', 'a_m', 'a_m', 'a_m', 'a_f'],
 ['ɛ_d', 'd_m', 'ə_m', 'd_f'],
 ['a_d', 'a_f'],
 ['a_d', 'b_m', 'ə_m', 'b_m', 'ə_f'],
 ['ə_d'],
 ['h_d', 'i_m', 'h_m', 'i_f'],
 ['a_d'],
 ['w_d', 'a_f'],
 ['d_d', 'a_m', 't_m', 'a_m', 't_m', 'a_m', 't_m', 'a_f'],
 ['t_d', 'a_m', 't_m', 'a_f'],
 ['h_d', 'ɛ_f'],
 ['e_d', 't_m', 'ɛ_f'],
 ['e_d', 't_m', 'a_f'],
 ['n_d', 'ɔ_m', 'p_f'],
 ['n_d', 'e_m', 'i_f'],
 ['a_d'],
 ['a_d'],
 ['e_d'],
 ['m_d'],
 ['a_d'],
 ['a_d'],
 ['a_d'],
 ['X_d', 's_m', 'ː_m', 'i_f'],
 ['v_d', 'w_m', 'a_m', 'l_m', 'a_f'],
 ['X_d', 'm_m', 'a_f'],
 ['m_d', 'ə_m', 'w_m', '2_m', 'm_m', '2_f'],
 ['ɲ_d', 'a_m', 'm_m', 'ː_f'],
 ['n_d', 'ɲ_m', 'i_m', 'n_m', 'i_m', 'n_m', 'i_m', 'n_m', 'i_f'],
 ['n_d', 'ː_f'],
 ['a_d', 'ː_f'],
 

In [18]:
item_col = pd.DataFrame(transactions)
item_col = pd.unique(item_col.values.ravel())
item_col = pd.DataFrame(item_col)
item_col = item_col.dropna()
print(len(item_col))
item_col

153


Unnamed: 0,0
0,a_d
2,h_m
3,a_m
4,a_f
5,j_m
6,b_m
7,ə_f
8,i_f
9,b_d
10,w_m


Notre collection d'item est de 153 phonèmes indexés

### Algorithm Frequent Itemset Mining

In [19]:
relim_input = itemmining.get_relim_input(transactions)
item_sets = itemmining.relim(relim_input, min_support=100)

Support minimun : 100

In [20]:
item_sets

{frozenset({'k_f'}): 110,
 frozenset({'ʃ_m'}): 119,
 frozenset({'1_d'}): 121,
 frozenset({'d_f'}): 131,
 frozenset({'a_m', 'd_f'}): 104,
 frozenset({'2_d'}): 133,
 frozenset({'f_d'}): 143,
 frozenset({'̃_f'}): 144,
 frozenset({'3_d', '̃_f'}): 126,
 frozenset({'ʃ_d'}): 152,
 frozenset({'ʁ_d'}): 155,
 frozenset({'a_m', 'ʁ_d'}): 104,
 frozenset({'ø_d'}): 157,
 frozenset({'v_m'}): 164,
 frozenset({'y_m'}): 170,
 frozenset({'y_d'}): 172,
 frozenset({'s_f'}): 173,
 frozenset({'0_m'}): 175,
 frozenset({'h_d'}): 178,
 frozenset({'g_m'}): 187,
 frozenset({'g_m', 'ə_m'}): 104,
 frozenset({'a_m', 'g_m'}): 141,
 frozenset({'o_d'}): 191,
 frozenset({'u_d'}): 194,
 frozenset({'u_f'}): 199,
 frozenset({'ɔ_f'}): 200,
 frozenset({'l_f'}): 201,
 frozenset({'o_m'}): 204,
 frozenset({'t_f'}): 204,
 frozenset({'ø_f'}): 204,
 frozenset({'ʃ_f'}): 212,
 frozenset({'i_m', 'ʃ_f'}): 123,
 frozenset({'i_m', 'w_d', 'ʃ_f'}): 109,
 frozenset({'w_d', 'ʃ_f'}): 111,
 frozenset({'0_d'}): 218,
 frozenset({'0_d', 'k_m'}):

#### Assocation rules

In [21]:
rules = assocrules.mine_assoc_rules(item_sets, min_support=10, min_confidence=0.5)

    Support minimum : 10
    Confidence minimum : 0.5

In [22]:
rules

[(frozenset({'i_m', 'ʃ_f'}), frozenset({'w_d'}), 109, 0.8861788617886179),
 (frozenset({'ʃ_f'}), frozenset({'i_m', 'w_d'}), 109, 0.5141509433962265),
 (frozenset({'i_m', 'w_d'}), frozenset({'ʃ_f'}), 109, 0.5317073170731708),
 (frozenset({'w_d', 'ʃ_f'}), frozenset({'i_m'}), 109, 0.9819819819819819),
 (frozenset({'a_m', 'm_m'}), frozenset({'m_d'}), 133, 0.6751269035532995),
 (frozenset({'a_m', 'm_d'}), frozenset({'m_m'}), 133, 0.6551724137931034),
 (frozenset({'m_d', 'm_m'}), frozenset({'a_m'}), 133, 0.8012048192771084),
 (frozenset({'k_m', 'ɔ_m'}), frozenset({'ʁ_f'}), 120, 0.6521739130434783),
 (frozenset({'ɔ_m', 'ʁ_f'}), frozenset({'k_m'}), 120, 0.6557377049180327),
 (frozenset({'k_m', 'ʁ_f'}), frozenset({'ɔ_m'}), 120, 0.9090909090909091),
 (frozenset({'a_f', 'l_m'}), frozenset({'a_m'}), 109, 0.5369458128078818),
 (frozenset({'a_m', 'l_m'}), frozenset({'a_f'}), 109, 0.5396039603960396),
 (frozenset({'d_f'}), frozenset({'a_m'}), 104, 0.7938931297709924),
 (frozenset({'̃_f'}), frozenset(

### Sequential Pattern Extraction

#### Les séquences

In [28]:
corpus = pho_antoine['contenu'].str.split(' ').tolist()
sequences = []
for list in corpus:
    sequences.append(indexed_list(list)[0])
sequences

[['a_d'],
 ['a_d'],
 ['a_d', 'h_m', 'a_m', 'a_f'],
 ['a_d'],
 ['a_d', 'j_m', 'a_m', 'b_m', 'ə_f'],
 ['a_d', 'b_m', 'i_f'],
 ['a_d'],
 ['a_d'],
 ['b_d', 'w_m', 'a_m', 'h_m', 'a_f'],
 ['a_d'],
 ['a_d'],
 ['y_d', 'i_f'],
 ['a_d'],
 ['a_d'],
 ['ɛ_d'],
 ['a_d'],
 ['a_d', 'a_m', 'a_m', 'a_m', 'a_m', 'a_f'],
 ['ɛ_d', 'd_m', 'ə_m', 'd_f'],
 ['a_d', 'a_f'],
 ['a_d', 'b_m', 'ə_m', 'b_m', 'ə_f'],
 ['ə_d'],
 ['h_d', 'i_m', 'h_m', 'i_f'],
 ['a_d'],
 ['w_d', 'a_f'],
 ['d_d', 'a_m', 't_m', 'a_m', 't_m', 'a_m', 't_m', 'a_f'],
 ['t_d', 'a_m', 't_m', 'a_f'],
 ['h_d', 'ɛ_f'],
 ['e_d', 't_m', 'ɛ_f'],
 ['e_d', 't_m', 'a_f'],
 ['n_d', 'ɔ_m', 'p_f'],
 ['n_d', 'e_m', 'i_f'],
 ['a_d'],
 ['a_d'],
 ['e_d'],
 ['m_d'],
 ['a_d'],
 ['a_d'],
 ['a_d'],
 ['X_d', 's_m', 'ː_m', 'i_f'],
 ['v_d', 'w_m', 'a_m', 'l_m', 'a_f'],
 ['X_d', 'm_m', 'a_f'],
 ['m_d', 'ə_m', 'w_m', '2_m', 'm_m', '2_f'],
 ['ɲ_d', 'a_m', 'm_m', 'ː_f'],
 ['n_d', 'ɲ_m', 'i_m', 'n_m', 'i_m', 'n_m', 'i_m', 'n_m', 'i_f'],
 ['n_d', 'ː_f'],
 ['a_d', 'ː_f'],
 

#### Les séquences fréquentes

In [30]:
freq_seqs = seqmining.freq_seq_enum(sequences, 500)
for seq in freq_seqs:
    print(seq)

(('1_f',), 623)
(('l_d',), 783)
(('b_d',), 664)
(('ː_f',), 1179)
(('a_m',), 1718)
(('t_d',), 675)
(('m_d',), 1389)
(('n_d',), 1119)
(('k_m',), 555)
(('e_f',), 745)
(('l_m',), 526)
(('p_d',), 624)
(('0_f',), 594)
(('w_m',), 601)
(('w_d',), 1143)
(('ɔ_m',), 501)
(('i_m',), 890)
(('ɛ_f',), 672)
(('i_f',), 1540)
(('a_f',), 2161)
(('s_d',), 886)
(('i_d',), 615)
(('a_d',), 2110)
(('e_d',), 780)
(('t_m',), 743)
(('w_d', 'i_f'), 697)
