# Etude des motifs - Antoine

Nous étudions les motifs présents dans le corpus d'Antoine. 
1. Dans un premier temps on se base sur les retranscriptions phonétiques d'Antoine issu de l'alphabet phonétique. 
2. Puis on se base les retranscriptions phonémiques issue de l'alphabet Fançais. 
3. Finalement, on se base sur les retranscriptions phonétiques d'Antoine que l'on pondèrent par la localisation du phonème dans le mot et par sa "valeur" de prononciation.  


Dans cette étude, on définit les items comme :
 - Un mot
 - Un phonème
 
Pour chaque items on utilise des algorithmes : 
 - Frequent Itemset Mining
 - Sequential Pattern Extraction
 
 Le but de cette étude est d'extraire les motifs fréquents du corpus.


In [1]:
from pymining import itemmining, assocrules, seqmining
import pandas as pd
import os

## Chargement des données

In [2]:
os.chdir('C:\\Users\\Lamou\\Desktop\\MIASHS\\TER_a\\data')
data_antoine = pd.read_csv('data_antoine_final.csv',
                           sep = '\t',
                           encoding = 'utf-8',
                           index_col=False)

# On supprime la colonne qui duplique les index
data_antoine = data_antoine.drop(columns = 'Unnamed: 0')

On récupère les retranscritpions phonétiques et phonémiques

In [3]:
chi_antoine = data_antoine[data_antoine['type'] == 'CHI']
pho_antoine = data_antoine[data_antoine['type'] == 'pho']

In [4]:
pho_antoine.head()

Unnamed: 0,enfant,age,type,seconde_debut,seconde_fin,contenu
1228,ANTOINE,1_00_24,pho,,,a
1230,ANTOINE,1_00_24,pho,,,a
1319,ANTOINE,1_00_24,pho,,,ahaa
1326,ANTOINE,1_00_24,pho,,,a
1342,ANTOINE,1_00_24,pho,,,ajabə


In [5]:
#chi_antoine.loc[chi_antoine['contenu']=='yyy .'] # Contient les phrases phonémiques 'yyy .'

In [6]:
#pho_antoine = pho_antoine['contenu']
pho_antoine.head()

Unnamed: 0,enfant,age,type,seconde_debut,seconde_fin,contenu
1228,ANTOINE,1_00_24,pho,,,a
1230,ANTOINE,1_00_24,pho,,,a
1319,ANTOINE,1_00_24,pho,,,ahaa
1326,ANTOINE,1_00_24,pho,,,a
1342,ANTOINE,1_00_24,pho,,,ajabə


Toutes les lignes du corpus strictement égalesà un item

In [7]:
pho_antoine.loc[pho_antoine['contenu'] == 'a'].head()

Unnamed: 0,enfant,age,type,seconde_debut,seconde_fin,contenu
1228,ANTOINE,1_00_24,pho,,,a
1230,ANTOINE,1_00_24,pho,,,a
1326,ANTOINE,1_00_24,pho,,,a
1363,ANTOINE,1_00_24,pho,,,a
1385,ANTOINE,1_00_24,pho,,,a


In [21]:
pho_antoine = pho_antoine.dropna(subset=['type', 'contenu'])

Toutes les lignes du corpus contenant un item

In [33]:
list = []
item = 'bɛ̃'
#item = '̃'
#item = ''
f=0
for i in pho_antoine['contenu']:
    
    if item in i:
        #print(i+str(f))
        list.append(pho_antoine.iloc[f])
        
    f+=1
df = pd.DataFrame(list)
df

Unnamed: 0,enfant,age,type,seconde_debut,seconde_fin,contenu
1556,ANTOINE,1_00_24,pho,,,ə bɛ̃
5858,ANTOINE,1_01_24,pho,,,bɛ̃
6856,ANTOINE,1_01_24,pho,,,bɛ̃
10170,ANTOINE,1_03_16,pho,,,bɛ̃
11228,ANTOINE,1_03_16,pho,,,bɛ̃
11642,ANTOINE,1_03_16,pho,,,bɛ̃
12200,ANTOINE,1_03_16,pho,,,bɛ̃
14901,ANTOINE,1_04_19,pho,,,bɛ̃
38899,ANTOINE,1_10_10,pho,,,ə bɛ̃
39313,ANTOINE,1_10_10,pho,,,a bɛ̃


In [9]:
# Suppression des valeurs nan
df_pho = pd.DataFrame(pho_antoine[{'age', 'contenu'}]).dropna()
df_pho

Unnamed: 0,contenu,age
1228,a,1_00_24
1230,a,1_00_24
1319,ahaa,1_00_24
1326,a,1_00_24
1342,ajabə,1_00_24
1352,abi,1_00_24
1363,a,1_00_24
1385,a,1_00_24
1399,bwaha,1_00_24
1419,a,1_00_24


Ici nous avons nos données préparées

### DataFrame selon la structure établie 

In [10]:
df = df_pho[{'age', 'contenu'}].groupby('age')
df = pd.DataFrame(df)

In [11]:
len(df[1][0]['contenu'])

186

In [12]:
df[1][0]['contenu'].str.split(' ').tolist()

[['a'],
 ['a'],
 ['ahaa'],
 ['a'],
 ['ajabə'],
 ['abi'],
 ['a'],
 ['a'],
 ['bwaha'],
 ['a'],
 ['a'],
 ['yi'],
 ['a'],
 ['a'],
 ['ɛ'],
 ['a'],
 ['aaaaaa'],
 ['ɛdəd'],
 ['aa'],
 ['abəbə', 'X'],
 ['ə', 'bɛ̃'],
 ['hihi'],
 ['a'],
 ['wa'],
 ['datatata'],
 ['tata', 'X'],
 ['hɛ'],
 ['etɛ'],
 ['eta'],
 ['nɔp'],
 ['nei'],
 ['a'],
 ['a'],
 ['e'],
 ['m'],
 ['a'],
 ['a'],
 ['a'],
 ['Xsːi'],
 ['vwala', 'tsːi'],
 ['Xma'],
 ['məwɛ̃mɛ̃'],
 ['ɲamː'],
 ['nɲininini'],
 ['nː'],
 ['aː'],
 ['mmː'],
 ['m'],
 ['m'],
 ['aa'],
 ['az'],
 ['a'],
 ['e'],
 ['aa'],
 ['wɛ̃'],
 ['a'],
 ['m'],
 ['m'],
 ['və'],
 ['m'],
 ['ɛ̃'],
 ['ɛ̃'],
 ['hm'],
 ['a'],
 ['jɛ'],
 ['ɛ'],
 ['mm'],
 ['aaa'],
 ['ɛː'],
 ['m'],
 ['anani'],
 ['nanane'],
 ['jan'],
 ['ɲa'],
 ['abububja'],
 ['sis'],
 ['a', 'aa', 'aa'],
 ['ɛː'],
 ['ɛ'],
 ['ɑ̃'],
 ['ɑ̃', 'owa'],
 ['mja'],
 ['a'],
 ['a'],
 ['a'],
 ['m', 'ɛ', 'a'],
 ['a'],
 ['a'],
 ['m', 'm', 'a', 'm', 'm'],
 ['a'],
 ['wu'],
 ['wɛ'],
 ['χ', 'wawawəwəwə'],
 ['əw', 'bəbə'],
 ['wəbə'],
 ['b', 'bəbəbəbab

In [21]:
df[1][1]['contenu'].values

array(['wɛ', 'ə', 'ə', 'm', 'lə nːe', 'nː', 'ba', 'əbvəbvəbvə', 'a', 'm',
       'nːne', 'nananana', 'mama', 'ə', 'əː ne', 'nːe', 'əː ne', 'əː ne',
       'nː', 'mɛ', 'aː', 'amamɛ̃', 'jah', 'a', 'nemamamawə', 'a', 'ne',
       'a', 'a', 'ne ne', 'ne', 'nː', 'ubv', 'nɛj', 'wɛ', 'wɛ̃', 'ɛlɛ̃',
       'mɛ̃', 'wɛ̃', 'a', 'bu', 'bu', 'a', 'ja', 'la', 'kəja', 'wa', 'a',
       'mɛ', 'mɛ', 'mɛ', 'aː', 'ba', 'bɛ', 'ləmømy', 'bea', 'e', 'a ba',
       'naa', 'mɛ̃mɛ̃', 'a', 'a', 'ae', 'bɛbɛ', 'aː', 'he', 'aa', 'he',
       'a', 'aː', 'aːajajaja', 'jaj', 'abababab', 'aj', 'ababa',
       'awawawawa', 'babababa', 'a', 'a', 'a', 'awy', 'aa', 'a', 'a', 'a',
       'a', 'a', 'jɛ̃', 'a', 'ja', 'la', 'tada', 'etatataa', 'wa', 'a',
       'a', 'a', 'aaaaa', 'e', 'a', 'lɛ̃', 'a', 'a', 'a', 'a', 'a', 'nːe',
       'aa', 'nːe nːɛ', 'ne', 'aha', 'ad', 'ba', 'ba', 'a', 'ne', 'a',
       'a', 'nːɛ', 'nːe', 'nː nː', 'wa', 'nːe', 'ne nəməby', 'buu', 'bɛ̃',
       'ɛbɛw', 'a', 'ɛja', 'e a', 'ja', 'aə', 'awə', 'a

In [14]:
sequences = []
for i in range(df.shape[0]):
    tup = tuple(df[1][i]['contenu'].str.split(' ').tolist())
    sequences.append(tup)

In [16]:
sequences[0]

(['a'],
 ['a'],
 ['ahaa'],
 ['a'],
 ['ajabə'],
 ['abi'],
 ['a'],
 ['a'],
 ['bwaha'],
 ['a'],
 ['a'],
 ['yi'],
 ['a'],
 ['a'],
 ['ɛ'],
 ['a'],
 ['aaaaaa'],
 ['ɛdəd'],
 ['aa'],
 ['abəbə', 'X'],
 ['ə', 'bɛ̃'],
 ['hihi'],
 ['a'],
 ['wa'],
 ['datatata'],
 ['tata', 'X'],
 ['hɛ'],
 ['etɛ'],
 ['eta'],
 ['nɔp'],
 ['nei'],
 ['a'],
 ['a'],
 ['e'],
 ['m'],
 ['a'],
 ['a'],
 ['a'],
 ['Xsːi'],
 ['vwala', 'tsːi'],
 ['Xma'],
 ['məwɛ̃mɛ̃'],
 ['ɲamː'],
 ['nɲininini'],
 ['nː'],
 ['aː'],
 ['mmː'],
 ['m'],
 ['m'],
 ['aa'],
 ['az'],
 ['a'],
 ['e'],
 ['aa'],
 ['wɛ̃'],
 ['a'],
 ['m'],
 ['m'],
 ['və'],
 ['m'],
 ['ɛ̃'],
 ['ɛ̃'],
 ['hm'],
 ['a'],
 ['jɛ'],
 ['ɛ'],
 ['mm'],
 ['aaa'],
 ['ɛː'],
 ['m'],
 ['anani'],
 ['nanane'],
 ['jan'],
 ['ɲa'],
 ['abububja'],
 ['sis'],
 ['a', 'aa', 'aa'],
 ['ɛː'],
 ['ɛ'],
 ['ɑ̃'],
 ['ɑ̃', 'owa'],
 ['mja'],
 ['a'],
 ['a'],
 ['a'],
 ['m', 'ɛ', 'a'],
 ['a'],
 ['a'],
 ['m', 'm', 'a', 'm', 'm'],
 ['a'],
 ['wu'],
 ['wɛ'],
 ['χ', 'wawawəwəwə'],
 ['əw', 'bəbə'],
 ['wəbə'],
 ['b', 'bəbəbəbab

In [None]:
relim_input = itemmining.get_relim_input(sequences[6])
item_sets = itemmining.relim(relim_input, min_support=1)
item_sets

In [None]:
freq_seqs = seqmining.freq_seq_enum(sequences[6], 2)
for seq in freq_seqs:
    print(seq)

# 1. Retranscription phonétique

## Item : mot

In [None]:
transactions = df_pho['contenu'].str.split(' ').tolist()
transactions

In [None]:
item_col = pd.DataFrame(transactions)
item_col = pd.unique(item_col.values.ravel())
item_col = pd.DataFrame(item_col)
item_col = item_col.dropna()
len(item_col)

Notre collection d'item est de 6089 mots

### Algorithm Frequent Itemset Mining

 - Quelle valeur de support minimum ? : A partir de quelle fréquence peut-on considérer qu'un item set est fréquent ? 

In [None]:
relim_input = itemmining.get_relim_input(transactions)
item_sets = itemmining.relim(relim_input, min_support=50)

In [None]:
item_sets

#### Assocation rules

In [None]:
rules = assocrules.mine_assoc_rules(item_sets, min_support=2, min_confidence=0.3)
rules

Comment interpréter ces résultats ?
 - Les phrases contenant un 'ʒ' elle ont 39% de chance de contenir un 'e'
 - 

## Item : phonème

Quels sont les phonèmes uniques présent dans le corpus ? 

In [None]:
transactions = df_pho['contenu'].str.split('').tolist()
pho_col = pd.DataFrame(transactions)
pho_col = pd.unique(pho_col.values.ravel())
pho_col = pd.DataFrame(pho_col)
pho_col = pho_col.dropna()
pho_col

#### Récupérer les phrases qui contiennent une chaîne de caractère

In [None]:
list = []
#pho = 'bɛ̃'
#pho = '̃'
pho = 'X'
for i in df_pho['contenu']:
    if pho in i:
        list.append(i)
df = pd.DataFrame(list)
        
df

In [None]:
pho in df[0][200]

# 2. Retransmission phonémique

# 3. Phonémes indexés

Le but est d'indexer les phonèmes en fonction de leur placement dans un mot:
 - Le phonème est placé en début de mot
 - Le phonème est placé en milieu de mot
 - Le phonème est placé en fin de mot

In [71]:
a = pho_antoine[-1:]['contenu'].values[0] # On récupère le string
a

'dɛ kʁəpɛt e dɛ kʁab'

In [22]:
b = ('eː',
 'bɛ',
 'vœga',
 'gatœ̃',
 'kaka',
 'dœjøkɛka',
 'm',
 'taka',
 'dɛka',
 'gøgega',
 'kaga',
 'gɛda',
 'eka',
 'memː',
 'kakam',
 'kaka X',
 'gli',
 'ta',
 'da',
 'lœ',
 'gɛga',
 'ɛ̃ɑ̃',
 'iː',
 'gɛga',
 'ga',
 'ga',
 'gɛga',
 'ɛɛeeiː',
 'iii',
 'gegɛga',
 'gagaga',
 'mœdada',
 'mːmmaː',
 'mamamamamamœkaga',
 'gaʁd',
 'awaøː',
 'œgaʁd',
 'vega',
 'ge',
 'ga',
 'œ̃',
 'ɛ',
 'mː',
 'vøga',
 'emɛ',
 'myjajaja',
 'lala',
 'ejɛːajajajajajɛjɛːɛ',
 'ejɛajajajajajajɛɛ',
 'nenenenenja',
 'øgagagagaga',
 'øga',
 'nana',
 'ga',
 'a',
 'ɔːmaː',
 'øgaga',
 'bølala',
 'ala',
 'm',
 'maːmmmœmœmː',
 'øgalaøwa',
 'la',
 'X œgaga œga œga',
 'gagaga',
 'ma',
 'gaga',
 'ga a aː',
 'a gagagaga',
 'œ',
 'gaga',
 'aga',
 'gagad',
 'bøgaga',
 'øga',
 'gaga',
 'bøga',
 'aː',
 'gaga',
 'gaga',
 'ala',
 'ga',
 'gala',
 'ga')

In [34]:
a = []
a.append('g')
print(a)

['g']


In [19]:
def index(x):
    """
        Index de phonème
        retourne list contenant les phonèmes indexés
        param : x (string) un mot phonétique
    """
    l = []
    #x=x.replace('ʁ','r') 
    x=x.replace('ɑ̃','0')
    x=x.replace('ɔ̃','1') 
    x=x.replace('ɛ̃', '2') 
    x=x.replace('œ̃','3') 
    x=x.replace('tʁ','4')
    x=x.replace('kʁ','5')
    x=x.replace('dʁ','6')
    x=x.replace('gʁ','7')
    
    
    for i in range(0,len(x)):
        suff = '_d'
        if(i>0):
            suff = '_m'
            if(i==len(x)-1):
                suff = '_f'
        l.append(x[i]+suff)
    
    return l
    

In [20]:
test = 'kʁɑ̃liʁ'
#test = 'vœgaʃ'
#test = 'e'
index(test)

['5_d', '0_m', 'l_m', 'i_m', 'ʁ_f']

In [81]:
x = 'krɑ̃liʁ'
print(len(x))
x=x.replace('ɑ̃','0')
x=x.replace('ɔ̃','1') 
x=x.replace('ɛ̃', '2') 
x=x.replace('œ̃','3') 
x=x.replace('tr','4')
x=x.replace('kr','5')
x=x.replace('dr','6')
x=x.replace('gr','7')
print(len(x))

7
5
