<a href="https://colab.research.google.com/github/Marine27/TER/blob/master/PatternMining/Process_for_structure_pm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Mise en forme des donnees pour le *Pattern Mining*

### Imports

In [1]:
import pandas as pd  
import numpy as np
import warnings

### Recuperation et preparation des donnnees

In [2]:
#Chargement du jeu de donnees
data_child = pd.read_csv('/Users/marine/Desktop/Projet_TER/TER/data/data_madeleine_final.csv',
                           sep = '\t',
                           encoding = 'utf-8',
                           index_col = False)

# Supression de la colonne qui duplique l'index
data_child = data_child.drop(columns = 'Unnamed: 0') 

# Recuperation de la partie phonetique des intervention de l'enfant
data_child = data_child.where(data_child['type']=='pho').dropna(subset=['type'])

# Conservation des deux colonnes avec des informations pertinantes 
data_child = data_child[['age','contenu']]

# Creer un indexage a partir de cet ordre
data_child['index']=[ i for i in range(len(data_child))]
data_child= data_child.set_index('index')

# Creation d'un numpy utile par la suite pour les boucles
ages = data_child.age.unique()

# Indexage par l'age de l'enfant
age = data_child['age']

l=[i for i in range(len(age))]
k=[age.values]
k.append(l)
tuples = list(zip(*k))

index = pd.MultiIndex.from_tuples(tuples, names=['age', 'index'])
data_child.set_index(index,inplace=True)

# Supression de la colonne age car present en index
data_child=data_child[['contenu']]

data_child.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,contenu
age,index,Unnamed: 2_level_1
1_00_05,0,eː
1_00_05,1,bɛ
1_00_05,2,vœga
1_00_05,3,gatœ̃
1_00_05,4,kaka


### Demarches pour la division de chaque enregistrement en 4 parties

In [3]:
# Sépare en mots au lieu de phrases
mots = {}
for i in list(ages):
    # recupere toutes les phrases a la i eme date
    phrases = data_child['contenu'].loc[i].values
    # creer une variable texte avec toutes les phrases
    phrase = ' '.join(phrases)
    # sépare en mot
    mots[i] = phrase.split()
    
# se parcourt avec un age en parametre
#mots["1_00_05"]

In [4]:
# Sépare en 4 "enfants" chaque enregistrement
enregistrement = {}
sizes = []
for i in list(ages):
    # recupere tout les mots a la i eme date
    #data = data_child['contenu'].loc[i].values
    data = mots[i]
    # separe les mots en 4 groupes ( 3 goupes de meme dim et le dernier avec le reste)
    if len(data)<4:
        warnings.warn("\nAttention un l'enregistrement "+ i + " contient moins de 4 mots")
    s = len(data)//4
    sizes.append(s)
    enfant1 = data[:s]
    enfant2 = data[s:2*s]
    enfant3 = data[2*s:3*s]
    enfant4 = data[3*s:]
    # creer une variable texte de chaque goupe
    #enfant1 = ' '.join(enfant1)
    #enfant2 = ' '.join(enfant2)
    #enfant3 = ' '.join(enfant3)
    #enfant4 = ' '.join(enfant4)
    
    enfant1 = tuple(enfant1)
    enfant2 = tuple(enfant2)
    enfant3 = tuple(enfant3)
    enfant4 = tuple(enfant4)
    
    # sépare en 4 enfants
    enregistrement[i] = [enfant1, enfant2, enfant3, enfant4]
    
# se parcourt avec un age en parametre
#enregistrement["1_00_05"]

Attention un l'enregistrement 6_11_27 contient moins de 4 mots
  # Remove the CWD from sys.path while we load stuff.


In [5]:
# Pour avoir une idée du nombre de mots par enregistrement après répartition
pd.DataFrame(sizes[:-1]).describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
0,34.0,395.588235,285.178744,15.0,126.75,364.0,646.25,1101.0


In [6]:
# Crée une DataFrame de toutes les donnees
tab_4groupes = []
#sizes = []
for i in list(ages):
    t = enregistrement[i]
    #s = len(t)
    tab_4groupes.append(t)
    #sizes.append(s)
    
tab_madeleine = pd.DataFrame(tab_4groupes)

etiquettes = ["madeleine_enfant1",
              "madeleine_enfant2", 
              "madeleine_enfant3", 
              "madeleine_enfant4"]

tab_madeleine.columns = etiquettes

tab_madeleine.head()
# tab_madeleine.loc[1] recherche par numero de l'enregistrement
# tab_madeleine[1] recherche par numero de l'enfant

Unnamed: 0,madeleine_enfant1,madeleine_enfant2,madeleine_enfant3,madeleine_enfant4
0,"(eː, bɛ, vœga, gatœ̃, kaka, dœjøkɛka, m, taka,...","(gla, ga, ga, gøga, gøga, ga, gaga, a, deda, œ...","(gaga, gaga, gagaga, ga, mœmœmœmœ, ala, adla, ...","(œmøː, œmøː, gaga, gagaga, daɥy, aga, œm, œm, ..."
1,"(ja, aljɛla, jaka, meja, agø, ga, beːja, ʃa, o...","(ʃa, ʃa, ʃa, ʃa, ʃa, ʃa, ʃa, ʃa, ʃa, aja, ja, ...","(ʃa, ejaː, edjadjajaaa, edahahaoga, u, ajne, e...","(ada, aja, gɛʒeʒa, ajəda, dedaː, da, ega, ja, ..."
2,"(je, ʃidɔm, øʃi, alapa, ʃː, ʃ, a, ʃa, øː, aaː,...","(bɛ, y, øː, ʃ, mememebuja, eaa, iɲa, ia, ʃɛ̃, ...","(ʃa, ʒy, aːaːɛ, ɛɛ, sə, wauːua, a, χ, wa, waa,...","(bidun, bida, bjɛtna, bebøː, dakula, daguba, m..."
3,"(evøpuʃa, gegedɔ̃, dɔ, ty, hɛsys, ejə, ʃa, gøt...","(mama, mama, bekaliʃaʃa, øtatɛ, mama, løʃa, pe...","(ʃa, ʃa, ʃa, ʃa, ʃa, ʃa, ʃa, ʃːa, səba, ʃa, ʃa...","(lelɛ, lala, lala, uu, iː, jejejejejee, eː, mː..."
4,"(i, lɛ, vwa, a, aː, ti, vwa, aː, ty, pø, t, as...","(wikɔ, ejdøwa, ɛʃa, pøpa, ɛøgødididitetɛe, bøb...","(wœ, wa, wawa, pwapwa, awœ, œœ, ba, m, jeje, e...","(jije, ini, œː, i, ʃi, uba, veve, tilele, nine..."


### Addaptation de la structure

In [7]:
# transactions = (('a', 'b', 'c'), ('b'), ('a'), ('a', 'c', 'd'), ('b', 'c'), ('b', 'c'))
# doit etre de cette forme:
# madeleine_enfant1 = transactions
# un enregistrement = ('a', 'b', 'c')
# un mot = 'a'

In [8]:
madeleine_enfant1 = tuple(tab_madeleine["madeleine_enfant1"][:-1])
madeleine_enfant2 = tuple(tab_madeleine["madeleine_enfant2"][:-1])
madeleine_enfant3 = tuple(tab_madeleine["madeleine_enfant3"][:-1])
madeleine_enfant4 = tuple(tab_madeleine["madeleine_enfant4"][:])

In [9]:
print(type(madeleine_enfant1))
#print(madeleine_enfant1)

<class 'tuple'>


### PATTERN MINING

In [10]:
from pymining import itemmining
from pymining import assocrules

from pymining import seqmining

In [13]:
min_supp = 20
relim_input = itemmining.get_relim_input(madeleine_enfant1)
item_sets = itemmining.relim(relim_input, min_support=min_supp) # min_support= nbr au pif < lignes
item_sets

{frozenset({'de'}): 20,
 frozenset({'de', 'mwa'}): 20,
 frozenset({'de', 'mwa', 'pa'}): 20,
 frozenset({'de', 'mwa', 'pa', 'sa'}): 20,
 frozenset({'de', 'la', 'mwa', 'pa', 'sa'}): 20,
 frozenset({'a', 'de', 'la', 'mwa', 'pa', 'sa'}): 20,
 frozenset({'a', 'de', 'mwa', 'pa', 'sa'}): 20,
 frozenset({'de', 'la', 'mwa', 'pa'}): 20,
 frozenset({'a', 'de', 'la', 'mwa', 'pa'}): 20,
 frozenset({'a', 'de', 'mwa', 'pa'}): 20,
 frozenset({'de', 'mwa', 'sa'}): 20,
 frozenset({'de', 'la', 'mwa', 'sa'}): 20,
 frozenset({'a', 'de', 'la', 'mwa', 'sa'}): 20,
 frozenset({'a', 'de', 'mwa', 'sa'}): 20,
 frozenset({'de', 'la', 'mwa'}): 20,
 frozenset({'a', 'de', 'la', 'mwa'}): 20,
 frozenset({'a', 'de', 'mwa'}): 20,
 frozenset({'de', 'pa'}): 20,
 frozenset({'de', 'pa', 'sa'}): 20,
 frozenset({'de', 'la', 'pa', 'sa'}): 20,
 frozenset({'a', 'de', 'la', 'pa', 'sa'}): 20,
 frozenset({'a', 'de', 'pa', 'sa'}): 20,
 frozenset({'de', 'la', 'pa'}): 20,
 frozenset({'a', 'de', 'la', 'pa'}): 20,
 frozenset({'a', 'de', 

In [14]:
rules = assocrules.mine_assoc_rules(item_sets, min_support=min_supp, min_confidence=0.5)
rules

[(frozenset({'a', 'la', 'mwa', 'pa', 'va', 'wi', 'ɔ̃'}),
  frozenset({'sa'}),
  20,
  1.0),
 (frozenset({'la', 'mwa', 'pa', 'va', 'wi', 'ɔ̃'}),
  frozenset({'a', 'sa'}),
  20,
  1.0),
 (frozenset({'la', 'mwa', 'pa', 'wi', 'ɔ̃'}),
  frozenset({'a', 'sa', 'va'}),
  20,
  1.0),
 (frozenset({'la', 'mwa', 'pa', 'ɔ̃'}),
  frozenset({'a', 'sa', 'va', 'wi'}),
  20,
  1.0),
 (frozenset({'la', 'mwa', 'pa'}),
  frozenset({'a', 'sa', 'va', 'wi', 'ɔ̃'}),
  20,
  0.9523809523809523),
 (frozenset({'mwa', 'pa'}),
  frozenset({'a', 'la', 'sa', 'va', 'wi', 'ɔ̃'}),
  20,
  0.9523809523809523),
 (frozenset({'pa'}),
  frozenset({'a', 'la', 'mwa', 'sa', 'va', 'wi', 'ɔ̃'}),
  20,
  0.8),
 (frozenset({'mwa'}),
  frozenset({'a', 'la', 'pa', 'sa', 'va', 'wi', 'ɔ̃'}),
  20,
  0.8333333333333334),
 (frozenset({'la', 'mwa'}),
  frozenset({'a', 'pa', 'sa', 'va', 'wi', 'ɔ̃'}),
  20,
  0.9090909090909091),
 (frozenset({'la'}),
  frozenset({'a', 'mwa', 'pa', 'sa', 'va', 'wi', 'ɔ̃'}),
  20,
  0.6896551724137931),
 (fro

In [16]:
import time

In [None]:
#seqs = ( 'caabc', 'abcb', 'cabc', 'abbca')
seqs = madeleine_enfant1

freq_seqs = seqmining.freq_seq_enum(seqs, 10)
for seq in freq_seqs:
    print (seq)