# Trouver les CF sous-jacentes dans les règles
Pour trouver les CF sous-jacentes dans les règles, on commence par calculer les contextes de transformation réciproque pour chaque paire de cases, c'est à dire pour chaque famille de règles de transformation

## Importations
- codecs pour les encodages
- pandas et numpy pour les calculs sur tableaux
- matplotlib pour les graphiques
- itertools pour les itérateurs sophistiqués (paires sur liste, ...)

In [1]:
# -*- coding: utf8 -*-
import codecs,glob
import features
import re
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import itertools as it
import networkx as nx
import pickle,yaml
#%pylab inline
#pd.options.display.mpl_style = 'default'
debug=False

### Préparation des matrices de traits

In [2]:
features.add_config('bdlexique.ini')
fs=features.FeatureSystem('phonemes')

In [3]:
rep="/Users/gilles/ownCloud/Recherche/Boye/HDR/Data/Longitudinales/"
rep="/Volumes/gilles/Transfert/Copies-iMac-GB/2015-Data/Longitudinales/"
fichiers=glob.glob(rep+"*X-Regles.pkl")
samples=[f.rsplit("/",1)[-1].split("Regles")[0] for f in fichiers]
samples={int(s.split("-")[1]):s for s in samples}
samples

{0: 'Longitudinal-00-T10000-F3663-X-',
 1: 'Longitudinal-01-T20000-F5816-X-',
 2: 'Longitudinal-02-T30000-F7497-X-',
 3: 'Longitudinal-03-T40000-F8900-X-',
 4: 'Longitudinal-04-T50000-F10082-X-',
 5: 'Longitudinal-05-T60000-F11252-X-',
 6: 'Longitudinal-06-T70000-F12207-X-',
 7: 'Longitudinal-07-T80000-F13155-X-',
 8: 'Longitudinal-08-T90000-F14038-X-',
 9: 'Longitudinal-09-T100000-F14858-X-',
 10: 'Longitudinal-10-T110000-F15616-X-',
 11: 'Longitudinal-11-T120000-F16280-X-',
 12: 'Longitudinal-12-T130000-F16948-X-',
 13: 'Longitudinal-13-T140000-F17587-X-',
 14: 'Longitudinal-14-T150000-F18240-X-',
 15: 'Longitudinal-15-T160000-F18824-X-',
 16: 'Longitudinal-16-T170000-F19369-X-',
 17: 'Longitudinal-17-T180000-F19921-X-',
 18: 'Longitudinal-18-T190000-F20415-X-',
 19: 'Longitudinal-19-T200000-F20877-X-',
 20: 'Longitudinal-20-T210000-F21393-X-',
 21: 'Longitudinal-21-T220000-F21883-X-',
 22: 'Longitudinal-22-T230000-F22343-X-',
 23: 'Longitudinal-23-T240000-F22786-X-',
 24: 'Longitudi

In [4]:
sample=samples[50]
fRulesPMS="Regles.pkl"
fRulesPMO="Morphomes-Regles.pkl"

# Classe pour la gestion des patrons, des classes et des transformations

In [5]:
class paireClasses:
    def __init__(self,case1,case2):
        self.case1=case1
        self.case2=case2
        self.nom=case1+"-"+case2
        self.classes1=classesPaire(case1,case2)
        self.classes2=classesPaire(case2,case1)

    def ajouterPatron(self,n,patron,motif):
        if n==1:
            self.classes1.ajouterPatron(patron,motif)
        elif n==2:
            self.classes2.ajouterPatron(patron,motif)
        else:
            print "le numéro de forme n'est pas dans [1,2]",n

    def ajouterPaire(self,forme1,forme2):
        self.classes1.ajouterPaire(forme1,forme2)
        self.classes2.ajouterPaire(forme2,forme1)
        
    def calculerClasses(self):
        return(self.classes1,self.classes2)

    
class classesPaire:
    '''
    Gestion des patrons, des classes et des transformations
    
    ajouterPatron : ajoute un patron et son motif associé (MGL)
    ajouterPaire : ajoute une paire de formes, calcule la classe de la forme1 et la règle sélectionnée
    sortirForme : cacule les formes de sortie correspondant à la forme1 avec leurs coefficients respectifs
    '''
    def __init__(self,case1,case2):
        self.case1=case1
        self.case2=case2
        self.nom=case1+"-"+case2
        self.classe={}
        self.nbClasse={}
        self.patrons={}
        self.entree={}
        self.sortie={}
    
    def ajouterPatron(self,patron,motif):
        self.patrons[patron]=motif
        (entree,sortie)=patron.split("-")
        self.entree[patron]=entree.replace(u".",u"(.)")
        self.sortie[patron]=remplacementSortie(sortie)
    
    def ajouterPaire(self,forme1,forme2):
        '''
        on calcule la classe de la paire idClasseForme et la règle sélectionnée
        on incrémente le compteur de la classe et celui de la règle sélectionnée à l'intérieur de la classe
        '''
        classeForme=[]
        regleForme=""
        for patron in self.patrons:
            if re.match(self.patrons[patron],forme1):
                classeForme.append(patron)
                '''
                le +"$" permet de forcer l'alignement à droite pour les transformations suffixales
                '''
                if forme2==re.sub(self.entree[patron]+"$",self.sortie[patron],forme1):
                    regleForme=patron
        idClasseForme=", ".join(classeForme)
        if not idClasseForme in self.classe:
            self.classe[idClasseForme]={}
            self.nbClasse[idClasseForme]=0
        if not regleForme in self.classe[idClasseForme]:
            self.classe[idClasseForme][regleForme]=0
        self.nbClasse[idClasseForme]+=1
        self.classe[idClasseForme][regleForme]+=1

    def sortirForme(self,forme,contextFree=False):
        classeForme=[]
        sortieForme={}
        for patron in self.patrons:
            if contextFree:
                filterF1=".*"+patron.split("-")[0]+"$"
            else:
                filterF1=self.patrons[patron]
            if re.match(filterF1,forme):
                classeForme.append(patron)
        if classeForme:
            idClasseForme=", ".join(classeForme)
            if contextFree:
                nbClasse=self.nbClasseCF
                classe=self.classeCF
            else:
                nbClasse=self.nbClasse
                classe=self.classe
            if idClasseForme in nbClasse:
                nTotal=nbClasse[idClasseForme]
                for patron in classe[idClasseForme]:
                    sortie=re.sub(self.entree[patron]+"$",self.sortie[patron],forme)
                    sortieForme[sortie]=float(classe[idClasseForme][patron])/nTotal
            else:
#                if debug: 
#                    print (forme, file=logfile)
#                    print ("pas de classe",idClasseForme, file=logfile)
#                    print ("%.2f par forme de sortie" % (float(1)/len(classeForme)), file=logfile)
                nTotal=len(classeForme)
                for patron in classeForme:
                    sortie=re.sub(self.entree[patron]+"$",self.sortie[patron],forme)
                    sortieForme[sortie]=float(1)/nTotal
#        else:
#            if debug:
#                print (forme, file=logfile) 
#                print ("pas de patron", file=logfile)
        return sortieForme
        

## Ouvrir les fichiers de règles

In [6]:
with open(rep+sample+fRulesPMS, 'rb') as input:
    rulesPMS = pickle.load(input)
with open(rep+sample+fRulesPMO, 'rb') as input:
    rulesPMO = pickle.load(input)

rules=rulesPMS

## Conversion Positions <=> Regex

In [7]:
def getRegexPositions(positions):
    return "".join([p if len(p)<2 else "[%s]"%''.join(sorted(p)) for p in positions])

In [8]:
def getPositionsRegex(regex):
    if regex=="": return []
    result=[]
    regex=re.sub(ur"[()]","",regex.replace(".*","X"))
    chunks=[c for c in re.split(ur"(\[[^\]]+\])",regex) if c!=""]
    if chunks[0].startswith("^"): chunks[0]=chunks[0][1:]
    if chunks[-1].endswith("$"): chunks[-1]=chunks[-1][:-1]
    for chunk in chunks:
        if chunk.startswith("["): 
            result.append(chunk.replace("[","").replace("]",""))
        else:
            result.extend(chunk)
    return result

## Calcul des intersections

In [9]:
def getIntersectionPos(l1,l2):
    l=set()
    if l1=="X" or l1==".":
        l=set(l2)
    elif l2=="X" or l2==".":
        l=set(l1)
    else:
        l=set(l1)&set(l2)
    return l

def getIntersectionRegex(gP1,gP2,debug=False):
    p1=gP1[:]
    p2=gP2[:]
    pMin,pMax=sorted([p1,p2],key=len)
    temp=[]
    pMin.reverse()
    pMax.reverse()
#    print p1,p2
    for i in range(len(pMin)):
        l=getIntersectionPos(pMin[i],pMax[i])
        if l:
            temp.append(l)
        else:
            return []
    if len(pMax)>len(pMin):
        if pMin[-1]=="X":
            for i in range(len(pMin),len(pMax)):
                temp.append(set(pMax[i]))
        elif pMax[len(pMin)]!="X":
            temp.append("")
    temp.reverse()
    result=[]
    for c in temp:
        result.append("".join(sorted(c)))
    if "" in result:
        result=""
    return result

## Calcul des transformations

In [10]:
def transformeExp(gPositions,patron):
    result=[]
    positions=gPositions[:]
    positions.reverse()
    e0,s0=patron.split("-")
    e1=re.split(ur"(\.)",e0)
    s1=re.split(ur"(\.)",s0)
    e1.reverse()
    s1.reverse()
#    print e1, s1, positions
    lPosition=0
    for nChunk,chunk in enumerate(e1):
#        print "chunk",chunk, nChunk, "pos", lPosition
        if chunk!=".":
            if chunk:
                for nLettre,lettre in enumerate(chunk):
    #                print "lettre",nLettre,lettre,"pos",lPosition
                    if nLettre==0: result.extend(s1[nChunk][::-1])
                    lPosition+=1
            else:
                result.extend(s1[nChunk][::-1])
        else:
#            print "lettre",positions[lPosition],"pos",lPosition
            result.append(positions[lPosition])
            lPosition+=1
#    print result
    if len(positions)>lPosition:
        for i in range(lPosition,len(positions)):
            result.append(positions[i])
    elif positions[-1]==u"X":
        result.append(u"X")
    result.reverse()
    return [r for r in result if r!=""]
        

## Calcul des contraintes

In [11]:
def nouvellesContraintes(contraintes,paire,addEdge=False,gPatrons=[]):
    if not gPatrons:
        patrons=patronsConsideres[paire]
    else:
        patrons=gPatrons[paire]
    result1=[]
#    result2={}
    for r in contraintes:
        for p in patrons:
            regexRegle=getPositionsRegex(patrons[p])
            regex=getIntersectionRegex(r,regexRegle)
            if regex:
                trans=transformeExp(regex,p)
                if trans and trans not in result1:
                    result1.append(trans)
#                    result2[p]=(regex,trans)
                    if addEdge:
                        pointA=paire[0]+":"+getRegexPositions(regex)
                        pointB=paire[1]+":"+getRegexPositions(trans)
                        if debug: print pointA+"-"+pointB
                        reseauTrans.add_edge(pointA,pointB,key=p)
                    if debug:
                        print "TRANS",r, p, regex
                        print "=>",trans
    if result1:
        return result1
    else:
        return contraintes

def getContraintes(A,B,gPatrons=[]):
    aller=nouvellesContraintes([[u"X"]],(A,B),gPatrons=gPatrons)
    retour=nouvellesContraintes(aller,(B,A),gPatrons=gPatrons)
    return retour

def getListesContraintes(dictA,A,nodes,gPatrons=[]):
    lDictA=dict(dictA)
    for node in nodes:
        lDictA[node]=getContraintes(A,node,gPatrons=gPatrons)
    return lDictA

def mergeContraintesAB(contraintesA,contraintesB):
    result=[]
    for a in contraintesA:
        for b in contraintesB:
            intersection=getIntersectionRegex(a,b)
            if intersection and intersection not in result:
                result.append(intersection)
    return result

def mergeContraintes(dictA):
    cases=dictA.keys()
    contraintes=dictA[cases[0]]
    print len(cases)
    for case in cases[1:]:
        print ".",
        if dictA[case]:
            contraintes=mergeContraintesAB(contraintes,dictA[case])
    return contraintes

In [12]:
def simplificationContraintesConsolideesCase(listeContraintes):
    modif=False
    lContraintes=listeContraintes[:]
    for c1,c2 in it.combinations(listeContraintes,2):
#        print c1,c2
        intersection=getIntersectionRegex(c1,c2)
        if intersection:
            if intersection==c1 and c1 in lContraintes:
                lContraintes.remove(c1)
            elif intersection==c2 and c2 in lContraintes:
                lContraintes.remove(c2)
    return lContraintes

def simplificationContraintesConsolidees(dictListeContraintes):
    lDictListeContraintes=dictListeContraintes.copy()
    for case in lDictListeContraintes:
        lDictListeContraintes[case]=simplificationContraintesConsolideesCase(lDictListeContraintes[case])
    return lDictListeContraintes

## Patrons sans contextes

In [13]:
patronsAvecContexte={}
patronsSansContexte={}
for paire in rules.keys():
    patronsAvecContexte[paire]=rules[paire].patrons
    for r in patronsAvecContexte[paire]:
        if not paire in patronsSansContexte:
            patronsSansContexte[paire]={}
        transformation=r.split("-")[0]
        patronsSansContexte[paire][r]=u"^(.*)%s$"%transformation

patronsConsideres=patronsAvecContexte
patronsConsideres=patronsSansContexte

## Définition des cases à prendre en compte

In [14]:
paradigmeCases=list(set([p[0] for p in rules.keys()]))
#paradigmeCases=[c for c in paradigmeCases if not "1" in c and not "2" in c and not "ai" in c and not "is" in c]
selectionCases=paradigmeCases
#selectionCases=testCells
#selectionCases=list(set([e[0] for e in patronsSansContexte]))
print selectionCases

[u'ii1P', u'pP', u'is1S', u'ii1S', u'ppMS', u'ppMP', u'is3P', u'is3S', u'ai1P', u'ii3S', u'ps3S', u'inf', u'ii3P', u'pi2S', u'ps3P', u'pi2P', u'ppFS', u'ppFP', u'is2S', u'is2P', u'ai1S', u'ps1S', u'pI2S', u'fi2P', u'fi2S', u'pI2P', u'ps2P', u'ps2S', u'ps1P', u'ai2P', u'ai2S', u'pc2P', u'pc2S', u'ii2P', u'pi1S', u'pi1P', u'ii2S', u'pi3P', u'pi3S', u'ai3S', u'pc3S', u'pc3P', u'pc1P', u'is1P', u'fi3S', u'fi3P', u'ai3P', u'fi1P', u'fi1S', u'pc1S', u'pI1P']


# Contraintes en étoile
Pour calculer les CF abstraites, on calcule pour chaque case, les contraintes imposées par les autres et on les combine.
- chaque case est susceptible d'imposer des éléments à ses correspondantes
 - on commence par calculer les contraintes en partant d'une représentation complètement sous-spécifiée : X
- pour chaque correspondante, on calcule tous les éléments imposés par les autres et on fait une consolidation des contraintes : contraintesConsolidées
 - avec les contraintes consolidées, on recalcule les contraintes imposées sur les correspondants
 - et on reconsolide le tout
- avec ces contraintes qui sont représentatives de l'ensemble, on peut faire le réseau qui relie les différentes représentations par les transformations
 - les relations réciproques sont captées dans un graphe non-orienté
 - les cliques du graphe non-orienté sont des classes flexionnelles
  - les classes flexionnelles complètes sont celles qui couvrent le paradigme


In [15]:
eliminationCases=["is%d%s"%(i,n) for i in range(1,4) for n in "SP"]+["ppFS","ppFP"]
eliminationCases+=["ai%d%s"%(i,n) for i in range(1,4) for n in "SP"]
selectionCases=[c for c in selectionCases if not c in eliminationCases]
contraintesCase={c:{} for c in selectionCases}
contraintesConsolidees={}

### Calculer les contraintes 
- pour toutes les cases a 
 - en partant des différentes cases b

In [16]:
def getContraintesCases(consolidation=[]):
    lContraintes={c:{} for c in selectionCases}
    if not consolidation:
        consolidation={c:[[u"X"]] for c in lContraintes}
    for a in lContraintes:
        for b in [c for c in lContraintes if c!=a]:
            if (b,a) in patronsConsideres:
                lContraintes[a][b]=nouvellesContraintes(consolidation[b],(b,a))
    return lContraintes

### Unifier les contraintes
- de toutes les cases

In [17]:
def unifyContraintesCases(contraintes):
    lContraintesConsolidees={}
    for c in contraintes:
        print c,
        lContraintesConsolidees[c]=mergeContraintes(contraintes[c])
    print
    return lContraintesConsolidees

## Simplifier les contraintesConsolidees

In [18]:
contraintesCase=getContraintesCases()

In [19]:
contraintesConsolidees=unifyContraintesCases(contraintesCase)

ii1P 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pP 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii1S 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ppMS 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ppMP 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii3S 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ps3S 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . inf 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii3P 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ps1P 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ps3P 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ps1S 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pi2S 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

In [20]:
contraintesCase=getContraintesCases(contraintesConsolidees)

In [26]:
contraintesConsolidees=unifyContraintesCases(contraintesCase)

ii1P 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pP 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii1S 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ppMS 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ppMP 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii3S 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ps3S 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . inf 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii3P 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ps1P 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ps3P 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ps1S 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pi2S 36
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

In [27]:
#for c in contraintesCase:
#    contraintesConsolidees[c]=mergeContraintes(contraintesCase[c])

#contraintesConsolidees=simplificationContraintesConsolidees(contraintesConsolidees) 
#print contraintesConsolidees

In [28]:
reseauTrans=nx.DiGraph()
for k in contraintesCase:    
    for elt in [c for c in contraintesCase if c!=k]:
#        print k,elt,contraintesConsolidees[k]
        if (k,elt) in patronsConsideres:
            nouvellesContraintes(contraintesConsolidees[k],(k,elt),addEdge=True)

In [29]:
reseauSimTrans=nx.Graph()
for edge in reseauTrans.edges():
    a,b=sorted(edge)
    if reseauTrans.has_edge(a,b) and reseauTrans.has_edge(b,a) and not reseauSimTrans.has_edge(a,b):
        reseauSimTrans.add_edge(a,b)
cliques=list(nx.find_cliques(reseauSimTrans))

In [30]:
def simplifyCliques(cliques):
    nouvellesCliques=[]
    for c in cliques:
        cases=[e.split(":")[0] for e in c]
        formes=[e.split(":")[1] for e in c]
        maxL=len(min(formes))
        if maxL>1 and formes[0][0]==u"X":
            cible="X"
            for i in range(1,maxL):
                entete=formes[0][:i+1]
                if all([e[:i+1]==entete for e in formes]):
                    cible=entete
                else:
                    break
            formes=[f.replace(cible,u"X") for f in formes]
        nouvelleClique=set([cases[i]+":"+formes[i] for i in range(len(cases))])
        if nouvelleClique not in nouvellesCliques:
            nouvellesCliques.append(nouvelleClique)
    return nouvellesCliques

In [31]:
nouvellesCliques=simplifyCliques(cliques)
print len(selectionCases)
seuil=2
for c in nouvellesCliques:
    if len(c)>len(selectionCases)-1-seuil:
        print len(c), ",".join(sorted(c))

37
35 fi1P:X6rô,fi1S:X6rE,fi2P:X6re,fi2S:X6ra,fi3P:X6rô,fi3S:X6ra,ii1P:X6zjô,ii1S:X6zE,ii2P:X6zje,ii2S:X6zE,ii3P:X6zE,ii3S:X6zE,inf:XEr,pI1P:X6zô,pI2P:XEt,pP:X6zâ,pc1P:X6rjô,pc1S:X6rE,pc2P:X6rje,pc2S:X6rE,pc3P:X6rE,pc3S:X6rE,pi1P:X6zô,pi1S:XE,pi2P:XEt,pi2S:XE,pi3P:Xô,pi3S:XE,ppMP:XE,ps1P:Xasjô,ps1S:Xas,ps2P:Xasje,ps2S:Xas,ps3P:Xas,ps3S:Xas


In [32]:
print nouvellesCliques

[set([u'fi1P:X\xf4', u'fi3S:Xa', u'pc2P:Xje', u'pc1P:Xj\xf4', u'fi2S:Xa', u'fi2P:Xe', u'pc3S:XE', u'fi1S:XE', u'fi3P:X\xf4', u'pc2S:XE', u'pc1S:XE', u'pc3P:XE']), set([u'fi1P:X6r\xf4', u'fi3S:X6ra', u'ii1S:X6vE', u'ii1P:X6vj\xf4', u'fi3P:X6r\xf4', u'pI2S:Xwa', u'fi1S:X6rE', u'ii2S:X6vE', u'pc3P:X6rE', u'ii3S:X6vE', u'pi2P:X6ve', u'pc1S:X6rE', u'ii2P:X6vje', u'pc3S:X6rE', u'inf:X6vwar', u'fi2S:X6ra', u'pc2S:X6rE', u'ii3P:X6vE', u'pc1P:X6rj\xf4', u'fi2P:X6re', u'pi1P:X6v\xf4', u'pc2P:X6rje', u'pP:X6v\xe2']), set([u'pc3P:X6rE', u'pc3S:X6rE', u'pc1P:X6rj\xf4', u'fi1P:X6r\xf4', u'fi2P:X6re', u'pc2S:X6rE', u'pc1S:X6rE', u'fi3S:X6ra', u'pi3P:X\xf4', u'pc2P:X6rje', u'fi1S:X6rE', u'fi2S:X6ra', u'fi3P:X6r\xf4', u'pI2S:Xwa']), set([u'pi3S:XE', u'pc3P:X6rE', u'pc3S:X6rE', u'pc1P:X6rj\xf4', u'fi1P:X6r\xf4', u'pi2S:XE', u'fi2P:X6re', u'pc2S:X6rE', u'pc1S:X6rE', u'fi3S:X6ra', u'pi3P:X\xf4', u'pc2P:X6rje', u'fi1S:X6rE', u'fi2S:X6ra', u'fi3P:X6r\xf4', u'pi1S:XE']), set([u'fi1P:X\xf4', u'fi3P:X\xf4', u'

In [None]:
sorted(contraintesCase["fi1P"]["fi1S"])