In [None]:
# coding: utf8

# Calcul des Dendrogrammes pour Lexique4
- modifié pour IMM19 sur Lex3
- modifié pour HDR sur Lex4

In [None]:
import matplotlib
import matplotlib.pyplot as plt
from matplotlib.ticker import MaxNLocator

In [None]:
%matplotlib inline

In [None]:
repHDR="/Users/gilles/ownCloud/Recherche/Boye/HDR/Memoire/figs/"

## Importation des résultats de Lexique4-DistributionCoFormes

In [None]:
# -*- coding: utf8 -*-
import pickle as pkl
with open('DendrogramData.pkl',"rb") as inFile:  # Python 3: open(..., 'rb')
    (Z,clustersLabels,lexemeLabels) = pkl.load(inFile)



# Clusterisation des distributions de fréquences

## Normalisation

In [None]:
def dendrogramLabels(id):
    return lexemeLabels[id]

In [None]:
def dendrogramClustersLabels(id):
    if id in clustersLabels:
        return ", ".join(clustersLabels[id][:5])
    else:
        return id

## Clusterisation hiérarchique => dendrogramme

In [None]:
import sys
sys.getrecursionlimit()

In [None]:
sys.setrecursionlimit(100000)

### Clusterisation

In [None]:
from scipy.cluster import hierarchy as hc

### Plotter le dendrogramme sans troncation
Le dendrogramme sans troncation permet d'explorer les voisinages des différents verbes avec les distinctions maximales

In [None]:
def plotDendrogram(Z,parType="",p=None,truncate_mode=None):
    plt.figure(figsize=(600,600),)
    if truncate_mode:
        leaf_label_func=dendrogramClustersLabels
        figInsert=u"-%s-%d-"%(parType,p)
    else:
        leaf_label_func=dendrogramLabels
        figInsert=u"-%s-"%(parType)

    dendrogram = hc.dendrogram(Z,
                               leaf_label_func=leaf_label_func,
                               leaf_font_size=10.,
                               p=p,truncate_mode=truncate_mode,
                              )
    print "dendrogram"
    plt.savefig(repHDR+u'Lex4-Dendrogram%sVerbes.svg'%figInsert, 
                dpi=300, 
                format="svg",
                bbox_inches="tight")

### Récupération des clusters avec troncation
- pour obtenir les clusters, on fait appel à fcluster qui fournit un numéro de cluster pour chaque index de data
    - pour obtenir les noms des verbes, on fait la correspondance entre le numéro obtenu et lexemeLabels
    - pour obtenir les "noms" des clusters, il faut lancer dendrogram une première fois sans plot => R["ivl"]

In [None]:
nbClusters=6000
from scipy.cluster.hierarchy import fcluster

In [None]:
plotDendrogram(Z,parType=u"Freq")

### Plotter les voisins de défectifs

In [None]:
def plotVoisins(voisins,gParadigme,ylim=None):
    for lexeme in voisins:
        dfAX=gParadigme[gParadigme["lexeme"]==lexeme].set_index("lexeme")[cases].T
        ax=dfAX.plot(kind="bar",
                     figsize=(20,5),
                     color=sns.color_palette("hls"),
                    )
        xlabels=ax.get_xticklabels()
        for xlabel in xlabels:
            xtext=xlabel.get_text()
            xlabel.set_backgroundcolor(cellColors[xtext])
        if ylim:
            ax.set_ylim([0,ylim])
        plt.show()

### Voisins de défectifs (fréquence standard FS, fréquence log FL)
- clore
    - FS : revisser,(**clore**,(abrutir,promettre))
    - FL : (**clore**,(corrompre,méconnaître)),((recoudre,réécrire),(mander,étriper))
- distraire
    - FS : ((instruire,(séduire,(**distraire**, extraire))),(régénérer,(construire,détruire)))
    - FL : (((garantir, investir),(enrichir, rafraîchir)),(blâmer, **distraire**))
- abstraire
    - FS : ((**abstraire**, pocher),(distancer, proscrire))
    - FL : ((**abstraire**, parfaire),(peinturlurer,(civiliser, daller)))
- soustraire
    - FL : (brutaliser,débrider),(**soustraire**,étayer)
- extraire
    - FL : (dorloter,désamorcer),(**extraire**,restituer)
- retraire, raire
    - FL : grêler,(**raire**,**retraire**)
- traire
    - FL : (**traire**,**frire**),((**clore**,(corrompre,méconnaître)),((recoudre,réécrire),(mander,étriper))
    
    
Il y a aussi quelques vestiges
- portraire, attraire
    - FS : éclore, crémer, époutier, éperdre, écher, vaser, valeter, troussequiner, tartir, taponner, surglacer, superfinir, sphacéler, sorguer, sniffer, réfranger, réciproquer, redonder, ravoir, ragrandir, raboutir, quérir, pyrrhoniser, pouiller, portraire, méfaire, maquereller, malfaire, mainmettre, galantiser, férir, forpaiser, forfaire, failler, ester, embatre, désoeuvrer, dépatrier, démurger, défâcher, déchouer, couturer, courre, comparoir, chauvir, brouir, bretauder, breller, bouliner, bienvenir, bichoter, bayer, aveindre, attraire, assavoir, argoter, apetisser, alester, alambiquer, aiguayer, accroire, adirer, rassir, occire, reclure, dérayer, rechaper, retordre, regrossir, pionner, coqueter, partouser, hercher, tictaquer, ambler, apponter, jodler, luncher, équeuter, émulsifier, zester, tiller, stripper, soumissionner, signaliser, scolariser, réincarcérer, réargenter, ressemer, resalir, rentamer, rempoter, redémolir, recongeler, reclouer, recarreler, pifer, pastiller, parafer, paginer, inférioriser, hotter, escher, enkyster, enjuiver, encliqueter, embraquer, déventer, désinsectiser, désincruster, désaccoupler, dépoudrer, dénazifier, décriminaliser, déconditionner, décomprimer, dissimiler, diligenter, cureter, coupailler, corréler, contremander, cliver, avitailler, chansonner, quarter, manutentionner, maximiser, exemplifier, trompeter, crosser, maquereauter, syndicaliser, scratcher, rober, rechasser, farter, alcaliniser, alphabétiser, télédiffuser, shampooiner, réabonner, revoter, retuber, reposséder, remprunter, criminaliser, recorder, implémenter, décuver, dépolluer, raller, pleuvioter, varapper, tatillonner, mésuser, lapiner, endêver, dansotter, couchailler, bavocher, bostonner, obvier, rôdailler, égrainer, écornifler, versifier, systématiser, régionaliser, remboîter, reloquer, relaisser, refeuilleter, recogner, reblanchir, rabonnir, pasteuriser, paperasser, maroufler, entrebattre, entr'aimer, engraver, enclouer, encaserner, empanner, désensabler, désenchaîner, désembuer, dépiler, dépaver, démuseler, délustrer, débobiner, correctionnaliser, chabler, cancériser, braser, boyauter, anatomiser, bluter, déconsigner, rapointir, prolétariser, embobeliner, décaisser, désengourdir, mortaiser, vulgariser, décrêper, rebander, désencrasser, rassortir, réséquer, boulanger, réassurer
    - FL : éperdre, écher, vaser, valeter, tartir, sniffer, ravoir, quérir, portraire, galantiser, férir, failler, ester, désœuvrer, démurger, déchouer, couturer, courre, comparoir, chauvir, brouir, bayer, attraire, accroire, assavoir
 

### CLORE

In [None]:
print "voisins de fréquence brute"
plotVoisins(u"abrutir promettre clore revisser reprendre ensevelir calancher".split(" "),paradigmeFS,ylim=1.2E10)

In [None]:
print "voisins de fréquence log"
plotVoisins(u"corrompre méconnaître clore mander étriper recoudre réécrire".split(" "),paradigmeFS,ylim=1.6E9)

### DISTRAIRE

In [None]:
print "voisins de fréquence brute"
plotVoisins(u"instruire séduire distraire extraire régénérer construire détruire".split(" "),paradigmeFS,ylim=2.5E9)

In [None]:
print "voisins de fréquence log"
plotVoisins(u"garantir investir enrichir rafraîchir blâmer distraire".split(" "),paradigmeFS,ylim=2.5E9)

### ABSTRAIRE

In [None]:
print "voisins de fréquence brute"
plotVoisins(u"abstraire pocher distancer proscrire".split(" "),paradigmeFS,ylim=10E7)

In [None]:
print "voisins de fréquence log"
plotVoisins(u"garantir investir enrichir rafraîchir blâmer distraire".split(" "),paradigmeFS,ylim=2.5E9)

### Lister les défectifs de Boyé(2000) dans les différents clusters

In [None]:
for cl in clustersLabels:
    print "cluster",cl,len(clustersLabels[cl])
    print u"défectifs",", ".join([l for l in clustersLabels[cl] if l in boyeDefectifs])
    print "verbes",", ".join(clustersLabels[cl])
    print
#    print ", ".join(clusters[cl])

## Clusterisation par KMeans

### Choix du nombre de clusters
Calcul du WCSS (within cluster sum of squares)
kmeans.inertia_ est la valeur du wcss du modèle.

In [None]:
from sklearn.cluster import KMeans
wcss={}
for i in range(1,55):
    kmeans=KMeans(n_clusters=i,init="k-means++",max_iter=300,n_init=10)
    kmeans.fit(data)
    wcss[i]=kmeans.inertia_

In [None]:
dfWCSS=pd.DataFrame.from_dict(wcss,orient="index")
dfWCSS.plot(figsize=(10,5))

In [None]:
dfWCSS.diff().plot(figsize=(20,5),xticks=(np.arange(0, 50, step=1))
)


### Clusterisation autour de K points
k-means++ est une stratégie d'initialisation qui permet d'éviter une trappe d'optimisation locale

In [None]:
nbClusters=7
kmeans=KMeans(n_clusters=nbClusters,init="k-means++")
y_kmeans=kmeans.fit_predict(data)

In [None]:
lexemeType={}
for nY,y in enumerate(y_kmeans):
    lexemeType[lexemeLabels[nY]]=y
specialLexemes=boyeDefectifs#[u"être",u"avoir",u"pouvoir",u"savoir",u"faire"]
for lex in specialLexemes:
    if lex in lexemeType:
        print lex,lexemeType[lex]

In [None]:
allLexemes=True
typeLexemes = {}
for k, v in lexemeType.iteritems():
    if k in specialLexemes or allLexemes:
        typeLexemes[v] = typeLexemes.get(v, [])
        typeLexemes[v].append(k)

### plotter les distributions correspondant aux K centres

In [None]:
pdKMeans=pd.DataFrame(kmeans.cluster_centers_,columns=cases).transpose()

In [None]:
for i in range(nbClusters):
    iSum=float(pdKMeans[i].sum())
#    print iSum
    pdKMeans[i]=pdKMeans[i]/iSum
#    print pdKMeans[i]
    ax=pdKMeans[i].plot(kind="bar",figsize=(10, 3))
    ax.set_ylim([0,1])
    specLexI=[]
    for l in specialLexemes:
        if l in typeLexemes[i]:
            specLexI.append(l)
            if len(specLexI)>=10:
                break
    nPadLex=5-len(specLexI)
    if nPadLex>0:
        specLexI=specLexI+typeLexemes[i][:nPadLex]
    plt.title("Type %d => %d: "%(i,len(typeLexemes[i]))+",".join(specLexI)+u"\n")
    plt.show()

In [None]:
for element in typeLexemes:
    print element,len(typeLexemes[element]),typeLexemes[element][:10]

In [None]:
dfTemp=paradigme[cases].T.isnull().sum()
indexFormes1=dfTemp[dfTemp>=45].index.tolist()
for ix in indexFormes1:
    lexeme=paradigme.iloc[ix]["lexeme"]
    print lexeme,lexemeType[lexeme]
    ax=(paradigme[paradigme["lexeme"]==lexeme].set_index("lexeme")[cases].T.iloc[1:]).plot(kind="bar",figsize=(20,5))
    ax.set_ylim([0,1])
    plt.show()

### Comparaison des distributions de formes entre des voisins potentiels de CLORE

In [None]:
(paradigme[paradigme.lexeme.isin(u"clore corrompre méconnaître".split(" "))].set_index("lexeme")[cases].T.iloc[1:]).plot(kind="bar",figsize=(20,5))

In [None]:
(paradigme[paradigme.lexeme.isin(u"clore abrutir promettre".split(" "))].set_index("lexeme")[cases].T.iloc[1:]).plot(kind="bar",figsize=(20,5))