In [1]:
# Lire le dictionnaire de monsieur Bucknam
# Jupyter se base sur Pandas Tricks

In [2]:
import pandas as pd

# préciser le chemin du fichier à lire
cheminDuFichierCSV = "./../data/dictionary/1757_Buchanan-J.csv" 

# demander à pandas de lire le fichier et garder ce tableau accessible dans une variable
dfDicoBuch = pd.read_csv(cheminDuFichierCSV, delimiter=";", encoding="utf8")

# afficher à l'écran un échantillon du tableau
dfDicoBuch.sample(n=5)

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId
8947,3,n_a_ēʹnĭa,,,,n.,4.0,145
2183,2,c_h_rĭʹſt_e_n,,,,v.,65.0,49
12563,1,ſlāke,,,,v.,30.0,196
5894,1,grĭm,,,,a.,53.0,101
3654,3,dīʹlūĕnts,L.,,,n.,36.0,70


In [3]:
cheminDuDicoBuchanan = "./../data/dictionary/Buchanan_PronChar_counts.csv" 

dfDicoBuchanan = pd.read_csv(cheminDuDicoBuchanan, delimiter=";", encoding="utf8")

dfDicoBuchanan.fillna('',inplace=True)
# afficher à l'écran un échantillon du tableau
dfDicoBuchanan.head(n=5)

Unnamed: 0,char,occ,graph
0,a,3207,a
1,ʹ,12725,
2,b,2288,b
3,ă,4533,a
4,c,5500,c


In [4]:
dfDicoBuchanan['char'].value_counts()

а    1
     1
q    1
(    1
ſ    1
    ..
˘    1
ā    1
ō    1
х    1
)    1
Name: char, Length: 73, dtype: int64

### 1. une colonne motVedette (transformation/simplification de la prononciation d'origine) en utilisant le mapping du fichier Buchanan_PronChar_counts.csv

In [5]:
def pron2graph(word, dfMapping = dfDicoBuchanan):
    list_of_char = []
    for char in word:
        list_of_char.append(dfMapping[dfMapping['char']==char].iloc[0]['graph'])

    return ''.join(list_of_char)

In [6]:
dfDicoBuch['motVedette'] = dfDicoBuch['pron'].apply(pron2graph)

In [7]:
dfDicoBuch.head()

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId,motVedette
0,3,aʹbăcus,,,,n.,2.0,19,abacus
1,2,ăbăʹft,,,,p.,3.0,19,abaft
2,3,ăbaiʹſănce,F.,,,n.,4.0,19,abaisance
3,3,ābăʹndon,F.,,,v.,5.0,19,abandon
4,4,ābăʹndŏned,,,,a.,6.0,19,abandoned


In [8]:
dfDicoBuch[dfDicoBuch["motVedette"].isnull()]

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId,motVedette


In [9]:
dfDicoBuch[dfDicoBuch["motVedette"]=='null']

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId,motVedette
9171,1,nŭll,L.,,,a.,4.0,149,


### 2.une colonne Sampa et une colonne Ipa à partir des mots vedettes obtenus (transformation/croisement de données) en utilisant ./../data/dataframe/BigiRichSample.csv

#### BONUS : isoler les mots de Buchanan qui n'existent pas dans Bigi. Tenter de comprendre les différentes causes et tenter d'expliquer comment résoudre les différents problèmes (bonus)

In [10]:
cheminDuDicoBigiRich = "./../data/dataframe/BigiRichSample.csv" 

dfDicoBigiRich = pd.read_csv(cheminDuDicoBigiRich, delimiter=";", encoding="utf8")
dfDicoBigiRich

Unnamed: 0,hwd,pronSampa,ipa
0,a,@,ə
1,a(2),eI,?
2,a'ready,@ r\ E d i:,əɹɛdiː
3,a's,eI z,?z
4,a.,eI,?
...,...,...,...
131098,zyuganov's(3),z u g A n A v z,zugɑnɑvz
131099,zyuganov's(4),z u g A n A f s,zugɑnɑfs
131100,zywicki,z i w I k i:,ziwɪkiː
131101,zzzz,z i: z,ziːz


In [11]:
def pronSampa_and_ipa(motVedette, dfMapping = dfDicoBigiRich):
    extract = dfMapping[dfMapping['hwd'] == motVedette]
    try:
        pronSampa = extract.iloc[0]["pronSampa"]
        ipa = extract.iloc[0]["ipa"]
        nb_valeurs_trouvee = extract.shape[0]
        return (motVedette,pronSampa,ipa,nb_valeurs_trouvee)
    except:
        return(motVedette,'mot inexistant','mot inexistant',0)

In [12]:
df_transit = pd.DataFrame(dfDicoBuch['motVedette'].apply(pronSampa_and_ipa))

In [13]:
df_transit

Unnamed: 0,motVedette
0,"(abacus, { b @ k @ s, æbəkəs, 1)"
1,"(abaft, mot inexistant, mot inexistant, 0)"
2,"(abaisance, mot inexistant, mot inexistant, 0)"
3,"(abandon, @ b { n d @ n, əbændən, 1)"
4,"(abandoned, @ b { n d @ n d, əbændənd, 1)"
...,...
15795,"(zoography, mot inexistant, mot inexistant, 0)"
15796,"(zoophytes, mot inexistant, mot inexistant, 0)"
15797,"(zoophoric, mot inexistant, mot inexistant, 0)"
15798,"(zootomist, mot inexistant, mot inexistant, 0)"


In [14]:
df_pronSampa_ipa = pd.DataFrame([elem[0] for elem in df_transit.values.tolist()], columns=['motVedette','pronSampa','ipa',"nb"])
df_pronSampa_ipa

Unnamed: 0,motVedette,pronSampa,ipa,nb
0,abacus,{ b @ k @ s,æbəkəs,1
1,abaft,mot inexistant,mot inexistant,0
2,abaisance,mot inexistant,mot inexistant,0
3,abandon,@ b { n d @ n,əbændən,1
4,abandoned,@ b { n d @ n d,əbændənd,1
...,...,...,...,...
15795,zoography,mot inexistant,mot inexistant,0
15796,zoophytes,mot inexistant,mot inexistant,0
15797,zoophoric,mot inexistant,mot inexistant,0
15798,zootomist,mot inexistant,mot inexistant,0


In [15]:
df = dfDicoBuch.merge(df_pronSampa_ipa, how='left', left_on='motVedette', right_on='motVedette')
df

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId,motVedette,pronSampa,ipa,nb
0,3,aʹbăcus,,,,n.,2.0,19,abacus,{ b @ k @ s,æbəkəs,1
1,2,ăbăʹft,,,,p.,3.0,19,abaft,mot inexistant,mot inexistant,0
2,3,ăbaiʹſănce,F.,,,n.,4.0,19,abaisance,mot inexistant,mot inexistant,0
3,3,ābăʹndon,F.,,,v.,5.0,19,abandon,@ b { n d @ n,əbændən,1
4,4,ābăʹndŏned,,,,a.,6.0,19,abandoned,@ b { n d @ n d,əbændənd,1
...,...,...,...,...,...,...,...,...,...,...,...,...
15835,4,zōŏʹgrăphy,G.,,,n.,19.0,241,zoography,mot inexistant,mot inexistant,0
15836,4,zōŏʹphytès,G.,,,n.,20.0,241,zoophytes,mot inexistant,mot inexistant,0
15837,4,zōŏʹphŏric,G.,,,n.,21.0,241,zoophoric,mot inexistant,mot inexistant,0
15838,4,zōŏʹtŏmiſt,G.,,,n.,22.0,241,zootomist,mot inexistant,mot inexistant,0


In [16]:
# 1/3 des mots n'existent pas dans le dictionnaire
df['nb'].value_counts()

1    10365
0     5475
Name: nb, dtype: int64

## observations et investigations

In [17]:
df[df['nb']==0]

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId,motVedette,pronSampa,ipa,nb
1,2,ăbăʹft,,,,p.,3.0,19,abaft,mot inexistant,mot inexistant,0
2,3,ăbaiʹſănce,F.,,,n.,4.0,19,abaisance,mot inexistant,mot inexistant,0
5,2,ăbāsʹe,F.,,,v.,7.0,19,abase,mot inexistant,mot inexistant,0
6,3,ăbāʹſ_e_ment,F.,,,n.,8.0,19,abasement,mot inexistant,mot inexistant,0
10,2,ăʹbbĕſs,,,,n.,12.0,19,abbess,mot inexistant,mot inexistant,0
...,...,...,...,...,...,...,...,...,...,...,...,...
15835,4,zōŏʹgrăphy,G.,,,n.,19.0,241,zoography,mot inexistant,mot inexistant,0
15836,4,zōŏʹphytès,G.,,,n.,20.0,241,zoophytes,mot inexistant,mot inexistant,0
15837,4,zōŏʹphŏric,G.,,,n.,21.0,241,zoophoric,mot inexistant,mot inexistant,0
15838,4,zōŏʹtŏmiſt,G.,,,n.,22.0,241,zootomist,mot inexistant,mot inexistant,0


Une posibilité pour compléter la traduction des mots manquants est d'utiliser une méthode de text matching. Le problème semble venir du charactère << ' >>.

In [21]:
# dfDicoBuch
print(dfDicoBuch.shape)
print(df_pronSampa_ipa.shape)
print(dfDicoBigiRich.shape)

(15800, 9)
(15800, 4)
(131103, 3)


In [37]:
import numpy as np

Test avec la librairy fuzzywuzzy (sans data prep pour tester)

In [45]:
from fuzzywuzzy import process

word_uncode = df[df['nb']==0]['motVedette'].tolist()
strOptions = dfDicoBigiRich['hwd'].tolist()
traductions = []
scores = []
for str2Match in word_uncode[0:20]:
    Ratios = process.extract(str2Match,strOptions)
    Ratios = [match for match in Ratios if(np.abs(len(match[0]) - len(str2Match)) <= 2)] # moins de 2 lettres d'écart entre les mots
    try :
        score_max = max([val[1] for val in Ratios])
        highests = [tup[0] for tup in Ratios if(tup[1]==score_max)]

    except:
        score_max = 0
        highests = ['']
        
    traductions.append(highests)
    scores.append(score_max)

On tente de trouver des ressemblances entre la colonne **hdw** de la table dfDicoBuch et la colonne **motVedette** nouvellement créée.

In [47]:
pd.DataFrame({
    "word_uncode" : word_uncode[0:20],
    "traductions" : traductions
})

Unnamed: 0,word_uncode,traductions
0,abaft,[aft]
1,abaisance,[]
2,abase,[ambase]
3,abasement,[basement]
4,abbess,[abbe]
5,abetment,[]
6,abettor,[bettor]
7,abintestate,[]
8,abjuration,[]
9,abjure,[]


# Télécharger le fichier 

In [36]:
df.to_csv('./../data/dataframe/BuchananRich.csv', index = False)