# DicoCo

*Renaud PEUDECOOEUR*

In [1]:
import pandas as pd
import numpy as np

## Scraping

* Cette partie reprend le travail effectué dans le fichier Renaud_Peudecoeur_scrapping en bouclant toutes les étapes réalisées dans ce dernier
* Le site utilisé pour récupérer les fichiers audios est celui de Cambridge

In [2]:
from requests_html import HTMLSession
session = HTMLSession()
import re
from IPython.display import display, clear_output, HTML, Markdown
from bs4 import BeautifulSoup

In [3]:
def Scrap(dataframe):
    
    #Création des variables
    site="https://dictionary.cambridge.org/fr/dictionnaire/anglais/"
    MotsAnglais = []
    MotsAmericains = []
    
    for mot in dataframe["motVedette"] :
        
        # Utilisation des fonctions de Scrap vues en cours pour récupérer l'HTML de cambrigde
        lien = site + mot
        response = session.get(lien)
        html_doc = response.content
        
        # Utilisation des fonctions de Parisng vues en cours pour visualiser les balises des .mp3
        soup = BeautifulSoup(response.text,'html.parser')
        souplettesBody = soup.find('body')
        soupletteAside = souplettesBody.findAll('amp-audio')
        
        # Récupération des fichiers mp3 après analyses du HTML (voir fichier Renaud_Peudecoeur_scrapping pour détails des étapes)
        baliseUK = soupletteAside[0].find('source')
        baliseUS = soupletteAside[1].find('source')
        
        rechercher = soup.findAll("div", {"class" : "pos-header dpos-h"})
        mp3UK = baliseUK['src']
        mp3US = baliseUS['src']
        base_url='https://dictionary.cambridge.org'
        AudiUK = base_url+mp3UK
        AudiUS = base_url+mp3US
        
        # Ajout des .mp3 dans une liste pour affichage Widget
        MotsAnglais.append(AudiUK)
        MotsAmericains.append(AudiUS)
    
    # Ajout dans dataframe
    dataframe['lienUK']=pd.Series(MotsAnglais).values
    dataframe['lienUS']=pd.Series(MotsAmericains).values
    
    return dataframe

## Audio 

In [4]:
from IPython import display as audioD
import IPython.display as ipd

In [5]:
def Audio(df):
    clear_output()
    listeWid = widgets.Output()
    lU = widgets.Output()
    sU = widgets.Output()

    for numLigne in range(len(df)):
        labelUK = widgets.Label("UK")
        itemsUK = audioD.Audio(url = df["lienUK"][numLigne])
        spectroUK = df["lienUK"][numLigne]
    
        labelUS = widgets.Label("US")
        itemsUS = audioD.Audio(url = df["lienUS"][numLigne])
        audioUK = widgets.Output()
        audioUK.append_display_data(itemsUK)
        audioUS = widgets.Output()
        audioUS.append_display_data(itemsUS)
        spectroUS = df["lienUS"][numLigne]
        
        lU = widgets.HBox([labelUK,audioUK,labelUS,audioUS])

        # Les mots
        labelMot = widgets.Label(df["motVedette"][numLigne])
        labelPron = widgets.Label(str(df["pron"][numLigne]))
        label = widgets.HBox([labelMot, labelPron])

        listeWid.append_display_data(widgets.VBox([label,lU,sU]))
                        
    return listeWid

## Buchanan

### Colonne motVedette

In [6]:
cheminDuFichierCSV = "./../data/dictionary/1757_Buchanan-J.csv" 
dfDicoBuch = pd.read_csv(cheminDuFichierCSV, delimiter=";", encoding="utf8")

In [7]:
dfDicoBuch

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId
0,3,aʹbăcus,,,,n.,2.0,19
1,2,ăbăʹft,,,,p.,3.0,19
2,3,ăbaiʹſănce,F.,,,n.,4.0,19
3,3,ābăʹndon,F.,,,v.,5.0,19
4,4,ābăʹndŏned,,,,a.,6.0,19
...,...,...,...,...,...,...,...,...
15795,4,zōŏʹgrăphy,G.,,,n.,19.0,241
15796,4,zōŏʹphytès,G.,,,n.,20.0,241
15797,4,zōŏʹphŏric,G.,,,n.,21.0,241
15798,4,zōŏʹtŏmiſt,G.,,,n.,22.0,241


In [8]:
cheminDuFichierCSV = "./../data/dictionary/Buchanan_PronChar_counts.csv" 
dfDicoPron = pd.read_csv(cheminDuFichierCSV, delimiter=";", encoding="utf8")

In [9]:
dfDicoPron

Unnamed: 0,char,occ,graph
0,a,3207,a
1,ʹ,12725,
2,b,2288,b
3,ă,4533,a
4,c,5500,c
...,...,...,...
68,á,1,a
69,I,1,l
70,х,2,x
71,р,1,p


In [10]:
dfDicoPron = dfDicoPron.replace(np.nan, '', regex=True)

In [11]:
dfDicoPron

Unnamed: 0,char,occ,graph
0,a,3207,a
1,ʹ,12725,
2,b,2288,b
3,ă,4533,a
4,c,5500,c
...,...,...,...
68,á,1,a
69,I,1,l
70,х,2,x
71,р,1,p


In [12]:
def BucToPron(strSampa, dfMapping):
    ipaRes = ""
    
    for valSampa in strSampa:
        dfRowFinded = dfMapping[dfMapping['char']==valSampa]

        if len(dfRowFinded==1):
            ipaRes+=dfRowFinded.iloc[0]['graph']
        else:
            ipaRes+=''
    return ipaRes

In [13]:
dfDicoBuch['motVedette'] = dfDicoBuch.apply(lambda x: BucToPron(x['pron'], dfDicoPron),1)

In [14]:
dfDicoBuch

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId,motVedette
0,3,aʹbăcus,,,,n.,2.0,19,abacus
1,2,ăbăʹft,,,,p.,3.0,19,abaft
2,3,ăbaiʹſănce,F.,,,n.,4.0,19,abaisance
3,3,ābăʹndon,F.,,,v.,5.0,19,abandon
4,4,ābăʹndŏned,,,,a.,6.0,19,abandoned
...,...,...,...,...,...,...,...,...,...
15795,4,zōŏʹgrăphy,G.,,,n.,19.0,241,zoography
15796,4,zōŏʹphytès,G.,,,n.,20.0,241,zoophytes
15797,4,zōŏʹphŏric,G.,,,n.,21.0,241,zoophoric
15798,4,zōŏʹtŏmiſt,G.,,,n.,22.0,241,zootomist


### Colonnes Sampa et Ipa

In [15]:
#Importation de la base de données corrigée avec l'ensemble des données (réalisée dans le fichier Renaud_Peudecoeur_PandasTricks)
CheminBigRich=r"C:/Users/renau/Desktop/Cours 2021-2022/USSI39 2022/USSI39/data/dataframe/BigiRichSample.csv"
BigRich = pd.read_csv(CheminBigRich, delimiter=";", encoding="utf8")

In [16]:
BigRich

Unnamed: 0,hwd,Sampa,ipa
0,a,@,ə
1,a(2),eI,?
2,a'ready,@ r\ E d i:,əɹɛdiː
3,a's,eI z,?z
4,a.,eI,?
...,...,...,...
131098,zyuganov's(3),z u g A n A v z,zugɑnɑvz
131099,zyuganov's(4),z u g A n A f s,zugɑnɑfs
131100,zywicki,z i w I k i:,ziwɪkiː
131101,zzzz,z i: z,ziːz


In [17]:
#On merge les deux tables et supprime la colonne en hwd qui correspond au mot vedette
Dico = dfDicoBuch.merge(BigRich, how='inner',left_on= 'motVedette', right_on='hwd')

In [18]:
Dico

Unnamed: 0,nbSyll,pron,origin,warning,remarques,POS,lineId,pageId,motVedette,hwd,Sampa,ipa
0,3,aʹbăcus,,,,n.,2.0,19,abacus,abacus,{ b @ k @ s,æbəkəs
1,3,ābăʹndon,F.,,,v.,5.0,19,abandon,abandon,@ b { n d @ n,əbændən
2,4,ābăʹndŏned,,,,a.,6.0,19,abandoned,abandoned,@ b { n d @ n d,əbændənd
3,2,ăbăʹſh,F.,,,v.,9.0,19,abash,abash,@ b { S,əbæʃ
4,2,ăbāʹte,F.,,,v.,10.0,19,abate,abate,@ b eI t,əb?t
...,...,...,...,...,...,...,...,...,...,...,...,...
10328,2,zĕʹnith,,,,n.,11.0,241,zenith,zenith,z i: n @ T,ziːnəθ
10329,1,zĕſt,,,,n.,13.0,241,zest,zest,z E s t,zɛst
10330,1,zĭnk,,,,n.,14.0,241,zink,zink,z I N k,zɪŋk
10331,3,zōʹdĭac,,,,n.,16.0,241,zodiac,zodiac,z @U 4 i: { k,zoʊɾiːæk


In [19]:
Dico.to_csv(r"C:/Users/renau/Desktop/Cours 2021-2022/USSI39 2022/USSI39/data/dataframe/BuchananRich.csv")

In [20]:
cheminBigi = r"C:/Users/renau/Desktop/Cours 2021-2022/USSI39 2022/USSI39/data/dataframe/BuchananRich.csv"
Bigi0 = pd.read_csv(cheminBigi, delimiter=",", encoding="utf8")

In [21]:
Bigi=Bigi0[["motVedette","nbSyll","pron","Sampa","ipa"]]

In [22]:
Bigi[Bigi['motVedette'].isnull()]

Unnamed: 0,motVedette,nbSyll,pron,Sampa,ipa


In [23]:
Bigi

Unnamed: 0,motVedette,nbSyll,pron,Sampa,ipa
0,abacus,3,aʹbăcus,{ b @ k @ s,æbəkəs
1,abandon,3,ābăʹndon,@ b { n d @ n,əbændən
2,abandoned,4,ābăʹndŏned,@ b { n d @ n d,əbændənd
3,abash,2,ăbăʹſh,@ b { S,əbæʃ
4,abate,2,ăbāʹte,@ b eI t,əb?t
...,...,...,...,...,...
10328,zenith,2,zĕʹnith,z i: n @ T,ziːnəθ
10329,zest,1,zĕſt,z E s t,zɛst
10330,zink,1,zĭnk,z I N k,zɪŋk
10331,zodiac,3,zōʹdĭac,z @U 4 i: { k,zoʊɾiːæk


In [24]:
df = Bigi
df

Unnamed: 0,motVedette,nbSyll,pron,Sampa,ipa
0,abacus,3,aʹbăcus,{ b @ k @ s,æbəkəs
1,abandon,3,ābăʹndon,@ b { n d @ n,əbændən
2,abandoned,4,ābăʹndŏned,@ b { n d @ n d,əbændənd
3,abash,2,ăbăʹſh,@ b { S,əbæʃ
4,abate,2,ăbāʹte,@ b eI t,əb?t
...,...,...,...,...,...
10328,zenith,2,zĕʹnith,z i: n @ T,ziːnəθ
10329,zest,1,zĕſt,z E s t,zɛst
10330,zink,1,zĭnk,z I N k,zɪŋk
10331,zodiac,3,zōʹdĭac,z @U 4 i: { k,zoʊɾiːæk


## App

In [25]:
#Création de widgets
from IPython.display import display, clear_output, HTML, Markdown 
import IPython.display as ipd
import ipywidgets as widgets

In [26]:
#Création de la zone interface
filtremot = widgets.Text(value="",
                         description='filtre texte',
                         layout={'width': '200px'} )
filtreipa = widgets.Text(value="",
                         description='filtre ipa',
                         layout={'width': '200px'} )
maxmots = widgets.IntSlider(min=0,
                           max=10,
                           step=1,
                           description='Max de mots:',
                           value=1)
bouton = widgets.Button(description='Go !',
                        icon = "check")

In [27]:
def on_button_clicked(_):
    nbLigne = maxmots.value
    mot = filtremot.value 
    ipa = filtreipa.value
    df = ""

    with dataFrame:
        clear_output()
        
        # Filtre en fontion des variables précédentes 
        if (mot != ""):
            df = Bigi[(Bigi.motVedette.str.match(mot))]
            if(ipa != ""):
                df = df[(df.pron.str.match(ipa))]
        elif (ipa != ""):
            df = Bigi[(Bigi.pron.str.match(ipa))]

        if(len(df) > nbLigne):
            df = df.sample(n=nbLigne).copy()
        df = df.reset_index()    
        # On affiche
        display(df)
        
    with audio :
        clear_output()
        
        # Fonction Scrap du début
        df = Scrap(df)  
        # Fonction affichage audio du début
        listeAudio = Audio(df) 
        display(listeAudio)
        
            
bouton.on_click(on_button_clicked)

In [28]:
# Création des widgets
dataFrame = widgets.Output()
audio = widgets.Output()

In [29]:
mod1 = widgets.HBox([filtremot, filtreipa, maxmots, bouton])
mod2 = widgets.HBox([dataFrame])
mod3 = widgets.HBox([audio])

sortie = widgets.VBox([mod1, mod2, mod3])
sortie

VBox(children=(HBox(children=(Text(value='', description='filtre texte', layout=Layout(width='200px')), Text(v…