# DicoCo

*Renaud PEUDECOOEUR*

In [31]:
import pandas as pd
import numpy as np

## Scraping

* Cette partie reprend le travail effectué dans le fichier Renaud_Peudecoeur_scrapping en bouclant toutes les étapes réalisées dans ce dernier
* Le site utilisé pour récupérer les fichiers audios est celui de Cambridge

In [32]:
from requests_html import HTMLSession
session = HTMLSession()
import re
from IPython.display import display, clear_output, HTML, Markdown
from bs4 import BeautifulSoup

In [33]:
def Scrap(dataframe):
    
    #Création des variables
    site="https://dictionary.cambridge.org/fr/dictionnaire/anglais/"
    MotsAnglais = []
    MotsAmericains = []
    
    for mot in dataframe["motVedette"] :
        
        # Utilisation des fonctions de Scrap vues en cours pour récupérer l'HTML de cambrigde
        lien = site + mot
        response = session.get(lien)
        html_doc = response.content
        
        # Utilisation des fonctions de Parisng vues en cours pour visualiser les balises des .mp3
        soup = BeautifulSoup(response.text,'html.parser')
        souplettesBody = soup.find('body')
        soupletteAside = souplettesBody.findAll('amp-audio')
        
        # Récupération des fichiers mp3 après analyses du HTML (voir fichier Renaud_Peudecoeur_scrapping pour détails des étapes)
        baliseUK = soupletteAside[0].find('source')
        baliseUS = soupletteAside[1].find('source')
        
        rechercher = soup.findAll("div", {"class" : "pos-header dpos-h"})
        mp3UK = baliseUK['src']
        mp3US = baliseUS['src']
        base_url='https://dictionary.cambridge.org'
        AudiUK = base_url+mp3UK
        AudiUS = base_url+mp3US
        
        # Ajout des .mp3 dans une liste pour affichage Widget
        MotsAnglais.append(AudiUK)
        MotsAmericains.append(AudiUS)
    
    # Ajout dans dataframe
    dataframe['lienUK']=pd.Series(MotsAnglais).values
    dataframe['lienUS']=pd.Series(MotsAmericains).values
    
    return dataframe

## Audio 

In [34]:
from IPython import display as audioD
import IPython.display as ipd

In [35]:
def Audio(df):
    clear_output()
    listeWid = widgets.Output()
    lU = widgets.Output()
    sU = widgets.Output()

    for numLigne in range(len(df)):
        labelUK = widgets.Label("UK")
        itemsUK = audioD.Audio(url = df["lienUK"][numLigne])
        spectroUK = df["lienUK"][numLigne]
    
        labelUS = widgets.Label("US")
        itemsUS = audioD.Audio(url = df["lienUS"][numLigne])
        audioUK = widgets.Output()
        audioUK.append_display_data(itemsUK)
        audioUS = widgets.Output()
        audioUS.append_display_data(itemsUS)
        spectroUS = df["lienUS"][numLigne]
        
        lU = widgets.HBox([labelUK,audioUK,labelUS,audioUS])

        # Les mots
        labelMot = widgets.Label(df["motVedette"][numLigne])
        labelPron = widgets.Label(str(df["pron"][numLigne]))
        label = widgets.HBox([labelMot, labelPron])

        listeWid.append_display_data(widgets.VBox([label,lU,sU]))
                        
    return listeWid

## Buchanan

### Colonne motVedette

In [36]:
cheminDuFichierCSV = "./../data/dictionary/1757_Buchanan-J.csv" 
dfDicoBuch = pd.read_csv(cheminDuFichierCSV, delimiter=";", encoding="utf8")

In [37]:
#dfDicoBuch

In [38]:
cheminDuFichierCSV = "./../data/dictionary/Buchanan_PronChar_counts.csv" 
dfDicoPron = pd.read_csv(cheminDuFichierCSV, delimiter=";", encoding="utf8")

In [39]:
#dfDicoPron

In [40]:
dfDicoPron = dfDicoPron.replace(np.nan, '', regex=True)

In [41]:
#dfDicoPron

In [42]:
def BucToPron(strSampa, dfMapping):
    ipaRes = ""
    
    for valSampa in strSampa:
        dfRowFinded = dfMapping[dfMapping['char']==valSampa]

        if len(dfRowFinded==1):
            ipaRes+=dfRowFinded.iloc[0]['graph']
        else:
            ipaRes+=''
    return ipaRes

In [43]:
dfDicoBuch['motVedette'] = dfDicoBuch.apply(lambda x: BucToPron(x['pron'], dfDicoPron),1)

In [44]:
#dfDicoBuch

### Colonnes Sampa et Ipa

In [45]:
#Importation de la base de données corrigée avec l'ensemble des données (réalisée dans le fichier Renaud_Peudecoeur_PandasTricks)
CheminBigRich=r"./../data/dataframe/BigiRichSample.csv"
BigRich = pd.read_csv(CheminBigRich, delimiter=";", encoding="utf8")

In [46]:
#BigRich

In [47]:
#On merge les deux tables et supprime la colonne en hwd qui correspond au mot vedette
Dico = dfDicoBuch.merge(BigRich, how='inner',left_on= 'motVedette', right_on='hwd')

In [48]:
#Dico

In [49]:
#Dico.to_csv(r"C:/Users/renau/Desktop/Cours 2021-2022/USSI39 2022/USSI39/data/dataframe/BuchananRich.csv")

In [50]:
cheminBigi = r"./../data/dataframe/BuchananRich.csv"
Bigi0 = pd.read_csv(cheminBigi, delimiter=",", encoding="utf8")

In [51]:
Bigi=Bigi0[["motVedette","nbSyll","pron","Sampa","ipa"]]

In [52]:
#Bigi[Bigi['motVedette'].isnull()]

In [53]:
#Bigi

In [54]:
df = Bigi
#df

## App

In [55]:
#Création de widgets
from IPython.display import display, clear_output, HTML, Markdown 
import IPython.display as ipd
import ipywidgets as widgets

In [56]:
#Création de la zone interface
filtremot = widgets.Text(value="",
                         description='filtre texte',
                         layout={'width': '200px'} )
filtreipa = widgets.Text(value="",
                         description='filtre ipa',
                         layout={'width': '200px'} )
maxmots = widgets.IntSlider(min=0,
                           max=10,
                           step=1,
                           description='Max de mots:',
                           value=1)
bouton = widgets.Button(description='Go !',
                        icon = "check")

In [57]:
def on_button_clicked(_):
    nbLigne = maxmots.value
    mot = filtremot.value 
    ipa = filtreipa.value
    df = ""

    with dataFrame:
        clear_output()
        
        # Filtre en fontion des variables précédentes 
        if (mot != ""):
            df = Bigi[(Bigi.motVedette.str.match(mot))]
            if(ipa != ""):
                df = df[(df.pron.str.match(ipa))]
        elif (ipa != ""):
            df = Bigi[(Bigi.pron.str.match(ipa))]

        if(len(df) > nbLigne):
            df = df.sample(n=nbLigne).copy()
        df = df.reset_index()    
        # On affiche
        display(df)
        
    with audio :
        clear_output()
        
        # Fonction Scrap du début
        df = Scrap(df)  
        # Fonction affichage audio du début
        listeAudio = Audio(df) 
        display(listeAudio)
        
            
bouton.on_click(on_button_clicked)

In [58]:
# Création des widgets
dataFrame = widgets.Output()
audio = widgets.Output()

In [59]:
mod1 = widgets.HBox([filtremot, filtreipa, maxmots, bouton])
mod2 = widgets.HBox([dataFrame])
mod3 = widgets.HBox([audio])

sortie = widgets.VBox([mod1, mod2, mod3])
sortie

VBox(children=(HBox(children=(Text(value='', description='filtre texte', layout=Layout(width='200px')), Text(v…