# DicoCo

*Adrien Golebiewski*

In [1]:
# import necessaires à la création des widgets
from IPython.display import display, clear_output, HTML, Markdown, Audio
import ipywidgets as widgets

In [2]:
#coloration du texte
from termcolor import colored

In [3]:
import pandas as pd
import re

from requests_html import HTMLSession
import re
import pandas as pd
from bs4 import BeautifulSoup

### Récupération de la fonction de scrapping/parsing

In [4]:
def scrap_parse_longman(word):
    
    # requête http de notre site de langue - Choix du site Longman
    url_longman = 'https://www.ldoceonline.com/dictionary/'+word
    session = HTMLSession()
    response = session.get(url_longman)
    
    #si le site se génère bien sans erreur
    if (response.status_code == 200):
        
        # récupération de la balise body
        html_doc = response.content
        body = BeautifulSoup(html_doc,'html.parser')
        body.find('body')
        
        # initialisation des données à récupérer dans des listes
        #pour faciliter l'accès
        list_type = []
        list_pron = []
        list_MP3_us = []
        list_MP3_br = []
        
        
        # récupération des spans contenant les données recherchées
        span = body.findAll('span', {'class': re.compile('(frequent )*Head')})

        for result in span:
            
            # recherche des balises spans dont les classes ont comme valeur "POS" ou "PRON"
            if result.find('span', {'class':'POS'}) is not None:
                list_type.append(result.find('span', {'class':'POS'}).text.strip())
            if result.find('span', {'class':'PRON'}) is not None:
                list_pron.append(result.find('span', {'class':'PRON'}).text.strip())
                
            spans_all = result.findAll('span')
                
            # recherche des balises spans avec attribut "data-src-mp3"
            for span in spans_all:
                if span.has_attr('data-src-mp3'):
                    if 'British' in span['title']:
                        list_MP3_br.append(span['data-src-mp3'])
                    elif 'American' in span['title']:
                        list_MP3_us.append(span['data-src-mp3'])
                           
        # nombre d'homonymes
        nb_hom = len(list_type)
        
        # création du dataframe final
        list_mots = nb_hom * [word]
        while (len(list_pron) < nb_hom):
            list_pron.append(list_pron[0])
        
        df_result = pd.DataFrame(list(zip(list_mots, list_type, list_pron, list_MP3_br, list_MP3_us)),
                        columns = ['mot', 'type', 'pron', 'audio_us', 'audio_br'])
    
    
    return df_result

### Récupération du dico Buchanan enrichi

In [5]:
cheminDicoBuchMot = "./../data/dataframe/BuchananRich.csv"
Dico = pd.read_csv(cheminDicoBuchMot, delimiter=";", encoding="utf8")[['Mot', 'pron', 'POS', 'pronSampa', 'ipa']]

### Définition fonction filtre

In [6]:
def filtDf(Mot):    
    dfMonDicoFiltered = Dico[Dico['Mot'].str.contains(Mot, na=False,flags=re.IGNORECASE, regex=True)]
    return dfMonDicoFiltered

### Définition de nos widgets et du processus de clic

In [9]:
# widget entrées
textFilter = widgets.Text(
       value="love",
       description='Mot:',
       layout={'width': '180px'} )

textFilter_IPA = widgets.Text(
       value="O:",
       description='IPA:',
       layout={'width': '180px'} )

# widget slider Occ max
nbOccur_f = widgets.IntSlider(value=3, min=0, max=20, description='Occ max', layout={'width': '250px'})

# widget boutton collecter
buttonFiltrer = widgets.Button(description='Collecter')
buttonFiltrer.style.button_color = 'lightgreen' #couleur du  boutton

# widgets de sortie
outDf = widgets.Output()
outMp3 = widgets.Output()
Text = widgets.Output()

# fonction appelé au click
def click_bouton(_):
    
    # récupérer le texte Mot saisi par l'utilisateur
    targetWord = textFilter.value
    df_filtered = filtDf(targetWord)
    # on affiche les n premiers plutôt qu'un sample
    df_filtered_visible = df_filtered.head(nbOccur_f.value)
    
    # récupérer le texte IPA saisi par l'utilisateur
    targetIPA = textFilter_IPA.value
    df_filtered_IPA = filtDf(targetIPA)
    # on préfère ici afficher les n premiers plutôt qu'un sample
    df_filtered_visible_IPA = df_filtered_IPA.head(nbOccur_f.value)
    
    
    # widget text
    with Text:
        display('        et les audios        ')
    
    # widget affichant le Df
    with outDf:
        clear_output()
        display(df_filtered_visible)
    
    # widget contenant l'url longman et les players audios
    with outMp3:
        clear_output()
        for word in df_filtered_visible['Mot']:
            
            #définition url du site Longman
            urlLongman = "https://www.ldoceonline.com/dictionary/"
            urlTarget = urlLongman+word
            display(HTML('<a href="'+urlTarget+'" target="_blank" >'+'longman : '+word+'</a>'))
            
            # appel de la fonction de scrapping renvoyant le df
            audio_url_br = scrap_parse_longman(word)['audio_br']
            audio_url_us = scrap_parse_longman(word)['audio_us']
            
        
            #si l'url britannique existe, si il y a au moins 1 caractère
            if len(audio_url_br) > 0:
                #Appel de la fonction audio + split de l'url pour récupérer le nom du fichier
                audio_url_br = audio_url_br.iloc[0].split('?', 1)[0]
                display(HTML('<b>BR</b>'))
                #affichage de l'audio
                display(Audio(url=audio_url_br))
            
            #si l'url américain existe, si il y a au moins 1 caractère
            if len(audio_url_us) > 0:
                #Appel de la fonction audio + split de l'url pour récupérer le nom du fichier
                audio_url_us = audio_url_us.iloc[0].split('?', 1)[0]
                display(HTML('<b>US</b>'))
                #affichage de l'audio
                display(Audio(url=audio_url_us))
            
            #si l'url britannique et américain n'existent pas, si il y a n'y a pas de caractéres
            if len(audio_url_br) == 0 and len(audio_url_us) == 0:
                display(HTML('Pas de fichier audio pour le mot '+word))
            
buttonFiltrer.on_click(click_bouton)

### Assemblage du layout et affichage de l'UI

In [10]:
Filtres = widgets.HBox([textFilter,textFilter_IPA, nbOccur_f, buttonFiltrer])


Sortie = widgets.HBox([outDf,Text,outMp3])

UI = widgets.VBox([Filtres,Sortie])

print(colored('                                          Projet Dico - Golebiewski ADRIEN \n \n \n', 'blue', attrs=['bold']))

#affichage finale de l'UI
UI

[1m[34m                                          Projet Dico - Golebiewski ADRIEN 
 
 
[0m


VBox(children=(HBox(children=(Text(value='love', description='Mot:', layout=Layout(width='180px')), Text(value…