# DicoCo

*Quentin LACHAUSSEE*

In [3]:
import pandas as pd
import requests
import pandas as pd
import re
from datetime import datetime
from pathlib import Path
import ipywidgets as widgets
from IPython.display import display, clear_output, HTML, Markdown 
import requests
from bs4 import BeautifulSoup
import numpy as np
import matplotlib.pyplot as plt
import librosa
import librosa.display
from requests_html import HTMLSession
import os.path

In [4]:
# on va lire notre dictionnaire enrichie dans "quentin_lachaussee_manipDataframe"
chemin_Buchanan_riche = "./../data/dataframe/BuchananRich.csv"
df_Buchanan_riche = pd.read_csv(chemin_Buchanan_riche, sep=";")

# on crée les 3 filtres
filter_hwd = widgets.Text(placeholder='.*',value='^a',description="filtre hwd")
filter_ipa = widgets.Text(placeholder='.*',value='',description="filtre ipa")
filter_occ = widgets.IntSlider(value=3, min=1, max=10, step=1, description='occ. Max:')

# on instancie l'affichage de sortie
out = widgets.Output()

# on défini la fonction de filtre du DataFrame en fonction des valeurs des filtres
def filter_df(df, str_hwd, str_ipa, int_occ):    
    return df[(df['motVedette'].str.contains(str_hwd, na=False,flags=re.IGNORECASE, regex=True)) &
              (df['pronIpa'].str.contains(str_ipa, na=False,flags=re.IGNORECASE, regex=True))].head(int_occ).reset_index(drop=True)

# on défini la fonction qui va requeter un audio, le sauvegarder pour pouvoir le lire et enregistrer une image librosa
def save_load_mp3(link, word, langage):
    # chemin de l'image
    path_png = f"./../data/audio/song_{word}_{langage}.png"
    
    # si l'image n'existe pas déjà
    if os.path.exists(path_png) == False:
        # on requete l'audio
        doc = requests.get(link)
        path = "./../data/audio/song.mp3"
        
        # on enregistre l'audio
        with open(path, 'wb') as f:
            f.write(doc.content)
        
        # on va lire l'audio
        y, sr = librosa.load(path)
        D = librosa.stft(y)  # STFT of y
        S_db = librosa.amplitude_to_db(np.abs(D), ref=np.max)
        
        # on crée un graph de l'audio
        fig, ax = plt.subplots()
        img = librosa.display.specshow(S_db, x_axis='time', y_axis='linear', ax=ax)
        fig.colorbar(img, ax=ax, format="%+2.f dB")
        
        # on enregistre le graphe sous forme d'image png
        plt.savefig(path_png)

    # on retourne le chemin vers l'image
    return path_png

# on défini la fonction qui va s'executer lorsque l'utilisateur clique sur le bouton de Collecte
def on_button_clicked(_):
    with out:
        
        # on re initialise l'affichage
        clear_output()
        
        # on va chercher les valeurs filtres
        str_hwd = filter_hwd.value
        str_ipa = filter_ipa.value
        int_occ = int(filter_occ.value)
        
        # si il n'y en a pas, on fait en sorte de n'appliquer aucun filtre
        if str_hwd=="":
            str_hwd = ".*"
        else:
            pass
        if str_ipa=="":
            str_ipa = ".*"
        else:
            pass

        # on filtre notre dictionnaire
        df_filtered = filter_df(df_Buchanan_riche, str_hwd, str_ipa, int_occ)
        
        # on crée un tableau en HTML
        tableau_label = '<table><tr><th style="border: 1px solid black; text-align: center;">motVedette</th>\
                                    <th style="border: 1px solid black; text-align: center;">nbSyll</th>\
                                    <th style="border: 1px solid black; text-align: center;">pronOrigin</th>\
                                    <th style="border: 1px solid black; text-align: center;">pronSampa</th>\
                                    <th style="border: 1px solid black; text-align: center;">pronPos</th>\
                                    <th style="border: 1px solid black; text-align: center;">pronIpa</th>\
                                    <th style="border: 1px solid black; text-align: center;">US</th>\
                                    <th style="border: 1px solid black; text-align: center;">UK</th>\
                                </tr>'
        
        # pour chaque mot du dictionnaire filtré
        for i in range(len(df_filtered)):
            # on va requeter Linguee sur ses informations
            word = df_filtered.motVedette[i]
            url = f"https://www.linguee.fr/anglais-francais/traduction/{word}.html"
            response = requests.get(url)
            
            # si on a dépassé le nombre de requête possible, on affiche une erreur
            if response.status_code == 503:
                print("Nombre de requête dépassé")
                break
            
            # on va chercher le body de la page
            body = BeautifulSoup(response.text, 'html.parser').find('body')
            # on va chercher le premier span qui contient les audios du mot
            span = body.find('span',{"class":"tag_lemma"})
            
            # on va chercher les audios dans l'attribut "onclick"
            audio_US = span.find('a',{"class":"audio"})['onclick'].split('"')[1]
            audio_UK = span.find('a',{"class":"audio"})['onclick'].split('"')[5]
            
            # on rajoute le domaine aux audios
            audio_US_url = f"https://www.linguee.fr/mp3/{audio_US}.mp3"
            audio_UK_url = f"https://www.linguee.fr/mp3/{audio_UK}.mp3"
            
            # on appelle la fonction pour charger l'image librosa
            audio_US_plot = save_load_mp3(audio_US_url, word, "us")
            audio_UK_plot = save_load_mp3(audio_UK_url, word, "uk")

            # on alimente le tableau avec les caractéristique du mot
            tableau_label += '<tr><td rowspan="2" style="border: 1px solid black; text-align: center;"><a href='+url+' target="_blank" >'+word+'</a></td>\
                                  <td rowspan="2" style="border: 1px solid black; text-align: center;">'+str(df_filtered.nbSyll[i])+'</td>\
                                  <td rowspan="2" style="border: 1px solid black; text-align: center;">'+df_filtered.pron[i]+'</td>\
                                  <td rowspan="2" style="border: 1px solid black; text-align: center;">'+df_filtered.pronSampa[i]+'</td>\
                                  <td rowspan="2" style="border: 1px solid black; text-align: center;">'+df_filtered.pronPos[i]+'</td>\
                                  <td rowspan="2" style="border: 1px solid black; text-align: center;">'+df_filtered.pronIpa[i]+'</td>\
                                  <td style="border: 1px solid black; border-bottom: 0px;"> <audio controls src="'+audio_US_url+'"><code>audio</code></audio></td>\
                                  <td style="border: 1px solid black; border-bottom: 0px;"> <audio controls src="'+audio_UK_url+'"><code>audio</code></audio></td>\
                              </tr>\
                              <tr><td style="border: 1px solid black; border-top: 0px;"> <img src="'+audio_US_plot+'"></img></td>\
                                  <td style="border: 1px solid black; border-top: 0px;"> <img src="'+audio_UK_plot+'"></img></td>\
                              </tr>'

        # on ferme et affiche le tableau
        tableau_label += '</table>'
        tableau = HTML(tableau_label)
        display(tableau)

# on instancie le bouton de Collecte et la fonction qui s'active une fois actionné
button = widgets.Button(description='Collecter')    
button.on_click(on_button_clicked)

# on place les 3 filtres sur 1 même première ligne
input_filter = widgets.HBox([filter_hwd, filter_ipa, filter_occ, button])

# on place l'affichage en dessous des filtres
all_widget = widgets.VBox([input_filter, out])

# on affiche les résultats
display(all_widget)


VBox(children=(HBox(children=(Text(value='^a', description='filtre hwd', placeholder='.*'), Text(value='', des…