# Scrap and Parse

In [19]:
import requests

In [26]:
from requests_html import HTMLSession
from bs4 import BeautifulSoup
import re
import pandas as pd

import pandas as pd
pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', 1000)
pd.set_option('display.width', 1000)
pd.set_option('display.expand_frame_repr', False)

#### Définition d'une fonction automatisant le scrapping et le parsing des données voulues et regroupant les données dans un data frame selon un mot donné

Choix du site de langue "Longman" pour réaliser nos étapes de scrapping et parsing : https://www.ldoceonline.com/dictionary/

In [34]:
def scrap_parse_longman(word):
    
    # requête http de notre site de langue - Choix du site Longman
    url_longman = 'https://www.ldoceonline.com/dictionary/'+word
    session = HTMLSession()
    response = session.get(url_longman)
    
    #si le site se génère bien sans erreur
    if (response.status_code == 200):
        
        # récupération de la balise body
        html_doc = response.content
        body = BeautifulSoup(html_doc,'html.parser')
        body.find('body')
        
        # initialisation des données à récupérer dans des listes
        #pour faciliter l'accès
        list_type = []
        list_pron = []
        list_MP3_us = []
        list_MP3_br = []
        
        
        # récupération des spans contenant les données recherchées
        span = body.findAll('span', {'class': re.compile('(frequent )*Head')})

        for result in span:
            
            # recherche des balises spans dont les classes ont comme valeur "POS" ou "PRON"
            if result.find('span', {'class':'POS'}) is not None:
                list_type.append(result.find('span', {'class':'POS'}).text.strip())
            if result.find('span', {'class':'PRON'}) is not None:
                list_pron.append(result.find('span', {'class':'PRON'}).text.strip())
                
            spans_all = result.findAll('span')
                
            # recherche des balises spans avec attribut "data-src-mp3"
            for span in spans_all:
                if span.has_attr('data-src-mp3'):
                    if 'British' in span['title']:
                        list_MP3_br.append(span['data-src-mp3'])
                    elif 'American' in span['title']:
                        list_MP3_us.append(span['data-src-mp3'])
                           
        # nombre de mot avec la même racine 
        nb_mots = len(list_type)
        
        # création du dataframe final
        list_mots = nb_mots * [word]
        while (len(list_pron) < nb_mots):
            list_pron.append(list_pron[0])
        
        df_result = pd.DataFrame(list(zip(list_mots, list_type, list_pron, list_MP3_br, list_MP3_us)),
                        columns = ['mot', 'type', 'pron', 'audio_us', 'audio_br'])
    
    
    return df_result

In [35]:
scrap_parse_longman('love')

Unnamed: 0,mot,type,pron,audio_us,audio_br
0,love,verb,lʌv,https://www.ldoceonline.com/media/english/breP...,https://www.ldoceonline.com/media/english/ameP...
1,love,noun,lʌv,https://www.ldoceonline.com/media/english/breP...,https://www.ldoceonline.com/media/english/ameP...


In [31]:
scrap_parse_longman('hello')

Unnamed: 0,mot,type,pron,audio_us,audio_br
0,hello,interjection,"həˈləʊ, he-",https://www.ldoceonline.com/media/english/breP...,https://www.ldoceonline.com/media/english/ameP...


In [32]:
scrap_parse_longman('good')

Unnamed: 0,mot,type,pron,audio_us,audio_br
0,good,adjective,ɡʊd,https://www.ldoceonline.com/media/english/breP...,https://www.ldoceonline.com/media/english/ameP...
1,good,noun,gʊd,https://www.ldoceonline.com/media/english/breP...,https://www.ldoceonline.com/media/english/ameP...
2,good,adverb,ɡʊd,https://www.ldoceonline.com/media/english/breP...,https://www.ldoceonline.com/media/english/ameP...
