# Laboratoire facultatif 
## Ce carnet web IPython ne fonctionne pas dans Google Colab mais il peut s'exécuter sur un poste de travail sur lequel est installé un fureteur piloté par Selenium.

### Rappel - Fonctionnement d'un carnet web iPython

* Pour exécuter le code contenu dans une cellule d'un carnet iPython, cliquez dans la cellule et faites (⇧↵, shift-enter) 
* Le code d'un carnet iPython s'exécute séquentiellement de haut en bas de la page. Souvent, l'importation d'une bibliothèque Python ou l'initialisation d'une variable est préalable à l'exécution d'une cellule située plus bas. Il est donc recommandé d'exécuter les cellules en séquence. Enfin, méfiez-vous des retours en arrière qui peuvent réinitialiser certaines variables.

# Moissonnage de données sur la Toile - formulaire web

## Les marées des sept prochains jours à Tadoussac 

<p>Vous planifiez une sortie en kayak de mer à Tadoussac qui est située sur le fleuve Saint-Laurent à l'embouchure du Saguenay. Vous allez moissonner les informations concernant les marées pour les sept prochains jours à compter du 21 septembre 2024. Pour cela, vous utiliserez un formulaire disponible sur le site de Pêches et Océans Canada. </p> 

<p>Pour simuler les interactions que fait un humain avec le site web, vous utiliserez la bibliothèque python <a href="https://selenium-python.readthedocs.io/" target='_blank'>Selenium</a>. L'extraction des sections pertinentes de la page web des résultats sera faite avec l'outil python <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/" target='_blank'>Beautiful Soup</a>. Enfin, des <a href="https://docs.python.org/fr/3/howto/regex.html" target='_blank'>expressions régulières<sup>1</sup></a> seront utilisées pour extraire les informations détaillées.</p>
<hr/>
<span style="font-size:80%"><sup>1</sup><b>Note - pratique: </b><a href="https://regex101.com/" target='_blank'>regex101.com</a> est un excellent site pour pratiquer et mettre au point des expressions régulières.</span>

## Importation des bibliothèques Python
<ul>
<ul>
  <li><b><i>re</i></b> (expressions régulières), <b><i>json</i></b> (traitement du format de données json: JavaScript Object Notation) et et <b><i>datetime</i></b> (traitement des dates et de l'heure) sont des bibliothèques Python standard, vous n'avez pas besoin de les installer, il suffit de les importer.</li>
    <li>Installation d'un <a href="https://selenium-python.readthedocs.io/installation.html#drivers" target='_blank'>pilote pour le contrôle de votre fureteur par Selenium</a></li>
  <ul>
      <li><a href="https://sites.google.com/a/chromium.org/chromedriver/downloads" target='_blank'>Pilotes</a> pour le fureteur Chrome</li> 
      <li>Par exemple sur Mac OS et le fureteur Chrome, brew install chromedriver</li>
  </ul>
  <li>Installation de <a href="https://selenium-python.readthedocs.io/" target='_blank'>Selenium</a></li>
  <ul>
    <li>Par exemple, sudo pip3 install selenium</li>
  </ul>
  <li>Installation de <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/" target='_blank'>Beautiful Soup</a></li>
  <ul>
    <li>Par exemple, sudo pip3 install bs4</li>
  </ul>
</ul>
</ul>

In [None]:
# Importation et installation de la bibliothèque Selenium
# Attention! insérez votre mot de passe (celui de votre ordinateur), sans guillemets
import sys
!echo votreMotDePasse | sudo -S {sys.executable} -m  pip install selenium

In [None]:
# Importation et installation de la bibliothèque webdriver-manager
# Attention! insérez votre mot de passe (celui de votre ordinateur), sans guillemets
!echo votreMotDePasse | sudo -S {sys.executable} -m pip install webdriver-manager

In [None]:
# Importation et installation de la bibliothèque chromedriver
# Par exemple, ici je télécharge le ChromeDriver pour Mac et l'installe dans le répertoire /usr/local/bin/
# Évidemment vous devez fournir votre mot de passe et le répertoire adéquat sur votre ordinateur
# Attention! insérez votre mot de passe (celui de votre ordinateur), sans guillemets
# Vous pourriez aussi devoir décompresser / unzip le fichier télécharger
!echo votreMotDePasse | sudo -S wget -O /usr/local/bin/chromedriver-mac-arm64.zip https://storage.googleapis.com/chrome-for-testing-public/128.0.6613.84/mac-arm64/chromedriver-mac-arm64.zip

In [None]:
# Installer la bibliothèque BeautifulSoup de manipulation du HTML  
# sudo pip3 install bs4
!echo votreMotDePasse | sudo -S {sys.executable} -m pip install bs4

In [None]:
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
from selenium import webdriver

import re
import pandas as pd

print("Bibliothèques Python importées")

## Analyse des points d'entrée du formulaire avec la fonction d'inspection de votre fureteur
<ul>
    <ul>
        <li>Ouvrir la page du <a href="https://www.marees.gc.ca/fra/station?sid=2985" target='_blank'>formulaire</a> sur le site de Pêches et Océans Canada;</li>
        <li>Reconstituer la séquence des interactions avec le formulaire (clics, menus et saisie clavier);</li>
        <li>Obtenir les identifiants des boutons, des menus, des champs de saisie;</li>
    </ul>
</ul>   

## Programmation d'un script d'interaction Selenium avec le formulaire des marées



In [None]:
# La nouvelle façon d'installer le pilote pour le fureteur Chrome
# mais pour cela, il faut réussir à installer la bibliothèque webdriver_manager
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

from warnings import filterwarnings
filterwarnings("ignore")

# Instancier un pilote web pour le fureteur Chrome
# service = Service('chemin vers chromedriver')
service = Service('/usr/local/bin/chromedriver-mac-arm64/chromedriver')

# pilote_chrome = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
pilote_chrome = webdriver.Chrome(service=service)

# Ouvrir la page web où se trouve le formulaire des marées
# Nous allons partir avec la station 00001
pilote_chrome.get("https://www.marees.gc.ca/fr/stations/00001")
# puis la changer pour la station "Tadoussac"
localite = "Tadoussac"

# Demander le formulaire pour la localité de Tadoussac avec l'outil de recherche / filtrage
# Pour trouver les identifiants HTML, il faut examiner la page web avec un outil d'inpection
# Pour le fureteur Chrome en faisant option-click sur la page Web et choisir « inspecter »
saisie_localite = pilote_chrome.find_element(By.ID,"station-select-list")
# saisie_localite.clear()
saisie_localite.send_keys(localite)

# Demander un délai d'exécution
import time 
time.sleep(2)

# Changer la date du composant calendrier, ici le 21 septembre 2024
nouvelle_date = "2024-09-21"
saisie_date = pilote_chrome.find_element(By.ID, "water-levels-date")
saisie_date.clear()
pilote_chrome.execute_script("arguments[0].value = '" + nouvelle_date + "';", saisie_date)

# Soumettre la requête pour obtenir l'horaire des marées à Tadoussac pour
# les sept prochains jours à compter du 21 septembre 2024
bouton_soumettre = pilote_chrome.find_element(By.ID, "water-levels-date-submit")
bouton_soumettre.click()

# Demander un délai d'exécution
time.sleep(5)

# Obtenir la page web des résultats
page_reponse = pilote_chrome.page_source

print("Le script Selenium devrait ouvrir un fureteur et afficher un message")
print("du genre: « Browser is being controlled by automated test software. »")
print("puis le script Selenium simule les interactions avec le formulaire.\n")
print("Script Selenium exécuté, formulaire soumis, page de résultats récupérée...")

## Analyse de la page de résultats retournée avec `BeautifulSoup`

### Affichage formaté de la page de résultats en HTML 

In [None]:
# Demander un délai d'exécution
time.sleep(2)

# Analyser la page de réponse retournée avec BeautifulSoup
dom_page_resultats = BeautifulSoup(page_reponse,"html.parser") 

# Afficher la page web retournée
print(dom_page_resultats.prettify())

## Extraction des sections pertinentes de la page de résultats avec `Beautiful Soup`

### Affichage des sections pertinentes contenant les données de marée pour sept jours

In [None]:
# Extraire de la page les sections pertinentes
# cela implique un examen du contenu de la page et
# une connaissance des possibilités de BeautifulSoup
# https://www.crummy.com/software/BeautifulSoup/bs4/doc/

# Demander un délai d'exécution
time.sleep(2)

# Extraire les paramètres de la requête de recherche d'information
parametres_bruts = dom_page_resultats.find_all("table", {"class":"day-tables clearfix table-bordered responsive-enabled table table-hover table-striped"})
print("Sections pertinentes en HTML:\n")
print("Nombre de jours:",len(parametres_bruts),"\n")
print(parametres_bruts)
# parametres_bruts = parametres_bruts.find("div", {"class":"wb-eqht wb-init wb-eqht-inited"})

### Affichage du texte brut sans les balises HTML

In [None]:
print("Sections pertinentes en texte brut sans les balises HTML:\n")
for parametre_brut in parametres_bruts:
    texte_affichage = parametre_brut.getText().strip()
    print(texte_affichage)

## Affichage avec rendu des tableaux HTML de marées

In [None]:
import re
from IPython.display import display, HTML

# Extraction des attributs au moyen d'une expression régulière
# la mise au point de l'expression régulière se fait avec https://regex101.com/

FORME_1 = r"(?:.*\n)<caption>(\d\d\d\d-\d\d-\d\d\s*\(\w*\))\<\/caption>"

for parametre_brut in parametres_bruts:
    titre = re.match(re.compile(FORME_1),str(parametre_brut)).group(1)
    substitution = re.sub(FORME_1, '<table>', str(parametre_brut))
    display(HTML(titre+"\n"+substitution))

## Extraction des données de marées au moyen d'expressions régulières

In [None]:
def extraire_numero_station(texte_entree):
    FORME_1 = r'\s+\((\d*)\)\s+|\s+Pêches\s+et\s+Océans Canada<\/title>'
    return re.search(FORME_1, str(texte_entree)).group(1)

numero_station = extraire_numero_station(dom_page_resultats)
print("Numéro de station:",numero_station)

In [None]:
def extraire_fuseau_horaire(texte_entree):
    FORME_2 = r'<th>Heure\s*(\w*)<\/th>'
    return re.search(FORME_2, str(texte_entree)).group(1)

fuseau_horaire = extraire_fuseau_horaire(parametres_bruts[0])
print("Fuseau horaire:",fuseau_horaire)

In [None]:
from datetime import datetime

def extraire_date(texte_entree):
    FORME_3 = r"(\d\d\d\d)-(\d\d)-(\d\d)"
    resultats_extraction = re.search(re.compile(FORME_3),str(texte_entree))
    # Réécriture de la date en français
    date_str = resultats_extraction.group(3) + "-" + resultats_extraction.group(2) + "-" + resultats_extraction.group(1) 
    return date_str

extraire_date(parametres_bruts[0])

In [None]:
def extraire_donnees_maree(texte_entree):
    FORME_4 = r"<td>(\d*:\d*)<\/td>\n<td>(\d*.\d*)<\/td>"
    resultats_extraction = re.findall(re.compile(FORME_4),str(texte_entree))
    return resultats_extraction

extraire_donnees_maree(parametres_bruts[0])

## Sauvegarde des données dans le fichier `donnees_marees_formulaire_web.csv`

In [None]:
# Sauvegarder les données dans un fichier .csv
chemin_fichier_sortie = './'
nom_fichier_sortie = "donnees_marees_formulaire_web.csv"
with open(chemin_fichier_sortie+nom_fichier_sortie,'w') as fichier_sortie:
    # Écriture de l'entête du fichier listant les différents attributs
    fichier_sortie.write('localite\tstation\tfuseau_horaire\tdate\theure\thauteur_m\n')
    for parametre_brut in parametres_bruts:
        titre = re.match(re.compile(FORME_1),str(parametre_brut)).group(1)
        date = extraire_date(parametre_brut)
        donnees_marees_liste = extraire_donnees_maree(parametre_brut)
        for donnees_marees in donnees_marees_liste:
            # Écriture des données sur la marée dans le fichier
            fichier_sortie.write(localite+'\t'+numero_station+'\t'+fuseau_horaire+'\t'+date+'\t'
                                 +donnees_marees[0]+'\t'+donnees_marees[1]+'\n')
        
print("Données de marées sauvegardées dans le fichier "+ nom_fichier_sortie)

## Test de lecture du fichier de données

Vérification que le fichier .csv est correct.

In [None]:
import pandas as pd

nom_fichier_sortie = "donnees_marees_formulaire_web.csv"


donnees_marees_df = pd.read_csv(chemin_fichier_sortie+nom_fichier_sortie,delimiter='\t')
donnees_marees_df