# Séance 3 : Web-scraping avec Python

Dans cette séance, nous allons voir comment récupérer des informations dans une page web, en récupérant son contenu dans Python. Ici, nous avos choisi de récupérer les informations d'une recherche via *Google Maps* (en particulier un potentiel *site web*). 

Nous ne pouvons pas nous contenter de faire une requête comme précédemment, car beaucoup de serveurs web bloquent les accès de ce type. Pour faire cette opération, nous devons accéder à une page web comme si nous étions un utilisateur classique, en programmant ce qu'on peut appeler un *bot*. On va utiliser deux packages (à installer donc) :

- [`selenium`](https://www.selenium.dev) qui va nous permettre de piloter notre navigateur web ;
- [`bs4`](https://www.crummy.com/software/BeautifulSoup) (BeautifulSoup -- *parser* HTML) qui va nous permettre de récupérer dans un contenu HTML ce qu'on désire.

Pour que `selenium` fonctionne comme ce qui suit, sous Windows, il est nécessaire d'avoir télécharger l'exécutable [`chromedriver`](https://chromedriver.chromium.org) dans le répertoire de travail de Python. Vous pouvez récupérer les versions stables sur [cette page](https://googlechromelabs.github.io/chrome-for-testing/#stable) (copier-coller le lien HTML dans la barre du navigateur pour télécharger le fichier).

## Première étape : configurer le navigateur 

Pour rappel, vous devez placer `chromedriver` dans le même répertoire que votre notebook (et le bon en fonction de votre OS).

In [None]:
from selenium import webdriver

driver = webdriver.Chrome()

### Création de l'URL à récupérer

On créé l'URL de la page qu'on souhaite récupérer. Pour faire une recherche dans Google Maps, il est préférable de mettre le nom de l'établissement, ainsi que les coordonnées géographiques de celui-ci.

In [2]:
base_url = "https://www.google.com/maps/search/"
place_info = "IUT+paris+rives+de+seine"
comp_url = "/@48.8489968,2.3125954,12z"

url = base_url + place_info + comp_url
url

'https://www.google.com/maps/search/IUT+paris+rives+de+seine/@48.8489968,2.3125954,12z'


## Deuxième étape : récupération du contenu HTML

Lors de l'exécution de ce code, une instance du navigateur *Chrme* va s'ouvrir, dans laquelle vous devrez cliquer sur *Tout accepter*. Cette fenêtre servira pour accéder aux différentes pages web donc.

> **NE PAS FERMER CETTE FENETRE !**

In [3]:
driver.get(url)

Une fois cette fenêtre ouverte, on peut exécuter le code suivant pour effectivement récupérer le contenu désiré.

In [11]:
html = driver.page_source
html


## Troisième étape : Recherche de ce qui nous intéresse

Après **analyse d'une page Google Maps**, à faire dans un navigateur, avec l'inspecteur, ce que nous voulons récupérer est contenu dans la partie *Informations*. Plus exactement, dans une `div` dont le paramètre `aria-label` contient la valeur `"Informations"`.

In [12]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html)
results = soup.select("div[aria-label*='Informations']")
results

[<div aria-label="IUT de Paris - Rives de Seine - Université Paris Cité - Informations" class="m6QErb XiKgde" role="region" style=""><div jslog="39448;" ve-visible="cf"></div><div jslog="39497;" ve-visible="cf"></div><div class="RcCsl fVHpi w4vB1d NOE9ve M0S7ae AG25L"><div class="OyjIsf"></div><button aria-label="Adresse: 143 Av. de Versailles, 75016 Paris " class="CsEnBe" data-item-id="address" data-tooltip="Copier l'adresse" jsaction="pane.wfvdle34;clickmod:pane.wfvdle34;focus:pane.focusTooltip;blur:pane.blurTooltip" jslog="36622; track:click; mutable:true;"><div class="AeaXub"><div class="cXHGnc"><span aria-hidden="true" class="google-symbols PHazN" style="font-size: 24px;"></span></div><div class="rogA2c"><div class="Io6YTe fontBodyMedium kR99db fdkmkc">143 Av. de Versailles, 75016 Paris</div><div class="gSkmPd fontBodySmall CuiGbf DshQNd"></div></div></div></button><div class="UCw5gc"><div class="C9yzub"><div class="etWJQ kdfrQc NUqjXc"><button aria-label="Copier l'adresse" class

Pour récupérer l'adresse du site web, s'il y en a un, encore une fois après recherche via l'inspecteur, nous cherchons plus exactement la balise `a` dont le paramètre `aria-label` contient la valeur `"Site Web"`.

In [13]:
results = soup.select("a[aria-label*='Site Web']")
results

[<a aria-label="Site Web: iutparis-seine.u-paris.fr " class="CsEnBe" data-item-id="authority" data-tooltip="Accéder au site Web" href="https://iutparis-seine.u-paris.fr/" jsaction="pane.wfvdle38;clickmod:pane.wfvdle38;focus:pane.focusTooltip;blur:pane.blurTooltip" jslog="3443; track:click; mutable:true;metadata:W251bGwsIixBT3ZWYXcwUWNzQWRUa0ZvcGZuMW9ZaHhtbkZ3LCwwYWhVS0V3aVgycnZfbnJPS0F4V0pWS1FFSFo0aEtINFE2MWdJRXlnTywiXQ=="><div class="AeaXub"><div class="cXHGnc"><span aria-hidden="true" class="google-symbols PHazN" style="font-size: 24px;"></span></div><div class="rogA2c ITvuef"><div class="Io6YTe fontBodyMedium kR99db fdkmkc">iutparis-seine.u-paris.fr</div><div class="gSkmPd fontBodySmall CuiGbf DshQNd"></div></div></div></a>]

Pour avoir exactement l'adresse, on récupère le lien web (contenu dans la balise `href`) du premier résultat obtenu précédemment.

In [15]:
results[0]["href"]

'https://iutparis-seine.u-paris.fr/'

## Dernière étape : fermeture du navigateur

Une fois qu'on a récupéré tout ce qu'on souhaite (donc une fois l'exécution complète du *bot*), il est préférable de fermer correctement le navigateur, surtout si votre code est prévu pour s'exécuter en arrière plan sur un serveur.

In [16]:
driver.close()

## A FAIRE

A partir du fichier [StockEtablissement_utf8_1000__complété.csv](StockEtablissement_utf8_1000__complété.csv) sur les 1000 premiers établissements, dans lequel nous avons ajouté les coordonnées géographiques, vous devez chercher, pour chaque établissement, s'il existe un site web et récupérer l'adresse. Toutes les URL seront au final stockées dans une nouvelle variable, `website`, ajouté à toutes les autres informations.

In [1]:
import pandas

df = pandas.read_csv("StockEtablissement_utf8_1000__complété.csv")
df

Unnamed: 0,siren,nic,siret,statutDiffusionEtablissement,dateCreationEtablissement,trancheEffectifsEtablissement,anneeEffectifsEtablissement,activitePrincipaleRegistreMetiersEtablissement,dateDernierTraitementEtablissement,etablissementSiege,...,etatAdministratifEtablissement,enseigne1Etablissement,enseigne2Etablissement,enseigne3Etablissement,denominationUsuelleEtablissement,activitePrincipaleEtablissement,nomenclatureActivitePrincipaleEtablissement,caractereEmployeurEtablissement,latitude,longitude
0,325175,16,32517500016,O,2000-09-26,,,3212ZZ,2015-03-18T00:58:59,False,...,F,,,,,32.12Z,NAFRev2,N,49.220518,6.015168
1,325175,24,32517500024,O,2008-05-20,,,,2011-12-12T09:40:04,False,...,F,TAHITI PERLES CREATIONS,,,,47.89Z,NAFRev2,N,43.938190,4.882656
2,325175,32,32517500032,O,2009-05-27,,,,2014-07-08T00:10:21,False,...,F,TAHITI PERLES CREATIONS,,,,32.12Z,NAFRev2,N,43.932374,4.844274
3,325175,40,32517500040,O,2011-10-21,,,3212ZZ,2015-03-18T00:58:59,False,...,F,TAHITI PERLES CREATION,,,,32.12Z,NAFRev2,N,43.280158,5.623075
4,325175,57,32517500057,O,2014-01-07,,,,2018-07-10T14:17:15,False,...,F,TAHITI PERLES CREATION,,,,32.12Z,NAFRev2,N,43.299866,5.397044
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
994,5742028,29,574202800029,O,2002-01-01,NN,,,2013-12-11T08:50:11,False,...,F,,,,,01.11Z,NAFRev2,N,44.115767,6.010904
995,5742036,14,574203600014,O,,,,,,True,...,F,,,,,69.22,NAP,N,44.179140,5.947317
996,5742093,15,574209300015,O,,,,,2019-08-25T12:02:35,True,...,F,,,,,62.43,NAP,N,44.197272,5.944793
997,5742101,16,574210100016,O,1900-01-01,NN,,,2019-11-14T14:00:14,True,...,F,,,,,,,N,44.427401,6.435844
