# Agrégateur Web

Grâce à Python, on peut extraire des informations d'un site Web et les structurer pour en faire l'analyse plus facilement.

Question: quels sont les jeux de données disponibles en rapport à l'eau de Montréal ? Quels sont les formats de fichiers offerts ?

Encore une fois, la réponse se trouve sur le site de la ville de Montréal: https://donnees.montreal.ca/ville-de-montreal

Par contre, cette fois-ci on a plus de travail sur la planche.

Comme pour les exercices sur les arbres et sur les murales, on va devoir utiliser le module `requests`. Comme on doit extraire les informations de la page web, on utilise aussi le module Beautiful Soup (`bs4`) pour présenter le contenu de la page de façon structurée. 

## Téléchargement de la page

In [None]:
import requests
import bs4

EAU_URL = "https://donnees.montreal.ca/search?q=tags:Eau%20organization:ville-de-montreal&from=0"

req = requests.get(EAU_URL)
soup = bs4.BeautifulSoup(req.text)


Voici un aperçu de comment on peut mélanger notre soupe.

In [None]:
html = soup.find("html")
para = html.find("p")
print(para.text)
titre = para.parent.parent.parent.parent.find("h3")
print(titre["class"])
print(titre.text)
print(len(titre))
print(list(titre.children))


On voit qu'on peut naviguer le document HTML comme un arbre avec les attributs `parent` et `children`. On voit aussi qu'on peut trouver des éléments spécifiques par nom de balises (en anglais: "tag"). 

Pour ce qui suit, on va appeler "élément" le bloc complet qui commence à la balise ouvrante et qui se termine à la fin de la balise fermante.  L'élément peut posséder des attributs comme `class` qu'on accède avec la notation des dictionnaires Python. Les enfants d'un élément peuvent être des blocs de texte ou d'autres éléments.

Pour mieux comprendre, visitez la même page web et faites "inspect element" sur un des titres de sections dans votre navigateur. Notez le parallèle entre le code de la page web et la vue offerte par BeautifulSoup.  Si vous n'avez pas l'option "inspect element", installez l'extension "Web Developer" dans Firefox ou dans Chrome faites right-clic et choisissez "Inspect".

## Sélection d'éléments avec la notation CSS

On peut prendre un raccourci pour trouver les éléments dans une page Web avec la méthode `select()` qui prend en argument un sélecteur CSS. La [notation des sélecteurs CSS](https://en.wikipedia.org/wiki/CSS#Selector) est très expressive et très compacte. 

In [None]:
# tous les éléments "<a>" qui sont enfants d'éléments "<h3>" avec la classe "text-lg"
print(soup.select("h3.text-lg a")) # liste de tous le titres de jeux de données

# tous les éléments "<a>" qui sont enfants d'éléments "<li>" avec la classe "search-facet" 
# qui sont eux même enfants d'éléments "<ul>" avec la classe "pb-3"
print(soup.select("ul.pb-3 li.search-facet a")) # critères de recherche pour raffiner les résultats

## Exercice: liste des jeux de données

Utilisez la méthode `select()` pour extraire la liste des jeux de données. Affichez les résultats dans les format "titre: url". Par exemple:

    Bornes d'incendie: https://donnees.montreal.ca/...
    Hydrographie: https://donnees.montreal.ca/...
    ...

## Exercice: formats de fichier disponibles

Modifiez le code précédent pour inclure les formats disponibles avant l'URL. Par exemple:

    Bornes d'incendie (JSON, SHP): https://donnees.montreal.ca/...
    Hydrographie (SHP, KML, PDF): https://donnees.montreal.ca/...
    ...

## Exercice: pagination

Trouvez sur combien de pages les résultats sont répartis, téléchargez toutes les pages, puis combinez les résultats dans une seule liste.

Par exemple:

    Bornes d'incendie (JSON, SHP): https://donnees.montreal.ca/...
    Hydrographie (SHP, KML, PDF): https://donnees.montreal.ca/...
    ...
    Regards d'égouts (SHP, GeoJSON): https://donnees.montreal.ca/...
    ...

# Autres resources

Sites pour pratiquer:

- http://toscrape.com/
- https://www.scrapethissite.com/pages/simple/

# License

Copyright 2021 Montréal-Python

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
