# Agregateur-Web Pas-à-pas

## But

Extraire les URLs et les formats de download des jeux de données relatifs à l'eau des données ouvertes de la ville de Montréal.

## Approche

1. comprendre les données avant de coder
    * HTML, css
2. trouver _library_ de _scraping_ (HTML) de Python
    * beautifulsoup (recommandé): https://pypi.org/project/beautifulsoup4/
    * scrapy (plus compliqué, pour les dévelopeurs avancés): https://pypi.org/project/Scrapy/
3. regarder la doc
    * https://www.crummy.com/software/BeautifulSoup/bs4/doc/
4. install
    * colab `%pip install beautifulsoup4`
    * machine locale `pip install beautifulsoup4`
5. explorer
    * `type()`
    * introspection: `objet.` + tab
        * méthodes: `objet.method()`
        * attributs: `objet.attribute`
        * list des méthodes et attributs: `dir(objet)`
        * documentation de l'objet: `objet?` ou `help(objet)`

6. conserver code final (code qui marche)

## Installer

In [None]:
%pip install beautifulsoup4



## Imports

Le nom d'import n'est pas toujours le même que celui du _package_... :(

In [None]:
import requests
import bs4

## Explorer

In [None]:
# tag eau avec org ville mtl
# constante
EAU_URL = "https://donnees.montreal.ca/search?q=tags=Eau"

# request, response
response = requests.get(EAU_URL)

In [None]:
# explorer response
response

<Response [200]>

In [None]:
# instance de classe principale
soup = bs4.BeautifulSoup(response.text)

In [None]:
# explorer soup
# type + introspection (namespace, attributes, methods)
type(soup)
# dir(soup)

bs4.BeautifulSoup

In [None]:
# explorer str(soup)
print(str(soup)[0:600])

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8"/>
<title>
    
Search

  </title>
<meta content="https://donnees.montreal.ca/static/img/donnees-montreal-opengraph.jpg" property="og:image"/>
<meta content="Datopian" name="author"/>
<link href="/static/img/favicon.png" rel="icon" type="image/png"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport"/>
<link href="/static/stylesheets/app.css" rel="stylesheet"/>
<link href="/static/stylesheets/montreal.css" rel="stylesheet"/>
<link href="/static/font-icon/_icons.css" rel="stylesh


In [None]:
# DOM
# element (tags): elem
# contenu (text): elem.text
# attribut: elem['attr'] ou mieux, elem.get('attr')
# tree
html = soup.find('html')

In [None]:
# explorer élément
# html

In [None]:
# scraping
h3_links = soup.select("h3.text-lg a")

In [None]:
# explorer list d'éléments scrapés
h3_links

[<a class="text-gray-900 hover:text-primary" href="/ville-de-montreal/compteurs-eau">Compteurs d'eau exploités par la Ville de Montréal</a>,
 <a class="text-gray-900 hover:text-primary" href="/ville-de-montreal/depistage-entrees-service-plomb">Résultats du dépistage des entrées de service en plomb réalisé par un Palintest</a>,
 <a class="text-gray-900 hover:text-primary" href="/ville-de-montreal/installations-recreatives-sportives-et-culturelles">Installations récréatives, sportives et culturelles extérieures</a>,
 <a class="text-gray-900 hover:text-primary" href="/ville-de-montreal/hydrographie">Hydrographie</a>,
 <a class="text-gray-900 hover:text-primary" href="/ville-de-montreal/cours-d-eau-et-fosse">Cours d'eau et fossés</a>,
 <a class="text-gray-900 hover:text-primary" href="/ville-de-montreal/rsma-donnees-courdo-speciales">RSMA - Données COURDO spéciales</a>,
 <a class="text-gray-900 hover:text-primary" href="/ville-de-montreal/geolocalisation-des-bornes-fontaines">Bornes d'ince

## Exercice 1: liste des jeux de données

In [None]:
# liens relatifs... et slashes (faut striper?)
base_url = 'https://donnees.montreal.ca'
# for loop
for a in h3_links:
    # string formatting: f-string
    print(f"{a.text}: {base_url}{a.get('href')}")

Compteurs d'eau exploités par la Ville de Montréal: https://donnees.montreal.ca/ville-de-montreal/compteurs-eau
Résultats du dépistage des entrées de service en plomb réalisé par un Palintest: https://donnees.montreal.ca/ville-de-montreal/depistage-entrees-service-plomb
Installations récréatives, sportives et culturelles extérieures: https://donnees.montreal.ca/ville-de-montreal/installations-recreatives-sportives-et-culturelles
Hydrographie: https://donnees.montreal.ca/ville-de-montreal/hydrographie
Cours d'eau et fossés: https://donnees.montreal.ca/ville-de-montreal/cours-d-eau-et-fosse
RSMA - Données COURDO spéciales: https://donnees.montreal.ca/ville-de-montreal/rsma-donnees-courdo-speciales
Bornes d'incendie: https://donnees.montreal.ca/ville-de-montreal/geolocalisation-des-bornes-fontaines
Débit aux affluent et effluent de la station d’épuration (saison estival 2015): https://donnees.montreal.ca/ville-de-montreal/debit-station-epuration
Concentration en MES à l'affluent et à l'ef

## Exercice 2: formats de fichier disponibles

In [None]:
## Exercice: formats de fichier disponible
results = soup.select("ul.pt-gutter li.mt-2")
for result in results:
    links = result.select("h3.text-lg a")
    if len(links) == 1:
        a = links[0]
        formats_as = result.select("ul.mt-2 li a")
        # list comprehension
        formats_texts = [a.text for a in formats_as]
        # join
        formats_str = ','.join(formats_texts)
        print(f"{a.text} ({formats_str}): {base_url}{a.get('href')}")
    else:
        print("aucun résultat trouvé")

Compteurs d'eau exploités par la Ville de Montréal (): https://donnees.montreal.ca/ville-de-montreal/compteurs-eau
Résultats du dépistage des entrées de service en plomb réalisé par un Palintest (): https://donnees.montreal.ca/ville-de-montreal/depistage-entrees-service-plomb
Installations récréatives, sportives et culturelles extérieures (): https://donnees.montreal.ca/ville-de-montreal/installations-recreatives-sportives-et-culturelles
Hydrographie (): https://donnees.montreal.ca/ville-de-montreal/hydrographie
Cours d'eau et fossés (): https://donnees.montreal.ca/ville-de-montreal/cours-d-eau-et-fosse
RSMA - Données COURDO spéciales (): https://donnees.montreal.ca/ville-de-montreal/rsma-donnees-courdo-speciales
Bornes d'incendie (): https://donnees.montreal.ca/ville-de-montreal/geolocalisation-des-bornes-fontaines
Débit aux affluent et effluent de la station d’épuration (saison estival 2015) (): https://donnees.montreal.ca/ville-de-montreal/debit-station-epuration
Concentration en ME

## Exercice 3: pagination

In [None]:
# la page web dit qu'il y a 24 résultats
len(results)
# mais on n'en a que 10... car pagination


10

Code to get all pages below

In [None]:
results_per_page = 10
results_from = 0    # from = reserved names
has_results = True
pages = []

# while loop
while has_results:
    # get page with a specific "from" parameter
    url = f"https://donnees.montreal.ca/search?q=tags=Eau&from={results_from}"
    print(f"Calling: {url}")
    response = requests.get(url)
    soup = bs4.BeautifulSoup(response.text)

    # test if there is results
    h3 = soup.select("h3.text-lg")
    if len(h3) > 0:
        # ok this page has results; append to list of pages
        pages.append(soup)
        # increment `results_from` to get the next page
        results_from += results_per_page
        print(f"next = {results_from}")
    else:
        # no more results; exit condition
        has_results = False
        print("Stopping...")

Calling: https://donnees.montreal.ca/search?q=tags:Eau&from=0
next = 10
Calling: https://donnees.montreal.ca/search?q=tags:Eau&from=10
next = 20
Calling: https://donnees.montreal.ca/search?q=tags:Eau&from=20
next = 30
Calling: https://donnees.montreal.ca/search?q=tags:Eau&from=30
Stopping...


In [None]:
# get all results
all_results = []
for soup in pages:
    results = soup.select("ul.pt-gutter li.mt-2")
    all_results.extend(results)
len(all_results)
# 24, voilaaaa

25

In [None]:
# format results (previous code)
for result in all_results:
    links = result.select("h3.text-lg a")
    # if else dans un oneliner
    a = links[0] if len(links) == 1 else None
    formats_as = result.select("ul.mt-2 li a")
    formats_texts = [a.text for a in formats_as]
    formats_str = ','.join(formats_texts)
    print(f"{a.text} ({formats_str}): {base_url}{a['href']}")

Compteurs d'eau exploités par la Ville de Montréal (): https://donnees.montreal.ca/ville-de-montreal/compteurs-eau
Résultats du dépistage des entrées de service en plomb réalisé par un Palintest (): https://donnees.montreal.ca/ville-de-montreal/depistage-entrees-service-plomb
Installations récréatives, sportives et culturelles extérieures (): https://donnees.montreal.ca/ville-de-montreal/installations-recreatives-sportives-et-culturelles
Hydrographie (): https://donnees.montreal.ca/ville-de-montreal/hydrographie
Cours d'eau et fossés (): https://donnees.montreal.ca/ville-de-montreal/cours-d-eau-et-fosse
RSMA - Données COURDO spéciales (): https://donnees.montreal.ca/ville-de-montreal/rsma-donnees-courdo-speciales
Bornes d'incendie (): https://donnees.montreal.ca/ville-de-montreal/geolocalisation-des-bornes-fontaines
Débit aux affluent et effluent de la station d’épuration (saison estival 2015) (): https://donnees.montreal.ca/ville-de-montreal/debit-station-epuration
Concentration en ME

## Conclusion

* pas de magie: scraping très sensible à structure de page(s)...
* faut la connaître
* peut changer
* pour ça qu'on préfère des APIs...


# Licence

Copyright 2021-2023 Montréal-Python

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
