# This file is part of the prkng_mtl project.
#
# Copyright (C) 2025 coklacour
#
# The prkng_mtl project is free software: you can redistribute it and/or modify
# it under the terms of the GNU General Public License as published by
# the Free Software Foundation, either version 3 of the License, or
# (at your option) any later version.
#
# The prkng_mtl project is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
# GNU General Public License for more details.
#
# You should have received a copy of the GNU General Public License
# along with this program.  If not, see <https://www.gnu.org/licenses/>.

## Packages

In [1]:
import os
import requests
import pandas as pd
from tqdm import tqdm

## Macro variables

In [2]:
OUTPUT_DIR = os.path.dirname(os.path.abspath(''))+'/datas/raw/'

## Fonctions

In [3]:
def fetch_ckan_data(resource_id: str, output_name: str, output_dir: str = ".") -> pd.DataFrame:
    """
    Télécharger les données d'une ressource CKAN en utilisant la pagination.
    
    Args:
        resource_id (str): L'identifiant de la ressource CKAN.
        output_name (str): Le nom de fichier de sortie (sans extension).
        output_dir (str): Le répertoire de sortie. Par défaut, le répertoire courant.
    
    Returns:
        pd.DataFrame: Le DataFrame contenant les données téléchargées.
    """
    
    base_url = "https://www.donneesquebec.ca/recherche/api/3/action/datastore_search"
    limit = 5000
    offset = 0
    all_records = []

    # Récupération du nombre total d’enregistrements
    try:
        response = requests.get(base_url, params={"resource_id": resource_id, "limit": 1})
        response.raise_for_status()
        total = response.json()["result"]["total"]
    except Exception as e:
        raise RuntimeError(f"Erreur lors de la récupération du total: {e}")

    # Téléchargement par pagination
    pbar = tqdm(total=total, desc=f"Téléchargement de {output_name}")

    while offset < total:
        try:
            response = requests.get(base_url, params={
                "resource_id": resource_id,
                "limit": limit,
                "offset": offset
            })
            response.raise_for_status()
            data = response.json()
            if not data.get("success"):
                raise ValueError(f"Requête échouée: {data}")
            records = data["result"]["records"]
            all_records.extend(records)
            offset += limit
            pbar.update(len(records))
        except Exception as e:
            print(f"Erreur lors du téléchargement à l'offset {offset}: {e}")
            break

    pbar.close()

    df = pd.DataFrame(all_records)
    print(f"Téléchargement terminé. {df.shape[0]} lignes récupérées.")

    # Sauvegarde CSV
    output_path = os.path.join(output_dir, f"{output_name}.csv")
    df.to_csv(output_path, index=False)
    print(f"Fichier CSV sauvegardé : {output_path}")

    return

## Import données

https://www.donneesquebec.ca/page-api/

### Signalisation- Stationnement

https://donnees.montreal.ca/dataset/stationnement-sur-rue-signalisation-courant

In [4]:
# Identifiant de la ressource CKAN
resource_id = "7f1d4ae9-1a12-46d7-953e-6b9c18c78680"
output_name = 'park'
output_dir = OUTPUT_DIR

In [5]:
fetch_ckan_data(resource_id=resource_id,
                output_name=output_name,
                output_dir=OUTPUT_DIR)

Téléchargement de park: 100%|██████████| 169622/169622 [01:54<00:00, 1484.44it/s]


Téléchargement terminé. 169622 lignes récupérées.
Fichier CSV sauvegardé : /Users/jeremiealluard/git/Projects/prkng_mtl/datas/raw/park.csv


### Poteaux de signalisation

https://donnees.montreal.ca/dataset/poteaux-signalisation

In [6]:
# Identifiant de la ressource CKAN
resource_id = "091a3d3a-716c-44d7-b1c0-3144d6953f66"
output_name = 'signs'
output_dir = OUTPUT_DIR

In [7]:
fetch_ckan_data(resource_id=resource_id,
                output_name=output_name,
                output_dir=OUTPUT_DIR)

Téléchargement de signs: 100%|██████████| 178607/178607 [01:43<00:00, 1726.58it/s]


Téléchargement terminé. 178607 lignes récupérées.
Fichier CSV sauvegardé : /Users/jeremiealluard/git/Projects/prkng_mtl/datas/raw/signs.csv


### Géobase - noeuds

https://donnees.montreal.ca/dataset/geobase-noeud

In [8]:
# Identifiant de la ressource CKAN
resource_id = "76d89dae-7596-4b3f-af25-6ad9a3c36beb"
output_name = 'nodes'
output_dir = OUTPUT_DIR

In [9]:
fetch_ckan_data(resource_id=resource_id,
                output_name=output_name,
                output_dir=OUTPUT_DIR)

Téléchargement de nodes: 100%|██████████| 31578/31578 [00:17<00:00, 1855.24it/s]

Téléchargement terminé. 31578 lignes récupérées.
Fichier CSV sauvegardé : /Users/jeremiealluard/git/Projects/prkng_mtl/datas/raw/nodes.csv





### Géobase - pôles

https://donnees.montreal.ca/dataset/geobase-pole

In [10]:
# Identifiant de la ressource CKAN
resource_id = "79fa1da4-0355-4ecf-8306-31361bf101c2"
output_name = 'poles'
output_dir = OUTPUT_DIR

In [11]:
fetch_ckan_data(resource_id=resource_id,
                output_name=output_name,
                output_dir=OUTPUT_DIR)

Téléchargement de poles: 100%|██████████| 95774/95774 [00:45<00:00, 2110.51it/s]


Téléchargement terminé. 95774 lignes récupérées.
Fichier CSV sauvegardé : /Users/jeremiealluard/git/Projects/prkng_mtl/datas/raw/poles.csv


### Géobase double - côtés de rue du réseau routier

https://donnees.montreal.ca/dataset/geobase-double

In [12]:
# Identifiant de la ressource CKAN
resource_id = "2f1717e9-0141-48ef-8943-ea348373667f"
output_name = 'double'
output_dir = OUTPUT_DIR

In [13]:
fetch_ckan_data(resource_id=resource_id,
                output_name=output_name,
                output_dir=OUTPUT_DIR)

Téléchargement de double: 100%|██████████| 91344/91344 [00:43<00:00, 2096.18it/s]


Téléchargement terminé. 91344 lignes récupérées.
Fichier CSV sauvegardé : /Users/jeremiealluard/git/Projects/prkng_mtl/datas/raw/double.csv


### Géobase - réseau routier

https://donnees.montreal.ca/dataset/geobase

In [14]:
# Identifiant de la ressource CKAN
resource_id = "cdf491fa-bf3d-4eb1-8692-c9aa1df462cd"
output_name = 'geobase'
output_dir = OUTPUT_DIR

In [15]:
fetch_ckan_data(resource_id=resource_id,
                output_name=output_name,
                output_dir=OUTPUT_DIR)

Téléchargement de geobase: 100%|██████████| 47887/47887 [00:29<00:00, 1608.20it/s]


Téléchargement terminé. 47887 lignes récupérées.
Fichier CSV sauvegardé : /Users/jeremiealluard/git/Projects/prkng_mtl/datas/raw/geobase.csv
