# Cartographie des Mus√©es de France : Une Analyse de la R√©partition G√©ographique


La pr√©sente analyse se base sur le jeu de donn√©es "Liste et Localisation des Mus√©es de France" disponible sur le site data.culture.gouv.fr √† l'adresse https://data.culture.gouv.fr/api/explore/v2.1/catalog/datasets/liste-et-localisation-des-musees-de-france/exports/parquet?lang=fr&timezone=Europe%2FBerlin. Ce jeu de donn√©es fournit des informations d√©taill√©es sur les mus√©es de France, notamment leur localisation, leur nom officiel, leur adresse, ainsi que leurs coordonn√©es g√©ographiques.

L'objectif de cette analyse est de regrouper les mus√©es de France selon un buffer carr√© de 1 km, de compter le nombre de mus√©es dans chaque carr√©, puis d'agr√©ger ces carr√©s par enveloppe de polygones s'ils se croisent. Cette approche permet d'obtenir une vision plus pr√©cise de la r√©partition g√©ographique des mus√©es en France.


## M√©thodologie

La m√©thodologie utilis√©e dans cette analyse consiste en plusieurs √©tapes. Tout d'abord, nous cr√©ons un buffer carr√© de 1 km autour de chaque mus√©e en utilisant les coordonn√©es g√©ographiques fournies dans le jeu de donn√©es. Ensuite, nous comptons le nombre de mus√©es dans chaque buffer. Enfin, nous agr√©geons les buffers qui se croisent pour former des polygones repr√©sentant les zones de forte concentration de mus√©es. Cette approche est mise en ≈ìuvre √† l'aide d'une requ√™te SQL utilisant les fonctionnalit√©s spatiales de DuckDB.

Les r√©sultats de cette analyse sont ensuite visualis√©s √† l'aide d'une carte interactive cr√©√©e avec Plotly Express, permettant de visualiser la r√©partition des mus√©es en France de mani√®re claire et intuitive. La carte repr√©sente les polygones obtenus apr√®s agr√©gation des buffers, avec une √©chelle de couleur indiquant le nombre de mus√©es dans chaque zone.

## üîß Configuration

In [1]:
# Installation et imports
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## ü¶Ü Chargement du dataset avec Duckdb

In [2]:
# Fonction de chargement compl√®te (bas√©e sur load_file_from_url_lite)
def load_file_from_url_lite(url_dataset="", loader="read_csv_auto", options="", nom_table="loaded_dataset", safe_mode=False):
    ddb.execute("install spatial")
    ddb.execute("load spatial")
    ddb.execute("INSTALL h3 FROM community")
    ddb.execute("LOAD h3")
    ddb.execute("install webbed from community;")
    ddb.execute("load webbed")
    ddb.execute("set force_download=True")
    ddb.execute(f"drop table if exists {nom_table}")   
    
    # D√©tection automatique du type de fichier
    if 'csv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'tsv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'txt' in url_dataset: 
        loader = "read_csv_auto"
    elif 'parquet' in url_dataset: 
        loader = "read_parquet"
    elif 'json' in url_dataset: 
        loader = "read_json_auto"
    elif 'xls' in url_dataset or 'xlsx' in url_dataset: 
        loader = "st_read"
    elif 'shp' in url_dataset: 
        loader = "st_read"
    elif 'geojson' in url_dataset: 
        loader = "st_read"
    elif 'xml' in url_dataset: 
        loader = "read_xml"
    elif 'html' in url_dataset: 
        loader = "read_html"
    else: 
        raise ValueError(f"Type de fichier non support√© pour {url_dataset}")
    
    if options=="": 
        options = "" 
    if 'csv' in url_dataset and safe_mode==True: 
        options = ", all_varchar=1" 
    if nom_table=="": 
        nom_table = "loaded_dataset"
    
    try:
        status = ddb.sql(f"""
            create or replace table {nom_table} as select *
            from
            {loader}("{url_dataset}" {options})
        """)
        return status
    except Exception as e:
        return f"Erreur au chargement du fichier : {str(e)}"

def run_query(sql):
    return ddb.sql(sql.replace("`"," ")).to_df()

# Chargement des donn√©es
load_file_from_url_lite("https://data.culture.gouv.fr/api/explore/v2.1/catalog/datasets/liste-et-localisation-des-musees-de-france/exports/parquet?lang=fr&timezone=Europe%2FBerlin", safe_mode=True)
print("‚úÖ Donn√©es charg√©es avec succ√®s")

‚úÖ Donn√©es charg√©es avec succ√®s


## üîç Analyse SQL

Cette requ√™te utilise des techniques SQL pour extraire et transformer les donn√©es de mani√®re efficace.

In [3]:
# Ex√©cution de la requ√™te
df = run_query(""" WITH 
-- Cr√©ation d'un buffer carr√© de 1km autour de chaque mus√©e
musee_buffer AS (
  SELECT 
    "identifiant_museofile",
    ST_GeomFromText('POLYGON((' || 
      ST_X("geolocalisation") - 0.01 || ' ' || ST_Y("geolocalisation") - 0.01 || ', ' ||
      ST_X("geolocalisation") + 0.01 || ' ' || ST_Y("geolocalisation") - 0.01 || ', ' ||
      ST_X("geolocalisation") + 0.01 || ' ' || ST_Y("geolocalisation") + 0.01 || ', ' ||
      ST_X("geolocalisation") - 0.01 || ' ' || ST_Y("geolocalisation") + 0.01 || ', ' ||
      ST_X("geolocalisation") - 0.01 || ' ' || ST_Y("geolocalisation") - 0.01 || '))') AS buffer_geom
  FROM loaded_dataset
),
-- Comptage du nombre de mus√©es dans chaque buffer
buffer_count AS (
  SELECT 
    buffer_geom,
    COUNT("identifiant_museofile") AS nb_musee
  FROM musee_buffer
  GROUP BY buffer_geom
),
-- Agr√©gation des buffers qui se croisent
buffer_union AS (
  SELECT 
    ST_Union_Agg(buffer_geom) AS polygon,
    SUM(nb_musee) AS nb_musee
  FROM buffer_count bc1
  WHERE EXISTS (
    SELECT 1 
    FROM buffer_count bc2 
    WHERE bc1.buffer_geom != bc2.buffer_geom AND ST_Intersects(bc1.buffer_geom, bc2.buffer_geom)
  )
  GROUP BY ST_AsText(bc1.buffer_geom)
)
-- S√©lection des r√©sultats
SELECT 
  ST_AsText(polygon) AS polygon_wkt,
  nb_musee
FROM buffer_union
ORDER BY nb_musee DESC """)
print(f"R√©sultats : {len(df)} lignes")
df.head()

R√©sultats : 487 lignes


Unnamed: 0,polygon_wkt,nb_musee
0,"POLYGON ((4.808042 45.72319, 4.828042 45.72319...",3.0
1,"POLYGON ((7.741984 48.571229, 7.761984 48.5712...",3.0
2,"POLYGON ((3.205208 43.328908000000006, 3.22520...",2.0
3,"POLYGON ((4.061824 48.284239, 4.081824 48.2842...",2.0
4,"POLYGON ((1.088932 49.437268, 1.108932 49.4372...",2.0


## üìà Visualisation

La biblioth√®que principale utilis√©e est Plotly Express, qui est une interface de haut niveau pour la visualisation de donn√©es avec Plotly. Cette technologie est adapt√©e car elle permet de cr√©er des cartes interactives et personnalisables, id√©ales pour repr√©senter des donn√©es g√©ospatiales comme la r√©partition des mus√©es sur un territoire. Le choix d'une carte choropl√®the permet de visualiser efficacement la densit√© de mus√©es dans diff√©rentes zones.

In [4]:
import pandas as pd
import duckdb as ddb
import pandas as pd
import geopandas as gpd
import plotly.express as px
import shapely.wkt

gdf = gpd.GeoDataFrame(
    df,
    geometry=df["polygon_wkt"].apply(shapely.wkt.loads),
    crs=4326
)

gdf["centroid_lon"] = gdf.geometry.centroid.x
gdf["centroid_lat"] = gdf.geometry.centroid.y

colorscale = [(0, "#deebf7"), (1/3, "#9ecae1"), (2/3, "#4292c6"), (1, "#08519c")]

dataviz = px.choropleth_mapbox(
    gdf,
    geojson=gdf.geometry.__geo_interface__,
    locations=gdf.index,
    color="nb_musee",
    color_continuous_scale=colorscale,
    mapbox_style="carto-positron",
    zoom=4.8,
    center={"lat": 46.5, "lon": 2.5},
    opacity=0.65,
    hover_data={"nb_musee": True, "centroid_lon": False, "centroid_lat": False},
    labels={"nb_musee": "Nombre de mus√©es"},
    title="Cartographie des mus√©es - R√©partition par buffer carr√© de 1 km"
)
dataviz.update_layout(margin=dict(l=20, r=20, t=40, b=20))
dataviz


  gdf["centroid_lon"] = gdf.geometry.centroid.x

  gdf["centroid_lat"] = gdf.geometry.centroid.y
  dataviz = px.choropleth_mapbox(


---
*Made with ‚ù§Ô∏è and with [duckit.fr](https://duckit.fr) - [Ali Hmaou](https://www.linkedin.com/in/ali-hmaou-6b7b73146/)*

In [5]:

# --- Variables inject√©es par le script ---
FINAL_OBJECT_VARIABLE_NAME = 'dataviz'
OUTPUT_IMAGE_NAME = 'published\\notebooks\\duckit_analysis_20250805_063703.png'
OUTPUT_HTML_NAME = 'published\\notebooks\\duckit_analysis_20250805_063703.html'

# ===================================================================
# CELLULE INJECT√âE AUTOMATIQUEMENT (VERSION ROBUSTE)
# ===================================================================
import sys
import os
# On importe les modules n√©cessaires pour l'export au cas o√π
try:
    from bokeh.io import save as bokeh_save
except ImportError:
    bokeh_save = None

try:
    # On s'assure que le dossier de sortie existe
    output_dir = os.path.dirname(OUTPUT_IMAGE_NAME)
    if output_dir:
        os.makedirs(output_dir, exist_ok=True)

    # On utilise globals().get() pour une r√©cup√©ration plus s√ªre
    final_object = globals().get(FINAL_OBJECT_VARIABLE_NAME)

    if final_object is None:
        # On l√®ve une NameError pour √™tre coh√©rent avec le code original
        raise NameError(f"name '{FINAL_OBJECT_VARIABLE_NAME}' is not defined")

    print(f"INFO: Variable '{FINAL_OBJECT_VARIABLE_NAME}' trouv√©e. Tentative d'exportation...")

    object_type = str(type(final_object))

    if 'plotly.graph_objs._figure.Figure' in object_type:
        print(f"--> D√©tect√© : Plotly. Sauvegarde HTML et PNG.")
        # 1. Sauvegarde HTML pour l'interactivit√©
        print(f"--> Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.write_html(OUTPUT_HTML_NAME, include_plotlyjs='cdn')
        # 2. Sauvegarde PNG pour l'aper√ßu statique
        try:
            print(f"--> Tentative de sauvegarde PNG directe dans : {OUTPUT_IMAGE_NAME}")
            final_object.write_image(OUTPUT_IMAGE_NAME, scale=3, width=1200, height=800)
            print(f"--> Image Plotly sauvegard√©e avec succ√®s.")
        except Exception as e:
            print(f"AVERTISSEMENT: La sauvegarde directe en PNG a √©chou√© (kaleido est-il install√©?).", file=sys.stderr)
            print(f"   Erreur: {e}", file=sys.stderr)
            print(f"--> PLAN B: On va utiliser la capture d'√©cran du HTML √† la place.")
            # On cr√©e un fichier marqueur pour que le script de post-traitement prenne le relais
            with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
                f.write("plotly")
    elif 'folium.folium.Map' in object_type:
        print(f"--> D√©tect√© : Folium. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.save(OUTPUT_HTML_NAME)
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("folium")
    elif 'altair.vegalite' in object_type and hasattr(final_object, 'save'):
        print(f"--> D√©tect√© : Altair. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.save(OUTPUT_HTML_NAME)
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("altair")
    elif 'bokeh.plotting' in object_type and bokeh_save is not None:
        print(f"--> D√©tect√© : Bokeh. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        bokeh_save(final_object, filename=OUTPUT_HTML_NAME, title="")
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("bokeh")
    elif 'matplotlib.figure.Figure' in object_type:
        print(f"--> D√©tect√© : Matplotlib. Sauvegarde dans : {OUTPUT_IMAGE_NAME}")
        final_object.savefig(OUTPUT_IMAGE_NAME, dpi=300, bbox_inches='tight')
    else:
        print(f"AVERTISSEMENT: Type non support√© : {object_type}", file=sys.stderr)
except NameError:
    print(f"AVERTISSEMENT: Aucune variable '{FINAL_OBJECT_VARIABLE_NAME}' trouv√©e.", file=sys.stderr)
except Exception as e:
    print(f"ERREUR lors de l'exportation : {e}", file=sys.stderr)


INFO: Variable 'dataviz' trouv√©e. Tentative d'exportation...
--> D√©tect√© : Plotly. Sauvegarde HTML et PNG.
--> Sauvegarde HTML dans : published\notebooks\duckit_analysis_20250805_063703.html
--> Tentative de sauvegarde PNG directe dans : published\notebooks\duckit_analysis_20250805_063703.png


--> Image Plotly sauvegard√©e avec succ√®s.
