# Cartographie des Mus√©es de France : Une Exploration G√©ographique


Le pr√©sent notebook explore la r√©partition g√©ographique des mus√©es en France en utilisant les donn√©es ouvertes fournies par le gouvernement fran√ßais. Les donn√©es utilis√©es proviennent de l'URL suivante : https://data.culture.gouv.fr/api/explore/v2.1/catalog/datasets/liste-et-localisation-des-musees-de-france/exports/parquet?lang=fr&timezone=Europe%2FBerlin. Ce jeu de donn√©es contient des informations d√©taill√©es sur les mus√©es de France, notamment leur localisation, leur appellation officielle, et d'autres d√©tails administratifs. L'objectif de cette analyse est de pr√©parer les donn√©es pour cr√©er une carte choropl√®the repr√©sentant le nombre de mus√©es par d√©partement fran√ßais.


Pour atteindre cet objectif, nous utiliserons les deux premiers caract√®res du code postal comme code d√©partement. Cela nous permettra d'agr√©ger les donn√©es au niveau d√©partemental et de visualiser la r√©partition des mus√©es √† travers la France. La carte choropl√®the sera cr√©√©e en utilisant les biblioth√®ques Folium et Pandas, offrant ainsi une repr√©sentation visuelle claire et interactive de la densit√© des mus√©es dans chaque d√©partement.


## M√©thodologie

La m√©thodologie employ√©e dans ce notebook consiste √† importer les donn√©es, √† les nettoyer et √† les agr√©ger au niveau d√©partemental en utilisant le code postal. Nous utiliserons DuckDB pour ex√©cuter une requ√™te SQL qui extrait les deux premiers caract√®res du code postal et compte le nombre de mus√©es par d√©partement. Les r√©sultats seront ensuite utilis√©s pour cr√©er une carte choropl√®the avec Folium, o√π chaque d√©partement sera color√© en fonction du nombre de mus√©es qu'il contient. Cette approche nous permettra de visualiser efficacement la r√©partition g√©ographique des mus√©es en France.

## üîß Configuration

In [1]:
# Installation et imports
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## ü¶Ü Chargement du dataset avec Duckdb

In [1]:
# Fonction de chargement compl√®te (bas√©e sur load_file_from_url_lite)
def load_file_from_url_lite(url_dataset="", loader="read_csv_auto", options="", nom_table="loaded_dataset", safe_mode=False):
    ddb.execute("install spatial")
    ddb.execute("load spatial")
    ddb.execute("INSTALL h3 FROM community")
    ddb.execute("LOAD h3")
    ddb.execute("install webbed from community;")
    ddb.execute("load webbed")
    ddb.execute("set force_download=True")
    ddb.execute(f"drop table if exists {nom_table}")   
    
    # D√©tection automatique du type de fichier
    if 'csv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'tsv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'txt' in url_dataset: 
        loader = "read_csv_auto"
    elif 'parquet' in url_dataset: 
        loader = "read_parquet"
    elif 'json' in url_dataset: 
        loader = "read_json_auto"
    elif 'xls' in url_dataset or 'xlsx' in url_dataset: 
        loader = "st_read"
    elif 'shp' in url_dataset: 
        loader = "st_read"
    elif 'geojson' in url_dataset: 
        loader = "st_read"
    elif 'xml' in url_dataset: 
        loader = "read_xml"
    elif 'html' in url_dataset: 
        loader = "read_html"
    else: 
        raise ValueError(f"Type de fichier non support√© pour {url_dataset}")
    
    if options=="": 
        options = "" 
    if 'csv' in url_dataset and safe_mode==True: 
        options = ", all_varchar=1" 
    if nom_table=="": 
        nom_table = "loaded_dataset"
    
    try:
        status = ddb.sql(f"""
            create or replace table {nom_table} as select *
            from
            {loader}("{url_dataset}" {options})
        """)
        return status
    except Exception as e:
        return f"Erreur au chargement du fichier : {str(e)}"

def run_query(sql):
    return ddb.sql(sql.replace("`"," ")).to_df()

# Chargement des donn√©es
load_file_from_url_lite("https://data.culture.gouv.fr/api/explore/v2.1/catalog/datasets/liste-et-localisation-des-musees-de-france/exports/parquet?lang=fr&timezone=Europe%2FBerlin", safe_mode=True)
print("‚úÖ Donn√©es charg√©es avec succ√®s")

## üîç Analyse SQL

Cette requ√™te utilise des techniques SQL pour extraire et transformer les donn√©es de mani√®re efficace.

In [2]:
# Ex√©cution de la requ√™te
df = run_query(""" SELECT 
  SUBSTRING("code_postal", 1, 2) AS code_dept,
  COUNT(*) AS nb_musees
FROM 
  loaded_dataset
GROUP BY 
  SUBSTRING("code_postal", 1, 2)
ORDER BY 
  code_dept """)
print(f"R√©sultats : {len(df)} lignes")
df.head()

## üìà Visualisation

La biblioth√®que principale utilis√©e est Folium, qui est une biblioth√®que Python de visualisation de donn√©es g√©ospatiales. Cette technologie est adapt√©e pour repr√©senter des donn√©es g√©ographiques, telles que les d√©partements fran√ßais, sur une carte interactive. Folium permet de cr√©er des cartes choropleth avec des informations d√©taill√©es au survol ou au clic, ce qui est id√©al pour visualiser des donn√©es r√©gionales.

In [3]:
import pandas as pd
import duckdb as ddb
import folium
import pandas as pd
import requests
import json

# R√©cup√©ration du fichier GeoJSON des d√©partements
geojson_url = "https://france-geojson.gregoiredavid.fr/repo/departements.geojson"
geojson_data = requests.get(geojson_url).json()

# Nettoyage du df pour correspondre aux codes d√©partementaux du GeoJSON
df['code_dept'] = df['code_dept'].astype(str).str.zfill(2)

# Cr√©ation de la carte centr√©e sur la France
dataviz = folium.Map(location=[46.9, 2.2], tiles='CartoDB positron', zoom_start=6)

# Ajout de la couche choropleth
folium.Choropleth(
    geo_data=geojson_data,
    name='choropleth',
    data=df,
    columns=['code_dept', 'nb_musees'],
    key_on='feature.properties.code',
    fill_color='YlGnBu',
    fill_opacity=0.7,
    line_opacity=0.2,
    line_color='white',
    line_weight=1,
    legend_name='Nombre de mus√©es',
    smooth_factor=0,
    bins=[0, 5, 10, 15, 25, 50],
    reset=True,
    highlight=True
).add_to(dataviz)

# Ajout des infobulles d√©taill√©es
for feature in geojson_data['features']:
    dept_code = feature['properties']['code']
    
    if dept_code in df['code_dept'].values:
        nb_musees = df[df['code_dept'] == dept_code]['nb_musees'].values[0]
        dept_name = feature['properties']['nom']
        
        folium.Tooltip(
            f"<b>{dept_name} ({dept_code})</b><br>"
            f"Mus√©es : {nb_musees}"
        ).add_child(
            folium.Popup(
                f"<h4>{dept_name} ({dept_code})</h4>"
                f"<strong>Nombre de mus√©es :</strong> {nb_musees}",
                max_width=300
            )
        ).add_to(
            folium.GeoJson(
                feature,
                style_function=lambda x: {
                    'fillOpacity': 0,
                    'color': '#333333',
                    'weight': 2,
                    'fillColor': 'transparent'
                }
            ).add_to(dataviz)
        )

# Ajout du contr√¥le des couches
folium.LayerControl(collapsed=False).add_to(dataviz)

# Style personnalis√©
dataviz.get_root().html.add_child(folium.Element("""
    <style>
        .legend {font-family: 'Helvetica Neue', Arial, sans-serif; font-size: 14px;}
        .info h4 {margin: 0 0 5px; font-size: 16px; color: #333;}
        .folium-tooltip {font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif; font-size: 12px;}
    </style>
"""))
dataviz

---
*Made with ‚ù§Ô∏è and with [duckit.fr](https://duckit.fr) - [Ali Hmaou](https://www.linkedin.com/in/ali-hmaou-6b7b73146/)*