# Peut-on prédire la fréquentation des musées ?

# Introduction

Les musées ne servent pas seulement à conserver des œuvres d'art ou des objets historiques. Aujourd'hui, leur viabilité et leur rôle social se mesurent principalement par une donnée clé : la **fréquentation**.

Dans un contexte où les habitudes culturelles évoluent rapidement, il devient essentiel de comprendre ce qui détermine le succès d'un établissement. Est-ce uniquement une question de renommée, ou bien l'emplacement géographique et le type de collection jouent-ils un rôle décisif que l'on peut modéliser ?



### 1. Définition et périmètre de l'étude
Pour mener à bien cette analyse, il est essentiel de circonscrire précisément notre objet d'étude. Nous nous appuyons sur la définition officielle donnée par le **Code du patrimoine** (article L. 441-1), qui qualifie de musée :

> « Toute collection permanente composée de biens dont la conservation et la présentation revêtent un intérêt public et qui est organisée en vue de la connaissance, de l'éducation et du plaisir du public. »

Notre analyse se limite donc strictement aux institutions répondant à cette définition (majoritairement labellisées "Musée de France"). Par souci de cohérence méthodologique, nous avons volontairement exclu les autres lieux touristiques tels que les monuments historiques sans collections propres (Tour Eiffel, Arc de Triomphe), les sites naturels ou les parcs d'attractions, qui répondent à des logiques de visite différentes.


### Visualisation du périmètre
Pour appréhender la répartition territoriale et thématique de ces établissements, voici une **carte interactive** recensant l'ensemble des musées analysés dans ce projet (générée dans la partie Statistiques Descriptives).

> **Note :** Vous pouvez filtrer les musées par catégorie (Art, Histoire, Sciences...) grâce au menu en haut à droite de la carte.

In [2]:
from IPython.display import IFrame, display
import os

# Chemin relatif vers le fichier HTML généré par le notebook 02
# (Assure-toi que le nom du fichier est bien celui que tu as sauvegardé tout à l'heure)
map_path = "./output/carte_interactive_calques.html"

print("Chargement de la cartographie interactive des musées...")

# Vérification de sécurité : le fichier existe-t-il ?
if os.path.exists(map_path):
    # On affiche la carte dans une fenêtre de 600px de haut
    display(IFrame(src=map_path, width='100%', height=600))
else:
    # Message  si le fichier manque
    print("Fichier carte introuvable.")
    print(f"Le fichier '{map_path}' n'existe pas encore.")
    print("Veuillez exécuter le notebook '02_stat_desc.ipynb' pour générer la visualisation.")

Chargement de la cartographie interactive des musées...



### 2. Objectifs du projet
L'objectif est d'utiliser la science des données (*Data Science*) pour transformer des données brutes en outils de prévision et d'analyse. Nous opposerons deux approches :
1.  **Une approche de Gestion (Modèle LASSO) :** Pour prédire la fréquentation à court terme en se basant sur l'historique et l'inertie des habitudes.
2.  **Une approche Structurelle (Modèle Random Forest) :** Pour évaluer le "potentiel théorique" d'un musée en fonction de ses caractéristiques physiques (lieu, thème), indépendamment de son passé.





# Plan du projet

### I. Construction de la base de données
* **Collecte et fusion :** Agrégation des données de fréquentation (Patrimostat) et des caractéristiques structurelles (Museofile).
* **Nettoyage (Data Cleaning) :** Traitement des valeurs manquantes, harmonisation des noms de villes et correction des incohérences déclaratives.
* **Ingénierie des fonctionnalités (Feature Engineering) :** Création de variables clés (ratios de gratuité, encodage des régions, catégorisation des thématiques).

### II. Statistiques Descriptives et Exploratoires

* **Analyse régionale:** Représentation géographique des musées et analyse de la fréquentation par région.
* **Analyse thématique et structurelle :** Étude de la fréquentation selon les domaines thématiques et comparaison des profils des musées.
* **Analyse des relations entre variables :** Exploration des corrélations entre les variables quantitatives afin d’anticiper les problèmes de multicolinéarité.

### III. Modélisation Prédictive 
* **Définition du problème :** Formulation d'une tâche de **régression supervisée** visant à prédire une variable continue (le nombre annuel de visiteurs).
* **Préparation des données :** Séparation des jeux d'entraînement et de test, normalisation et transformation logarithmique de la cible.
* **Régression Linéaire Simple (Baseline) :** Mise en place d'un premier modèle de référence pour évaluer les relations linéaires directes sans régularisation.
* **Régression Linéaire Régularisée (LASSO) :** Affinement du modèle linéaire avec pénalité L1 pour sélectionner les variables pertinentes et traiter la multicolinéarité (Approche Gestion).
* **Régression Non-Linéaire (Random Forest Regressor) :** Utilisation d'une méthode d'ensemble (arbres de décision) pour capturer les interactions complexes et non-linéaires entre les caractéristiques structurelles (Approche Stratégique).
* **Évaluation et Interprétation :** Comparaison des performances ($R^2$, MAE), analyse des résidus et des importances de variables.