# Peut-on prédire la fréquentation des musées ?

# Introduction

Les musées ne servent pas seulement à conserver des œuvres d'art ou des objets historiques. Aujourd'hui, leur viabilité et leur rôle social se mesurent principalement par une donnée clé : la **fréquentation**.

Dans un contexte où les habitudes culturelles évoluent rapidement, il devient essentiel de comprendre ce qui détermine le succès d'un établissement. Est-ce uniquement une question de renommée, ou bien l'emplacement géographique et le type de collection jouent-ils un rôle décisif que l'on peut modéliser ?



### 1. Définition et périmètre de l'étude
Pour mener à bien cette analyse, il est essentiel de circonscrire précisément notre objet d'étude. Nous nous appuyons sur la définition officielle donnée par le **Code du patrimoine** (article L. 441-1), qui qualifie de musée :

> « Toute collection permanente composée de biens dont la conservation et la présentation revêtent un intérêt public et qui est organisée en vue de la connaissance, de l'éducation et du plaisir du public. »

Notre analyse se limite donc strictement aux institutions répondant à cette définition (majoritairement labellisées "Musée de France"). Par souci de cohérence méthodologique, nous avons volontairement exclu les autres lieux touristiques tels que les monuments historiques sans collections propres (Tour Eiffel, Arc de Triomphe), les sites naturels ou les parcs d'attractions, qui répondent à des logiques de visite différentes.



### 2. Objectifs du projet
L'objectif est d'utiliser la science des données (*Data Science*) pour transformer des données brutes en outils de prévision et d'analyse. Nous opposerons deux approches :
1.  **Une approche de Gestion (Modèle LASSO) :** Pour prédire la fréquentation à court terme en se basant sur l'historique et l'inertie des habitudes.
2.  **Une approche Structurelle (Modèle Random Forest) :** Pour évaluer le "potentiel théorique" d'un musée en fonction de ses caractéristiques physiques (lieu, thème), indépendamment de son passé.





# Plan du projet

### I. Construction de la base de données
* **Collecte et fusion :** Agrégation des données de fréquentation (Patrimostat) et des caractéristiques structurelles (Museofile).
* **Nettoyage (Data Cleaning) :** Traitement des valeurs manquantes, harmonisation des noms de villes et correction des incohérences déclaratives.
* **Ingénierie des fonctionnalités (Feature Engineering) :** Création de variables clés (ratios de gratuité, encodage des régions, catégorisation des thématiques).

### II. Statistiques Descriptives et Exploratoires

A REMPLIR

### III. Modélisation Prédictive 
* **Définition du problème :** Formulation d'une tâche de **régression supervisée** visant à prédire une variable continue (le nombre annuel de visiteurs).
* **Préparation des données :** Séparation des jeux d'entraînement et de test, normalisation et transformation logarithmique de la cible.
* **Régression Linéaire Simple (Baseline) :** Mise en place d'un premier modèle de référence pour évaluer les relations linéaires directes sans régularisation.
* **Régression Linéaire Régularisée (LASSO) :** Affinement du modèle linéaire avec pénalité L1 pour sélectionner les variables pertinentes et traiter la multicolinéarité (Approche Gestion).
* **Régression Non-Linéaire (Random Forest Regressor) :** Utilisation d'une méthode d'ensemble (arbres de décision) pour capturer les interactions complexes et non-linéaires entre les caractéristiques structurelles (Approche Stratégique).
* **Évaluation et Interprétation :** Comparaison des performances ($R^2$, MAE), analyse des résidus et des importances de variables.