# PROJET INSEE  - ANALYSE DE LA MOBILITÉ TRANSFRONTALIÈRE DANS LA RÉGION GRAND-EST

# **Introduction**

Ce projet vise à analyser les déterminants du travail transfrontalier dans la région Grand Est, première région de France concernée par ces mobilités professionnelles. Les flux vers les pays voisins – principalement le Luxembourg, l’Allemagne, la Belgique et la Suisse – soulèvent des enjeux économiques, sociaux et territoriaux majeurs, notamment en matière d’emploi, de revenus, de conditions de travail et d’organisation familiale.

L’objectif général de ce travail est d’identifier les facteurs individuels qui influencent la probabilité de devenir travailleur transfrontalier, d’examiner l’hétérogénéité de ces effets selon le genre, puis d’étudier la possible coordination des décisions au sein des couples.  

Pour garantir une approche cohérente, lisible et économétriquement rigoureuse, nous avons retenu **trois modèles complémentaires** issus d’une *même famille méthodologique* : les modèles probit.


# **Démarche économétrique retenue**

## **1. Modèle probit binaire : être transfrontalier ou non**
Ce premier modèle estime la probabilité individuelle d’exercer une activité professionnelle hors de France.  
Il permet d’évaluer l’effet de caractéristiques telles que :
- âge,  
- genre,  
- diplôme,  
- présence d’enfants,  
- distance à la frontière,  
- statut professionnel,  
- secteur d’activité.

---

## **2. Modèle probit avec interactions par genre**

Cette seconde étape introduit explicitement une interaction entre une variable explicative (*Xi*) et le genre, afin de tester si un déterminant influence différemment les hommes et les femmes.  

Ce modèle permet notamment d’examiner :

- l’effet différencié de la parentalité,  
- l’impact du niveau d’étude,  
- la segmentation professionnelle selon le genre.

---

## **3. Modèle structurel probit bivarié : décision conjointe au sein du couple**

Le troisième modèle teste la corrélation entre les décisions des deux membres d’un couple.  

Il répond à la question suivante : *les choix professionnels des conjoints sont-ils coordonnés ?*

Le paramètre de corrélation `ρ` permet de distinguer :
- `ρ > 0` : décisions similaires (coordination),  
- `ρ < 0` : décisions opposées (substitution intra-ménage),  
- `ρ = 0` : indépendance statistique.

---

# **Motivation méthodologique : pourquoi choisir des modèles _probit_ ?**

Nous avons fait le choix d’utiliser exclusivement des modèles **probit**, pour trois raisons principales :

## **1. Cohérence d’interprétation entre les étapes**

Les coefficients des modèles logit et probit ne sont pas directement comparables car les deux approches reposent sur des distributions différentes.  

En utilisant uniquement des probit, nous préservons :
- une même échelle d’estimation,
- une même logique d’interprétation,
- la possibilité de comparer les effets entre nos modèles.

## **2. Compatibilité avec le modèle structurel final**

Le **probit bivarié** est l’outil standard pour modéliser des décisions conjointes.  
Il n’existe pas de véritable équivalent « logit bivarié » opérationnel.  
Ainsi, pour rester cohérents, il est méthodologiquement préférable d’adopter le probit dès les premières étapes.

## **3. Lecture facilitée via les effets marginaux**

Les modèles probit permettent des effets marginaux homogènes entre les équations, facilitant :
- l’interprétation des coefficients,
- l’analyse des interactions (ex. *genre × variable explicative*),
- la comparaison des résultats.

---

# **Périmètre retenu**

Dans ce projet, nous ne modélisons **pas** le choix du pays de destination.  
Ce choix est considéré comme fortement endogène au lieu de résidence, aux réseaux familiaux ou à des préférences préexistantes.

Nous nous concentrons donc sur trois dimensions principales :
1. **La probabilité d’être travailleur transfrontalier**,  
2. **Les différences hommes/femmes**,  
3. **La coordination des décisions au sein des couples**.

Cette simplification améliore la lisibilité et reste cohérente avec l’objectif principal du projet : comprendre les mécanismes individuels et familiaux qui structurent la mobilité transfrontalière dans la région Grand Est.


# **Méthodologie**

La méthodologie adoptée vise à analyser la probabilité de devenir travailleur transfrontalier ainsi que la coordination potentielle des choix au sein des couples. Cette section présente la démarche en cinq temps : préparation des données, sélection des variables par apprentissage automatique, estimation des modèles probit, diagnostics de validation, et extensions prévues.

---

## **1. Construction de la base de données**

### **a) Sources et fusion**

La base de données est issue de la fusion de deux fichiers du recensement INSEE pour la région Grand Est :

| Fichier | Contenu | Observations initiales |
|---------|---------|------------------------|
| **MOBPRO** | Mobilité professionnelle (lieu de travail) | 513 245 |
| **INDCVI** | Caractéristiques individuelles détaillées | 2 307 548 |

La fusion a été réalisée par appariement sur les identifiants individuels, avec un filtrage sur les actifs occupés. La base finale comprend **494 483 observations**, dont 44 264 travailleurs transfrontaliers (8,95 %).

### **b) Variable dépendante**

La variable d'intérêt est binaire :

$$
Y_i = \begin{cases} 1 & \text{si l'individu } i \text{ travaille à l'étranger (LU, DE, CH, BE)} \\ 0 & \text{sinon} \end{cases}
$$

---

## **2. Sélection des variables explicatives**

Face aux 106 variables disponibles après recodage, une procédure de sélection en deux étapes a été appliquée pour garantir une spécification parcimonieuse et interprétable.

### **a) Analyse de multicolinéarité**

Trois indicateurs ont été mobilisés pour identifier les redondances :

| Indicateur | Seuil critique | Résultat |
|------------|----------------|----------|
| Corrélation de Spearman (numériques) | \|r\| ≥ 0.70 | 17 paires |
| V de Cramér (catégorielles) | V ≥ 0.50 | 665 paires |
| Variance Inflation Factor | VIF > 10 | 11 variables |

Un clustering hiérarchique a permis d'identifier **7 paniers de redondance** au sein desquels des arbitrages économiques ont été effectués selon les critères de pertinence théorique, d'interprétabilité et de parcimonie.

### **b) Régularisation Elastic Net**

Une régression logistique pénalisée a été appliquée pour confirmer la sélection et quantifier l'importance des variables :

$$\hat{\beta} = \arg\min_{\beta} \left\{ -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(\hat{p}_i) + (1-y_i) \log(1-\hat{p}_i) \right] + \lambda \left[ \alpha \|\beta\|_1 + \frac{(1-\alpha)}{2} \|\beta\|_2^2 \right] \right\}$$

Les hyperparamètres optimaux, obtenus par validation croisée, sont $C = 1$ et $\alpha = 0.7$ (l1_ratio), confirmant l'intérêt d'une composante Ridge (30 %) pour stabiliser la sélection en présence de corrélations résiduelles entre variables. Le modèle atteint une AUC-ROC de **0.845**, validant le pouvoir discriminant de l'ensemble des prédicteurs retenus.

### **c) Spécification finale retenue**

La procédure a retenu **17 variables conceptuelles**, encodées en **81 features** après traitement des modalités catégorielles :

| Catégorie | Variable | Description | Modalités |
|-----------|----------|-------------|-----------|
| **Démographie** | AGEREV | Âge révolu (+ terme quadratique AGEREV²) | Continue |
| | SEXE | Genre | 2 |
| **Géographie** | DEPT | Département de résidence | 10 |
| | DNAI | Lieu de naissance (Grand Est, autre France, étranger) | 3 |
| **Capital humain** | DIPL | Diplôme le plus élevé | 13 |
| | ETUD | Inscription aux études | 2 |
| **Emploi** | GS | Groupe socioprofessionnel | 6 |
| | EMPL | Condition d'emploi (CDI, CDD, indépendant, etc.) | 9 |
| | NA5 | Secteur d'activité économique | 5 |
| | TP | Temps de travail (complet/partiel) | 2 |
| **Famille** | COUPLE | Vie en couple | 2 |
| | NENFR | Nombre d'enfants dans le ménage | 6 |
| **Logement** | STOCD | Statut d'occupation (propriétaire, locataire, etc.) | 5 |
| | TYPL | Type de logement | 6 |
| | SANI | Installations sanitaires | 4 |
| **Mobilité** | VOIT | Nombre de voitures du ménage | 4 |
| **Origine** | INATC | Nationalité (française/étrangère) | 2 |

---

## **3. Modèles économétriques**

Trois modèles probit complémentaires sont estimés successivement. Le choix exclusif de modèles probit garantit la cohérence d'interprétation entre les étapes et la compatibilité avec le modèle structurel final (probit bivarié), qui n'a pas d'équivalent logit opérationnel.

### **a) Modélisation par variables latentes**

Les modèles probit reposent sur l'hypothèse qu'une variable binaire observée $Y_i$ provient d'une variable latente continue $Y_i^*$ :

$$
Y_i^* = X_i' \beta + \varepsilon_i, \qquad \varepsilon_i \sim \mathcal{N}(0,1)
$$

$$
Y_i = \mathbb{1}_{Y_i^* > 0}
$$

La probabilité d'être transfrontalier s'écrit :

$$
P(Y_i = 1 \mid X_i) = \Phi(X_i' \beta)
$$

où $\Phi(\cdot)$ désigne la fonction de répartition de la loi normale centrée réduite.

### **b) Estimation par Maximum de Vraisemblance**

Tous les modèles sont estimés par maximum de vraisemblance (MLE). La log-vraisemblance s'écrit :

$$
\ell(\beta) = \sum_{i=1}^{n} \left[ y_i \log \Phi(X_i'\beta) + (1-y_i) \log(1 - \Phi(X_i'\beta)) \right]
$$

Les estimateurs obtenus sont convergents et asymptotiquement normaux sous les conditions de régularité usuelles.

---

## **4. Modèle 1 : Probit binaire simple**

### **a) Objectif**

Ce premier modèle estime la probabilité individuelle d'exercer une activité professionnelle hors de France. Il permet d'identifier les facteurs qui augmentent ou diminuent cette probabilité, toutes choses égales par ailleurs.

### **b) Spécification complète**

$$
\begin{aligned}
Y^*_i = \beta_0 \quad 
& + \beta_1 \cdot \text{AGEREV}_i + \beta_2 \cdot \text{AGEREV}^2_i \\[4pt]
& + \sum_{d} \gamma_d \cdot \mathbb{1}_{\text{DEPT}_i = d} + \sum_{g} \delta_g \cdot \mathbb{1}_{\text{GS}_i = g} \\[4pt]
& + \sum_{e} \eta_e \cdot \mathbb{1}_{\text{EMPL}_i = e} + \sum_{s} \theta_s \cdot \mathbb{1}_{\text{NA5}_i = s} \\[4pt]
& + \sum_{d} \kappa_d \cdot \mathbb{1}_{\text{DIPL}_i = d} + \lambda_1 \cdot \mathbb{1}_{\text{SEXE}_i = \text{Femme}} \\[4pt]
& + \lambda_2 \cdot \mathbb{1}_{\text{COUPLE}_i = \text{Oui}} + \sum_{n} \mu_n \cdot \mathbb{1}_{\text{NENFR}_i = n} \\[4pt]
& + \sum_{c} \nu_c \cdot \mathbb{1}_{\text{INATC}_i = c} + \sum_{o} \pi_o \cdot \mathbb{1}_{\text{DNAI}_i = o} \\[4pt]
& + \sum_{t} \rho_t \cdot \mathbb{1}_{\text{TP}_i = t} + \sum_{u} \sigma_u \cdot \mathbb{1}_{\text{ETUD}_i = u} \\[4pt]
& + \sum_{l} \tau_l \cdot \mathbb{1}_{\text{STOCD}_i = l} + \sum_{v} \phi_v \cdot \mathbb{1}_{\text{VOIT}_i = v} \\[4pt]
& + \sum_{h} \chi_h \cdot \mathbb{1}_{\text{TYPL}_i = h} + \sum_{s} \psi_s \cdot \mathbb{1}_{\text{SANI}_i = s} + \varepsilon_i
\end{aligned}
$$

### **c) Interprétation via effets marginaux**

Les coefficients probit ne s'interprètent pas directement en termes de probabilité. Deux types d'effets marginaux sont calculés :

- **MEM** (*Marginal Effects at Means*) : effet évalué au profil moyen de l'échantillon
- **AME** (*Average Marginal Effects*) : moyenne des effets individuels sur l'ensemble de l'échantillon

Les AME sont privilégiés car ils reflètent l'effet moyen réellement vécu dans la population, sans imposer l'existence d'un individu fictif « moyen ».

---

## **5. Modèle 2 : Probit avec interactions par genre**

### **a) Objectif**

Ce second modèle teste l'hétérogénéité des comportements selon le genre en introduisant des termes d'interaction entre le sexe et les autres variables explicatives.

### **b) Spécification**

$$
P(Y_i = 1) = \Phi(\beta_0 + \beta_1 \cdot \text{Femme}_i + \beta_2 \cdot X_i + \beta_3 \cdot (\text{Femme}_i \times X_i))
$$

### **c) Interprétation des coefficients**

| Coefficient | Interprétation |
|-------------|----------------|
| $\beta_2$ | Effet de $X$ pour les hommes (référence) |
| $\beta_3$ | Effet différentiel pour les femmes |
| $\beta_2 + \beta_3$ | Effet total de $X$ pour les femmes |

Ce modèle permettra notamment d'examiner si l'effet de la parentalité, du niveau d'études ou du secteur d'activité diffère significativement selon le genre.

---

## **6. Modèle 3 : Probit bivarié (décisions conjointes)**

### **a) Objectif**

Ce modèle structurel analyse la possible interdépendance des décisions professionnelles au sein des couples. Il répond à la question : *les choix des conjoints sont-ils coordonnés ?*

### **b) Spécification**

Les équations structurelles pour les deux membres du couple sont :

$$
Y_{1i}^* = X_{1i}'\beta_1 + \varepsilon_{1i}
$$

$$
Y_{2i}^* = X_{2i}'\beta_2 + \varepsilon_{2i}
$$

avec une distribution jointe des résidus :

$$
\begin{pmatrix}
\varepsilon_{1i} \\
\varepsilon_{2i}
\end{pmatrix}
\sim 
\mathcal{N}
\left(
\mathbf{0},
\begin{pmatrix}
1 & \rho \\
\rho & 1
\end{pmatrix}
\right)
$$

Les variables observées :

$$
Y_{1i} = \mathbb{1}_{Y_{1i}^* > 0}, \qquad Y_{2i} = \mathbb{1}_{Y_{2i}^* > 0}
$$

### **c) Interprétation du paramètre ρ**

| Valeur de ρ | Interprétation |
|-------------|----------------|
| $\rho > 0$ | Décisions coordonnées (les deux conjoints tendent à faire le même choix) |
| $\rho < 0$ | Décisions substituables (spécialisation intra-ménage) |
| $\rho = 0$ | Indépendance statistique des décisions |

Un test de rapport de vraisemblance permet de tester $H_0 : \rho = 0$ contre $H_1 : \rho \neq 0$.

---

## **7. Diagnostics et validation**

La robustesse des résultats est évaluée par une batterie de diagnostics :

### **a) Qualité de l'ajustement**

| Indicateur | Description |
|------------|-------------|
| Pseudo-R² de McFadden | Proportion de log-vraisemblance expliquée |
| AIC / BIC | Critères de sélection de modèles pénalisant la complexité |
| Log-vraisemblance | Mesure absolue de l'ajustement |

### **b) Pouvoir discriminant**

| Indicateur | Description | Résultat obtenu |
|------------|-------------|-----------------|
| AUC-ROC | Capacité à discriminer transfrontaliers / non-transfrontaliers | 0.849 |
| Courbe de calibration | Adéquation probabilités prédites / fréquences observées | Écart moyen 0.33 pp |

### **c) Validation croisée**

Une validation croisée stratifiée à 5 plis a été réalisée pour évaluer la stabilité hors échantillon :

$$
\text{AUC}_{CV} = 0.841 \pm 0.004
$$

La faible variance entre plis confirme l'absence de sur-ajustement.

### **d) Tests de spécification**

| Test | Hypothèse nulle | Utilité |
|------|-----------------|---------|
| Link test de Pregibon | Forme fonctionnelle correcte | Détection d'omission de termes non-linéaires |
| Hosmer-Lemeshow | Calibration adéquate par déciles | Ajustement local des probabilités |
| Test LR | Contraintes sur les coefficients | Significativité jointe de groupes de variables |

**Note méthodologique** : Avec près de 500 000 observations, les tests statistiques classiques rejettent mécaniquement l'hypothèse nulle en raison de leur puissance excessive. L'interprétation privilégie donc la significativité économique (ampleur des effets) plutôt que la seule significativité statistique.

### **e) Analyse de sensibilité**

La stabilité des coefficients a été vérifiée en excluant successivement les variables potentiellement endogènes (STOCD, VOIT, TYPL). Les principaux déterminants (géographie, nationalité, profil professionnel) demeurent stables.

---

## **8. Limites méthodologiques**

Plusieurs limites doivent être mentionnées :

| Limite | Implication |
|--------|-------------|
| **Endogénéité** | Les variables de logement et motorisation peuvent être des conséquences plutôt que des causes du travail transfrontalier |
| **Reconstruction des couples** | L'absence d'identifiant ménage dans les données publiques impose une reconstruction approximative via les variables LPRM |
| **Variables omises** | Distance précise à la frontière, compétences linguistiques, différentiel salarial individuel non disponibles |
| **Coupe transversale** | L'analyse sur une seule année (2022) ne permet pas d'étudier les dynamiques temporelles |
| **Granularité territoriale** | Le département constitue l'échelon géographique le plus fin, limitant l'analyse spatiale |

---

## **9. Synthèse de la démarche**

```
┌─────────────────────────────────────────────────────────────────────────┐
│                        DÉMARCHE MÉTHODOLOGIQUE                          │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│  PARTIE 1 : PRÉPARATION DES DONNÉES                                     │
│  ├── Fusion MOBPRO × INDCVI → 494 483 observations                      │
│  ├── Filtrage actifs occupés                                            │
│  └── Recodage et harmonisation des variables                            │
│                                                                         │
│  PARTIE 2 : SÉLECTION DES VARIABLES                                     │
│  ├── Diagnostic multicolinéarité (Spearman, Cramér, VIF)                │
│  ├── Clustering hiérarchique → 7 paniers de redondance                  │
│  ├── Arbitrages économiques                                             │
│  └── Validation Elastic Net (AUC = 0.845)                               │
│                                                                         │
│  PARTIE 3 : PROBIT BINAIRE SIMPLE                                       │
│  ├── Estimation MLE                                                     │
│  ├── Effets marginaux (AME)                                             │
│  └── Diagnostics (AUC = 0.849, CV, calibration)                         │
│                                                                         │
│  PARTIE 4 : PROBIT AVEC INTERACTIONS GENRE (à venir)                    │
│  └── Test d'hétérogénéité des effets H/F                                │
│                                                                         │
│  PARTIE 5 : PROBIT BIVARIÉ (à venir)                                    │
│  └── Coordination des décisions au sein des couples                     │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘
```

Cette méthodologie constitue un cadre cohérent pour analyser les déterminants individuels, les dynamiques genrées et la coordination des choix au sein des couples dans la mobilité transfrontalière du Grand Est.

# **Présentation des Données**

Cette section décrit les sources de données mobilisées pour l’analyse, les modalités d’accès, ainsi que les étapes nécessaires pour construire une base exploitable, en particulier pour l’étude des couples.  

Conformément aux recommandations de Luis Gomez (INSEE / BETA), nous commençons le projet par une **analyse sur une coupe unique : l’année 2022**.

---

## **1. Sources de données mobilisées**

Deux bases principales de l’INSEE seront utilisées :

### **a) MOB-PRO (Mobilités professionnelles)**  
Cette base fournit des informations détaillées sur :
- les mobilités domicile–travail,
- le lieu de travail (France / étranger),
- le mode de déplacement,
- certaines caractéristiques individuelles (âge, sexe, PCS).

Elle constitue la base centrale pour identifier les **travailleurs transfrontaliers**.

### **b) Recensement : Individus localisés au canton-ou-ville**  
Cette base complète MOB-PRO avec :
- le niveau de diplôme,
- la situation familiale,
- la composition du ménage,
- la situation professionnelle détaillée,
- la catégorie de commune.

Ces variables sont nécessaires pour enrichir les modèles économétriques (et indispensables pour les interactions genre × variables et le probit bivarié).

---

## **2. Accès aux données INSEE (coupe 2022)**

1. Site de l’INSEE.  
2. Source : **« Logements, individus, activité, mobilités scolaires et professionnelles, migrations résidentielles en 2022 »**  
3. BDD disponibles :
   - **« Individus localisés au canton-ou-ville »** (recensement)  
   - **« Mobilités professionnelles des individus »** (MOB-PRO)

---

## **3. Structure des bases : implications pour l’analyse**

### **Absence d’identifiant ménage (point crucial)**  

> « La base MOB-PRO ne comporte pas de variable d’identifiant ménage. Il n’existe pas non plus de base ménage fournie telle quelle : celle-ci doit être créée à partir de MOB-PRO et des données du recensement. »

Conséquences :

- Les analyses **individuelles** peuvent être menées immédiatement (probit simple + probit avec interactions).  
- Les analyses **conjointes** (probit bivarié) nécessitent une **reconstruction du ménage**, en combinant :
  - même lieu de résidence,
  - même numéro d'identification ménage lié à la zone d'habitation
  - cohérence des statuts.

Cette reconstruction est développée dans une étape ultérieure.

---

## **4. Limites liées aux données**

Quelques contraintes structurelles doivent être prises en compte :

- **Pas de base ménage officielle** → reconstruction manuelle.  
- **MOB-PRO couvre seulement les déplacements domicile–travail** → variables limitées.  
- **Hétérogénéité territoriale non parfaitement mesurable** (manque d’indicateurs frontaliers précis).  
- **Ruptures de séries possibles selon les années** (méthode de recensement rénové).  
- **Variables fiscales absentes** (salaire, imposition individuelle, revenus du ménage).

Ces limites guident le choix d’une première analyse concentrée sur 2022 avant d’éventuelles extensions temporelles.
