In [1]:
import pandas as pd 
pd.set_option('display.float_format', lambda x: '{:.3f}'.format(x).rstrip('0').rstrip('.') if x != 0 else '0')
import numpy as np 
np.set_printoptions(suppress=True, precision=6)
import polars as pl 
pl.Config(set_fmt_float="full")
pl.Config(tbl_cols=1000)
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import os 
import seaborn as sns
np.random.seed(22)
import torch 

# Modification ici pour importer les nouvelles fonctions adaptées aux célibataires
from packages.utils2 import Optimize, JointOptimize
from packages.utils2 import SaveParameters, LoadParameters, JointDisplayResults, JointSaveParameters, JointLoadParameters
# Remplacer par les nouvelles fonctions pour les célibataires
from packages.utils2 import prepare_data_level0_single, prepare_data_level1_single, prepare_data_level2_single

device = 'cpu'

# CODE MODEL - CELIBATAIRE

In [2]:
import polars as pl

# Année d'étude
year = 2017

# Charger les données
data = pl.read_parquet(f'/Users/mehdifehri/Desktop/Conduite de Projet/Data/single_clean.parquet')

# Supprimer les observations intrazonales
data = data.filter(pl.col('INTRAZONAL') == 0)

# Créer les poids normalisés pour tous les célibataires
data = data.with_columns([
    # Poids individuel normalisé
    (pl.col('IPONDI') * (len(data) / pl.col('IPONDI').sum())).alias("WEIGHT")
])

# Convertir en DataFrame pandas
df = data.to_pandas()

# Overall guidelines:

- All parameters have to finish their names by _l* with * being the number of the level \
*For example : B_RES_INNERRING_l3 is the parameter of the "couronne" of the residential location in level 3*

## Steps of estimation :

1) Run the constraint model (without explanatory variables) 
2) Save the parameters of the constraint model, add some heterogeneity to the model 
3) Estimate again but with the parameters of the constraint model as initial values 
4) Save the parameters of the UNconstraint model (the one with heterogeneity)
5) Add some new variables, estimate with the UNconstraint parameters as initial values
6) Do it again until you are satified by your model 

## Tips :

- To access a variable you have to use *var('my_variable')*, with **'my_variable'** being the name of the variable in your dataset 
- To add a variable with his associated parameter, you can name the parameter as you want (**by always adding the level at the end**) \
*For example : B_DIST_BIKE2_w_l0*var('DISTANCE')**2 
- Note that we truncate the DISTANCE, TRAVEL TIME for WALK, BIKE and TC for a purpose of generalization when \
forcasting on different datasets where people could give extreme non-coherent values 

# Level 0 

### Level 0 guidelines:

- **!! IMPORTANT !!** :All parameters have to finish their names with _(gender)_l1 : **"m" for man and "w" for woman** \
*For example : B_WP_OUTERRING_m_l0 is the parameter of the "couronne" of the job location in level 1 for the man, B_WP_OUTERRING_w_l0 for woman*
- Except for *sigma_l0* which is the same for the man and the woman

### Tips:

- To add characteristics in the constant of a mode, you can add them in *XB* \
*For example : adding characteristics into XB_TC_m, is adding heterogeneity in the constant of the mode TC for the man*
- To add characteristics in the VOT (value of time) of a mode, you can add them in the *torch.exp(delta_TT_MOTO_m_l0)* term \
For example :
```python
torch.exp(delta_TT_MOTO_m_l0 + VOT_OCCP_SELFEMPLOYED_MOTO_m_l0 * var('OCCP_SELFEMPLOYED_m')
```

### Level 0 function if your year of study is after 2016 (not included)

- There is two different function for level 0 depending on the year of study : \
it is only after 2017 that INSEE has splitted MOTO and BIKE from the TWO WHEELS alternative. \
- So from 2017 there are 4 choices at the level 0 (BIKE, MOTO, TC and WALK), and before that \
there are 3 choices (TC, WALK and TWO WHEELS)

# Spécificité de l'échantillon étudié : les célibataires

Pour les célibataires, nous n'avons plus besoin du niveau 3 du modèle pour plusieurs raisons :

Structure simplifiée : Dans le modèle complet pour les couples bi-actifs, le niveau 3 représente le choix d'achat de la première voiture spécifiquement pour les couples bi-actifs. C'est une décision distincte de l'achat d'une deuxième voiture.
Décision unique pour les célibataires : Pour un célibataire, il n'y a qu'une seule décision d'achat de voiture à modéliser - posséder ou non une voiture. Il n'y a pas de distinction entre "première" et "deuxième" voiture comme pour les couples.
Modèle à 3 niveaux pour les célibataires :

Niveau 0 : Choix du mode de transport (marche, vélo, moto, transports en commun)
Niveau 1 : Choix entre voiture et autres modes quand on a une voiture
Niveau 2 : Décision d'achat d'une voiture (oui/non)



En contraste, le modèle pour les couples bi-actifs a 4 niveaux car il doit gérer des choix conjoints plus complexes et la possibilité d'avoir 0, 1 ou 2+ voitures.
Cette simplification est logique et reflète bien la réalité des célibataires, qui font face à des décisions moins complexes en matière de possession et d'utilisation de voiture par rapport aux couples, où les choix doivent être coordonnés entre deux personnes.RéessayerClaude peut faire des erreurs. Assurez-vous de vérifier ses réponses.

In [3]:
def level0_single_C(params, 
           df,
           pytorch=False, 
           null_loglik=False, 
           grad=False, 
           logsum=False,
           df_length=False,
           all_sample=False):
    
    v = df['vars']

    if all_sample:
        idx = df['all_idx']
    else:
        idx = df['level0_idx']  # Un seul indice pour tous les célibataires

    def var(name): return v[name]

    if grad:
        params = params.clone().requires_grad_(True)
    else:
        params = torch.tensor(params, dtype=torch.float64)
        
    (sigma_l0, 
    ASC_MOTO_l0, ASC_BIKE_l0, ASC_TC_l0,  

    B_DIST_BIKE2_l0, 
    B_DIST_WALK2_l0,
    B_TT_TC2_l0,
    B_TT_MOTO2_l0,
    delta_TT_TC_l0,
    delta_TT_MOTO_l0,
    delta_DIST_BIKE_l0
    ) = params

    # ----------- Fonctions d'utilité (une seule série pour tous les célibataires)

    V_TC = (ASC_TC_l0 
            - torch.exp(delta_TT_TC_l0) * torch.min(var('TT_TC'), torch.tensor((180/60))) 
            + B_TT_TC2_l0 * (torch.min(var('TT_TC'), torch.tensor((180/60)))**2))
    
    V_WALK = (-3 * torch.min(var('DISTANCE'), torch.tensor(10)) 
              + B_DIST_WALK2_l0 * (torch.min(var('DISTANCE'), torch.tensor(10))**2) 
              ) 

    V_MOTO = (ASC_MOTO_l0 
              - torch.exp(delta_TT_MOTO_l0) * var('FREEFLOW_TT') 
              + B_TT_MOTO2_l0 * (var('FREEFLOW_TT')**2)) 
        
    V_BIKE = (ASC_BIKE_l0 
              - torch.exp(delta_DIST_BIKE_l0) * torch.min(var('DISTANCE'), torch.tensor(25))
              + B_DIST_BIKE2_l0 * (torch.min(var('DISTANCE'), torch.tensor(25))**2)
              )
    
    # ------------- Probabilités (une seule série pour tous les célibataires)
    
    V_stack = torch.stack([V_TC[idx] / sigma_l0, 
                        V_MOTO[idx] / sigma_l0, 
                        V_WALK[idx] / sigma_l0, 
                        V_BIKE[idx] / sigma_l0], dim=1)
    max_V = V_stack.max()
    exp_V = torch.exp(V_stack - max_V)
    sum_exp = exp_V.sum(dim=1)

    P_TC, P_MOTO, P_WALK, P_BIKE = exp_V.T / sum_exp

    # Choix de mode (une seule série pour tous les célibataires)
    choices = df['df']
    
    Choice_TC = torch.tensor((choices['COMMUTE_MODE']=='PUBLIC').astype(int).values, dtype=torch.float64)
    Choice_WALK = torch.tensor((choices['COMMUTE_MODE']=='WALK').astype(int).values, dtype=torch.float64)
    Choice_MOTO = torch.tensor((choices['COMMUTE_MODE']=='MOTO').astype(int).values, dtype=torch.float64)
    Choice_BIKE = torch.tensor((choices['COMMUTE_MODE']=='BIKE').astype(int).values, dtype=torch.float64)

    weights = var('WEIGHT')
    weights = weights[idx]
    
    if null_loglik:
        null_LL = torch.sum(weights * Choice_TC[idx] * torch.log(torch.sum(Choice_TC[idx])/len(idx))) + \
                torch.sum(weights * Choice_MOTO[idx] * torch.log(torch.sum(Choice_MOTO[idx])/len(idx))) + \
                torch.sum(weights * Choice_WALK[idx] * torch.log(torch.sum(Choice_WALK[idx])/len(idx))) + \
                torch.sum(weights * Choice_BIKE[idx] * torch.log(torch.sum(Choice_BIKE[idx])/len(idx)))

        return -null_LL

    epsilon = 1e-30  

    # Log-likelihood (une seule série pour tous les célibataires)
    LL = torch.sum(weights * Choice_TC[idx] * torch.log(torch.clamp(P_TC, min=epsilon))) + \
        torch.sum(weights * Choice_MOTO[idx] * torch.log(torch.clamp(P_MOTO, min=epsilon))) + \
        torch.sum(weights * Choice_WALK[idx] * torch.log(torch.clamp(P_WALK, min=epsilon))) + \
        torch.sum(weights * Choice_BIKE[idx] * torch.log(torch.clamp(P_BIKE, min=epsilon)))

    if pytorch:
        return -LL
        
    if logsum:
        LS = sigma_l0 * torch.log(
            torch.exp(V_TC / sigma_l0) + torch.exp(V_MOTO / sigma_l0) 
            + torch.exp(V_WALK / sigma_l0) + torch.exp(V_BIKE / sigma_l0) 
        )
        return LS
    
    if df_length:
        return len(idx)
        
    return (-LL).detach().numpy()

## Principaux changements effectués:

- Renommé la fonction en level0_single (au lieu de level0_singles)
- Remplacé les indices séparés pour hommes/femmes par un seul indice level0_idx
- Supprimé les suffixes _m et _w des paramètres
- Ajouté des paramètres pour l'effet du genre (B_GENDER_*)
- Créé une variable indicatrice GENDER_DUMMY basée sur SEXE
- Unifié toutes les fonctions d'utilité, probabilités et calculs de log-likelihood
- Dans logsum, retourne une seule série au lieu de deux (LS_m, LS_w)

### Tips:
- The function will stop optimizing after 5000 iterations, you modify it as you wish 
- You can modify the **gtol** parameter to get more precision on the estimation but \
it will be costly in terms of computation time
- If your estimation takes too much time I suggest you to increase the **gtol** by 0.5 

### How to estimate :

- Run the first estimation by leaving the **initial_values** commented 
- Then you can see the estimated parameters in the **summary_level0** table 
- Save the parameters with the **SaveParameters** function => parameters will be saved in the parameters folder that is on the same folder as your code
- Then you can add some new variables to your objective function, and start a new estimation with the last parameters as **initial_values**

# Estimation des paramètres contraints

In [6]:
summary_level0, parameters_level0 = Optimize(
    level0_single_C, 
    prepare_data_level0_single(df, year=2017), 
    max_iter=1500,
    gtol=1,
    display_results=True
)

# Sauvegarde des paramètres
SaveParameters(
    level0_single_C,
    parameters_level0,  # Là c'est bien le tensor
    excel=False,
    data=prepare_data_level0_single(df, year=2017),
    file_name='Level0_CONSTRAINT'
)


Optimizing:  44%|████▍     | 657/1500 [12:00<11:45,  1.20it/s, Objective Value=50290.19500]  

Convergence: True


Optimizing:  44%|████▍     | 657/1500 [12:04<15:29,  1.10s/it, Objective Value=50290.19500]


#  Analyse et interprétation du modèle contraint – Choix modal des célibataires

##  Vue d'ensemble

Le modèle estimé est un modèle de choix discret (logit multinomial) pour les décisions de transport des **célibataires**, avec quatre alternatives :
- **TC** (Transports en commun),
- **Marche**,
- **Moto**,
- **Vélo**.

 **Attention : le modèle n’a pas convergé**. Cela signifie que l’optimisation n’a pas atteint un vrai minimum. Les résultats peuvent être interprétés avec **prudence**.

---

##  Interprétation des paramètres clés

###  Paramètre d’échelle

- `sigma_l0 = 6.46`  
→ Valeur élevée ⇒ **forte hétérogénéité non observée** dans les comportements de choix.  
→ Le modèle ne capte pas encore bien les différences individuelles (âge, genre, revenu…).

---

### Constantes modales (ASC)

| Coefficient        | Interprétation |
|--------------------|----------------|
| `ASC_TC_l0 = 1.88`  | Préférence intrinsèque **positive** pour le TC (vs. marche). |
| `ASC_BIKE_l0 = -4.20` | Aversion significative pour le vélo. |
| `ASC_MOTO_l0 = -14.25` | Très forte aversion pour la moto. |

➡️ Ces ASC mesurent la préférence **structurelle**, toutes choses égales par ailleurs, pour chaque mode par rapport à la référence (ici, **marche**).

---

### Sensibilité au temps de trajet

| Coefficient               | Interprétation |
|---------------------------|----------------|
| `delta_TT_TC_l0 = -3.84`  | TC : l’utilité diminue avec le temps, mais à un **taux décroissant** (transformation exponentielle). |
| `delta_TT_MOTO_l0 = 2.91` | **Contre-intuitif** : indiquerait une préférence pour des trajets moto plus longs. Peut signaler : erreur, multicolinéarité, ou biais d’identification. |
| `B_TT_TC2_l0 = -2.86`     | TC : effet quadratique négatif ⇒ l’utilité **baisse plus vite** avec le temps. |
| `B_TT_MOTO2_l0 = -0.77`   | Moto : idem, effet négatif en cas de long trajet. |

---

### Sensibilité à la distance

| Coefficient                   | Interprétation |
|-------------------------------|----------------|
| `delta_DIST_BIKE_l0 = 1.17`   | **Contre-intuitif** : utilité augmente avec la distance à vélo. Peut indiquer que seuls les cyclistes endurants restent. |
| `B_DIST_BIKE2_l0 = 0.07`      | Effet quadratique **faiblement positif**. |
| `B_DIST_WALK2_l0 = -0.06`     | L’utilité de la marche diminue rapidement avec la distance (effet attendu). |

---

## Limites et réserves

1. **Pas de convergence**  
   ⇒ Interprétation des coefficients à faire **avec prudence**.

2. **Paramètres contre-intuitifs**  
   - `delta_TT_MOTO_l0` et `delta_DIST_BIKE_l0` ont des **signes inattendus**.
   - Possibles causes :
     - Variables importantes manquantes,
     - Multicolinéarité,
     - Mauvais point de départ.

3. **Hétérogénéité non observée importante**  
   - `sigma_l0` élevé = **beaucoup de variations** dans les comportements, **pas encore expliquées** par les variables actuelles.

---

## 📌 Recommandations

1. **Augmenter `max_iter`**  
   Pour forcer l’optimisation à aller plus loin et espérer la convergence.

2. **Enrichir le modèle**
   Ajouter :
   - Variables socio-démographiques (`AGED`, `SEXE`, `SANI`, `SURF`, etc.),
   - Conditions de mobilité (`VOIT`, `GARL`, etc.),
   - Statut (`ETUD`, `OCCP_*`, etc.).

3. **Revoir la spécification fonctionnelle**  
   Tester différentes transformations (log, racine, linéaire) pour :
   - `DISTANCE`,
   - `TT`,
   - etc.

---

## Pourquoi partir du modèle contraint ?

Utiliser les paramètres estimés **contraints** comme point de départ du modèle enrichi est **la bonne pratique** :

| Avantage | Détail |
|----------|--------|
| 🔁 Stabilité | L’optimisation démarre d’un **point économiquement réaliste**. |
| ⏱️ Gain de temps | Moins d’itérations nécessaires. |
| 📊 Comparabilité | Chaque version enrichie reste **cohérente avec la base**, facilitant l’analyse des écarts. |

---

## 🧩 Conclusion

Ce modèle contraint constitue une **base solide**. Bien qu’imparfait, il révèle déjà certaines tendances et ouvre la voie à une **modélisation plus fine** de la mobilité des célibataires par l’ajout d’hétérogénéité observée.



# Estimation des paramètres non-contraints (modèle enrichit d'hétérogénéité)

## Stratégie d’enrichissement du modèle non contraint – Niveau 0 (Célibataires)

### Objectif
Obtenir un modèle nested logit **convergent**, **interprétable économiquement**, et **statistiquement robuste**, en partant d’une spécification simple puis en ajoutant progressivement des variables explicatives issues du fichier `single_clean.parquet`.

---

###  Étape 0 – Modèle contraint de base
- **Variables intégrées** : `TT_TC`, `FREEFLOW_TT`, `DISTANCE`, constantes ASC par mode (`ASC_MOTO`, `ASC_BIKE`, `ASC_TC`), et effets quadratiques.
- **Hypothèse** : comportement modal homogène, pas d’hétérogénéité interindividuelle.
- **But** : obtenir une première estimation stable (Level0_CONSTRAINT).

---

### Étape 1 – Genre (`SEXE`)
- **Justification** : les préférences modales peuvent varier selon le genre (ex. sécurité, effort physique, normes sociales).
- **Implémentation** :
  - Ajout de `GENDER_DUMMY = 1 si femme`,
  - Paramètres `B_GENDER_TC`, `B_GENDER_MOTO`, `B_GENDER_BIKE`.

---
###  Étape 2 – Hétérogénéité par âge (`AGED`)

#### 🔍 Justification :
- L’âge affecte les préférences modales : mobilité physique, tolérance au temps de trajet, préférence pour la marche ou la voiture.
- C’est une variable continue structurante du comportement.

#### ✅ Implémentation :
- Ajouter `AGED` centré (ex : `(AGED - 40)/10`) et son carré dans les `XB_*` des utilités.

---

### 🪜 Étape 3 – Hétérogénéité socio-économique

#### 🔍 Justification :
- Pour capturer les différences de ressources, d’accès aux modes, de contraintes et de préférences modales.

####  Variables proposées :
- `SANI` : équipement sanitaire (0 = très précaire → 2 = standard), **proxy de pauvreté matérielle**.
- `SURF` : superficie du logement (en classes), **proxy de richesse immobilière**.
- `HOMEOWNERSHIP` : statut d’occupation (1 = propriétaire, autres = locataire), **proxy de stabilité économique**.
- `VOIT` : nombre de voitures dans le ménage, indicateur **d’accès à la voiture privée**.
- `GARL` : place de stationnement disponible.

---

### 🪜 Étape 4 – Hétérogénéité démographique

#### 🔍 Justification :
- Composition du ménage influence les contraintes et préférences :
  - enfants → contraintes horaires,
  - grande taille → préférence pour modes confortables.

####  Variables proposées :
- `NENFR` : nombre d’enfants dans le ménage,
- `NPERR` : nombre total de personnes dans le ménage.

---

### 🪜 Étape 5 – Étudiants (`ETUD`)

#### 🔍 Justification :
- Les étudiants ont des contraintes et préférences spécifiques :
  - Moins d’accès à la voiture,
  - Préférence pour TC ou marche,
  - Moindre valeur du temps.

####  Implémentation :
- Créer une dummy `IS_STUDENT = 1` si `ETUD == 1`.

---

### 🪜 Étape 6 – Occupation professionnelle (`OCCP_*`)

#### 🔍 Justification :
- Statut professionnel structurant :
  - `OCCP_EMPLOYEE` / `OCCP_BLUE_COLLAR` → effets de distance et coût,
  - `OCCP_SELF_EMPLOYED` → flexibilité horaire,
  - `OCCP_WHITE_COLLAR`, `OCCP_PROFESSIONAL` → accessibilité modale différente.

####  Implémentation :
- Ajouter des effets spécifiques dans les `XB_*` selon la catégorie dominante.

---

### 🪜 Étape 7 – Effet spatial (zones géographiques)

#### 🔍 Justification :
- Lieu de résidence et de travail = **fort déterminant structurel** du comportement modal.

####  Variables proposées :
- Résidence : `RES_PARIS`, `RES_INNERRING`, `RES_OUTERRING`,
- Travail : `WP_PARIS`, `WP_INNERRING`, `WP_OUTERRING`.

---

### Méthodologie à chaque étape :

1. Ajouter les variables dans les `XB_*` de la fonction `level0_single_NC`,
2. Ajouter les coefficients correspondants dans `params = (...)`,
3. Relancer l’estimation avec `initial_values='Level0_CONSTRAINT'`,
4. Sauvegarder les résultats sous `"Level0_UNCONSTRAINT_ETAPE_X"`,
5. Vérifier :
   - Convergence,
   - Signifiance des coefficients,
   - Interprétabilité économique.

---

### ✅ Objectif final :
Un modèle :
- convergent (log-likelihood stable),
- économiquement cohérent,
- interprétable (signes attendus),
- utilisable pour prédiction ou comparaison avec les couples monoactifs.


# Modèle non-contraint enrichit : Test avec 'GENRE'

In [4]:
def level0_single_NC1(params, 
           df,
           pytorch=False, 
           null_loglik=False, 
           grad=False, 
           logsum=False,
           df_length=False,
           all_sample=False):
    
    v = df['vars']

    if all_sample:
        idx = df['all_idx']
    else:
        idx = df['level0_idx']  # Un seul indice pour tous les célibataires

    def var(name): return v[name]

    if grad:
        params = params.clone().requires_grad_(True)
    else:
        params = torch.tensor(params, dtype=torch.float64)
        
    (sigma_l0, 
    ASC_MOTO_l0, ASC_BIKE_l0, ASC_TC_l0,  

    B_DIST_BIKE2_l0, 
    B_DIST_WALK2_l0,
    B_TT_TC2_l0,
    B_TT_MOTO2_l0,
    delta_TT_TC_l0,
    delta_TT_MOTO_l0,
    delta_DIST_BIKE_l0,
    
    B_GENDER_TC_l0,
    B_GENDER_MOTO_l0,
    B_GENDER_BIKE_l0
    ) = params

    # Indicatrice de genre: 1 si femme (SEXE=2), 0 si homme (SEXE=1)
    GENDER_DUMMY = (var('SEXE') == 2).float()

    # Constantes avec effet du genre
    XB_TC = B_GENDER_TC_l0 * GENDER_DUMMY
    XB_MOTO = B_GENDER_MOTO_l0 * GENDER_DUMMY
    XB_BIKE = B_GENDER_BIKE_l0 * GENDER_DUMMY

    # ----------- Fonctions d'utilité (une seule série pour tous les célibataires)

    V_TC = (ASC_TC_l0 + XB_TC
            - torch.exp(delta_TT_TC_l0) * torch.min(var('TT_TC'), torch.tensor((180/60))) 
            + B_TT_TC2_l0 * (torch.min(var('TT_TC'), torch.tensor((180/60)))**2))
    
    V_WALK = (-3 * torch.min(var('DISTANCE'), torch.tensor(10)) 
              + B_DIST_WALK2_l0 * (torch.min(var('DISTANCE'), torch.tensor(10))**2) 
              ) 

    V_MOTO = (ASC_MOTO_l0 + XB_MOTO
              - torch.exp(delta_TT_MOTO_l0) * var('FREEFLOW_TT') 
              + B_TT_MOTO2_l0 * (var('FREEFLOW_TT')**2)) 
        
    V_BIKE = (ASC_BIKE_l0 + XB_BIKE
              - torch.exp(delta_DIST_BIKE_l0) * torch.min(var('DISTANCE'), torch.tensor(25))
              + B_DIST_BIKE2_l0 * (torch.min(var('DISTANCE'), torch.tensor(25))**2)
              )
    
    # ------------- Probabilités (une seule série pour tous les célibataires)
    
    V_stack = torch.stack([V_TC[idx] / sigma_l0, 
                        V_MOTO[idx] / sigma_l0, 
                        V_WALK[idx] / sigma_l0, 
                        V_BIKE[idx] / sigma_l0], dim=1)
    max_V = V_stack.max()
    exp_V = torch.exp(V_stack - max_V)
    sum_exp = exp_V.sum(dim=1)

    P_TC, P_MOTO, P_WALK, P_BIKE = exp_V.T / sum_exp

    # Choix de mode (une seule série pour tous les célibataires)
    choices = df['df']
    
    Choice_TC = torch.tensor((choices['COMMUTE_MODE']=='PUBLIC').astype(int).values, dtype=torch.float64)
    Choice_WALK = torch.tensor((choices['COMMUTE_MODE']=='WALK').astype(int).values, dtype=torch.float64)
    Choice_MOTO = torch.tensor((choices['COMMUTE_MODE']=='MOTO').astype(int).values, dtype=torch.float64)
    Choice_BIKE = torch.tensor((choices['COMMUTE_MODE']=='BIKE').astype(int).values, dtype=torch.float64)

    weights = var('WEIGHT')
    weights = weights[idx]
    
    if null_loglik:
        null_LL = torch.sum(weights * Choice_TC[idx] * torch.log(torch.sum(Choice_TC[idx])/len(idx))) + \
                torch.sum(weights * Choice_MOTO[idx] * torch.log(torch.sum(Choice_MOTO[idx])/len(idx))) + \
                torch.sum(weights * Choice_WALK[idx] * torch.log(torch.sum(Choice_WALK[idx])/len(idx))) + \
                torch.sum(weights * Choice_BIKE[idx] * torch.log(torch.sum(Choice_BIKE[idx])/len(idx)))

        return -null_LL

    epsilon = 1e-30  

    # Log-likelihood (une seule série pour tous les célibataires)
    LL = torch.sum(weights * Choice_TC[idx] * torch.log(torch.clamp(P_TC, min=epsilon))) + \
        torch.sum(weights * Choice_MOTO[idx] * torch.log(torch.clamp(P_MOTO, min=epsilon))) + \
        torch.sum(weights * Choice_WALK[idx] * torch.log(torch.clamp(P_WALK, min=epsilon))) + \
        torch.sum(weights * Choice_BIKE[idx] * torch.log(torch.clamp(P_BIKE, min=epsilon)))

    if pytorch:
        return -LL
        
    if logsum:
        LS = sigma_l0 * torch.log(
            torch.exp(V_TC / sigma_l0) + torch.exp(V_MOTO / sigma_l0) 
            + torch.exp(V_WALK / sigma_l0) + torch.exp(V_BIKE / sigma_l0) 
        )
        return LS
    
    if df_length:
        return len(idx)
        
    return (-LL).detach().numpy()

In [5]:
import sys
sys.path.append('/Users/mehdifehri/Desktop/Conduite de Projet/Code/packages')

from utils2 import Optimize, prepare_data_level0_single, SaveParameters

# Version correcte avec display_results=False
parameters_level0 = Optimize(level0_single_NC1, 
         prepare_data_level0_single(df, year=2017),
         initial_values='Level0_CONSTRAINT',
         max_iter=500,
         gtol=1,
         display_results=False)  # Quand c'est False, la fonction ne renvoie que les paramètres

# Sauvegarde des paramètres
SaveParameters(level0_single_NC1,
              parameters_level0,
              excel=False,  # False pour éviter l'erreur de la matrice hessienne
              data=prepare_data_level0_single(df, year=2017),
              file_name='Level0_NC1')

Optimizing:  29%|██▉       | 145/500 [01:33<03:48,  1.55it/s, Objective Value=47536.62786]


Convergence: True


Le model est convergent. 

# Etape 2 : test variable 'Age + Age^2'

In [10]:
def level0_single_NC2(params, 
                     df,
                     pytorch=False, 
                     null_loglik=False, 
                     grad=False, 
                     logsum=False,
                     df_length=False,
                     all_sample=False):
    
    v = df['vars']

    if all_sample:
        idx = df['all_idx']
    else:
        idx = df['level0_idx']  # Un seul indice pour tous les célibataires

    def var(name): return v[name]

    if grad:
        params = params.clone().requires_grad_(True)
    else:
        params = torch.tensor(params, dtype=torch.float64)
        
    (sigma_l0, 
    ASC_MOTO_l0, ASC_BIKE_l0, ASC_TC_l0,

    B_DIST_BIKE2_l0, 
    B_DIST_WALK2_l0,
    B_TT_TC2_l0,
    B_TT_MOTO2_l0,
    delta_TT_TC_l0,
    delta_TT_MOTO_l0,
    delta_DIST_BIKE_l0,
    
    B_GENDER_TC_l0,
    B_GENDER_MOTO_l0,
    B_GENDER_BIKE_l0,
    
    B_AGE_TC_l0,
    B_AGE_MOTO_l0,
    B_AGE_BIKE_l0,
    
    B_AGE2_TC_l0,
    B_AGE2_MOTO_l0,
    B_AGE2_BIKE_l0
    ) = params

    # Indicatrice de genre: 1 si femme (SEXE=2), 0 si homme (SEXE=1)
    GENDER_DUMMY = (var('SEXE') == 2).float()
    
    # Variable d'âge (normalisée pour éviter les problèmes numériques)
    AGE = var('AGED') - 40  # Centrer autour de 40 ans
    AGE2 = AGE**2 / 100     # Mettre à l'échelle pour éviter des valeurs trop grandes

    # Constantes avec effet du genre et de l'âge
    XB_TC = (B_GENDER_TC_l0 * GENDER_DUMMY + 
             B_AGE_TC_l0 * AGE + 
             B_AGE2_TC_l0 * AGE2)
    
    XB_MOTO = (B_GENDER_MOTO_l0 * GENDER_DUMMY + 
               B_AGE_MOTO_l0 * AGE + 
               B_AGE2_MOTO_l0 * AGE2)
    
    XB_BIKE = (B_GENDER_BIKE_l0 * GENDER_DUMMY + 
               B_AGE_BIKE_l0 * AGE + 
               B_AGE2_BIKE_l0 * AGE2)

    # ----------- Fonctions d'utilité (une seule série pour tous les célibataires)

    V_TC = (ASC_TC_l0 + XB_TC
            - torch.exp(delta_TT_TC_l0) * torch.min(var('TT_TC'), torch.tensor((180/60))) 
            + B_TT_TC2_l0 * (torch.min(var('TT_TC'), torch.tensor((180/60)))**2))
    
    V_WALK = (-3 * torch.min(var('DISTANCE'), torch.tensor(10)) 
              + B_DIST_WALK2_l0 * (torch.min(var('DISTANCE'), torch.tensor(10))**2) 
              ) 

    V_MOTO = (ASC_MOTO_l0 + XB_MOTO
              - torch.exp(delta_TT_MOTO_l0) * var('FREEFLOW_TT') 
              + B_TT_MOTO2_l0 * (var('FREEFLOW_TT')**2)) 
        
    V_BIKE = (ASC_BIKE_l0 + XB_BIKE
              - torch.exp(delta_DIST_BIKE_l0) * torch.min(var('DISTANCE'), torch.tensor(25))
              + B_DIST_BIKE2_l0 * (torch.min(var('DISTANCE'), torch.tensor(25))**2)
              )
    
    # ------------- Probabilités (une seule série pour tous les célibataires)
    
    V_stack = torch.stack([V_TC[idx] / sigma_l0, 
                        V_MOTO[idx] / sigma_l0, 
                        V_WALK[idx] / sigma_l0, 
                        V_BIKE[idx] / sigma_l0], dim=1)
    max_V = V_stack.max()
    exp_V = torch.exp(V_stack - max_V)
    sum_exp = exp_V.sum(dim=1)

    P_TC, P_MOTO, P_WALK, P_BIKE = exp_V.T / sum_exp

    # Choix de mode (une seule série pour tous les célibataires)
    choices = df['df']
    
    Choice_TC = torch.tensor((choices['COMMUTE_MODE']=='PUBLIC').astype(int).values, dtype=torch.float64)
    Choice_WALK = torch.tensor((choices['COMMUTE_MODE']=='WALK').astype(int).values, dtype=torch.float64)
    Choice_MOTO = torch.tensor((choices['COMMUTE_MODE']=='MOTO').astype(int).values, dtype=torch.float64)
    Choice_BIKE = torch.tensor((choices['COMMUTE_MODE']=='BIKE').astype(int).values, dtype=torch.float64)

    weights = var('WEIGHT')
    weights = weights[idx]
    
    if null_loglik:
        null_LL = torch.sum(weights * Choice_TC[idx] * torch.log(torch.sum(Choice_TC[idx])/len(idx))) + \
                torch.sum(weights * Choice_MOTO[idx] * torch.log(torch.sum(Choice_MOTO[idx])/len(idx))) + \
                torch.sum(weights * Choice_WALK[idx] * torch.log(torch.sum(Choice_WALK[idx])/len(idx))) + \
                torch.sum(weights * Choice_BIKE[idx] * torch.log(torch.sum(Choice_BIKE[idx])/len(idx)))

        return -null_LL

    epsilon = 1e-30  

    # Log-likelihood (une seule série pour tous les célibataires)
    LL = torch.sum(weights * Choice_TC[idx] * torch.log(torch.clamp(P_TC, min=epsilon))) + \
        torch.sum(weights * Choice_MOTO[idx] * torch.log(torch.clamp(P_MOTO, min=epsilon))) + \
        torch.sum(weights * Choice_WALK[idx] * torch.log(torch.clamp(P_WALK, min=epsilon))) + \
        torch.sum(weights * Choice_BIKE[idx] * torch.log(torch.clamp(P_BIKE, min=epsilon)))

    if pytorch:
        return -LL
        
    if logsum:
        LS = sigma_l0 * torch.log(
            torch.exp(V_TC / sigma_l0) + torch.exp(V_MOTO / sigma_l0) 
            + torch.exp(V_WALK / sigma_l0) + torch.exp(V_BIKE / sigma_l0) 
        )
        return LS
    
    if df_length:
        return len(idx)
        
    return (-LL).detach().numpy()

In [11]:
import sys
sys.path.append('/Users/mehdifehri/Desktop/Conduite de Projet/Code/packages')

from utils2 import Optimize, prepare_data_level0_single, SaveParameters

# Version correcte avec display_results=False
parameters_level0 = Optimize(level0_single_NC2, 
         prepare_data_level0_single(df, year=2017),
         initial_values='Level0_NC1',
         max_iter=500,
         gtol=1,
         display_results=False)  # Quand c'est False, la fonction ne renvoie que les paramètres

# Sauvegarde des paramètres
SaveParameters(level0_single_NC2,
              parameters_level0,
              excel=False,  # False pour éviter l'erreur de la matrice hessienne
              data=prepare_data_level0_single(df, year=2017),
              file_name='Level0_NC2')

Optimizing:  37%|███▋      | 186/500 [02:14<03:46,  1.38it/s, Objective Value=47388.46652]


Convergence: True


Il est généralement plus efficace d'utiliser les paramètres obtenus à l'étape précédente, c'est-à-dire ceux du modèle non contraint précédent (celui avec âge et genre).
Il y a plusieurs raisons à cela:

Continuité des paramètres: Les paramètres des variables déjà incluses (âge, genre) auront des valeurs proches de celles estimées précédemment, ce qui facilite la convergence.
Stabilité numérique: Partir des estimations précédentes vous place déjà dans une région "probable" de l'espace des paramètres, réduisant les risques de divergence.
Démarche progressive: Cela s'inscrit dans une logique d'enrichissement progressif où chaque modèle est une extension du précédent.

Votre approche serait donc:

Modèle contraint (base) → valeurs initiales pour modèle avec âge et genre
Modèle avec âge et genre → valeurs initiales pour modèle avec âge, genre et variables socio-économiques

# Etape 2 : test variables socio-économiques. 

# Level 1 

## Parameter names convention :

- for the parameters of the Pareto weight (Lambda) : begin with **L_**
- for the parameters of the different constants : begin with **B_**
- for the parameters of the value of time : begin with **votCA_** if the value of time of car alone, **votCP_** if car passenger, etc.
- the end of each parameter should always follow the rules of each level : so, here each parameter ends with : **_l1**

### Tips :
- Here we start by computing the *logsum* resulting from level 0. Be careful to load the right parameters to compute it \
otherwise you will end up with a wrong *logsum* term 
- This level is the **hardest to identify** : I recommand you to add variables in the Lambda, \
the constants of OTHERS (being the case of choosing other modes than car), and the VOT of car alone at the same time 
- *ASC_Cp_m_l1*, *ASC_Cp_w_l1*, *ASC_Cd_m_l1*, *ASC_Cd_w_l1* and \
*delta_Cp_m_l1*, *delta_Cp_w_l1*, *delta_Cd_m_l1*, *delta_Cd_w_l1* are the **hardest to identify**

In [None]:
# load the parameters of the final model in level 0 (so the last UNconstraint model that you've estimated)
loaded_parameters = LoadParameters(
                func=level0, 
                file_name='Level0_UNCONSTRAINT') 

# this adds the logsums of the man and the woman to the dataset
df['LS_m'], df['LS_w'] = level0(loaded_parameters, prepare_data_level0(df, year=year), logsum=True)


def level1(params, 
                  df, 
                  pytorch=False, 
                  grad=False, 
                  null_loglik=False, 
                  df_length=False,
                  pareto_weight=False,
                  logsum=False,
                  utility_nestB=False,
                  all_sample=False,
                  year=year):
        v = df["vars"]

        if all_sample:
                idx1 = df["all_idx"]
                idx2 = df["all_idx"]
        else:
                idx1 = df["is_one_car_idx"]
                idx2 = df["is_multi_car_idx"]

        def var(name): return v[name]

        if grad:
                params = params.clone().requires_grad_(True)
        else:
                params = torch.tensor(params, dtype=torch.float64)
    
        (
        sigma_1c_l1, sigma_2c_l1,

        ASC_Cp_m_l1, ASC_Cp_w_l1,
        ASC_Cd_m_l1, ASC_Cd_w_l1,

        ASC_B_w_l1, delta_Ca_w_l1, delta_Cd_w_l1, delta_Cp_w_l1,
        ASC_B_m_l1, delta_Ca_m_l1, delta_Cp_m_l1, delta_Cd_m_l1,

        ) = params

        Xb_Lambda = (torch.tensor(0))

        Lambda = 1 / (1 + torch.exp(-Xb_Lambda))

        Xb_m_OTHERS = (torch.tensor(0))
                       
        Xb_w_OTHERS = (torch.tensor(0))

        Xb_m_CP = (torch.tensor(0))

        Xb_w_CP = (torch.tensor(0))

        Xb_m_CD = (torch.tensor(0))

        Xb_w_CD = (torch.tensor(0))

        # individual vot and utilities:
        VOT_Ca_m = torch.exp(delta_Ca_m_l1)
        
        VOT_Ca_w = torch.exp(delta_Ca_w_l1)

        V_Ca_m = -VOT_Ca_m*var('TT_VP_m')
        V_Ca_w = -VOT_Ca_w*var('TT_VP_w')

        V_Cp_m = (ASC_Cp_m_l1 + Xb_m_CP) - VOT_Ca_m*torch.exp(delta_Cp_m_l1)*var('TT_VP_m') 
        V_Cp_w = (ASC_Cp_w_l1 + Xb_w_CP) - VOT_Ca_w*torch.exp(delta_Cp_w_l1)*var('TT_VP_w') 

        V_Cd_m = (ASC_Cd_m_l1 + Xb_m_CD) - VOT_Ca_m*torch.exp(delta_Cd_m_l1)*var('TT_VP_w') - VOT_Ca_m*var('WOMANtowardsMAN')
        V_Cd_w = (ASC_Cd_w_l1 + Xb_w_CD) - VOT_Ca_w*torch.exp(delta_Cd_w_l1)*var('TT_VP_m') - VOT_Ca_w*var('MANtowardsWOMAN')

        V_B_m = (ASC_B_m_l1 + Xb_m_OTHERS) + var('LS_m')
        V_B_w = (ASC_B_w_l1 + Xb_w_OTHERS) + var('LS_w')

        # Utilitaires collectifs : (extrait)
        V_CaCa = Lambda * V_Ca_w + (1 - Lambda) * V_Ca_m
        V_BB = Lambda * V_B_w + (1 - Lambda) * V_B_m
        V_CaB = Lambda * V_Ca_w + (1 - Lambda) * V_B_m
        V_BCa = Lambda * V_B_w + (1 - Lambda) * V_Ca_m
        V_CdCp = Lambda * V_Cd_w + (1 - Lambda) * V_Cp_m
        V_CpCd = Lambda * V_Cp_w + (1 - Lambda) * V_Cd_m

        # -------- One-car probabilities
        V_1c_stack = torch.stack([
                V_BB[idx1] / sigma_1c_l1,
                V_CaB[idx1] / sigma_1c_l1,
                V_BCa[idx1] / sigma_1c_l1,
                V_CdCp[idx1] / sigma_1c_l1,
                V_CpCd[idx1] / sigma_1c_l1
        ], dim=1)
        max_V_1c = V_1c_stack.max()
        exp_V_1c = torch.exp(V_1c_stack - max_V_1c)
        sum_exp_1c = exp_V_1c.sum(dim=1)

        P_BB_1c, P_CaB_1c, P_BCa_1c, P_CdCp_1c, P_CpCd_1c = exp_V_1c.T / sum_exp_1c

        # -------- Two-car probabilities
        V_2c_stack = torch.stack([
                V_CaCa[idx2] / sigma_2c_l1,
                V_BB[idx2] / sigma_2c_l1,
                V_CaB[idx2] / sigma_2c_l1,
                V_BCa[idx2] / sigma_2c_l1,
                V_CdCp[idx2] / sigma_2c_l1,
                V_CpCd[idx2] / sigma_2c_l1
        ], dim=1)
        max_V_2c = V_2c_stack.max()
        exp_V_2c = torch.exp(V_2c_stack - max_V_2c)
        sum_exp_2c = exp_V_2c.sum(dim=1)

        P_CaCa_2c, P_BB_2c, P_CaB_2c, P_BCa_2c, P_CdCp_2c, P_CpCd_2c = exp_V_2c.T / sum_exp_2c

        # -------- Choices
        choices = df['df']

        if year>2016:
                Choice_CC = ((choices['TRANS_w'] == 5) & (choices['TRANS_m'] == 5)).to_numpy().astype(float)
                Choice_BB = ((choices['TRANS_w'].isin([2, 3, 4, 6])) & (choices['TRANS_m'].isin([2, 3, 4, 6]))).to_numpy().astype(float)
                Choice_CaB = ((choices['TRANS_w'] == 5) & (choices['TRANS_m'].isin([2, 3, 4, 6]))).to_numpy().astype(float)
                Choice_BCa = ((choices['TRANS_w'].isin([2, 3, 4, 6])) & (choices['TRANS_m'] == 5)).to_numpy().astype(float)
        else:
                Choice_CC = ((choices['TRANS_w'] == 4) & (choices['TRANS_m'] == 4)).to_numpy().astype(float)
                Choice_BB = ((choices['TRANS_w'].isin([2, 3, 5])) & (choices['TRANS_m'].isin([2, 3, 5]))).to_numpy().astype(float)
                Choice_CaB = ((choices['TRANS_w'] == 4) & (choices['TRANS_m'].isin([2, 3, 5]))).to_numpy().astype(float)
                Choice_BCa = ((choices['TRANS_w'].isin([2, 3, 5])) & (choices['TRANS_m'] == 4)).to_numpy().astype(float)


        w_1c = var('WEIGHT_hh')
        w_1c = w_1c[idx1]
        w_2c = var('WEIGHT_hh')
        w_2c = w_2c[idx2]

        epsilon = 1e-30

        LL_1c = (
        torch.sum(w_1c * torch.tensor(Choice_CC)[idx1] * torch.log(torch.clamp(P_CdCp_1c + P_CpCd_1c, min=epsilon))) +
        torch.sum(w_1c * torch.tensor(Choice_BB)[idx1] * torch.log(torch.clamp(P_BB_1c, min=epsilon))) +
        torch.sum(w_1c * torch.tensor(Choice_CaB)[idx1] * torch.log(torch.clamp(P_CaB_1c, min=epsilon))) +
        torch.sum(w_1c * torch.tensor(Choice_BCa)[idx1] * torch.log(torch.clamp(P_BCa_1c, min=epsilon)))
        )

        LL_2c = (
        torch.sum(w_2c * torch.tensor(Choice_CC)[idx2] * torch.log(torch.clamp(P_CaCa_2c + P_CdCp_2c + P_CpCd_2c, min=epsilon))) +
        torch.sum(w_2c * torch.tensor(Choice_BB)[idx2] * torch.log(torch.clamp(P_BB_2c, min=epsilon))) +
        torch.sum(w_2c * torch.tensor(Choice_CaB)[idx2] * torch.log(torch.clamp(P_CaB_2c, min=epsilon))) +
        torch.sum(w_2c * torch.tensor(Choice_BCa)[idx2] * torch.log(torch.clamp(P_BCa_2c, min=epsilon)))
        )

        if pytorch:
                return -(LL_1c + LL_2c)
        if df_length:
                return len(V_B_w)
        
        if not pytorch and null_loglik:
                n_1c = len(idx1)
                n_2c = len(idx2)

                if year>2016:
                        Choice_CC = torch.tensor(((choices['TRANS_w'] == 5) & (choices['TRANS_m'] == 5)).astype(float).values)
                        Choice_BB = torch.tensor(((choices['TRANS_w'].isin([2, 3, 4, 6])) & (choices['TRANS_m'].isin([2, 3, 4, 6]))).astype(float).values)
                        Choice_CaB = torch.tensor(((choices['TRANS_w'] == 5) & (choices['TRANS_m'].isin([2, 3, 4, 6]))).astype(float).values)
                        Choice_BCa = torch.tensor(((choices['TRANS_w'].isin([2, 3, 4, 6])) & (choices['TRANS_m'] == 5)).astype(float).values)
                else:
                        Choice_CC = torch.tensor(((choices['TRANS_w'] == 4) & (choices['TRANS_m'] == 4 )).astype(float).values)
                        Choice_BB = torch.tensor(((choices['TRANS_w'].isin([2, 3, 5])) & (choices['TRANS_m'].isin([2, 3, 5]))).astype(float).values)
                        Choice_CaB = torch.tensor(((choices['TRANS_w'] == 4) & (choices['TRANS_m'].isin([2, 3, 5]))).astype(float).values)
                        Choice_BCa = torch.tensor(((choices['TRANS_w'].isin([2, 3, 5])) & (choices['TRANS_m'] == 4)).astype(float).values)

                Choice_CC_1c, Choice_BB_1c, Choice_CaB_1c, Choice_BCa_1c = (
                Choice_CC[idx1], Choice_BB[idx1], Choice_CaB[idx1], Choice_BCa[idx1])
                Choice_CC_2c, Choice_BB_2c, Choice_CaB_2c, Choice_BCa_2c = (
                Choice_CC[idx2], Choice_BB[idx2], Choice_CaB[idx2], Choice_BCa[idx2])

                # observed shares
                share_CC_1c = torch.sum(Choice_CC_1c) / n_1c
                share_BB_1c = torch.sum(Choice_BB_1c) / n_1c
                share_CaB_1c = torch.sum(Choice_CaB_1c) / n_1c
                share_BCa_1c = torch.sum(Choice_BCa_1c) / n_1c

                share_CC_2c = torch.sum(Choice_CC_2c) / n_2c
                share_BB_2c = torch.sum(Choice_BB_2c) / n_2c
                share_CaB_2c = torch.sum(Choice_CaB_2c) / n_2c
                share_BCa_2c = torch.sum(Choice_BCa_2c) / n_2c

                w_1c = var('WEIGHT_hh')
                w_1c = w_1c[idx1]
                w_2c = var('WEIGHT_hh')
                w_2c = w_2c[idx2]

                null_LL_1c = (
                torch.sum(w_1c * Choice_CC_1c * torch.log(torch.clamp(share_CC_1c, min=epsilon))) +
                torch.sum(w_1c * Choice_BB_1c * torch.log(torch.clamp(share_BB_1c, min=epsilon))) +
                torch.sum(w_1c * Choice_CaB_1c * torch.log(torch.clamp(share_CaB_1c, min=epsilon))) +
                torch.sum(w_1c * Choice_BCa_1c * torch.log(torch.clamp(share_BCa_1c, min=epsilon)))
                )

                null_LL_2c = (
                torch.sum(w_2c * Choice_CC_2c * torch.log(torch.clamp(share_CC_2c, min=epsilon))) +
                torch.sum(w_2c * Choice_BB_2c * torch.log(torch.clamp(share_BB_2c, min=epsilon))) +
                torch.sum(w_2c * Choice_CaB_2c * torch.log(torch.clamp(share_CaB_2c, min=epsilon))) +
                torch.sum(w_2c * Choice_BCa_2c * torch.log(torch.clamp(share_BCa_2c, min=epsilon)))
                )

                return -(null_LL_1c + null_LL_2c)
        
        if pareto_weight:
                return Lambda
        
        if logsum:
                LS_1c = sigma_1c_l1 * torch.log(
                        torch.exp(V_BB/sigma_1c_l1) + torch.exp(V_CaB/sigma_1c_l1) 
                        + torch.exp(V_BCa/sigma_1c_l1) + torch.exp(V_CpCd/sigma_1c_l1) + torch.exp(V_CdCp/sigma_1c_l1)
                )
                LS_2c = sigma_2c_l1 * torch.log(
                        torch.exp(V_CaCa/sigma_2c_l1) + torch.exp(V_BB/sigma_2c_l1) + torch.exp(V_CaB/sigma_2c_l1) 
                        + torch.exp(V_BCa/sigma_2c_l1) + torch.exp(V_CpCd/sigma_2c_l1) + torch.exp(V_CdCp/sigma_2c_l1)
                )
                return (LS_1c).detach().numpy(), (LS_2c).detach().numpy()
        if utility_nestB:
                return V_BB.detach().numpy()
        
        return -(LL_1c + LL_2c).detach().numpy()

In [None]:
summary_level1, parameters_level1 = Optimize(level1, 
         prepare_data_level1(df), 
        #  initial_values='Level1_CONSTRAINT',
         max_iter=5000,
         gtol=1,
         display_results=True)

In [None]:
SaveParameters(level1,
               parameters_level1,
               excel=True,
               data=prepare_data_level1(df),
               file_name='Level1_CONSTRAINT')

# Level 2

In [None]:
loaded_parameters = LoadParameters(
                func=level1, 
                file_name='Level1_UNCONSTRAINT')

df['LS_1c'], df['LS_2c'] = level1(loaded_parameters, prepare_data_level1(df), logsum=True)

def level2(params, 
                  df, 
                  pytorch=False, 
                  grad=False, 
                  null_loglik=False, 
                  df_length=False,
                  logsum=False,
                  all_sample=False):
        v = df["vars"]

        if all_sample:
                idx = df["all_idx"]
        else:
                idx = df["at_least_one_car_idx"]

        def var(name): return v[name]

        if grad:
                params = params.clone().requires_grad_(True)
        else:
                params = torch.tensor(params, dtype=torch.float64)

        (sigma_l2,
        
        ASC_2c_l2) = params

        XB_2c = (torch.tensor(0))
        
        V_1car = var('LS_1c') 
        V_2car = (ASC_2c_l2 + XB_2c + var('LS_2c')) 

        # -------- Probabilities
        V_stack = torch.stack([
                V_1car[idx] / sigma_l2,
                V_2car[idx] / sigma_l2
        ], dim=1)
        max_V = V_stack.max()
        exp_V = torch.exp(V_stack - max_V)
        sum_exp = exp_V.sum(dim=1)

        P_1car, P_2car = exp_V.T / sum_exp

        choice = df['df']
        CHOICE_1CAR = torch.tensor((choice['VOIT'] == 1).astype(int), dtype=torch.float64)
        CHOICE_2CAR = torch.tensor((choice['VOIT'] >= 2).astype(int), dtype=torch.float64)

        w = var('WEIGHT_hh')
        w = w[idx]

        epsilon=1e-30
        LL = (torch.sum(w * CHOICE_1CAR[idx] * torch.log(torch.clamp(P_1car, min=epsilon))) +
          torch.sum(w * CHOICE_2CAR[idx] * torch.log(torch.clamp(P_2car, min=epsilon))))
        
        if pytorch:
                return -LL
        
        if null_loglik:
                null_LL = (torch.sum(w * CHOICE_1CAR[idx] * torch.log(torch.sum(CHOICE_1CAR[idx])/len(idx)))
                        + torch.sum(w * CHOICE_2CAR[idx] * torch.log(torch.sum(CHOICE_2CAR[idx])/len(idx))))
                return -null_LL
        
        if df_length:
                return len(idx)
        
        if logsum:
                LS_level2 = sigma_l2 * torch.log(
                        torch.exp(V_1car/sigma_l2) + torch.exp(V_2car/sigma_l2)
                )
                return (LS_level2).detach().numpy()
        
        return (-LL).detach().numpy()

In [None]:
summary_level2, parameters_level2 = Optimize(level2, 
        prepare_data_level2(df), 
        #  initial_values='Level2_CONSTRAINT',
        max_iter=5000,
        gtol=1,
        display_results=True)

In [None]:
SaveParameters(level2,
               parameters_level2,
               excel=True,
               data=prepare_data_level2(df),
               file_name='Level2_CONSTRAINT')

# Level 3

In [None]:
loaded_parameters = LoadParameters(
                func=level2, 
                file_name='Level2_UNCONSTRAINT')

df['LS_car'] = level2(loaded_parameters, prepare_data_level2(df), logsum=True)

loaded_parameters = LoadParameters(
                func=level1, 
                file_name='Level1_UNCONSTRAINT')

df['V_BB'] = level1(loaded_parameters, prepare_data_level1(df), utility_nestB=True)

def level3(params, 
                df, 
                pytorch=False, 
                grad=False, 
                null_loglik=False, 
                df_length=False,
                logsum=False):
        v = df["vars"]

        def var(name): return v[name]

        if grad:
                params = params.clone().requires_grad_(True)
        else:
                params = torch.tensor(params, dtype=torch.float64)

        (sigma_l3,

        ASC_car_l3) = params

        XB_car = (torch.tensor(0))

        V_NoCar = var('V_BB') 
        V_Car = ASC_car_l3 + XB_car + var('LS_car')

        V_stack = torch.stack([
                V_NoCar/sigma_l3, 
                V_Car/sigma_l3], dim=1)
        max_V = V_stack.max()
        exp_V = torch.exp(V_stack - max_V)
        sum_exp = exp_V.sum(dim=1)

        P_NoCar, P_Car = exp_V.T / sum_exp

        choice = df['df']
        CHOICE_NOCAR = torch.tensor((choice['VOIT'] == 0).astype(int), dtype=torch.float64)
        CHOICE_CAR = torch.tensor((choice['VOIT'] >= 1).astype(int), dtype=torch.float64)

        epsilon=1e-30
        w = var('WEIGHT_hh')

        LL = (torch.sum(w * CHOICE_NOCAR * torch.log(torch.clamp(P_NoCar, min=epsilon))) +
                torch.sum(w * CHOICE_CAR * torch.log(torch.clamp(P_Car, min=epsilon))))

        if pytorch:
                return -LL

        if null_loglik:
                null_LL = (torch.sum(w * CHOICE_NOCAR * torch.log(torch.sum(CHOICE_NOCAR)/len(CHOICE_NOCAR)))
                        + torch.sum(w * CHOICE_CAR * torch.log(torch.sum(CHOICE_CAR)/len(CHOICE_CAR))))
                return -null_LL

        if df_length:
                return len(df['df'])

        if logsum:
                LS_level3 = sigma_l3 * torch.log(
                torch.exp(V_NoCar/sigma_l3) + torch.exp(V_Car/sigma_l3)
                )
                return (LS_level3).detach().numpy()

        return (-LL).detach().numpy()

In [None]:
summary_level3, parameters_level3 = Optimize(level3, 
         prepare_data_level3(df), 
        #  initial_values='Level3_CONSTRAINT',
         display_results=True)

In [None]:
SaveParameters(level3,
               parameters_level3,
               excel=True,
               data=prepare_data_level3(df),
               file_name='Level3_CONSTRAINT')

# Simultaneous estimation 

In [None]:
def SimultaneousNestLogitModel(params_all, df, null_loglik=False, pytorch=False, grad=False):

    # here we need the lenght of the parameters of each level (except the last one)
    p0 = len(LoadParameters(level0, 'Level0_UNCONSTRAINT'))
    p1 = len(LoadParameters(level1, 'Level1_UNCONSTRAINT'))
    p2 = len(LoadParameters(level2, 'Level2_UNCONSTRAINT'))

    params0 = params_all[:p0]
    params1 = params_all[p0:p0+p1]
    params2 = params_all[p0+p1:p0+p1+p2]
    params3 = params_all[p0+p1+p2:]

    df0 = prepare_data_level0(df)
    LS_m, LS_w = level0(params0, df0, logsum=True, all_sample=True)

    df['LS_m'] = LS_m
    df['LS_w'] = LS_w

    df1 = prepare_data_level1(df)
    LS_1c, LS_2c = level1(params1, df1, logsum=True, all_sample=True)
    V_BB = level1(params1, df1, utility_nestB=True, all_sample=True)

    df['LS_1c'] = LS_1c
    df['LS_2c'] = LS_2c

    df2 = prepare_data_level2(df)
    LS_car = level2(params2, df2, logsum=True, all_sample=True)

    df['LS_car'] = LS_car
    df['V_BB'] = V_BB

    df3 = prepare_data_level3(df)

    LL0 = level0(params0, df0, all_sample=True, pytorch=True, grad=grad)
    LL1 = level1(params1, df1, all_sample=True, pytorch=True, grad=grad)
    LL2 = level2(params2, df2, all_sample=True, pytorch=True, grad=grad)
    LL3 = level3(params3, df3, pytorch=True, grad=grad)

    total_LL = LL0 + LL1 + LL2 + LL3  

    if null_loglik:
        LL0 = level0(params0, df0, all_sample=True, pytorch=True, grad=grad, null_loglik=True)
        LL1 = level1(params1, df1, all_sample=True, pytorch=True, grad=grad, null_loglik=True)
        LL2 = level2(params2, df2, all_sample=True, pytorch=True, grad=grad, null_loglik=True)
        LL3 = level3(params3, df3, pytorch=True, grad=grad, null_loglik=True)

        total_LL = LL0 + LL1 + LL2 + LL3  

    return total_LL if pytorch else total_LL.detach().numpy()

### Mandatory :

- You have to start the simultaneous estimation by using the parameters that you estimated independently on each level 
- This model is highly non-linear, which means that if you start by random values, it will almost never converge and will stay stuck in a local optima 
- Also, starting with those *independetly estimated parameters* will save you a lot of time in terms of computation 

In [None]:
# start from independent estimated parameters
all_params = torch.cat([
    LoadParameters(level0, 'Level0_UNCONSTRAINT'),
    LoadParameters(level1, 'Level1_UNCONSTRAINT'),
    LoadParameters(level2, 'Level2_UNCONSTRAINT'),
    LoadParameters(level3, 'Level3_UNCONSTRAINT')
])

In [None]:
# If you want to start from your simultaneously estimated parameters 
# But they have to be estimated first, and then saved 
joint_parameters = JointLoadParameters(
    file_name='Joint_UNCONSTRAINT',
    level0=level0,
    level1=level1,
    level2=level2,
    level3=level3
)

In [None]:
parameters = JointOptimize(
    func=SimultaneousNestLogitModel, 
    data=df, 
    initial_values=all_params, # start from independent estimated parameters
    gtol=1,
    max_iter=5000)

In [None]:
# This will compute the summary table (can take some time because the model is big)
# between 1 and 2min usually
table = JointDisplayResults(
               func=SimultaneousNestLogitModel,
               params=parameters,
               data=df,
               level0=level0,
               level1=level1,
               level2=level2,
               level3=level3)

In [None]:
JointSaveParameters(params=parameters,
                    level0=level0,
                    level1=level1,
                    level2=level2,
                    level3=level3,
                    table=table,
                    excel=True,
                    file_name='Joint_UNCONSTRAINT')