# 💡 ATTRIBUTE BASE TRANSLATION & AGGREGATION
---

## 📌 Overview
This notebook processes the **attribute base** for NLP extraction by translating and organizing attributes into **aggregate categories**, merging detailed dictionaries, and exporting a unified mapping for further analysis.


## 📦 Setup: Import Libraries & Load Data
This cell imports necessary Python libraries, defines project paths, and loads the raw attribute expressions dataset.


In [1]:
# Import library
import pandas as pd
from pathlib import Path

# ===============================
# DEFINE PROJECT PATHS
# ===============================
project_root = Path().resolve().parent

# Input and output paths
file = project_root / "data" / "expressions.xlsx"
# Import dataset expression
df = pd.read_excel(file)

## 🔧 Define Aggregate Category Translations
Map English aggregate categories to contextually accurate French terms for grouping attributes.


In [2]:
# ===============================
# AGGREGATE CATEGORIES
# ===============================

# Dictionary mapping English aggregate categories to contextually accurate French terms
agg_category_translation = {
    'Compensation Scheme': 'Régime de rémunération',
    'Financial Attributes': 'Attributs financiers',
    'Career Opportunities': 'Opportunités de carrière',
    'Hours of Work': 'Heures de travail',
    'Convenient Hours': 'Horaires avantageux',
    'Inconvenient Hours': 'Horaires contraignants',
    'Contract Duration': 'Durée du contrat',
    'Workplace Attributes': 'Attributs du lieu de travail',
    'Task-Related Attributes': 'Attributs liés aux tâches',
    'Minor Perks': 'Avantages mineurs',
}

# Applying the mapping to your DataFrame
df['aggregate_category_fr'] = df['aggregate_category'].map(agg_category_translation)

# ===============================
# ATTRIBUTE CATEGORIES
# ===============================

# Dictionary mapping English attribute categories to contextually accurate French terms
attribute_category_translation = {
    'Compensation Level': 'Niveau de rémunération',
    'Competitive Pay': 'Salaire compétitif',
    'Collective Agreement Pay': 'Salaire selon convention collective',
    'Incentive Pay Scheme': 'Système de rémunération incitative',
    'Hiring Bonus': 'Prime à l’embauche',
    'Good Overtime Pay': 'Bonne rémunération des heures supplémentaires',
    'Any Other Mention of Pay': 'Toute autre mention de salaire',
    'Pension Scheme': 'Régime de retraite',
    'Insurance Scheme': 'Régime d’assurance',
    'Mortgage Possibility': 'Possibilité d’emprunt immobilier',
    'Good Career Paths': 'Bonnes perspectives de carrière',
    'On-the-Job Training': 'Formation en cours d’emploi',
    'Full-time Contract': 'Contrat à temps plein',
    'Part-time Contract': 'Contrat à temps partiel',
    'Full-time/Part-time Choice': 'Choix entre temps plein et temps partiel',
    'Possibility to Work Flexible Hours': 'Possibilité d’horaires flexibles',
    'Regular Daytime Work Schedule': 'Horaire de travail de jour régulier',
    'Exempt from Work Hour Regulations': 'Exemption des réglementations sur le temps de travail',
    'Shift Work': 'Travail par postes',
    'Weekend/Evening/Night Work': 'Travail le week-end/soir/nuit',
    'On-call Employment': 'Emploi sur appel',
    'Overtime Work Required': 'Heures supplémentaires requises',
    'Permanent Job': 'Emploi permanent',
    'Temporary Job': 'Emploi temporaire',
    'Fixed-term Contract': 'Contrat à durée déterminée',
    'Social Environment': 'Environnement social',
    'Good Colleagues': 'Bons collègues',
    'Possibility for Remote Work': 'Possibilité de télétravail',
    'Shared Office Space': 'Espace de bureau partagé',
    'Inclusive Work-life Scheme': 'Programme d’inclusion travail-vie personnelle',
    'Interesting Tasks': 'Tâches intéressantes',
    'Challenging Tasks': 'Tâches stimulantes',
    'Variation in Tasks': 'Variété des tâches',
    'Responsibility in Job': 'Responsabilités dans le poste',
    'Independence in Performing Tasks': 'Autonomie dans l’exécution des tâches',
    'Involves Leadership Responsibility': 'Responsabilité de leadership incluse',
    'Work Involves Travelling': 'Travail impliquant des déplacements',
    'Beautiful Location': 'Bel emplacement',
    'Central Location': 'Emplacement central',
    'Company Gym or Sports Team': 'Salle de sport ou équipe sportive de l’entreprise',
    'Parking Space On Premises': 'Place de parking sur site',
    'Company Vehicle': 'Véhicule de fonction',
    'Any Welfare Scheme': 'Tout programme de bien-être',
    'Company Cabin': 'Chalet d’entreprise',
    'Occupational Health Service': 'Service de santé au travail',
    'Company Canteen': 'Cantine d’entreprise',
    'Flexible/Extended Holidays': 'Congés flexibles/étendus',
}

# Applying the mapping to your DataFrame
df['attribute_category_fr'] = df['attribute_category'].map(attribute_category_translation)

# ===============================
# SELECT AGGREGATED + ATTRIBUTE CATEGORY
# ===============================

df = df[["aggregate_category_fr", "attribute_category_fr"]]
df.drop_duplicates(subset=["aggregate_category_fr", "attribute_category_fr"], inplace=True)
df.dropna(subset="attribute_category_fr", inplace=True)


## 📚Translation & Enrichment Method 

**Objective:**  
Provide a dictionary of attributes (contract type, work environment, tasks, benefits…) for NLP extraction from French job postings.

**Approach:**  
- Idiomatic translation and contextual adaptation of an English base via ChatGPT 🤖  
- Validation and enrichment using real examples from apec.fr, pole-emploi.fr, and hellowork.com 🌐  
- Addition of standalone keywords and synonym variants to optimize pattern matching 🔍  
- Filtering out irrelevant expressions 🗑️

📝 **Prompt used:**  
> “Here is a list of English expressions related to an HR attribute (e.g., salary, benefits, job content). Translate them into French idiomatically and in context, based on the real formulations used in job postings on apec.fr, pole-emploi.fr, and hellowork.com. Add variants and standalone keywords useful for NLP extraction, and remove anything that is not relevant.”

In [3]:

# ===============================
# Categorie - Régime de rémunération
# ===============================

dictionnaire_remuneration = {
    'Bonne rémunération des heures supplémentaires': [
        'heures supplémentaires payées',
        'paiement des heures supplémentaires',
        'rémunération des heures supplémentaires',
        'heures supplémentaires rémunérées',
        'majoration heures supplémentaires',
        'majoration pour heures supp',
        'heures supp majorées',
        'compensation heures supplémentaires',
        'heures sup',
        'heures en plus rémunérées'
    ],
    'Niveau de rémunération': [
        'salaire horaire',
        'salaire mensuel',
        'rémunération mensuelle',
        'rémunération annuelle',
        'taux horaire',
        'taux de rémunération',
        'rémunération brute',
        'rémunération nette',
        'salaire brut',
        'salaire net',
        'salaire de base',
        'salaire fixe',
        'niveau de salaire',
        'échelle salariale',
        'barème de rémunération',
        'grille salariale',
        'fourchette salariale',
        'rémunération selon profil',
        'rémunération selon expérience',
        'rémunération attractive'
    ],
    'Prime à l’embauche': [
        'prime d’embauche',
        'prime de bienvenue',
        'prime à l’arrivée',
        'prime de recrutement',
        'bonus de recrutement',
        'bonus à l’embauche',
        'prime d’intégration',
        'prime exceptionnelle d’entrée',
        'bonus d’intégration',
        'prime de démarrage',
        'avantage à l’embauche'
    ],
    'Salaire compétitif': [
        'salaire compétitif',
        'salaire avantageux',
        'salaire motivant',
        'rémunération attractive',
        'rémunération concurrentielle',
        'package compétitif',
        'rémunération supérieure au marché',
        'rémunération stimulante',
        'rémunération valorisante',
        'conditions salariales attractives',
        'rémunération intéressante',
        'salaire évolutif',
        'salaire négociable'
    ],
    'Salaire selon convention collective': [
        'salaire selon convention collective',
        'barème conventionnel',
        'grille de la convention collective',
        'salaire conventionné',
        'rémunération selon accords collectifs',
        'rémunération encadrée par convention',
        'salaire fixé par convention',
        'grille salariale conventionnelle'
    ],
    'Système de rémunération incitative': [
        'rémunération variable',
        'prime sur objectifs',
        'bonus de performance',
        'primes de performance',
        'rémunération à la commission',
        'rémunération liée aux résultats',
        'rémunération au mérite',
        'plan de commissionnement',
        'stock-options',
        'primes exceptionnelles',
        'bonus annuel',
        'système de primes',
        'rémunération incitative',
        'système de rémunération au rendement'
    ],
    'Toute autre mention de salaire': [
        'rémunération fixe',
        'rémunération globale',
        'salaire global',
        'package de rémunération',
        'structure salariale',
        'compléments de salaire',
        'primes diverses',
        'avantages en nature',
        'avantages salariaux',
        '13e mois',
        'prime de 13e mois',
        'salaire à négocier',
        'salaire selon expérience',
        'salaire selon compétences',
        'éléments variables de paie',
        'éléments fixes de rémunération',
        'paie mensuelle',
        'salaire versé'
    ]
}


# ===============================
# df["aggregate_category"] == "Attributs financiers"
# ===============================

attributs_financiers = {
    'Possibilité d’emprunt immobilier': [
        'prêt immobilier avantageux',
        'prêt à taux réduit',
        'aide à l’accession à la propriété',
        'prêt employeur',
        'prêt à taux zéro',
        'prêt logement',
        'conditions de prêt favorables',
        'facilité de crédit immobilier',
        'crédit à l’habitat',
        'offre de financement logement',
        'soutien à l’achat immobilier'
    ],
    'Régime de retraite': [
        'régime de retraite complémentaire',
        'plan d’épargne retraite',
        'retraite entreprise',
        'cotisations retraite',
        'dispositif retraite',
        'caisse de retraite',
        'régime de retraite collectif',
        'retraite supplémentaire',
        'régime de retraite obligatoire',
        'complément de retraite',
        'bénéfice d’un système de retraite',
        'prise en charge retraite',
        'capital retraite',
        'rente retraite'
    ],
    'Régime d’assurance': [
        'mutuelle d’entreprise',
        'mutuelle santé',
        'complémentaire santé',
        'assurance prévoyance',
        'protection sociale complémentaire',
        'assurance décès',
        'assurance invalidité',
        'assurance santé',
        'prise en charge de la mutuelle',
        'adhésion à la mutuelle',
        'garantie incapacité de travail',
        'assurance accidents de la vie',
        'assurance collective',
        'prévention santé',
        'prévoyance collective',
        'assurance complémentaire',
        'forfait santé',
        'protection sociale'
    ]
}

# ===============================
# Categorie - Opportunités de carrière
# ===============================

regime_de_remuneration = {
    'Bonnes perspectives de carrière': [
        'opportunités de carrière',
        'possibilité d’évolution',
        'évolution de carrière',
        'évolution professionnelle',
        'plan de carrière',
        'promotion',
        'promotion interne',
        'cheminement de carrière',
        'perspectives d’évolution',
        'perspectives professionnelles',
        'avancement professionnel',
        'mobilité interne',
        'parcours évolutif',
        'développement de carrière',
        'accès à des postes à responsabilités',
        'perspectives d’avancement',
        'possibilité de promotion',
        'croissance professionnelle',
        'faire carrière',
        'futur poste',
        'carrière évolutive',
        'projets professionnels'
    ],
    'Formation en cours d’emploi': [
        'formation continue',
        'formation en interne',
        'formation sur le poste',
        'formation sur le tas',
        'formation en entreprise',
        'développement des compétences',
        'montée en compétences',
        'formation professionnelle',
        'perfectionnement',
        'apprentissage',
        'apprentissage en alternance',
        'alternance',
        'stage de formation',
        'formation qualifiante',
        'formation certifiante',
        'formation diplômante',
        'séminaire',
        'programme de formation',
        'parcours de formation',
        'plan de formation',
        'ateliers de formation',
        'sessions de formation',
        'accompagnement formation',
        'coaching',
        'tutorat',
        'mentorat',
        'éducation permanente',
        'formations en ligne',
        'MOOC',
        'évolution des compétences',
        'accès à la formation',
        'droit à la formation',
        'formations régulières',
        'formation tout au long de la vie',
        'bilan de compétences',
        'formation continue offerte',
        'formation financée',
        'développement professionnel',
        'renforcement des compétences'
    ]
}

# ===============================
# Categorie - Heures de travail
# ===============================
heures_de_travail = {
    'Choix entre temps plein et temps partiel': [
        'temps plein ou temps partiel',
        'temps partiel ou temps plein',
        'temps plein/temps partiel',
        'temps partiel/temps plein',
        'temps plein ou partiel',
        'temps partiel ou plein',
        'plein ou partiel',
        'partiel ou plein',
        'TP/TT',
        'temps plein ou temps partiel au choix',
        'poste à temps plein ou partiel',
        'possibilité temps plein/partiel',
        'temps de travail ajustable',
        'contrat en temps plein ou partiel',
        'choix du temps de travail'
    ],

    'Contrat à temps partiel': [
        'temps partiel',
        'mi-temps',
        'TP'
    ],

    'Contrat à temps plein': [
        'temps plein',
        'temps complet',
        'plein temps',
        'temps complet'
    ]
}

# ===============================
# Categorie - Horaires avantageux
# ===============================

horaires_avantageux = {
    'Exemption des réglementations sur le temps de travail': [
        'cadre dirigeant',
        'poste de direction',
        'statut cadre',
        'fonction de management',
        'poste à responsabilité',
        'exonération des règles sur le temps de travail',
        'non soumis aux horaires collectifs',
        'autonomie dans l’organisation du travail',
        'contrat forfait jours',
        'régime forfaitaire',
        'poste indépendant',
        'responsable de service',
        'directeur de département',
        'chef d’équipe',
        'manager'
    ],
    'Horaire de travail de jour régulier': [
        'horaires fixes',
        'horaires de bureau',
        'travail en journée',
        'horaires réguliers',
        '9h-17h',
        '8h-16h',
        'heures de travail standards',
        'emploi du temps stable',
        'temps de travail constant',
        'planning fixe',
        'horaire continu',
        'horaire stable',
        'horaire classique',
        'horaire normal',
        'horaire habituel',
        'horaire traditionnel'
    ],
    'Possibilité d’horaires flexibles': [
        'horaires flexibles',
        'flexibilité horaire',
        'aménagement du temps de travail',
        'travail en horaires aménagés',
        'possibilité de télétravail',
        'gestion autonome des horaires',
        'plages horaires variables',
        'travail en horaires décalés',
        'modulation du temps de travail',
        'temps de travail adaptable',
        'horaire personnalisé',
        'horaire modulable',
        'horaire souple',
        'horaire ajustable',
        'horaire à la carte',
        'horaire libre',
        'horaire variable',
        'horaire aménageable'
    ]
}

# ===============================
# Categorie - Horaires contraignants
# ===============================

horaires_contraignants = {

    'Emploi sur appel': [
        'travail sur appel',
        'emploi sur demande',
        'poste en astreinte',
        'astreinte',
        'appel ponctuel',
        'intervention à la demande',
        'contrat d’intervention',
        'vacation ponctuelle',
        'mission ponctuelle',
        'travail ponctuel',
        'travail occasionnel',
        'emploi temporaire à la demande',
        'disponibilité immédiate requise',
        'renfort à la demande',
        'besoin urgent ponctuel',
        'remplacement au pied levé',
        'postes vacataires',
        'job à la tâche',
        'job sur appel'
    ],

    'Heures supplémentaires requises': [
        'heures supplémentaires requises',
        'heures supp obligatoires',
        'possibilité d’heures supplémentaires',
        'prévoir heures supplémentaires',
        'disponibilité en dehors des horaires',
        'travail au-delà du contrat',
        'travail au-delà du temps de travail légal',
        'horaires étendus',
        'travail prolongé',
        'dépassement horaire possible',
        'flexibilité horaire demandée',
        'heures complémentaires',
        'heures supplémentaires régulières',
        'obligation d’assurer des heures en plus',
        'besoin de disponibilité horaire accrue'
    ],

    'Travail le week-end/soir/nuit': [
        'travail le week-end',
        'travail de nuit',
        'travail en soirée',
        'travail en horaires décalés',
        'poste en horaires atypiques',
        'travail les samedis',
        'travail les dimanches',
        'poste avec travail dominical',
        'emploi de nuit',
        'horaires fractionnés',
        'temps de travail en soirée',
        'horaires en fin de journée',
        'poste nocturne',
        'présence en soirée requise',
        'travail en horaires étendus',
        'travail les jours fériés',
        'astreintes week-end',
        'travail soir/nuit/week-end',
        'rotation jour/nuit',
        'plages horaires étendues',
        'emploi avec contraintes horaires'
    ],

    'Travail par postes': [
        'travail en 3x8',
        'travail en 2x8',
        'poste en rotation',
        'travail posté',
        'travail en équipe tournante',
        'poste en roulement',
        'travail en horaires alternés',
        'cycle de travail posté',
        'horaires en rotation',
        'rotation d’équipe',
        'horaires cycliques',
        'poste en faction',
        'travail en quart',
        'planning tournant',
        'travail en shift',
        'emploi en horaires fractionnés',
        'travail en alternance horaire',
        'horaire posté',
        'travail à horaires variables',
        'poste à roulement continu',
        'poste en service continu'
    ]
}

# ===============================
# Categorie - Durée du contrat
# ===============================
duree_contrat = {
    'Contrat à durée déterminée': [
        'CDD',
        'contrat temporaire',
        'contrat de travail à durée déterminée',
        'mission temporaire',
        'emploi temporaire',
        'poste temporaire',
        'contrat saisonnier',
        'contrat de remplacement',
        'contrat à terme',
        'contrat à durée limitée',
        'engagement à durée déterminée',
        'contrat de mission',
        'contrat pour besoin occasionnel',
        'contrat de travail temporaire',
        'contrat intérimaire'
    ],
    'Emploi permanent': [
        'CDI',
        'contrat à durée indéterminée',
        'poste fixe',
        'emploi stable',
        'contrat permanent',
        'engagement à durée indéterminée',
        'poste à durée indéterminée',
        'contrat sans terme précis',
        'emploi à long terme',
        'contrat pérenne',
        'poste pérenne',
        'contrat de travail à durée indéterminée',
        'emploi à durée indéterminée',
        'poste stable'
    ],
    'Emploi temporaire': [
        'intérim',
        'travail temporaire',
        'mission d’intérim',
        'poste intérimaire',
        'contrat d’intérim',
        'emploi intérimaire',
        'travail en intérim',
        'contrat de travail temporaire',
        'mission ponctuelle',
        'contrat de courte durée',
        'emploi à durée limitée',
        'poste temporaire',
        'contrat saisonnier',
        'contrat de vacation',
        'emploi de remplacement'
    ]
}

# ===============================
# Categorie - Attributs du lieu de travail
# ===============================

environnement_de_travail = {

    'Bons collègues': [
        'collègues bienveillants',
        'collègues sympathiques',
        'collègues agréables',
        'collègues motivés',
        'collègues dynamiques',
        'collègues compétents',
        'collègues expérimentés',
        'collègues engagés',
        'collègues passionnés',
        'collègues solidaires',
        'collègues à l’écoute',
        'équipe soudée',
        'équipe bienveillante',
        'équipe collaborative',
        'bonne ambiance d’équipe',
        'travailler avec des collègues motivés',
        'esprit d’équipe',
        'cohésion d’équipe',
        'équipe accueillante',
        'relations humaines de qualité',
        'équipe à taille humaine',
        'équipe professionnelle',
        'collaboration entre pairs',
        'climat d’entraide',
        'bonne entente entre collègues',
        'entraide entre collaborateurs',
        'équipe solidaire'
    ],

    'Environnement social': [
        'bonne ambiance de travail',
        'environnement de travail agréable',
        'cadre de travail convivial',
        'cadre de travail bienveillant',
        'climat social positif',
        'ambiance conviviale',
        'milieu de travail stimulant',
        'cadre professionnel motivant',
        'ambiance sereine',
        'esprit d’entreprise familial',
        'climat humain',
        'relations bienveillantes',
        'qualité de vie au travail',
        'environnement chaleureux',
        'ambiance détendue',
        'espace de travail agréable',
        'cadre social valorisant',
        'environnement respectueux',
        'bonne dynamique d’équipe',
        'culture d’entreprise humaine',
        'cadre de travail stimulant',
        'esprit d’entreprise positif',
        'ambiance professionnelle agréable',
        'bon climat interne'
    ],

    'Espace de bureau partagé': [
        'open space',
        'bureaux en open-space',
        'espace de travail partagé',
        'bureaux collectifs',
        'bureaux ouverts',
        'plateau partagé',
        'travail en espace commun',
        'environnement open-space',
        'poste en espace ouvert',
        'open space convivial',
        'bureaux à partager',
        'espace de coworking'
    ],

    'Possibilité de télétravail': [
        'télétravail possible',
        'jours de télétravail',
        'travail à distance',
        'home office',
        'mode de travail hybride',
        'présentiel et télétravail',
        'flexibilité du lieu de travail',
        'télétravail partiel',
        'travail en distanciel',
        'travail depuis chez soi',
        'organisation hybride',
        'possibilité de remote',
        'modalités de télétravail',
        'politique de télétravail',
        'télétravail ponctuel',
        'jusqu’à 3 jours de télétravail',
        'environnement flexible',
        'télétravail régulier',
        'présentiel / distanciel'
    ],

    'Programme d’inclusion travail-vie personnelle': [
        'équilibre vie professionnelle / vie personnelle',
        'équilibre vie pro / vie perso',
        'conciliation vie professionnelle et vie privée',
        'respect de la vie personnelle',
        'aménagement du temps de travail',
        'souplesse horaire',
        'conditions de travail flexibles',
        'QVT',
        'qualité de vie au travail',
        'horaires aménageables',
        'souplesse organisationnelle',
        'prise en compte de la vie personnelle',
        'bien-être au travail',
        'engagement QVT',
        'cadre de travail équilibré',
        'flexibilité professionnelle',
        'politique de conciliation',
        'rythme de travail adapté',
        'attention portée au bien-être',
        'temps de travail adapté aux besoins',
        'organisation compatible vie familiale',
        'environnement respectueux de la vie privée',
        'démarche RSE et inclusion',
        'cadre favorable à l’épanouissement personnel'
    ]
}

# ===============================
# Categorie - Attributs liés aux tâches
# ===============================

taches = {

    'Autonomie dans l’exécution des tâches': [
        'autonomie',
        'autonome',
        'indépendance',
        'liberté d’organisation',
        'auto-organisation',
        'gestion autonome',
        'autonomie professionnelle',
        'autonomie dans le poste',
        'capacité d’initiative',
        'prise d’initiative',
        'organisation personnelle',
        'autogestion',
        'liberté d’action',
        'autonomie dans les missions',
        'travail sans supervision directe'
    ],

    'Responsabilité de leadership incluse': [
        'poste de direction',
        'responsabilités managériales',
        'gestion d’équipe',
        'leadership',
        'supervision d’équipe',
        'rôle de manager',
        'responsable de service',
        'encadrement de personnel',
        'direction de projet',
        'fonction de chef d’équipe',
        'responsable hiérarchique',
        'gestion des ressources humaines',
        'coordination d’équipe',
        'responsable opérationnel',
        'management stratégique'
    ],

    'Responsabilités dans le poste': [
        'responsabilités',
        'responsable',
        'responsabilité',
        'prise en charge',
        'autonomie décisionnelle',
        'responsabilités étendues',
        'gestion de projet',
        'pilotage',
        'responsabilité globale',
        'autonomie de décision',
        'poste à responsabilité',
        'mission de confiance',
        'fonction stratégique'
    ],

    'Travail impliquant des déplacements': [
        'déplacements',
        'mobilité',
        'voyages',
        'nomade',
        'terrain',
        'itinérant',
        'permis B exigé',
        'déplacements fréquents',
        'mobilité nationale',
        'mobilité internationale',
        'déplacements ponctuels',
        'présence terrain',
        'déplacements professionnels',
        'mobilité requise',
        'tournées'
    ],

    'Tâches intéressantes': [
        'intéressant',
        'intéressantes',
        'stimulant',
        'valorisant',
        'passionnant',
        'inspirant',
        'épanouissant',
        'varié et enrichissant',
        'projets motivants',
        'activités captivantes',
        'missions valorisantes',
        'enjeu motivant',
        'contenu riche',
        'travail porteur de sens',
        'métier utile'
    ],

    'Tâches stimulantes': [
        'challenge',
        'challengeant',
        'stimulant',
        'exigeant',
        'complexe',
        'ambitieux',
        'intensif',
        'mission exigeante',
        'projet de haut niveau',
        'enjeux importants',
        'haute responsabilité',
        'enjeux stratégiques',
        'situation à fort impact'
    ],

    'Variété des tâches': [
        'polyvalence',
        'varié',
        'variées',
        'diversité',
        'multi-tâches',
        'missions multiples',
        'contenu varié',
        'tâches diversifiées',
        'fonction polyvalente',
        'poste évolutif',
        'activités variées',
        'missions transverses',
        'environnement multifonction',
        'emploi multi-compétences'
    ]
}

# ===============================
# Categorie - Avantages mineurs
# ===============================

avantages_mineurs = {

    'Bel emplacement': [
        'emplacement privilégié',
        'site exceptionnel',
        'cadre agréable',
        'environnement pittoresque',
        'vue imprenable',
        'proximité de la nature',
        'situation géographique idéale',
        'localisation attractive',
        'proche des commodités',
        'quartier recherché',
        'environnement verdoyant',
        'bord de mer',
        'centre-ville',
        'zone dynamique',
        'secteur prisé'
    ],

    'Chalet d’entreprise': [
        'chalet',
        'résidence secondaire',
        'logement de fonction',
        'hébergement d’entreprise',
        'maison de vacances',
        'gîte d’entreprise',
        'refuge corporatif',
        'pavillon de détente',
        'villa d’entreprise',
        'bungalow de société',
        'appartement de vacances',
        'résidence de loisirs',
        'cabane d’entreprise',
        'chalet partagé',
        'logement saisonnier'
    ],

    'Congés flexibles/étendus': [
        'congés',
        'jours de repos',
        'RTT',
        'vacances prolongées',
        'flexibilité des congés',
        'jours de congé supplémentaires',
        'semaine de 4 jours',
        'aménagement du temps de travail',
        'congés payés additionnels',
        'jours fériés offerts',
        'possibilité de congés sans solde',
        'congés sabbatiques',
        'jours personnels',
        'absence flexible',
        'politique de congés avantageuse'
    ],

    'Emplacement central': [
        'centre-ville',
        'cœur de ville',
        'proche centre',
        'localisation centrale',
        'proximité des transports',
        'quartier central',
        'zone urbaine',
        'facile d’accès',
        'proche des commerces',
        'emplacement stratégique',
        'au centre',
        'plein centre',
        'proche gare',
        'proche métro',
        'hyper centre'
    ],

    'Place de parking sur site': [
        'parking',
        'stationnement',
        'garage',
        'parking privé',
        'place réservée',
        'stationnement sécurisé',
        'parking souterrain',
        'emplacement de parking',
        'parking gratuit',
        'parking couvert',
        'aire de stationnement',
        'parking dédié',
        'parking entreprise',
        'stationnement facile',
        'parking à disposition'
    ],

    'Salle de sport ou équipe sportive de l’entreprise': [
        'gym',
        'fitness',
        'sport',
        'centre de remise en forme',
        'club sportif',
        'activités sportives',
        'cours de yoga',
        'équipe de football',
        'tournois sportifs',
        'installations sportives',
        'coach sportif',
        'séances de sport',
        'événements sportifs',
        'salle de musculation',
        'programme bien-être'
    ],

    'Service de santé au travail': [
        'médecine du travail',
        'santé',
        'bien-être',
        'consultations médicales',
        'infirmière sur site',
        'bilan de santé',
        'prévention santé',
        'assistance médicale',
        'service médical',
        'soins sur place',
        'suivi médical',
        'vaccinations',
        'programme de santé',
        'sécurité et santé',
        'accompagnement santé'
    ],

    'Tout programme de bien-être': [
        'bien-être',
        'qualité de vie',
        'QVT',
        'séances de massage',
        'espaces de détente',
        'gestion du stress',
        'ateliers bien-être',
        'coaching personnel',
        'équilibre vie pro/perso',
        'mindfulness',
        'programme santé',
        'activités relaxantes',
        'pause bien-être',
        'environnement sain',
        'politique bien-être'
    ],

    'Véhicule de fonction': [
        'voiture',
        'véhicule',
        'automobile',
        'car',
        'voiture de société',
        'véhicule de service',
        'flotte automobile',
        'utilitaire',
        'transport professionnel',
        'mobilité',
        'avantage en nature',
        'leasing',
        'location de véhicule',
        'carte carburant',
        'véhicule attribué'
    ]
}

## 🔗 Merge Dictionaries & Export
Combine individual category dictionaries into a single, unified attribute before saving and export it as an excel file.


In [4]:
# Combine all dictionaries into one big dict
all_attribute_dicts = {
    **dictionnaire_remuneration,
    **attributs_financiers,
    **regime_de_remuneration,
    **heures_de_travail,
    **horaires_avantageux,
    **horaires_contraignants,
    **duree_contrat,
    **environnement_de_travail,
    **taches,
    **avantages_mineurs
}

# Create a flat list of (expression, attribute_category) pairs
rows = [
    {'expression': expr, 'attribute_category_fr': category}
    for category, expressions in all_attribute_dicts.items()
    for expr in expressions
]

# Convert to DataFrame
df_expressions = pd.DataFrame(rows)

# View result
df = df.merge(df_expressions, on="attribute_category_fr", how="left")
df

Unnamed: 0,aggregate_category_fr,attribute_category_fr,expression
0,Régime de rémunération,Niveau de rémunération,salaire horaire
1,Régime de rémunération,Niveau de rémunération,salaire mensuel
2,Régime de rémunération,Niveau de rémunération,rémunération mensuelle
3,Régime de rémunération,Niveau de rémunération,rémunération annuelle
4,Régime de rémunération,Niveau de rémunération,taux horaire
...,...,...,...
725,Avantages mineurs,Congés flexibles/étendus,possibilité de congés sans solde
726,Avantages mineurs,Congés flexibles/étendus,congés sabbatiques
727,Avantages mineurs,Congés flexibles/étendus,jours personnels
728,Avantages mineurs,Congés flexibles/étendus,absence flexible


In [5]:
# ------------------------------
# Output Final Report
# ------------------------------

output_file = project_root / "data" / "attribute_base_processed.xlsx"
df.to_excel(output_file, index=False)
