# üí° ATTRIBUTE BASE TRANSLATION & AGGREGATION
---

## üìå Overview
This notebook processes the **attribute base** for NLP extraction by translating and organizing attributes into **aggregate categories**, merging detailed dictionaries, and exporting a unified mapping for further analysis.


## üì¶ Setup: Import Libraries & Load Data
This cell imports necessary Python libraries, defines project paths, and loads the raw attribute expressions dataset.


In [1]:
# Import library
import pandas as pd
from pathlib import Path

# ===============================
# DEFINE PROJECT PATHS
# ===============================
project_root = Path().resolve().parent

# Input and output paths
file = project_root / "data" / "expressions.xlsx"
#¬†Import dataset expression
df = pd.read_excel(file)

## üîß Define Aggregate Category Translations
Map English aggregate categories to contextually accurate French terms for grouping attributes.


In [2]:
# ===============================
# AGGREGATE CATEGORIES
# ===============================

# Dictionary mapping English aggregate categories to contextually accurate French terms
agg_category_translation = {
    'Compensation Scheme': 'R√©gime de r√©mun√©ration',
    'Financial Attributes': 'Attributs financiers',
    'Career Opportunities': 'Opportunit√©s de carri√®re',
    'Hours of Work': 'Heures de travail',
    'Convenient Hours': 'Horaires avantageux',
    'Inconvenient Hours': 'Horaires contraignants',
    'Contract Duration': 'Dur√©e du contrat',
    'Workplace Attributes': 'Attributs du lieu de travail',
    'Task-Related Attributes': 'Attributs li√©s aux t√¢ches',
    'Minor Perks': 'Avantages mineurs',
}

# Applying the mapping to your DataFrame
df['aggregate_category_fr'] = df['aggregate_category'].map(agg_category_translation)

# ===============================
# ATTRIBUTE CATEGORIES
# ===============================

# Dictionary mapping English attribute categories to contextually accurate French terms
attribute_category_translation = {
    'Compensation Level': 'Niveau de r√©mun√©ration',
    'Competitive Pay': 'Salaire comp√©titif',
    'Collective Agreement Pay': 'Salaire selon convention collective',
    'Incentive Pay Scheme': 'Syst√®me de r√©mun√©ration incitative',
    'Hiring Bonus': 'Prime √† l‚Äôembauche',
    'Good Overtime Pay': 'Bonne r√©mun√©ration des heures suppl√©mentaires',
    'Any Other Mention of Pay': 'Toute autre mention de salaire',
    'Pension Scheme': 'R√©gime de retraite',
    'Insurance Scheme': 'R√©gime d‚Äôassurance',
    'Mortgage Possibility': 'Possibilit√© d‚Äôemprunt immobilier',
    'Good Career Paths': 'Bonnes perspectives de carri√®re',
    'On-the-Job Training': 'Formation en cours d‚Äôemploi',
    'Full-time Contract': 'Contrat √† temps plein',
    'Part-time Contract': 'Contrat √† temps partiel',
    'Full-time/Part-time Choice': 'Choix entre temps plein et temps partiel',
    'Possibility to Work Flexible Hours': 'Possibilit√© d‚Äôhoraires flexibles',
    'Regular Daytime Work Schedule': 'Horaire de travail de jour r√©gulier',
    'Exempt from Work Hour Regulations': 'Exemption des r√©glementations sur le temps de travail',
    'Shift Work': 'Travail par postes',
    'Weekend/Evening/Night Work': 'Travail le week-end/soir/nuit',
    'On-call Employment': 'Emploi sur appel',
    'Overtime Work Required': 'Heures suppl√©mentaires requises',
    'Permanent Job': 'Emploi permanent',
    'Temporary Job': 'Emploi temporaire',
    'Fixed-term Contract': 'Contrat √† dur√©e d√©termin√©e',
    'Social Environment': 'Environnement social',
    'Good Colleagues': 'Bons coll√®gues',
    'Possibility for Remote Work': 'Possibilit√© de t√©l√©travail',
    'Shared Office Space': 'Espace de bureau partag√©',
    'Inclusive Work-life Scheme': 'Programme d‚Äôinclusion travail-vie personnelle',
    'Interesting Tasks': 'T√¢ches int√©ressantes',
    'Challenging Tasks': 'T√¢ches stimulantes',
    'Variation in Tasks': 'Vari√©t√© des t√¢ches',
    'Responsibility in Job': 'Responsabilit√©s dans le poste',
    'Independence in Performing Tasks': 'Autonomie dans l‚Äôex√©cution des t√¢ches',
    'Involves Leadership Responsibility': 'Responsabilit√© de leadership incluse',
    'Work Involves Travelling': 'Travail impliquant des d√©placements',
    'Beautiful Location': 'Bel emplacement',
    'Central Location': 'Emplacement central',
    'Company Gym or Sports Team': 'Salle de sport ou √©quipe sportive de l‚Äôentreprise',
    'Parking Space On Premises': 'Place de parking sur site',
    'Company Vehicle': 'V√©hicule de fonction',
    'Any Welfare Scheme': 'Tout programme de bien-√™tre',
    'Company Cabin': 'Chalet d‚Äôentreprise',
    'Occupational Health Service': 'Service de sant√© au travail',
    'Company Canteen': 'Cantine d‚Äôentreprise',
    'Flexible/Extended Holidays': 'Cong√©s flexibles/√©tendus',
}

# Applying the mapping to your DataFrame
df['attribute_category_fr'] = df['attribute_category'].map(attribute_category_translation)

# ===============================
# SELECT AGGREGATED + ATTRIBUTE CATEGORY
# ===============================

df = df[["aggregate_category_fr", "attribute_category_fr"]]
df.drop_duplicates(subset=["aggregate_category_fr", "attribute_category_fr"], inplace=True)
df.dropna(subset="attribute_category_fr", inplace=True)


## üìöTranslation & Enrichment Method 

**Objective:**  
Provide a dictionary of attributes (contract type, work environment, tasks, benefits‚Ä¶) for NLP extraction from French job postings.

**Approach:**  
- Idiomatic translation and contextual adaptation of an English base via ChatGPT ü§ñ  
- Validation and enrichment using real examples from apec.fr, pole-emploi.fr, and hellowork.com üåê  
- Addition of standalone keywords and synonym variants to optimize pattern matching üîç  
- Filtering out irrelevant expressions üóëÔ∏è

üìù **Prompt used:**  
> ‚ÄúHere is a list of English expressions related to an HR attribute (e.g., salary, benefits, job content). Translate them into French idiomatically and in context, based on the real formulations used in job postings on apec.fr, pole-emploi.fr, and hellowork.com. Add variants and standalone keywords useful for NLP extraction, and remove anything that is not relevant.‚Äù

In [3]:

# ===============================
# Categorie - R√©gime de r√©mun√©ration
# ===============================

dictionnaire_remuneration = {
    'Bonne r√©mun√©ration des heures suppl√©mentaires': [
        'heures suppl√©mentaires pay√©es',
        'paiement des heures suppl√©mentaires',
        'r√©mun√©ration des heures suppl√©mentaires',
        'heures suppl√©mentaires r√©mun√©r√©es',
        'majoration heures suppl√©mentaires',
        'majoration pour heures supp',
        'heures supp major√©es',
        'compensation heures suppl√©mentaires',
        'heures sup',
        'heures en plus r√©mun√©r√©es'
    ],
    'Niveau de r√©mun√©ration': [
        'salaire horaire',
        'salaire mensuel',
        'r√©mun√©ration mensuelle',
        'r√©mun√©ration annuelle',
        'taux horaire',
        'taux de r√©mun√©ration',
        'r√©mun√©ration brute',
        'r√©mun√©ration nette',
        'salaire brut',
        'salaire net',
        'salaire de base',
        'salaire fixe',
        'niveau de salaire',
        '√©chelle salariale',
        'bar√®me de r√©mun√©ration',
        'grille salariale',
        'fourchette salariale',
        'r√©mun√©ration selon profil',
        'r√©mun√©ration selon exp√©rience',
        'r√©mun√©ration attractive'
    ],
    'Prime √† l‚Äôembauche': [
        'prime d‚Äôembauche',
        'prime de bienvenue',
        'prime √† l‚Äôarriv√©e',
        'prime de recrutement',
        'bonus de recrutement',
        'bonus √† l‚Äôembauche',
        'prime d‚Äôint√©gration',
        'prime exceptionnelle d‚Äôentr√©e',
        'bonus d‚Äôint√©gration',
        'prime de d√©marrage',
        'avantage √† l‚Äôembauche'
    ],
    'Salaire comp√©titif': [
        'salaire comp√©titif',
        'salaire avantageux',
        'salaire motivant',
        'r√©mun√©ration attractive',
        'r√©mun√©ration concurrentielle',
        'package comp√©titif',
        'r√©mun√©ration sup√©rieure au march√©',
        'r√©mun√©ration stimulante',
        'r√©mun√©ration valorisante',
        'conditions salariales attractives',
        'r√©mun√©ration int√©ressante',
        'salaire √©volutif',
        'salaire n√©gociable'
    ],
    'Salaire selon convention collective': [
        'salaire selon convention collective',
        'bar√®me conventionnel',
        'grille de la convention collective',
        'salaire conventionn√©',
        'r√©mun√©ration selon accords collectifs',
        'r√©mun√©ration encadr√©e par convention',
        'salaire fix√© par convention',
        'grille salariale conventionnelle'
    ],
    'Syst√®me de r√©mun√©ration incitative': [
        'r√©mun√©ration variable',
        'prime sur objectifs',
        'bonus de performance',
        'primes de performance',
        'r√©mun√©ration √† la commission',
        'r√©mun√©ration li√©e aux r√©sultats',
        'r√©mun√©ration au m√©rite',
        'plan de commissionnement',
        'stock-options',
        'primes exceptionnelles',
        'bonus annuel',
        'syst√®me de primes',
        'r√©mun√©ration incitative',
        'syst√®me de r√©mun√©ration au rendement'
    ],
    'Toute autre mention de salaire': [
        'r√©mun√©ration fixe',
        'r√©mun√©ration globale',
        'salaire global',
        'package de r√©mun√©ration',
        'structure salariale',
        'compl√©ments de salaire',
        'primes diverses',
        'avantages en nature',
        'avantages salariaux',
        '13e mois',
        'prime de 13e mois',
        'salaire √† n√©gocier',
        'salaire selon exp√©rience',
        'salaire selon comp√©tences',
        '√©l√©ments variables de paie',
        '√©l√©ments fixes de r√©mun√©ration',
        'paie mensuelle',
        'salaire vers√©'
    ]
}


# ===============================
# df["aggregate_category"] == "Attributs financiers"
# ===============================

attributs_financiers = {
    'Possibilit√© d‚Äôemprunt immobilier': [
        'pr√™t immobilier avantageux',
        'pr√™t √† taux r√©duit',
        'aide √† l‚Äôaccession √† la propri√©t√©',
        'pr√™t employeur',
        'pr√™t √† taux z√©ro',
        'pr√™t logement',
        'conditions de pr√™t favorables',
        'facilit√© de cr√©dit immobilier',
        'cr√©dit √† l‚Äôhabitat',
        'offre de financement logement',
        'soutien √† l‚Äôachat immobilier'
    ],
    'R√©gime de retraite': [
        'r√©gime de retraite compl√©mentaire',
        'plan d‚Äô√©pargne retraite',
        'retraite entreprise',
        'cotisations retraite',
        'dispositif retraite',
        'caisse de retraite',
        'r√©gime de retraite collectif',
        'retraite suppl√©mentaire',
        'r√©gime de retraite obligatoire',
        'compl√©ment de retraite',
        'b√©n√©fice d‚Äôun syst√®me de retraite',
        'prise en charge retraite',
        'capital retraite',
        'rente retraite'
    ],
    'R√©gime d‚Äôassurance': [
        'mutuelle d‚Äôentreprise',
        'mutuelle sant√©',
        'compl√©mentaire sant√©',
        'assurance pr√©voyance',
        'protection sociale compl√©mentaire',
        'assurance d√©c√®s',
        'assurance invalidit√©',
        'assurance sant√©',
        'prise en charge de la mutuelle',
        'adh√©sion √† la mutuelle',
        'garantie incapacit√© de travail',
        'assurance accidents de la vie',
        'assurance collective',
        'pr√©vention sant√©',
        'pr√©voyance collective',
        'assurance compl√©mentaire',
        'forfait sant√©',
        'protection sociale'
    ]
}

# ===============================
# Categorie - Opportunit√©s de carri√®re
# ===============================

regime_de_remuneration = {
    'Bonnes perspectives de carri√®re': [
        'opportunit√©s de carri√®re',
        'possibilit√© d‚Äô√©volution',
        '√©volution de carri√®re',
        '√©volution professionnelle',
        'plan de carri√®re',
        'promotion',
        'promotion interne',
        'cheminement de carri√®re',
        'perspectives d‚Äô√©volution',
        'perspectives professionnelles',
        'avancement professionnel',
        'mobilit√© interne',
        'parcours √©volutif',
        'd√©veloppement de carri√®re',
        'acc√®s √† des postes √† responsabilit√©s',
        'perspectives d‚Äôavancement',
        'possibilit√© de promotion',
        'croissance professionnelle',
        'faire carri√®re',
        'futur poste',
        'carri√®re √©volutive',
        'projets professionnels'
    ],
    'Formation en cours d‚Äôemploi': [
        'formation continue',
        'formation en interne',
        'formation sur le poste',
        'formation sur le tas',
        'formation en entreprise',
        'd√©veloppement des comp√©tences',
        'mont√©e en comp√©tences',
        'formation professionnelle',
        'perfectionnement',
        'apprentissage',
        'apprentissage en alternance',
        'alternance',
        'stage de formation',
        'formation qualifiante',
        'formation certifiante',
        'formation dipl√¥mante',
        's√©minaire',
        'programme de formation',
        'parcours de formation',
        'plan de formation',
        'ateliers de formation',
        'sessions de formation',
        'accompagnement formation',
        'coaching',
        'tutorat',
        'mentorat',
        '√©ducation permanente',
        'formations en ligne',
        'MOOC',
        '√©volution des comp√©tences',
        'acc√®s √† la formation',
        'droit √† la formation',
        'formations r√©guli√®res',
        'formation tout au long de la vie',
        'bilan de comp√©tences',
        'formation continue offerte',
        'formation financ√©e',
        'd√©veloppement professionnel',
        'renforcement des comp√©tences'
    ]
}

# ===============================
# Categorie - Heures de travail
# ===============================
heures_de_travail = {
    'Choix entre temps plein et temps partiel': [
        'temps plein ou temps partiel',
        'temps partiel ou temps plein',
        'temps plein/temps partiel',
        'temps partiel/temps plein',
        'temps plein ou partiel',
        'temps partiel ou plein',
        'plein ou partiel',
        'partiel ou plein',
        'TP/TT',
        'temps plein ou temps partiel au choix',
        'poste √† temps plein ou partiel',
        'possibilit√© temps plein/partiel',
        'temps de travail ajustable',
        'contrat en temps plein ou partiel',
        'choix du temps de travail'
    ],

    'Contrat √† temps partiel': [
        'temps partiel',
        'mi-temps',
        'TP'
    ],

    'Contrat √† temps plein': [
        'temps plein',
        'temps complet',
        'plein temps',
        'temps complet'
    ]
}

# ===============================
# Categorie - Horaires avantageux
# ===============================

horaires_avantageux = {
    'Exemption des r√©glementations sur le temps de travail': [
        'cadre dirigeant',
        'poste de direction',
        'statut cadre',
        'fonction de management',
        'poste √† responsabilit√©',
        'exon√©ration des r√®gles sur le temps de travail',
        'non soumis aux horaires collectifs',
        'autonomie dans l‚Äôorganisation du travail',
        'contrat forfait jours',
        'r√©gime forfaitaire',
        'poste ind√©pendant',
        'responsable de service',
        'directeur de d√©partement',
        'chef d‚Äô√©quipe',
        'manager'
    ],
    'Horaire de travail de jour r√©gulier': [
        'horaires fixes',
        'horaires de bureau',
        'travail en journ√©e',
        'horaires r√©guliers',
        '9h-17h',
        '8h-16h',
        'heures de travail standards',
        'emploi du temps stable',
        'temps de travail constant',
        'planning fixe',
        'horaire continu',
        'horaire stable',
        'horaire classique',
        'horaire normal',
        'horaire habituel',
        'horaire traditionnel'
    ],
    'Possibilit√© d‚Äôhoraires flexibles': [
        'horaires flexibles',
        'flexibilit√© horaire',
        'am√©nagement du temps de travail',
        'travail en horaires am√©nag√©s',
        'possibilit√© de t√©l√©travail',
        'gestion autonome des horaires',
        'plages horaires variables',
        'travail en horaires d√©cal√©s',
        'modulation du temps de travail',
        'temps de travail adaptable',
        'horaire personnalis√©',
        'horaire modulable',
        'horaire souple',
        'horaire ajustable',
        'horaire √† la carte',
        'horaire libre',
        'horaire variable',
        'horaire am√©nageable'
    ]
}

# ===============================
# Categorie - Horaires contraignants
# ===============================

horaires_contraignants = {

    'Emploi sur appel': [
        'travail sur appel',
        'emploi sur demande',
        'poste en astreinte',
        'astreinte',
        'appel ponctuel',
        'intervention √† la demande',
        'contrat d‚Äôintervention',
        'vacation ponctuelle',
        'mission ponctuelle',
        'travail ponctuel',
        'travail occasionnel',
        'emploi temporaire √† la demande',
        'disponibilit√© imm√©diate requise',
        'renfort √† la demande',
        'besoin urgent ponctuel',
        'remplacement au pied lev√©',
        'postes vacataires',
        'job √† la t√¢che',
        'job sur appel'
    ],

    'Heures suppl√©mentaires requises': [
        'heures suppl√©mentaires requises',
        'heures supp obligatoires',
        'possibilit√© d‚Äôheures suppl√©mentaires',
        'pr√©voir heures suppl√©mentaires',
        'disponibilit√© en dehors des horaires',
        'travail au-del√† du contrat',
        'travail au-del√† du temps de travail l√©gal',
        'horaires √©tendus',
        'travail prolong√©',
        'd√©passement horaire possible',
        'flexibilit√© horaire demand√©e',
        'heures compl√©mentaires',
        'heures suppl√©mentaires r√©guli√®res',
        'obligation d‚Äôassurer des heures en plus',
        'besoin de disponibilit√© horaire accrue'
    ],

    'Travail le week-end/soir/nuit': [
        'travail le week-end',
        'travail de nuit',
        'travail en soir√©e',
        'travail en horaires d√©cal√©s',
        'poste en horaires atypiques',
        'travail les samedis',
        'travail les dimanches',
        'poste avec travail dominical',
        'emploi de nuit',
        'horaires fractionn√©s',
        'temps de travail en soir√©e',
        'horaires en fin de journ√©e',
        'poste nocturne',
        'pr√©sence en soir√©e requise',
        'travail en horaires √©tendus',
        'travail les jours f√©ri√©s',
        'astreintes week-end',
        'travail soir/nuit/week-end',
        'rotation jour/nuit',
        'plages horaires √©tendues',
        'emploi avec contraintes horaires'
    ],

    'Travail par postes': [
        'travail en 3x8',
        'travail en 2x8',
        'poste en rotation',
        'travail post√©',
        'travail en √©quipe tournante',
        'poste en roulement',
        'travail en horaires altern√©s',
        'cycle de travail post√©',
        'horaires en rotation',
        'rotation d‚Äô√©quipe',
        'horaires cycliques',
        'poste en faction',
        'travail en quart',
        'planning tournant',
        'travail en shift',
        'emploi en horaires fractionn√©s',
        'travail en alternance horaire',
        'horaire post√©',
        'travail √† horaires variables',
        'poste √† roulement continu',
        'poste en service continu'
    ]
}

# ===============================
# Categorie - Dur√©e du contrat
# ===============================
duree_contrat = {
    'Contrat √† dur√©e d√©termin√©e': [
        'CDD',
        'contrat temporaire',
        'contrat de travail √† dur√©e d√©termin√©e',
        'mission temporaire',
        'emploi temporaire',
        'poste temporaire',
        'contrat saisonnier',
        'contrat de remplacement',
        'contrat √† terme',
        'contrat √† dur√©e limit√©e',
        'engagement √† dur√©e d√©termin√©e',
        'contrat de mission',
        'contrat pour besoin occasionnel',
        'contrat de travail temporaire',
        'contrat int√©rimaire'
    ],
    'Emploi permanent': [
        'CDI',
        'contrat √† dur√©e ind√©termin√©e',
        'poste fixe',
        'emploi stable',
        'contrat permanent',
        'engagement √† dur√©e ind√©termin√©e',
        'poste √† dur√©e ind√©termin√©e',
        'contrat sans terme pr√©cis',
        'emploi √† long terme',
        'contrat p√©renne',
        'poste p√©renne',
        'contrat de travail √† dur√©e ind√©termin√©e',
        'emploi √† dur√©e ind√©termin√©e',
        'poste stable'
    ],
    'Emploi temporaire': [
        'int√©rim',
        'travail temporaire',
        'mission d‚Äôint√©rim',
        'poste int√©rimaire',
        'contrat d‚Äôint√©rim',
        'emploi int√©rimaire',
        'travail en int√©rim',
        'contrat de travail temporaire',
        'mission ponctuelle',
        'contrat de courte dur√©e',
        'emploi √† dur√©e limit√©e',
        'poste temporaire',
        'contrat saisonnier',
        'contrat de vacation',
        'emploi de remplacement'
    ]
}

# ===============================
# Categorie - Attributs du lieu de travail
# ===============================

environnement_de_travail = {

    'Bons coll√®gues': [
        'coll√®gues bienveillants',
        'coll√®gues sympathiques',
        'coll√®gues agr√©ables',
        'coll√®gues motiv√©s',
        'coll√®gues dynamiques',
        'coll√®gues comp√©tents',
        'coll√®gues exp√©riment√©s',
        'coll√®gues engag√©s',
        'coll√®gues passionn√©s',
        'coll√®gues solidaires',
        'coll√®gues √† l‚Äô√©coute',
        '√©quipe soud√©e',
        '√©quipe bienveillante',
        '√©quipe collaborative',
        'bonne ambiance d‚Äô√©quipe',
        'travailler avec des coll√®gues motiv√©s',
        'esprit d‚Äô√©quipe',
        'coh√©sion d‚Äô√©quipe',
        '√©quipe accueillante',
        'relations humaines de qualit√©',
        '√©quipe √† taille humaine',
        '√©quipe professionnelle',
        'collaboration entre pairs',
        'climat d‚Äôentraide',
        'bonne entente entre coll√®gues',
        'entraide entre collaborateurs',
        '√©quipe solidaire'
    ],

    'Environnement social': [
        'bonne ambiance de travail',
        'environnement de travail agr√©able',
        'cadre de travail convivial',
        'cadre de travail bienveillant',
        'climat social positif',
        'ambiance conviviale',
        'milieu de travail stimulant',
        'cadre professionnel motivant',
        'ambiance sereine',
        'esprit d‚Äôentreprise familial',
        'climat humain',
        'relations bienveillantes',
        'qualit√© de vie au travail',
        'environnement chaleureux',
        'ambiance d√©tendue',
        'espace de travail agr√©able',
        'cadre social valorisant',
        'environnement respectueux',
        'bonne dynamique d‚Äô√©quipe',
        'culture d‚Äôentreprise humaine',
        'cadre de travail stimulant',
        'esprit d‚Äôentreprise positif',
        'ambiance professionnelle agr√©able',
        'bon climat interne'
    ],

    'Espace de bureau partag√©': [
        'open space',
        'bureaux en open-space',
        'espace de travail partag√©',
        'bureaux collectifs',
        'bureaux ouverts',
        'plateau partag√©',
        'travail en espace commun',
        'environnement open-space',
        'poste en espace ouvert',
        'open space convivial',
        'bureaux √† partager',
        'espace de coworking'
    ],

    'Possibilit√© de t√©l√©travail': [
        't√©l√©travail possible',
        'jours de t√©l√©travail',
        'travail √† distance',
        'home office',
        'mode de travail hybride',
        'pr√©sentiel et t√©l√©travail',
        'flexibilit√© du lieu de travail',
        't√©l√©travail partiel',
        'travail en distanciel',
        'travail depuis chez soi',
        'organisation hybride',
        'possibilit√© de remote',
        'modalit√©s de t√©l√©travail',
        'politique de t√©l√©travail',
        't√©l√©travail ponctuel',
        'jusqu‚Äô√† 3 jours de t√©l√©travail',
        'environnement flexible',
        't√©l√©travail r√©gulier',
        'pr√©sentiel / distanciel'
    ],

    'Programme d‚Äôinclusion travail-vie personnelle': [
        '√©quilibre vie professionnelle / vie personnelle',
        '√©quilibre vie pro / vie perso',
        'conciliation vie professionnelle et vie priv√©e',
        'respect de la vie personnelle',
        'am√©nagement du temps de travail',
        'souplesse horaire',
        'conditions de travail flexibles',
        'QVT',
        'qualit√© de vie au travail',
        'horaires am√©nageables',
        'souplesse organisationnelle',
        'prise en compte de la vie personnelle',
        'bien-√™tre au travail',
        'engagement QVT',
        'cadre de travail √©quilibr√©',
        'flexibilit√© professionnelle',
        'politique de conciliation',
        'rythme de travail adapt√©',
        'attention port√©e au bien-√™tre',
        'temps de travail adapt√© aux besoins',
        'organisation compatible vie familiale',
        'environnement respectueux de la vie priv√©e',
        'd√©marche RSE et inclusion',
        'cadre favorable √† l‚Äô√©panouissement personnel'
    ]
}

# ===============================
# Categorie - Attributs li√©s aux t√¢ches
# ===============================

taches = {

    'Autonomie dans l‚Äôex√©cution des t√¢ches': [
        'autonomie',
        'autonome',
        'ind√©pendance',
        'libert√© d‚Äôorganisation',
        'auto-organisation',
        'gestion autonome',
        'autonomie professionnelle',
        'autonomie dans le poste',
        'capacit√© d‚Äôinitiative',
        'prise d‚Äôinitiative',
        'organisation personnelle',
        'autogestion',
        'libert√© d‚Äôaction',
        'autonomie dans les missions',
        'travail sans supervision directe'
    ],

    'Responsabilit√© de leadership incluse': [
        'poste de direction',
        'responsabilit√©s manag√©riales',
        'gestion d‚Äô√©quipe',
        'leadership',
        'supervision d‚Äô√©quipe',
        'r√¥le de manager',
        'responsable de service',
        'encadrement de personnel',
        'direction de projet',
        'fonction de chef d‚Äô√©quipe',
        'responsable hi√©rarchique',
        'gestion des ressources humaines',
        'coordination d‚Äô√©quipe',
        'responsable op√©rationnel',
        'management strat√©gique'
    ],

    'Responsabilit√©s dans le poste': [
        'responsabilit√©s',
        'responsable',
        'responsabilit√©',
        'prise en charge',
        'autonomie d√©cisionnelle',
        'responsabilit√©s √©tendues',
        'gestion de projet',
        'pilotage',
        'responsabilit√© globale',
        'autonomie de d√©cision',
        'poste √† responsabilit√©',
        'mission de confiance',
        'fonction strat√©gique'
    ],

    'Travail impliquant des d√©placements': [
        'd√©placements',
        'mobilit√©',
        'voyages',
        'nomade',
        'terrain',
        'itin√©rant',
        'permis B exig√©',
        'd√©placements fr√©quents',
        'mobilit√© nationale',
        'mobilit√© internationale',
        'd√©placements ponctuels',
        'pr√©sence terrain',
        'd√©placements professionnels',
        'mobilit√© requise',
        'tourn√©es'
    ],

    'T√¢ches int√©ressantes': [
        'int√©ressant',
        'int√©ressantes',
        'stimulant',
        'valorisant',
        'passionnant',
        'inspirant',
        '√©panouissant',
        'vari√© et enrichissant',
        'projets motivants',
        'activit√©s captivantes',
        'missions valorisantes',
        'enjeu motivant',
        'contenu riche',
        'travail porteur de sens',
        'm√©tier utile'
    ],

    'T√¢ches stimulantes': [
        'challenge',
        'challengeant',
        'stimulant',
        'exigeant',
        'complexe',
        'ambitieux',
        'intensif',
        'mission exigeante',
        'projet de haut niveau',
        'enjeux importants',
        'haute responsabilit√©',
        'enjeux strat√©giques',
        'situation √† fort impact'
    ],

    'Vari√©t√© des t√¢ches': [
        'polyvalence',
        'vari√©',
        'vari√©es',
        'diversit√©',
        'multi-t√¢ches',
        'missions multiples',
        'contenu vari√©',
        't√¢ches diversifi√©es',
        'fonction polyvalente',
        'poste √©volutif',
        'activit√©s vari√©es',
        'missions transverses',
        'environnement multifonction',
        'emploi multi-comp√©tences'
    ]
}

# ===============================
# Categorie - Avantages mineurs
# ===============================

avantages_mineurs = {

    'Bel emplacement': [
        'emplacement privil√©gi√©',
        'site exceptionnel',
        'cadre agr√©able',
        'environnement pittoresque',
        'vue imprenable',
        'proximit√© de la nature',
        'situation g√©ographique id√©ale',
        'localisation attractive',
        'proche des commodit√©s',
        'quartier recherch√©',
        'environnement verdoyant',
        'bord de mer',
        'centre-ville',
        'zone dynamique',
        'secteur pris√©'
    ],

    'Chalet d‚Äôentreprise': [
        'chalet',
        'r√©sidence secondaire',
        'logement de fonction',
        'h√©bergement d‚Äôentreprise',
        'maison de vacances',
        'g√Æte d‚Äôentreprise',
        'refuge corporatif',
        'pavillon de d√©tente',
        'villa d‚Äôentreprise',
        'bungalow de soci√©t√©',
        'appartement de vacances',
        'r√©sidence de loisirs',
        'cabane d‚Äôentreprise',
        'chalet partag√©',
        'logement saisonnier'
    ],

    'Cong√©s flexibles/√©tendus': [
        'cong√©s',
        'jours de repos',
        'RTT',
        'vacances prolong√©es',
        'flexibilit√© des cong√©s',
        'jours de cong√© suppl√©mentaires',
        'semaine de 4 jours',
        'am√©nagement du temps de travail',
        'cong√©s pay√©s additionnels',
        'jours f√©ri√©s offerts',
        'possibilit√© de cong√©s sans solde',
        'cong√©s sabbatiques',
        'jours personnels',
        'absence flexible',
        'politique de cong√©s avantageuse'
    ],

    'Emplacement central': [
        'centre-ville',
        'c≈ìur de ville',
        'proche centre',
        'localisation centrale',
        'proximit√© des transports',
        'quartier central',
        'zone urbaine',
        'facile d‚Äôacc√®s',
        'proche des commerces',
        'emplacement strat√©gique',
        'au centre',
        'plein centre',
        'proche gare',
        'proche m√©tro',
        'hyper centre'
    ],

    'Place de parking sur site': [
        'parking',
        'stationnement',
        'garage',
        'parking priv√©',
        'place r√©serv√©e',
        'stationnement s√©curis√©',
        'parking souterrain',
        'emplacement de parking',
        'parking gratuit',
        'parking couvert',
        'aire de stationnement',
        'parking d√©di√©',
        'parking entreprise',
        'stationnement facile',
        'parking √† disposition'
    ],

    'Salle de sport ou √©quipe sportive de l‚Äôentreprise': [
        'gym',
        'fitness',
        'sport',
        'centre de remise en forme',
        'club sportif',
        'activit√©s sportives',
        'cours de yoga',
        '√©quipe de football',
        'tournois sportifs',
        'installations sportives',
        'coach sportif',
        's√©ances de sport',
        '√©v√©nements sportifs',
        'salle de musculation',
        'programme bien-√™tre'
    ],

    'Service de sant√© au travail': [
        'm√©decine du travail',
        'sant√©',
        'bien-√™tre',
        'consultations m√©dicales',
        'infirmi√®re sur site',
        'bilan de sant√©',
        'pr√©vention sant√©',
        'assistance m√©dicale',
        'service m√©dical',
        'soins sur place',
        'suivi m√©dical',
        'vaccinations',
        'programme de sant√©',
        's√©curit√© et sant√©',
        'accompagnement sant√©'
    ],

    'Tout programme de bien-√™tre': [
        'bien-√™tre',
        'qualit√© de vie',
        'QVT',
        's√©ances de massage',
        'espaces de d√©tente',
        'gestion du stress',
        'ateliers bien-√™tre',
        'coaching personnel',
        '√©quilibre vie pro/perso',
        'mindfulness',
        'programme sant√©',
        'activit√©s relaxantes',
        'pause bien-√™tre',
        'environnement sain',
        'politique bien-√™tre'
    ],

    'V√©hicule de fonction': [
        'voiture',
        'v√©hicule',
        'automobile',
        'car',
        'voiture de soci√©t√©',
        'v√©hicule de service',
        'flotte automobile',
        'utilitaire',
        'transport professionnel',
        'mobilit√©',
        'avantage en nature',
        'leasing',
        'location de v√©hicule',
        'carte carburant',
        'v√©hicule attribu√©'
    ]
}

## üîó Merge Dictionaries & Export
Combine individual category dictionaries into a single, unified attribute before saving and export it as an excel file.


In [4]:
# Combine all dictionaries into one big dict
all_attribute_dicts = {
    **dictionnaire_remuneration,
    **attributs_financiers,
    **regime_de_remuneration,
    **heures_de_travail,
    **horaires_avantageux,
    **horaires_contraignants,
    **duree_contrat,
    **environnement_de_travail,
    **taches,
    **avantages_mineurs
}

# Create a flat list of (expression, attribute_category) pairs
rows = [
    {'expression': expr, 'attribute_category_fr': category}
    for category, expressions in all_attribute_dicts.items()
    for expr in expressions
]

# Convert to DataFrame
df_expressions = pd.DataFrame(rows)

# View result
df = df.merge(df_expressions, on="attribute_category_fr", how="left")
df

Unnamed: 0,aggregate_category_fr,attribute_category_fr,expression
0,R√©gime de r√©mun√©ration,Niveau de r√©mun√©ration,salaire horaire
1,R√©gime de r√©mun√©ration,Niveau de r√©mun√©ration,salaire mensuel
2,R√©gime de r√©mun√©ration,Niveau de r√©mun√©ration,r√©mun√©ration mensuelle
3,R√©gime de r√©mun√©ration,Niveau de r√©mun√©ration,r√©mun√©ration annuelle
4,R√©gime de r√©mun√©ration,Niveau de r√©mun√©ration,taux horaire
...,...,...,...
725,Avantages mineurs,Cong√©s flexibles/√©tendus,possibilit√© de cong√©s sans solde
726,Avantages mineurs,Cong√©s flexibles/√©tendus,cong√©s sabbatiques
727,Avantages mineurs,Cong√©s flexibles/√©tendus,jours personnels
728,Avantages mineurs,Cong√©s flexibles/√©tendus,absence flexible


In [5]:
# ------------------------------
# Output Final Report
# ------------------------------

output_file = project_root / "data" / "attribute_base_processed.xlsx"
df.to_excel(output_file, index=False)
