# Clean version of gpt_prompt.ipynb

Clean version of different jupyter notebooks

This version iterate over a list of text, retrieves the information and stores them in a json file that is then transformed into a dataframe

In [None]:
import os
import glob
from langchain.chat_models import ChatOpenAI

#Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Number
from pydantic import BaseModel, Field, validator
from kor import from_pydantic, create_extraction_chain

# LangChain Models
from langchain.chat_models import ChatOpenAI

# Standard Helpers
import pandas as pd
import glob
import os

from typing import Optional

###### PROMPT CONFIGURATION ######

# Step 1: Define Kor objects and models
augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        ("""5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés. Les techniciens et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022 bénéficeriont d'une augmentation de 4%. Les cadres bénéfieceront d'une augmentation des salaires de base de 3%""", [{"ouvrier": "5%"}]),
        ("""Pour les non-cadres : Une augmentation générale de 4,5 % applicable en novembre 2022 avec une augmentation minimale de 100 euros brut mensuel. Cette augmentation minimale sera versée en janvier 2023.""", [{"ouvrier": "4,5%"}]),
        ("""Tous les ouvriers recevront une augmentation de salaire de 3,2% à partir du 1er janvier 2023.""", [{"ouvrier": "3,2%"}]),
        ("""Les employés et ouvriers avec une ancienneté de moins de 5 ans recevront une augmentation de 2.5%. Ceux avec une ancienneté de plus de 5 ans auront une augmentation de 3%.""", [{"ouvrier": "2.5-3%"}]),
        ("""Les ouvriers et employés bénéficieront d'une augmentation salariale minimale de 100 euros brut mensuel à partir du 1er avril 2023.""", [{"ouvrier": "100 euros"}]),
        ("""A compter du 1er juillet 2023, une augmentation de 6% sera appliquée aux salaires des ouvriers et employés.""", [{"ouvrier": "6%"}]),
        ("""L'augmentation générale des salaires pour les ouvriers et employés sera de 5.5% pour l'année 2023.""", [{"ouvrier": "5.5%"}]),
        ("""Une hausse de 4,8% des salaires sera appliquée aux ouvriers à partir du 1er juin 2023.""", [{"ouvrier": "4.8%"}]),
        ("""Les ouvriers et employés avec plus de 10 ans d'ancienneté bénéficieront d'une augmentation de 7%.""", [{"ouvrier": "7%"}]),
        ("""Une augmentation forfaitaire de 150 euros brut sera versée à tous les ouvriers et employés en septembre 2023.""", [{"ouvrier": "150 euros"}])
    ]
)


augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, techniciens, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        ("""5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés. Les techniciens et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022 bénéficeriont d'une augmentation de 4%. Les cadres bénéfieceront d'une augmentation des salaires de base de 3%""", [{"intermediaires": "4%"}]),
        ("""Pour les non-cadres : Une augmentation générale de 4,5 % applicable en novembre 2022 avec une augmentation minimale de 100 euros brut mensuel. Cette augmentation minimale sera versée en janvier 2023.""", [{"intermediaires": "4,5%"}]),
        ("""Une augmentation de 6% sera accordée aux ouvriers et employés à compter du 1er janvier 2023. Les techniciens et agents de maîtrise ayant plus de un an d'ancienneté bénéficieront d'une hausse de 5%. Les cadres recevront une augmentation de 4%.""", [{"intermediaires": "5%"}]),
        ("""Pour les ouvriers, une augmentation salariale de 2% est envisagée pour l'année 2023. Les professions intermédiaires verront une augmentation de 2,5%. Pas d'augmentation prévue pour les cadres.""", [{"intermediaires": "2,5%"}]),
        ("""Une augmentation de salaire de 3% sera appliquée à tous les employés, y compris les ouvriers et employés. Les agents de maîtrise recevront une augmentation de 2,8%. Les cadres ne sont pas éligibles pour cette augmentation.""", [{"intermediaires": "2,8%"}]),
        ("""Les ouvriers bénéficieront d'une augmentation salariale de 7%. Pour les agents de maîtrise et les techniciens, cette hausse sera de 5,5%. Les cadres verront une augmentation de 4%.""", [{"intermediaires": "5,5%"}]),
        ("""Pour les ouvriers et employés, une augmentation de 3,5% est prévue. Les techniciens et agents de maîtrise auront droit à une augmentation de 3%. Les cadres auront une augmentation de 2%.""", [{"intermediaires": "3%"}]),
        ("""L'augmentation salariale pour les ouvriers et employés sera de 5%. Les professions intermédiaires, notamment les techniciens et les agents de maîtrise, bénéficieront d'une augmentation de 4%. Les cadres auront une augmentation de 3,5%.""", [{"intermediaires": "4%"}]),
        ("""Une augmentation de 4% est prévue pour les ouvriers à partir du 1er juillet 2023. Les agents de maîtrise et les techniciens bénéficieront d'une augmentation de 3,2%. Les cadres recevront une augmentation de 2,5%.""", [{"intermediaires": "3,2%"}]),
        ("""Les ouvriers et employés auront droit à une augmentation de 4%. Les techniciens et agents de maîtrise bénéficieront d'une augmentation de 3,5%. Une augmentation de 2,8% sera accordée aux cadres.""", [{"intermediaires": "3,5%"}])
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id="cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        ("""5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""", [{"cadres": "3%"}]),
        ("""Pour les non-cadres : Une augmentation générale de 4,5 % applicable en novembre 2022 avec une augmentation minimale de 100 euros brut mensuel. Cette augmentation minimale sera versée en janvier 2023.""", [{"cadres": "0"}]),
        ("""2% d'augmentation seront accordés aux cadres justifiant d'une ancienneté de 5 ans et plus, à compter de janvier 2023.""", [{"cadres": "2%"}]),
        ("""Les managers recevront une augmentation de 1,5% applicable en février 2023.""", [{"cadres": "1,5%"}]),
        ("""3,5% d'augmentation pour les directeurs de département, applicable dès le mois de mars 2023.""", [{"cadres": "3,5%"}]),
        ("""Les ingénieurs avec plus d'un an d'ancienneté bénéficieront d'une hausse de 4% de leur salaire.""", [{"cadres": "4%"}]),
        ("""Tous les responsables d'équipe recevront une augmentation salariale de 1%.""", [{"cadres": "1%"}])
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle (ouvrier, intermédiaire, cadres), en pourcentage ou en euros",
        )
    ],
    examples=[
        ("""A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""", [{"augmentation générale": "5%"}]),
        ("""Concernant les augmentations individuelles, la Direction consent l’attribution d’une enveloppe de 5% de la masse salariale.""", [{"augmentation générale": "5%"}]),
        ("""Une augmentation de 2% de la masse salariale sera appliquée au 1er janvier 2023.""", [{"augmentation générale": "2%"}]),
        ("""Suite à une année profitable, la direction attribue une augmentation générale de 3% à tous les employés.""", [{"augmentation générale": "3%"}]),
        ("""2,5% d'augmentation globale sont prévus pour le second trimestre de 2023.""", [{"augmentation générale": "2,5%"}]),
        ("""Après négociations avec les syndicats, une augmentation de 1% de la masse salariale a été accordée.""", [{"augmentation générale": "1%"}]),
        ("""Le comité de direction annonce une augmentation globale de 4% de la masse salariale pour le prochain exercice fiscal.""", [{"augmentation générale": "4%"}]),
        ("""En raison des excellents résultats de cette année, une enveloppe de 3,5% sera réservée pour l'augmentation générale des salaires.""", [{"augmentation générale": "3,5%"}]),
        ("""Le budget pour les augmentations salariales pour l'année à venir est fixé à 2% de la masse salariale globale.""", [{"augmentation générale": "2%"}]),
        ("""Après évaluation des performances de l'entreprise, une augmentation générale de 1,5% sera appliquée au mois de juin.""", [{"augmentation générale": "1,5%"}]),
        ("""Une augmentation de 2,8% de la masse salariale est prévue pour le troisième trimestre de l'année prochaine.""", [{"augmentation générale": "2,8%"}]),
        ("""Le conseil d'administration a approuvé une augmentation globale de 4,5% de la masse salariale, applicable en avril.""", [{"augmentation générale": "4,5%"}])
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        ("""Mise en oeuvre d'une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros, de 2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",[{"ouvrier": "3%"}]), 
        ("""Augmentation individuelle pour les ouvriers et employés: Une enveloppe de 2% de la masse salariale du personnel Ouvrier et employé sera destinée à des augmentations individuelles.""",[{"ouvrier": "2"}]), 
        ("""Suite à une évaluation de performance, les ouvriers bénéficieront d'une augmentation de salaire de 1.5%.""",[{"ouvrier": "1.5"}]), 
        ("""Des augmentations salariales individuelles de 2,5% seront attribuées aux ouvriers ayant plus de 5 ans d'ancienneté.""",[{"ouvrier": "2.5"}]), 
        ("""Les ouvriers ayant atteint leurs objectifs recevront une augmentation individuelle de 3%.""",[{"ouvrier": "3"}]), 
        ("""Un bonus mérité de 1% sera accordé aux ouvriers ayant une performance exceptionnelle.""",[{"ouvrier": "1"}]), 
        ("""Les ouvriers qui ont suivi une formation continue recevront une augmentation individuelle de 2%.""",[{"ouvrier": "2"}]), 
        ("""Suite aux négociations avec les représentants du personnel, une augmentation de 1.8% sera attribuée au mérite pour les ouvriers.""",[{"ouvrier": "1.8"}]), 
        ("""Pour les employés ayant moins de 2 ans d'ancienneté, une augmentation de salaire au mérite de 2.2% est prévue.""",[{"ouvrier": "2.2"}]), 
        ("""Des augmentations individuelles de 2,7% sont envisagées pour les ouvriers et employés contribuant à des projets à haute valeur ajoutée.""",[{"ouvrier": "2.7"}]), 
        ("""Une enveloppe de 3% est réservée pour les augmentations individuelles des ouvriers au cours du premier semestre.""",[{"ouvrier": "3"}])
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniciens, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        ("""Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros, de 2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",[{"intermediaires": "2%"}]),
        ("""Pour les catégories Agents de maîtrise et Cadres : Sans remettre en cause le principe d’une enveloppe globale destinée aux augmentations individuelles, conformément aux procédures applicables au sein de la société il est convenu, par anticipation sur ladite enveloppe, d’une augmentation pour l’ensemble des salariés desdites catégories, de 3.5 % à valoir sur les augmentations individuelles à intervenir en février 2023.""",[{"intermediaires": "3.5%"}]),
        ("""Une augmentation de 2% sera attribuée aux techniciens ayant réussi à améliorer les processus de travail.""",[{"intermediaires": "2%"}]),
        ("""Les agents de maîtrise ayant une ancienneté de 10 ans et plus bénéficieront d'une augmentation de 1.8% distribuée à la discrétion du manager.""",[{"intermediaires": "1.8%"}]),
        ("""Une augmentation de 2.5% est réservée pour les professions intermédiaires qui ont dépassé leurs objectifs.""",[{"intermediaires": "2.5%"}]),
        ("""Les techniciens ayant des compétences en gestion de projet recevront une augmentation de 3%.""",[{"intermediaires": "3%"}]),
        ("""Pour les professions intermédiaires en charge de la formation des nouveaux employés, une augmentation de 1.5% sera attribuée.""",[{"intermediaires": "1.5%"}]),
        ("""En reconnaissance de la performance individuelle, une augmentation de 2.3% sera accordée aux agents de maîtrise.""",[{"intermediaires": "2.3%"}]),
        ("""Les techniciens et agents de maitrise qui ont participé à des projets réussis cette année recevront une augmentation de 1.7%.""",[{"intermediaires": "1.7%"}]),
        ("""Les professions intermédiaires contribuant à la satisfaction client bénéficieront d'une augmentation de 2.2%.""",[{"intermediaires": "2.2%"}]),
        ("""Les techniciens ayant reçu une certification cette année auront droit à une augmentation de 2.8%.""",[{"intermediaires": "2.8%"}]),
    ])

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id="cadres", description="augmentation individuelle de salaire ou mérite pour un cadre, ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        ("""Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros, de 2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",[{"cadres": "1%"}]),
        ("""Pour les catégories Agents de maîtrise et Cadres : Sans remettre en cause le principe d’une enveloppe globale destinée aux augmentations individuelles, conformément aux procédures applicables au sein de la société il est convenu, par anticipation sur ladite enveloppe, d’une augmentation pour l’ensemble des salariés desdites catégories, de 3.5 % à valoir sur les augmentations individuelles à intervenir en février 2023.""",[{"cadres": "3.5%"}]),
        ("""Une augmentation de 1.5% sera accordée aux cadres ayant pris en charge des projets innovants.""",[{"cadres": "1.5%"}]),
        ("""Les ingénieurs ayant réussi à déposer un brevet auront droit à une augmentation de 2.2%.""",[{"cadres": "2.2%"}]),
        ("""Cadres ayant une ancienneté de plus de 15 ans bénéficieront d'une augmentation de 2.5%.""",[{"cadres": "2.5%"}]),
        ("""Les cadres ayant contribué à une croissance de chiffre d'affaires de plus de 10% recevront une augmentation de 1.8%.""",[{"cadres": "1.8%"}]),
        ("""Une augmentation de 1.7% est prévue pour les cadres impliqués dans le développement international de l'entreprise.""",[{"cadres": "1.7%"}]),
        ("""Pour les ingénieurs ayant mis en place des solutions éco-responsables, une augmentation de 2% sera accordée.""",[{"cadres": "2%"}]),
        ("""Les cadres impliqués dans la réussite de projets stratégiques recevront une augmentation de 2.3%.""",[{"cadres": "2.3%"}]),
        ("""Une augmentation de 2.4% sera réservée pour les cadres qui ont réussi à réduire les coûts de production de plus de 5%.""",[{"cadres": "2.4%"}]),
        ("""Les ingénieurs en charge de projets R&D bénéficieront d'une augmentation de 2.1%.""",[{"cadres": "2.1%"}]),
    ])

augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        ("""Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros, de 2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La direction dédit une enveloppe de 1% qui sera réparti à la performance et au mérite à la discretion des managers""",[{"augmentation individuelle": "1%"}]),
        ("""La direction alloue une enveloppe de 2% de la masse salariale globale pour des augmentations au mérite, à attribuer selon les évaluations de performance.""",[{"augmentation individuelle": "2%"}]),
        ("""Une augmentation de 0.5% sera accordée aux salariés ayant démontré des compétences exceptionnelles dans la gestion de projet.""",[{"augmentation individuelle": "0.5%"}]),
        ("""Pour les salariés qui ont travaillé sur des projets d'innovation, une enveloppe de 1.2% sera réservée.""",[{"augmentation individuelle": "1.2%"}]),
        ("""Des augmentations de salaire de 1.8% seront attribuées aux salariés ayant contribué de manière significative à la satisfaction des clients.""",[{"augmentation individuelle": "1.8%"}]),
        ("""Les salariés ayant contribué à la réduction des coûts de l'entreprise de plus de 10% recevront une augmentation de 2.5%.""",[{"augmentation individuelle": "2.5%"}]),
        ("""Un pourcentage d'augmentation de 1.3% sera réservé pour les salariés impliqués dans des projets de développement durable.""",[{"augmentation individuelle": "1.3%"}]),
        ("""Pour les salariés qui ont reçu des récompenses ou des distinctions professionnelles, une augmentation de 1.4% sera considérée.""",[{"augmentation individuelle": "1.4%"}]),
        ("""Une enveloppe exceptionneelle de 2.2% sera accordée aux employés qui ont dépassé leurs objectifs de ventes de plus de 20%.""",[{"augmentation individuelle": "2.2%"}]),
        ("""Les salariés ayant une ancienneté supérieure à 10 ans auront droit à une augmentation individuelle de 1.6%.""",[{"augmentation individuelle": "1.6%"}]),
        ("""Enveloppe de 1.5% pour les augmentations individuelles destinées aux employés qui ont mené des initiatives de formation continue.""",[{"augmentation individuelle": "1.5%"}])],
    attributes=[Number(id="augmentation_individuelle_tous_salaries",
    description="Augmentation individuelle accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )])

non_cadre = Object(
    id = "non_cadre",
    description = "Information sur les augmentations de salaire pour les non-cadres",
    examples = [
        ("""La direction s'accord sur une augmentation collective de 5% pour les employés non-cadres""", [{"non-cadre": "5%"}]),
        ("""Après concertation, et compte-tenu de l'inflation il a été décidé d'une augmentation de 3,4% pour tous les salariés non-cadres""", [{"non-cadre": "3,4%"}]),
        ("""Une augmentation de 2% sera attribuée aux employés non-cadres ayant plus de 5 ans d'ancienneté""", [{"non-cadre": "2%"}]),
        ("""La direction annonce une augmentation de 4% pour les employés non-cadres en reconnaissance de leur travail acharné""", [{"non-cadre": "4%"}]),
        ("""En raison des bons résultats financiers, une prime de 1,5% sera ajoutée aux salaires des employés non-cadres""", [{"non-cadre": "1.5%"}]),
        ("""Une enveloppe de 3% est réservée pour les augmentations salariales des non-cadres pour le prochain exercice fiscal""", [{"non-cadre": "3%"}]),
        ("""Les employés non-cadres recevront une augmentation de 2,5% pour compenser la hausse du coût de la vie""", [{"non-cadre": "2.5%"}]),
        ("""Une augmentation salariale de 1,8% sera mise en place pour les employés non-cadres qui ont excédé leurs objectifs""", [{"non-cadre": "1.8%"}]),
        ("""L'augmentation moyenne pour les employés non-cadres sera de 2,2% cette année""", [{"non-cadre": "2.2%"}]),
        ("""Les employés non-cadres bénéficiant d'une évaluation de performance supérieure à la moyenne recevront une augmentation de 2,7%""", [{"non-cadre": "2.7%"}]),
        ("""Une augmentation de 1,9% sera accordée aux employés non-cadres qui ont pris des initiatives positives dans leur travail""", [{"non-cadre": "1.9%"}]),
        ("""Les employés non-cadres recevront une augmentation minimale garantie de 1,2%""", [{"non-cadre": "1.2%"}])
    ],
    attributes = [
        Number(
            id = "non_cadre",
            description = "Information sur les augmentations de salaire pour les non-cadres",)
    ]
)

prime = Object(
    id="prime_ppv",
    description="Information sur la distribution d'une prime de partage de la valeur ajoutée aux salariés, aussi appelé prime macron ou pepa ou PPV. L'unité est toujours l'euro et jamais autre chose",
    examples=[
        ("La direction s'accord avec les organisations syndicales (OS) sur le versement d'une prime de partage de la valeur ajoutée de 2000 euros à tous les salariés", [{"prime_ppv":"2000"}]),
        ("Le comité d'entreprise a approuvé le versement d'une prime de partage de la valeur ajoutée de 1500 euros pour tous les salariés en CDI", [{"prime_ppv":"1500"}]),
        ("Une prime macron d'un montant de 1000 euros sera distribuée à chaque employé en décembre", [{"prime_ppv":"1000"}]),
        ("Tous les salariés éligibles recevront une prime pepa de 1200 euros cette année", [{"prime_ppv":"1200"}]),
        ("La prime de partage de la valeur ajoutée de 1800 euros sera versée à tous les employés à temps plein", [{"prime_ppv":"1800"}]),
        ("Suite à une réunion avec les représentants des salariés, une prime macron de 750 euros a été approuvée", [{"prime_ppv":"750"}]),
        ("La direction annonce le versement d'une prime pepa d'un montant de 1300 euros à tous les salariés avant la fin de l'année fiscale", [{"prime_ppv":"1300"}]),
        ("En reconnaissance de l'excellent travail accompli cette année, une prime de partage de la valeur ajoutée de 900 euros sera versée", [{"prime_ppv":"900"}]),
        ("La prime macron de cette année sera de 1100 euros pour tous les employés ayant plus d'un an d'ancienneté", [{"prime_ppv":"1100"}]),
        ("Une prime pepa de 1600 euros sera versée à tous les salariés en poste depuis plus de deux ans", [{"prime_ppv":"1600"}]),
        ("La société a annoncé une prime de partage de la valeur ajoutée de 2000 euros pour les salariés ayant atteint leurs objectifs", [{"prime_ppv":"2000"}])
    ],
    attributes=[
        Number(
            id="prime_ppv",
            description="Information sur la distribution d'une prime de partage de la valeur ajoutée aux salariés, aussi appelé prime macron ou pepa ou PPV. L'unité est toujours l'euro et jamais autre chose\
                il ne s'agit pas d'une prime transport ou d'une indemnité. Cette prime ne porte que trois noms: 'partage de la valeur ajoutée', 'pepa', 'macron'",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad,
        non_cadre,
        prime
    ]
)

# create Pydantic model
class Augmentation(BaseModel):
    augm_gen: Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros")
    augm_gen_ouv : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_gen_int : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les professions intermédiaires, techniciens et agent de maîtrise, en pourcentage ou en euros")
    augm_gen_cad : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros")
    augm_ind: Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour tous les salariés, en pourcentage ou en euros")
    augm_ind_ouv : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_ind_int : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros")
    augm_ind_cad : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros")
    non_cadre : Optional[float] = Field(..., description="Augmentation collective/générale de salaire pour les non-cadres, en pourcentage ou en euros")
    prime : Optional[int] = Field(...,description="Information sur la distribution d'une prime de partage de la valeur ajoutée aux salariés, aussi appelé prime macron ou pepa ou PPV. L'unité est toujours l'euro et jamais autre chose")
    
    @validator('augm_gen', pre=True, always=True)
    def no_empty(cls, value):
        if not value:
            raise ValueError('NA')
        return value
    
node, extraction_validator = from_pydantic(
    Augmentation,
    description="Augmentation de la masse salariale générale ou au mérite/individuelle",
    many=True,)

######### MODEL CONFIGURATION #########

openai_api_key = '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'

llm = ChatOpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=400, #token for completion
    openai_api_key=openai_api_key
)

directory = glob.glob(r"../data/text/txt/*.txt")

# Initialize an empty DataFrame to store the final results
final_df = pd.DataFrame()

# Iterate over each file in the directory
for file in directory[0:70]:
    file_name = os.path.basename(file)[0:27]
    with open(file, 'r', encoding='utf-8') as f:
        text = f.read()
   
    # Create the extraction chain
    chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", validator=extraction_validator, input_formatter="triple_quotes")

    # Define the output parser
    def my_output_parser(result):
        # Check if 'data' key is present in the result
        if 'data' in result:
            data = result['data']
            # Check if 'augmentation' key is present in the data
            if 'augmentation' in data:
                return data['augmentation']
    
    # If 'augmentation' is not found, return an empty dictionary
        return {}
    
    # Extract the data
    output = chain.predict(text=text, skip_empty=True, output_parser=my_output_parser)['data']
    # output = chain.predict_and_parse(text=text, skip_empty = True)['data']
    print(output)
    if output != {}:
        data = output['augmentation']
        print(data)

        # Create a DataFrame from the extracted data
        df = pd.DataFrame(data)
        df['Fichier'] = file_name
        print(df)

        # Append the DataFrame to the final DataFrame
        final_df = pd.concat([final_df, df], ignore_index=False)


# Save the final DataFrame to a CSV file
# final_df.to_excel('final_data.xlsx', index=False)
final_df

Clean the dataframe

In [None]:
import pandas as pd
import numpy as np

def process_dataframe_xlsx(df, output_path):
    # Replace columns names
    df.columns = ['augmentation \n générale', 'augmentation générale \n ouvriers', 'augmentation générale \n intermédiaires', 'augmentation générale \n cadres', 'augmentation \n individuelle', 'augmentation individuelle \n ouvriers', 'augmentation individuelle \n intermédiaires', 'augmentation individuelle \n cadres', 'augmentation non cadres','prime', 'Fichiers']

    # Replace the 'NA' and 0 values with NaN
    df = df.replace('NA', np.nan)
    df = df.replace(0, np.nan)

    # Drop rows where all columns in the specified subset are NaN
    df = df.dropna(axis=0, how='all', subset=['augmentation \n générale', 'augmentation générale \n ouvriers', 'augmentation générale \n intermédiaires', 'augmentation générale \n cadres', 'augmentation \n individuelle', 'augmentation individuelle \n ouvriers', 'augmentation individuelle \n intermédiaires', 'augmentation individuelle \n cadres', 'augmentation non cadres','prime'])

    # Rearrange the columns
    cols = list(df.columns.values)
    cols = cols[-1:] + cols[:4] + cols[4:-1]

    df = df[cols]

    # Return the processed DataFrame
    df.to_excel(output_path, index=False)

process_dataframe_xlsx(final_df, r'../data/processed/final_output.xlsx')
