# V1

In [167]:
import os
import glob
import json
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

#Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number
from pydantic import BaseModel, Field, validator
from kor import extract_from_documents, from_pydantic, create_extraction_chain

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

openai_api_key = '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'

# Step 1: Define Kor objects and models
augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"}
            ],
        )
    ]
)

augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"}
            ],
        )
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros",
    attributes=[
        
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"intermédiaires": "2%"},
            ],
        )
    ]
)

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"cadres": "1%"}
            ],
        )
    ]
)


augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1%""",
            [
                {"augmentation individuelle": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad
    ]
)

# create Pydantic model

class Augmentation(BaseModel):
    augm_gen: float = Field(..., description="Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros")
    augm_ind: float = Field(..., description="Augmentation individuelle de salaire ou mérite pour tous les salariés, en pourcentage ou en euros")
    augm_gen_ouv : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_gen_int : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les professions intermédiaires et agent de maîtrise, en pourcentage ou en euros")
    augm_gen_cad : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros")
    augm_ind_ouv : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_ind_int : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros")
    augm_ind_cad : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros")

    @validator('augm_gen', 'augm_ind') 
    def no_empty(cls, v):
        if not v:
            raise ValueError('NA')
        return v
    

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=230, #token for completion
    openai_api_key=openai_api_key
)


file = (r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\T00222002910-58578097600023.docx.txt")


with open(file, 'r') as f:
    text = f.read()
    
# Retrieve file name
file_name = os.path.basename(file)
file_name_without_extension = os.path.splitext(file_name)[0]
    
# Changed the encoder to json
chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", input_formatter="triple_quotes")
output = chain.predict_and_parse(text=text)['data']



In [168]:
output

{'root_node': {'augmentation_generale_ouv': [{'ouvrier': '4%'}],
  'augmentation_ind_ouv': [{'ouvrier': '2%'}],
  'augmentation_ind_int': [{'intermédiaires': '6%'}],
  'augmentation_ind_cad': [{'cadres': '5,8%'}]}}

#### V1.2

In [246]:
import os
import glob
import json
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

#Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number
from pydantic import BaseModel, Field, validator
from kor import extract_from_documents, from_pydantic, create_extraction_chain

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

openai_api_key = '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'

# Step 1: Define Kor objects and models
augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"}
            ],
        )
    ]
)

augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"}
            ],
        )
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros",
    attributes=[
        
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"intermédiaires": "2%"},
            ],
        )
    ]
)

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"cadres": "1%"}
            ],
        )
    ]
)


augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1%""",
            [
                {"augmentation individuelle": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad
    ]
)

# create Pydantic model

class Augmentation(BaseModel):
    augm_gen: Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros")
    augm_ind: Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour tous les salariés, en pourcentage ou en euros")
    augm_gen_ouv : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_gen_int : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les professions intermédiaires et agent de maîtrise, en pourcentage ou en euros")
    augm_gen_cad : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros")
    augm_ind_ouv : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_ind_int : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros")
    augm_ind_cad : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros")

    @validator('augm_gen', 'augm_ind') 
    def no_empty(cls, v):
        if not v:
            raise ValueError('NA')
        return v
    
node, extraction_validator = from_pydantic(
    Augmentation,
    description="Augmentation de la masse salariale générale ou au mérite/individuelle",
    many=True,)

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=230, #token for completion
    openai_api_key=openai_api_key
)

file = (r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\T00222002910-58578097600023.docx.txt")


with open(file, 'r') as f:
    text = f.read()
    
# Changed the encoder to json
chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", validator=extraction_validator, input_formatter="triple_quotes")
output = chain.predict_and_parse(text=text)['data']



In [247]:
output

{'augmentation': [{'augm_gen': 4,
   'augm_ind': 2,
   'augm_gen_ouv': 4,
   'augm_gen_int': 0,
   'augm_gen_cad': 0,
   'augm_ind_ouv': 0,
   'augm_ind_int': 6,
   'augm_ind_cad': 5.8}]}

The problem of data expression were coming from bad example. Still I don't get why it computes 0 rather than NA as asked

In [227]:
output

{'augmentation': [{'augm_gen': 4,
   'augm_ind': 2,
   'augm_gen_ouv': 4,
   'augm_gen_int': 0,
   'augm_gen_cad': 0,
   'augm_ind_ouv': 0,
   'augm_ind_int': 6,
   'augm_ind_cad': 5.8}]}

In [228]:
data = output['augmentation']
df = pd.DataFrame(data)
df.columns = ['augmentation générale', 'augmentation individuelle', 'augmentation générale ouvriers', 'augmentation générale intermédiaires', 'augmentation générale cadres', 'augmentation individuelle ouvriers', 'augmentation individuelle intermédiaires', 'augmentation individuelle cadres']
df

Unnamed: 0,augmentation générale,augmentation individuelle,augmentation générale ouvriers,augmentation générale intermédiaires,augmentation générale cadres,augmentation individuelle ouvriers,augmentation individuelle intermédiaires,augmentation individuelle cadres
0,4,2,4,0,0,0,6,5.8


**It works**

Unnamed: 0,0
0,augmentation


**Iteration**

In [229]:
import os
import glob
import json
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

#Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number
from pydantic import BaseModel, Field, validator
from kor import extract_from_documents, from_pydantic, create_extraction_chain

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

openai_api_key = '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'

# Step 1: Define Kor objects and models
augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"}
            ],
        )
    ]
)

augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"}
            ],
        )
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros",
    attributes=[
        
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"intermédiaires": "2%"},
            ],
        )
    ]
)

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"cadres": "1%"}
            ],
        )
    ]
)


augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1%""",
            [
                {"augmentation individuelle": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad
    ]
)

# create Pydantic model

class Augmentation(BaseModel):
    augm_gen: Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros")
    augm_ind: Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour tous les salariés, en pourcentage ou en euros")
    augm_gen_ouv : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_gen_int : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les professions intermédiaires et agent de maîtrise, en pourcentage ou en euros")
    augm_gen_cad : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros")
    augm_ind_ouv : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_ind_int : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros")
    augm_ind_cad : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros")

    @validator('augm_gen') 
    def no_empty(cls, v):
        if not v:
            raise ValueError('NA')
        return v
    
node, extraction_validator = from_pydantic(
    Augmentation,
    description="Augmentation de la masse salariale générale ou au mérite/individuelle",

    many=True,)

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=230, #token for completion
    openai_api_key=openai_api_key
)

file = (r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\T00222002910-58578097600023.docx.txt")


with open(file, 'r') as f:
    text = f.read()
    
# Changed the encoder to json
chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", validator=extraction_validator, input_formatter="triple_quotes")
output = chain.predict_and_parse(text=text)['data']

data = output['augmentation']
df = pd.DataFrame(data)
df.columns = ['augmentation générale', 'augmentation individuelle', 'augmentation générale ouvriers', 'augmentation générale intermédiaires', 'augmentation générale cadres', 'augmentation individuelle ouvriers', 'augmentation individuelle intermédiaires', 'augmentation individuelle cadres']
df



Unnamed: 0,augmentation générale,augmentation individuelle,augmentation générale ouvriers,augmentation générale intermédiaires,augmentation générale cadres,augmentation individuelle ouvriers,augmentation individuelle intermédiaires,augmentation individuelle cadres
0,4,2,4,0,0,0,6,5.8


In [267]:
import os
import glob
import json
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

#Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number
from pydantic import BaseModel, Field, validator
from kor import extract_from_documents, from_pydantic, create_extraction_chain

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

openai_api_key = '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'

# Step 1: Define Kor objects and models
augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"}
            ],
        )
    ]
)

augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"}
            ],
        )
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros",
    attributes=[
        
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"intermédiaires": "2%"},
            ],
        )
    ]
)

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"cadres": "1%"}
            ],
        )
    ]
)


augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1%""",
            [
                {"augmentation individuelle": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad
    ]
)

# create Pydantic model

class Augmentation(BaseModel):
    augm_gen: Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros")
    augm_ind: Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour tous les salariés, en pourcentage ou en euros")
    augm_gen_ouv : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_gen_int : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les professions intermédiaires et agent de maîtrise, en pourcentage ou en euros")
    augm_gen_cad : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros")
    augm_ind_ouv : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_ind_int : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros")
    augm_ind_cad : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros")

    @validator('augm_gen') 
    def no_empty(cls, v):
        if not v:
            raise ValueError('NA')
        return v
    
node, extraction_validator = from_pydantic(
    Augmentation,
    description="Augmentation de la masse salariale générale ou au mérite/individuelle",

    many=True,)

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=230, #token for completion
    openai_api_key=openai_api_key
)

directory = r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\*.txt"

# Initialize an empty DataFrame to store the final results
final_df = pd.DataFrame()

# Iterate over each file in the directory
for file in glob.glob(directory):
    with open(file, 'r') as f:
        text = f.read()

    # Create the extraction chain
    chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", validator=extraction_validator, input_formatter="triple_quotes")
   
    # Predict and parse the text using the extraction chain
    output = chain.predict_and_parse(text=text)['data']
    data = output['augmentation']
    print(data)
    # Create a DataFrame from the extracted data
    df = pd.DataFrame(data)
    df.columns = ['augmentation générale', 'augmentation individuelle', 'augmentation générale ouvriers', 'augmentation générale intermédiaires', 'augmentation générale cadres', 'augmentation individuelle ouvriers', 'augmentation individuelle intermédiaires', 'augmentation individuelle cadres']
    
    # Append the DataFrame to the final DataFrame
    final_df = pd.concat([final_df, df], ignore_index=False)
    print(final_df)
    
# Save the final DataFrame to a CSV file
final_df.to_csv('final_data.csv', index=False)



[{'augm_gen': 4, 'augm_ind': 2, 'augm_gen_ouv': 4, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind_ouv': 0, 'augm_ind_int': 6, 'augm_ind_cad': 5.8}]
   augmentation générale  augmentation individuelle  \
0                      4                          2   

   augmentation générale ouvriers  augmentation générale intermédiaires  \
0                               4                                     0   

   augmentation générale cadres  augmentation individuelle ouvriers  \
0                             0                                   0   

   augmentation individuelle intermédiaires  augmentation individuelle cadres  
0                                         6                               5.8  
[{'augm_gen': 3.5, 'augm_ind': 0, 'augm_gen_ouv': 3.5, 'augm_gen_int': 0, 'augm_gen_cad': 3.5, 'augm_ind_ouv': 0, 'augm_ind_int': 0, 'augm_ind_cad': 0}]
   augmentation générale  augmentation individuelle  \
0                    4.0                          2   
0                    3.

In [268]:
final_df

Unnamed: 0,augmentation générale,augmentation individuelle,augmentation générale ouvriers,augmentation générale intermédiaires,augmentation générale cadres,augmentation individuelle ouvriers,augmentation individuelle intermédiaires,augmentation individuelle cadres
0,4.0,2.0,4.0,0.0,0.0,0.0,6.0,5.8
0,3.5,0.0,3.5,0.0,3.5,0.0,0.0,0.0
0,3.5,,,,,,,
0,6.25,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0,3.0,0.0,3.0,0.0,0.0,0.0,0.0,0.0
0,4.8,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [165]:
# Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

openai_api_key = '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'

llm = OpenAI(
    model_name = "gpt-3.5-turbo",
    temperature=0,
    max_tokens=230, #token for completion
    openai_api_key=openai_api_key
)

augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"}
            ],
        )
    ]
)

augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"}
            ],
        )
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros",
    attributes=[
        
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"intermédiaires": "2%"},
            ],
        )
    ]
)

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"cadres": "1%"}
            ],
        )
    ]
)


augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1%""",
            [
                {"augmentation individuelle": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad
    ]
)

file = (r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\T00222002910-58578097600023.docx.txt")


with open(file, 'r') as f:
    text = f.read()
    
# Retrieve file name
file_name = os.path.basename(file)
file_name_without_extension = os.path.splitext(file_name)[0]
    
# Changed the encoder to json
chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", input_formatter="triple_quotes")
output = chain.predict_and_parse(text=text)['data']





In [166]:
output

{'root_node': {'augmentation_generale_ouv': [{'ouvrier': '4%'}],
  'augmentation_ind_ouv': [{'ouvrier': '2%'}],
  'augmentation_ind_int': [{'intermédiaires': '6%'}],
  'augmentation_ind_cad': [{'cadres': '5,8%'}],
  'augmentation_generale_csp': [{'cadres': '5,8%'}],
  'augmentation_generale_int': [{'intermédiaires': '4%'}],
  'augmentation_ind': [{'augmentation individuelle': '6%'}],
  'augmentation_generale': [{'augmentation générale': '4%'}]}}

# V2

In [261]:
# Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number
from kor import extract_from_documents

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI
from langchain.callbacks import get_openai_callback

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

#from intertools
import itertools

openai_api_key = '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'

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=1000, #token for completion
    openai_api_key=openai_api_key
)

augmentation_gen_csp = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base par catégorie socio-professionnelle, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros"),
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros"),
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%", "augmentation_gen_csp" : ["employés", "agents de maitrise"]}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_csp = Object(
    id="augmentation_ind_csp",
    description="augmentation individuelle de salaire ou mérite par catégorie socio-professionnelle, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros"),
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros"),
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"},
                {"intermédiaires": "2%"},
                {"cadres": "1%"}
            ],
        )
    ]
)

augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1%""",
            [
                {"augmentation individuelle": "1%", "augmentation_ind_csp" : ["employés", "agents de maitrise"]}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)


node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_ind,
        augmentation_ind_csp,
        augmentation_gen_csp
    ]
)

# create Pydantic model


file = (r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\T00222002910-58578097600023.docx.txt")


with open(file, 'r') as f:
    text = f.read()
    
# Retrieve file name
file_name = os.path.basename(file)
file_name_without_extension = os.path.splitext(file_name)[0]
    
# Changed the encoder to json
chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", input_formatter="triple_quotes")
output = chain.predict_and_parse(text=text)['data']
print(output)





{'root_node': {'augmentation_generale': [{'augmentation_generale_tous_salaries': '4%'}]}, 'augmentation_ind_csp': [{'ouvrier': '2%'}, {'intermediaires': '6%'}, {'cadres': '5.8%'}]}


In [264]:
data = output['root_node']
df = pd.DataFrame(data)
print(df)

                           augmentation_generale
0  {'augmentation_generale_tous_salaries': '4%'}


Must transfrom data to exclude the possibility of empty cases. Pydantic?

In [190]:
def gen_dataframe(json_data):
    data = []

    for record in json_data:
        record_data = record.get('data', {}).get('augmentation', [])
        for augm in record_data:
            data.append([
                augm.get('augm_gen', ''),
                augm.get('augm_gen_ouv', ''),
                augm.get('augm_gen_int', ''),
                augm.get('augm_gen_cad', ''),
                augm.get('augm_ind', ''),
                augm.get('augm_ind_ouv', ''),
                augm.get('augm_ind_int', ''),
                augm.get('augm_ind_cad', '')
            ])
    df = pd.DataFrame(data, columns=['augmentation générale', 'augmentation genérale ouvrier', 'augmentation générale intermédiaire', 'augmentation genérale cadre', 'augmentation individuelle','augmentation individuelle ouvrier', 'augmentation individuelle intermédiaires', 'augmentation individuelle cadre'])
    return df

df = gen_dataframe(output)

AttributeError: 'str' object has no attribute 'get'

In [155]:
def extract_info(json_data):
    for record in json_data:
        augm_list = record.get('root_node', {})
        for augm in augm_list:
            augm_gen = augm.get('augm_gen', '')
            augm_ind = augm.get('augm_ind', '')
            augm_gen_ouv = augm.get('augm_gen_ouv', '')
            augm_gen_int = augm.get('augm_gen_int', '')
            augm_gen_cad = augm.get('augm_gen_cad', '')
            augm_ind_ouv = augm.get('augm_ind_ouv', '')
            augm_ind_int = augm.get('augm_ind_int', '')
            augm_ind_cad = augm.get('augm_ind_cad', '')

            print(f'Augmentation générale: {augm_gen}\nAugmentation individuelle: {augm_ind}\nAugmentation générale ouvriers: {augm_gen_ouv}\nAugmentation générale intermédiaires: {augm_gen_int}\nAugmentation générale cadres: {augm_gen_cad}\nAugmentation individuelle ouvriers: {augm_ind_ouv}\nAugmentation individuelle intermédiaires: {augm_ind_int}\nAugmentation individuelle cadres: {augm_ind_cad}\n')



extract_info(output)

AttributeError: 'str' object has no attribute 'get'

## V2.2

In [191]:
from typing import List, Optional

from langchain.callbacks import get_openai_callback
from langchain.chat_models import ChatOpenAI

from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number

import pandas as pd
from pydantic import BaseModel, Field, validator
from kor import extract_from_documents, from_pydantic, create_extraction_chain


from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter

import json

def load_file(filename):
    with open(filename, 'r') as f:
        content = f.read()
    return content

In [192]:
# Load file
nao = load_file(r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\T00222002910-58578097600023.docx.txt")

In [193]:
# optional: split text into chunks
doc = Document(page_content=nao)
splitter = RecursiveCharacterTextSplitter(chunk_size=3000, chunk_overlap=100)
split_docs = splitter.split_documents([doc])

In [194]:
#charge model
openai_api_key = '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'

llm = ChatOpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    openai_api_key=openai_api_key
)

In [195]:
# create Pydantic model

class Augmentation(BaseModel):
    augm_gen: float = Field(..., description="Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros")
    augm_ind: float = Field(..., description="Augmentation individuelle de salaire ou mérite pour tous les salariés, en pourcentage ou en euros")
    augm_gen_ouv : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_gen_int : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les professions intermédiaires et agent de maîtrise, en pourcentage ou en euros")
    augm_gen_cad : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros")
    augm_ind_ouv : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_ind_int : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros")
    augm_ind_cad : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros")

    @validator('augm_gen', 'augm_ind') 
    def no_empty(cls, v):
        if not v:
            raise ValueError('NA')
        return v

In [202]:
schema, extraction_validator = from_pydantic(
    Augmentation,
    description="Augmentation de la masse salariale générale ou au mérite/individuelle",
    examples=[
        ("""Mise en œuvre d’une révision salariale annuelle individuelle de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1.5%""",
            {"augm_ind":"1%", "augm_ind_ouv": "3%", "augm_ind_int": "2%", "augm_ind_cad": "1.5%"},
),
("""A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 2% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
    à l’ensemble des collaborateurs ouvriers, employés, les techniciens \
    et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022 auront 3% et 2.3% pour les cadres et ingénieurs, hors direction""",
    {"augm_gen": "2%", "aug_gen_ouv": "5%", "augm_gen_int": "3%", "augm_gen_cad": "2.3%"},  
    )
    ],
    many=True,
)

In [203]:
chain = create_extraction_chain(llm, schema, encoder_or_encoder_class
="json", validator = extraction_validator, input_formatter="triple_quotes")

In [204]:
document_extraction_results = await extract_from_documents(
        chain, split_docs, max_concurrency=5, use_uid=False, return_exceptions=True
    )

In [205]:
type(document_extraction_results)

list

In [206]:
# We make the data reader friendly

def extract_info(json_data):
    for record in json_data:
        augm_list = record.get('data', {}).get('augmentation', [])
        for augm in augm_list:
            augm_gen = augm.get('augm_gen', '')
            augm_ind = augm.get('augm_ind', '')
            augm_gen_ouv = augm.get('augm_gen_ouv', '')
            augm_gen_int = augm.get('augm_gen_int', '')
            augm_gen_cad = augm.get('augm_gen_cad', '')
            augm_ind_ouv = augm.get('augm_ind_ouv', '')
            augm_ind_int = augm.get('augm_ind_int', '')
            augm_ind_cad = augm.get('augm_ind_cad', '')

            print(f'Augmentation générale: {augm_gen}\nAugmentation individuelle: {augm_ind}\nAugmentation générale ouvriers: {augm_gen_ouv}\nAugmentation générale intermédiaires: {augm_gen_int}\nAugmentation générale cadres: {augm_gen_cad}\nAugmentation individuelle ouvriers: {augm_ind_ouv}\nAugmentation individuelle intermédiaires: {augm_ind_int}\nAugmentation individuelle cadres: {augm_ind_cad}\n')

extract_info(document_extraction_results)

Augmentation générale: 
Augmentation individuelle: 
Augmentation générale ouvriers: 4%
Augmentation générale intermédiaires: 
Augmentation générale cadres: 
Augmentation individuelle ouvriers: 2%
Augmentation individuelle intermédiaires: 6%
Augmentation individuelle cadres: 

Augmentation générale: 
Augmentation individuelle: 6%
Augmentation générale ouvriers: 
Augmentation générale intermédiaires: 
Augmentation générale cadres: 
Augmentation individuelle ouvriers: 
Augmentation individuelle intermédiaires: 
Augmentation individuelle cadres: 



In [207]:
# We structure them in a dataframe

def gen_dataframe(json_data):
    data = []

    for record in json_data:
        record_data = record.get('data', {}).get('augmentation', [])
        for augm in record_data:
            data.append([
                augm.get('augm_gen', ''),
                augm.get('augm_gen_ouv', ''),
                augm.get('augm_gen_int', ''),
                augm.get('augm_gen_cad', ''),
                augm.get('augm_ind', ''),
                augm.get('augm_ind_ouv', ''),
                augm.get('augm_ind_int', ''),
                augm.get('augm_ind_cad', '')
            ])
    df = pd.DataFrame(data, columns=['augmentation générale', 'augmentation genérale ouvrier', 'augmentation générale intermédiaire', 'augmentation genérale cadre', 'augmentation individuelle','augmentation individuelle ouvrier', 'augmentation individuelle intermédiaires', 'augmentation individuelle cadre'])
    return df

df = gen_dataframe(document_extraction_results)
df

Unnamed: 0,augmentation générale,augmentation genérale ouvrier,augmentation générale intermédiaire,augmentation genérale cadre,augmentation individuelle,augmentation individuelle ouvrier,augmentation individuelle intermédiaires,augmentation individuelle cadre
0,,4%,,,,2%,6%,
1,,,,,6%,,,


# First model for txt doc

In [21]:
import os
import glob
import json
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

#Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number
from pydantic import BaseModel, Field, validator
from kor import extract_from_documents, from_pydantic, create_extraction_chain

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

openai_api_key = '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'

# Step 1: Define Kor objects and models
augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"}
            ],
        )
    ]
)

augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"}
            ],
        )
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros",
    attributes=[
        
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"intermédiaires": "2%"},
            ],
        )
    ]
)

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"cadres": "1%"}
            ],
        )
    ]
)


augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1%""",
            [
                {"augmentation individuelle": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad
    ]
)

# create Pydantic model

class Augmentation(BaseModel):
    augm_gen: Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros")
    augm_ind: Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour tous les salariés, en pourcentage ou en euros")
    augm_gen_ouv : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_gen_int : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les professions intermédiaires et agent de maîtrise, en pourcentage ou en euros")
    augm_gen_cad : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros")
    augm_ind_ouv : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_ind_int : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros")
    augm_ind_cad : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros")

    @validator('augm_gen') 
    def must_not_be_empty(cls, v):
        if not v:
            raise ValueError('NA')
        return v
    
node, extraction_validator = from_pydantic(
    Augmentation,
    description="Augmentation de la masse salariale générale ou au mérite/individuelle",

    many=True,)

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=230, #token for completion
    openai_api_key=openai_api_key
)

directory = r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\*.txt"

# Initialize an empty DataFrame to store the final results
final_df = pd.DataFrame()

# Iterate over each file in the directory
for file in glob.glob(directory):
    with open(file, 'r') as f:
        text = f.read()

    # Create the extraction chain
    chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", validator=extraction_validator, input_formatter="triple_quotes")
   
    # Predict and parse the text using the extraction chain
    output = chain.predict_and_parse(text=text)['data']
    data = output['augmentation']
    print(data)
    # Create a DataFrame from the extracted data
    df = pd.DataFrame(data)
    df.columns = ['augmentation générale', 'augmentation individuelle', 'augmentation générale ouvriers', 'augmentation générale intermédiaires', 'augmentation générale cadres', 'augmentation individuelle ouvriers', 'augmentation individuelle intermédiaires', 'augmentation individuelle cadres']
    
    # Append the DataFrame to the final DataFrame
    final_df = pd.concat([final_df, df], ignore_index=False)

    
# Save the final DataFrame to a CSV file
final_df.to_csv('final_data.csv', index=False)
final_df



[{'augm_gen': 4, 'augm_ind': 2, 'augm_gen_ouv': 4, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind_ouv': 0, 'augm_ind_int': 6, 'augm_ind_cad': 5.8}]
[{'augm_gen': 3.5, 'augm_ind': 0, 'augm_gen_ouv': 3.5, 'augm_gen_int': 0, 'augm_gen_cad': 3.5, 'augm_ind_ouv': 0, 'augm_ind_int': 0, 'augm_ind_cad': 0}]
[{'augm_gen': 3.5, 'augm_ind': None, 'augm_gen_ouv': None, 'augm_gen_int': None, 'augm_gen_cad': None, 'augm_ind_ouv': None, 'augm_ind_int': None, 'augm_ind_cad': None}]
[{'augm_gen': 6.25, 'augm_ind': 0, 'augm_gen_ouv': 0, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind_ouv': 0, 'augm_ind_int': 0, 'augm_ind_cad': 0}]
[{'augm_gen': 3, 'augm_ind': 0, 'augm_gen_ouv': 3, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind_ouv': 0, 'augm_ind_int': 0, 'augm_ind_cad': 0}]
[{'augm_gen': 4.8, 'augm_ind': 0, 'augm_gen_ouv': 0, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind_ouv': 0, 'augm_ind_int': 0, 'augm_ind_cad': 0}]


Unnamed: 0,augmentation générale,augmentation individuelle,augmentation générale ouvriers,augmentation générale intermédiaires,augmentation générale cadres,augmentation individuelle ouvriers,augmentation individuelle intermédiaires,augmentation individuelle cadres
0,4.0,2.0,4.0,0.0,0.0,0.0,6.0,5.8
0,3.5,0.0,3.5,0.0,3.5,0.0,0.0,0.0
0,3.5,,,,,,,
0,6.25,0.0,0.0,0.0,0.0,0.0,0.0,0.0
0,3.0,0.0,3.0,0.0,0.0,0.0,0.0,0.0
0,4.8,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [3]:
import os
import glob
import json
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

#Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number
from pydantic import BaseModel, Field, validator
from kor import extract_from_documents, from_pydantic, create_extraction_chain

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

from typing import Optional

import numpy as np

openai_api_key = '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'

# Step 1: Define Kor objects and models
augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"}
            ],
        )
    ]
)

augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"}
            ],
        )
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros",
    attributes=[
        
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"intermédiaires": "2%"},
            ],
        )
    ]
)

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"cadres": "1%"}
            ],
        )
    ]
)


augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1%""",
            [
                {"augmentation individuelle": "1%"}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad
    ]
)

# create Pydantic model

class Augmentation(BaseModel):
    augm_gen: Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros")
    augm_ind: Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour tous les salariés, en pourcentage ou en euros")
    augm_gen_ouv : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_gen_int : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les professions intermédiaires et agent de maîtrise, en pourcentage ou en euros")
    augm_gen_cad : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros")
    augm_ind_ouv : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_ind_int : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros")
    augm_ind_cad : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros")

    
    @validator('augm_gen') 
    def no_empty(cls, v):
        if not v:
            raise ValueError('NA')
        return v
    
node, extraction_validator = from_pydantic(
    Augmentation,
    description="Augmentation de la masse salariale générale ou au mérite/individuelle",
    many=True,)

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=230, #token for completion
    openai_api_key=openai_api_key
)

directory = r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\*.txt"

# Initialize an empty DataFrame to store the final results
final_df = pd.DataFrame()

# Iterate over each file in the directory
for file in glob.glob(directory):
    file_name = os.path.basename(file)[0:26]
    with open(file, 'r') as f:
        text = f.read()
    
    # Create the extraction chain
    chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", validator=extraction_validator, input_formatter="triple_quotes")
   
    # Predict and parse the text using the extraction chain
    output = chain.predict_and_parse(text=text, skip_empty = True)['data']
    print(output)
    if output != {}:
        data = output['augmentation']
        print(data)

        # Create a DataFrame from the extracted data
        df = pd.DataFrame(data)
        df['Fichier'] = file_name

        # Append the DataFrame to the final DataFrame
        final_df = pd.concat([final_df, df], ignore_index=False)
    

# Save the final DataFrame to a CSV file
final_df.to_csv('final_data.csv', index=False)
final_df



{}
{}
{'augmentation': [{'augm_gen': 2, 'augm_ind': 0, 'augm_gen_ouv': 2, 'augm_gen_int': 2, 'augm_gen_cad': 2, 'augm_ind_ouv': 0, 'augm_ind_int': 0, 'augm_ind_cad': 0}]}
[{'augm_gen': 2, 'augm_ind': 0, 'augm_gen_ouv': 2, 'augm_gen_int': 2, 'augm_gen_cad': 2, 'augm_ind_ouv': 0, 'augm_ind_int': 0, 'augm_ind_cad': 0}]
{'augmentation': [{'augm_gen': 4, 'augm_ind': 2, 'augm_gen_ouv': 4, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind_ouv': 0, 'augm_ind_int': 6, 'augm_ind_cad': 5.8}]}
[{'augm_gen': 4, 'augm_ind': 2, 'augm_gen_ouv': 4, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind_ouv': 0, 'augm_ind_int': 6, 'augm_ind_cad': 5.8}]
{'augmentation': [{'augm_gen': 4, 'augm_ind': 2, 'augm_gen_ouv': 4, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind_ouv': 0, 'augm_ind_int': 6, 'augm_ind_cad': 5.8}]}
[{'augm_gen': 4, 'augm_ind': 2, 'augm_gen_ouv': 4, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind_ouv': 0, 'augm_ind_int': 6, 'augm_ind_cad': 5.8}]
{'augmentation': [{'augm_gen': 3.5, 'augm_ind': No

Unnamed: 0,augm_gen,augm_ind,augm_gen_ouv,augm_gen_int,augm_gen_cad,augm_ind_ouv,augm_ind_int,augm_ind_cad,Fichier
0,2.0,0.0,2.0,2.0,2.0,0.0,0.0,0.0,T00222002889-7756634530005
0,4.0,2.0,4.0,0.0,0.0,0.0,6.0,5.8,T00222002910-5857809760002
0,4.0,2.0,4.0,0.0,0.0,0.0,6.0,5.8,T00222002910-5857809760002
0,3.5,,,,,,,,T00622007603-9578105420005
0,3.5,0.0,3.5,0.0,3.5,0.0,0.0,0.0,T00722001655-3051201070001
0,3.5,0.0,3.5,0.0,3.5,0.0,0.0,0.0,T00722001655-3051201070001
0,6.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,T00722001685-3132427780005
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,T00822001529-8478858450001
0,4.5,0.0,4.5,4.5,4.5,0.0,0.0,0.0,T01222001892-3950018520011
0,4.92,0.0,3.79,0.0,0.0,0.0,1.13,0.0,T01322016417-3521767210011


Clean the data set

In [4]:
import pandas as pd
import numpy as np

def process_dataframe_csv(filename):
    # Read the CSV file into a DataFrame
    df = pd.read_csv(filename)

    #replace columns name
    df.columns = ['augmentation générale', 'augmentation individuelle', 'augmentation générale ouvriers', 'augmentation générale intermédiaires', 'augmentation générale cadres', 'augmentation individuelle ouvriers', 'augmentation individuelle intermédiaires', 'augmentation individuelle cadres', 'Fichiers']

    # Replace the 'NA' and 0 values with NaN
    df = df.replace('NA', np.nan)
    df = df.replace(0, np.nan)

    # Rearrange the columns
    cols = list(df.columns.values)
    cols = cols[-1:] + cols[:4] + cols[4:-1]
    cols = cols[:2] + cols[3:6] + cols[2:3] + cols[6:]
    df = df[cols]

    # Return the processed DataFrame
    df.to_csv('processed_df.csv', index=False)

process_dataframe_csv('final_data.csv')

In [1]:
import os
import glob
import json
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

#Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number
from pydantic import BaseModel, Field, validator
from kor import extract_from_documents, from_pydantic, create_extraction_chain

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

from typing import Optional

import numpy as np

openai_api_key = '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'

# Step 1: Define Kor objects and models
augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés. Les techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022 bénéficeriont d'une augmentation de 4%. Les cadres bénéfieceront d'une augmentation des salaires de base \
            de 3%""",
            [
                {"ouvrier": "5%"}
            ]),
            
           ( """Pour les non-cadres : Une augmentation générale de 4,5 % applicable en novembre 2022\
            avec une augmentation minimale de 100 euros brut mensuel. Cette augmentation minimale sera versée en janvier 2023.""",
            [
                {"ouvrier": "4,5"}
            ]
        )
    ]
)

augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, techniciens, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés. Les techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022 bénéficeriont d'une augmentation de 4%. Les cadres bénéfieceront d'une augmentation des salaires de base \
            de 3%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "4%"},
                {"cadres": "3%"}
            ]),
            
            ("""Pour les non-cadres : Une augmentation générale de 4,5 % applicable en novembre 2022\
            avec une augmentation minimale de 100 euros brut mensuel. Cette augmentation minimale sera versée en janvier 2023.""",
            [
                {"intermédiaires": "4,5"}
            ],
        )
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"cadres": "3%"}
            ]),
            
            ("""Pour les non-cadres : Une augmentation générale de 4,5 % applicable en novembre 2022\
            avec une augmentation minimale de 100 euros brut mensuel. Cette augmentation minimale sera versée en janvier 2023.""",
            [
                {"cadres": "0"}
            ]
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%"}
            ]),
            (""" Concernant les augmentations individuelles, la Direction consent l’attribution d’une enveloppe de 5% de la masse salariale.""",
            [
                {"augmentation générale" : "5%"}
            ]
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle (ouvrier, intermédiaire, cadres), en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"}
            ]),
            ("""Augmentation individuelle pour les ouvriers et employés:
            Une enveloppe de 2% de la masse salariale du personnel Ouvrier et employé sera destinée à des augmentations individuelles. 
            """,
            [
                {"ouvrier":"2"}
            ]
        )
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros",
    attributes=[
        
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"intermédiaires": "2%"},
            ]),
            ("""Pour les catégories Agents de maîtrise et Cadres  : 

            Sans remettre en cause le principe d’une enveloppe globale destinée aux augmentations individuelles, conformément aux procédures applicables au sein de la société il est convenu, par anticipation sur ladite enveloppe,\
            d’une augmentation pour l’ensemble des salariés desdites catégories, de 3.5 % à valoir sur les augmentations individuelles à intervenir en février 2023.""",
            [
                {"intermédiaires":" 3.5%"}
            ]

        )
    ]
)

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"cadres": "1%"}
            ]),
            ("""Pour les catégories Agents de maîtrise et Cadres  : 

            Sans remettre en cause le principe d’une enveloppe globale destinée aux augmentations individuelles, conformément aux procédures applicables au sein de la société il est convenu, par anticipation sur ladite enveloppe,\
            d’une augmentation pour l’ensemble des salariés desdites catégories, de 3.5 % à valoir sur les augmentations individuelles à intervenir en février 2023.""",
            [
                {"cadres":" 3.5%"}
            ]

        )
    ]
)


augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. \
                 La direction dédit une enveloppe de 1% qui sera réparti à la performance et au mérite à la discretion des managers""",
            [
                {"augmentation individuelle": "1%"}
            ], 
        )
    ],
    attributes=[
        Number(
            id="augmentation_individuelle_tous_salaries",
            description="Augmentation individuelle accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

prime = Object(
    id="prime_ppv",
    description = "Information sur la distribution d'une prime de partage de la valeur ajoutée aux salariés, aussi appelé prime macron ou pepa ou PPV. L'unité est toujours l'euro et jamais autre chose",
    examples= [
        (
            """La direction s'accord avec les organisations syndicales (OS) sur le versement d'une prime de 2000 euros à tous les salariés""",
            [{"primes":"2000"}]
        )
    ],
    attributes=[
        Number(
            id="prime_ppv",
            description = "Information sur la distribution d'une prime de partage de la valeur ajoutée aux salariés, aussi appelé prime macron ou pepa ou PPV. L'unité est toujours l'euro et jamais autre chose\
                il ne s'agit pas d'une prime transport ou d'une indemnité. Cette prime ne porte que trois noms: 'partage de la valeur ajoutée', 'pepa', 'macron'",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad,
        prime
    ]
)

# create Pydantic model

class Augmentation(BaseModel):
    augm_gen: Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros")
    augm_gen_ouv : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_gen_int : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les professions intermédiaires, techniciens et agent de maîtrise, en pourcentage ou en euros")
    augm_gen_cad : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros")
    augm_ind: Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour tous les salariés, en pourcentage ou en euros")
    augm_ind_ouv : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_ind_int : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros")
    augm_ind_cad : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros")
    prime : Optional[int] = Field(...,description="Information sur la distribution d'une prime de partage de la valeur ajoutée aux salariés, aussi appelé prime macron ou pepa ou PPV. L'unité est toujours l'euro et jamais autre chose")
    
    @validator('augm_gen') 
    def no_empty(cls, v):
        if not v:
            raise ValueError('NA')
        return v
    
node, extraction_validator = from_pydantic(
    Augmentation,
    description="Augmentation de la masse salariale générale ou au mérite/individuelle",
    many=True,)

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=230, #token for completion
    openai_api_key=openai_api_key
)

directory = r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\*.txt"

# Initialize an empty DataFrame to store the final results
final_df = pd.DataFrame()

# Iterate over each file in the directory
for file in glob.glob(directory):
    file_name = os.path.basename(file)[0:27]
    with open(file, 'r') as f:
        text = f.read()
    
    # Create the extraction chain
    chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", validator=extraction_validator, input_formatter="triple_quotes")
   
    # Predict and parse the text using the extraction chain
    output = chain.predict_and_parse(text=text, skip_empty = True)['data']
    print(output)
    if output != {}:
        data = output['augmentation']
        print(data)

        # Create a DataFrame from the extracted data
        df = pd.DataFrame(data)
        df['Fichier'] = file_name

        # Append the DataFrame to the final DataFrame
        final_df = pd.concat([final_df, df], ignore_index=False)
    

# Save the final DataFrame to a CSV file
final_df.to_excel('final_data.xlsx', index=False)
final_df



{}
{}
{'augmentation': [{'augm_gen': 2, 'augm_gen_ouv': 2, 'augm_gen_int': 2, 'augm_gen_cad': 2, 'augm_ind': None, 'augm_ind_ouv': None, 'augm_ind_int': None, 'augm_ind_cad': None, 'prime': 1000}]}
[{'augm_gen': 2, 'augm_gen_ouv': 2, 'augm_gen_int': 2, 'augm_gen_cad': 2, 'augm_ind': None, 'augm_ind_ouv': None, 'augm_ind_int': None, 'augm_ind_cad': None, 'prime': 1000}]
{'augmentation': [{'augm_gen': 4, 'augm_gen_ouv': 4, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind': 2, 'augm_ind_ouv': 0, 'augm_ind_int': 0, 'augm_ind_cad': 0, 'prime': 0}]}
[{'augm_gen': 4, 'augm_gen_ouv': 4, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind': 2, 'augm_ind_ouv': 0, 'augm_ind_int': 0, 'augm_ind_cad': 0, 'prime': 0}]
{'augmentation': [{'augm_gen': 4, 'augm_gen_ouv': 4, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind': 2, 'augm_ind_ouv': 0, 'augm_ind_int': 0, 'augm_ind_cad': 0, 'prime': 0}]}
[{'augm_gen': 4, 'augm_gen_ouv': 4, 'augm_gen_int': 0, 'augm_gen_cad': 0, 'augm_ind': 2, 'augm_ind_ouv': 0, 'augm_i

Unnamed: 0,augm_gen,augm_gen_ouv,augm_gen_int,augm_gen_cad,augm_ind,augm_ind_ouv,augm_ind_int,augm_ind_cad,prime,Fichier
0,2.0,2,2,2,,,,,1000,T00222002889-77566345300055
0,4.0,4,0,0,2,0,0,0,0,T00222002910-58578097600023
0,4.0,4,0,0,2,0,0,0,0,T00222002910-58578097600023
0,3.5,,,,,,,,,T00622007603-95781054200051
0,3.5,3.5,3.5,3.5,,,,,,T00722001655-30512010700019
...,...,...,...,...,...,...,...,...,...,...
0,5.0,,,,,,,,,T59L22018516-81488406000017
0,4.0,4,4,5,1,1,1,2,800,T59L22018637-34518442800018
0,,,,,1,1,1,1,,T59L22018875-52797526200165
0,4.7,4.7,4.7,4.7,0.7,0.7,0.7,0.7,650,T59V22002466-38462717000036


In [5]:
import pandas as pd
import numpy as np

def process_dataframe_xlsx(filename, name):
    # Read the CSV file into a DataFrame
    df = pd.read_excel(filename)

    #replace columns name
    df.columns = ['augmentation \n générale', 'augmentation générale \n ouvriers', 'augmentation générale \n intermédiaires', 'augmentation générale \n cadres', 'augmentation \n individuelle', 'augmentation individuelle \n ouvriers', 'augmentation individuelle \n intermédiaires', 'augmentation individuelle \n cadres', 'prime', 'Fichiers']

    # Replace the 'NA' and 0 values with NaN
    df = df.replace('NA', np.nan)
    df = df.replace(0, np.nan)

    # Rearrange the columns
    cols = list(df.columns.values)
    cols = cols[-1:] + cols[:4] + cols[4:-1]
    """
    cols = cols[:2] + cols[3:6] + cols[2:3] + cols[6:]

    """
    df = df[cols]
    # Return the processed DataFrame
    df.to_excel(name, index=False)

process_dataframe_xlsx('final_data.xlsx', 'processed_df_V2.2.xlsx')

### Extraction directly form word document

In [17]:
import os
import glob
import json
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

#Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number
from pydantic import BaseModel, Field, validator
from kor import extract_from_documents, from_pydantic, create_extraction_chain

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

#from typing import Optional
from typing import Optional

#from numpy
import numpy as np

#from pydocx
from docx import Document

from langchain.document_loaders import Docx2txtLoader

openai_api_key = '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'

# Step 1: Define Kor objects and models
augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés. Les techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022 bénéficeriont d'une augmentation de 4%. Les cadres bénéfieceront d'une augmentation des salaires de base \
            de 3%""",
            [
                {"ouvrier": "5%"}
            ]),
            
           ( """Pour les non-cadres : Une augmentation générale de 4,5 % applicable en novembre 2022\
            avec une augmentation minimale de 100 euros brut mensuel. Cette augmentation minimale sera versée en janvier 2023.""",
            [
                {"ouvrier": "4,5"}
            ]
        )
    ]
)

augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, techniciens, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés. Les techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022 bénéficeriont d'une augmentation de 4%. Les cadres bénéfieceront d'une augmentation des salaires de base \
            de 3%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "4%"},
                {"cadres": "3%"}
            ]),
            
            ("""Pour les non-cadres : Une augmentation générale de 4,5 % applicable en novembre 2022\
            avec une augmentation minimale de 100 euros brut mensuel. Cette augmentation minimale sera versée en janvier 2023.""",
            [
                {"intermédiaires": "4,5"}
            ],
        )
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"cadres": "3%"}
            ]),
            
            ("""Pour les non-cadres : Une augmentation générale de 4,5 % applicable en novembre 2022\
            avec une augmentation minimale de 100 euros brut mensuel. Cette augmentation minimale sera versée en janvier 2023.""",
            [
                {"cadres": "0"}
            ]
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%"}
            ]),
            (""" Concernant les augmentations individuelles, la Direction consent l’attribution d’une enveloppe de 5% de la masse salariale.""",
            [
                {"augmentation générale" : "5%"}
            ]
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle (ouvrier, intermédiaire, cadres), en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"}
            ]),
            ("""Augmentation individuelle pour les ouvriers et employés:
            Une enveloppe de 2% de la masse salariale du personnel Ouvrier et employé sera destinée à des augmentations individuelles. 
            """,
            [
                {"ouvrier":"2"}
            ]
        )
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros",
    attributes=[
        
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"intermédiaires": "2%"},
            ]),
            ("""Pour les catégories Agents de maîtrise et Cadres  : 

            Sans remettre en cause le principe d’une enveloppe globale destinée aux augmentations individuelles, conformément aux procédures applicables au sein de la société il est convenu, par anticipation sur ladite enveloppe,\
            d’une augmentation pour l’ensemble des salariés desdites catégories, de 3.5 % à valoir sur les augmentations individuelles à intervenir en février 2023.""",
            [
                {"intermédiaires":" 3.5%"}
            ]

        )
    ]
)

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"cadres": "1%"}
            ]),
            ("""Pour les catégories Agents de maîtrise et Cadres  : 

            Sans remettre en cause le principe d’une enveloppe globale destinée aux augmentations individuelles, conformément aux procédures applicables au sein de la société il est convenu, par anticipation sur ladite enveloppe,\
            d’une augmentation pour l’ensemble des salariés desdites catégories, de 3.5 % à valoir sur les augmentations individuelles à intervenir en février 2023.""",
            [
                {"cadres":" 3.5%"}
            ]

        )
    ]
)


augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. \
                 La direction dédit une enveloppe de 1% qui sera réparti à la performance et au mérite à la discretion des managers""",
            [
                {"augmentation individuelle": "1%"}
            ], 
        )
    ],
    attributes=[
        Number(
            id="augmentation_individuelle_tous_salaries",
            description="Augmentation individuelle accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

prime = Object(
    id="prime_ppv",
    description = "Information sur la distribution d'une prime de partage de la valeur ajoutée aux salariés, aussi appelé prime macron ou pepa ou PPV. L'unité est toujours l'euro et jamais autre chose",
    examples= [
        (
            """La direction s'accord avec les organisations syndicales (OS) sur le versement d'une prime de 2000 euros à tous les salariés""",
            [{"primes":"2000"}]
        )
    ],
    attributes=[
        Number(
            id="prime_ppv",
            description = "Information sur la distribution d'une prime de partage de la valeur ajoutée aux salariés, aussi appelé prime macron ou pepa ou PPV. L'unité est toujours l'euro et jamais autre chose\
                il ne s'agit pas d'une prime transport ou d'une indemnité. Cette prime ne porte que trois noms: 'partage de la valeur ajoutée', 'pepa', 'macron'",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad,
        prime
    ]
)

# create Pydantic model

class Augmentation(BaseModel):
    augm_gen: Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros")
    augm_gen_ouv : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_gen_int : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les professions intermédiaires, techniciens et agent de maîtrise, en pourcentage ou en euros")
    augm_gen_cad : Optional[float] = Field(..., description="Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros")
    augm_ind: Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour tous les salariés, en pourcentage ou en euros")
    augm_ind_ouv : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros")
    augm_ind_int : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros")
    augm_ind_cad : Optional[float] = Field(..., description="Augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros")
    prime : Optional[int] = Field(...,description="Information sur la distribution d'une prime de partage de la valeur ajoutée aux salariés, aussi appelé prime macron ou pepa ou PPV. L'unité est toujours l'euro et jamais autre chose")
    
    @validator('augm_gen') 
    def no_empty(cls, v):
        if not v:
            raise ValueError('NA')
        return v
    
node, extraction_validator = from_pydantic(
    Augmentation,
    description="Augmentation de la masse salariale générale ou au mérite/individuelle",
    many=True,)

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=230, #token for completion
    openai_api_key=openai_api_key
)

directory = r"C:\Users\garsonj\Desktop\NLP\new_sample_docx"

# Initialize an empty DataFrame to store the final results
final_df = pd.DataFrame()

loader = DirectoryLoader(directory, glob="**\*docx", loader_cls = Docx2txtLoader, show_progress=True, use_multithreading=True)
files = loader.load()
# Iterate over each file in the directory
for file in files:

    """file_name = os.path.basename(file)[0:27]"""
    with open(file, 'r') as f:
        text = f.read()
    
    # Create the extraction chain
    chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json", validator=extraction_validator, input_formatter="triple_quotes")
   
    # Predict and parse the text using the extraction chain
    output = chain.predict_and_parse(text=text, skip_empty = True)['data']
    print(output)
    if output != {}:
        data = output['augmentation']
        print(data)

        # Create a DataFrame from the extracted data
        df = pd.DataFrame(data)
        df['Fichier'] = file_name

        # Append the DataFrame to the final DataFrame
        final_df = pd.concat([final_df, df], ignore_index=False)
    

# Save the final DataFrame to a CSV file
final_df.to_excel('final_data_from_word.xlsx', index=False)
final_df

100%|██████████| 52/52 [00:05<00:00,  9.45it/s]


TypeError: unhashable type: 'Document'

In [16]:
files

[Document(page_content="PROCES-VERBAL D'ACCORD NAO 2023 25 NOVEMBRE 2022 société xxxxxx représentée Monsieur xxxxxxxxxxxx, agissant qualité Directeur délégations suivantes : * xxxxxxxxxxx, représentée Monsieur xxxxxxxxxxxxxxxx, Délégué Syndical * xxxxxxxxxxx, représentée Monsieur xxxxxxxxxxxxxxx, Délégué Syndical conformément l'article 2242.1 Code Travail engagé Négociation Annuelle Obligatoire anticipée 2023 lors réunions 10, 15, 21 25 Novembre 2022 thèmes mentionnés dits articles. ARTICLE 1 : CONSTAT D'ACCORD parties rencontrées 10, 15, 21 25 novembre 2022. Elles constatent qu'au terme négociation, elles abouti accord sujets donné lieu négociation conviennent d'établir présente procès-verbal d'accord, conformément l'article L2242.4 code travail. ARTICLE 2 : ACCORD ENTRE DIRECTION SYNDICATS : XX - XX DATE D'ENTREE VIGUEUR 1ER NOVEMBRE 2022 Augmentations Salaires Après explications situation économique filiale, l'impact l'inflation France a décidé mesure suivante : - Augmentation génér

In [19]:
print(chain.prompt.format_prompt(text))

string='Your goal is to extract structured information from the user\'s input that matches the form described below. When extracting information please make sure it matches the type information exactly. Do not add any attributes that do not appear in the schema shown below.\n\n```TypeScript\n\naugmentation: Array<{ // Augmentation de la masse salariale générale ou au mérite/individuelle\n augm_gen: number // Augmentation générale de salaire/salaire de base pour tous les salariés, en pourcentage ou en euros\n augm_gen_ouv: number // Augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros\n augm_gen_int: number // Augmentation générale de salaire/salaire de base pour les professions intermédiaires, techniciens et agent de maîtrise, en pourcentage ou en euros\n augm_gen_cad: number // Augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros\n augm_ind: number // Augmentation individuel