# NLP approach to data extraction

## Converting functions

### 1st method 

Read the content and write it in a txt file

In [1]:
import docx2txt
import glob
import os
import shutil

def move_files(input_directory, output_directory):
    for file in os.listdir(input_directory):
        if file.endswith(".txt"):
            shutil.move(os.path.join(input_directory, file), output_directory)
            
# This first part of the code converts all the .docx files to .txt files
directory = glob.glob(r"C:\Users\garsonj\Desktop\NLP\new_sample_docx\*.docx")
old_path = r"C:\Users\garsonj\Desktop\NLP\new_sample_docx"

for file_name in directory:
    with open(file_name, 'rb') as infile:
        doc = docx2txt.process(infile)
        outfile_path = file_name[:-5] + '.txt'  # Output file path
        with open(outfile_path, 'w', encoding='utf-8') as outfile:
            outfile.write(doc)

# This second part of the code moves all the .txt files to a new folder
txts = [f for f in os.listdir(old_path) if f.lower().endswith('.txt')]

new_path = r'C:\Users\garsonj\Desktop\NAO_sample\sample_non_cleaned_txt'

move_files(r"C:\Users\garsonj\Desktop\NLP\new_sample_docx", r"C:\Users\garsonj\Desktop\NLP")

print("=========")
print("All done!")

All done!


### 2nd method

Open windows and convert directly inside windows the docx to txt format

In [4]:
from win32com import client as wc
import glob
import os
import shutil

def convert_to_txt(file):
    w = wc.Dispatch('Word.Application')
    doc = w.Documents.Open(file)
    doc.SaveAs2(file[:-5] + '.txt', 2)  # Save as a plain text file with .txt extension

    doc.Close()  # Close the Word document
    w.Quit()  # Close the Word application

def move_files(input_directory, output_directory):
    for file in os.listdir(input_directory):
        if file.endswith(".txt"):
            shutil.move(os.path.join(input_directory, file), output_directory)
    
directory = glob.glob(r"C:\Users\garsonj\Desktop\NLP\new_sample_docx\*.docx")
output_directory = r"C:\Users\garsonj\Desktop\NLP"

for file in directory:
    convert_to_txt(file)

move_files(r"C:\Users\garsonj\Desktop\NLP\new_sample_docx", r"C:\Users\garsonj\Desktop\NLP")

print("=========")
print("All done!")

All done!


## Cleaning Functions

The first function is just removing stopwords in text. The results are excellent since we reduce size by around 25% without loss of meaning.

In [5]:
from nltk.corpus import stopwords
import os

def clean_text(file_path):
    stop_words = set(stopwords.words('french'))

    with open(file_path, 'r') as file:
        text = file.read()

    words = text.split()
    filtered_words = [word for word in words if word.lower() not in stop_words]
    cleaned_text = ' '.join(filtered_words)

    with open(file_path, 'w') as file:
        file.write(cleaned_text)

    return cleaned_text



directory = r".\sample_txt_not_cleaned"

for file in os.listdir(directory):
    if file.endswith(".txt"):
        file_path = os.path.join(directory, file)
        clean_text(file_path)


The second function include a keyword selection

In [7]:
from nltk.corpus import stopwords
import os
from docx import Document
from docx.enum.text import WD_COLOR
from docxcompose.composer import Composer
import pandas as pd
import glob
import re
import shutil
from win32com import client as wc

# Define a function to move files from one folder to another
def move_files(input_directory, output_directory):
    for file in os.listdir(input_directory):
        if file.endswith(".docx"):
            shutil.move(os.path.join(input_directory, file), output_directory)  

# Define a function to extract paragraph of a docx file

# Define a function to extract the file name without extension
def extract_file_name(file):
    file_name = os.path.basename(file)
    file_name_without_extension = os.path.splitext(file_name)[0]
    return file_name_without_extension

# Define a function to process all *.docx files in a folder
def process_docx_files(folder_path):
    # Import keywords from the Excel file and turn them into a list
    df = pd.read_excel('keywords.xlsx')
    list_of_words = df['keywords'].tolist()
    # Set up regex
    patterns = [r'\b' + word + r'\b' for word in list_of_words]
    re_highlight = re.compile('(' + '|'.join(p for p in patterns) + ')+', re.IGNORECASE)
    docx_files = glob.glob(folder_path + '\\*.docx')
    for file in docx_files:
        doc = Document(file)
        title = extract_file_name(file)  # Extract the file name without extension
        modified_doc = Document()  # Create a new document to store modified paragraphs
        modified_doc.add_heading(title, level=1)  # Add the title as Header 1 to the modified document
        for para in doc.paragraphs:
            text = para.text
            if len(re_highlight.findall(text)) > 0:
                matches = re_highlight.finditer(text)
                p3 = 0
                highlighted_para = modified_doc.add_paragraph()  # Add a new paragraph to the modified document
                for match in matches:
                    p1 = p3
                    p2, p3 = match.span()
                    highlighted_para.add_run(text[p1:p2])
                    run = highlighted_para.add_run(text[p2:p3])
                    run.font.highlight_color = WD_COLOR.YELLOW
                    highlighted_para.add_run(text[p3:])
        if modified_doc.paragraphs:  # Only save the modified document if it contains highlighted paragraphs
            modified_doc.save(file)

# Provide the folder path where the algorithm will iterate over all *.docx files
folder_path = r".\new_sample_docx"
process_docx_files(folder_path)

# Now convert them to .txt files

def convert_to_txt(file):
    w = wc.Dispatch('Word.Application')
    doc = w.Documents.Open(file)
    doc.SaveAs(file[:-5] + '.txt', 2)  # Save as a plain text file with .txt extension

    doc.Close()  # Close the Word document
    w.Quit()  # Close the Word application

directory = glob.glob(r"C:\Users\garsonj\Desktop\NLP\new_sample_docx\*.docx")

for file in directory:
    convert_to_txt(file)

move_files(r"C:\Users\garsonj\Desktop\NLP\new_sample_docx", r"C:\Users\garsonj\Desktop\NLP")

# Define a function to remove stopwords from a text file
def clean_text(file_path):
    stop_words = set(stopwords.words('french'))

    with open(file_path, 'r') as file:
        text = file.read()

    words = text.split()
    filtered_words = [word for word in words if word.lower() not in stop_words]
    cleaned_text = ' '.join(filtered_words)

    with open(file_path, 'w') as file:
        file.write(cleaned_text)

    return cleaned_text

file_path = r".\sample_txt_not_cleaned"

for file in os.listdir(file_path):
    if file.endswith(".txt"):
        file_path = os.path.join(file_path, file)
        clean_text(file_path)


FileNotFoundError: [Errno 2] No such file or directory: '.\\sample_txt_not_cleaned\\T03323012438-39256238500014.docx.txt\\T06222007558-57578017600039.docx.txt'

In [20]:
from nltk.corpus import stopwords
import os
from docx import Document
from docx.enum.text import WD_COLOR
from docxcompose.composer import Composer
import pandas as pd
import glob
import re
import shutil
from win32com import client as wc

# Define a function to move files from one folder to another
def move_files(input_directory, output_directory):
    for file in os.listdir(input_directory):
        if file.endswith(".docx.txt"):  # Modified the file extension check
            shutil.move(os.path.join(input_directory, file), output_directory)  

# Define a function to extract the file name without extension
def extract_file_name(file):
    file_name = os.path.basename(file)
    file_name_without_extension = os.path.splitext(file_name)[0]
    return file_name_without_extension

# Define a function to process all *.docx files in a folder
def process_docx_files(folder_path):
    # Import keywords from the Excel file and turn them into a list
    df = pd.read_excel('keywords.xlsx')
    list_of_words = df['keywords'].tolist()
    # Set up regex
    patterns = [r'\b' + word + r'\b' for word in list_of_words]
    re_highlight = re.compile('(' + '|'.join(p for p in patterns) + ')+', re.IGNORECASE)
    docx_files = glob.glob(folder_path + '\\*.docx')
    for file in docx_files:
        doc = Document(file)
        title = extract_file_name(file)  # Extract the file name without extension
        modified_doc = Document()  # Create a new document to store modified paragraphs
        modified_doc.add_heading(title, level=1)  # Add the title as Header 1 to the modified document
        for para in doc.paragraphs:
            text = para.text
            if len(re_highlight.findall(text)) > 0:
                matches = re_highlight.finditer(text)
                p3 = 0
                highlighted_para = modified_doc.add_paragraph()  # Add a new paragraph to the modified document
                for match in matches:
                    p1 = p3
                    p2, p3 = match.span()
                    highlighted_para.add_run(text[p1:p2])
                    run = highlighted_para.add_run(text[p2:p3])
                    run.font.highlight_color = WD_COLOR.YELLOW
                    highlighted_para.add_run(text[p3:])
        if modified_doc.paragraphs:  # Only save the modified document if it contains highlighted paragraphs
            modified_doc.save(file)

# Now convert them to .txt files

def convert_to_txt(file):
    w = wc.Dispatch('Word.Application')
    doc = w.Documents.Open(file)
    doc.SaveAs(file[:-5] + '.txt', 2)  # Save as a plain text file with .txt extension

    doc.Close()  # Close the Word document
    w.Quit()  # Close the Word application

# Define a function to remove stopwords from a text file
def clean_text(file_path):
    stop_words = set(stopwords.words('french'))

    with open(file_path, 'r') as file:
        text = file.read()

    words = text.split()
    filtered_words = [word for word in words if word.lower() not in stop_words]
    cleaned_text = ' '.join(filtered_words)

    with open(file_path, 'w') as file:
        file.write(cleaned_text)

    return cleaned_text

# Provide the folder path where the algorithm will iterate over all *.docx files
folder_path = r".\new_sample_docx"
process_docx_files(folder_path)

directory = glob.glob(r"C:\Users\garsonj\Desktop\NLP\new_sample_docx\*.docx")

for file in directory:
    convert_to_txt(file)

    # Move the converted .docx.txt file
    if file.endswith(".docx.txt"):
        file_path = os.path.join(r"C:\Users\garsonj\Desktop\NLP\new_sample_docx", file)  # Update the file path
        if os.path.isfile(file_path):
            move_files(r"C:\Users\garsonj\Desktop\NLP\new_sample_docx", r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned")
            

file_path = r".\sample_txt_not_cleaned"

for file in os.listdir(file_path):
    if file.endswith(".txt"):
        file_path = os.path.join(file_path, file)
        if os.path.isfile(file_path):  # Verify the existence of the file
            clean_text(file_path)


Cleaning 2 : stopwords + paragraph. This function works perfectly

In [26]:
from nltk.corpus import stopwords
import os
from docx import Document
from docx.enum.text import WD_COLOR
from docxcompose.composer import Composer
import pandas as pd
import glob
import re
import shutil
from win32com import client as wc

# Define a function to move files from one folder to another
def move_files(input_directory, output_directory):
    for file in os.listdir(input_directory):
        if file.endswith(".docx.txt"):
            shutil.move(os.path.join(input_directory, file), output_directory)

# Define a function to extract the file name without extension
def extract_file_name(file):
    file_name = os.path.basename(file)
    file_name_without_extension = os.path.splitext(file_name)[0]
    return file_name_without_extension

# Define a function to process all *.docx files in a folder
def process_docx_files(folder_path):
    # Import keywords from the Excel file and turn them into a list
    df = pd.read_excel('keywords.xlsx')
    list_of_words = df['keywords'].tolist()
    # Set up regex
    patterns = [r'\b' + word + r'\b' for word in list_of_words]
    re_highlight = re.compile('(' + '|'.join(p for p in patterns) + ')+', re.IGNORECASE)
    docx_files = glob.glob(folder_path + '\\*.docx')
    for file in docx_files:
        doc = Document(file)
        title = extract_file_name(file)  # Extract the file name without extension
        modified_doc = Document()  # Create a new document to store modified paragraphs
        modified_doc.add_heading(title, level=1)  # Add the title as Header 1 to the modified document
        for para in doc.paragraphs:
            text = para.text
            if len(re_highlight.findall(text)) > 0:
                matches = re_highlight.finditer(text)
                p3 = 0
                highlighted_para = modified_doc.add_paragraph()  # Add a new paragraph to the modified document
                for match in matches:
                    p1 = p3
                    p2, p3 = match.span()
                    highlighted_para.add_run(text[p1:p2])
                    run = highlighted_para.add_run(text[p2:p3])
                    run.font.highlight_color = WD_COLOR.YELLOW
                    highlighted_para.add_run(text[p3:])
        if modified_doc.paragraphs:  # Only save the modified document if it contains highlighted paragraphs
            modified_doc.save(file)

# Now convert them to .txt files
def convert_to_txt(file):
    w = wc.Dispatch('Word.Application')
    doc = w.Documents.Open(file)
    doc.SaveAs(file[:-5] + '.txt', 2)  # Save as a plain text file with .txt extension

    doc.Close()  # Close the Word document
    w.Quit()  # Close the Word application

# Define a function to remove stopwords from a text file
def clean_text(file_path):
    stop_words = set(stopwords.words('french'))

    with open(file_path, 'r') as file:
        text = file.read()

    words = text.split()
    filtered_words = [word for word in words if word.lower() not in stop_words]
    cleaned_text = ' '.join(filtered_words)

    with open(file_path, 'w') as file:
        file.write(cleaned_text)

    return cleaned_text
    

if __name__ == '__main__':
    # Provide the folder path where the algorithm will iterate over all *.docx files
    folder_path = r"C:\Users\garsonj\Desktop\NLP\sample_docx_2"
    process_docx_files(folder_path)

    directory = glob.glob(folder_path + r'\*.docx')

    for file in directory:
        convert_to_txt(file)

    # Move the converted .docx.txt file
    move_files(folder_path, r"C:\Users\garsonj\Desktop\NLP\sample_cleaned_txt_2")

    file_path = r"C:\Users\garsonj\Desktop\NLP\sample_cleaned_txt_2"

    for file in os.listdir(file_path):
        if file.endswith(".txt"):
            file_path = os.path.join(file_path, file)
            if os.path.isfile(file_path):  # Verify the existence of the file
                clean_text(file_path)


Cleaning 3 : LangChain vectorization

Version with Pinecone

In [36]:
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma, Pinecone
from langchain.embeddings.openai import OpenAIEmbeddings
import pinecone

openai_api_key = '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'

loader = DirectoryLoader(r'C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned', glob= '*.txt', loader_cls=TextLoader)
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=3000, chunk_overlap=100)
texts = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)

PINECONE_API_KEY = os.environ.get('PINECONE_API_KEY', 'ac6bd34c-1c15-4b7c-aef6-096ca1cf159c')
PINECONE_API_ENV = os.environ.get('PINECONE_API_ENV', 'us-west1-gcp-free')

pinecone.init(
    api_key=PINECONE_API_KEY,  # find at app.pinecone.io
    environment=PINECONE_API_ENV  # next to api key in console
)
index_name = "legifrance" # put in the name of your pinecone index here

docsearch = Pinecone.from_texts([t.page_content for t in texts], embeddings, index_name=index_name)


Version without Pinecone

In [61]:
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

openai_api_key = os.getenv("OPENAI_API_KEY", "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")

loader = DirectoryLoader('../NLP/sample_txt_not_cleaned', glob='**/*.txt', loader_cls=TextLoader)

documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=3000, chunk_overlap=100)
texts = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)

docsearch = Chroma.from_documents(texts, embeddings)

## Summary functions

In [29]:
import os
import openai
from docx import Document
import shutil

openai.api_key = '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'


def generate_summary(text):
    try:
        order = """Tu es analyste GPT, un analyste expérimenté. Cela fait 10 ans que tu lis chaque accord de négociation annuelle obligatoire pour détecter les dynamiques salariales.\
 Je vais te donner un texte et tu vas devoir résumer les points suivants et uniquement ceux-ci \
si ils sont disponibles (si non écrit 'information indisponible'): \
- Les augmentations générales. Attention beaucoup de synonyme comme "augmentation brute" ou "du salaire de base" \En fonction des catégories socio-professionnelles/statut professionnel des salariés: ouvrier-employé ; Professions intermédiaires (techniciens, agents de maitrise, ou autres) ; cadres/ingénieurs.Le montant d'augmentation que tu dois prélever est en pourcent ou en euros. Il peut parfois être indiqué par rapport au SMIC ou à des grades/échelons allant de 1 à 9\
- Les augmentations individuelles de salaires.  Attention beaucoup de synonyme comme "au mérite", \En fonction des catégories socio-professionnelles/statut professionnel des salariés: ouvrier-employé ; Professions intermédiaires (techniciens, agents de maitrise, ou autres) ; cadres/ingénieurs.Le montant d'augmentation que tu dois prélever est en pourcent ou en euros. Il peut parfois être indiqué par rapport au SMIC ou à des grades/échelons allant de 1 à 9\
- les primes de partage de la valeur ajoutée, ou PEPA, ou PPV ou prime Macron
 \
Donne une information par phrase et une phrase par bullet point\
Enfin, prend en compte la donnée suivante les augmentations générales quand elles sont différentes entre les salariés sont réparties de sorte à ce que les ouvriers-employés en aient plus que \
les intérmédiaries et cadres, et les intermédiaires plus que les cadres. Inversement pour les augmentations individuelles (aussi appelles au mérite), quand elles sont différentes entre les \
salariés, alors les cadres en reçoivent plus que les intérmediaires, qui en reçoivent plus que les employés-ouvrier. \
suis le modèle suivant # Augmentation générale # augmentation individuelle # Primes\

Voici le texte: """

        prompt = order + text
        completion = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=[
                {"role": "user", "content": prompt}
            ]
        )
        response = completion.choices[0].message.content
        return response
    except:
        print("Error")


def save_summary_to_docx(summary, output_file):
    file_name = os.path.basename(output_file)
    document = Document()
    document.add_paragraph(summary)
    document.save(file_name)

def move_files(source_folder, destination_folder):
    for filename in os.listdir(source_folder):
        if filename.endswith(".docx"):
            file_path = os.path.join(source_folder, filename)
            shutil.move(file_path, destination_folder)

if __name__ == "__main__":
    folder_path = r".\sample_cleaned_txt_2"
    output_folder = r".\summaryGPT"

    # Create the "summaryGPT" folder if it doesn't exist
    os.makedirs(output_folder, exist_ok=True)

    # Iterate over the files in the folder
    for filename in os.listdir(folder_path):
        if filename.endswith(".txt"):
            file_path = os.path.join(folder_path, filename)

            # Read the text from the file
            with open(file_path, 'r') as file:
                text = file.read()

            # Generate the summary
            summary = generate_summary(text)

            # Save the summary to a DOCX file
            output_file = os.path.join(output_folder, filename.replace(".txt", ".docx"))
            save_summary_to_docx(summary, output_file)

            # Move the file to the "summaryGPT" folder and overwrite if duplicate exists
            move_files(r"C:\Users\garsonj\Desktop\NLP", r".\summaryGPT")

Error
Error
Error
Error
Error
Error
Error
Error


## 2nd Data Collection using LangChain and Kor

### V2.1

In [2]:
# Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import requests
import time
import json
from datetime import datetime

#from openai
import openai

openai_api_key = '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'

What model we will use

In [3]:
llm = OpenAI(
    model_name = "gpt-3.5-turbo",
    temperature=0,
    max_tokens=1000, #token for completion
    openai_api_key=openai_api_key
)



Our object extraction

In [20]:
nao_schema = Object(
    id="negociation",
    description = "information about wages increase in a company and bonuses. French documents",

    attributes=[
        Number(
            id="augmentation_generale",
            description="augmentation generale des salariés, en pourcentage ou en euros",
        ),
        Number(
            id="augmentation_individuelle",
            description="augmentation individuelle des salariés, en pourcentage ou en euros",
        ),
        Number(
            id="prime",
            description="prime de partage de la valeur ajoutée, ou PEPA, ou PPV ou prime Macron",
        ),
    ],
    examples=[
        ("Il est convenu une augmentation collective au 1er novembre 2022 de 6,25 %.",
         [{"augmentation_generale": "6,25 %", "augmentation_individuelle": "information indisponible", "prime": "information indisponible"}
          ],
            )
    ]
)


{'negociation': [{'augmentation_generale': '6%', 'augmentation_individuelle': 'information indisponible', 'prime': 'information indisponible'}, {'augmentation_generale': 'Input: Les salariés recevront une augmentation individuelle de 500 euros et une prime de 1000 euros.', 'augmentation_individuelle': '', 'prime': ''}, {'augmentation_generale': 'Output: augmentation_generale', 'augmentation_individuelle': 'augmentation_individuelle', 'prime': 'prime'}, {'augmentation_generale': 'information indisponible', 'augmentation_individuelle': '500 euros', 'prime': '1000 euros'}, {'augmentation_generale': 'Input: La prime de partage de la valeur ajoutée sera de 1500 euros par salarié.', 'augmentation_individuelle': '', 'prime': ''}, {'augmentation_generale': 'Output: augmentation_generale', 'augmentation_individuelle': 'augmentation_individuelle', 'prime': 'prime'}, {'augmentation_generale': 'information indisponible', 'augmentation_individuelle': 'information indisponible', 'prime': '1500 euros

In [21]:
text = "Les salaires contractuels inférieurs à 2 400 Euros bruts seront majorés de 6%"
chain = create_extraction_chain(llm, nao_schema)
output = chain.predict_and_parse(text=text)['data']
print(output)

{'negociation': [{'augmentation_generale': '6%', 'augmentation_individuelle': 'information indisponible', 'prime': 'information indisponible'}, {'augmentation_generale': 'Input: Les salariés recevront une augmentation individuelle de 500 euros et une prime de 1000 euros.', 'augmentation_individuelle': '', 'prime': ''}, {'augmentation_generale': 'Output: augmentation_generale', 'augmentation_individuelle': 'augmentation_individuelle', 'prime': 'prime'}, {'augmentation_generale': 'information indisponible', 'augmentation_individuelle': '500 euros', 'prime': '1000 euros'}, {'augmentation_generale': 'Input: La prime de partage de la valeur ajoutée sera de 1500 euros par salarié.', 'augmentation_individuelle': '', 'prime': ''}, {'augmentation_generale': 'Output: augmentation_generale', 'augmentation_individuelle': 'augmentation_individuelle', 'prime': 'prime'}, {'augmentation_generale': 'information indisponible', 'augmentation_individuelle': 'information indisponible', 'prime': '1500 euros

In [4]:
augmentation_csp = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base par catégorie socio-professionnelle, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros"),
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros"),
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%", "parts" : ["employés", "agents de maitrise"]}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        ),
        augmentation_csp
    ]
)

In [6]:
# To do nested objects you need to specify encoder_or_encoder_class="json"
text = "Il est convenu une augmentation collective au 1er novembre 2022 de 6,25 %."

# Changed the encoder to json
chain = create_extraction_chain(llm, augmentation, encoder_or_encoder_class="json")
output = chain.predict_and_parse(text=text)['data']

print(output)

{'augmentation_generale': {'augmentation_generale_tous_salaries': '6,25%'}}


In [7]:
prompt = chain.prompt.format_prompt(text=text).to_string()

print(prompt)

Your goal is to extract structured information from the user's input that matches the form described below. When extracting information please make sure it matches the type information exactly. Do not add any attributes that do not appear in the schema shown below.

```TypeScript

augmentation_generale: { // Information sur l'augmentation de la masse salariale
 augmentation_generale_tous_salaries: number // Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros
 augmentation_generale_csp: { // augmentation générale de salaire/salaire de base par catégorie socio-professionnelle, en pourcentage ou en euros
  ouvrier: number // augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros
  intermediaires: number // augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros
  cadres: number 

### V2.2

In [12]:
# Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
import requests
import time
import json
from datetime import datetime

#from openai
import openai

openai_api_key = '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'

llm = OpenAI(
    model_name = "gpt-3.5-turbo",
    temperature=0,
    max_tokens=1000, #token for completion
    openai_api_key=openai_api_key
)

augmentation_csp = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base par catégorie socio-professionnelle, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros"),
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros"),
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%", "parts" : ["employés", "agents de maitrise"]}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        ),
        augmentation_csp
    ]
)

# To do nested objects you need to specify encoder_or_encoder_class="json"
directory = glob.glob(r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\*.txt")

for file in directory:
    with open(file, 'r') as f:
        text = f.read()
    # Changed the encoder to json
    chain = create_extraction_chain(llm, augmentation, encoder_or_encoder_class="json")
    output = chain.predict_and_parse(text=text)['data']

    print(output)



{'augmentation_generale': {'augmentation_generale_tous_salaries': '6,25%'}}
{'augmentation_generale': {'augmentation_generale_tous_salaries': '3%', 'augmentation_generale_csp': [{'ouvrier': '3%'}, {'intermediaires': '3%'}, {'cadres': '1.5%'}]}}


### V.2.3

In [64]:
# Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

openai_api_key = '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'

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=1000, #token for completion
    openai_api_key=openai_api_key
)

augmentation_gen_csp = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base par catégorie socio-professionnelle, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros"),
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros"),
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%", "augmentation_gen_csp" : ["employés", "agents de maitrise"]}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_csp = Object(
    id="augmentation_ind_csp",
    description="augmentation individuelle de salaire ou mérite par catégorie socio-professionnelle, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros"),
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros"),
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"},
                {"intermédiaires": "2%"},
                {"cadres": "1%"}
            ],
        )
    ]
)

augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1%""",
            [
                {"augmentation individuelle": "1%", "augmentation_ind_csp" : ["employés", "agents de maitrise"]}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)


node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_ind,
        augmentation_ind_csp,
        augmentation_gen_csp
    ]
)

directory = glob.glob(r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\*.txt")

for file in directory:
    with open(file, 'r') as f:
        text = f.read()
    
    # Retrieve file name
    file_name = os.path.basename(file)
    file_name_without_extension = os.path.splitext(file_name)[0]
    
    # Changed the encoder to json
    chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json")
    output = chain.predict_and_parse(text=text)['data']
    
    # Create JSON file with the same name as the original text file
    json_file_name = file_name_without_extension + '.json'
    with open(json_file_name, 'w') as json_file:
        json.dump(output, json_file)






### V.2.4

In [65]:
# Kor!
from kor.extraction import create_extraction_chain
from kor.nodes import Object, Text, Number

# LangChain Models
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

# Standard Helpers
import pandas as pd
import glob
from datetime import datetime
import json
import os

#from openai
import openai

openai_api_key = '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'

llm = OpenAI(
    model_name = "gpt-3.5-turbo-16k",
    temperature=0,
    max_tokens=230, #token for completion
    openai_api_key=openai_api_key
)

augmentation_gen_ouv = Object(
    id="augmentation_generale_ouv",
    description="augmentation générale de salaire/salaire de base pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation générale de salaire/salaire de base pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"}
            ],
        )
    ]
)

augmentation_gen_int = Object(
    id="augmentation_generale_int",
    description="augmentation générale de salaire/salaire de base pour les proféssions intermédiaires et agent de maîtrise, en pourcentage ou en euros",
    attributes=[
        Number(id="intermediaires", description="augmentation générale de salaire/salaire de base pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"ouvrier": "5%"},
                {"intermédiaires": "5%"},
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen_cad = Object(
    id="augmentation_generale_csp",
    description="augmentation générale de salaire/salaire de base pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation générale de salaire/salaire de base pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """5% au titre de l’Augmentation Générale, à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, \ 
            justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022. Les cadres bénéfiecerons d'une augmentation de 4%""",
            [
                {"cadres": "4%"}
            ],
        )
    ]
)

augmentation_gen = Object(
    id="augmentation_generale",
    description="Information sur l'augmentation de la masse salariale",
    examples=[
        (
            """A la suite de la demande de la Délégation syndicale CFDT, la Direction accepte de réserver une enveloppe de 5% de la Masse salariale. 5% au titre de l’Augmentation Générale,\ 
            à l’ensemble des collaborateurs ouvriers, employés, techniciens \
            et agents de maitrise percevant en 2022 la PPCU (prime performance collective usine), en contrat CDD/CDI, justifiant d’une ancienneté supérieure ou égale à 6 mois au 31 décembre 2022""",
            [
                {"augmentation générale": "1%", "augmentation_gen_csp" : ["employés", "agents de maitrise"]}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

augmentation_ind_ouv = Object(
    id="augmentation_ind_ouv",
    description="augmentation individuelle de salaire ou mérite pour les ouvriers et les employés, en pourcentage ou en euros",
    attributes=[
        Number(id="ouvrier", description="augmentation individuelle de salaire ou mérite pour un employé/ouvrier, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"ouvrier": "3"}
            ],
        )
    ]
)

augmentation_ind_int = Object(
    id="augmentation_ind_int",
    description="augmentation individuelle de salaire ou mérite pour les professions intermédiaires, techniniciens, en pourcentage ou en euros",
    attributes=[
        
        Number(id="intermediaires", description="augmentation individuelle de salaire ou mérite pour une profession intermédiaire, technicien, agent de maitrise, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"intermédiaires": "2%"},
            ],
        )
    ]
)

augmentation_ind_cad = Object(
    id="augmentation_ind_cad",
    description="augmentation individuelle de salaire ou mérite pour les cadres et ingénieurs, en pourcentage ou en euros",
    attributes=[
        Number(id = "cadres", description="augmentation individuelle de salaire ou mérite pour un cadre,ingénieur, en pourcentage ou en euros")
    ],
    examples=[
        (
            """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros.""",
            [
                {"cadres": "1%"}
            ],
        )
    ]
)


augmentation_ind = Object(
    id="augmentation_ind",
    description="Information sur les augmentations individuelles ou au mérite",
    examples=[
        (
           """Mise en œuvre d’une révision salariale annuelle pérenne de 3% attribuée aux collaborateurs avec un salaire annuel brut de base inférieur ou égal à 50 000,00 euros,\ 
            de  2% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 50 000,00 euros et inférieur ou égal à 70 000,00 euros \ 
            et de 1% pour les collaborateurs avec un salaire annuel brut de base strictement supérieur à 70 000,00 euros et inférieur ou égal à 90 000,00 euros. La revalorisation globale au mérite est de 1%""",
            [
                {"augmentation individuelle": "1%", "augmentation_ind_csp" : ["employés", "agents de maitrise"]}
            ],
        )
    ],
    attributes=[
        Number(
            id="augmentation_generale_tous_salaries",
            description="Augmentation générale accordée à tous les salariés indépendemment de leur catégorie socio-professionnelle, en pourcentage ou en euros",
        )
    ]
)

node = Object(
    id="root_node",
    attributes=[
        augmentation_gen,
        augmentation_gen_ouv,
        augmentation_gen_int,
        augmentation_gen_cad,
        augmentation_ind,
        augmentation_ind_ouv,
        augmentation_ind_int,
        augmentation_ind_cad
    ]
)

directory = glob.glob(r"C:\Users\garsonj\Desktop\NLP\sample_txt_not_cleaned\*.txt")

for file in directory:
    with open(file, 'r') as f:
        text = f.read()
             
        # Retrieve file name
        file_name = os.path.basename(file)
        file_name_without_extension = os.path.splitext(file_name)[0]
            
        # Changed the encoder to json
        chain = create_extraction_chain(llm, node, encoder_or_encoder_class="json")
        output = chain.predict_and_parse(text=text)['data']
            
        # Create JSON file with the same name as the original text file
        json_file_name = file_name_without_extension + '.json'
        with open(json_file_name, 'w') as json_file:
            json.dump(output, json_file)


JSON to CSV

In [71]:
import pandas as pd

with open('T03822012103-80041849300022.docx.json', 'r') as json_file:
    json_data = json.load(json_file)

def generate_dataframe(json_data):
    # Prepare an empty list to store all restaurant data
    data = []

    for record in json_data:
      for record in json_data:
        nao_list = record.get('root_node', {}).get('augmentation_gen_ouv', [])
        for num in nao_list:
            name = num.get('augmentation_gen_ouv', '')
            print(f'Restaurant Name: {name}')
            
    # Convert the list into a DataFrame
    df = pd.DataFrame(data, columns=['Name', 'Location', 'Style', 'Top Dish'])

    return df

# Usage:
df = generate_dataframe(json_data)
df.head()


AttributeError: 'str' object has no attribute 'get'

: 

In [51]:
import os
import pandas as pd

directory = r"C:\Users\garsonj\Desktop\NLP"
# Assuming 'directory' is the path to the folder containing JSON files

dfs = []  # List to store DataFrames from each JSON file

for file in os.listdir(directory):
    if file.endswith('.json'):  # Check if the file is a JSON file
        file_path = os.path.join(directory, file)
        
        with open(file_path, 'r') as f:
            data = json.load(f)
        
        # Convert the JSON data to a DataFrame and append it to the list
        df = pd.DataFrame([data])
        dfs.append(df)

# Combine DataFrames column-wise
combined_df = pd.concat(dfs, axis=1).transpose()
# Print the combined DataFrame
combined_df.to_csv('combined_df.csv', index=False)