In [104]:
## Read PDF files
import nest_asyncio

nest_asyncio.apply()
#GET LLAMA_CLOUD_API_KEY
import os
from llama_parse import LlamaParse

api_key: str | None = os.getenv("LLAMA_CLOUD_API_KEY")

parsing_instructions = "Do not take into account the page breaks (no --- between pages), do not repeat the header and the footer so the tables are merged. Keep the same format for similar tables."
#parsing_instructions = "Keep the same format for similar tables. Avoid repetitions. Don't mark the page breaks."

parser = LlamaParse(
    api_key= api_key,  # can also be set in your env as LLAMA_CLOUD_API_KEY
    result_type="markdown",  # "markdown" and "text" are available
    gpt4o_mode=True,
    verbose=True,
    language="fr",  # Optionally you can define a language, default=en
    parsing_instruction=parsing_instructions,  # Optionally you can define a parsing instruction
)
# sync
documents = parser.load_data("./docs/CHARTE_QUALITE_PRODUIT2.pdf")
print(documents)


Started parsing the file under job_id 10b2ac0f-b790-406a-b850-77274fff4f51
.[Document(id_='29582cca-cdc7-4479-a795-967898e13265', embedding=None, metadata={}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, text="# CHARTE PRODUITS COUP DE PATES\n\n**Codification :**  \nCDP_QUA_CHART_01\n\n**Version :** 5  \n**Date d’application :** 13/12/2023\n\n| Date       | Mises à jour                                                                 |\n|------------|------------------------------------------------------------------------------|\n| 19/12/2014 | Création                                                                     |\n| 12/12/2019 | Insertion des additifs interdits et à éviter                                 |\n| 13/05/2022 | Revue des exigences recettes et annexes                                      |\n| 30/03/2023 | Revue des annexes I et II. Fréquence de mise à jour CDC                      |\n| 13/12/2023 | Ajout d’une exigence de certifica

In [103]:
with open('./docs/CHARTE_QUALITE_PRODUIT_gpt4o.md', "w") as md_file:
    md_file.write(documents[0].get_content())


### Parse PDF usinf pdf2docx 

In [None]:
from pdf2docx import Converter
pdf_file = "./docs/rib-chloe.pdf"
cv = Converter(pdf_file)
cv.convert() #type: ignore
cv.close()

In [None]:
# from docx import Document

# def formatTable(table):
#     formatted_table = []
#     for row in table.rows:
#         list_row = []
#         for cell in row.cells:
#             for paragraph in cell.paragraphs:
#                 list_row.append(paragraph.text)
#         formatted_table.append(tuple(list_row))
#     return tuple(formatted_table)

In [None]:
# document = Document('./docs/CHARTE_QUALITE_PRODUIT2.docx')
# unique_tables = set()
# pruned_tables = []
# for i,table in enumerate(document.tables):
#     formatted_table = formatTable(table)
#     if formatted_table not in unique_tables:
#         pruned_tables.append(formatted_table)
#         unique_tables.add(formatted_table)
#     else:
#         print("Duplicate table found")
#         # Remove the table's associated XML elements
#         table._element.getparent().remove(table._element)

# print(pruned_tables)
#document.save('./docs/MODIFIED_CHARTE_QUALITE.docx')

In [None]:
import mammoth
from markdownify import markdownify as md

with open('./docs/CHARTE_QUALITE_PRODUIT2.docx', "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)

with open('./docs/CHARTE_QUALITE_PRODUIT2.html', "rb") as html_file:
    html_file.write(result.value)

md_result = md(result.value)
#save markdown to file
with open('./docs/CHARTE_QUALITE_PRODUIT2.md', "w") as md_file:
    md_file.write(md_result)

print(f"DOC LENGTH : {len(md_result)} characters")



In [None]:
from bs4 import BeautifulSoup

def remove_duplicate_tables(html_file):
    with open(html_file, 'r') as file:
        html_content = file.read()

    soup = BeautifulSoup(html_content, 'html.parser')

    # Find all tables
    tables = soup.find_all('table')

    # Keep track of tables that have appeared
    seen_tables = set()

    # Iterate over tables in reverse order to delete duplicate occurrences
    for table in tables:
        # Convert the table to a string for comparison
        table_str = str(table)
        # Check if table has appeared before
        if table_str in seen_tables:
            table.extract()  # Remove duplicate table
        else:
            seen_tables.add(table_str)
    return soup

def remove_page_status(soup):

    #soup = BeautifulSoup(html_content, 'html.parser')

    # Find all elements containing the text "Page"
    page_elements = soup.find_all(text=lambda text: 'Page' in text)

    # Remove the parent element of each page element
    for page_element in page_elements:
        parent = page_element.find_parent()
        parent.extract()

    return soup

def merge_adjacent_tables(soup):
    """
    Merge adjacent tables with the same number of columns and unnest nested tables in the HTML content.

    Args:
    soup (BeautifulSoup): The BeautifulSoup object representing the parsed HTML.

    Returns:
    BeautifulSoup: The modified BeautifulSoup object with merged tables and unnested tables.
    """

    # Find all tables
    tables = soup.find_all('table')

    # Unnest nested tables
    for table in tables:
        nested_tables = table.find_all('table')
        if nested_tables:
            for nested_table in nested_tables:
                # Move the nested table after the outer table
                table.insert_after(nested_table.extract())
            table.extract()  # Remove the outer table

    # Find all tables again after unnesting
    tables = soup.find_all('table')

    # Merge adjacent tables with the same number of columns
    i = 0
    while i < len(tables) - 1:
        current_table = tables[i]
        next_table = tables[i + 1]

        # Check if the tables are directly adjacent
        if current_table.next_sibling == next_table:
            # Check if both tables have the same number of columns
            current_table_cols = len(current_table.find_all('tr')[0].find_all(['th', 'td']))
            next_table_cols = len(next_table.find_all('tr')[0].find_all(['th', 'td']))
            if current_table_cols == next_table_cols:
                # Merge the tables
                current_table.extend(next_table.find_all('tr'))
                next_table.extract()
                tables.pop(i + 1)  # Remove the merged table from the list
                continue

        i += 1

    return soup


In [None]:
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain.output_parsers import PydanticOutputParser

class TableValidator(BaseModel):
    description: str = Field(description="Description of the table content")
    to_change: str = Field(description="Explanation of invalidity and changes to be made to the table content if it is invalid")
    is_valid: bool = Field(description="Validation status of the table")
    correction: str = Field(description="Correction of the input html table")

In [None]:
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

parser = PydanticOutputParser(pydantic_object= TableValidator)
template = """You are an HTML table cleaning bot. Your task is to analyze the provided HTML content and determine if it is a valid table.

If you determine that the HTML is not a valid table (i.e., the content doesn't fit the structure or semantics of a table), you should modify the HTML by removing the table tags and converting the content into a more appropriate HTML structure, such as paragraphs or lists.
Do not force change if it is readable like this.\n
If everything is correct but a line, modify the line to make it correct, do not delete it. Think about the homogeneity of the table.\n
In description you should provide a brief description of the table and if incorrect, a clear explaination of why it is incorrect and how it may impact the reader comprehension.\n
Note that is_valid cannot be true if at least one element is not correctly formatted.\n
If it looks like a text that could me simply put in a paragraph do it.\n
If you determine that the HTML is a normal table and doesn't require any modifications, you should return the entire original HTML in the output.\n
{format_instructions}\n
Return only the JSON object.
Here is the table:
{table}"""

prompt = PromptTemplate(
    template=template,
    input_variables=["table"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)
llm = ChatOpenAI(model="gpt-4o", temperature = 0.0)
llm_chain = prompt | llm | parser

In [None]:
import tqdm
def process_tables(soup):
    #get all tables
    tables = soup.find_all('table')
    #for each table send to OpenAI and ask to format
    for table in tqdm.tqdm(tables):
        table_str = str(table)
        if len(table_str) < 10000:
            formatted_table : TableValidator = llm_chain.invoke({"table" : table_str})
            #if table is not valid, replace the table with the formatted table
            if not formatted_table.is_valid:
                table.replace_with(BeautifulSoup(formatted_table.correction, 'html.parser'))
    
    return soup


In [None]:
# Usage
result = remove_duplicate_tables('./docs/CHARTE_QUALITE_PRODUIT2.html')
result = remove_page_status(result)
result = merge_adjacent_tables(result)


In [None]:
result = process_tables(result)

In [None]:
md_result = md(str(result))
#save html to file

with open('./docs/CHARTE_QUALITE_PRODUIT2_Processed.html', "w") as html_file:
    html_file.write(str(result))
#save markdown to file
with open('./docs/CHARTE_QUALITE_PRODUIT2_Processed.md', "w") as md_file:
    md_file.write(md_result)

### Parse PDF using UnstructuredPDFLoader

In [None]:
from langchain.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader("./docs/CHARTE_QUALITE_PRODUIT2.pdf", strategy="hi_res")
doc = loader.load()


In [None]:
from typing import List

def summary(docs):
    print(f"There are {len(docs)} documents")
    print(f"There are {sum([len(doc.page_content) for doc in docs])} characters in the documents")
    print()
    print(f"Preview : n {docs[0].page_content[:100]}")

summary(doc)


In [None]:
with open('./docs/CHARTE_QUALITE_PRODUIT2.txt', "w") as txt_file:
    txt_file.write(doc[0].page_content)

### Post Process the loaded content

In [15]:
import re
# function to Delete elements of more then 30 char that repeats itself in the text
def remove_headers_footers(ocr_text, min_length=40, min_repetitions=3):
    segments = ocr_text.split("\n")  # Split OCR text into segments (assuming newline-separated)
    repeated_segments = {}  # Dictionary to store repeated segments and their counts

    # Count repetitions of each segment
    for segment in segments:
        if len(segment) >= min_length and re.match(r'^\|( --- \|)*$', segment) is None:
            if segment in repeated_segments:
                repeated_segments[segment] += 1
            else:
                repeated_segments[segment] = 1

    # Identify segments to remove based on repetition count
    segments_to_remove = []
    for segment, count in repeated_segments.items():
        if count >= min_repetitions:
            segments_to_remove.append(segment)

    print(segments_to_remove)
    # Remove identified segments from OCR text
    cleaned_text = ocr_text
    for segment in segments_to_remove:
        cleaned_text = cleaned_text.replace(segment, "")

    return cleaned_text # Strip leading and trailing whitespace





In [49]:
with open("./docs/CHARTE_QUALITE_PRODUIT_gpt4o.md", "r") as text_file:
    md_result = text_file.read()

In [50]:
#md_result = documents[0].get_content()
cleaned_text = remove_headers_footers(md_result, min_length=5, min_repetitions=3)
#cleaned_text = documents[0].text

['# CHARTE PRODUITS COUP DE PATES', '**Codification**: CDP_QUA_CHART_01  ', '**Version**: 5  ', '**Date d’application**: 13/12/2023']


In [51]:
import re
cleaned_text = re.sub(r"^Page.*$", "\n", cleaned_text, flags=re.MULTILINE)#delete the entire line that start with "page .."
cleaned_text =  re.sub(r"\n\n+", "\n\n", cleaned_text) #delete multiple new lines
cleaned_text =  re.sub(r"\n---\n","\n", cleaned_text) #delete the "---" that are present in the text (page jump)
cleaned_text =  re.sub(r"\|\n+\|","|\n|", cleaned_text) #delete spaces between tables

print(f"Cleaned text LENGTH : {len(cleaned_text)} characters")
print(cleaned_text[0:1000])

Cleaned text LENGTH : 35542 characters


**Codification :**  
CDP_QUA_CHART_01

**Version :** 5

**Date d’application :** 13/12/2023

| Date       | Mises à jour                                                                 |
|------------|------------------------------------------------------------------------------|
| 19/12/2014 | Création                                                                      |
| 12/12/2019 | Insertion des additifs interdits et à éviter                                  |
| 13/05/2022 | Revue des exigences recettes et annexes                                       |
| 30/03/2023 | Revue des annexes I et II. Fréquence de mise à jour CDC                       |
| 13/12/2023 | Ajout d’une exigence de certification sur le cacao                           |
|            | Revue des exigences de certification de l’huile de palme                      |

## Table des matières

1. **Exigence recette** .............................................................

In [52]:
with open("./docs/CHARTE_QUALITE_PRODUIT_non_traite.md", "w") as text_file:
    if type(cleaned_text) == str:
        text_file.write(cleaned_text)

In [None]:
# # Ask an llm to rewrite the text in a more readable & understandable way
# from langchain_core.prompts import PromptTemplate
# from langchain_openai import ChatOpenAI

# template = """You are a markdown file reformater. Only touch markdown tags so it is more readable. Note that title, subtitles and annexes must have a '#', '##', .. Do NOT change the content (do not change or add titles) nor the order of the elements, everything must stay in the file. Keep the language of the sources provided (french). Try to think intelligently on the layout.\n Format the following source: {text} \n\n"""

# prompt = PromptTemplate.from_template(template)

# llm = ChatOpenAI(model="gpt-4-turbo", temperature = 0.0)

# llm_chain = prompt | llm


In [None]:
# from langchain_text_splitters import RecursiveCharacterTextSplitter
# text_splitter = RecursiveCharacterTextSplitter(
#     chunk_size=5000,
#     chunk_overlap=20,
#     length_function=len,
#     is_separator_regex=True,
#     keep_separator=False,
#     separators=[
        
#         r'\|\n([^|])',
#         "\n\n",
#         "\n",
#         " ",
#     ],
# )
# split_text = text_splitter.split_text(cleaned_text)
# split_text

In [None]:
# import tqdm
# llm_cleaned_text = ""
# for chunk in tqdm.tqdm(split_text):
#     llm_cleaned_chunk = llm_chain.invoke(chunk)
#     if type(llm_cleaned_chunk.content) == str:
#         llm_cleaned_text += llm_cleaned_chunk.content

# with open("./docs/CHARTE_QUALITE_PRODUIT.md", "w") as text_file:
#     if type(llm_cleaned_text) == str:
#         text_file.write(llm_cleaned_text)


### Use of Langchain to chunk correctly the data

In [53]:
from langchain.text_splitter import MarkdownHeaderTextSplitter
with open("./docs/CHARTE_QUALITE_PRODUIT_non_traite.md", "r") as text_file:
    markdown_text = text_file.read()
markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=[("**", "Header 1")])
md_header_splits = markdown_splitter.split_text(markdown_text)
md_header_splits


[Document(page_content="**Codification :**\nCDP_QUA_CHART_01  \n**Version :** 5  \n**Date d’application :** 13/12/2023  \n| Date       | Mises à jour                                                                 |\n|------------|------------------------------------------------------------------------------|\n| 19/12/2014 | Création                                                                      |\n| 12/12/2019 | Insertion des additifs interdits et à éviter                                  |\n| 13/05/2022 | Revue des exigences recettes et annexes                                       |\n| 30/03/2023 | Revue des annexes I et II. Fréquence de mise à jour CDC                       |\n| 13/12/2023 | Ajout d’une exigence de certification sur le cacao                           |\n|            | Revue des exigences de certification de l’huile de palme                      |  \n## Table des matières  \n1. **Exigence recette** ..............................................................

In [54]:
len(md_header_splits)

1

### Llama index Joint Tabular/Semantic QA

In [105]:
import pandas as pd

pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)
pd.set_option("display.width", None)
pd.set_option("display.max_colwidth", None)

In [24]:
from llama_index.readers.file import MarkdownReader
from pathlib import Path

reader = MarkdownReader()
charte = reader.load_data(Path("./docs/CHARTE_QUALITE_PRODUIT2.md"))

In [107]:
#from llama_index.core.node_parser import MarkdownElementNodeParser
from markdown_element import MarkdownElementNodeParser

node_parser = MarkdownElementNodeParser()

In [18]:
import asyncio
import nest_asyncio
import uvloop

if not isinstance(asyncio.get_event_loop(), uvloop.Loop):
    nest_asyncio.apply()

In [28]:
import os
import pickle

if not os.path.exists("./docs/charte.pkl"):
    raw_nodes_charte = node_parser.get_nodes_from_documents(charte, show_progress= False)
    pickle.dump(raw_nodes_charte, open("./docs/charte.pkl", "wb"))
else:
    raw_nodes_charte = pickle.load(open("./docs/charte.pkl", "rb"))

In [29]:
base_nodes_charte, node_mappings_charte = node_parser.get_base_nodes_and_mappings(
    raw_nodes_charte
)

In [7]:
from llama_index.core.schema import IndexNode, TextNode, MetadataMode

example_index_node = [b for b in base_nodes_charte if isinstance(b, TextNode)][
    16
]
example_index_node.get_content()

'6.2. Suivi nutritionnel\n\nLe fournisseur doit communiquer à Coup de Pates une analyse nutritionnelle réalisée par un laboratoire accrédité COFRAC ou équivalent du COFRAC reconnu par l’ILAC dans les pays concernés. Cette analyse doit être réalisée pour chaque nouveau produit référencé, afin de répondre aux exigences d’étiquetage européennes (avec quantification des acides gras trans et des fibres), et à chaque modification de matières premières et/ou de recette. La communication d’analyses nutritionnelles calculées à l’aide d’un logiciel consolidé est également acceptée.\n\nSur demande de Coup de Pates, un nouveau bulletin d’analyse devra être communiqué.'

In [8]:
from llama_index.core.schema import IndexNode, TextNode, MetadataMode
example_index_node = [b for b in base_nodes_charte if isinstance(b, IndexNode)][
    4
]

# Index Node
print(
    f"\n--------\n{example_index_node.get_content(metadata_mode=MetadataMode.ALL)}\n--------\n"
)
# Index Node ID
print(f"\n--------\nIndex ID: {example_index_node.index_id}\n--------\n")
# Referenceed Table
print(
    f"\n--------\n{node_mappings_charte[example_index_node.index_id].get_content()}\n--------\n"
)


--------
col_schema: Column: Additif
Type: string
Summary: None

Column: Code
Type: string
Summary: None

The table lists various food additives along with their corresponding codes, specifically highlighting those with potential carcinogenicity or involvement in serious diseases.,
with the following table title:
ANNEXE 1: Red Additives: additives for which scientific reports indicate potential carcinogenicity or involvement in serious diseases,
with the following columns:
- Additif: None
- Code: None
--------


--------
Index ID: 83cdb134-0483-4555-872f-d35ede6e9711
--------


--------
The table lists various food additives along with their corresponding codes, specifically highlighting those with potential carcinogenicity or involvement in serious diseases.,
with the following table title:
ANNEXE 1: Red Additives: additives for which scientific reports indicate potential carcinogenicity or involvement in serious diseases,
with the following columns:
- Additif: None
- Code: None

| A

### Criteria Retriever


In [115]:
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

template = """You are an expert criterion extractor.
The following text contains element of a convention that needs to be applied. It can be a chunk of text or a table summary.

Text:
{context}

Please:
1. Identify and list all checkable criteria mentioned in the text.
2. If it is a table summary, extract one key criterion that links to the table, specifying that certain aspects must comply with the table's details. Note that the supplier is not responsible for creating the table so do not add criteria such as "- Suppliers must verify that the list of food additives includes their respective codes.
". Suppliers must, but must ensure that the product complies with the table's requirements.
    example : "Suppliers must verify the all the Ingredients are compliant to the 'Specific Requirements for Product Ranges' table", "Suppliers must check if additives are 'Additifs oranges'. Note that you cannot be compliant to a list".
3. If the text or the table is not relevant for criteria checking (introduction, glossary, updates list, etc.), state that no criteria are present with "PASS".
Response format is a list of criterion. All the criterion must start with :
- Les fournisseurs doivent ...

4. Note that suppliers will only give you a list of ingredients and additives present in their product.
5. If it is necessary to refer to a table add {{check_tables}}
6. The criterion have to be written in French.


Complete: 
- 
"""

prompt = PromptTemplate(
    template=template,
    input_variables=["context"],
)
llm = ChatOpenAI(model="gpt-4o", temperature = 0.1)
llm_chain = prompt | llm 

In [116]:
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI

template = """You are an expert criterion extractor.
The following text contains element of a convention that needs to be applied. It can be a chunk of text or a table summary.

Text:
{context}

Please:
1. Identify and list all checkable criteria mentioned in the text.
2. If the context is a table, write a sentence for every lines of the table. The sentence must be a criteria that the supplier must check. If the line is not a criteria, write "PASS".
3. If the text or the table is not relevant for criteria checking (introduction, glossary, document updates, document versions etc.), state that no criteria are present with "PASS".
Response format is a list of criterion. All the criterion must start with :
- Les fournisseurs doivent ...

4. Note that suppliers will only give you a list of ingredients and additives present in their product.
5. If it is necessary to refer to a table add {{check_tables}}
6. Limit the number of criteria to the most important ones.
7. The criterion have to be written in French.


Complete (without repeting the prompt): 
- 
"""

template = """You are an expert criterion extractor.
The following text contains elements of a "Charte Produits/emballage" (Product/Packaging Charter) that needs to be applied. It can be a chunk of text or a table summary.
Text:
{context}
Please:

Identify and list all checkable criteria mentioned in the text, focusing on ingredient categories and their compliance with the charter.
If the text or table is not relevant for criteria checking (e.g., introduction, glossary, document updates, document versions), state that no criteria are present by writing "PASS".
Write the criteria in the same language as the input text.
Start each criterion with a phrase indicating what suppliers must do, such as "Les fournisseurs doivent ..." (Suppliers must ...) for French, or an equivalent phrase in the appropriate language.
Focus on the most important criteria based on the context, but do not exceed a reasonable number of criteria.
Exclude criteria related to document versions, updates, or other non-essential information.

While writing the criteria, consider the following:
- The supplier will provide a list of ingredients and additives present in their product.
- The criteria should be clear and actionable, providing specific instructions for suppliers to follow.
- If necessary, refer to the table provided in the text for additional details.
- The criteria have to be really objective and clear. Do not include subjective criteria or criteria that suggest realising an action for the supplier.
- Next to the criteria, explain your reasoning and why it is really important.
- Limit the criteria to the most important ones.
- Avoid general criterias like "Suppliers must verfy there is no gluten in no gluten products". Be specific and clear.
- Suppose the supplier already gave all the needed document (so don't add it in the criterion)

Complete (without repeating the prompt):

-
"""

prompt = PromptTemplate(
    template=template,
    input_variables=["context"],
)
llm = ChatOpenAI(model="gpt-4o", temperature = 0.1)
llm_chain = prompt | llm 

In [117]:
from llama_index.core.schema import IndexNode, TextNode, MetadataMode
# for each Node, extract criterias from the text or summary of the table
llm_results = []
for node in base_nodes_charte:
    if isinstance(node, IndexNode):
        context = node.get_content(metadata_mode=MetadataMode.ALL)
        
    else:
        context = node.get_content()

    llm_result = llm_chain.invoke({"context": context})
    print(llm_result.content)
    print()
    llm_results.append(llm_result.content)

PASS

PASS

- Les fournisseurs doivent garantir que les produits portant l'allégation « sans gluten » ne contiennent aucune trace de gluten. (Raison : La conformité aux allégations « sans gluten » est cruciale pour la sécurité des consommateurs souffrant de la maladie cœliaque ou d'une sensibilité au gluten.)

- Les fournisseurs doivent s'assurer que les produits issus de l’agriculture biologique respectent les normes et certifications biologiques en vigueur. (Raison : Les produits biologiques doivent répondre à des standards spécifiques pour garantir leur qualité et leur conformité aux attentes des consommateurs.)

- Les fournisseurs doivent éviter l'utilisation des additifs répertoriés dans l'ANNEXE I : Additifs rouges, en raison de leur potentielle cancérogénicité ou implication dans des pathologies lourdes. (Raison : La santé des consommateurs est prioritaire, et l'utilisation d'additifs potentiellement dangereux doit être strictement contrôlée.)

- Les fournisseurs doivent limiter

In [118]:
prompt = PromptTemplate(
    template="Rewrite the exact same list but delete repetitive criterion in the text and group them by sub categories : {context}",
    input_variables=["context"],
)
llm_chain = prompt | llm 

llm_results_cleaned = llm_chain.invoke({"context": "\n".join(llm_results)})


In [119]:
print(llm_results_cleaned.content)

### Sécurité des Additifs et Ingrédients

#### Additifs
- **Additifs Rouges (ANNEXE I)**
  - Les fournisseurs doivent éviter l'utilisation des additifs répertoriés en raison de leur potentielle cancérogénicité ou implication dans des pathologies lourdes.
  - Les fournisseurs doivent s'assurer que leurs produits ne contiennent pas d'additifs rouges répertoriés comme potentiellement cancérogènes ou impliqués dans des pathologies lourdes selon les rapports scientifiques.
  - Les fournisseurs doivent fournir une liste complète des additifs présents dans leurs produits, en incluant les codes correspondants pour chaque additif.
  - Les fournisseurs doivent vérifier et confirmer que les additifs utilisés dans leurs produits ne sont pas associés à des risques de cancer ou à des maladies graves, comme indiqué dans les rapports scientifiques.
  - *Raison : La santé des consommateurs est prioritaire, et l'utilisation d'additifs potentiellement dangereux doit être strictement contrôlée.*

- **Addi

In [130]:
ref_criterion = llm_results_cleaned.content

### Excel (target doc) retriever


In [120]:
#read xlsx file : 
import pandas as pd
df = pd.read_excel("./docs/example_fournisseur.xlsx")


In [121]:
xls = pd.ExcelFile("./docs/example_fournisseur.xlsx")
sheets = pd.read_excel(xls, 'Fiche recette')

In [122]:
def table_to_text(df):
    # Initialize an empty list to store the text rows
    text_rows = []

    # Iterate over each row in the DataFrame
    for index, row in df.iterrows():
        # Combine all columns into a single string separated by " | "
        row_text = " | ".join(str(value) for value in row.values if pd.notna(value))

        # Append the combined string to the list
        if row_text:
            text_rows.append("|" + row_text + "|")

    # Join all rows into a single string separated by newlines
    #result_text = "\n".join(text_rows)

    return text_rows

In [123]:
sheets

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Fiche recette,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8
0,,,,,,,,,
1,,,,,,,,,
2,,,,,,,,,
3,,,,,,,,,
4,,,,,,,,,
5,,► Recette,,,,,,,
6,,Merci de détailler ci-dessous la composition exacte du produit tel qu’il est proposé à ARYZTA. La recette doit être découpée par semi-fini et les % de matières premières exprimés par semi-fini. Les ingrédients des MP composées sont à détailler également. Un exemple de déclaration est proposé dans l'onglet EXEMPLE DECLARATION RECETTE.,,,,,,,
7,Type,Dénomination Semi-Fini,% SF,Dénomination Matière Première,% MP,Détail ingrédients si Matière première composée,,Pays d'origine / Zone FAO \n(pour les viandes et les poissons),Informations supplémentaires
8,Semi-Fini,330200 MOUSSE FRAMBOISE MOINS SUCRE,41.5,,,,,,
9,Matière première,,,1120028 FRAMBOISE PUREE SUCREE 10pourcent,34.982509,,,Serbie-Bosnie&Herzegovine,


In [124]:
target_text = table_to_text(sheets)

In [125]:
target_text = "\n".join(target_text)


In [126]:
prompt = PromptTemplate(
    template="""You are a question generator to verify important information in a table. Here are the reference criterion : 
    {ref_criterion}
    I want you to generate questions for each row of the following tables :
     -  The questions should be relevant to the information in the row. Be as specific as possible. Limit the questions to the most important ones.
     -  The questions are adressed to the reference document to verify facts.
     - Question exemple : "Est ce que cet ingrédients est autorisés : ... "?
    here is the table : 
    {target_text}
    """,
    input_variables=["ref_criterion", "target_text"],
)

In [173]:
ref_criterion = """ 
- Les fournisseurs doivent vérifier que tous les ingrédients sont conformes à la table 'Spécificités des gammes de produits' pour les 3 types de produits.
- Les fournisseurs doivent vérifier si les additifs sont oranges, verts ou rouges.
- Les fournisseurs doivent voir selon leur type, si les additifs sont conformes à la table 'Spécificités des gammes de produits' pour les 3 types de produits"""

In [178]:
prompt = PromptTemplate(
    template="""You are a question generator to verify important information in a table. Here are the reference criterion : 
    {ref_criterion}
    I want you to generate questions for each row of the following tables :
     -  The questions should be relevant to the information in the row. Be as specific as possible. Limit the questions to the most important ones.
     -  The questions are adressed to the reference document not to the supplier (the supplier will only provide a list of ingredients and additives present in their product).
     - Question exemple : "Est ce que cet ingrédients est autorisés : ... "?, "De quel type est l'additifs ..., est il autorisé ?"
     - Put the entire table line in the question and split in sub questions when needed (multiple sub ingredients for exemple).
     - Note that Additives should be classified as green, orange or red.
     - Do not format the response, just return the questions.
    here is the table : 
    {target_text}
    """,
    input_variables=["ref_criterion", "target_text"],
)

In [179]:
llm = ChatOpenAI(model="gpt-4o", temperature = 0.1)
llm_chain = prompt | llm 

questions = llm_chain.invoke({"ref_criterion":ref_criterion, "target_text": target_text })

In [180]:
question_list = str(questions.content).split("\n")

In [181]:
question_list

['1. Est-ce que cet ingrédient est autorisé : 1120028 FRAMBOISE PUREE SUCREE 10pourcent (Serbie-Bosnie&Herzegovine) ?',
 '2. Est-ce que cet ingrédient est autorisé : 1050004 EAU (France) ?',
 '3. Est-ce que cet ingrédient est autorisé : 1020001 SUCRE CRISTAL (UE) ?',
 '4. Est-ce que ces ingrédients sont autorisés : LAMEQUICK CE RSPO (UE des 27) ? ',
 '   - sirop de glucose',
 '   - huile de palmiste',
 '   - émulsifiant : E472a (acetic acid esters of mono- and diglycerides of fatty acids) (étiquettage : émulsifiant : E472a (LAIT), le reste : support non déclarable - palme RSPO)',
 '   - protéine de lait',
 "5. De quel type est l'additif E472a (acetic acid esters of mono- and diglycerides of fatty acids) dans LAMEQUICK CE RSPO, est-il autorisé ?",
 '6. Est-ce que ces ingrédients sont autorisés : 1030011 CREME 35% UHT 10L DDJ (UE) ?',
 '   - crème de LAIT',
 '   - stabilisant : E407',
 "7. De quel type est l'additif E407 dans CREME 35% UHT 10L DDJ, est-il autorisé ?",
 '8. Est-ce que cet

### Recursive Retriever

In [30]:
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core import VectorStoreIndex

In [37]:
# construct top-level vector index + query engine
vector_index = VectorStoreIndex(base_nodes_charte)
vector_retriever = vector_index.as_retriever(similarity_top_k=10)
vector_query_engine = vector_index.as_query_engine(similarity_top_k=10)

In [None]:
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.schema import IndexNode
from llama_index.core.extractors import (
    SummaryExtractor,
    QuestionsAnsweredExtractor,
)
extractors = [
    SummaryExtractor(summaries=["self"], show_progress=True),
    QuestionsAnsweredExtractor(questions=5, show_progress=True),
]

In [38]:
from llama_index.core.retrievers import RecursiveRetriever

recursive_retriever = RecursiveRetriever(
    "vector",
    retriever_dict={"vector": vector_retriever},
    node_dict=node_mappings_charte,
    verbose=True,
)
query_engine = RetrieverQueryEngine.from_args(recursive_retriever)

In [64]:
from llama_index.core.retrievers import VectorIndexRetriever
from llama_index.core import QueryBundle
from llama_index.core.postprocessor import LLMRerank


def get_retrieved_nodes(
    query_str, retriever, vector_top_k=10, reranker_top_n=3, with_reranker=False
):
    query_bundle = QueryBundle(query_str)
    # configure retriever
    retrieved_nodes = retriever.retrieve(query_bundle)

    if with_reranker:
        # configure reranker
        reranker = LLMRerank(
            choice_batch_size=5,
            top_n=reranker_top_n,
        )
        retrieved_nodes = reranker.postprocess_nodes(
            retrieved_nodes, query_bundle
        )

    return retrieved_nodes

def pretty_print(df):
    return display(HTML(df.to_html().replace("\\n", "<br>")))

def visualize_retrieved_nodes(nodes) -> None:
    result_dicts = []
    for node in nodes:
        result_dict = {"Score": node.score, "Text": node.node.get_text()}
        result_dicts.append(result_dict)

    pretty_print(pd.DataFrame(result_dicts))

In [108]:
from llama_index.postprocessor.cohere_rerank import CohereRerank


cohere_rerank = CohereRerank(top_n=10)
query_engine = vector_index.as_query_engine(
    similarity_top_k=15,
    node_postprocessors=[cohere_rerank],
)
response = query_engine.query(
    "Quel est le type de l'additif E472a ?",
)

In [109]:
response

Response(response="L'additif E472a n'est pas spécifiquement mentionné dans les annexes fournies, donc je ne peux pas déterminer son type à partir des informations disponibles.", source_nodes=[NodeWithScore(node=TextNode(id_='a9016b50-b17e-483a-ab89-9a84f46b89c2', embedding=None, metadata={}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={<NodeRelationship.SOURCE: '1'>: RelatedNodeInfo(node_id='0215dbc4-391b-4869-bbc6-a6cc46b034e1', node_type=<ObjectType.DOCUMENT: '4'>, metadata={}, hash='f2dc49bb5b95e8c48cc6ad228ccb68912d27445a7cd7e638309114298813af06'), <NodeRelationship.NEXT: '3'>: RelatedNodeInfo(node_id='92cda115-280e-4836-8af2-6d4b4e6f8e34', node_type=<ObjectType.INDEX: '3'>, metadata={'col_schema': 'Column: Additif\nType: string\nSummary: None\n\nColumn: Code\nType: string\nSummary: None'}, hash='359949570ab56ce489f2bef5586ad51d172303db9e0d0c7c99acd3f6761dff56')}, text='ANNEXE III : Additifs verts : additifs identifiés à ce jour comme non dangereux

In [110]:
retrieved_chunk = query_engine.retrieve(QueryBundle("Est ce que l'additif E472a est accépté dans les produits ?"))

In [116]:
retrieved_chunk[4].node.get_text()

'This table lists food additives with their corresponding codes, specifically highlighting those for which scientific reports are contradictory.,\nwith the following table title:\nANNEXE II : Additifs oranges : additifs pour lesquels les rapports scientifiques sont contradictoires,\nwith the following columns:\n- Additif: None\n- Code: None\n- Additif: None\n- Code: None\n'

In [85]:
import pandas as pd
from IPython.display import display, HTML

new_nodes = get_retrieved_nodes(
    "Est ce que l'additif E472a est accépté dans les produits ?",
    retriever= recursive_retriever,
    vector_top_k=15,
    # reranker_top_n=10,
    # with_reranker=True,
)
visualize_retrieved_nodes(new_nodes)

[1;3;34mRetrieving with query id None: Est ce que l'additif E472a est accépté dans les produits ?
[0m[1;3;38;5;200mRetrieving text node: Table des matières

1. Exigence recette 2
2. Produits soumis à certification ou allégations 3
   2.1. Produits « sans gluten » 3
   2.2. Produits issus de l’agriculture biologique 3
3. Exigences générales relatives au fournisseur 4
4. Exigences relatives aux sites de production 4
5. Traçabilité 4
6. Suivi analytique 5
   6.1. Suivi microbiologique 5
   6.2. Suivi nutritionnel 5
   6.3. Suivi organoleptique 5
7. Non conformités 5
8. Gestion de crise Coup de Pates 6

ANNEXE I : Additifs rouges : additifs pour lesquels les rapports scientifiques rapportent une potentielle cancérogénicité ou une implication dans les pathologies lourdes 7

ANNEXE II : Additifs oranges : additifs pour lesquels les rapports scientifiques sont contradictoires 10

ANNEXE III : Additifs verts : additifs identifiés à ce jour comme non dangereux pour la santé 11

ANNEXE IV : I

Unnamed: 0,Score,Text
0,0.533465,Table des matières 1. Exigence recette 2 2. Produits soumis à certification ou allégations 3  2.1. Produits « sans gluten » 3  2.2. Produits issus de l’agriculture biologique 3 3. Exigences générales relatives au fournisseur 4 4. Exigences relatives aux sites de production 4 5. Traçabilité 4 6. Suivi analytique 5  6.1. Suivi microbiologique 5  6.2. Suivi nutritionnel 5  6.3. Suivi organoleptique 5 7. Non conformités 5 8. Gestion de crise Coup de Pates 6 ANNEXE I : Additifs rouges : additifs pour lesquels les rapports scientifiques rapportent une potentielle cancérogénicité ou une implication dans les pathologies lourdes 7 ANNEXE II : Additifs oranges : additifs pour lesquels les rapports scientifiques sont contradictoires 10 ANNEXE III : Additifs verts : additifs identifiés à ce jour comme non dangereux pour la santé 11 ANNEXE IV : Ingrédients controversés 12
1,0.504615,"L’ensemble de ces critères est applicable à tous les produits vendus par Coup de Pates. Des dérogations peuvent être accordées au cas par cas, sur justificatifs fournis par le fournisseur et après validation par la direction qualité Coup de Pates."
2,0.494138,"This table lists food additives with their corresponding codes, specifically highlighting those for which scientific reports are contradictory., with the following table title: ANNEXE II : Additifs oranges : additifs pour lesquels les rapports scientifiques sont contradictoires, with the following columns: - Additif: None - Code: None - Additif: None - Code: None | Additif | Code | Additif .1| Code .1| |---|---|---|---| | Acide carminique, carmins | E 120 | Esters lactiques des mono- et diglycérides d’acides gras | E 472b | | Bleu patenté V | E 131 | Esters citriques des mono- et diglycérides d’acides gras | E 472c | | Caramel de sulfite caustique | E 150b | Esters tartriques des mono- et diglycérides d’acides gras | E 472d | | Or | E 175 | Esters monoacétyltartriques et diacétyltartriques des mono- et diglycérides d’acides gras | E 472e | | Acide benzoïque | E 210 | Esters mixtes acétiques et tartriques des mono- et diglycérides d’acides gras | E 472f | | Benzoate de sodium | E 211 | Sucroesters d’acides gras | E 473 | | Anhydride sulfureux | E 220 | Esters polyglycériques d’acides gras | E 475 | | Sulfite de sodium | E 221 | Esters de propane-1,2-diol d’acides gras | E 477 | | Sulfite acide de sodium | E 222 | Stéaroyl-2-lactylate de sodium | E 481 | | Disulfite de sodium | E 223 | Stéaroyl-2-lactylate de calcium | E 482 | | Disulfite de potassium | E 224 | Tartrate de stéaryle | E 483 | | Sulfite de calcium | E 226 | Diméthylpolysiloxane | E 900 | | Sulfite acide de calcium | E 227 | Advantame | E 969 | | Sulfite acide de potassium | E 228 | Extraits de quillaia | E 999 | | Natamycine | E 235 | Lysozyme | E 1105 | | Éthylène-diamine-tétra-acétate de calcium disodium (calcium disodium EDTA) | E 385 | Amidon oxydé | E 1404 | | Alginate de propane-1,2-diol | E 405 | Phosphate de monoamidon | E 1410 | | **Algues Euchema transformées** | **E 407a** | **Phosphate de diamidon** | **E 1412** | |---------------------------------|------------|---------------------------|------------| | **Carraghénanes** | **E 407** | **Phosphate de diamidon phosphaté** | **E 1413** | | **Cellulose** | **E 460** | **Phosphate de diamidon acétylé** | **E 1414** | | **Hydroxypropylcellulose** | **E 463** | **Amidon acétylé** | **E 1420** | | **Hydroxypropylméthylcellulose**| **E 464** | **Adipate de diamidon acétylé** | **E 1422** | | **Carboxyméthyl-cellulose sodique, gomme cellulosique** | **E 466** | **Amidon hydroxypropylé** | **E 1440** | | **Sels de sodium, de potassium, calcium d’acides gras, magnésium d’acides gras** | **E 470** | **Phosphate de diamidon hydroxypropylé** | **E 1442** | | **Mono- et diglycérides d’acides gras** | **E 471** | **Octényl succinate d’amidon sodique** | **E 1450** | | **Esters acétiques des mono- et diglycérides d’acides gras** | **E 472a** | **Amidon oxydé acétylé** | **E 1451** |"
3,0.489095,"The table lists food additives identified as non-hazardous to health, along with their corresponding codes., with the following table title: ANNEXE III : Additifs verts : additifs identifiés à ce jour comme non dangereux pour la santé., with the following columns: - Additif: None - Code: None | Additif | Code | Additif .1| Code .1| |---|---|---|---| | Curcumine | E 100 | Tartrates de potassium | E 336 | | Riboflavines | E 101 | Malate de potassium | E 351 | | Chlorophylles et chlorophyllines | E 140 | Acide métatartarique | E 353 | | Complexes cuivre-chlorophylles et cuivre-chlorophyllines | E 141 | Tartrate de calcium | E 354 | | Caramel ordinaire | E 150a| Extraits de romarin | E 392 | | Charbon végétal médicinal | E 153 | Acide alginique | E 400 | | Caroténoïdes | E 160a| Alginate de sodium | E 401 | | Bixine de rocou / Norbixine de rocou | E 160b| Alginate de calcium | E 404 | | Extrait de paprika, capsanthine, capsorubine | E 160c| Agar-agar | E 406 | | Lycopène | E 160d| Farine de graines de caroube | E 410 | | β-apocaroténal-8’ (C 30) | E 160e| Gomme guar | E 412 | | Lutéine | E 161b| Gomme adragante | E 413 | | Rouge de betterave, bétanine | E 162 | Gomme arabique ou gomme d’acacia | E 414 | | Anthocyanes | E 163 | Gomme xanthane | E 415 | | Acide sorbique | E 200 | Gomme Karaya | E 416 | | Sorbate de potassium | E 202 | Gomme Tara | E 417 | | Acide acétique | E 260 | Gomme Gellane | E 418 | | Acétates de potassium | E 261 | Sorbitols | E 420 | | Acétates de sodium | E 262 | Glycérol | E 422 | | Acétate de calcium | E 263 | Gomme cassia | E 427 | | Acide lactique | E 270 | Pectines | E 440 | | Propionate de calcium | E 282 | Méthylcellulose | E 461 | | Dioxyde de carbone | E 290 | Sels de sodium, de potassium et de calcium d’acides gras | E 470a | | Acide malique | E 296 | Sels de magnésium d’acides gras | E 470b | | Acide ascorbique | E 300 | Polricinoléate de polyglycérol | E 476 | | Ascorbate de sodium | E 301 | Phytostérols riches en stigmastérol | E 499 | | Ascorbate de calcium | E 302 | Carbonates de sodium | E 500 | | Esters d’acides gras de l’acide ascorbique | E 304 | Carbonates de potassium | E 501 | | Extrait riche en tocophérols | E 306 | Carbonates d’ammonium | E 503 | | Alpha-tocophérol | E 307 | Carbonates de magnésium | E 504 | | Érythorbate de sodium | E 316 | Acide chlorhydrique | E 507 | | Lécithines | E 322 | Chlorure de potassium | E 508 | | Lactate de sodium | E 325 | Chlorure de calcium | E 509 | | Lactate de potassium | E 326 | Chlorure de magnésium | E 511 | | Lactate de calcium | E 327 | Acide sulfurique | E 513 | | Acide citrique | E 330 | Sulfates de sodium | E 514 | | Citrates de sodium | E 331 | Sulfates de potassium | E 515 | | Citrates de potassium | E 332 | Sulfate de calcium | E 516 | | Citrates de calcium | E 333 | Sulfate d’ammonium | E 517 | | Acide tartrique (L {+}) | E 334 | Hydroxyde de sodium | E 524 | | Hydroxyde de potassium | E 525 | Shellac | E 904 | |------------------------------|--------|--------------------------------|--------| | Hydroxyde de calcium | E 526 | L-cystéine | E 920 | | Hydroxyde de magnésium | E 528 | Carbamide | E 927b | | Tartrate de fer | E 534 | Argon | E 938 | | Ferrocyanure de sodium | E 535 | Hélium | E 939 | | Ferrocyanure de potassium | E 536 | Azote | E 941 | | Acides gras | E 570 | Protoxyde d’azote | E 942 | | Acide gluconique | E 574 | Oxygène | E 948 | | Glucono-delta-lactone | E 575 | Hydrogène | E 949 | | Gluconate de sodium | E 576 | Néo-hespéridine DC | E 959 | | Gluconate de potassium | E 577 | Glycosides de stéviol | E 960 | | Gluconate de calcium | E 578 | Lactitol | E 966 | | Gluconate ferreux | E 579 | Invertase | E 1103 | | Lactate ferreux | E 585 | Polydextrose | E 1200 | | L-leucine | E 641 | Pullulan | E 1204 | | Cire d’abeille blanche et jaune | E 901 | Citrate de triéthyle | E 1505 | | Cire de candelilla | E 902 | Triacétate de glycérile (triacétine) | E 1518 | | Cire de carnauba | E 903 | Propanediol-1,2 (propylène glycol) | E 1520 |"
4,0.483646,"The table lists various food additives along with their corresponding codes, specifically highlighting those with potential carcinogenicity or involvement in serious diseases., with the following table title: ANNEXE 1: Red Additives: additives for which scientific reports indicate potential carcinogenicity or involvement in serious diseases, with the following columns: - Additif: None - Code: None | Additif | Code | Additif | Code | |----------------------------------|-------|----------------------------------------|-------| | Tartrazine | E 102 | Acide propionique | E 280 | | Jaune de quinoléine | E 104 | Propionate de sodium | E 281 | | Sunset Yellow FCF/Jaune orange S | E 110 | Propionate de potassium | E 283 | | Azorubine, carmoisine | E 122 | Acide borique | E 284 | | Amarante | E 123 | Tétraborate de sodium (borax) | E 285 | | Ponceau 4R, rouge cochenille A | E 124 | Acide fumarique | E 297 | | Erythrosine | E 127 | Gamma-tocophérol | E 308 | | Rouge allura AC | E 129 | Delta-tocophérol | E 309 | | Indigotine, carmin d’indigo | E 132 | Gallate de propyle | E 310 | | Bleu brillant FCF | E 133 | Acide érythorbique | E 315 | | Vert S | E 142 | Butylhydro-quinone tertiaire (BHQ) | E 319 | | Caramel ammoniacal | E 150c| Butylhydroxy-anisol (BHA) | E 320 | | Caramel au sulfite d’ammonium | E 150d| Butylhydroxy-toluène (BHT) | E 321 | | Noir brillant PN | E 151 | Tartrates de sodium | E 335 | | Brun HT | E 155 | Tartrate double de sodium et de potassium | E 337 | | Carbonate de calcium | E 170 | Acide phosphorique | E 338 | | Dioxyde de titane | E 171 | Phosphates de sodium | E 339 | | Oxyde et hydroxyde de fer | E 172 | Phosphates de potassium | E 340 | | Aluminium | E 173 | Phosphates de calcium | E 341 | | Argent | E 174 | Phosphates de magnésium | E 343 | | Lithol-rubine BK | E 180 | Malates de sodium | E 350 | | **Benzoate de potassium** | **E 212** | **Malates de calcium** | **E 352** | |---------------------------|-----------|------------------------|-----------| | **Benzoate de calcium** | **E 213** | **Acide adipique** | **E 355** | | **P-hydroxybenzoate d’éthyle** | **E 214** | **Adipate de sodium** | **E 356** | | **Dérivé sodique de l’ester éthylique de l’acide p-hydroxybenzoïque** | **E 215** | **Adipate de potassium** | **E 357** | | **P-hydroxybenzoate de méthyle** | **E 218** | **Acide succinique** | **E 363** | | **Dérivé sodique de l’ester méthylique de l’acide p-hydroxybenzoïque** | **E 219** | **Citrate de triammonium** | **E 380** | | **Nisine** | **E 234** | **Alginate de potassium** | **E 402** | | **Hexaméthylènetétramine** | **E 239** | **Alginate d’ammonium** | **E 403** | | **Dicarbonate de diméthyle** | **E 242** | **Mannitol** | **E 421** | | **Éthyl Lauroyl Arginate** | **E 243** | **Gomme arabique modifiée à l’acide octénylsuccinique (OSA)** | **E 423** | | **Nitrite de potassium** | **E 249** | **Konjac** | **E 425** | | **Nitrite de sodium** | **E 250** | **Hémicellulose de soja** | **E 426** | | **Nitrate de sodium** | **E 251** | **Stéarate de polyoxyéthylène (40)** | **E 431** | | **Nitrate de potassium** | **E 252** | **Monolaurate de polyoxyéthylène de sorbitane (polysorbate 20)** | **E 432** | | **Monooléate de polyoxyéthylène de sorbitane (polysorbate 80)** | **E 433** | **Dioxyde de silicium** | **E 551** | | **Monopalmitate de polyoxyéthylène de sorbitane (polysorbate 40)** | **E 434** | **Silicate de calcium** | **E 552** | | **Monostéarate de polyoxyéthylène de sorbitane (polysorbate 60)** | **E 435** | **Silicate de magnésium** | **E 553a** | | **Tristéarate de polyoxyéthylène de sorbitane (polysorbate 65)** | **E 436** | **Talc** | **E 553b** | | **Phosphatides d’ammonium** | **E 442** | **Silicate alumino-sodique** | **E 554** | | Acétate isobutyrate de saccharose | E 444 | |-----------------------------------|-------| | Esters glycériques de résine de bois | E 445 | | Diphosphates | E 450 | | Triphosphates | E 451 | | Polyphosphates | E 452 | | Polyaspartate de potassium | E 456 | | Bêta-cyclodextrine | E 459 | | Éthylcellulose | E 462 | | Hydroxypropylcellulose faiblement substituée (L-HPC) | E 463a | | Méthyléthylcellulose | E 465 | | Carboxyméthylcellulose de sodium réticulée, gomme de cellulose réticulée | E 468 | | Carboxyméthylcellulose hydrolysée de manière enzymatique, gomme de cellulose hydrolysée de manière enzymatique | E 469 | | Sucroglycérides | E 474 | | Huile de soja oxydée par chauffage ayant réagi avec des mono- et diglycérides d’acides gras | E 479b | | Monostéarate de sorbitane | E 491 | | Tristéarate de sorbitane | E 492 | | Monolaurate de sorbitane | E 493 | | Monooléate de sorbitane | E 494 | | Monopalmitate de sorbitane | E 495 | | Chlorure d’étain | E 512 | | Silicate alumino-potassique | E 555 | | 4-Hexylrésorcinol | E 586 | | Acide glutamique | E 620 | | Glutamate monosodique | E 621 | | Glutamate monopotassique | E 622 | | Diglutamate de calcium | E 623 | | Glutamate d’ammonium | E 624 | | Diglutamate de magnésium | E 625 | | Acide guanylique | E 626 | | Guanylate disodique | E 627 | | Guanylate dipotassique | E 628 | | Guanylate de calcium | E 629 | | Acide inosinique | E 630 | | Inosinate disodique | E 631 | | Inosinate dipotassique | E 632 | | Inosinate de calcium | E 633 | | 5′-ribonucléotide calcique | E 634 | | 5′-ribonucléotide disodique | E 635 | | Glycine et son sel de sodium | E 640 | | Acétate de zinc | E 650 | | Sulfate d’aluminium | E 520 | Cire microcristalline | E 905 | | Sulfate d’aluminium sodique | E 521 | Poly-1-décène hydrogéné | E 907 | | Sulfate d’aluminium potassique | E 522 | Cire de polyéthylène oxydée | E 914 | | Sulfate d’aluminium ammonique | E 523 | Butane | E 943a| | Hydroxyde d’ammonium | E 527 | Isobutane | E 943b| | Oxyde de calcium | E 529 | Propane | E 944 | | Oxyde de magnésium | E 530 | Acésulfame-K | E 950 | | Ferrocyanure de calcium | E 538 | Aspartame | E 951 | | Phosphate d’aluminium sodique acide | E 541 | Cyclamates | E 952 | | Isomalt | E 953 | Polyvinylpolypyrrolidone | E 1202| | Saccharines | E 954 | Alcool polyvinylique (APV) | E 1203| | Sucralose | E 955 | Copolymère méthacrylate basique | E 1205| | Thaumatine | E 957 | Copolymère de méthacrylate neutre | E 1206| | Néotame | E 961 | Copolymère de méthacrylate anionique | E 1207| | Sel d’aspartame-acésulfame | E 962 | Copolymère d’acétate de vinyle et de polyvinylpyrrolidone | E 1208| | Sirop de polyglycitol | E 964 | Copolymère greffé d'alcool polyvinylique et de polyéthylèneglycol | E 1209| | Maltitols | E 965 | Octényl succinate d’amidon d’aluminium | E 1452| | Xylitol | E 967 | Diacétate de glycéryle (diacétyne) | E 1517| | Érythritol | E 968 | Alcool benzylique | E 1519| | Polyvinylpyrrolidone | E 1201| Polyéthylène glycol | E 1521|"
5,0.476834,ANNEXE IV : Ingrédients controversés : ingrédients faisant l’objet de rapports scientifiques controversés et/ou perçus négativement par le consommateur.
6,0.475355,ANNEXE 1: Additifs rouges : additifs pour lesquels les rapports scientifiques rapportent une potentielle cancérogénicité ou une implication dans les pathologies lourdes
7,0.471964,"6.2. Suivi nutritionnel Le fournisseur doit communiquer à Coup de Pates une analyse nutritionnelle réalisée par un laboratoire accrédité COFRAC ou équivalent du COFRAC reconnu par l’ILAC dans les pays concernés. Cette analyse doit être réalisée pour chaque nouveau produit référencé, afin de répondre aux exigences d’étiquetage européennes (avec quantification des acides gras trans et des fibres), et à chaque modification de matières premières et/ou de recette. La communication d’analyses nutritionnelles calculées à l’aide d’un logiciel consolidé est également acceptée. Sur demande de Coup de Pates, un nouveau bulletin d’analyse devra être communiqué."
8,0.466426,ANNEXE II : Additifs oranges : additifs pour lesquels les rapports scientifiques sont contradictoires
9,0.45549,"2.1. Produits « sans gluten » Le fournisseur doit confirmer annuellement à Coup de Pates que l’allégation « sans gluten » de son (ses) produit(s) est applicable, conformément au règlement européen n°828/2014. Pour cela, un bulletin d’analyse de quantification du taux de gluten dans le produit fini doit être communiqué au service qualité. Si le fournisseur possède un contrat de licence auprès d’une association de personnes cœliaques (AFDIAG, AOECS…), il en transmettra le numéro de licence à Coup de Pates et les rapports et/ou certificats d’audits selon le référentiel d’audit de l’AOECS."


In [39]:
from llama_index.core.response.notebook_utils import display_source_node

nodes = recursive_retriever.retrieve("Est ce que l'additif E472a est autorisé dans les produits hauts de gamme ?")
for node in nodes:
    display_source_node(node, source_length=2000)

[1;3;34mRetrieving with query id None: Est ce que l'additif E472a est autorisé dans les produits hauts de gamme ?
[0m[1;3;38;5;200mRetrieving text node: Table des matières

1. Exigence recette 2
2. Produits soumis à certification ou allégations 3
   2.1. Produits « sans gluten » 3
   2.2. Produits issus de l’agriculture biologique 3
3. Exigences générales relatives au fournisseur 4
4. Exigences relatives aux sites de production 4
5. Traçabilité 4
6. Suivi analytique 5
   6.1. Suivi microbiologique 5
   6.2. Suivi nutritionnel 5
   6.3. Suivi organoleptique 5
7. Non conformités 5
8. Gestion de crise Coup de Pates 6

ANNEXE I : Additifs rouges : additifs pour lesquels les rapports scientifiques rapportent une potentielle cancérogénicité ou une implication dans les pathologies lourdes 7

ANNEXE II : Additifs oranges : additifs pour lesquels les rapports scientifiques sont contradictoires 10

ANNEXE III : Additifs verts : additifs identifiés à ce jour comme non dangereux pour la santé 1

**Node ID:** ed06869d-f5bd-49cd-91ea-447161ea150d<br>**Similarity:** 0.508949073332592<br>**Text:** Table des matières

1. Exigence recette 2
2. Produits soumis à certification ou allégations 3
   2.1. Produits « sans gluten » 3
   2.2. Produits issus de l’agriculture biologique 3
3. Exigences générales relatives au fournisseur 4
4. Exigences relatives aux sites de production 4
5. Traçabilité 4
6. Suivi analytique 5
   6.1. Suivi microbiologique 5
   6.2. Suivi nutritionnel 5
   6.3. Suivi organoleptique 5
7. Non conformités 5
8. Gestion de crise Coup de Pates 6

ANNEXE I : Additifs rouges : additifs pour lesquels les rapports scientifiques rapportent une potentielle cancérogénicité ou une implication dans les pathologies lourdes 7

ANNEXE II : Additifs oranges : additifs pour lesquels les rapports scientifiques sont contradictoires 10

ANNEXE III : Additifs verts : additifs identifiés à ce jour comme non dangereux pour la santé 11

ANNEXE IV : Ingrédients controversés 12<br>

**Node ID:** ae1ee1b4-e905-4399-8fc5-f64c413b77bc<br>**Similarity:** 0.4840262840056945<br>**Text:** L’ensemble de ces critères est applicable à tous les produits vendus par Coup de Pates. Des dérogations peuvent être accordées au cas par cas, sur justificatifs fournis par le fournisseur et après validation par la direction qualité Coup de Pates.<br>

**Node ID:** d82b3c66-05b9-4753-a0e7-1553a5118291<br>**Similarity:** 0.46541714578958293<br>**Text:** ANNEXE IV : Ingrédients controversés : ingrédients faisant l’objet de rapports scientifiques controversés et/ou perçus négativement par le consommateur.<br>

**Node ID:** 83cdb134-0483-4555-872f-d35ede6e9711<br>**Similarity:** 0.465071086757835<br>**Text:** The table lists various food additives along with their corresponding codes, specifically highlighting those with potential carcinogenicity or involvement in serious diseases.,
with the following table title:
ANNEXE 1: Red Additives: additives for which scientific reports indicate potential carcinogenicity or involvement in serious diseases,
with the following columns:
- Additif: None
- Code: None

| Additif                          | Code  | Additif                                | Code  |
|----------------------------------|-------|----------------------------------------|-------|
| Tartrazine                       | E 102 | Acide propionique                      | E 280 |
| Jaune de quinoléine              | E 104 | Propionate de sodium                   | E 281 |
| Sunset Yellow FCF/Jaune orange S | E 110 | Propionate de potassium                | E 283 |
| Azorubine, carmoisine            | E 122 | Acide borique                          | E 284 |
| Amarante                         | E 123 | Tétraborate de sodium (borax)          | E 285 |
| Ponceau 4R, rouge cochenille A   | E 124 | Acide fumarique                        | E 297 |
| Erythrosine                      | E 127 | Gamma-tocophérol                       | E 308 |
| Rouge allura AC                  | E 129 | Delta-tocophérol                       | E 309 |
| Indigotine, carmin d’indigo      | E 132 | Gallate de propyle                     | E 310 |
| Bleu brillant FCF                | E 133 | Acide érythorbique                     | E 315 |
| Vert S                           | E 142 | Butylhydro-quinone tertiaire (BHQ)     | E 319 |
| Caramel ammoniacal               | E 150c| Butylhydroxy-anisol (BHA)              | E 320 |
| Caramel au sulfite d’ammonium    | E 150d| Butylhydroxy-toluène (BHT)             | E 321 |
| Noir brillant PN                 | E 151 | Tartrates de sodium                    | E 335 |
| Brun HT                          | E 155 | Tartrate double de sodium et de potassium | E ...<br>

**Node ID:** 76adb659-e69e-4acf-bd42-d3176d389ccc<br>**Similarity:** 0.45564914464400924<br>**Text:** The table lists food additives identified as non-hazardous to health, along with their corresponding codes.,
with the following table title:
ANNEXE III : Additifs verts : additifs identifiés à ce jour comme non dangereux pour la santé.,
with the following columns:
- Additif: None
- Code: None

| Additif                                      | Code  | Additif                                      .1| Code  .1|
|---|---|---|---|
| Curcumine                                    | E 100 | Tartrates de potassium                       | E 336 |
| Riboflavines                                 | E 101 | Malate de potassium                          | E 351 |
| Chlorophylles et chlorophyllines             | E 140 | Acide métatartarique                         | E 353 |
| Complexes cuivre-chlorophylles et cuivre-chlorophyllines | E 141 | Tartrate de calcium                          | E 354 |
| Caramel ordinaire                            | E 150a| Extraits de romarin                          | E 392 |
| Charbon végétal médicinal                    | E 153 | Acide alginique                              | E 400 |
| Caroténoïdes                                 | E 160a| Alginate de sodium                           | E 401 |
| Bixine de rocou / Norbixine de rocou         | E 160b| Alginate de calcium                          | E 404 |
| Extrait de paprika, capsanthine, capsorubine | E 160c| Agar-agar                                    | E 406 |
| Lycopène                                     | E 160d| Farine de graines de caroube                 | E 410 |
| β-apocaroténal-8’ (C 30)                     | E 160e| Gomme guar                                   | E 412 |
| Lutéine                                      | E 161b| Gomme adragante                              | E 413 |
| Rouge de betterave, bétanine                 | E 162 | Gomme arabique ou gomme d’acacia             | E 414 |
| Anthocyanes                                  | E 163 | Gomme xanthane                             ...<br>

**Node ID:** 6f2d928f-19c1-4f2e-ac68-298a74715eda<br>**Similarity:** 0.45520509873185944<br>**Text:** 1. Exigence recette

Pour le développement de nos produits, nous souhaitons favoriser une offre saine avec des recettes simples (sans colorant, sans arôme, sans conservateur), avec des ingrédients de qualité, en favorisant des produits locaux et labellisés.

Le fournisseur s’engage à respecter la réglementation européenne et nationale ainsi que les codes d’usages professionnels applicables aux produits surgelés vendus à Coup de Pates.

Pour les produits commercialisés sous une marque appartenant à Coup de Pates, le fournisseur s’engage également à respecter les exigences spécifiques de cette même marque.

Dans ce cas, nos exigences recettes sont spécifiques à trois niveaux gammes : Entrée de gamme, Cœur de gamme, Haut de gamme.

Pour les produits développés en réponse à des demandes spécifiques de nos clients, il vous sera également demandé de prendre leurs exigences en considération.<br>

**Node ID:** 142d9f89-f960-48df-9345-184087b26ef2<br>**Similarity:** 0.4497618277978406<br>**Text:** This table lists food additives with their corresponding codes, specifically highlighting those for which scientific reports are contradictory.,
with the following table title:
ANNEXE II : Additifs oranges : additifs pour lesquels les rapports scientifiques sont contradictoires,
with the following columns:
- Additif: None
- Code: None
- Additif: None
- Code: None

| Additif | Code | Additif .1| Code .1|
|---|---|---|---|
| Acide carminique, carmins | E 120 | Esters lactiques des mono- et diglycérides d’acides gras | E 472b |
| Bleu patenté V | E 131 | Esters citriques des mono- et diglycérides d’acides gras | E 472c |
| Caramel de sulfite caustique | E 150b | Esters tartriques des mono- et diglycérides d’acides gras | E 472d |
| Or | E 175 | Esters monoacétyltartriques et diacétyltartriques des mono- et diglycérides d’acides gras | E 472e |
| Acide benzoïque | E 210 | Esters mixtes acétiques et tartriques des mono- et diglycérides d’acides gras | E 472f |
| Benzoate de sodium | E 211 | Sucroesters d’acides gras | E 473 |
| Anhydride sulfureux | E 220 | Esters polyglycériques d’acides gras | E 475 |
| Sulfite de sodium | E 221 | Esters de propane-1,2-diol d’acides gras | E 477 |
| Sulfite acide de sodium | E 222 | Stéaroyl-2-lactylate de sodium | E 481 |
| Disulfite de sodium | E 223 | Stéaroyl-2-lactylate de calcium | E 482 |
| Disulfite de potassium | E 224 | Tartrate de stéaryle | E 483 |
| Sulfite de calcium | E 226 | Diméthylpolysiloxane | E 900 |
| Sulfite acide de calcium | E 227 | Advantame | E 969 |
| Sulfite acide de potassium | E 228 | Extraits de quillaia | E 999 |
| Natamycine | E 235 | Lysozyme | E 1105 |
| Éthylène-diamine-tétra-acétate de calcium disodium (calcium disodium EDTA) | E 385 | Amidon oxydé | E 1404 |
| Alginate de propane-1,2-diol | E 405 | Phosphate de monoamidon | E 1410 |
| **Algues Euchema transformées** | **E 407a** | **Phosphate de diamidon** | **E 1412** |
|---------------------------------|------------|--------------------------...<br>

**Node ID:** 8fde517a-55b7-4d9c-9507-ee0aff5953fd<br>**Similarity:** 0.44925682612916445<br>**Text:** ANNEXE 1: Additifs rouges : additifs pour lesquels les rapports scientifiques rapportent une potentielle cancérogénicité ou une implication dans les pathologies lourdes<br>

**Node ID:** 5e96cb0e-e733-4977-aff2-77177d829b66<br>**Similarity:** 0.4412167468027831<br>**Text:** This table lists controversial ingredients, detailing the reasons for their controversy or negative perception by consumers.,
with the following table title:
ANNEXE IV : Ingrédients controversés,
with the following columns:
- Ingrédient: None
- Motif: None

| Ingrédient                | Motif                                                                 |
|---|---|
| Sirop de glucose-fructose | Niveau de transformation élevé + manque de transparence sur le niveau de sucre présent dans le produit |
| Maltodextrine             | Ingrédient sans intérêt nutritionnel et organoleptique                |
| Huile de coco/coprah      | Contient 80% d’acides gras saturés dont l’excès augmente le risque de maladies cardiovasculaires |
| Sirop de maïs             | Niveau de transformation élevé + manque de transparence sur le niveau de sucre présent dans le produit |<br>

**Node ID:** 14834fc2-def0-4082-a937-6d35366e0dd1<br>**Similarity:** 0.43976527828820633<br>**Text:** The table outlines the ingredient and processing restrictions for different product ranges (Entry-level, Mid-range, High-end) within a company. It specifies which substances are prohibited or to be avoided across these ranges, ensuring compliance with specific quality and safety standards.,
with the following table title:
Product Compliance Standards by Range,
with the following columns:
- Caractéristiques: None
- Entrée de gamme: None
- Cœur de gamme: None
- Haut de Gamme: None

| Caractéristiques | Entrée de gamme | Cœur de gamme | Haut de Gamme |
|---|---|---|---|
| Ingrédients soumis à déclaration OGM | INTERDIT | INTERDIT | INTERDIT |
| Traitement par ionisation | INTERDIT | INTERDIT | INTERDIT |
| Colorants azoïques (E102, E104, E110, E122, E124, E129) | INTERDIT | INTERDIT | INTERDIT |
| Nanoparticules (E170, E171, E172, E174, E152, E341, E551 et E552) | INTERDIT | INTERDIT | INTERDIT |
| Glutamates et exhausteurs de goût | INTERDIT | INTERDIT | INTERDIT |
| Œufs de poules élevées en cage | INTERDIT | INTERDIT | INTERDIT |
| Matières grasses partiellement hydrogénées | INTERDIT | INTERDIT | INTERDIT |
| Acides gras trans non naturellement présents | INTERDIT | INTERDIT | INTERDIT |
| Édulcorants de synthèse | INTERDIT | INTERDIT | INTERDIT |
| Viande Séparée Mécaniquement - VSM | INTERDIT | INTERDIT | INTERDIT |
| Cacao non certifié durable | * INTERDIT pour tous les NPD et plan action pour remplacer le cacao non certifié dans l’existant. | INTERDIT | INTERDIT |
| Gélatine porcine | INTERDIT | INTERDIT | INTERDIT |
| Gélatine animale – (autre que porcine) | A ÉVITER | INTERDIT (tolérance dans les pâtisseries) | INTERDIT (tolérance dans les pâtisseries) |
| Huile de palme + palmiste non RSPO | * INTERDIT pour tous les NPD et plan action pour retirer dans l’existant - (tolérée dans supports d’additifs) - En aucun cas, l’huile de palme non RSPO ne pourra être substituée par de l’huile de coprah ou coco. | INTERDIT | INTERDIT |
| Huile de palme + palmiste RSPO...<br>

In [88]:
from llama_index.llms.openai import OpenAI
llm = OpenAI(model="gpt-4o")

query_engine = RetrieverQueryEngine.from_args(recursive_retriever, llm=llm)

In [90]:
response = query_engine.query("Est ce que l'additif E472a est autorisé dans les produits hauts de gamme, prends en compte tous les éléments?")
print(str(response))

[1;3;34mRetrieving with query id None: Est ce que l'additif E472a est autorisé dans les produits hauts de gamme, prends en compte tous les éléments?
[0m[1;3;38;5;200mRetrieving text node: Table des matières

1. Exigence recette 2
2. Produits soumis à certification ou allégations 3
   2.1. Produits « sans gluten » 3
   2.2. Produits issus de l’agriculture biologique 3
3. Exigences générales relatives au fournisseur 4
4. Exigences relatives aux sites de production 4
5. Traçabilité 4
6. Suivi analytique 5
   6.1. Suivi microbiologique 5
   6.2. Suivi nutritionnel 5
   6.3. Suivi organoleptique 5
7. Non conformités 5
8. Gestion de crise Coup de Pates 6

ANNEXE I : Additifs rouges : additifs pour lesquels les rapports scientifiques rapportent une potentielle cancérogénicité ou une implication dans les pathologies lourdes 7

ANNEXE II : Additifs oranges : additifs pour lesquels les rapports scientifiques sont contradictoires 10

ANNEXE III : Additifs verts : additifs identifiés à ce jour 

In [44]:
print(str(response))

Le E472a n'est pas mentionné spécifiquement dans les restrictions pour les produits hauts de gamme. Par conséquent, il n'est pas explicitement interdit ou à éviter selon les informations fournies.


In [14]:
response = query_engine.query("Est ce que la Cire de carnauba est un additif de type orange? Sinon, de quel type s'agit il ? Quelle est son code E ?")
print(str(response))

[1;3;34mRetrieving with query id None: Est ce que la Cire de carnauba est un additif de type orange? Sinon, de quel type s'agit il ? Quelle est son code E ?
[0m[1;3;38;5;200mRetrieved node with id, entering: 142d9f89-f960-48df-9345-184087b26ef2
[0m[1;3;34mRetrieving with query id 142d9f89-f960-48df-9345-184087b26ef2: Est ce que la Cire de carnauba est un additif de type orange? Sinon, de quel type s'agit il ? Quelle est son code E ?
[0m[1;3;38;5;200mRetrieved node with id, entering: 83cdb134-0483-4555-872f-d35ede6e9711
[0m[1;3;34mRetrieving with query id 83cdb134-0483-4555-872f-d35ede6e9711: Est ce que la Cire de carnauba est un additif de type orange? Sinon, de quel type s'agit il ? Quelle est son code E ?
[0m[1;3;38;5;200mRetrieving text node: ANNEXE II : Additifs oranges : additifs pour lesquels les rapports scientifiques sont contradictoires
[0m[1;3;38;5;200mRetrieved node with id, entering: 76adb659-e69e-4acf-bd42-d3176d389ccc
[0m[1;3;34mRetrieving with query id 76a

In [15]:
response = query_engine.query("Est ce que la Maltodextrine est un ingrédient controversé ? et pour quelle raison ?")
print(str(response))

[1;3;34mRetrieving with query id None: Est ce que la Maltodextrine est un ingrédient controversé ? et pour quelle raison ?
[0m[1;3;38;5;200mRetrieved node with id, entering: 5e96cb0e-e733-4977-aff2-77177d829b66
[0m[1;3;34mRetrieving with query id 5e96cb0e-e733-4977-aff2-77177d829b66: Est ce que la Maltodextrine est un ingrédient controversé ? et pour quelle raison ?
[0m[1;3;38;5;200mRetrieving text node: ANNEXE IV : Ingrédients controversés : ingrédients faisant l’objet de rapports scientifiques controversés et/ou perçus négativement par le consommateur.
[0m[1;3;38;5;200mRetrieving text node: Table des matières

1. Exigence recette 2
2. Produits soumis à certification ou allégations 3
   2.1. Produits « sans gluten » 3
   2.2. Produits issus de l’agriculture biologique 3
3. Exigences générales relatives au fournisseur 4
4. Exigences relatives aux sites de production 4
5. Traçabilité 4
6. Suivi analytique 5
   6.1. Suivi microbiologique 5
   6.2. Suivi nutritionnel 5
   6.3. Su

In [19]:
# compare against the baseline retriever
response = vector_query_engine.query("Est ce que la Cire de carnauba est un additif de type orange? Quelle est son code E ?")
print(str(response))

Pour déterminer si l'additif E 903 est de type orange, il faudrait vérifier s'il figure dans la liste des additifs oranges mentionnée dans l'ANNEXE II. Cette annexe regroupe les additifs pour lesquels les rapports scientifiques sont contradictoires.


## Document Comparaison using this llama parse ref

In [117]:
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import VectorStoreIndex
from llama_index.core import Settings

embed_model = OpenAIEmbedding(model="text-embedding-3-small")
llm = OpenAI(model="gpt-4o")

Settings.llm = llm
Settings.embed_model = embed_model

In [118]:
from llama_index.core.node_parser import MarkdownElementNodeParser

node_parser = MarkdownElementNodeParser(
    llm=OpenAI(model="gpt-4o"), num_workers=8
)

In [119]:
import pickle
from llama_index.postprocessor.flag_embedding_reranker import (
    FlagEmbeddingReranker,
)

reranker = FlagEmbeddingReranker(
    top_n=10,
    model="BAAI/bge-reranker-large",
)


def create_query_engine_over_doc(docs, nodes_save_path=None):
    """Big function to go from document path -> recursive retriever."""
    if nodes_save_path is not None and os.path.exists(nodes_save_path):
        raw_nodes = pickle.load(open(nodes_save_path, "rb"))
    else:
        raw_nodes = node_parser.get_nodes_from_documents(docs)
        if nodes_save_path is not None:
            pickle.dump(raw_nodes, open(nodes_save_path, "wb"))

    base_nodes, objects = node_parser.get_nodes_and_objects(raw_nodes)

    ### Construct Retrievers
    # construct top-level vector index + query engine
    vector_index = VectorStoreIndex(nodes=base_nodes + objects)
    query_engine = vector_index.as_query_engine(
        similarity_top_k=15, node_postprocessors=[reranker]
    )
    return query_engine, base_nodes



In [121]:
query_engine, nodes = create_query_engine_over_doc(
   charte, nodes_save_path="docs/charte.pkl"
)

In [130]:
from llama_index.core.tools import QueryEngineTool, ToolMetadata
from llama_index.core.query_engine import SubQuestionQueryEngine


# setup base query engine as tool
query_engine_tools = [
    QueryEngineTool(
        query_engine=query_engine,
        metadata=ToolMetadata(
            name="charte_produit",
            description=("Donne des informations sur la charte produit à respecter. Donne une liste d'ingredient interdit/ toléré selon si le produit est Haut de gamme, Milieu de gamme ou entrée de gamme. Donne une liste des additifs selon leurs type : vert, rouge ou orange"),
        ),
    )
]

sub_query_engine = SubQuestionQueryEngine.from_defaults(
    query_engine_tools=query_engine_tools,
    llm=llm,
    use_async=True,
)

In [131]:
response = sub_query_engine.query(
   "Est ce que le Diglutamate de magnésium est autorisé ?"
)

Generated 4 sub questions.
[1;3;38;2;237;90;200m[charte_produit] Q: Le Diglutamate de magnésium est-il un ingrédient interdit, toléré ou autorisé pour les produits Haut de gamme ?
[0m[1;3;38;2;90;149;237m[charte_produit] Q: Le Diglutamate de magnésium est-il un ingrédient interdit, toléré ou autorisé pour les produits Milieu de gamme ?
[0m[1;3;38;2;11;159;203m[charte_produit] Q: Le Diglutamate de magnésium est-il un ingrédient interdit, toléré ou autorisé pour les produits Entrée de gamme ?
[0m[1;3;38;2;155;135;227m[charte_produit] Q: Le Diglutamate de magnésium est-il classé comme un additif vert, rouge ou orange ?
[0m[1;3;38;2;90;149;237m[charte_produit] A: Le Diglutamate de magnésium est interdit pour les produits Milieu de gamme.
[0m[1;3;38;2;155;135;227m[charte_produit] A: Le Diglutamate de magnésium est classé comme un additif rouge.
[0m[1;3;38;2;237;90;200m[charte_produit] A: Le Diglutamate de magnésium est un ingrédient interdit pour les produits Haut de gamme.
[0

In [133]:
response.response

"Le Diglutamate de magnésium est interdit pour les produits Haut de gamme et Milieu de gamme, et il n'est pas mentionné pour les produits Entrée de gamme."

In [124]:
print(str(response))

L'additif E472a n'est pas autorisé dans les produits hauts de gamme.
