## 1. Contexte

### Utilisateurs

L'Inspection Générale de l'Administration [(IGA)](https://fr.wikipedia.org/wiki/Inspection_g%C3%A9n%C3%A9rale_de_l%27administration) est chargée de missions d’évaluation des politiques publiques, d’audit des services, d’appui, de conseil et de contrôle pour les membres du Gouvernement et rattachée directement au Ministère de l'Intérieur et des Outres-Mers.

### Outil existant
Un moteur de recherche a été développé en 2020 pour les besoins documentaires de l'IGA, ainsi que pour d'autres sercices du MIOM. Une version ouverte est disponible [ici](https://kubernetes.ridoc.fr). info de connexion : `user1:abcxyz`.

## 2. Données
Cette version ouverte est alimentée avec des documents publiques disponibles sur le site internet du [MIOM](https://www.interieur.gouv.fr/Publications/Rapports-de-l-IGA/Bonnes-Feuilles). 
On dénombre petite centaine de rapports qui traitent des sujets comme l'écologie, l'aménagement du territoire, la sécurité intérieure, l'éducation, etc...

Ce sont des synthèses choisies de rapport bien plus longs et documentés disponibles sur un intranet privé.

Les données bruts sont disponibles à travers un container s3 OVH `bf-iga`, qui contient un sous dossier `pdf` avec les documents .pdf ainsi que le sous dossier `json` avec les contenus des pdf, assortis de méta-données (`author`, `date`, `title`) .

---
## 3. Objectif : Extraction d'acronymes

On se propose d'extraire les acronymes présents dans des documents textuels, en s'appuyant sur les nouvelles techniques de traîtement du language (*large language modele*, LLM).

--> A partir des documents présents dans le container s3 `bf-iga`, proposer une méthode d'extraction des acronymes avec leurs signications et fournir la liste correspondante.

---
## 4. Consignes

1. Ne pas dépasser 4 heures pour réaliser l'objectif.
2. Visez la simplicité plutôt que la complexité, la qualité plutôt que la quantité.
3. Nous avons mis en place une API de LLM que vous pourrez utiliser. (Cf les exemples ci dessous).

### Critères d'évaluation

1. Savoir expliquer ses hypothèses, connaître les limites de son appoche.
2. Qualité des réponses aux questions posées après la restitution.
3. Clarté du code.

## 5. Des exemples d'utilisation de LLM :

- InternalServerError: Internal Server Error
- InternalServerError: <html>
<head><title>504 Gateway Time-out</title></head>
<body>
<center><h1>504 Gateway Time-out</h1></center>
<hr><center>nginx</center>
</body>
</html>
- BadRequestError: Error code: 400 - {'object': 'error', 'message': 'Server disconnected', 'code': 50001} 

In [1]:
# Import classique
import json
import s3fs
import os
import json
from pathlib import Path

In [2]:
! pip install langchain langchain_openai faiss-cpu rank_bm25 --quiet

In [3]:
# Import langchain
from langchain.text_splitter import CharacterTextSplitter
from langchain.docstore.document import Document
from langchain_community.document_loaders import PyPDFLoader
from langchain.vectorstores import FAISS

from langchain_openai import ChatOpenAI
from langchain_openai import OpenAIEmbeddings
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain.llms import HuggingFaceHub

In [4]:
# La base de données dans un stockage s3
container = 'iga-bf'
s3 = s3fs.S3FileSystem(anon=False, client_kwargs={'endpoint_url': os.getenv("AWS_S3_ENDPOINT")})
s3.ls(container)
#for json_path in s3.find(f'{container}/json'):
#    print(json_path)

['iga-bf/json', 'iga-bf/pdf']

In [108]:
# Construire des bouts de documents
text_splitter = CharacterTextSplitter(
    separator=". ",
    chunk_size=500, # 1500
    chunk_overlap=100,
    length_function=len,
    keep_separator=False
)

docs_splitted = []
for json_path in s3.find(f'{container}/json') or ('iga-bf/json/BF2015-01-14125 - Mutualisation CT.json',):
    with s3.open(json_path, 'rb',encoding="UTF-8") as f:
        json_doc = json.load(f)
    content = json_doc['content'].replace(u"\uFFFD", "ti").replace("%", "ti").replace("#", "ti").replace(">", "ti").replace("- ", "")
    doc = Document(page_content=content, metadata={'author': json_doc.get('author',''), 'title': json_doc.get('title','')})
    docs_splitted += text_splitter.split_documents([doc])
print(f"\nIl y a {len(docs_splitted)} bouts de documents")

Created a chunk of size 516, which is longer than the specified 500
Created a chunk of size 819, which is longer than the specified 500
Created a chunk of size 721, which is longer than the specified 500
Created a chunk of size 628, which is longer than the specified 500
Created a chunk of size 520, which is longer than the specified 500
Created a chunk of size 540, which is longer than the specified 500
Created a chunk of size 766, which is longer than the specified 500
Created a chunk of size 556, which is longer than the specified 500
Created a chunk of size 570, which is longer than the specified 500
Created a chunk of size 1268, which is longer than the specified 500
Created a chunk of size 552, which is longer than the specified 500
Created a chunk of size 546, which is longer than the specified 500
Created a chunk of size 612, which is longer than the specified 500
Created a chunk of size 614, which is longer than the specified 500
Created a chunk of size 544, which is longer th


Il y a 2096 bouts de documents


In [530]:
# Url de notre API LLM
%env OPENAI_API_BASE=https://api-vicuna.c0.ns1lab.net/v1
# Clef d'authentification
%env OPENAI_API_KEY=""

env: OPENAI_API_BASE=https://api-vicuna.c0.ns1lab.net/v1
env: OPENAI_API_KEY=""


In [210]:
llm = ChatOpenAI(temperature=0)
llm

ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x7f12e9cf6f10>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x7f12e9d52d50>, temperature=0.0, openai_api_key='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', openai_api_base='https://api-vicuna.c0.ns1lab.net/v1', openai_proxy='')

In [215]:
from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.chains import LLMChain


In [216]:
chain = LLMChain(llm=llm, prompt=prompt_template)

In [550]:
import re
def extract_list_acronyms(txt:str) -> list[str]:
    """"Extrait des acronymes en majuscule d'un texte"""
    return re.findall(r'\b[A-Z]{2,}\b', content)

def get_meaning(text:str, acronym:str) -> tuple[bool, str]:
    """Essaye de comprendre si oui ou non un acronyme est expliqué dans le texte (True ou False dans le premier element du tuple en retour)
        le deuxième element du tuple est une hypothèse de la signification de l'acronyme"""
    
    prompt_str = '''Le texte délimité par les triples guillemets utilise l'acronyme {acronym}. Suivre ces étapes :
1. De quoi sont les initiales "{acronym}", soit le plus simple possible.
2. Cite directement la partie du texte délimité par les triples guillemets qui a permis de répondre à la question 1.

Format de réponse obligatoire :
1. {acronym} = 
2. "citation"

Le texte: """{text}"""

'''

    extract_meaning_and_citation_chain = LLMChain(llm=llm, prompt=ChatPromptTemplate.from_template(prompt_str))
    answer = extract_meaning_and_citation_chain.run(text=text, acronym=acronym)
    hypothese_meaning:str = answer.split(" =")[1].split("\n")[0].strip().removesuffix(".").strip()
    #print(hypothese_meaning)
    citation = answer.split("2. ")[1].strip().removesuffix('"').removeprefix('"')
    #print(citation)

    result_bool = hypothese_meaning.lower() in citation.lower()
    
    return result_bool, hypothese_meaning


In [554]:
assert not get_meaning("""Rapport n° 14113-14031-01 Crédit photo : Kikkerdirk FotoliaModerniser l’organisation des Elections Le s b o n n es f eu ill es d e l’I G A Moderniser l’organisation des Elections Synthèse du rapport D es archaïsmes qui génèrent des dépenses élevées, dégradent la qualité du service rendu au citoyen et ne favorisent pas sa participation à la vie civique Le dispositif d’organisation des élections politiques en France est segmenté, coûteux et d’une efficacité limitée""",
          acronym="IGA")[0]
assert get_meaning("""Son coût par électeur pour les élections territoriales ultra-marines paraît disproportionné. En outre, dans l’organisation actuelle qui repose sur le Conseil supérieur de l’audiovisuel (CSA) et France Télévisions, la bonne utilisation des financements publics n’est pas suffisamment contrôlée""",
            acronym="CSA")[0]
assert not get_meaning("""Cette dernière s’appuie d’abord sur des moyens très limités qui se caractérisent par la faiblesse des effectifs consacrés à la tutelle des FRUP et ARUP (quelques fractions d’équivalent temps plein) et une capacité d’expertise insuffisante vis‐à‐vis d’un cadre juridique aux spécificités pourtant multiples""",
acronym="FRUP")[0]

#assert get_meaning("""Du point de vue de la mise en place de la stratégie, une opportunité consisterait à insérer cette thématique dans les nouveaux pôles d'appui juridique mis en place dans le cadre du Plan « Préfecture nouvelle génération /PPNG» et dont le cadre vient d'être défini par le ministre de l'intérieur dans une circulaire du 16 novembre 2016.
#La dimension stratégique de cette tutelle est donc à accroître. Du point de vue de la mis‐ Le s b o n n es f eu ill es d e l’I G A sion, une opportunité consisterait à insérer cette thé‐ matique dans les nouveaux pôles d’appui juridique mis en place dans le cadre du Plan « Préfecture nouvelle génération /PPNG» et dont le cadre vient d’être défini par le ministre de l'intérieur dans une circulaire du 16 novembre 2016""",
#                  acronym="PPNG")[0]

In [551]:
def update_dict_acronyms(content:str, dict_acronyms:dict[str,str]) -> dict:
    """A partir du texte content, extrait les acronymes et leur signification et met à jour dict_acronyms en conséquence"""
    result = dict(dict_acronyms)
    list_acronyms = extract_list_acronyms(content)
    for acronym in set(list_acronyms):
        if acronym in result:
            continue
        success, meaning =  get_meaning(content, acronym)
        if success:
            result[acronym] = meaning
    return result

In [None]:
from tqdm import tqdm
dict_acronyms = {}
for k, doc_splitted in enumerate(tqdm(docs_splitted)):
    content = doc_splitted.page_content
    dict_acronyms = update_dict_acronyms(content, dict_acronyms)
    #print(f"\n{dict_acronyms}")
dict_acronyms

 42%|████▏     | 885/2096 [09:44<05:08,  3.93it/s]  

In [555]:
dict_acronyms

{'CSA': "Conseil supérieur de l'audiovisuel",
 'INSEE': "Institut national de statistique et d'études économiques",
 'IGA': 'Inspecteur Général des Affaires',
 'ARS': 'Administration des réseaux sociaux',
 'DDCS': 'Direction Départementale des Compétences et des Services',
 'PARIS': 'Prévoir que l’un des pôles d’appui juridique du plan « Préfecture nouvelle génération » comprenne un référé en matière d’organismes d’utilité publique, service responsable : DLPAJ',
 'DLPAJ': 'Détection, Lutte, Prévention, Assistance, Jugement',
 'DMAT': "Détails et Méthodes d'Audit des Trésors et des Mouvements d'Argent des Fondations et Associations de Jeunes",
 'UO': '119 unités opérationnelles',
 'DRCPN': 'Direction des ressources et des compétences de la police nationale',
 'RBOP': 'Responsable du budget opérationnel',
 'DNCG': 'Direction Nationale du Contrôle de Gestion',
 'IGPN': 'Inspection générale de la police nationale',
 'SAIP': "Système d'Automatisation de l'Indexation et des Prises en compte"