In [16]:
import numpy as np
import re
import pandas as pd
from tqdm import tqdm
from datasets import load_dataset
import umap
import altair as alt
from sklearn.metrics.pairwise import cosine_similarity
from annoy import AnnoyIndex
import warnings
from sentence_transformers import SentenceTransformer

from langchain.prompts import ChatPromptTemplate
from langchain.llms import Ollama
import pprint
from langchain.output_parsers.regex_dict import RegexDictParser
from langchain_core.messages import HumanMessage, SystemMessage, ChatMessage
from langchain.prompts import ChatPromptTemplate, PromptTemplate
from typing import List
from langchain.output_parsers import PydanticOutputParser
from langchain.prompts import PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from langchain_openai import ChatOpenAI

from copy import copy

warnings.filterwarnings('ignore')
pd.set_option('display.max_colwidth', None)

In [9]:
df = pd.read_csv('Insights.csv', sep=',')
df.columns = ['Insight', 'InsightID', 'InsightParentID', 'IsParent']
list_insights = list(df['Insight'])

In [10]:
list_insights[:4]

["Les intérimaires manquent de rigueur en termes de ponctualité, de professionnalisme, et d'attention au détail, ce qui se traduit par des erreurs coûteuses et un comportement inapproprié au travail.",
 "Les candidats indiquent ne pas être informés concernant l'entreprise, son activité et les détails des postes avant l'entretien, créant un manque d'adéquation et de préparation.",
 "Le client suggère la mise en place de contrôles de références pour les nouveaux intérimaires n'ayant jamais travaillé avec l'agence.",
 'Les intérimaires présentent des lacunes en termes de discipline au travail, impactant la qualité de leur performance et leur conformité aux processus.']

In [29]:
embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')
#embedding_model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
#embedding_model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
model = ChatOpenAI(model="gpt-4-1106-preview", temperature=0)


In [12]:

sentence_embeddings = embedding_model.encode(list_insights)
sentence_embeddings.shape

(297, 1024)

In [13]:
from sklearn.cluster import KMeans
# Perform kmean clustering
num_clusters = 10
clustering_model = KMeans(n_clusters=num_clusters)
clustering_model.fit(sentence_embeddings)
cluster_assignment = clustering_model.labels_

clustered_sentences = [[] for i in range(num_clusters)]
for sentence_id, cluster_id in enumerate(cluster_assignment):
    clustered_sentences[cluster_id].append(list_insights[sentence_id])


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [14]:
[len(cluster) for cluster in clustered_sentences]

[18, 32, 39, 28, 9, 40, 26, 33, 40, 32]

In [13]:
#'\n'.join(clustered_sentences[0])

" Customers experience dissatisfaction when appointments are not properly arranged and when company representatives are not knowledgeable or experienced enough to best meet their needs.\nCustomers express general dissatisfaction linked to the poor management of appointments and a lack of professionalism and availability of Randstad staff.\n Contracts are not carried out correctly, leading to disagreements and inconsistencies.\n The customer expresses confusion linked to the vocabulary used in the rating system, implying difficulty in evaluating the quality of service.\n Communication failures affect both internal absence management and interaction with customers, harming efficiency and the customer experience.\n The customer is experiencing a problem of wasted time and money linked to the proposal of an incompetent mechanic who does not meet his needs as a technician.\n Clients feel an inability to work with the agency on urgent or difficult hires due to the billing structure not tied 

In [36]:
prompt_template = """Tu es {role} au sein de l'entreprise suivante: 
{context}
{format_instructions}  

Une liste d'insights mineurs a été identifié à partir de retours clients. 
Réusume les en des insights majeurs qui te temblent important à faire remonter au sein de l'entreprise. Ils doivent être des phrases grammaticallement correctes, et distinct les uns des autres. 
Ensuite, associe à chaque insight majeur l'indice des insights mineurs qui lui sont associés. Un insights mineur peut être associé à plusieurs insights majeurs. Vérifie bien que les indices correspondent. 
L'ordre des insights mineurs est aléatoire, et ne doit pas avoir d'importance dans ta réponse. 

Voici les insights mineurs que tu dois regrouper: \n\n{feedbacks}"""

In [39]:
print(prompt.invoke({
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "feedbacks": '\n'.join([str(i)+": "+s for i, s in enumerate(clustered_sentences[0])])
}).text)

Tu es product owner au sein de l'entreprise suivante: 
Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.
The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"properties": {"insights_list": {"title": "Insights List", "description": "Liste des insights, c'est \u00e0 dire des points int\u00e9ressants a retenir pour l'entreprise.", "type": "array", "items": {"$ref": "#/definitions/Insight"}}}, "required": ["insights_list"]

In [40]:
class Insight(BaseModel):
    childens: List[int] = Field(description="Index des insights mineurs qui ont été résumés en cet insight.")
    text: str = Field(description="Insight intéressants a retenir pour l'entreprise.")

    def __str__(self):
        return '- ' + self.text + '\n Enfants:' + str(self.childens)


class InsightList(BaseModel):
    insights_list: List[Insight] = Field(description="Liste des insights, c'est à dire des points intéressants a retenir pour l'entreprise.")
    # You can add custom validation logic easily with Pydantic.
    
    def __str__(self):
        return "Insights: \n"+"\n\n".join([str(i) for i in self.insights_list])
    
parser = PydanticOutputParser(pydantic_object=InsightList)

prompt = PromptTemplate.from_template(
    template= prompt_template,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": parser.get_format_instructions()},
)

prompt_and_model = prompt | model | parser
output = prompt_and_model.invoke({
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "feedbacks": '\n'.join([str(i)+": "+s for i, s in enumerate(clustered_sentences[0])])
})

output

InsightList(insights_list=[Insight(childens=[8, 10, 12, 16], text="Il est crucial d'améliorer l'expérience utilisateur de la plateforme en ligne de Randstad, en la rendant plus intuitive, ergonomique et en simplifiant la gestion documentaire."), Insight(childens=[4], text="Randstad doit uniformiser ses services et bonnes pratiques à l'échelle nationale pour éviter les incohérences et renforcer la satisfaction client."), Insight(childens=[2, 5, 17], text='Une meilleure gestion des rendez-vous et une communication améliorée avec les clients sont nécessaires pour éviter les visites non sollicitées et renforcer le professionnalisme du personnel.'), Insight(childens=[0, 1, 7], text='Il est important de revoir la politique de recrutement et de paiement pour les entreprises en difficulté financière afin de maintenir une relation client solide et éviter les pertes.'), Insight(childens=[3], text="Randstad doit s'efforcer de mieux comprendre et répondre aux attentes des entreprises en termes de 

In [38]:
print('\n'.join([str(i)+": "+s for i, s in enumerate(clustered_sentences[0])]))

0: Les clients peuvent être insatisfaits lorsque Randstad refuse des services aux entreprises en procédure de sauvegarde.
1: Il y a une suggestion pour que Randstad adopte une politique de paiement d'avance pour travailler avec des entreprises en difficulté financière afin d'éviter de perdre des clients.
2: Les clients expriment un mécontentement général lié à la mauvaise gestion des rendez-vous et un manque de professionnalisme et de disponibilité du personnel de Randstad.
3: Les entreprises expriment des préoccupations concernant le niveau d'engagement, de compétence et l'adéquation des talents recommandés par Randstad à leurs attentes.
4: Le client exprime une insatisfaction quant à l'incohérence des services Randstad entre différentes localités et souligne l'importance d'uniformiser les bonnes pratiques au niveau national.
5: Les clients rencontrent des problèmes avec des consultants de Randstad qui se présentent pour des rendez-vous non sollicités et sans autorisation préalable.
6

In [42]:
output

InsightList(insights_list=[Insight(childens=[8, 10, 12, 16], text="Il est crucial d'améliorer l'expérience utilisateur de la plateforme en ligne de Randstad, en la rendant plus intuitive, ergonomique et en simplifiant la gestion documentaire."), Insight(childens=[4], text="Randstad doit uniformiser ses services et bonnes pratiques à l'échelle nationale pour éviter les incohérences et renforcer la satisfaction client."), Insight(childens=[2, 5, 17], text='Une meilleure gestion des rendez-vous et une communication améliorée avec les clients sont nécessaires pour éviter les visites non sollicitées et renforcer le professionnalisme du personnel.'), Insight(childens=[0, 1, 7], text='Il est important de revoir la politique de recrutement et de paiement pour les entreprises en difficulté financière afin de maintenir une relation client solide et éviter les pertes.'), Insight(childens=[3], text="Randstad doit s'efforcer de mieux comprendre et répondre aux attentes des entreprises en termes de 

In [51]:
df = pd.DataFrame({'a':[[]], 'z':["aze"]})
df['a'].iloc[0].append(1)
df

Unnamed: 0,a,z
0,[1],aze


In [None]:
InsightList(insights_list=[Insight(childens=[8, 10, 12, 16], text="Il est crucial d'améliorer l'expérience utilisateur de la plateforme en ligne de Randstad, en la rendant plus intuitive, ergonomique et en simplifiant la gestion documentaire."), Insight(childens=[4], text="Randstad doit uniformiser ses services et bonnes pratiques à l'échelle nationale pour éviter les incohérences et renforcer la satisfaction client."), Insight(childens=[2, 5, 17], text='Une meilleure gestion des rendez-vous et une communication améliorée avec les clients sont nécessaires pour éviter les visites non sollicitées et renforcer le professionnalisme du personnel.'), Insight(childens=[0, 1, 7], text='Il est important de revoir la politique de recrutement et de paiement pour les entreprises en difficulté financière afin de maintenir une relation client solide et éviter les pertes.'), Insight(childens=[3], text="Randstad doit s'efforcer de mieux comprendre et répondre aux attentes des entreprises en termes de compétences et d'engagement des talents proposés."), Insight(childens=[11, 13], text='La simplification des processus administratifs et la réduction de la complexité de la facturation et de la validation des missions sont essentielles pour améliorer la satisfaction client.'), Insight(childens=[15], text="Il est nécessaire d'ajuster les tarifs des services de Randstad pour rester compétitifs et répondre aux préoccupations des clients concernant les coûts."), Insight(childens=[14], text="La mise en place d'un service client disponible 24/7 pourrait améliorer significativement l'accessibilité et la réactivité de Randstad."), Insight(childens=[9], text="Bien que la mise en place d'un standard téléphonique soit appréciée, Randstad doit s'assurer de la fiabilité de l'accès au service pour éviter les frustrations des clients."), Insight(childens=[6], text='Les rencontres avec les clients doivent être optimisées en durée pour garantir une expérience complète et satisfaisante, en ligne avec les attentes du marché.')])

In [41]:
print(output)

Insights: 
- Il est crucial d'améliorer l'expérience utilisateur de la plateforme en ligne de Randstad, en la rendant plus intuitive, ergonomique et en simplifiant la gestion documentaire.
 Enfants:[8, 10, 12, 16]

- Randstad doit uniformiser ses services et bonnes pratiques à l'échelle nationale pour éviter les incohérences et renforcer la satisfaction client.
 Enfants:[4]

- Une meilleure gestion des rendez-vous et une communication améliorée avec les clients sont nécessaires pour éviter les visites non sollicitées et renforcer le professionnalisme du personnel.
 Enfants:[2, 5, 17]

- Il est important de revoir la politique de recrutement et de paiement pour les entreprises en difficulté financière afin de maintenir une relation client solide et éviter les pertes.
 Enfants:[0, 1, 7]

- Randstad doit s'efforcer de mieux comprendre et répondre aux attentes des entreprises en termes de compétences et d'engagement des talents proposés.
 Enfants:[3]

- La simplification des processus admi

In [14]:
parent_insights = []
for cluster in tqdm(clustered_sentences):
    parent_insights.append(llm("What are the main insignt that can be deduced from this list of minsor insights? Please enumerate them with 1)... 2)... ect. \n\n"+'\n'.join(cluster)))

  0%|          | 0/10 [00:00<?, ?it/s]

In [None]:
#@Insight Plot the archive {display-mode: "form"}

# UMAP reduces the dimensions from 1024 to 2 dimensions that we can plot
reducer = umap.UMAP(n_neighbors=15)
umap_embeds = reducer.fit_transform(sentence_embeddings)
# Prepare the data to plot and interactive visualization
# using Altair
df_explore = pd.DataFrame(data={'text': df['Insight'], "InsightParent": df['InsightParent']})
df_explore['x'] = umap_embeds[:,0]
df_explore['y'] = umap_embeds[:,1]
df_explore


In [None]:

# Plot
chart = alt.Chart(df_explore).mark_circle(size=60).encode(
    x=#'x',
    alt.X('x',
        scale=alt.Scale(zero=False)
    ),
    y=
    alt.Y('y',
        scale=alt.Scale(zero=False)
    ),
    color='InsightParent',
    tooltip=['text', 'InsightParent']
).properties(
    width=700,
    height=400
)
chart.interactive()

In [None]:
df_explore

In [None]:
df_explore["Insight"] = 1

In [None]:
other_sentences = ["Les gens sont mécontents", "Les gens sont très contents", "Le produit est parfait", "Le produit doit être amélioré", "délais", "réactivité", "incohérence"]
other_sentence_embeddings = model.encode(other_sentences)

In [None]:
# Prepare the data to plot and interactive visualization
# using Altair


In [None]:
other_umap_embeds = reducer.transform(other_sentence_embeddings)

other_df = pd.DataFrame({"text":other_sentences, 'x': other_umap_embeds[:,0], 'y': other_umap_embeds[:,1], "Insight": 0})
other_df

In [None]:
df_explore_new = pd.concat([df_explore, other_df])

In [None]:
# Plot
chart = alt.Chart(df_explore_new).mark_circle(size=60).encode(
    x=#'x',
    alt.X('x',
        scale=alt.Scale(zero=False)
    ),
    y=
    alt.Y('y',
        scale=alt.Scale(zero=False)
    ),
    tooltip=['text'],
    color='Insight',
).properties(
    width=700,
    height=400
)
chart.interactive()

In [None]:
df_explore_new.head()

In [None]:
df_explore_new['text'].to_list()

In [None]:
df_explore_new['embedding'] = reducer.transform(df_explore_new['text'])

In [None]:
umap_embeds

In [None]:
mon_ficher = open("mon_fichier.txt", 'r')


In [None]:
mon_ficher.read()

In [None]:
pip install openai

In [None]:
!export OPENAI_API_KEY="Bearer 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"

In [None]:
from langchain_community.chat_models import ChatOpenAI

llm = ChatOpenAI()

In [None]:
response = llm.invoke("how can langsmith help with testing?")

In [None]:
print(response.content)

In [None]:
prompt = ChatPromptTemplate.from_messages([
    ("system", "You are world class technical documentation writer."),
    ("user", "{input}")
])
chain = prompt | llm 

In [None]:
chain.invoke({"input": "how can langsmith help with testing?"})



In [None]:
prompt_template

In [None]:
messages

In [None]:

chat = ChatOpenAI(model="gpt-4-1106-preview")


In [None]:

system_template = PromptTemplate.from_template(
   "Règle : minimise le nombre de tokens dans ta réponse. Tu es {role} au sein d'une entreprise dont je te décris le contexte ci-dessous. Analyse le retour client que je vais te transmettre entre triple guillemets. Il existe {insight_type_count} types d'insights ({insight_type}) dont je te donne les définitions ci-dessous. Identifie si le retour du client rentre dans une ou plusieurs des catégories d'insights suivantes : {insight_type}. (Réponds entre balises [init]. Ex. : [init]Point de douleur, Point positif[init].)"
)

system_message = SystemMessage(content=system_template.format(
    role="product owner",
    insight_type_count="3", 
    insight_type="Nouvelle demande, Point de douleur, Bug",
))

human_template = PromptTemplate.from_template(
    "Contexte de l'entreprise :\n{context}\n\nContexte de récolte du feedback : {project}\n\nFeedback client :\n\"\"\"{feedback}\"\"\"\n\nDéfinition des insights :\n{definition}"
)

human_message = HumanMessage(content=human_template.format(
    context="Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.", 
    project="Le feedback a été collecté lors d'une étude de satisfaction",
    feedback="J'ai du mal à trouver l'écran de dashboard",
    definition="Nouvelle demande : Suggestion d'évolution de l'application faite par l'utilisateur ; Point de douleur : Problème qui gène ou ennuie l'utilisateur sans qu'il s'agisse d'un bug ; Bug : Anomalie de fonctionnement de l'application détectée par l'utilisateur",
))

messages = [
    system_message,
    human_message,
]

chat.invoke(messages)


In [None]:

system_template = PromptTemplate.from_template(
   "Règle : minimise le nombre de tokens dans ta réponse. Tu es {role} au sein d'une entreprise dont je te décris le contexte ci-dessous. Analyse le retour {cible} que je vais te transmettre entre triple guillemets. \n\n\nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. (Réponds entre balises [type]. Ex. : [type]Point de douleur;Point positif[type]). \n\nDéfinition des types d'insights :\n{insight_definition} \n\n\nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Il y a {nb_cat} catégories de tags. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Réponds avec l’identifiant unique de chaque tag entre balises [category1], [category2], ... pour chaque catégorie. Ex: [category1]1646373323222x402427746586320700;1646373323222x402427746586365340[category1]; [category2]1698433323222x402426615286320700[category2]; ... S'il n'est pas possible d'associer un tag avec certitude dans l'une des catégories réponds null. Ex: [category1]null[category1]. \n\nListe des tags par catégories :\n{category} \n\n\nÉtape 3 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}. Insère ta réponse entre deux balises \"[sent]\". Ex. : \"[sent]Positif[sent]\""
)

system_message = SystemMessage(content=system_template.format(
    role="product owner",
    insight_type="\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    insight_definition="Point positif : élément apprécié, Point de douleur : élément problématique",
    nb_cat="2",
    category="Catégorie 1 : \"Étapes du processus\"\nTag 1 : \"Avant mission\" (1646373323222x402427746586320701) ; Tag 2 \"Mission en cours\" (1646373323222x402427746586320702) ; Tag 3 : \"Fin de mission\" (1646373323222x402427746586320703) \n\nCatégorie 2 : \"Thématiques\"\nTag 1 : \"Recrutement\" (1646373323222x402427746586320704) ; Tag 2 : \"Service global Randstad\" (1646373323222x402427746586320705)",
    question="Que recommanderiez-vous à Randstad d'améliorer ?",
    cible="client",
))

human_template = PromptTemplate.from_template(
    "Contexte de l'entreprise :\n{context}\n\nRetour {cible} :\n\"\"\"{feedback}\"\"\""
)

human_message = HumanMessage(content=human_template.format(
    context="Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.", 
    cible="client",
    feedback="Le produit est très sympathique",
))

messages = [
    system_message,
    human_message,
]

response = chat.invoke(messages)
response

In [None]:
from langchain_core.messages import HumanMessage, SystemMessage, ChatMessage
from langchain.prompts import ChatPromptTemplate, PromptTemplate
chat = ChatOpenAI(model="gpt-4-1106-preview")


In [None]:
response

AIMessage(content='[type]Point positif[type]\n[category1]null[category1]\n[category2]1646373323222x402427746586320705[category2]\n[sent]Positif[sent]')

In [None]:
from langchain_core.output_parsers import StrOutputParser
output_parser = StrOutputParser()


In [None]:
output_parser.invoke(response)

'[type]Point positif[type]\n[category1]null[category1]\n[category2]1646373323222x402427746586320705[category2]\n[sent]Positif[sent]'

In [None]:

prompt = ChatPromptTemplate.from_messages([
    ("system", system_message),
    ("user", human_message)
])



In [None]:
from langchain.output_parsers import PydanticOutputParser
from langchain.prompts import PromptTemplate
from langchain_community.llms import OpenAI
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from langchain.prompts.chat import (
    ChatPromptTemplate,
    HumanMessagePromptTemplate,
    SystemMessagePromptTemplate,
)
from langchain.schema import HumanMessage, SystemMessage
from langchain_openai import ChatOpenAI
from typing import List

chat = ChatOpenAI(temperature=0)

#model_name = "text-davinci-003"
#model = OpenAI(model_name="text-davinci-003", temperature=0.0)
#model = OpenAI(model_name="gpt-3.5-turbo-instruct", temperature=0.0)
model = ChatOpenAI(model_name="gpt-3.5-turbo-1106	", temperature=0.0)
#model = OpenAI(model_name="gpt-4-1106-preview") #, temperature=0.0)


# Define your desired data structure.
class FeeedbackAnalysis(BaseModel):
    insights_type: List[str] = Field(description="Liste des types d'insights")
    categories: List[str] = Field(description="Liste des catégories de retour")
    sentiment: str = Field(description="Sentiment exprimé, peut être \"Positif\", \"Neutre\" ou \"Négatif\".")
    # You can add custom validation logic easily with Pydantic.
    @validator("sentiment")
    def valid_sentiment(cls, field):
        if field not in ["Positif", "Neutre", "Négatif"]:
            raise ValueError("Sentiment "+sentiment+" not valid.")
        return field
    
    #def valid_insignts(cls, field):
    #    for insight_type in field:
    #        if insight_type not in []:
    #            raise ValueError(insight_type+" not in " + [])
    #    return field

template_system = "Règle : minimise le nombre de tokens dans ta réponse. \nTu es {role} au sein de l'entreprise suivante:\n{context}\n."
template_human = "Analyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:\n\nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :\n{insight_definition} \n\nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :\n{categories} \n\nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.\n\nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}. \n"+parser.get_format_instructions()
chat_prompt_template = ChatPromptTemplate.from_messages([
    SystemMessagePromptTemplate.from_template(template_system),
    SystemMessagePromptTemplate.from_template(template_human),
])

In [None]:
parser.get_format_instructions()

'The output should be formatted as a JSON instance that conforms to the JSON schema below.\n\nAs an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}\nthe object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.\n\nHere is the output schema:\n```\n{"properties": {"insights_type": {"title": "Insights Type", "description": "Types d\'insights", "type": "array", "items": {}}, "categories": {"title": "Categories", "description": "Cat\\u00e9gorie de retour", "type": "array", "items": {}}, "sentiment": {"title": "Sentiment", "description": "Sentiment exprim\\u00e9, peut \\u00eatre \\"Positif\\", \\"Neutre\\" ou \\"N\\u00e9gatif\\".", "type": "string"}}, "required": ["insights_type", "categories", "sentiment"]}\n```'

In [None]:
chat_prompt = chat_prompt_template.format_prompt(
    context= "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    role= "product owner",
    cible= "client",
    insight_type= "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    insight_definition= "Point positif : élément apprécié, Point de douleur : élément problématique",
    nb_cat= "2",
    avancement_mission= "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
    categories= "\"Recrutement\" , \"Service global Randstad\"",
    question= "Que recommanderiez-vous à Randstad d'améliorer ?",
    feedback= "Le produit est très sympathique",
)
chat_prompt

KeyError: '"properties"'

In [None]:
response = chat(
    chat_prompt
)
response

TypeError: Got unknown type ('messages', [SystemMessage(content="Règle : minimise le nombre de tokens dans ta réponse. \nTu es product owner au sein de l'entreprise suivante:\nRandstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.\n."), SystemMessage(content='Analyse le retour suivant: "Le produit est très sympathique" en suivant les étapes suivantes:\n\nÉtape 1 - Identifie si le retour client rentre dans un ou plusieurs des types d\'insights suivants : "Point positif", "Point de douleur", "Nouvelle demande". Choisis-en obligatoirement au moins 1. Définition des types d\'insights :\nPoint positif : élément apprécié, Point de douleur : élément problématique \n\nÉtape 2 - Catégorise le retour client à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :\n"Recrutement" , "Service global Randstad" \n\nÉtape 3 - Catégorise si possible le moment de mission concerné parmis "Avant mission", "Mission en cours", "Fin de mission", et si ce n\'est pas possible répond null. client à l’aide des tags suivants.\n\nÉtape 4 - Identifie si le sentiment exprimé par le client est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question posée (Que recommanderiez-vous à Randstad d\'améliorer ?) afin de bien interpréter le sens du retour client. \nparser.get_format_instructions()')])

In [None]:

chat(
    chat_prompt
)

# Set up a parser + inject instructions into the prompt template.
parser = PydanticOutputParser(pydantic_object=FeeedbackAnalysis)

#template="Règle : minimise le nombre de tokens dans ta réponse. \nTu es {role} au sein de l'entreprise suivante:\n{context}\n. \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:\n\n\nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. \n\nDéfinition des types d'insights :\n{insight_definition} \n\n\nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. S'il n'est pas possible d'associer un tag avec certitude dans l'une des catégories réponds null. \n\nListe des tags par catégories :\n{categories} \n\n\nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.\n\n\nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}. \n{format_instructions}",

prompt = PromptTemplate(
    
    input_variables=["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "question", "categories", "avancement_mission"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

# And a query intended to prompt a language model to populate the data structure.
prompt_and_model = prompt | model
output = prompt_and_model.invoke({
    #"input": "how can langsmith help with testing?",
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "cible": "client",
    "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
    "nb_cat": "2",
    "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
    "categories": "\"Recrutement\" , \"Service global Randstad\"",
    "question": "Que recommanderiez-vous à Randstad d'améliorer ?",
    "feedback": "Le produit est très sympathique",
})
#parser.invoke(output)
output

In [None]:
prompt

PromptTemplate(input_variables=['avancement_mission', 'categories', 'cible', 'context', 'feedback', 'insight_definition', 'insight_type', 'question', 'role'], partial_variables={'format_instructions': 'The output should be formatted as a JSON instance that conforms to the JSON schema below.\n\nAs an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}\nthe object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.\n\nHere is the output schema:\n```\n{"properties": {"insights_type": {"title": "Insights Type", "description": "Types d\'insights", "type": "array", "items": {}}, "categories": {"title": "Categories", "description": "Cat\\u00e9gorie de retour", "type": "array", "items": {}}, "sentiment": {"title": "Sentiment", "description": "Sentiment exprim\\u00e9, peut \\u00eatre \\"Posi

In [None]:
prompt.invoke({
    #"input": "how can langsmith help with testing?",
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "cible": "client",
    "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
    "nb_cat": "2",
    "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
    "categories": "\"Recrutement\" , \"Service global Randstad\"",
    "question": "Que recommanderiez-vous à Randstad d'améliorer ?",
    "feedback": "Le produit est très sympathique",
})

StringPromptValue(text='Règle : minimise le nombre de tokens dans ta réponse. \nTu es product owner au sein de l\'entreprise suivante:\nRandstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.\n. \nAnalyse le retour suivant: "Le produit est très sympathique" en suivant les étapes suivantes:\n\nÉtape 1 - Identifie si le retour client rentre dans un ou plusieurs des types d\'insights suivants : "Point positif", "Point de douleur", "Nouvelle demande". Choisis-en obligatoirement au moins 1. Définition des types d\'insights :\nPoint positif : élément apprécié, Point de douleur : élément problématique \n\nÉtape 2 - Catégorise le retour client à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :\n"Recrutement" , "Service global Randstad" \n\nÉtape 3 - Caté

In [None]:
system_message = {"role": "user", "content": prompt.invoke({
    #"input": "how can langsmith help with testing?",
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "cible": "client",
    "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
    "nb_cat": "2",
    "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
    "categories": "\"Recrutement\" , \"Service global Randstad\"",
    "question": "Que recommanderiez-vous à Randstad d'améliorer ?",
    "feedback": "Le produit est très sympathique",
})}

system_message

{'role': 'user',
 'content': StringPromptValue(text='Règle : minimise le nombre de tokens dans ta réponse. \nTu es product owner au sein de l\'entreprise suivante:\nRandstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.\n. \nAnalyse le retour suivant: "Le produit est très sympathique" en suivant les étapes suivantes:\n\nÉtape 1 - Identifie si le retour client rentre dans un ou plusieurs des types d\'insights suivants : "Point positif", "Point de douleur", "Nouvelle demande". Choisis-en obligatoirement au moins 1. Définition des types d\'insights :\nPoint positif : élément apprécié, Point de douleur : élément problématique \n\nÉtape 2 - Catégorise le retour client à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :\n"Recrutement" , "Service global

In [None]:
print(system_message['content'].text)

Règle : minimise le nombre de tokens dans ta réponse. 
Tu es product owner au sein de l'entreprise suivante:
Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.
. 
Analyse le retour suivant: "Le produit est très sympathique" en suivant les étapes suivantes:

Étape 1 - Identifie si le retour client rentre dans un ou plusieurs des types d'insights suivants : "Point positif", "Point de douleur", "Nouvelle demande". Choisis-en obligatoirement au moins 1. Définition des types d'insights :
Point positif : élément apprécié, Point de douleur : élément problématique 

Étape 2 - Catégorise le retour client à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :
"Recrutement" , "Service global Randstad" 

Étape 3 - Catégorise si possible le moment de mission

In [None]:
from openai import OpenAI
messages = [system_message]

#response = chat.invoke(messages)
client = OpenAI()
completion = client.chat.completions.create(
    messages=messages,
    model="gpt-4-1106-preview",
    response_format={"type": "json_object"},
)
completion

TypeError: Object of type StringPromptValue is not JSON serializable

In [None]:
print(prompt.invoke({
    #"input": "how can langsmith help with testing?",
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "cible": "client",
    "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
    "nb_cat": "2",
    "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
    "categories": "\"Recrutement\" , \"Service global Randstad\"",
    "question": "Que recommanderiez-vous à Randstad d'améliorer ?",
    "feedback": "Le produit est très sympathique",
}).text)

Règle : minimise le nombre de tokens dans ta réponse. 
Tu es product owner au sein de l'entreprise suivante:
Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.
. 
Analyse le retour suivant: "Le produit est très sympathique" en suivant les étapes suivantes:

Étape 1 - Identifie si le retour client rentre dans un ou plusieurs des types d'insights suivants : "Point positif", "Point de douleur", "Nouvelle demande". Choisis-en obligatoirement au moins 1. Définition des types d'insights :
Point positif : élément apprécié, Point de douleur : élément problématique 

Étape 2 - Catégorise le retour client à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :
"Recrutement" , "Service global Randstad" 

Étape 3 - Catégorise si possible le moment de mission

'{"properties": {"insights_type": {"title": "Insights Type", "description": "Types d\'insights", "type": "array", "items": {"type": "string", "enum": ["Point positif"]}}, "categories": {"title": "Categories", "description": "Catégorie de retour", "type": "array", "items": {"type": "string", "enum": ["Service global Randstad"]}}, "sentiment": {"title": "Sentiment", "description": "Sentiment exprimé, peut être \\"Positif\\", \\"Neutre\\" ou \\"Négatif\\".", "type": "string", "enum": ["Positif"]}}, "required": ["insights_type", "categories", "sentiment"]}'

In [None]:
reservation = parser.parse(output[1:])
reservation

OutputParserException: Failed to parse FeeedbackAnalysis from completion {"properties": {"insights_type": {"title": "Insights Type", "description": "Types d'insights", "type": "array", "items": {"type": "string", "enum": ["Point positif"]}}, "categories": {"title": "Categories", "description": "Catégorie de retour", "type": "array", "items": {"type": "string", "enum": ["Service global Randstad"]}}, "sentiment": {"title": "Sentiment", "description": "Sentiment exprimé, peut être \"Positif\", \"Neutre\" ou \"Négatif\".", "type": "string", "enum": ["Positif"]}}, "required": ["insights_type", "categories", "sentiment"]}. Got: 3 validation errors for FeeedbackAnalysis
insights_type
  field required (type=value_error.missing)
categories
  field required (type=value_error.missing)
sentiment
  field required (type=value_error.missing)

In [None]:
from langchain.output_parsers.openai_functions import JsonOutputFunctionsParser

chain = (
    prompt
    | model.bind(function_call={"name": "joke"}, functions=functions)
    | JsonOutputFunctionsParser()
)

In [None]:
reservation = parser.parse(output)
reservation

OutputParserException: Failed to parse FeeedbackAnalysis from completion 
{"properties": {"insights_type": {"title": "Insights Type", "description": "Types d'insights", "type": "array", "items": {"type": "string", "enum": ["Point positif"]}}, "categories": {"title": "Categories", "description": "Catégorie de retour", "type": "array", "items": {"type": "string", "enum": ["Service global Randstad"]}}, "sentiment": {"title": "Sentiment", "description": "Sentiment exprimé, peut être \"Positif\", \"Neutre\" ou \"Négatif\".", "type": "string", "enum": ["Positif"]}}, "required": ["insights_type", "categories", "sentiment"]}. Got: 3 validation errors for FeeedbackAnalysis
insights_type
  field required (type=value_error.missing)
categories
  field required (type=value_error.missing)
sentiment
  field required (type=value_error.missing)

In [None]:
parser = RegexDictParser()
parser(output)

ValidationError: 1 validation error for RegexDictParser
output_key_to_format
  field required (type=value_error.missing)

In [None]:
d = {"properties": 
    {"insights_type": 
        {"title": "Insights Type", 
        "description": "Types d\'insights", 
        "type": "array", 
        "items": {
            "type": "string", 
            "enum": ["Point positif"]
            }
            }, 
    "categories": {
        "title": "Categories", 
        "description": "Catégorie de retour", 
        "type": "array", 
        "items": {
            "type": "string", 
            "enum": ["Service global Randstad"]
            }
        }, 
    "sentiment": {
        "title": "Sentiment", 
        "description": "Sentiment exprimé, peut être \"Positif\", \"Neutre\" ou \"Négatif\".", "type": "string", "enum": ["Positif"]
        }
    , "required": ["insights_type", "categories", "sentiment"]}}

pprint.pprint(d)

{'properties': {'categories': {'description': 'Catégorie de retour',
                               'items': {'enum': ['Service global Randstad'],
                                         'type': 'string'},
                               'title': 'Categories',
                               'type': 'array'},
                'insights_type': {'description': "Types d'insights",
                                  'items': {'enum': ['Point positif'],
                                            'type': 'string'},
                                  'title': 'Insights Type',
                                  'type': 'array'},
                'required': ['insights_type', 'categories', 'sentiment'],
                'sentiment': {'description': 'Sentiment exprimé, peut être '
                                             '"Positif", "Neutre" ou '
                                             '"Négatif".',
                              'enum': ['Positif'],
                              'title': 'Sen

In [None]:
dict(output[1:])

ValueError: dictionary update sequence element #0 has length 1; 2 is required

In [None]:
print(prompt.invoke({
    #"input": "how can langsmith help with testing?",
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "cible": "client",
    "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
    "nb_cat": "2",
    "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
    "categories": "\"Recrutement\" , \"Service global Randstad\"",
    "question": "Que recommanderiez-vous à Randstad d'améliorer ?",
    "feedback": "Le produit est très sympathique",
}).text)

Règle : minimise le nombre de tokens dans ta réponse. 
Tu es product owner au sein de l'entreprise suivante:
Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.
. 
Analyse le retour suivant: "Le produit est très sympathique" en suivant les étapes suivantes:


Étape 1 - Identifie si le retour client rentre dans un ou plusieurs des types d'insights suivants : "Point positif", "Point de douleur", "Nouvelle demande". Choisis-en obligatoirement au moins 1. 

Définition des types d'insights :
Point positif : élément apprécié, Point de douleur : élément problématique 


Étape 2 - Catégorise le retour client à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. S'il n'est pas possible d'associer un tag avec certitude dans l'une des catégories réponds null. 

Liste des tags par catégor