In [31]:
from typing import List

from langchain.output_parsers import PydanticOutputParser
from langchain.prompts import PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from langchain_openai import ChatOpenAI

from copy import copy

In [2]:
!export OPENAI_API_KEY="Bearer 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"


In [74]:
model = ChatOpenAI(temperature=0, model="gpt-4-1106-preview")

In [5]:
# Here's another example, but with a compound typed field.
class Actor(BaseModel):
    name: str = Field(description="name of an actor")
    film_names: List[str] = Field(description="list of names of films they starred in")


actor_query = "Generate the filmography for a random actor."

parser = PydanticOutputParser(pydantic_object=Actor)

prompt = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

chain = prompt | model | parser

chain.invoke({"query": actor_query})

Actor(name='Tom Hanks', film_names=['Forrest Gump', 'Cast Away', 'Saving Private Ryan', 'The Green Mile', 'Toy Story', 'Apollo 13', 'Catch Me If You Can', 'The Da Vinci Code', 'Captain Phillips', 'Sully'])

In [11]:
template= "Règle : minimise le nombre de tokens dans ta réponse. \nTu es {role} au sein de l'entreprise suivante:\n{context}\n"+parser.get_format_instructions()+ \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:\n\nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :\n{insight_definition} \n\nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :\n{categories} \n\nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.\n\nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}. \n"
print(template)

Règle : minimise le nombre de tokens dans ta réponse. 
Tu es {role} au sein de l'entreprise suivante:
{context}
The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"properties": {"insights_type": {"title": "Insights Type", "description": "Liste des types d'insights", "type": "array", "items": {"type": "string"}}, "categories": {"title": "Categories", "description": "Liste des cat\u00e9gories de retour", "type": "array", "items": {"type": "string"}}, "sentiment": {"title": "Sentiment", "description": "Sentiment exprim\u00e9, peut \u00eatre 'Positif', 'Neutre' ou 'N\u00e9gatif'.", "type": "strin

In [45]:
class FeeedbackAnalysis(BaseModel):
    categorisation_insights_list: List[str] = Field(description="Liste des types d'insights")
    categories_list: List[str] = Field(description="Liste des catégories de retour")
    sentiment: str = Field(description="Sentiment exprimé, peut être 'Positif', 'Neutre' ou 'Négatif'.")
    # You can add custom validation logic easily with Pydantic.
    @validator("sentiment")
    def valid_sentiment(cls, field):
        if field not in ["Positif", "Neutre", "Négatif"]:
            raise ValueError("Sentiment "+sentiment+" not valid.")
        return field
    
parser = PydanticOutputParser(pydantic_object=FeeedbackAnalysis)


prompt = PromptTemplate.from_template(
    template= "Règle : minimise le nombre de tokens dans ta réponse. \nTu es {role} au sein de l'entreprise suivante:\n{context}\n{format_instructions}\nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:\n\nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :\n{insight_definition} \n\nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :\n{categories} \n\nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.\n\nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}. \n",
    #template= "Règle : minimise le nombre de tokens dans ta réponse. \nTu es {role} au sein de l'entreprise suivante:\n{context}\nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:\n\nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :\n{insight_definition} \n\nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :\n{categories} \n\nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.\n\nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}. \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": parser.get_format_instructions()},
)

prompt_and_model = prompt | model | parser
output = prompt_and_model.invoke({
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "cible": "client",
    "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
    "nb_cat": "2",
    "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
    "categories": "\"Recrutement\" , \"Service global Randstad\"",
    "question": "Que recommanderiez-vous à Randstad d'améliorer ?",
    "feedback": "ok",
    #"feedback": "Le produit est très sympathique",
})
output

NameError: name 'insights_list' is not defined

In [52]:
import pandas as pd
insights_df = pd.read_csv('/Users/gardille/development/BlueMana/data/Commentaires/metro.csv')
insights_df.head()

Unnamed: 0,Comment
0,"Trop de ruptures , de produits arrêtés du jour..."
1,Je n'ai pas grand chose à dire sur les prix pa...
2,"Metro augmente ses prix à vu deuil, pour la li..."
3,Rupture de produit tout type de produit \n ( s...
4,Gros soucis du côté stationnement pour les véh...


In [64]:
insights_sample = list(insights_df[:10]['Comment'])
'\n'.join(insights_sample)

"Trop de ruptures , de produits arrêtés du jour au lendemain trop de produits au prix grand public supermarché voir même plus cher, trop de produits non référencés chez métro notamment en produits d identité régionale qui ont été arrêté par ( acheteurs Parisiens )\nJe n'ai pas grand chose à dire sur les prix par contre j'en aurais beaucoup à dire sur le personnel c'est pour cela que de 2000€ d'achats par mois je vais sacrément réduire voir ne rien vous prendre\nMetro augmente ses prix à vu deuil, pour la livraison c’est du grand n’importe quoi. Exemple un fardeau de coca 0,18 € plus cher par canette que dans le magasin fois 40 fardeau imaginer le prix c’est du n’importe quoi. C’est du foutage de gueule, un capable de faire un prix bloqué pour des petits commerçants, seulement à partir de 150 000 € d’achat du grand n’importe quoi, du coup métro prêt 70 % de mon chiffre d’ affaires achat par rapport à l’ an dernier , et ce n’est pas fini car je ne peux pas accepter une telle incohérence 

In [77]:
insight_randstad = """Agence d'intérim pas très humaine…
Agence d'intérim pas très humaine !désagréable
La personne me propose un poste de cariste, je leur explique que ce n'est pas mon souhait (étant donné que je suis responsable caristes)
Ce permet de me dire 《vous me rappellerez quand vous n'aurez plus à manger 》remarque très déplacée"""

In [78]:
class Insight(BaseModel):
    insight_types: List[str] = Field(description="Types de l'insight")
    insight: str = Field(description="Point intéressant a retenir du commentaire.")

class Feedback(BaseModel):
    insights_list: List[Insight] = Field(description="Contenu et type des insights")
    sentiment: str = Field(description="Sentiment exprimé, peut être 'Positif', 'Neutre' ou 'Négatif'.")
    # You can add custom validation logic easily with Pydantic.
    @validator("sentiment")
    def valid_sentiment(cls, field):
        if field not in ["Positif", "Neutre", "Négatif"]:
            raise ValueError("Sentiment "+sentiment+" not valid.")
        return field
    
parser = PydanticOutputParser(pydantic_object=Feedback)


prompt = PromptTemplate.from_template(
    template= "Tu es {role} au sein de l'entreprise suivante: \n{context} \n{format_instructions}  \nPour le retour {cible}, effectue les étapes suivantes: \nÉtape 1 - Identifie si il rentre dans un ou plusieurs des catégories d'insights suivantes : {insight_type}, dont la definition est: \n{insight_definition} \nÉtape 2 - Catégorise les si possible avec les tags suivants.  \n{categories} \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond Null. \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}. \nÉtape 5 - Identifie le ou les éventuelles insights que tu aurais envie de faire remonter à ton équipe. Ils doivent être des phrase grammaticalement correcte, et faire correspondre intelligement le commentaire au context de l'entreprise. Si rien d'intéressant ne peut être conclu, laisse la liste vide. \n\n Voici la liste des ommentaires: \n\n{feedback}",
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": parser.get_format_instructions()},
)

prompt_and_model = prompt | model | parser
output = prompt_and_model.invoke({
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "cible": "client",
    "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
    "nb_cat": "2",
    "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
    "categories": "\"Recrutement\" , \"Service global Randstad\"",
    "question": "Que recommanderiez-vous à Randstad d'améliorer ?",
    "feedback": insight_randstad,
})
output

Feedback(insights_list=[Insight(insight_types=['Point de douleur', 'Recrutement', 'Avant mission'], insight="L'agence d'intérim est perçue comme peu humaine et désagréable."), Insight(insight_types=['Point de douleur', 'Recrutement', 'Avant mission'], insight='Un manque de considération pour les souhaits professionnels des candidats est signalé.'), Insight(insight_types=['Point de douleur', 'Recrutement', 'Avant mission'], insight='Une remarque déplacée a été faite à un candidat, indiquant un manque de respect.')], sentiment='Négatif')

In [70]:
print(prompt.invoke({
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "cible": "client",
    "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
    "nb_cat": "2",
    "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
    "categories": "\"Recrutement\" , \"Service global Randstad\"",
    "question": "Que recommanderiez-vous à Randstad d'améliorer ?",
    "feedback": '\n'.join(insights_sample),
}).text)

Tu es product owner au sein de l'entreprise suivante: 
Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs. 
The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"properties": {"feedback_list": {"title": "Feedback List", "description": "Liste des Feedbacks", "type": "array", "items": {"$ref": "#/definitions/Feeedback"}}}, "required": ["feedback_list"], "definitions": {"Insight": {"title": "Insight", "type": "object", "prop

In [71]:
output.feedback_list

[Feeedback(insights_list=[Insight(insight_types=['Point de douleur'], insight="Trop de ruptures, de produits arrêtés du jour au lendemain, trop de produits au prix grand public supermarché voir même plus cher, trop de produits non référencés chez métro notamment en produits d'identité régionale qui ont été arrêtés par (acheteurs Parisiens)"), Insight(insight_types=['Point de douleur'], insight="Metro augmente ses prix à vue d'œil, pour la livraison c’est du grand n’importe quoi. Exemple un fardeau de coca 0,18 € plus cher par canette que dans le magasin fois 40 fardeau imaginer le prix c’est du n’importe quoi. C’est du foutage de gueule, un capable de faire un prix bloqué pour des petits commerçants, seulement à partir de 150 000 € d’achat du grand n’importe quoi, du coup métro prêt 70 % de mon chiffre d’affaires achat par rapport à l’an dernier, et ce n’est pas fini car je ne peux pas accepter une telle incohérence et un tel vol organiser de la part de Directeur de Metro .."), Insight

In [44]:
def create_feedback_categoriser(invokation):
    def feedback_categoriser(invokation, feedback): 
        invokation = copy(invokation)
        invokation['feedback'] = feedback
        return prompt_and_model.invoke(invokation)
    
    return lambda feedback:feedback_categoriser(invokation, feedback)


randstad_context = {
    "context": "Randstad est une entreprise d’expertise RH avec plus de 60 ans d’expérience, offrant une gamme complète de services de recrutement et de gestion des ressources humaines pour répondre à divers besoins spécifiques des employeurs.",
    "role": "product owner",
    "cible": "client",
    "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
    "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
    "nb_cat": "2",
    "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
    "categories": "\"Recrutement\" , \"Service global Randstad\"",
    "question": "Que recommanderiez-vous à Randstad d'améliorer ?",
}
feedback_categoriser = create_feedback_categoriser(randstad_context)

#feedback_categoriser("Le produit est très sympathique")
feedback_categoriser("ok")

OutputParserException: Failed to parse FeeedbackAnalysis from completion Étape 1: Le retour client ne rentre dans aucun des types d'insights suivants.

Étape 2: Le retour client ne correspond à aucun des tags suivants.

Étape 3: Impossible de catégoriser le moment de mission concerné.

Étape 4: Le sentiment exprimé par le client est neutre.. Got: Expecting value: line 1 column 1 (char 0)

In [37]:
print("Parmi la liste d'insights suivants, combien évoquent la même idée que le retour <cible> ? (Réponds entre balises [init]. Ex. : [init]2[init]. Si aucun, réponds [init]0[init].)   \n<insight_list>   \n  \nÉtape 2 - Nomme ces insights à l'aide de leur identifiant unique. (Réponds entre balises [f1], [f2], ... pour chaque besoin. Ex. : [f1]ab890jdjos890[f1], [f2]drdek8798s[f2]... Si tu as répondu 0 en étape 1, passe cette étape.)   \n  \nÉtape 3 - Combien d'autres <type> sont évoqués dans le retour <cible> ? (Réponds entre balises [new]. Ex : [new]1[new]. Si aucun, réponds [new]0[new].)   \n  \nÉtape 4 - Synthétise ces nouveaux insights en une phrase grammaticalement correcte pour qu'une personne de ton équipe puisse les comprendre. Tu ne dois pas intégrer de nom, de prénom, d'email ou de numéro de téléphone dans ta formulation, même si le feedback évoque une donnée personnelle. ")

Parmi la liste d'insights suivants, combien évoquent la même idée que le retour <cible> ? (Réponds entre balises [init]. Ex. : [init]2[init]. Si aucun, réponds [init]0[init].) 
<insight_list> 

Étape 2 - Nomme ces insights à l'aide de leur identifiant unique. (Réponds entre balises [f1], [f2], ... pour chaque besoin. Ex. : [f1]ab890jdjos890[f1], [f2]drdek8798s[f2]... Si tu as répondu 0 en étape 1, passe cette étape.) 

Étape 3 - Combien d'autres <type> sont évoqués dans le retour <cible> ? (Réponds entre balises [new]. Ex : [new]1[new]. Si aucun, réponds [new]0[new].) 

Étape 4 - Synthétise ces nouveaux insights en une phrase grammaticalement correcte pour qu'une personne de ton équipe puisse les comprendre. Tu ne dois pas intégrer de nom, de prénom, d'email ou de numéro de téléphone dans ta formulation, même si le feedback évoque une donnée personnelle. 


In [26]:
{
   "model": "gpt-4-1106-preview",
   "messages": [
      {
         "role": "system",
         "content": "Règle : mis à part pour la rédaction des insights (étape 4), minimise le nombre de tokens dans ta réponse. Tu es <role> au sein d'une entreprise dont je te décris le contexte ci-dessous. Analyse le retour <cible> que je vais te transmettre entre triple guillemets. Au sein de ce retour, on ne s'intéresse qu'à ce qui est lié à : <typedefinition>. \n\nÉtape 1 - Parmi la liste d'insights suivants, combien évoquent la même idée que le retour <cible> ? (Réponds entre balises [init]. Ex. : [init]2[init]. Si aucun, réponds [init]0[init].) \n<insight_list> \n\nÉtape 2 - Nomme ces insights à l'aide de leur identifiant unique. (Réponds entre balises [f1], [f2], ... pour chaque besoin. Ex. : [f1]ab890jdjos890[f1], [f2]drdek8798s[f2]... Si tu as répondu 0 en étape 1, passe cette étape.) \n\nÉtape 3 - Combien d'autres <type> sont évoqués dans le retour <cible> ? (Réponds entre balises [new]. Ex : [new]1[new]. Si aucun, réponds [new]0[new].) \n\nÉtape 4 - Synthétise ces nouveaux insights en une phrase grammaticalement correcte pour qu'une personne de ton équipe puisse les comprendre. Tu ne dois pas intégrer de nom, de prénom, d'email ou de numéro de téléphone dans ta formulation, même si le feedback évoque une donnée personnelle. (Réponds entre balises [c1], [c2], ... pour chaque besoin. Ex. : [c1]besoin 1[c1], [c2]besoin 2[c2]... Si tu as répondu 0 en étape 3, passe cette étape.) \n\nÉtape 5 - Ces nouveaux insights sont-ils des <type> ? (Réponds entre balises [t1], [t2], ... pour chaque nouvel insight identifié. Ex. : [t1]Point positif[t1], [t2]Point de douleur[t2]... Si tu as répondu 0 en étape 3, passe cette étape.)"
      },
      {
         "role": "user",
         "content": "Contexte de l'entreprise :\n<context>\n\nRetour <cible> :\n\"\"\"<feedback>\"\"\""
      }
   ]
}

FeeedbackAnalysis(insights_list=['Point positif'], categories_list=['Recrutement'], sentiment='Positif')