# Dependancies

## Requirements

In [109]:
#!pip install sentence_transformers langchain openai tqdm datasets asyncio scikit-learn cohere tiktoken umap altair

In [110]:
import numpy as np
import re
import pandas as pd
from tqdm.notebook import tqdm
from datasets import load_dataset
import umap
import altair as alt
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer
from typing import List
import enum

from langchain_community.llms import Ollama
from langchain.output_parsers.regex_dict import RegexDictParser
from langchain.output_parsers import PydanticOutputParser
from langchain_core.messages import HumanMessage, SystemMessage, ChatMessage
from langchain.prompts import ChatPromptTemplate, PromptTemplate
from pydantic import BaseModel, Field, validator, create_model
from openai import AsyncOpenAI, OpenAI
import asyncio
import os

import requests
import json
from bubble_api import Field as BubbleField
from bubble_api import BubbleClient

import itertools
from copy import deepcopy
from tqdm.notebook import tqdm, trange
from sklearn.cluster import KMeans

import umap.umap_ as umap
#import umap
import hdbscan

from typing import Literal, Union
from pydantic.config import ConfigDict

import openai
import instructor

openai.api_key = "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"


In [145]:
MAX_RETRIES = 0
TEMPERATURE = 0.5
EMBEDDING_DIMENSION = 10
CUSTOM_ENBEDDING_MODEL = False
PUSH_TO_BUBBLE = False

## Useful functions

In [112]:
import unicodedata

def remove_accents(text):
    # Replace accented characters with their non-accented counterparts
    try:
        return unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8')
    except TypeError:  # handles cases when text is not a string (e.g., a number)
        return text

text = "Pôint positîf"
converted_text = remove_accents(text)
print(converted_text)

Point positif


In [113]:
def str_to_list_df(df):
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    return df

def batchify(iterable, size=1):
    l = len(iterable)
    for ndx in range(0, l, size):
        yield iterable[ndx:min(ndx + size, l)]

for x in batchify(list(range(0, 10)), 3):
    print(x)

def deduce_backend_type(insight_type):
    if insight_type == "1698433300252x835626794232717300":
        return "pain"
    elif insight_type == "1698433290120x936044292663509300":
        return "positive"   
    elif insight_type == "1698433314230x619003097145126100":
        return "feature"  
    elif insight_type == "1698433323222x402426615286320700":
        return "bug"   
    print("Incorrect type:", insight_type)

def most_common(lst):
    return max(set(lst), key=lst.count)

def columns_to_string(df, column_title, column_desc, add_index=False):
    def concanenatre_title_description(x, y):
        return x+" : "+y
    
    l = list(df.apply(lambda x: concanenatre_title_description(x[column_title], x[column_desc]), axis=1))
    if add_index:
        l = [str(i)+" - "+e for i, e in enumerate(l)]
    return '\n'.join(l)


def convert_text_to_constants(text):
    text = remove_accents(text)
    text = re.sub(r"([a-z])([A-Z]+)", r"\1_\2", text.upper())
    text = re.sub(r"'", "_", text)
    return re.sub(r" ", "_", text)

text = "Point positif"
converted_text = convert_text_to_constants(text)
print(converted_text)

[0, 1, 2]
[3, 4, 5]
[6, 7, 8]
[9]
POINT_POSITIF


In [114]:
def enum_to_str(e):
    if type(e) is str:
        return e
    if issubclass(type(e), enum.Enum):
        return e.value
    if type(e) is list:
        return [enum_to_str(x) for x in e]
    if type(e) is dict:
        return {k:enum_to_str(v) for (k,v) in e.items()}
    if issubclass(type(e), BaseModel):
        return enum_to_str(e.dict())

## Models

In [115]:
import os
os.environ["OPENAI_API_KEY"] = "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"

In [116]:
#client = AsyncOpenAI()
client = instructor.patch(AsyncOpenAI())

#embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')
GENERATION_ENGINE = "gpt-4-turbo-preview"
EMBEDDING_ENGINE = "text-embedding-3-large"

import nest_asyncio
nest_asyncio.apply()

In [117]:
async def get_analysis(prompt, response_model):
    response: response_model = await client.chat.completions.create(
        messages=[
            {"role": "system", "content": "Tu est un assistant spélialisé dans l'analyse de commentaires, et qui ne renvoit que des fichiers JSON."},
            {"role": "user", "content": str(prompt)},
        ],
        response_format={ "type": "json_object" },
        model=GENERATION_ENGINE,
        temperature=TEMPERATURE,
        max_retries=MAX_RETRIES,
        response_model=response_model,
        )
    return response #.choices[0].message.content

def apply_async_analysis(prompts, response_models):
    if type(response_models) is not list:
        response_models = [response_models for _ in prompts]
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_analysis(prompt, response_model)) for (prompt, response_model) in zip(prompts, response_models)]
    res =  loop.run_until_complete(asyncio.gather(*tasks))
    return res


In [118]:
async def get_embedding(text):
    response = await client.embeddings.create(
        input=text,
        model=EMBEDDING_ENGINE,
        dimensions=EMBEDDING_DIMENSION
        )
    return response.data[0].embedding

def apply_async_get_embedding(comments):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_embedding(comment)) for comment in comments]
    return loop.run_until_complete(asyncio.gather(*tasks))

## Data

In [119]:
PROJECT =  "Metro" #"Cheerz"
project_path = 'Results/'+PROJECT
os.makedirs(project_path, exist_ok=True)

## Bubble API

In [120]:
COLUMNS_INSIGHTS = ["content", "backend_status", "status", "backend_type", "type", "company", "feedback_count", "parent", "project", "step", "tag"]

In [121]:
base_url = "https://blumana.app" #/version-test"
bubble_id = "04ca44f04c936081d8408b12c1ba67e2"

bubble_client = BubbleClient(
    base_url=base_url,
    api_token=bubble_id,
    bubble_version="test" #dev
)

In [122]:
#Randstad
#company_id = "1696884561832x730324245490558300"
#source_id = "1702244804258x371787369839591400"

#Metro
#Source : Dataset test - METRO
#Projet : METRO
company_id = "1705585399217x205117684451615600"
source_id = "1705851599107x404539534708310000"
project_id = "1705851616871x644869783878893600"


In [123]:
#bubble_client.delete_all("python_insight")

Feedbacks

In [124]:

res = bubble_client.get_objects(
        "Feedback",
        [
            BubbleField("source") == source_id,
            #Field("company") == company_id,
            ],
    )
feedbacks_df = pd.DataFrame(res)
feedbacks_df['Modified Date'] = pd.to_datetime(feedbacks_df['Modified Date'])
feedbacks_df['Created Date'] = pd.to_datetime(feedbacks_df['Created Date'])
feedbacks_column = 'content' #"content"

feedbacks_df

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id
0,2024-01-31 15:19:21.203000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,95,"[1706714349371x275598239568271680, 17067143467...",1705851599759x115801332943705310
1,2024-01-31 15:19:21.577000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[1706714348320x182894283191188160, 17067143465...",1705851599759x118530353766926000
2,2024-01-31 15:19:21.952000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,"[1706714348689x648871534716904700, 17067143464...",1705851599759x119429130200745520
3,2024-01-25 13:15:45.483000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,63,[],1705851599759x120869695273613470
4,2024-01-31 15:19:22.739000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,"[1706714349210x970420167460772200, 17067143468...",1705851599759x123910318505263460
...,...,...,...,...,...,...,...,...,...,...,...
161,2024-01-31 15:20:29+00:00,2024-01-21 15:40:01.573000+00:00,1705847494855x437900943146650500,Pour les TPE certains prix sont trop élevés. P...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,95,"[1706714349250x113689106705973760, 17067143465...",1705851601547x933884317348528900
162,2024-01-31 15:20:29.388000+00:00,2024-01-21 15:40:01.746000+00:00,1705847494855x437900943146650500,ATTENDRE PLUS DE PROMOS OU DU DISPOSITIF DE AC...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,140,"[1706714349419x520596290515968900, 17067143466...",1705851601547x959144493981025400
163,2024-01-31 15:20:29.687000+00:00,2024-01-21 15:40:01.745000+00:00,1705847494855x437900943146650500,"très content de métro, ou je trouve toujours m...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,97,"[1706714347756x667098830610782100, 17067143469...",1705851601547x969738883521839900
164,2024-01-31 15:20:30.274000+00:00,2024-01-21 15:40:01.573000+00:00,1705847494855x437900943146650500,pouvoir acheter à la pièce...,1705585399217x205117684451615600,Neutre,False,1705851599107x404539534708310000,29,"[1706714349371x275598239568271680, 17067143467...",1705851601547x976188087974111600


Types

In [125]:
res = bubble_client.get_objects(
        "Add-On",
    )
types_df = pd.DataFrame(res)
types_df['Modified Date'] = pd.to_datetime(types_df['Modified Date'])
types_df['Created Date'] = pd.to_datetime(types_df['Created Date'])
types_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,Title,Definition,_id
0,2023-11-29 20:08:33.257000+00:00,2023-10-27 19:01:30.120000+00:00,admin_user_sifter-63385_test,Point positif,Élément apprécié par le client ou l'utilisateur,1698433290120x936044292663509300
1,2023-11-29 20:08:18.542000+00:00,2023-10-27 19:01:40.253000+00:00,admin_user_sifter-63385_test,Point de douleur,Problème qui gène ou ennuie le client ou l'uti...,1698433300252x835626794232717300
2,2023-11-29 20:07:58.192000+00:00,2023-10-27 19:01:54.230000+00:00,admin_user_sifter-63385_test,Nouvelle demande,Suggestion d'évolution faite par le client ou ...,1698433314230x619003097145126100
3,2023-10-27 19:04:56.574000+00:00,2023-10-27 19:02:03.222000+00:00,admin_user_sifter-63385_test,Bug,Anomalie de fonctionnement de l'application dé...,1698433323222x402426615286320700


In [126]:
types_df[['Title',	'Definition']]

Unnamed: 0,Title,Definition
0,Point positif,Élément apprécié par le client ou l'utilisateur
1,Point de douleur,Problème qui gène ou ennuie le client ou l'uti...
2,Nouvelle demande,Suggestion d'évolution faite par le client ou ...
3,Bug,Anomalie de fonctionnement de l'application dé...


In [127]:
TypeInsight = enum.Enum("Type de l'insight", [(convert_text_to_constants(x), x) for x in types_df.Title])

Tags

In [128]:
res = bubble_client.get_objects(
        "Tag",
        [
            BubbleField("company") == company_id,
            ],
    )
tags_df = pd.DataFrame(res)
tags_df['Modified Date'] = pd.to_datetime(tags_df['Modified Date'])
tags_df['Created Date'] = pd.to_datetime(tags_df['Created Date'])
tags_df.head()

Unnamed: 0,Created Date,Created By,Modified Date,Description,Name,Company,Projects,Filter,_id
0,2024-01-21 14:40:54.587000+00:00,admin_user_sifter-63385_test,2024-01-21 14:40:54.589000+00:00,Concerne les retours liés à un achat effectué ...,Magasin,1705585399217x205117684451615600,[],1705847852729x742507764532722400,1705848054587x622458924372477600
1,2024-01-21 14:41:22.881000+00:00,admin_user_sifter-63385_test,2024-01-21 14:42:43.769000+00:00,Concerne les retours liés à un achat effectué ...,Livraison,1705585399217x205117684451615600,[],1705847852729x742507764532722400,1705848082881x454792214332598400
2,2024-01-21 14:41:58.874000+00:00,admin_user_sifter-63385_test,2024-01-21 14:42:32.586000+00:00,Cette catégorie inclut les avis relatifs à la ...,Disponibilité des produits,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848118874x455206967781607300
3,2024-01-21 14:43:43.473000+00:00,admin_user_sifter-63385_test,2024-01-21 14:43:43.474000+00:00,Catégorie regroupant les avis concernant les p...,Politique de prix,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848223473x225401328908415580
4,2024-01-21 14:44:10.225000+00:00,admin_user_sifter-63385_test,2024-01-21 14:44:10.226000+00:00,"Avis portant sur la qualité, la fraîcheur ou l...",Qualité des produits,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848250225x478538894601366000


In [129]:
TagInsight = enum.Enum("Categories de l'insight", [(convert_text_to_constants(x), x) for x in tags_df.Name])

Filters

In [130]:
res = bubble_client.get_objects(
        "Filter",
        [
            BubbleField("company") == company_id,
            ],
    )
filters_df = pd.DataFrame(res)
filters_df

Unnamed: 0,Modified Date,Created Date,Created By,Company,Name,Projects,_id
0,2024-01-22T07:16:16.180Z,2024-01-21T14:37:18.457Z,admin_user_sifter-63385_test,1705585399217x205117684451615600,Thématiques,[1705851616871x644869783878893600],1705847838457x608321687289097300
1,2024-01-22T07:16:23.551Z,2024-01-21T14:37:32.729Z,admin_user_sifter-63385_test,1705585399217x205117684451615600,Mode d'achat,[1705851616871x644869783878893600],1705847852729x742507764532722400


## Context

In [131]:
types_descr = columns_to_string(types_df, "Title", "Definition")
print(types_descr)

Point positif : Élément apprécié par le client ou l'utilisateur
Point de douleur : Problème qui gène ou ennuie le client ou l'utilisateur
Nouvelle demande : Suggestion d'évolution faite par le client ou l'utilisateur
Bug : Anomalie de fonctionnement de l'application détectée par l'utilisateur


In [132]:
tags_descr = columns_to_string(tags_df, "Name", "Description")
print(tags_descr)

Magasin : Concerne les retours liés à un achat effectué en magasin
Livraison : Concerne les retours liés à un achat effectué en livraison
Disponibilité des produits : Cette catégorie inclut les avis relatifs à la disponibilité (ou à l'indisponibilité) des produits, peu importe le mode d'achat. Cela comprend les ruptures de stock et les problèmes de réapprovisionnement.
Politique de prix : Catégorie regroupant les avis concernant les prix des produits, les augmentations de tarifs, ou les politiques tarifaires en général.
Qualité des produits : Avis portant sur la qualité, la fraîcheur ou la satisfaction globale concernant les produits achetés, que ce soit en magasin ou via livraison.
Expérience d'achat : Cette catégorie englobe les retours d'expérience liés directement à l'acte d'achat, comme l'accueil en magasin, la facilité de navigation en ligne pour les commandes, ou la facilité de stationnement au point de vente.
Service client : Commentaires relatifs à l'interaction avec le person

In [133]:
context_entreprise = "Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro)."
role = "product owner"
cible = "client"
question = "Que recommanderiez-vous à Metro d'améliorer ?"
example_insight = "Manque de clarté de l'affichage des prix en magasin"

exemple_commentaire = "je suis exclusif metro je n ai aucun representant j achetais jusqu a present tout metro par facilite mais je suis tres souvent décue par la reponse ha non on n en a pas cela arrive demain je pense que depuis le covid tout le monde ou presque s en fou!!!"

examples_insights_df = pd.DataFrame([
    {"Insights qui devraient en découler": "Déceptions face aux retards de livraison"},
    {"Insights qui devraient en découler": "Impression d'une baisse de qualité du service depuis le Covid"},
])

feedback_context = {
            "context": context_entreprise,
            "role": role,
            "cible": cible,
            "insight_types": types_descr,
            "insight_categories": tags_descr,
            "question": question,
            "exemple_commentaire": exemple_commentaire,
            "example_insights": '\n- '.join(list(examples_insights_df['Insights qui devraient en découler'])),
        }

feedback_context

{'context': 'Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).',
 'role': 'product owner',
 'cible': 'client',
 'insight_types': "Point positif : Élément apprécié par le client ou l'utilisateur\nPoint de douleur : Problème qui gène ou ennuie le client ou l'utilisateur\nNouvelle demande : Suggestion d'évolution faite par le client ou l'utilisateur\nBug : Anomalie de fonctionnement de l'application détectée par l'utilisateur",
 'insight_categories': "Magasin : Concerne les retours liés à un achat effectué en magasin\nLivraison : Concerne les retours liés à un achat effectué en livraison\nDisponibilité des produits : Cette catégorie inclut les avis relatifs à la disponibilité (ou à l'indisponibilité) des produits, peu importe le mode d'achat. Cela comprend les ruptures de stock et les problèmes de réapprovisionnement.\nPolitique 

In [134]:
feedbacks_df = feedbacks_df[:15]


# Insights extraction

In [135]:
class FirstInsight(BaseModel):
    #model_config = ConfigDict(title='Main')
    
    insight_categories: List[TagInsight] = Field(description="Categories de l'insight.")
    insight_type: TypeInsight = Field(description="Type de l'insight.")
    #titre: str = Field(description="Titre de l'insight.")
    contenu: str = Field(description="Insight qui a été déduit de l'analyse des retours.") #Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nTypes: " + ', '.join(self.insight_types)
    
class InsightsList(BaseModel):
    insights_list: List[FirstInsight] = Field(description="Liste des insights.")

#FirstInsight.model_json_schema() 

In [146]:
prompt_insights = PromptTemplate.from_template("""
Tu es {role} au sein de l'entreprise suivante:
{context}

Tu as mené une enquête auprès des {cible} de l'entreprise, et a récupéré une liste de retours. 
Tu es chargé de faire remonter auprès de l'entreprise les conlusion de ton enquète, c'est à dire les insights que tu as déduit de l'analyse de ces retours.

Effectue les étapes suivantes:

Étape 1 - Identification des insights
Identifie les insights à faire remonter auprès de ton équipe.
Voici les contraintes que les insights doivent respecter:
- Une personne de ton équipe qui lit un insight doit pouvoir en comprendre le sens, sans qu'il y ait d'ambiguité.
- Un insight doit être aussi court que possible, tout en restant parfaitement compréhensible et pertinent.
- N'ajoute pas de bouts de phrases unitiles, comme la conséquence quand celle ci est évidente. Par exemple, inutile d'ajouter des bouts de phrase comme "..., ce qui entraîne un intérêt moindre pour l'enseigne"
- Les insights apportent des informations distinctes.
- Un insight est une information que tu trouves réellement intéressante, pas une simple reformulation du retour {cible}.
                                               
Étape 2 - Catégorisation des insights
Si cela est possible, associe à chaque insight les catégories qui correspondent.
Il est possible que l'insight ne soit associé à aucune catégorie.

Les catégories suivies de leurs description sont: 
{insight_categories}
               
Étape 3 - Type des insights
Associe à chaque insight son type. Les types suivies de leurs description sont: 
{insight_types}

Voici les retours à traiter:
              
{feedbacks}

Si un retours n'est pas très intéressant, il ne doit pas faire remonter d'insight.
L'ordre des retours est aléatoire, et ne doit pas avoir d'impact sur ton analyse.
Le nombre d'insights dépend uniquement de la quantité d'informations qui te parait important de faire remonter, et pas du nombre de retours {cible}.
Retourne la liste des insights que tu as déduis. Chaque insight a donc un contenu, un type et peut avoir des tags.
               
""")

#Les catégories suivies de leurs description sont: 
#{insight_categories}
#, parmi:{insight_types}

In [147]:
prompts = []
BATCH_SIZE = 10

for batch_df in batchify(feedbacks_df, size=BATCH_SIZE):
    context = deepcopy(feedback_context)
    context["feedbacks"] = '\n'.join([str(i)+" : "+x for i, x in zip(batch_df.index, batch_df["content"])])  
    #"- "+"\n- ".join(batch_df['content'])
    #context["insights"] = "- "+"\n- ".join(batch_df['content'])
    prompts.append(prompt_insights.invoke(context))


In [148]:
print(prompts[0].text)


Tu es product owner au sein de l'entreprise suivante:
Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).

Tu as mené une enquête auprès des client de l'entreprise, et a récupéré une liste de retours. 
Tu es chargé de faire remonter auprès de l'entreprise les conlusion de ton enquète, c'est à dire les insights que tu as déduit de l'analyse de ces retours.

Effectue les étapes suivantes:

Étape 1 - Identification des insights
Identifie les insights à faire remonter auprès de ton équipe.
Voici les contraintes que les insights doivent respecter:
- Une personne de ton équipe qui lit un insight doit pouvoir en comprendre le sens, sans qu'il y ait d'ambiguité.
- Un insight doit être aussi court que possible, tout en restant parfaitement compréhensible et pertinent.
- N'ajoute pas de bouts de phrases unitiles, comme la conséquence qua

In [149]:
responses = apply_async_analysis(prompts, InsightsList)
list_batch_insights_df = [pd.DataFrame(enum_to_str(response.insights_list)) for response in responses]

print(len(list_batch_insights_df), "batch have been processed")

2 batch have been processed


/var/folders/bs/0f5dcrc501sf9wtpqltg62940000gn/T/ipykernel_68618/2334417953.py:11: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/
  return enum_to_str(e.dict())


In [141]:
[len(df) for df in list_batch_insights_df]

[10, 6]

In [144]:
print(prompts[0].text)


Tu es product owner au sein de l'entreprise suivante:
Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).

Tu as mené une enquête auprès des client de l'entreprise, et a récupéré une liste de retours. 
Tu es chargé de faire remonter auprès de l'entreprise les conlusion de ton enquète, c'est à dire les insights que tu as déduit de l'analyse de ces retours.

Effectue les étapes suivantes:

Étape 1 - Identification des insights
Identifie les insights à faire remonter auprès de ton équipe.
Voici les contraintes que les insights doivent respecter:
- Une personne de ton équipe qui lit un insight doit pouvoir en comprendre le sens, sans qu'il y ait d'ambiguité.
- Un insight doit être aussi court que possible, tout en restant parfaitement compréhensible et pertinent.
- N'ajoute pas de bouts de phrases unitiles, comme la conséquence qua

In [142]:
list(list_batch_insights_df[0]['contenu'])

["Nécessité de livrer tous les produits disponibles en magasin, y compris les bouteilles d'alcool à l'unité.",
 "L'offre internet jugée insuffisante, obligeant les clients à se rendre en magasin ou chez la concurrence.",
 'Organisation du magasin perçue comme désordonnée, rendant difficile la localisation des produits.',
 'Appréciation des opérations de déstockage chez les concurrents.',
 'Regret de ne plus recevoir les promotions sous forme papier ou digitale.',
 'Perception des prix comme étant plus élevés que chez les concurrents, même en tenant compte des taxes.',
 'Regret de la disparition des offres de produits chauds et de traiteur pendant les fêtes.',
 "Insatisfaction concernant l'assistance fournie aux clients achetant en grande quantité.",
 'Les prix jugés trop élevés même avec un système de prix dégressifs, comparés à ceux des fournisseurs concurrents.',
 'Problèmes de livraison et retards dans le traitement des avoirs.']

## Accociate newly created insights to feedbacks 

In [77]:

prompt_feedback = PromptTemplate.from_template("""
Tu es {role} au sein de l'entreprise suivante:
{context}

Tu as mené une enquête auprès des {cible} de l'entreprise. 
Tu as récupérés des commentaires, et en a extrait des insights.
               
Pour chacun des retours qui te seront donnés, effectue les étapes suivantes:

Étape 1 - Identifie si le sentiment exprimé dans chacun des retours par le {cible} est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question ayant été posée ({question}) afin de bien interpréter le sens du retour {cible}.
N'oublie pas l'accent si tu choisis Négatif, il n'est pas correct d'écrire Negatif.
               
Étape 2 - Associe au retour les indices des éventuels insights qui y sont associés.
Un insight doit nécessairement être associé à au moins un retour. Un retour peut n'être associé à aucun insight.

Voici les retours à traiter:

'''
{feedbacks}
'''

Et les insights qui en ont été extrait:              
'''
{insights}
'''
      
Retourne les informations sur les retours dans l'ordre dans lequel je te les ai donnés.
Vérifie que l'ordre correspond bien.
""")

#Et les insights qui en ont été extrait:              
#'''
#{insights}
#'''
#Par exemple, pour les retours suivants:
#'''
#{exemple_commentaire}
#'''
#on voudrait faire remonter les points suivants:
#'''
#- {example_insights}
#'''
#Si le {cible} n'a rien à signaler ("ras", "tout est ok", "rien à signaler") crée un insight dédié

In [78]:
class Sentiment(str, enum.Enum):
    POSITIF = "Positif"
    NEUTRE = "Neutre"
    NEGATIF = "Négatif"


In [79]:
InsightsIndex = enum.Enum("Indice de l'insight associé", [(str(i), i) for i in range(BATCH_SIZE)])

class Feedback(BaseModel):
        insights_list: List[InsightsIndex] = Field(description="Indices des insights associés à ce retour")
        sentiment: Sentiment = Field(description="Sentiment exprimé")

class FeedbackInfosList(BaseModel):
        feedbacks_list: List[Feedback] = Field(description="Liste des informations associées aux feedbacks.")

In [80]:
prompts = []
for batch_insights_df, batch_feedbacks_df in zip(list_batch_insights_df, batchify(feedbacks_df, size=BATCH_SIZE)):
    #InsightsEnum = enum.Enum("Insight associé", [(convert_text_to_constants(x), i) for i, x in zip(batch_insights_df.index, batch_insights_df["content"])])

    context = deepcopy(feedback_context)
    #context["feedbacks"] = "- "+"\n- ".join(batch_feedbacks_df['content'])
    context["feedbacks"] = '\n'.join([str(i)+" : "+x for i, x in zip(batch_insights_df.index, batch_feedbacks_df["content"])])  
    context["insights"] = '\n'.join([str(i)+" : "+x for i, x in zip(batch_insights_df.index, batch_insights_df["contenu"])])
    prompts.append(prompt_feedback.invoke(context))



In [81]:
print(prompts[0].text)


Tu es product owner au sein de l'entreprise suivante:
Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).

Tu as mené une enquête auprès des client de l'entreprise. 
Tu as récupérés des commentaires, et en a extrait des insights.
               
Pour chacun des retours qui te seront donnés, effectue les étapes suivantes:

Étape 1 - Identifie si le sentiment exprimé dans chacun des retours par le client est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question ayant été posée (Que recommanderiez-vous à Metro d'améliorer ?) afin de bien interpréter le sens du retour client.
N'oublie pas l'accent si tu choisis Négatif, il n'est pas correct d'écrire Negatif.
               
Étape 2 - Associe au retour les indices des éventuels insights qui y sont associés.
Un insight doit nécessairement être associé à au 

In [82]:

responses = apply_async_analysis(prompts, FeedbackInfosList)

list_enriched_feedbacks_df = [pd.DataFrame(enum_to_str(response.feedbacks_list)) for response in responses]

/var/folders/bs/0f5dcrc501sf9wtpqltg62940000gn/T/ipykernel_68618/2334417953.py:11: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/
  return enum_to_str(e.dict())


In [83]:
[len(df) for df in list_enriched_feedbacks_df]

[9, 5]

In [84]:
len(pd.concat(list_enriched_feedbacks_df))

14

In [85]:
for batch_insights_df, batch_index_feedbacks, enriched_feedbacks_df in zip(list_batch_insights_df, batchify(feedbacks_df.index, size=BATCH_SIZE), list_enriched_feedbacks_df):
    feedbacks_df.loc[batch_index_feedbacks, 'sentiment'] = enriched_feedbacks_df['sentiment']
    feedbacks_df.loc[batch_index_feedbacks, 'insights_index'] = enriched_feedbacks_df['insights_list']

In [87]:
batch_insights_df

Unnamed: 0,insight_categories,insight_type,contenu
0,[Politique de prix],Point de douleur,"Les prix de certains produits (bananes, frambo..."
1,[Qualité des produits],Point de douleur,"La qualité et la fraîcheur des produits, notam..."
2,[Expérience d'achat],Point de douleur,Le nouveau directeur de Metro Caen est perçu c...
3,"[Disponibilité des produits, Livraison]",Point de douleur,La réduction de l'assortiment disponible à la ...
4,[Politique de prix],Point de douleur,Les promotions sont jugées insuffisantes pour ...
5,[],Nouvelle demande,Mise en place de points de fidélité suggérée.


In [88]:
list_batch_feedbacks_df = [pd.DataFrame(enum_to_str(response.feedbacks_list)) for response in responses]
list_batch_feedbacks_df

/var/folders/bs/0f5dcrc501sf9wtpqltg62940000gn/T/ipykernel_68618/2334417953.py:11: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/
  return enum_to_str(e.dict())


[  insights_list sentiment
 0            []   Positif
 1           [0]   Négatif
 2           [1]   Négatif
 3           [2]   Positif
 4           [3]   Négatif
 5           [4]   Négatif
 6           [5]   Négatif
 7           [6]   Négatif
 8           [7]   Négatif,
   insights_list sentiment
 0           [4]   Négatif
 1           [5]   Positif
 2           [3]   Négatif
 3        [0, 1]   Négatif
 4           [2]   Négatif]

In [98]:
feedbacks_df

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id,insights_index
0,2024-01-31 15:19:21.203000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,95,"[1706714349371x275598239568271680, 17067143467...",1705851599759x115801332943705310,[]
1,2024-01-31 15:19:21.577000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[1706714348320x182894283191188160, 17067143465...",1705851599759x118530353766926000,[0]
2,2024-01-31 15:19:21.952000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,"[1706714348689x648871534716904700, 17067143464...",1705851599759x119429130200745520,[1]
3,2024-01-25 13:15:45.483000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,63,[],1705851599759x120869695273613470,[2]
4,2024-01-31 15:19:22.739000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,"[1706714349210x970420167460772200, 17067143468...",1705851599759x123910318505263460,[3]
5,2024-01-31 15:19:23.357000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Je ne comprends pas comment un grossiste comme...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,240,"[1706714348317x477146000760127360, 17067143465...",1705851599759x133516960359271180,[4]
6,2024-01-31 15:19:23.807000+00:00,2024-01-21 15:40:00.210000+00:00,1705847494855x437900943146650500,Nous regrettons que Métro ne propose plus d'en...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,237,"[1706714349391x414238817914070600, 17067143467...",1705851599759x139047234470437000,[5]
7,2024-01-31 15:19:24.126000+00:00,2024-01-21 15:40:00.024000+00:00,1705847494855x437900943146650500,metro devrai mieux s'occuper des client sutout...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,179,"[1706714349750x607338702255573100, 17067143464...",1705851599759x147056969853707870,[6]
8,2024-01-31 15:19:24.532000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,Les prix sont trop élevés même avec le système...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,221,"[1706714348627x226373109662698180, 17067143465...",1705851599759x147526339935997200,[7]
9,2024-01-31 15:19:24.997000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,livraison a revoir et les avoirs tpujours enat...,1705585399217x205117684451615600,,False,1705851599107x404539534708310000,51,"[1706714349730x279883762960940960, 17067143465...",1705851599759x160186801121862100,


In [89]:
list_batch_feedbacks_df[0]

Unnamed: 0,insights_list,sentiment
0,[],Positif
1,[0],Négatif
2,[1],Négatif
3,[2],Positif
4,[3],Négatif
5,[4],Négatif
6,[5],Négatif
7,[6],Négatif
8,[7],Négatif


In [90]:
list_batch_insights_df[-1]

Unnamed: 0,insight_categories,insight_type,contenu
0,[Politique de prix],Point de douleur,"Les prix de certains produits (bananes, frambo..."
1,[Qualité des produits],Point de douleur,"La qualité et la fraîcheur des produits, notam..."
2,[Expérience d'achat],Point de douleur,Le nouveau directeur de Metro Caen est perçu c...
3,"[Disponibilité des produits, Livraison]",Point de douleur,La réduction de l'assortiment disponible à la ...
4,[Politique de prix],Point de douleur,Les promotions sont jugées insuffisantes pour ...
5,[],Nouvelle demande,Mise en place de points de fidélité suggérée.


In [91]:
[x for x in batchify(feedbacks_df, size=BATCH_SIZE)][-1]

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id,insights_index
10,2024-01-31 15:19:25.367000+00:00,2024-01-21 15:40:00.113000+00:00,1705847494855x437900943146650500,pas assez de promos pour petite quantité achet...,1705585399217x205117684451615600,,False,1705851599107x404539534708310000,67,"[1706714349262x615989589241161500, 17067143465...",1705851599759x161751993329532380,
11,2024-01-31 15:19:25.696000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,mettre en place des points fidélités en,1705585399217x205117684451615600,,False,1705851599107x404539534708310000,39,"[1706714348932x434155294366872260, 17067143464...",1705851599759x162340632957431520,
12,2024-01-31 15:19:26.001000+00:00,2024-01-21 15:39:59.886000+00:00,1705847494855x437900943146650500,il serait souhaitable de remettre de l assorti...,1705585399217x205117684451615600,,False,1705851599107x404539534708310000,272,"[1706714347762x482499971709037250, 17067143469...",1705851599759x170076823432107940,
13,2024-01-31 15:19:26.402000+00:00,2024-01-21 15:40:00.210000+00:00,1705847494855x437900943146650500,Produits pas très réguliers en qualité et en f...,1705585399217x205117684451615600,,False,1705851599107x404539534708310000,246,"[1706714348627x226373109662698180, 17067143465...",1705851599759x175471476046099360,
14,2024-01-31 15:19:26.738000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,que le nouveau directeur de metro caen apprenn...,1705585399217x205117684451615600,,False,1705851599107x404539534708310000,67,"[1706714348645x391695391069547500, 17067143465...",1705851599759x188863221495132220,


In [106]:
[len(df) for df in list_batch_feedbacks_df]

[9, 5]

In [99]:

l = [response.feedbacks_list for response in responses]
l = list(itertools.chain.from_iterable(l))
feedbacks_infos_df = pd.DataFrame(enum_to_str(l))
feedbacks_infos_df

/var/folders/bs/0f5dcrc501sf9wtpqltg62940000gn/T/ipykernel_68618/2334417953.py:11: PydanticDeprecatedSince20: The `dict` method is deprecated; use `model_dump` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.5/migration/
  return enum_to_str(e.dict())


Unnamed: 0,insights_list,sentiment
0,[],Positif
1,[0],Négatif
2,[1],Négatif
3,[2],Positif
4,[3],Négatif
5,[4],Négatif
6,[5],Négatif
7,[6],Négatif
8,[7],Négatif
9,[4],Négatif


In [97]:
feedbacks_infos_df

Unnamed: 0,insights_list,sentiment
0,[],Positif
1,[0],Négatif
2,[1],Négatif
3,[2],Positif
4,[3],Négatif
5,[4],Négatif
6,[5],Négatif
7,[6],Négatif
8,[7],Négatif
9,[4],Négatif


In [102]:
feedbacks_infos_df

Unnamed: 0,insights_list,sentiment
0,[],Positif
1,[0],Négatif
2,[1],Négatif
3,[2],Positif
4,[3],Négatif
5,[4],Négatif
6,[5],Négatif
7,[6],Négatif
8,[7],Négatif
9,[4],Négatif


In [103]:
feedbacks_df['sentiment'] = feedbacks_infos_df['sentiment']
feedbacks_df['insights_list'] = feedbacks_infos_df['insights_list']
feedbacks_df

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id,insights_index,insights_list
0,2024-01-31 15:19:21.203000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,95,"[1706714349371x275598239568271680, 17067143467...",1705851599759x115801332943705310,[],[]
1,2024-01-31 15:19:21.577000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[1706714348320x182894283191188160, 17067143465...",1705851599759x118530353766926000,[0],[0]
2,2024-01-31 15:19:21.952000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,"[1706714348689x648871534716904700, 17067143464...",1705851599759x119429130200745520,[1],[1]
3,2024-01-25 13:15:45.483000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,63,[],1705851599759x120869695273613470,[2],[2]
4,2024-01-31 15:19:22.739000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,"[1706714349210x970420167460772200, 17067143468...",1705851599759x123910318505263460,[3],[3]
5,2024-01-31 15:19:23.357000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Je ne comprends pas comment un grossiste comme...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,240,"[1706714348317x477146000760127360, 17067143465...",1705851599759x133516960359271180,[4],[4]
6,2024-01-31 15:19:23.807000+00:00,2024-01-21 15:40:00.210000+00:00,1705847494855x437900943146650500,Nous regrettons que Métro ne propose plus d'en...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,237,"[1706714349391x414238817914070600, 17067143467...",1705851599759x139047234470437000,[5],[5]
7,2024-01-31 15:19:24.126000+00:00,2024-01-21 15:40:00.024000+00:00,1705847494855x437900943146650500,metro devrai mieux s'occuper des client sutout...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,179,"[1706714349750x607338702255573100, 17067143464...",1705851599759x147056969853707870,[6],[6]
8,2024-01-31 15:19:24.532000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,Les prix sont trop élevés même avec le système...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,221,"[1706714348627x226373109662698180, 17067143465...",1705851599759x147526339935997200,[7],[7]
9,2024-01-31 15:19:24.997000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,livraison a revoir et les avoirs tpujours enat...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,51,"[1706714349730x279883762960940960, 17067143465...",1705851599759x160186801121862100,,[4]


In [94]:
#print("- "+"\n- ".join(insights_df["content"]))


KeyError: 'content'

## Feedbacks attribution

In [None]:
insights_enum = enum.Enum("Insight associé", [(convert_text_to_constants(x), i) for i, x in zip(batch_insights_df.index, batch_insights_df["content"])])

In [153]:
!ls

[34mBlumana-prompts[m[m   [34mScrapping[m[m         ollama.ipynb      test.py
[34mData[m[m              [34m__pycache__[m[m       pipeline_v1.ipynb [34mtests[m[m
[34mExamples[m[m          [34marchives[m[m          pipeline_v2.ipynb token.json
LICENSE           config.tml        pyproject.toml
README.md         credentials.json  requirements.txt
[34mResults[m[m           data_explo.ipynb  [34msrc[m[m


In [157]:
with open('Blumana-prompts/prompt_feedbacks.txt') as f:
    prompt_feedbacks = PromptTemplate.from_template(f.read())

input_variables=['cible', 'context', 'feedbacks', 'insights', 'question', 'role'] template='Tu es {role} au sein de l\'entreprise suivante:\n{context}\n\nTu as mené une enquête auprès des {cible} de l\'entreprise. \nTu as récupérés des commentaires, et en a extrait des insights.\n               \nPour chacun des retours qui te seront donnés, effectue les étapes suivantes:\n\nÉtape 1 - Identifie si le sentiment exprimé dans chacun des retours par le {cible} est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question ayant été posée ({question}) afin de bien interpréter le sens du retour {cible}.\nN\'oublie pas l\'accent si tu choisis Négatif, il n\'est pas correct d\'écrire Negatif.\n               \nÉtape 2 - Associe au retour les indices des éventuels insights qui y sont associés.\nUn insight doit nécessairement être associé à au moins un retour. Un retour peut n\'être associé à aucun insight.\n\nVoici les retours à traiter:\n\n\'\'\'\n{feedbacks}\n\'\'\'\n\nE

In [None]:
feedback_parser = PydanticOutputParser(pydantic_object=Feedback)

prompt_feedback = PromptTemplate.from_template(
    template= prompt_template_feedback,
    partial_variables= {"format_instructions": feedback_parser.get_format_instructions()},
)

prompts = []
for feedback in feedbacks_df[feedbacks_column]:
    context = deepcopy(feedback_context)
    context["feedback"] = feedback
    prompts.append(prompt_feedback.invoke(context))

#print(prompts[0].text)

In [None]:
parsed_responses = safe_async_analysis(prompts, feedback_parser)

feedbacks_df["sentiment"] = [rep.sentiment for rep in parsed_responses]
feedbacks_df["insights"] = [[] for rep in parsed_responses]

k=0
insights = []
for i, rep in enumerate(parsed_responses):
    for j, insight in enumerate(rep.insights_list):
        insights.append(insight)
        feedbacks_df["insights"].iloc[i].append(str(k))
        k += 1

In [None]:
feedbacks_df.head()

In [None]:
insights_df = pd.DataFrame({
    "content":insights,
    "feedback_count": 1,
    })

In [None]:
feedbacks_df

In [None]:
insights_df["related_feedback"] = [[] for _ in range(len(insights_df))]

for i, row in feedbacks_df.iterrows():
    for j in row["insights"]:
        insights_df["related_feedback"].iloc[int(j)] = row['_id'] #[int(i)]

insights_df["childrens"] = [[] for _ in range(len(insights_df))]

insights_df.head()

# Insights categorisation

### Tagging

In [None]:


for i, filter in filters_df.iterrows():
    prompt_tags += '\n\n'+filter["Name"]#+' ('+filter["_id"] +')'
    tags = tags_df[tags_df["Filter"] == filter["_id"]]
    for _, tag in tags.iterrows():
        prompt_tags += '\n'+"- "+tag["Name"]+' ('+tag["_id"] +')'

print(prompt_tags)


In [None]:
with open('Blumana-prompts/prompt_categorsiation.txt') as f:
    prompt_categorsiation = PromptTemplate.from_template(f.read())

In [None]:
class FirstInsight(BaseModel):
    tags_id: List[str] = Field(description="Identifiants des tags de l'insight")
    content: str = "" #Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nTypes: " + ', '.join(self.insight_types)

In [None]:
categorsiation_parser = PydanticOutputParser(pydantic_object=FirstInsight)

prompt_categorsiation = PromptTemplate.from_template(
    template= prompt_template_categorsiation,
    partial_variables= {"format_instructions": categorsiation_parser.get_format_instructions()},
)

prompts = []
for insight in insights_df["content"]:
    context = deepcopy(feedback_context)
    context["insight"] = insight
    prompts.append(prompt_categorsiation.invoke(context))

#print(prompts[0].text)

In [None]:
parsed_responses = safe_async_analysis(prompts, categorsiation_parser)


In [None]:

insights_df["tag"] = [rep.tags_id for rep in parsed_responses]
#insights_df["Insights"] = [[] for rep in parsed_responses]


### Types affectation

In [None]:
prompt_types = ""

for _, tag in types_df.iterrows():
    prompt_types += '\n'+"- "+tag["Title"]+' ('+tag["_id"] +') : ' + tag["Definition"]

print(prompt_types)

In [None]:
categorsiation_parser = PydanticOutputParser(pydantic_object=FirstInsight)

prompt_categorsiation = PromptTemplate.from_template(
    template= prompt_template_types,
    partial_variables= {"format_instructions": categorsiation_parser.get_format_instructions()},
)

prompts = []
for insight in insights_df["content"]:
    context = deepcopy(feedback_context)
    context["insight"] = insight
    prompts.append(prompt_categorsiation.invoke(context))

#print(prompts[0].text)

In [None]:
parsed_responses = safe_async_analysis(prompts, categorsiation_parser)


In [None]:
insights_df["type"] = [rep.insight_type for rep in parsed_responses]

In [None]:
feedbacks_df.to_csv(project_path+'/feedbacks.csv', index_label='Index')
insights_df.to_csv(project_path+'/insights.csv', index_label='Index')

# Insights clustering

In [None]:
feedbacks_df = str_to_list_df(pd.read_csv(project_path+'/feedbacks.csv', index_col='Index'))
insights_df = str_to_list_df(pd.read_csv(project_path+'/insights.csv', index_col='Index'))

In [None]:
embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')

In [None]:
class DeducedInsight(BaseModel):
    insights_mineurs: List[int] = Field(description="Index des insights mineurs qui ont été résumés en cet insight.")
    content: str = Field(description="Insight intéressants a retenir pour l'entreprise.")

    def __str__(self):
        return '- ' + self.content + '\n Enfants:' + str(self.insights_mineurs)


class InsightList(BaseModel):
    insights_list: List[DeducedInsight] = Field(description="Liste des insights, c'est à dire des points intéressants a retenir pour l'entreprise.")
    # You can add custom validation logic easily with Pydantic.

    def __str__(self):
        return "Insights: \n"+"\n\n".join([str(i) for i in self.insights_list])



In [None]:
with open('Blumana-prompts/prompt_regroupement.txt') as f:
    prompt_regroupement = PromptTemplate.from_template(f.read())

In [None]:
# Dimension reduction

N_NEIGHBORS = 15
MINIMISATION_STEPS = 5
CLUSTER_DESIRED_SIZE = 15  # For Kmeans only
MIN_CLUSTER_SIZE = 5  # 15
NB_INSIGHT_STOP = 20
MINIMAL_REDUCTION_RATIO = 0.1
REWORDING = True

CLUSTERING_DIMENTION = 50
CLUSTERING_METHOD = "KMeans"

insight_context = {
    "cible": cible,
    "context": context_entreprise,
    "example_insight": example_insight,
    "role": role,
    "question": question,
}

In [None]:
from sklearn.cluster import AgglomerativeClustering

In [None]:
insight_parser = PydanticOutputParser(pydantic_object=InsightList)

prompt_reduction = PromptTemplate.from_template(
    template= prompt_template_reduction if REWORDING else prompt_template_reduction_sans_reformulation,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)

prompt_regrouping = PromptTemplate.from_template(
    template= prompt_template_regrouping,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)

insights = deepcopy(insights_df)
insight_layers = []#[deepcopy(insights_df)]
single_cluster = False
reduction = 1.0

for step in range(MINIMISATION_STEPS):

    #for processing_step in ["reduction"]:#, "regrouping"]:
        ### Création des représentations

    #print("Processing step:", processing_step)
    if CUSTOM_ENBEDDING_MODEL:
        sentence_embeddings = embedding_model.encode(insights['content'])

        # On réduit la dimention pour améliorer l'efficacité de la clusterisation
        adjusted_clustering_dimention = min(CLUSTERING_DIMENTION, len(insights)//3)
        umap_embeddings = umap.UMAP(n_neighbors=N_NEIGHBORS, 
                            n_components=adjusted_clustering_dimention, 
                            metric='cosine').fit_transform(sentence_embeddings)

    else:
        sentence_embeddings = apply_async_get_embedding(insights['content'])
    

    

    ### Clusterisation
    if CLUSTERING_METHOD == "KMeans":
        num_clusters = 1 + len(insights) // CLUSTER_DESIRED_SIZE
        clustering_model = KMeans(n_clusters=num_clusters, n_init='auto')
    elif CLUSTERING_METHOD == "hdbscan":
        clustering_model = hdbscan.HDBSCAN(min_cluster_size=MIN_CLUSTER_SIZE,
                            metric='euclidean',                      
                            cluster_selection_method='eom' #leaf
                            )
        
    clustering_model.fit(umap_embeddings)

    #clustering_model.fit(umap_embeddings)
    cluster_assignment = clustering_model.labels_ 
    cluster_assignment -= min(cluster_assignment) # has to start at 0
    
    num_clusters = max(cluster_assignment)+1

    insights["cluster"] = deepcopy(cluster_assignment)
    insights = insights.sort_values("cluster")
    insights.reset_index(drop=True, inplace=True)


    if reduction <= MINIMAL_REDUCTION_RATIO:
        print("Stopping because of unsufficient reduction")
        break

    insight_layers.append(deepcopy(insights))

    if len(insights) <= NB_INSIGHT_STOP:
        print("Minimal number of insights reached")
        break

    if single_cluster:
        break   

    cluter_sizes = list(insights.groupby(['cluster']).count()["content"])
    if len(cluter_sizes) == 1:
        print("Stopping because single cluster")
        single_cluster = False
        break

    print("Step "+ str(step)+ ": processing "+ str(num_clusters) + " clusters")
    print("Adjusted clustering dimention:", adjusted_clustering_dimention)
    print("Cluster sizes:" + str(cluter_sizes))

    #clusters = []
    prompts = []
    cumul_size = 0
    for cluster_id in range(num_clusters): # IL FAUDRAIT GARDER INDEM LE DERNIER CLUSTER
        cluster = insights[insights['cluster'] == cluster_id]
        #cluster_name ='/cluster_'+ str(cluster_id)+"_step_"+str(step) +'.csv'
        #cluster.to_csv( project_path+cluster_name, index_label='Index')
        #clusters.append(cluster)

        context = deepcopy(insight_context)
        context['insights'] = '\n'.join([str(i+cumul_size)+": "+s for i, s in enumerate(cluster["content"])])
        #print(context['insights'])

        #if processing_step == "reduction":
        prompt=prompt_reduction.invoke(context)
        #elif processing_step == "regrouping":
        #prompt=prompt_regrouping.invoke(context)
        #else:
        #    raise("Wrong processing step")
        prompts.append(prompt)
        cumul_size += len(cluster)

    ### Traitement des clusters
    parsed_responses = safe_async_analysis(prompts, insight_parser)
    
    new_insights = []
    for i, parsed_response in enumerate(parsed_responses):
        content_list = [insight.content for insight in parsed_response.insights_list]
        childrens_list = [list(insight.insights_mineurs) for insight in parsed_response.insights_list]
        feedback_count_list = [sum(insights.loc[c, "feedback_count"]) for c in childrens_list]
        dfs = pd.DataFrame({
            #"related_feedback":[list(itertools.chain.from_iterable(insights.iloc[insight.insights_mineurs]['related_feedback'])) for insight in parsed_response.insights_list],
            "content":content_list,
            "childrens":childrens_list,
            "type": most_common([insights.loc[c, "type"].iloc[0] for c in childrens_list]),
            #"cluster":i,
            "feedback_count":feedback_count_list,
            #"childrens":[list(clusters[i].iloc[insight.insights_mineurs]["_id"]) for insight in parsed_response.insights_list],
            })
        new_insights.append(dfs)

    new_insights = pd.concat(new_insights)
    new_insights.reset_index(drop=True, inplace=True)

    
    reduction = (1-(len(new_insights)/len(insights)))
    insights = new_insights
    
    print("Number of new insights:"+ str(len(new_insights)))
    print("Reduction in the number of insights by " + "%d" % int(reduction*100) + "%")
    print()

#insight_layers.append(deepcopy(new_insights))

In [None]:
insight_layers[0]

In [None]:
list(insight_layers[0]['content'])

In [None]:
list(insight_layers[-1]['content'])

In [None]:
for i, df in enumerate(insight_layers):
    df.to_csv(project_path+'/insights_'+ str(i) +'.csv', index_label='Index')

In [None]:
#list(insight_layers[0][insight_layers[0]["cluster"] == 2]["content"])

In [None]:
insight_layers[0]

In [None]:
insight_layers[1]

In [None]:
n_layers = len(insight_layers)
layers_sizes = [len(l) for l in insight_layers]
print("Layers sizes:", layers_sizes)

# Data cleaning

load insights from csv

In [None]:
insight_layers = []
for i in range(n_layers):
    df = pd.read_csv(project_path+'/insights_'+ str(i) +'.csv', index_col='Index')
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    #df['tag'] = df['tag'].apply(lambda x: eval(x))
    #df['type'] = df['type'].apply(lambda x: eval(x))
    #df['childrens'] = df['childrens'].apply(lambda x: eval(x))
    df["backend_type"] = df["type"].apply(deduce_backend_type)
    insight_layers.append(df)
#insights_df = pd.concat(insight_layers)

Previous insights supression

In [None]:
res = bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("project") == project_id,
            BubbleField("company") == company_id,
            ],
    )
python_insight_df = pd.DataFrame(res)

if len(python_insight_df)>0:
    for bubble_id in tqdm(python_insight_df["_id"]):
        bubble_client.delete_by_id(
            "python_insight",
            bubble_id,
        )

    print("Deleted", len(python_insight_df), "python_insight")
else:
    print("Nothing to delete")

Adding parents

In [None]:
insight_layers[0]["parent"] = None #[[] for _ in insight_layers[0].iterrows()]
insight_layers[-1]["parent"] = None


for i in range(n_layers-1):
    insight_layers[i]["parent"] = None
    for p, row in insight_layers[i+1].iterrows():
        for c in row["childrens"]: #eval(
            insight_layers[i]["parent"].iloc[int(c)] = p

In [None]:
insight_layers[-1]["parents"] = [[] for _ in insight_layers[-1].iterrows()]

for i in range(n_layers-2, -1, -1):
    print(i)
    # Update the parents in the DB
    res = bubble_client.create(
        "python_insight",
        [{
            "company": company_id,
            "project": project_id,
            "content": row["content"],
            "backend_status": "new",
            "feedback_count":row["feedback_count"],
            "step": i+2,
            "type": row["type"],
            "parents": row["parents"],
            "parent": str(row["parent"]),
            "backend_type": row['backend_type'],
            "childrens": eval(row["childrens"]) if type(row["childrens"])==str else row["childrens"],
            "cluster": row["cluster"],
        }  for _, row in insight_layers[i+1].iterrows()]
    )

    df = pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+2,
            BubbleField("company") == company_id,
            ],
    ))
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    insight_layers[i+1] = df

    # Initialize an empty list of parents for each row
    insight_layers[i]["parents"] = [[] for _ in insight_layers[i].iterrows()]

    for k, row in insight_layers[i].iterrows():
        if row["parent"] is not None:
            # Get the parent index
            parent_index = row["parent"]

            # Get the parent's list of parents
            parent_parents = insight_layers[i + 1]["parents"].iloc[parent_index]

            # Add the parent to the current row's list of parents
            parent_id = insight_layers[i + 1].loc[parent_index, '_id']
            insight_layers[i].loc[k, "parents"].append(parent_id)

            # Recursively add the parent's parents to the current row's list of parents
            insight_layers[i].loc[k, "parents"].extend(parent_parents)


res = bubble_client.create(
        "python_insight",
        [{
            "company": company_id,
            "project": project_id,
            "content": row["content"],
            "backend_status": "new",
            "feedback_count": row["feedback_count"],
            "step": 1,
            "related_feedback":row['related_feedback'],
            "tag": row["tag"],
            "type": row["type"],
            "backend_type": row['backend_type'],
            "parents": row["parents"],
            "parent": str(row["parent"]),
            "childrens": 0,#[[] for _ in insight_layers[0][:1000].iterrows()],
            "cluster": row["cluster"],
        }  for _, row in insight_layers[0].iterrows()]
    )

load insights from bubble

In [None]:
online_python_insights = [
    pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+1,
            BubbleField("company") == company_id,
            ],
    )) for i in range(n_layers)
]

In [None]:
assert [len(l) for l in insight_layers] == [len(l) for l in online_python_insights]

In [None]:
feedbacks_df

In [None]:
insight_layers[1]

In [None]:
df = insight_layers[0]

def get_all_parents(feedback_identifier):
    parents = []
    for i, row in df.loc[df['related_feedback'] == feedback_identifier].iterrows():
        for parent in row['parents']:
            parents.append(parent)
    return parents

feedbacks_df['parents'] = feedbacks_df['_id'].apply(get_all_parents)

feedbacks_df


In [None]:
for _, row in tqdm(feedbacks_df.iterrows()):
    res = bubble_client.update_object(
        "Feedbacks",
        row['_id'], 
        {
            "insights": row["parents"],
        } 
    )

In [None]:

res = bubble_client.get_objects(
        "Feedback",
        [
            BubbleField("source") == source_id,
            ],
    )
pd.DataFrame(res)

# Visualisation

In [None]:
insight_layers = [
    pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+1,
            BubbleField("company") == company_id,
            ],
    )) for i in range(n_layers)
]

In [None]:
insight_layers[0].tail()

In [None]:
sentences = insight_layers[0]["content"]
sentence_embeddings = embedding_model.encode(sentences)
sentence_embeddings.shape

In [None]:
insight_layers[0]['parent']

In [None]:
insight_layers[0]

In [None]:
def to_int(i):
    try:
        return int(i)
    except:
        return -1

for layer in insight_layers:
    layer['parent'] = layer['parent'].apply(to_int)


In [None]:
list(insight_layers[1]["content"])

In [None]:
for i, layer in enumerate(insight_layers):
    print(list(insight_layers[0][insight_layers[0]['parent'] == 'None']["content"]))

In [None]:
sum(insight_layers[0]['parent']<0)

In [None]:
insight_layers[1].iloc[insight_layers[0]['parent'], "content"]

In [None]:
insight_layers[0].loc[0, "cluster"] == 0

In [None]:
map_to_parent(0, insight_layers[1])

In [None]:
insight_layers[1].loc[0, 'parent']

In [None]:
#@Insight Plot the archive {display-mode: "form"}

# UMAP reduces the dimensions from 1024 to 2 dimensions that we can plot
reducer = umap.UMAP(n_neighbors=15)
umap_embeds = reducer.fit_transform(sentence_embeddings)

def map_to_parent(i, parents_df):
    try:
        return parents_df.loc[i, 'content']
    except:
        return ""
    
# Prepare the data to plot and interactive visualization
# using Altair
df_explore = pd.DataFrame(data={
    'content': insight_layers[0]['content'], 
    'parent': insight_layers[0]['parent'].apply(lambda x: map_to_parent(x, insight_layers[1])),
    'cluster': insight_layers[0]['cluster'].astype(str),
    })
df_explore['x'] = umap_embeds[:,0]
df_explore['y'] = umap_embeds[:,1]
df_explore


In [None]:

# Plot
chart = alt.Chart(df_explore).mark_circle(size=60).encode(
    x=#'x',
    alt.X('x',
        scale=alt.Scale(zero=False)
    ),
    y=
    alt.Y('y',
        scale=alt.Scale(zero=False)
    ),
    color='cluster',
    tooltip=['content', "parent"]
).properties(
    width=700,
    height=400
)
chart.interactive()

TF-IDF

In [None]:
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

nltk.download('punkt')

In [None]:
def td_idf(documents)
    vectorizer = TfidfVectorizer()
    vectors = vectorizer.fit_transform(documents)
    feature_names = vectorizer.get_feature_names_out()
    dense = vectors.todense()
    denselist = dense.tolist()
    df = pd.DataFrame(denselist, columns=feature_names)
    df = df[df.columns.difference(stopwords.words('french'))]


In [None]:
df = td_idf(feedbacks_df['content'])
#print('\n'.join(df.columns))

In [None]:
#print('\n'.join(df.columns))

In [None]:

def get_top_two_columns(row):
    top_two_indexes = row.nlargest(5).index.tolist()
    return top_two_indexes

top_two_columns_df = df.apply(get_top_two_columns, axis=1)

print(top_two_columns_df)

In [None]:
#print('\n'.join(insights_df['content']))