# Dependancies

## Requirements

In [1]:
#!pip install sentence_transformers langchain openai tqdm datasets asyncio scikit-learn cohere tiktoken umap altair

In [2]:
import numpy as np
import re
import pandas as pd
from tqdm.notebook import tqdm
from datasets import load_dataset
import umap
import altair as alt
from sklearn.metrics.pairwise import cosine_similarity
import warnings
from sentence_transformers import SentenceTransformer
import pprint
from typing import List

from langchain_community.llms import Ollama
from langchain.output_parsers.regex_dict import RegexDictParser
from langchain.output_parsers import PydanticOutputParser
from langchain_core.messages import HumanMessage, SystemMessage, ChatMessage
from langchain.prompts import ChatPromptTemplate, PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from openai import AsyncOpenAI
import asyncio
import os

import requests
import json
from bubble_api import Field as BubbleField
from bubble_api import BubbleClient

import itertools
from copy import copy
from tqdm.notebook import tqdm, trange
from sklearn.cluster import KMeans

import umap.umap_ as umap
#import umap
import hdbscan

import openai
openai.api_key = "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"


## Models

In [3]:
import os
os.environ["OPENAI_API_KEY"] = "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"

In [4]:
client = AsyncOpenAI()

embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')
GENERATION_ENGINE = "gpt-4-1106-preview"
EMBEDDING_ENGINE = "text-embedding-ada-002"

import nest_asyncio
nest_asyncio.apply()

In [5]:
async def get_analysis(prompt):
    response = await client.chat.completions.create(
        messages=[
            #{"role": "system", "content": "You are a helpful assistant designed to output JSON."},
            {"role": "user", "content": str(prompt)},
        ],
        response_format={ "type": "json_object" },
        model=GENERATION_ENGINE)
    return response.choices[0].message.content

def apply_async_analysis(prompts):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_analysis(prompt)) for prompt in prompts]
    return loop.run_until_complete(asyncio.gather(*tasks))


In [6]:
def safe_async_analysis(prompts, parser, max_steps=3):
    results = [None for _ in prompts]
    to_be_run = list(range(len(prompts)))
    step = 0
    while to_be_run != []:
        #print("step:", step)
        #print("to_be_run:", len(to_be_run))
        assert step < max_steps
        bugs = []
        
        responses = apply_async_analysis([prompts[i] for i in to_be_run])

        #print("prompt")
        #print(prompts[0].text)

        #print("reponse")
        #print(responses[0])
                
        for i in to_be_run:
            assert results[i] is None
            try:
                try:
                    parsed_response = parser.parse(responses[i])
                except:
                    parsed_response = parser.parse('{"properties":'+responses[i]+'}')
                    print("handled properties!")
                results[i] = parsed_response
            except:
                print("prompt")
                print(prompts[i].text)

                print("reponse")
                print(responses[i])

                print("others:")
                print(responses)

                parsed_response = parser.parse(responses[i])
                bugs.append(i)

        to_be_run = bugs
        step += 1
    assert None not in results
    return results
    

In [7]:
async def get_embedding(text):
    response = await client.embeddings.create(input=text, model=EMBEDDING_ENGINE)
    return response.data[0].embedding

def apply_async_get_embedding(dfi):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_embedding(row['Comment'])) for _, row in dfi.iterrows()]
    return loop.run_until_complete(asyncio.gather(*tasks))

## Data

In [8]:
PROJECT =  "Metro" #"Cheerz"
project_path = 'Results/'+PROJECT
os.makedirs(project_path, exist_ok=True)

In [9]:
try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')

    path = '/content/drive/MyDrive/Blumana Folder'
else:
    path = "/Users/gardille/development/BlueMana"

In [10]:
feedbacks_df = pd.read_csv(path+"/Data/Commentaires/metro.csv") #, index_col="Index")
#feedbacks_df = pd.read_csv("data/Trustpilot/cheerz_fr.csv", index_col="Index")
#feedbacks_df["Comment"] = feedbacks_df["Title"] + '\n' + feedbacks_df["content"]
feedbacks_column = 'Comment' #"Content"
feedbacks_df.head()

Unnamed: 0,Comment
0,"Trop de ruptures , de produits arrêtés du jour..."
1,Je n'ai pas grand chose à dire sur les prix pa...
2,"Metro augmente ses prix à vu deuil, pour la li..."
3,Rupture de produit tout type de produit \n ( s...
4,Gros soucis du côté stationnement pour les véh...


In [11]:
context_entreprise = "Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro)."
role = "product owner"
cible = "client"
question = "Que recommanderiez-vous à Metro d'améliorer ?"
example_insight = "Manque de clarté de l'affichage des prix en magasin"

exemple_commentaire = "je suis exclusif metro je n ai aucun representant j achetais jusqu a present tout metro par facilite mais je suis tres souvent décue par la reponse ha non on n en a pas cela arrive demain je pense que depuis le covid tout le monde ou presque s en fou!!!"

examples_insights_df = pd.DataFrame([
    {"Insights qui devraient en découler": "Déceptions face aux retard de livraison"},
    {"Insights qui devraient en découler": "Impression d'une baisse de qualité du service depuis le Covid"},
])

feedback_context = {
            "context": context_entreprise,
            "role": role,
            "cible": cible,
            "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"",
            "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
            "nb_cat": "2",
            "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
            "categories": "\"Recrutement\" , \"Service global\"",
            "question": question,
            "exemple_commentaire": exemple_commentaire,
            "example_insights": '\n- '.join(list(examples_insights_df['Insights qui devraient en découler'])),
        }

feedback_context

{'context': 'Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).',
 'role': 'product owner',
 'cible': 'client',
 'insight_type': '"Point positif", "Point de douleur", "Nouvelle demande"',
 'insight_definition': 'Point positif : élément apprécié, Point de douleur : élément problématique',
 'nb_cat': '2',
 'avancement_mission': '"Avant mission", "Mission en cours", "Fin de mission"',
 'categories': '"Recrutement" , "Service global"',
 'question': "Que recommanderiez-vous à Metro d'améliorer ?",
 'exemple_commentaire': 'je suis exclusif metro je n ai aucun representant j achetais jusqu a present tout metro par facilite mais je suis tres souvent décue par la reponse ha non on n en a pas cela arrive demain je pense que depuis le covid tout le monde ou presque s en fou!!!',
 'example_insights': "Déceptions face aux retard de livraiso

In [12]:
perfect_insights = ["Aimerait être livré par METRO",
"Assortiment livraison trop réduit",
"Attente d'avoir un commercial",
"Beaucoup de produits ont été supprimés",
"Bonne relation avec le personnel",
"Clients satisfaits, rien à signaler",
"DLC trop courtes",
"Halles mal rangées, mal organisées",
"Livraison non satisfaisante",
"METRO reste pratique, répond aux besoins des pros",
"Manque de communication sur promos, hausses de prix",
"Manque de produits de région, locaux ou bio",
"Manque de suivi de certains produits",
"Peu de petits conditionnements, pas adapté aux petites structures",
"Problème de relations, service insuffisant",
"Qualité insuffisante de certains produits",
"Satisfait d'avoir des prix bloqués pour la saison",
"Souvent des ruptures",
"Attente facilités de paiement",
"Attentes d'opérations de déstockage",
"Attentes sur A2PM : assortiment, prix de référence trop élevé",
"Attentes sur le système de fidélité",
"Augmentation sur mercuriale sans être prévenu",
"Les clients livrés ne voient pas les prix en halles",
"Les produits sont trop chers, augmentent trop",
"METRO est plus cher que les concurrents",
"METRO reste plus cher que les grandes surfaces",
"Manque de promos, stocks insuffisants",
"Prix livrés trop élevés",
"Prix élevés pour un groupe international",
"Problèmes d'affichage prix ou prix inexacts",
"Paramétrer la codification"]

## Bubble API

In [13]:
base_url = "https://blumana.app" #/version-test"
bubble_id = "04ca44f04c936081d8408b12c1ba67e2"

bubble_client = BubbleClient(
    base_url=base_url,
    api_token=bubble_id,
    bubble_version="test" #dev
)

In [14]:
object_data = bubble_client.get(
    "Feedback",
    bubble_id="1702244804875x106199148733386430",
)
object_data

{'Modified Date': '2024-01-19T20:24:47.104Z',
 'Created Date': '2023-12-10T21:46:44.915Z',
 'Created By': '1696884795142x680137194712071600',
 'content': 'continuez à respecter nos demandes',
 'company': '1696884561832x730324245490558300',
 'sentiment': 'Positif',
 'Analyzed?': True,
 'source': '1702244804258x371787369839591400',
 'project': ['1702244768977x171563511098638340'],
 'character_number': 34,
 '[DELETE]Tags1': [],
 '[DELETE]Tags2': [],
 '[DELETE]Tags3': [],
 '[DELETE]Tags4': [],
 '[DELETE]Tags5': [],
 '[DELETE]Add-Ons': ['1698433290120x936044292663509300'],
 'date': '2023-08-12T21:01:00.000Z',
 'insights': ['1705608477723x627780174355843100'],
 '_id': '1702244804875x106199148733386430'}

In [15]:
#Randstad
#company_id = "1696884561832x730324245490558300"
#source_id = "1702244804258x371787369839591400"

#Metro
#Source : Dataset test - METRO
#Projet : METRO
company_id = "1705585399217x205117684451615600"
source_id = "1705851599107x404539534708310000"
project_id = "1705851616871x644869783878893600"


In [173]:
#bubble_client.delete_all("Insight")

Feedbacks

In [16]:

res = bubble_client.get_objects(
        "Feedback",
        [
            BubbleField("source") == source_id,
            #Field("company") == company_id,
            ],
    )
feedbacks_df = pd.DataFrame(res)
feedbacks_df['Modified Date'] = pd.to_datetime(feedbacks_df['Modified Date'])
feedbacks_df['Created Date'] = pd.to_datetime(feedbacks_df['Created Date'])
#feedbacks_df.set_index('_id', inplace=True)
feedbacks_column = 'Content' #"content"

feedbacks_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,content,company,Analyzed?,source,character_number,_id
0,2024-01-21 15:40:00.699000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,False,1705851599107x404539534708310000,95,1705851599759x115801332943705310
1,2024-01-21 15:40:00.386000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,False,1705851599107x404539534708310000,486,1705851599759x118530353766926000
2,2024-01-21 15:40:00.500000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,False,1705851599107x404539534708310000,66,1705851599759x119429130200745520
3,2024-01-21 15:40:00.681000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,False,1705851599107x404539534708310000,63,1705851599759x120869695273613470
4,2024-01-21 15:40:00.386000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,False,1705851599107x404539534708310000,78,1705851599759x123910318505263460


In [17]:
feedbacks_df.columns = ['Modified Date', 'Created Date', 'Created By', 'Content', 'company',
       'Analyzed?', 'source', 'character_number', '_id']

Types

In [18]:
res = bubble_client.get_objects(
        "Add-On",
    )
types_df = pd.DataFrame(res)
types_df['Modified Date'] = pd.to_datetime(types_df['Modified Date'])
types_df['Created Date'] = pd.to_datetime(types_df['Created Date'])
types_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,Title,Definition,_id
0,2023-11-29 20:08:33.257000+00:00,2023-10-27 19:01:30.120000+00:00,admin_user_sifter-63385_test,Point positif,Élément apprécié par le client ou l'utilisateur,1698433290120x936044292663509300
1,2023-11-29 20:08:18.542000+00:00,2023-10-27 19:01:40.253000+00:00,admin_user_sifter-63385_test,Point de douleur,Problème qui gène ou ennuie le client ou l'uti...,1698433300252x835626794232717300
2,2023-11-29 20:07:58.192000+00:00,2023-10-27 19:01:54.230000+00:00,admin_user_sifter-63385_test,Nouvelle demande,Suggestion d'évolution faite par le client ou ...,1698433314230x619003097145126100
3,2023-10-27 19:04:56.574000+00:00,2023-10-27 19:02:03.222000+00:00,admin_user_sifter-63385_test,Bug,Anomalie de fonctionnement de l'application dé...,1698433323222x402426615286320700


Tags

In [19]:
res = bubble_client.get_objects(
        "Tag",
        [
            BubbleField("company") == company_id,
            ],
    )
tags_df = pd.DataFrame(res)
tags_df['Modified Date'] = pd.to_datetime(tags_df['Modified Date'])
tags_df['Created Date'] = pd.to_datetime(tags_df['Created Date'])
tags_df.head()

Unnamed: 0,Created Date,Created By,Modified Date,Description,Name,Company,Projects,Filter,_id
0,2024-01-21 14:40:54.587000+00:00,admin_user_sifter-63385_test,2024-01-21 14:40:54.589000+00:00,Concerne les retours liés à un achat effectué ...,Magasin,1705585399217x205117684451615600,[],1705847852729x742507764532722400,1705848054587x622458924372477600
1,2024-01-21 14:41:22.881000+00:00,admin_user_sifter-63385_test,2024-01-21 14:42:43.769000+00:00,Concerne les retours liés à un achat effectué ...,Livraison,1705585399217x205117684451615600,[],1705847852729x742507764532722400,1705848082881x454792214332598400
2,2024-01-21 14:41:58.874000+00:00,admin_user_sifter-63385_test,2024-01-21 14:42:32.586000+00:00,Cette catégorie inclut les avis relatifs à la ...,Disponibilité des produits,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848118874x455206967781607300
3,2024-01-21 14:43:43.473000+00:00,admin_user_sifter-63385_test,2024-01-21 14:43:43.474000+00:00,Catégorie regroupant les avis concernant les p...,Politique de prix,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848223473x225401328908415580
4,2024-01-21 14:44:10.225000+00:00,admin_user_sifter-63385_test,2024-01-21 14:44:10.226000+00:00,"Avis portant sur la qualité, la fraîcheur ou l...",Qualité des produits,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848250225x478538894601366000


Filters

In [20]:
res = bubble_client.get_objects(
        "Filter",
        [
            BubbleField("company") == company_id,
            ],
    )
filters_df = pd.DataFrame(res)
filters_df

Unnamed: 0,Modified Date,Created Date,Created By,Company,Name,Projects,_id
0,2024-01-21T14:45:54.235Z,2024-01-21T14:37:18.457Z,admin_user_sifter-63385_test,1705585399217x205117684451615600,Thématiques,[],1705847838457x608321687289097300
1,2024-01-21T14:37:32.730Z,2024-01-21T14:37:32.729Z,admin_user_sifter-63385_test,1705585399217x205117684451615600,Mode d'achat,[],1705847852729x742507764532722400


## Useful functions

In [21]:
def batchify(iterable, size=1):
    l = len(iterable)
    for ndx in range(0, l, size):
        yield iterable[ndx:min(ndx + size, l)]

for x in batchify(list(range(0, 10)), 3):
    print(x)

[0, 1, 2]
[3, 4, 5]
[6, 7, 8]
[9]


# Feedbacks extraction

In [22]:
class Feedback(BaseModel):
    insights_list: List[str] = Field(description="Contenu et type des insights")
    content = ""
    sentiment: str = Field(description="Sentiment exprimé, peut être 'Positif', 'Neutre' ou 'Négatif'. Ne pas oublier les majuscules et accentuations.")
    # You can add custom validation logic easily with Pydantic.
    @validator("sentiment")
    def valid_sentiment(cls, field):
        if field not in ["Positif", "Neutre", "Négatif"]:
            raise ValueError("Sentiment "+field+" not valid.")
        return field

    def __str__(self):
        return "Commentaire: \""+ self.content+"\"\n\nSentiment: "+self.sentiment+"\n\nInsights: \n"+"\n\n".join([str(i) for i in self.insights_list])




In [23]:

prompt_template_feedback = """Tu es {role} au sein de l'entreprise suivante:
{context}

Tu as mené une enquête auprès de tes {cible}. 

Pour le retour qui te sera donné, effectue les étapes suivantes:

Étape 1 - Identifie si le sentiment exprimé par le {cible} est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question ayant été posée ({question}) afin de bien interpréter le sens du retour {cible}.
Attention à ne pas oublier l'accent si tu choisis Négatif.

Étape 2 - Identifie les insights à faire remonter à ton équipe dans le retour {cible}. Synthétise ces nouveaux insights en quelques mots qu'une personne de ton équipe puisse comprendre. Tu ne dois pas intégrer de nom, de prénom, d'email ou de numéro de téléphone dans ta formulation, même si le feedback évoque une donnée personnelle. Si aucun insight intéressant, renvoie une liste vide.

Par exemple, pour le retour suivant:
'''
{exemple_commentaire}
'''
on voudrait faire remonter les points suivants:
'''
- {example_insights}
'''

Si le commentaire n'est pas très intéressant, ne remonte aucun insight.

Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Voici le retour à traiter:
"{feedback}"
"""

#Si le {cible} n'a rien à signaler ("ras", "tout est ok", "rien à signaler") crée un insight dédié

In [24]:
feedback_parser = PydanticOutputParser(pydantic_object=Feedback)

prompt_feedback = PromptTemplate.from_template(
    template= prompt_template_feedback,
    partial_variables= {"format_instructions": feedback_parser.get_format_instructions()},
)

prompts = []
for feedback in feedbacks_df[feedbacks_column]:
    context = copy(feedback_context)
    context["feedback"] = feedback
    prompts.append(prompt_feedback.invoke(context))

#print(prompts[0].text)

In [25]:
parsed_responses = safe_async_analysis(prompts, feedback_parser)

feedbacks_df["Sentiment"] = [rep.sentiment for rep in parsed_responses]
feedbacks_df["Insights"] = [[] for rep in parsed_responses]

k=0
insights = []
for i, rep in enumerate(parsed_responses):
    for j, insight in enumerate(rep.insights_list):
        insights.append(insight)
        feedbacks_df["Insights"].iloc[i].append(str(k))
        k += 1

In [26]:
feedbacks_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,Content,company,Analyzed?,source,character_number,_id,Sentiment,Insights
0,2024-01-21 15:40:00.699000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,False,1705851599107x404539534708310000,95,1705851599759x115801332943705310,Positif,"[0, 1]"
1,2024-01-21 15:40:00.386000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,False,1705851599107x404539534708310000,486,1705851599759x118530353766926000,Négatif,"[2, 3, 4]"
2,2024-01-21 15:40:00.500000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,False,1705851599107x404539534708310000,66,1705851599759x119429130200745520,Négatif,[5]
3,2024-01-21 15:40:00.681000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,False,1705851599107x404539534708310000,63,1705851599759x120869695273613470,Positif,[]
4,2024-01-21 15:40:00.386000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,False,1705851599107x404539534708310000,78,1705851599759x123910318505263460,Négatif,[6]


In [27]:
insights_df = pd.DataFrame({"Content":insights})

In [28]:
insights_df["Related feedbacks"] = [[] for _ in range(len(insights_df))]

for bubble_id, row in feedbacks_df.iterrows():
    for j in row["Insights"]:
        insights_df["Related feedbacks"].iloc[int(j)] = bubble_id #[int(i)]

insights_df["Childrens"] = [[] for _ in range(len(insights_df))]

insights_df.head()

Unnamed: 0,Content,Related feedbacks,Childrens
0,Demande de livraison pour l'ensemble des produ...,0,[]
1,Option d'achat de bouteilles d'alcool à l'unité,0,[]
2,Insuffisance de l'offre en ligne,1,[]
3,Nécessité de comparer les prix en ligne avec c...,1,[]
4,"Manque de transparence des coûts, surtout pour...",1,[]


# Insights categorisation

### Tagging

In [29]:
prompt_tags = ""

for i, filter in filters_df.iterrows():
    prompt_tags += '\n\n'+filter["Name"]#+' ('+filter["_id"] +')'
    tags = tags_df[tags_df["Filter"] == filter["_id"]]
    for _, tag in tags.iterrows():
        prompt_tags += '\n'+"- "+tag["Name"]+' ('+tag["_id"] +')'

print(prompt_tags)




Thématiques
- Disponibilité des produits (1705848118874x455206967781607300)
- Politique de prix (1705848223473x225401328908415580)
- Qualité des produits (1705848250225x478538894601366000)
- Expérience d'achat (1705848274056x125824383936905310)
- Service client (1705848302697x426707208945675400)

Mode d'achat
- Magasin (1705848054587x622458924372477600)
- Livraison (1705848082881x454792214332598400)


In [30]:

prompt_template_categorsiation = """Tu es {role} au sein de l'entreprise suivante :
{context}

Tu as mené une enquête auprès de tes {cible}. 

Tu dois associer à l'insight donné plus loin aucun, l'identifiant d'un ou plusieurs tags. S'il n'est pas possible d'associer un tag avec certitude dans l'une des catégories, laisse la liste vide. Répond avec la liste des identifiants suités entre parenthèse juste après les tags.
Par exemple, pour les tags suivants, le tag C d'identifiant 567x8 appartient catégorie 2:
'''
catégotie 1 
- tag A (234x5)
- tag B (345x6)

catégotie 2 
- tag C (567x8)
- tag D (678x9)
'''

Voici les tags avec lesquels tu devras essayer de classifier l'insight:""" + prompt_tags + """

Tu ne dois par renvoyer le tag, mais uniquement son identifiant.
Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Voici l'insight que tu dois essayer de catégoriser: '{insight}'
"""

In [31]:
class FirstInsight(BaseModel):
    tags_id: List[str] = Field(description="Identifiants des tags de l'insight")
    content: str = "" #Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nTypes: " + ', '.join(self.insight_types)

In [32]:
categorsiation_parser = PydanticOutputParser(pydantic_object=FirstInsight)

prompt_categorsiation = PromptTemplate.from_template(
    template= prompt_template_categorsiation,
    partial_variables= {"format_instructions": categorsiation_parser.get_format_instructions()},
)

prompts = []
for insight in insights_df["Content"]:
    context = copy(feedback_context)
    context["insight"] = insight
    prompts.append(prompt_categorsiation.invoke(context))

#print(prompts[0].text)

In [33]:
parsed_responses = safe_async_analysis(prompts, categorsiation_parser)


In [34]:

insights_df["Tags"] = [rep.tags_id for rep in parsed_responses]
#insights_df["Insights"] = [[] for rep in parsed_responses]


### Types affectation

In [35]:
prompt_types = ""

for _, tag in types_df.iterrows():
    prompt_types += '\n'+"- "+tag["Title"]+' ('+tag["_id"] +') : ' + tag["Definition"]

print(prompt_types)


- Point positif (1698433290120x936044292663509300) : Élément apprécié par le client ou l'utilisateur
- Point de douleur (1698433300252x835626794232717300) : Problème qui gène ou ennuie le client ou l'utilisateur
- Nouvelle demande (1698433314230x619003097145126100) : Suggestion d'évolution faite par le client ou l'utilisateur
- Bug (1698433323222x402426615286320700) : Anomalie de fonctionnement de l'application détectée par l'utilisateur


In [36]:

prompt_template_types = """Tu es {role} au sein de l'entreprise suivante :
{context}

Tu as mené une enquête auprès de tes {cible}. 

Catégorise l'insight qui te sera donné à l’aide de l'identifiant des types qui te seront donnés. 
Tu peux associer 0, 1 ou plusieurs types. S'il n'est pas possible d'associer un type avec certitude, laisse la liste vide. 
Répond avec la liste des identifiants suités entre parenthèse juste après les types. La definition des types est située jsute après les double points. 
Par exemple, pour les types suivants, le type 2 a pour identifiant 098x7.
'''
- type 1 (987x6) : définition du type 1
- type 2 (098x7) : définition du type 2
'''

Voici les types avec lesquels tu devras essayer de classifier l'insight:""" + prompt_types + """

Tu ne dois par renvoyer le type, mais uniquement son identifiant.
Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Voici l'insight que tu dois essayer de catégoriser: '{insight}'
"""

In [37]:
class FirstInsight(BaseModel):
    types: List[str] = Field(description="Identifiants des types de l'insight")
    content: str = "" #Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nTypes: " + ', '.join(self.insight_types)

In [38]:
categorsiation_parser = PydanticOutputParser(pydantic_object=FirstInsight)

prompt_categorsiation = PromptTemplate.from_template(
    template= prompt_template_types,
    partial_variables= {"format_instructions": categorsiation_parser.get_format_instructions()},
)

prompts = []
for insight in insights_df["Content"]:
    context = copy(feedback_context)
    context["insight"] = insight
    prompts.append(prompt_categorsiation.invoke(context))

#print(prompts[0].text)

In [39]:
parsed_responses = safe_async_analysis(prompts, categorsiation_parser)


In [40]:
insights_df["Types"] = [rep.types for rep in parsed_responses]

### Ajout des insights aux feedbacks

In [41]:
feedbacks_df.to_csv(project_path+'/feedbacks.csv', index_label='Index')
insights_df.to_csv(project_path+'/insights_0.csv', index_label='Index')

In [42]:
insights_df.head()

Unnamed: 0,Content,Related feedbacks,Childrens,Tags,Types
0,Demande de livraison pour l'ensemble des produ...,0,[],"[1705848082881x454792214332598400, 17058481188...",[1698433314230x619003097145126100]
1,Option d'achat de bouteilles d'alcool à l'unité,0,[],"[1705848274056x125824383936905310, 17058480545...",[1698433314230x619003097145126100]
2,Insuffisance de l'offre en ligne,1,[],"[1705848054587x622458924372477600, 17058481188...",[1698433300252x835626794232717300]
3,Nécessité de comparer les prix en ligne avec c...,1,[],"[1705848223473x225401328908415580, 17058480545...","[1698433300252x835626794232717300, 16984333142..."
4,"Manque de transparence des coûts, surtout pour...",1,[],"[1705848223473x225401328908415580, 17058480828...",[1698433300252x835626794232717300]


In [43]:
insights_df.iloc[0]["Types"]

['1698433314230x619003097145126100']

In [174]:
"""insights_df.iloc[0]

res = bubble_client.create(
        "Insight",
        {
            #"source": source_id,
            "Company": company_id,
            "Title": insights_df.iloc[0]["Content"],
            "Backend_Status": "new",
            #backend_type
            "Types": insights_df.iloc[0]["Types"],
            "Feedback_count": 1,
            #"InsightParent": None,
            #"project": project_id,
            "Step": 0,
            "Tags": insights_df.iloc[0]["Tags"],
        }
    )"""

In [45]:
insights_df.iterrows()

<generator object DataFrame.iterrows at 0x17189f290>

In [46]:
#index = insights_df["Tags"].apply(lambda x: "1705848302697" in x)

In [47]:
"""row = insights_df.iloc[121]
res = bubble_client.create(
        "Insight",
        {
            #"source": source_id,
            "Company": company_id,
            "Title": row["Content"],
            "Backend_Status": "new",
            #backend_type
            "Types": row["Types"],
            "Feedback_count": 1,
            #"InsightParent": None,
            #"project": project_id,
            "Step": 1,
            "Tags": row["Tags"],
        } 
    )"""

'row = insights_df.iloc[121]\nres = bubble_client.create(\n        "Insight",\n        {\n            #"source": source_id,\n            "Company": company_id,\n            "Title": row["Content"],\n            "Backend_Status": "new",\n            #backend_type\n            "Types": row["Types"],\n            "Feedback_count": 1,\n            #"InsightParent": None,\n            #"project": project_id,\n            "Step": 1,\n            "Tags": row["Tags"],\n        } \n    )'

In [48]:
#insights_df

In [49]:
#
# [insights_df.iloc[row["Insights"]] for _, row in feedbacks_df.iterrows()][0]

In [50]:
index = [row["Related feedbacks"] for _, row in insights_df.iterrows()]
insights_df["Related feedbacks"] = [x for x in feedbacks_df['_id'].iloc[index]]

In [176]:
res = bubble_client.create(
        "Insight",
        [{
            #"source": source_id,
            "Company": company_id,
            "Project": project_id,
            "Content": row["Content"],
            "Backend_Status": "new",
            #backend_type
            "Types": row["Types"],
            "Feedback_count": 1,
            #"InsightParent": None,
            #"project": project_id,
            "Step": 0,
            "Tags": row["Tags"],
            "Related Feedback": row['Related feedbacks']
        }  for _, row in insights_df.iterrows()]
    )

In [218]:
res = bubble_client.get_objects(
        "Insight",
        [
            #BubbleField("project") == project_id,
            BubbleField("Company") == company_id,
            ],
    )
insights_df = pd.DataFrame(res)
insights_df['Modified Date'] = pd.to_datetime(insights_df['Modified Date'])
insights_df['Created Date'] = pd.to_datetime(insights_df['Created Date'])
#feedbacks_df.set_index('_id', inplace=True)
feedbacks_column = 'content' #"content"

insights_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,Status,Company,Backend_Status,Feedback_count,Project,Tags,InsightParent,IsParent,Types,Step,Content,Related Feedback,_id
0,2024-01-22 05:00:18.901000+00:00,2024-01-22 04:44:40.447000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],1705898730357x338788481532454460,False,[],0,Conséquences sur le stockage des clients,1705851599759x345640322073308400,1705898680447x826950501217639400
1,2024-01-22 05:00:19.256000+00:00,2024-01-22 04:44:40.450000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],1705898730358x995372402896389800,False,[],0,Impact sur la fidélité des clients de longue date,1705851601547x681527279387770500,1705898680450x149631872679591100
2,2024-01-22 05:00:19.521000+00:00,2024-01-22 04:44:40.452000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],1705898730359x248692085452547170,False,[],0,Préférence pour les promotions en format papie...,1705851599759x123910318505263460,1705898680452x463285680148053400
3,2024-01-22 05:00:19.821000+00:00,2024-01-22 04:44:40.458000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848082881x454792214332598400, 17058481188...",1705898730359x520561605408427000,False,[1698433314230x619003097145126100],0,Demande de livraison pour l'ensemble des produ...,1705851599759x115801332943705310,1705898680458x391851045281273600
4,2024-01-22 05:00:20.104000+00:00,2024-01-22 04:44:40.463000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848274056x125824383936905310, 17058480545...",1705898730360x525142150014810400,False,[1698433314230x619003097145126100],0,Option d'achat de bouteilles d'alcool à l'unité,1705851599759x115801332943705310,1705898680463x677816560447465700


In [53]:
#feedbacks_df["Insights"] = [insights_df.iloc[row["Insights"]]["_id"] for _, row in feedbacks_df.iterrows()][0]


In [67]:
feedbacks_df.to_csv(project_path+'/feedbacks.csv', index_label='Index')
insights_df.to_csv(project_path+'/insights.csv', index_label='Index')

# Insights clustering

In [55]:
feedbacks_df = pd.read_csv(project_path+'/feedbacks.csv', index_col='Index')
insights_df = pd.read_csv(project_path+'/insights.csv', index_col='Index')

In [56]:
#insights_df = pd.read_csv("Results/Metro/insights_0.csv", index_col="Index")
#insights_df

In [68]:
embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')

In [69]:
class DeducedInsight(BaseModel):
    insights_mineurs: List[int] = Field(description="Index des insights mineurs qui ont été résumés en cet insight.")
    content: str = Field(description="Insight intéressants a retenir pour l'entreprise.")

    def __str__(self):
        return '- ' + self.content + '\n Enfants:' + str(self.insights_mineurs)


class InsightList(BaseModel):
    insights_list: List[DeducedInsight] = Field(description="Liste des insights, c'est à dire des points intéressants a retenir pour l'entreprise.")
    # You can add custom validation logic easily with Pydantic.

    def __str__(self):
        return "Insights: \n"+"\n\n".join([str(i) for i in self.insights_list])



In [70]:

prompt_template_reduction = """Tu es {role} au sein de l'entreprise suivante:
{context}

Une liste d'insights mineurs a été identifiée à partir de retours {cible}.
L'objectif est de centraliser tous les insights qui ont le même sens en créant des insights parents.
Voici quelques règles :
- Si un insight mineur possède un sens indépendant des autres insights mineurs, recopie-le : il s'agit d'un insight majeur.
- Formule les insights majeurs en quelques mots.
- Une personne de ton équipe qui lit un insight majeur doit pouvoir en comprendre le sens.
- Un insight majeur ne doit comporter qu'une seule information : on ne mélange pas plusieurs éléments au sein d'un insight majeur.
Par exemple, un bon insight majeur pourrait être : {example_insight}

Un insight ne peut être regroupé que dans un seul autre insight.
Chaque insight doit donc être l'enfant d'exactement un insight que tu retournes.

Ensuite, associe à chaque insight majeur l'indice des insights mineurs qui lui sont associés. Vérifie bien que les indices correspondent.
L'ordre des insights mineurs est aléatoire, et ne doit pas avoir d'importance dans ta réponse.

Réponds uniquement avec un ficher JSON, comme expliqué :
{format_instructions}

Liste des insights mineurs:
{insights}

"""


#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres.
#- Etre distincts les uns des autres.


In [71]:

prompt_template_regrouping = """Tu es {role} au sein de l'entreprise suivante:
{context}

Une liste d'insights a été identifiée à partir de retours clients.
Un insight est une déduction intéressante de l'étude des commentaires {cible}, qu'il serait vraiment intéressant faire remonter aux responsables de l'entreprise.
Par exemple, un bon insight pourrait être: {example_insight}

Si certain sont redondant, reformule les en un seul insight. Il est préférable qu'il ne soit pas trop long, et évite les bouts de phrase sans réel intéret. Par exemple, ne pas ajouter '... pour améliorer l'experience client'.
Associe à chaque nouvel insight créé l'ensemble des feedbacks qui sont associés aux insights qu'il regroupe.
Il est possible qu'il n'y ai besoin de regrouper aucun insight.
Un insight ne peut être regroupé que dans un seul autre insight.
Chaque insight doit donc être l'enfant d'exactement un insight que tu retournes.

Pour les insights qui n'ont pas besoin d'être regroupés, recopie les ainsi que leurs feedbacks associés.
L'ordre des insights est aléatoire, et ne doit pas avoir d'importance dans ta réponse.

{format_instructions}

Voici les insights que tu dois regrouper:

{insights}

Tu ne dois rien écrire d'autre que le JSON requis.

"""
#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres.
#- Etre distincts les uns des autres.
#Tu ne doit pas réecrir les insights qui ne sont pas regroupés.


In [72]:
minimisation_steps = 5
cluster_desired_size = 10
nb_insight_stop = 15

insight_context = {
    "cible": cible,
    "context": context_entreprise,
    "example_insight": example_insight,
    "role": role,
    "question": question,
}

In [73]:
#sum(cluster['Content'].apply(lambda x: type(x)!=str))

In [74]:
insight_parser = PydanticOutputParser(pydantic_object=InsightList)

prompt_reduction = PromptTemplate.from_template(
    template= prompt_template_reduction,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)

prompt_regrouping = PromptTemplate.from_template(
    template= prompt_template_regrouping,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)

insights = copy(insights_df)
insight_layers = [copy(insights_df)]

for step in range(minimisation_steps):

    if len(insights) <= nb_insight_stop:
        print("Minimal number of insights reached")
        break

    if len(insights) <= nb_insight_stop:
        print("Stopping because of unsufficient reduction")
        break

    for processing_step in ["reduction"]:#, "regrouping"]:
        ### Création des représentations
        num_clusters = 1 + len(insights) // cluster_desired_size

        print("Processing step:", processing_step)
        sentence_embeddings = embedding_model.encode(insights['Content'])

        # On réduit la dimention pour améliorer l'efficacité de la clusterisation
        umap_embeddings = umap.UMAP(n_neighbors=15, 
                            n_components=5, 
                            metric='cosine').fit_transform(sentence_embeddings)

        ### Clusterisation
        #clustering_model = KMeans(n_clusters=num_clusters, n_init='auto')

        clustering_model = hdbscan.HDBSCAN(min_cluster_size=5,
                          metric='euclidean',                      
                          cluster_selection_method='eom')
        clustering_model.fit(umap_embeddings)

        #clustering_model.fit(umap_embeddings)
        cluster_assignment = clustering_model.labels_
        num_clusters = max(cluster_assignment)+2
        print("Step "+ str(step)+ ": processing "+ str(num_clusters) + " clusters")

        insights["cluster"] = cluster_assignment

        cluter_sizes = list(insights.groupby(['cluster']).count()["Content"])
        print("Cluster sizes:" + str(cluter_sizes))

        if len(cluter_sizes) == 1:
            print("Stopping because single cluster")
            break

        clusters = []
        prompts = []
        cumul_size = 0
        for cluster_id in range(min(cluster_assignment), max(cluster_assignment)+1): # IL FAUDRAIT GARDER INDEM LE DERNIER CLUSTER
            cluster = insights[insights['cluster'] == cluster_id]
            cluster_name ='/cluster_'+ str(cluster_id)+"_step_"+str(step) +'.csv'
            cluster.to_csv( project_path+cluster_name, index_label='Index')
            clusters.append(cluster)

            context = copy(insight_context)
            context['insights'] = '\n'.join([str(i+cumul_size)+": "+s for i, s in enumerate(cluster["Content"])])
            #print(context['insights'])

            if processing_step == "reduction":
                prompt=prompt_reduction.invoke(context)
            elif processing_step == "regrouping":
                prompt=prompt_regrouping.invoke(context)
            else:
                raise("Wrong processing step")
            prompts.append(prompt)
            cumul_size += len(cluster)

        ### Traitement des clusters
        parsed_responses = safe_async_analysis(prompts, insight_parser)
        
        new_insights = []
        for i, parsed_response in enumerate(parsed_responses):
            dfs = pd.DataFrame({
                #"Related feedbacks":[list(itertools.chain.from_iterable(insights.iloc[insight.insights_mineurs]['Related feedbacks'])) for insight in parsed_response.insights_list],
                "Content":[insight.content for insight in parsed_response.insights_list],
                "Childrens":[list(insight.insights_mineurs) for insight in parsed_response.insights_list],
                #"Childrens":[list(clusters[i].iloc[insight.insights_mineurs]["_id"]) for insight in parsed_response.insights_list],
                })
            new_insights.append(dfs)

        new_insights = pd.concat(new_insights)
        new_insights.reset_index(drop=True, inplace=True)

        
        reduction = len(new_insights)/len(insights)
        print("Number of new insights:"+ str(len(new_insights)))
        print("Reduction in the number of insights by " + "%d" % int((1-(len(new_insights)/len(insights)))*100) + "%")
        print()
        insight_layers.append(copy(new_insights))
        insights = new_insights

Processing step: reduction


Step 0: processing 13 clusters
Cluster sizes:[84, 9, 17, 31, 9, 28, 10, 18, 6, 11, 11, 31, 17]
Number of new insights:117
Reduction in the number of insights by 58%

Processing step: reduction
Step 1: processing 7 clusters
Cluster sizes:[36, 16, 10, 13, 19, 11, 12]
Number of new insights:64
Reduction in the number of insights by 45%

Processing step: reduction
Step 2: processing 5 clusters
Cluster sizes:[13, 7, 20, 11, 13]
Number of new insights:52
Reduction in the number of insights by 18%

Processing step: reduction
Step 3: processing 6 clusters
Cluster sizes:[14, 8, 5, 7, 9, 9]
Number of new insights:44
Reduction in the number of insights by 15%

Processing step: reduction
Step 4: processing 5 clusters
Cluster sizes:[9, 15, 7, 7, 6]
Number of new insights:40
Reduction in the number of insights by 9%



In [75]:
list(insight_layers[0]['Content'])

['Conséquences sur le stockage des clients',
 'Impact sur la fidélité des clients de longue date',
 'Préférence pour les promotions en format papier ou numérique',
 "Demande de livraison pour l'ensemble des produits en magasin",
 "Option d'achat de bouteilles d'alcool à l'unité",
 "Insuffisance de l'offre en ligne",
 'Nécessité de comparer les prix en ligne avec ceux en halle',
 'Manque de transparence des coûts, surtout pour les produits en livraison',
 "Manque d'organisation et de clarté dans le rangement",
 'Préférence pour la réception des promotions en format papier ou digital',
 'Prix élevés par rapport aux grandes surfaces en HT',
 'Suppression des entrées chaudes',
 'Manque de propositions traiteurs pour les fêtes',
 'Amélioration du service client pour les achats en grande quantité',
 'Mise à disposition de moyens pour aider le chargement des clients',
 'Prix élevés même avec dégressivité',
 'Concurrence plus compétitive sur les prix',
 'Services de livraison de la concurrence

In [76]:
list(insight_layers[1]['Content'])


['Nécessité de comparaison constante des prix',
 'Manque de transparence des prix',
 "Problèmes d'organisation et clarté en rayon",
 'Préférence pour format de réception des promotions',
 "Demande d'options traiteur pour événements",
 'Aide nécessaire au chargement pour clients',
 'Prix élevés même avec remises',
 'Services de livraison concurrents plus attractifs',
 'Amélioration du programme de fidélité requise',
 "Réduction de l'assortiment et pénuries affectent les commandes",
 "Problèmes d'accueil et de service client",
 'Comparaison défavorable avec la concurrence et autres Metro',
 'Besoins de visites commerciales plus fréquentes',
 "Reconnaissance de l'entreprise auprès de METRO à améliorer",
 'Difficulté de visibilité sur SIRENE',
 "Nécessité d'améliorer l'affichage des prix",
 'Mécontentement lié au programme de fidélité et tarifs',
 'Insatisfaction avec la communication et réactivité fournisseur/service client',
 'Perte de clientèle due à des prix non compétitifs',
 'Manque 

In [77]:
list(insight_layers[2]['Content'])


["Manque de clarté dans l'affichage des prix",
 'Insatisfaction avec le programme de fidélité et la politique tarifaire',
 'Problèmes et concurrence dans la livraison',
 'Manque de flexibilité dans la politique de retour',
 'Satisfaction sur la qualité de certains produits',
 "Besoins d'amélioration du service client",
 'Problématiques de gestion des stocks',
 'Demande pour plus de diversité et de fréquence dans les promotions',
 "Nécessité de diversification et d'amélioration de l'offre produit",
 "Difficultés pour les petites structures à bénéficier d'offres avantageuses",
 'Communication insuffisante sur les processus internes',
 "Réduction de l'assortiment général",
 'Suppression de produits spécifiques',
 'Impact négatif du remplacement des produits',
 'Impact des suppressions de produits sur les achats',
 'Diminution de la disponibilité des marchandises',
 'Problèmes liés aux prix',
 'Augmentation du prix des saucisses',
 'Questionnement sur la justification du prix du sucre',
 '

In [78]:
for i, df in enumerate(insight_layers):
    df.to_csv(project_path+'/insights_'+ str(i) +'.csv', index_label='Index')

# Data cleaning

In [177]:
insight_layers[0]["Parents"] = [[] for _ in insight_layers[0].iterrows()]

In [178]:
for p, row in insight_layers[1].iterrows():
    for c in row["Childrens"]:
        insight_layers[0]["Parents"].iloc[int(c)].append(p)

In [179]:
for i, layer in enumerate(insight_layers):
    if i != 0:
        res = bubble_client.create(
            "Insight",
            [{
                #"source": source_id,
                "Company": company_id,
                "Project": project_id,
                "Content": row["Content"],
                "Backend_Status": "new",
                #backend_type
                #"Types": row["Types"],
                "Feedback_count": 1,
                #"InsightParent": None,
                #"project": project_id,
                "Step": i,
                #"Tags": row["Tags"],
                #"Related Feedback": row['Related feedbacks']
            }  for _, row in layer.iterrows()]
        )

In [180]:
layers = []
for i, layer in enumerate(insight_layers):
    res = bubble_client.get_objects(
        "Insight",
        [
            BubbleField("Step") == i,
            BubbleField("Company") == company_id,
            ],
    )
    layers.append(pd.DataFrame(res))


In [181]:
[len(l) for l in insight_layers]

[282, 117, 64, 52, 44, 40]

In [182]:
[len(l) for l in layers]


[282, 117, 64, 52, 44, 40]

In [156]:

i=4
layers[i]["InsightParent"] = None
for k, fraterie in enumerate(insight_layers[i+1]["Childrens"]):
    for enfant in fraterie:
        layers[i].iloc[i]["InsightParent"] = layers[i+1].iloc[k]["_id"]



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  layers[i].iloc[i]["InsightParent"] = layers[i+1].iloc[k]["_id"]


In [201]:
for i in range(len(insight_layers)-2, -1, -1):
    print(i)
    layers[i]["InsightParent"] = None
    for k, fraterie in enumerate(insight_layers[i+1]["Childrens"]):
        for enfant in fraterie:
            #layers[i].iloc[i]["InsightParent"] = layers[i+1].iloc[k]["_id"]
            layers[i].at[layers[i].index[enfant], "InsightParent"] = layers[i+1].iloc[k]["_id"]

    #l = [list(layers[i-1]["_id"].iloc[childrens]) for childrens in insight_layers[i]["Childrens"]]
    
    #l = [x for sl in l for x in sl]
    #layers[i-1]["Parent"] = l
    #update_object
    


4
3
2
1
0


In [221]:
layers[0]

Unnamed: 0,Modified Date,Created Date,Created By,Status,Company,Backend_Status,Feedback_count,Project,Tags,IsParent,Types,Step,Content,Related Feedback,_id,InsightParent
0,2024-01-22T04:44:40.447Z,2024-01-22T04:44:40.447Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],False,[],0,Conséquences sur le stockage des clients,1705851599759x345640322073308400,1705898680447x826950501217639400,1705898730357x338788481532454460
1,2024-01-22T04:44:40.450Z,2024-01-22T04:44:40.450Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],False,[],0,Impact sur la fidélité des clients de longue date,1705851601547x681527279387770500,1705898680450x149631872679591100,1705898730358x995372402896389800
2,2024-01-22T04:44:40.452Z,2024-01-22T04:44:40.452Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],False,[],0,Préférence pour les promotions en format papie...,1705851599759x123910318505263460,1705898680452x463285680148053400,1705898730359x248692085452547170
3,2024-01-22T04:44:40.458Z,2024-01-22T04:44:40.458Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848082881x454792214332598400, 17058481188...",False,[1698433314230x619003097145126100],0,Demande de livraison pour l'ensemble des produ...,1705851599759x115801332943705310,1705898680458x391851045281273600,1705898730359x520561605408427000
4,2024-01-22T04:44:40.463Z,2024-01-22T04:44:40.463Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848274056x125824383936905310, 17058480545...",False,[1698433314230x619003097145126100],0,Option d'achat de bouteilles d'alcool à l'unité,1705851599759x115801332943705310,1705898680463x677816560447465700,1705898730360x525142150014810400
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277,2024-01-22T04:44:42.136Z,2024-01-22T04:44:42.136Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848223473x225401328908415580, 17058480545...",False,[1698433314230x619003097145126100],0,Intérêt pour un dispositif d'achat en gros ave...,1705851601547x959144493981025400,1705898682136x151526038848195400,1705898730878x986926554516363600
278,2024-01-22T04:44:42.137Z,2024-01-22T04:44:42.137Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[1705848223473x225401328908415580],False,[1698433300252x835626794232717300],0,Souhait de réductions plus importantes sur les...,1705851601547x959144493981025400,1705898682137x180322262769440300,1705898730878x986926554516363600
279,2024-01-22T04:44:42.137Z,2024-01-22T04:44:42.137Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[1705848223473x225401328908415580],False,"[1698433300252x835626794232717300, 16984333142...",0,Souhait de meilleurs tarifs sur les marques na...,1705851601547x959144493981025400,1705898682137x481293383584916700,1705898730878x986926554516363600
280,2024-01-22T04:44:42.218Z,2024-01-22T04:44:42.218Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[1705848223473x225401328908415580],False,"[1698433300252x835626794232717300, 16984333142...",0,Demande de tarifs plus avantageux sur l'alcool...,1705851601547x959144493981025400,1705898682218x414275926403845570,1705898730881x641272726693342500


In [229]:
backend_dict = {
    "1698433290120x936044292663509300": "positive",
    "1698433314230x619003097145126100": "feature",
    "1698433300252x835626794232717300": "pain",
    "1698433323222x402426615286320700": "bug",
}



for k, row in tqdm(layers[0].iterrows()):
    print(row)
    if row['Types'] != []:
        bubble_client.update_object(
            "Insight",
            row['_id'],
            {"Backend_Type": [backend_dict[t] for t in row['Types']]}
        )

0it [00:00, ?it/s]

Modified Date                       2024-01-22T04:44:40.447Z
Created Date                        2024-01-22T04:44:40.447Z
Created By                      admin_user_sifter-63385_test
Status                                            Catégorisé
Company                     1705585399217x205117684451615600
Backend_Status                                           new
Feedback_count                                             1
Project                     1705851616871x644869783878893600
Tags                                                      []
IsParent                                               False
Types                                                     []
Step                                                       0
Content             Conséquences sur le stockage des clients
Related Feedback            1705851599759x345640322073308400
_id                         1705898680447x826950501217639400
InsightParent               1705898730357x338788481532454460
Name: 0, dtype: object
M

HTTPError: 400 Client Error: Bad Request for url: https://blumana.app/version-test/api/1.1/obj/insight/1705898680458x391851045281273600

In [214]:
for layer in layers[:-1]:
    for k, row in tqdm(layer.iterrows()):
        bubble_client.update_object(
            "Insight",
            row['_id'],
            {"InsightParent": row['InsightParent']}
        )

0it [00:00, ?it/s]

0it [00:00, ?it/s]

0it [00:00, ?it/s]

0it [00:00, ?it/s]

0it [00:00, ?it/s]

0it [00:00, ?it/s]

KeyError: 'InsightParent'

In [202]:
layers[0]

Unnamed: 0,Modified Date,Created Date,Created By,Status,Company,Backend_Status,Feedback_count,Project,Tags,IsParent,Types,Step,Content,Related Feedback,_id,InsightParent
0,2024-01-22T04:44:40.447Z,2024-01-22T04:44:40.447Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],False,[],0,Conséquences sur le stockage des clients,1705851599759x345640322073308400,1705898680447x826950501217639400,1705898730357x338788481532454460
1,2024-01-22T04:44:40.450Z,2024-01-22T04:44:40.450Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],False,[],0,Impact sur la fidélité des clients de longue date,1705851601547x681527279387770500,1705898680450x149631872679591100,1705898730358x995372402896389800
2,2024-01-22T04:44:40.452Z,2024-01-22T04:44:40.452Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],False,[],0,Préférence pour les promotions en format papie...,1705851599759x123910318505263460,1705898680452x463285680148053400,1705898730359x248692085452547170
3,2024-01-22T04:44:40.458Z,2024-01-22T04:44:40.458Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848082881x454792214332598400, 17058481188...",False,[1698433314230x619003097145126100],0,Demande de livraison pour l'ensemble des produ...,1705851599759x115801332943705310,1705898680458x391851045281273600,1705898730359x520561605408427000
4,2024-01-22T04:44:40.463Z,2024-01-22T04:44:40.463Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848274056x125824383936905310, 17058480545...",False,[1698433314230x619003097145126100],0,Option d'achat de bouteilles d'alcool à l'unité,1705851599759x115801332943705310,1705898680463x677816560447465700,1705898730360x525142150014810400
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277,2024-01-22T04:44:42.136Z,2024-01-22T04:44:42.136Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848223473x225401328908415580, 17058480545...",False,[1698433314230x619003097145126100],0,Intérêt pour un dispositif d'achat en gros ave...,1705851601547x959144493981025400,1705898682136x151526038848195400,1705898730878x986926554516363600
278,2024-01-22T04:44:42.137Z,2024-01-22T04:44:42.137Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[1705848223473x225401328908415580],False,[1698433300252x835626794232717300],0,Souhait de réductions plus importantes sur les...,1705851601547x959144493981025400,1705898682137x180322262769440300,1705898730878x986926554516363600
279,2024-01-22T04:44:42.137Z,2024-01-22T04:44:42.137Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[1705848223473x225401328908415580],False,"[1698433300252x835626794232717300, 16984333142...",0,Souhait de meilleurs tarifs sur les marques na...,1705851601547x959144493981025400,1705898682137x481293383584916700,1705898730878x986926554516363600
280,2024-01-22T04:44:42.218Z,2024-01-22T04:44:42.218Z,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[1705848223473x225401328908415580],False,"[1698433300252x835626794232717300, 16984333142...",0,Demande de tarifs plus avantageux sur l'alcool...,1705851601547x959144493981025400,1705898682218x414275926403845570,1705898730881x641272726693342500


In [81]:
insight_layers[0]

Unnamed: 0,Modified Date,Created Date,Created By,Status,Company,Backend_Status,Feedback_count,Project,Tags,IsParent,Types,Step,Content,Related Feedback,_id,Parents
0,2024-01-22 03:32:53.720000+00:00,2024-01-22 03:32:53.720000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],False,[],1,Conséquences sur le stockage des clients,1705851599759x345640322073308400,1705894373720x919283129649526500,[0]
1,2024-01-22 03:32:53.810000+00:00,2024-01-22 03:32:53.810000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],False,[],1,Impact sur la fidélité des clients de longue date,1705851601547x681527279387770500,1705894373810x371298353360536060,[1]
2,2024-01-22 03:32:53.846000+00:00,2024-01-22 03:32:53.846000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[],False,[],1,Préférence pour les promotions en format papie...,1705851599759x123910318505263460,1705894373846x409925202045626750,[2]
3,2024-01-22 03:35:21.523000+00:00,2024-01-22 03:35:21.523000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848082881x454792214332598400, 17058481188...",False,[1698433314230x619003097145126100],1,Demande de livraison pour l'ensemble des produ...,1705851599759x115801332943705310,1705894521523x686823438066028900,[3]
4,2024-01-22 03:35:21.527000+00:00,2024-01-22 03:35:21.527000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848274056x125824383936905310, 17058480545...",False,[1698433314230x619003097145126100],1,Option d'achat de bouteilles d'alcool à l'unité,1705851599759x115801332943705310,1705894521527x775117826027350000,[4]
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
277,2024-01-22 03:35:23.643000+00:00,2024-01-22 03:35:23.643000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,"[1705848223473x225401328908415580, 17058480545...",False,[1698433314230x619003097145126100],1,Intérêt pour un dispositif d'achat en gros ave...,1705851601547x959144493981025400,1705894523643x548688826176832800,[112]
278,2024-01-22 03:35:23.644000+00:00,2024-01-22 03:35:23.644000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[1705848223473x225401328908415580],False,"[1698433300252x835626794232717300, 16984333142...",1,Souhait de meilleurs tarifs sur les marques na...,1705851601547x959144493981025400,1705894523644x881253484917321700,[112]
279,2024-01-22 03:35:23.646000+00:00,2024-01-22 03:35:23.645000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[1705848223473x225401328908415580],False,[1698433300252x835626794232717300],1,Souhait de réductions plus importantes sur les...,1705851601547x959144493981025400,1705894523645x158868095777599420,[112]
280,2024-01-22 03:35:23.645000+00:00,2024-01-22 03:35:23.645000+00:00,admin_user_sifter-63385_test,Catégorisé,1705585399217x205117684451615600,new,1,1705851616871x644869783878893600,[1705848223473x225401328908415580],False,"[1698433300252x835626794232717300, 16984333142...",1,Demande de tarifs plus avantageux sur l'alcool...,1705851601547x959144493981025400,1705894523645x640800764235434100,[114]


In [82]:
sum(insight_layers[0]['Parents'].apply(len))

281

In [83]:
max(insight_layers[0]['Parents'].apply(len))

2

In [84]:
insight_layers[1]

Unnamed: 0,Content,Childrens
0,Nécessité de comparaison constante des prix,"[0, 28, 63]"
1,Manque de transparence des prix,"[1, 70]"
2,Problèmes d'organisation et clarté en rayon,"[2, 53, 78, 79, 80]"
3,Préférence pour format de réception des promot...,[3]
4,Demande d'options traiteur pour événements,[4]
...,...,...
112,Problèmes liés à l'affichage et la cohérence d...,"[266, 267, 268, 269, 271, 273, 274, 275, 276, ..."
113,Retards dans la gestion des avoirs,[265]
114,Complexité dans l'information sur les produits...,[280]
115,Incohérences de prix non adressées,[272]


In [85]:
c for insights_mineurs in insight_layers[1]

SyntaxError: invalid syntax (1301692522.py, line 1)

In [None]:
def children_to_parents(df):
    

# API

requests

In [None]:
BUBBLE_URL = "https://blumana.app/version-test/api/1.1/obj/"
API_TOKEN = "Bearer 04ca44f04c936081d8408b12c1ba67e2"
HEADERS = {
    'Authorization':API_TOKEN,
    'Content-type':'application/json',
}

In [None]:
myHeaders = {
    'Authorization':Token,
    'Content-type':'application/json',
}
response = requests.get(Endpoint, headers = myHeaders).json()

insight = response['response']['Title']
insight

In [None]:
response = requests.post("https://blumana.app/version-test/api/1.1/obj/Insight", data=json.dumps({'Title':'lalala'}), headers = myHeaders)


In [None]:

def get_results(obj_type, constraint):
    results_remaining = True
    df_results = []
    cursor = 0
    while results_remaining:
        constraint["cursor"]= cursor
        rep = requests.get("https://blumana.app/version-test/api/1.1/obj/"+obj_type, params=constraint, headers = myHeaders).json()['response']
        results_remaining = rep['remaining']>0
        df_results += rep['results']
        print(rep["cursor"], rep["count"])
        cursor = rep["cursor"] + rep["count"]
    #return rep['response']['remaining']: 292
    return pd.DataFrame(df_results)

constraint = { "key": "company", "constraint_type": "equals", "value": "Randstad Test"}
res = get_results(obj_type='Feedback', constraint=constraint)
res

In [None]:
def get_results(obj_type, constraints):
    """
    constraint: list of { "key": "unitname", "constraint_type": "equals", "value": "Unit A" }
    """
    results_remaining = True
    df_results = []
    cursor = 0

    while results_remaining:
        constraints["cursor"]= cursor
        url=BUBBLE_URL+obj_type#+'?constraints='+str(constraints)
        print(url)
        rep = requests.get(url, params=constraints, headers = HEADERS).json()
        print(rep)
        rep=rep['response']
        results_remaining = rep['remaining']>0
        df_results += rep['results']
        print(rep["cursor"], rep["count"], rep['remaining'], cursor)
        #print(dict(rep))
        cursor = rep["cursor"] + rep["count"]
    return pd.DataFrame(df_results)

constraints = { "key": "Company", "constraint_type": "equals", "value": "1696884561832x730324245490558300"}
res = get_results(obj_type='Feedback', constraints=constraints)
res

bubble_api

In [None]:
from bubble_api import BubbleClient

base_url = "https://blumana.app/version-test"
bubble_id = "04ca44f04c936081d8408b12c1ba67e2"

bubble_client = BubbleClient(
    base_url=base_url,
    api_token=bubble_id,
    bubble_version="live"
)

In [None]:
data = {
    'content': 'yololo',
    'company': '1696884561832x730324245490558300',
    'sentiment': 'Positif',
    'source': '1702244804258x371787369839591400',
    'project': ['1702244768977x171563511098638340'],
    'date': '2023-08-12T21:01:00.000Z',
    'insights_step_1': ['1705608477723x627780174355843100'],
 }

In [None]:
object_id = bubble_client.create(
        "Feedback",
        data,
    )

In [None]:
object_data = bubble_client.get(
    "Feedback",
    bubble_id="1702244804875x106199148733386430",
)
object_data

In [None]:
from bubble_api import Field

res = bubble_client.get_objects(
        "Feedback",
        [Field("company") == "1696884561832x730324245490558300"],
    )
pd.DataFrame(res)

In [None]:
response['response']['Title'] = "Simplifier l'accès et l'utilisation du site et des outils de Randstad."

In [None]:
insight_layers[0]

In [None]:
data = json.dumps({
  'content': 'continuez à respecter nos demandes',
  'company': '1696884561832x730324245490558300',
  'sentiment': 'Positif',
  'source': '1702244804258x371787369839591400',
  'project': ['1702244768977x171563511098638340'],
  'date': '2023-08-12T21:01:00.000Z',
  'insights_step_1': ['1705608477725x862618144702132000']})


rep = requests.post("https://blumana.app/version-test/api/1.1/obj/"+'Feedback', data=data, headers = myHeaders).json()
rep

In [None]:
2023-12-09T23:41:35.613Z

In [None]:
res.keys()

In [None]:
rep.text

In [None]:


def get_bubble_id(content, obj_type):
    bubble_id = requests.post("https://blumana.app/version-test/api/1.1/obj/"+obj_type, data=json.dumps({'Title':content}), headers = myHeaders)
    return bubble_id
feedbacks_df['bubble_id'] = feedbacks_df[feedbacks_column].apply(lambda column_name: get_bubble_id(column_name, 'Feedback'))

In [None]:
feedbacks_df

In [None]:
url_bubble = "https://blumana.app/version-test/api/1.1/obj"

def get_object(obj_type, bubble_id, headers=myHeaders, url_bubble=url_bubble):
    """
    obj_type: Insight, Feedback
    """
    url = '/'.join([url_bubble, obj_type, bubble_id])
    response = requests.get(url, headers = myHeaders).json()
    #response = requests.get(url).json()
    return response

Endpoint = "https://blumana.app/version-test/api/1.1/obj/Insight/1705270853682x150429730047267680/"

#get_object('Insight', '1705270853682x150429730047267680')
get_object('Feedback', '1702244804875x106199148733386430')



In [None]:

#"https://blumana.app/version-test/api/1.1/obj/Insight"

def get_bubble_id(content):
    bubble_id = requests.post("https://blumana.app/version-test/api/1.1/obj/Feedback", data=json.dumps({'Title':content}), headers = myHeaders)
    return bubble_id
insight_layers[-1]['bubble_id'] = insight_layers[-1][feedbacks_column].apply(lambda column_name: get_bubble_id(column_name))

In [None]:
response.json()["id"]



In [None]:
for i, df in enumerate(insight_layers):
    df.to_csv(project_path+'/insights_'+ str(i) +'.csv', index_label='Index')

In [None]:
print('\n'.join(insight_layers[2]['Content']))

In [None]:
insight_layers[1]

## Visulalisation

In [None]:
import umap
import altair as alt

### 2D projection

In [None]:
reducer = umap.UMAP(n_neighbors=15)
umap_embeds = reducer.fit_transform(sentence_embeddings)
# Prepare the data to plot and interactive visualization
# using Altair
df_explore = pd.DataFrame(data={'text': df['Insight'], "InsightParent": df['InsightParent']})
df_explore['x'] = umap_embeds[:,0]
df_explore['y'] = umap_embeds[:,1]
df_explore