# Dependancies

## Requirements

In [1]:
#!pip install sentence_transformers langchain openai tqdm datasets asyncio scikit-learn cohere tiktoken umap altair

In [2]:
import numpy as np
import re
import pandas as pd
from tqdm.notebook import tqdm
from datasets import load_dataset
import umap
import altair as alt
from sklearn.metrics.pairwise import cosine_similarity
import warnings
from sentence_transformers import SentenceTransformer
import pprint
from typing import List

from langchain_community.llms import Ollama
from langchain.output_parsers.regex_dict import RegexDictParser
from langchain.output_parsers import PydanticOutputParser
from langchain_core.messages import HumanMessage, SystemMessage, ChatMessage
from langchain.prompts import ChatPromptTemplate, PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from openai import AsyncOpenAI
import asyncio
import os

import requests
import json
from bubble_api import Field as BubbleField
from bubble_api import BubbleClient

import itertools
from copy import copy
from tqdm.notebook import tqdm, trange
from sklearn.cluster import KMeans

import umap.umap_ as umap
#import umap
import hdbscan

import openai
openai.api_key = "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"


## Models

In [3]:
import os
os.environ["OPENAI_API_KEY"] = "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"

In [4]:
client = AsyncOpenAI()

embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')
GENERATION_ENGINE = "gpt-4-1106-preview"
EMBEDDING_ENGINE = "text-embedding-ada-002"

import nest_asyncio
nest_asyncio.apply()

In [5]:
async def get_analysis(prompt):
    response = await client.chat.completions.create(
        messages=[
            #{"role": "system", "content": "You are a helpful assistant designed to output JSON."},
            {"role": "user", "content": str(prompt)},
        ],
        response_format={ "type": "json_object" },
        model=GENERATION_ENGINE)
    return response.choices[0].message.content

def apply_async_analysis(prompts):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_analysis(prompt)) for prompt in prompts]
    return loop.run_until_complete(asyncio.gather(*tasks))


In [6]:
def safe_async_analysis(prompts, parser, max_steps=3):
    results = [None for _ in prompts]
    to_be_run = list(range(len(prompts)))
    step = 0
    while to_be_run != []:
        #print("step:", step)
        #print("to_be_run:", len(to_be_run))
        assert step < max_steps
        bugs = []
        
        responses = apply_async_analysis([prompts[i] for i in to_be_run])

        for i in to_be_run:
            assert results[i] is None
            try:
                try:
                    parsed_response = parser.parse(responses[i])
                except:
                    parsed_response = parser.parse('{"properties":'+responses[i]+'}')
                    print("handled properties!")
                results[i] = parsed_response
            except:
                if max_steps==0:
                    print("prompt")
                    print(prompts[i].text)

                    print("reponse")
                    print(responses[i])

                    print("others:")
                    print(responses)

                    parsed_response = parser.parse(responses[i])
                bugs.append(i)

        to_be_run = bugs
        step += 1
    assert None not in results
    return results
    

In [7]:
async def get_embedding(text):
    response = await client.embeddings.create(input=text, model=EMBEDDING_ENGINE)
    return response.data[0].embedding

def apply_async_get_embedding(dfi):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_embedding(row['Comment'])) for _, row in dfi.iterrows()]
    return loop.run_until_complete(asyncio.gather(*tasks))

## Data

In [8]:
PROJECT =  "Metro" #"Cheerz"
project_path = 'Results/'+PROJECT
os.makedirs(project_path, exist_ok=True)

In [9]:
try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')

    path = '/content/drive/MyDrive/Blumana Folder'
else:
    path = "/Users/gardille/development/BlueMana"

In [10]:
feedbacks_df = pd.read_csv(path+"/Data/Commentaires/metro.csv") #, index_col="Index")
#feedbacks_df = pd.read_csv("data/Trustpilot/cheerz_fr.csv", index_col="Index")
#feedbacks_df["Comment"] = feedbacks_df["Title"] + '\n' + feedbacks_df["content"]
feedbacks_column = 'Comment' #"Content"
feedbacks_df.head()

Unnamed: 0,Comment
0,"Trop de ruptures , de produits arrêtés du jour..."
1,Je n'ai pas grand chose à dire sur les prix pa...
2,"Metro augmente ses prix à vu deuil, pour la li..."
3,Rupture de produit tout type de produit \n ( s...
4,Gros soucis du côté stationnement pour les véh...


In [11]:
context_entreprise = "Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro)."
role = "product owner"
cible = "client"
question = "Que recommanderiez-vous à Metro d'améliorer ?"
example_insight = "Manque de clarté de l'affichage des prix en magasin"

exemple_commentaire = "je suis exclusif metro je n ai aucun representant j achetais jusqu a present tout metro par facilite mais je suis tres souvent décue par la reponse ha non on n en a pas cela arrive demain je pense que depuis le covid tout le monde ou presque s en fou!!!"

examples_insights_df = pd.DataFrame([
    {"Insights qui devraient en découler": "Déceptions face aux retard de livraison"},
    {"Insights qui devraient en découler": "Impression d'une baisse de qualité du service depuis le Covid"},
])

feedback_context = {
            "context": context_entreprise,
            "role": role,
            "cible": cible,
            "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"",
            "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
            "nb_cat": "2",
            "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
            "categories": "\"Recrutement\" , \"Service global\"",
            "question": question,
            "exemple_commentaire": exemple_commentaire,
            "example_insights": '\n- '.join(list(examples_insights_df['Insights qui devraient en découler'])),
        }

feedback_context

{'context': 'Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).',
 'role': 'product owner',
 'cible': 'client',
 'insight_type': '"Point positif", "Point de douleur", "Nouvelle demande"',
 'insight_definition': 'Point positif : élément apprécié, Point de douleur : élément problématique',
 'nb_cat': '2',
 'avancement_mission': '"Avant mission", "Mission en cours", "Fin de mission"',
 'categories': '"Recrutement" , "Service global"',
 'question': "Que recommanderiez-vous à Metro d'améliorer ?",
 'exemple_commentaire': 'je suis exclusif metro je n ai aucun representant j achetais jusqu a present tout metro par facilite mais je suis tres souvent décue par la reponse ha non on n en a pas cela arrive demain je pense que depuis le covid tout le monde ou presque s en fou!!!',
 'example_insights': "Déceptions face aux retard de livraiso

In [12]:
perfect_insights = ["Aimerait être livré par METRO",
"Assortiment livraison trop réduit",
"Attente d'avoir un commercial",
"Beaucoup de produits ont été supprimés",
"Bonne relation avec le personnel",
"Clients satisfaits, rien à signaler",
"DLC trop courtes",
"Halles mal rangées, mal organisées",
"Livraison non satisfaisante",
"METRO reste pratique, répond aux besoins des pros",
"Manque de communication sur promos, hausses de prix",
"Manque de produits de région, locaux ou bio",
"Manque de suivi de certains produits",
"Peu de petits conditionnements, pas adapté aux petites structures",
"Problème de relations, service insuffisant",
"Qualité insuffisante de certains produits",
"Satisfait d'avoir des prix bloqués pour la saison",
"Souvent des ruptures",
"Attente facilités de paiement",
"Attentes d'opérations de déstockage",
"Attentes sur A2PM : assortiment, prix de référence trop élevé",
"Attentes sur le système de fidélité",
"Augmentation sur mercuriale sans être prévenu",
"Les clients livrés ne voient pas les prix en halles",
"Les produits sont trop chers, augmentent trop",
"METRO est plus cher que les concurrents",
"METRO reste plus cher que les grandes surfaces",
"Manque de promos, stocks insuffisants",
"Prix livrés trop élevés",
"Prix élevés pour un groupe international",
"Problèmes d'affichage prix ou prix inexacts",
"Paramétrer la codification"]

## Bubble API

In [13]:
COLUMNS_INSIGHTS = ["content", "backend_status", "status", "backend_type", "type", "backend_type", "company", "feedback_count", "parent", "project", "step", "tag"]

In [14]:
base_url = "https://blumana.app" #/version-test"
bubble_id = "04ca44f04c936081d8408b12c1ba67e2"

bubble_client = BubbleClient(
    base_url=base_url,
    api_token=bubble_id,
    bubble_version="test" #dev
)

In [15]:
#Randstad
#company_id = "1696884561832x730324245490558300"
#source_id = "1702244804258x371787369839591400"

#Metro
#Source : Dataset test - METRO
#Projet : METRO
company_id = "1705585399217x205117684451615600"
source_id = "1705851599107x404539534708310000"
project_id = "1705851616871x644869783878893600"


In [16]:
#bubble_client.delete_all("python_insight")

Feedbacks

In [17]:

res = bubble_client.get_objects(
        "Feedback",
        [
            BubbleField("source") == source_id,
            #Field("company") == company_id,
            ],
    )
feedbacks_df = pd.DataFrame(res)
feedbacks_df['Modified Date'] = pd.to_datetime(feedbacks_df['Modified Date'])
feedbacks_df['Created Date'] = pd.to_datetime(feedbacks_df['Created Date'])
#feedbacks_df.set_index('_id', inplace=True)
feedbacks_column = 'content' #"content"

feedbacks_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id
0,2024-01-23 13:01:24.684000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,95,[],1705851599759x115801332943705310
1,2024-01-23 13:01:25.540000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,[],1705851599759x118530353766926000
2,2024-01-23 13:01:25.869000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,[],1705851599759x119429130200745520
3,2024-01-23 13:01:26.675000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,63,[],1705851599759x120869695273613470
4,2024-01-23 13:01:27.422000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,[],1705851599759x123910318505263460


Types

In [18]:
res = bubble_client.get_objects(
        "Add-On",
    )
types_df = pd.DataFrame(res)
types_df['Modified Date'] = pd.to_datetime(types_df['Modified Date'])
types_df['Created Date'] = pd.to_datetime(types_df['Created Date'])
types_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,Title,Definition,_id
0,2023-11-29 20:08:33.257000+00:00,2023-10-27 19:01:30.120000+00:00,admin_user_sifter-63385_test,Point positif,Élément apprécié par le client ou l'utilisateur,1698433290120x936044292663509300
1,2023-11-29 20:08:18.542000+00:00,2023-10-27 19:01:40.253000+00:00,admin_user_sifter-63385_test,Point de douleur,Problème qui gène ou ennuie le client ou l'uti...,1698433300252x835626794232717300
2,2023-11-29 20:07:58.192000+00:00,2023-10-27 19:01:54.230000+00:00,admin_user_sifter-63385_test,Nouvelle demande,Suggestion d'évolution faite par le client ou ...,1698433314230x619003097145126100
3,2023-10-27 19:04:56.574000+00:00,2023-10-27 19:02:03.222000+00:00,admin_user_sifter-63385_test,Bug,Anomalie de fonctionnement de l'application dé...,1698433323222x402426615286320700


Tags

In [19]:
res = bubble_client.get_objects(
        "Tag",
        [
            BubbleField("company") == company_id,
            ],
    )
tags_df = pd.DataFrame(res)
tags_df['Modified Date'] = pd.to_datetime(tags_df['Modified Date'])
tags_df['Created Date'] = pd.to_datetime(tags_df['Created Date'])
tags_df.head()

Unnamed: 0,Created Date,Created By,Modified Date,Description,Name,Company,Projects,Filter,_id
0,2024-01-21 14:40:54.587000+00:00,admin_user_sifter-63385_test,2024-01-21 14:40:54.589000+00:00,Concerne les retours liés à un achat effectué ...,Magasin,1705585399217x205117684451615600,[],1705847852729x742507764532722400,1705848054587x622458924372477600
1,2024-01-21 14:41:22.881000+00:00,admin_user_sifter-63385_test,2024-01-21 14:42:43.769000+00:00,Concerne les retours liés à un achat effectué ...,Livraison,1705585399217x205117684451615600,[],1705847852729x742507764532722400,1705848082881x454792214332598400
2,2024-01-21 14:41:58.874000+00:00,admin_user_sifter-63385_test,2024-01-21 14:42:32.586000+00:00,Cette catégorie inclut les avis relatifs à la ...,Disponibilité des produits,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848118874x455206967781607300
3,2024-01-21 14:43:43.473000+00:00,admin_user_sifter-63385_test,2024-01-21 14:43:43.474000+00:00,Catégorie regroupant les avis concernant les p...,Politique de prix,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848223473x225401328908415580
4,2024-01-21 14:44:10.225000+00:00,admin_user_sifter-63385_test,2024-01-21 14:44:10.226000+00:00,"Avis portant sur la qualité, la fraîcheur ou l...",Qualité des produits,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848250225x478538894601366000


Filters

In [20]:
res = bubble_client.get_objects(
        "Filter",
        [
            BubbleField("company") == company_id,
            ],
    )
filters_df = pd.DataFrame(res)
filters_df

Unnamed: 0,Modified Date,Created Date,Created By,Company,Name,Projects,_id
0,2024-01-22T07:16:16.180Z,2024-01-21T14:37:18.457Z,admin_user_sifter-63385_test,1705585399217x205117684451615600,Thématiques,[1705851616871x644869783878893600],1705847838457x608321687289097300
1,2024-01-22T07:16:23.551Z,2024-01-21T14:37:32.729Z,admin_user_sifter-63385_test,1705585399217x205117684451615600,Mode d'achat,[1705851616871x644869783878893600],1705847852729x742507764532722400


## Useful functions

In [21]:
def clean_df(df):
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    return df

In [22]:
def batchify(iterable, size=1):
    l = len(iterable)
    for ndx in range(0, l, size):
        yield iterable[ndx:min(ndx + size, l)]

for x in batchify(list(range(0, 10)), 3):
    print(x)

[0, 1, 2]
[3, 4, 5]
[6, 7, 8]
[9]


In [23]:
def most_common(lst):
    return max(set(lst), key=lst.count)

In [24]:
feedbacks_df = feedbacks_df[:10]

# Feedbacks extraction

In [25]:
class Feedback(BaseModel):
    insights_list: List[str] = Field(description="Contenu et type des insights")
    content = ""
    sentiment: str = Field(description="Sentiment exprimé, peut être 'Positif', 'Neutre' ou 'Négatif'. Ne pas oublier les majuscules et accentuations.")
    # You can add custom validation logic easily with Pydantic.
    @validator("sentiment")
    def valid_sentiment(cls, field):
        if field not in ["Positif", "Neutre", "Négatif"]:
            raise ValueError("Sentiment "+field+" not valid.")
        return field

    def __str__(self):
        return "Commentaire: \""+ self.content+"\"\n\nSentiment: "+self.sentiment+"\n\nInsights: \n"+"\n\n".join([str(i) for i in self.insights_list])




In [26]:

prompt_template_feedback = """Tu es {role} au sein de l'entreprise suivante:
{context}

Tu as mené une enquête auprès de tes {cible}. 

Pour le retour qui te sera donné, effectue les étapes suivantes:

Étape 1 - Identifie si le sentiment exprimé par le {cible} est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question ayant été posée ({question}) afin de bien interpréter le sens du retour {cible}.
Attention à ne pas oublier l'accent si tu choisis Négatif.

Étape 2 - Identifie les insights à faire remonter à ton équipe dans le retour {cible}. Synthétise ces nouveaux insights en quelques mots qu'une personne de ton équipe puisse comprendre. Tu ne dois pas intégrer de nom, de prénom, d'email ou de numéro de téléphone dans ta formulation, même si le feedback évoque une donnée personnelle. Si aucun insight intéressant, renvoie une liste vide.

Par exemple, pour le retour suivant:
'''
{exemple_commentaire}
'''
on voudrait faire remonter les points suivants:
'''
- {example_insights}
'''

Si le commentaire n'est pas très intéressant, ne remonte aucun insight.

Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Voici le retour à traiter:
"{feedback}"
"""

#Si le {cible} n'a rien à signaler ("ras", "tout est ok", "rien à signaler") crée un insight dédié

In [27]:
feedback_parser = PydanticOutputParser(pydantic_object=Feedback)

prompt_feedback = PromptTemplate.from_template(
    template= prompt_template_feedback,
    partial_variables= {"format_instructions": feedback_parser.get_format_instructions()},
)

prompts = []
for feedback in feedbacks_df[feedbacks_column]:
    context = copy(feedback_context)
    context["feedback"] = feedback
    prompts.append(prompt_feedback.invoke(context))

#print(prompts[0].text)

In [28]:
parsed_responses = safe_async_analysis(prompts, feedback_parser)

feedbacks_df["sentiment"] = [rep.sentiment for rep in parsed_responses]
feedbacks_df["insights"] = [[] for rep in parsed_responses]

k=0
insights = []
for i, rep in enumerate(parsed_responses):
    for j, insight in enumerate(rep.insights_list):
        insights.append(insight)
        feedbacks_df["insights"].iloc[i].append(str(k))
        k += 1

In [29]:
feedbacks_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id
0,2024-01-23 13:01:24.684000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,95,"[0, 1]",1705851599759x115801332943705310
1,2024-01-23 13:01:25.540000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[2, 3, 4]",1705851599759x118530353766926000
2,2024-01-23 13:01:25.869000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,[5],1705851599759x119429130200745520
3,2024-01-23 13:01:26.675000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,63,[6],1705851599759x120869695273613470
4,2024-01-23 13:01:27.422000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,[7],1705851599759x123910318505263460


In [30]:
insights_df = pd.DataFrame({
    "content":insights,
    "feedback_count": 1,
    })

In [31]:
feedbacks_df

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id
0,2024-01-23 13:01:24.684000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,95,"[0, 1]",1705851599759x115801332943705310
1,2024-01-23 13:01:25.540000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[2, 3, 4]",1705851599759x118530353766926000
2,2024-01-23 13:01:25.869000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,[5],1705851599759x119429130200745520
3,2024-01-23 13:01:26.675000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,63,[6],1705851599759x120869695273613470
4,2024-01-23 13:01:27.422000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,[7],1705851599759x123910318505263460
5,2024-01-23 13:01:28.146000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Je ne comprends pas comment un grossiste comme...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,240,"[8, 9]",1705851599759x133516960359271180
6,2024-01-23 13:01:28.860000+00:00,2024-01-21 15:40:00.210000+00:00,1705847494855x437900943146650500,Nous regrettons que Métro ne propose plus d'en...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,237,"[10, 11, 12]",1705851599759x139047234470437000
7,2024-01-23 13:01:29.538000+00:00,2024-01-21 15:40:00.024000+00:00,1705847494855x437900943146650500,metro devrai mieux s'occuper des client sutout...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,179,"[13, 14]",1705851599759x147056969853707870
8,2024-01-23 13:01:30.241000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,Les prix sont trop élevés même avec le système...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,221,"[15, 16, 17]",1705851599759x147526339935997200
9,2024-01-23 13:01:30.709000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,livraison a revoir et les avoirs tpujours enat...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,51,"[18, 19]",1705851599759x160186801121862100


In [32]:
insights_df["related_feedback"] = [[] for _ in range(len(insights_df))]

for i, row in feedbacks_df.iterrows():
    for j in row["insights"]:
        insights_df["related_feedback"].iloc[int(j)] = row['_id'] #[int(i)]

insights_df["childrens"] = [[] for _ in range(len(insights_df))]

insights_df.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  insights_df["related_feedback"].iloc[int(j)] = row['_id'] #[int(i)]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  insights_df["related_feedback"].iloc[int(j)] = row['_id'] #[int(i)]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  insights_df["related_feedback"].iloc[int(j)] = row['_id'] #[int(i)]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.ht

Unnamed: 0,content,feedback_count,related_feedback,childrens
0,Demande de livraison de tous les produits disp...,1,1705851599759x115801332943705310,[]
1,Vente d'alcool à l'unité plutôt qu'en carton,1,1705851599759x115801332943705310,[]
2,Insuffisance de l'offre internet,1,1705851599759x118530353766926000,[]
3,Problème de comparaison des prix entre interne...,1,1705851599759x118530353766926000,[]
4,Problématique de transparence des coûts de liv...,1,1705851599759x118530353766926000,[]


# Insights categorisation

### Tagging

In [33]:
prompt_tags = ""

for i, filter in filters_df.iterrows():
    prompt_tags += '\n\n'+filter["Name"]#+' ('+filter["_id"] +')'
    tags = tags_df[tags_df["Filter"] == filter["_id"]]
    for _, tag in tags.iterrows():
        prompt_tags += '\n'+"- "+tag["Name"]+' ('+tag["_id"] +')'

print(prompt_tags)




Thématiques
- Disponibilité des produits (1705848118874x455206967781607300)
- Politique de prix (1705848223473x225401328908415580)
- Qualité des produits (1705848250225x478538894601366000)
- Expérience d'achat (1705848274056x125824383936905310)
- Service client (1705848302697x426707208945675400)

Mode d'achat
- Magasin (1705848054587x622458924372477600)
- Livraison (1705848082881x454792214332598400)


In [34]:

prompt_template_categorsiation = """Tu es {role} au sein de l'entreprise suivante :
{context}

Tu as mené une enquête auprès de tes {cible}. 

Tu dois associer à l'insight donné plus loin aucun, l'identifiant d'un ou plusieurs tags. S'il n'est pas possible d'associer un tag avec certitude dans l'une des catégories, laisse la liste vide. Répond avec la liste des identifiants suités entre parenthèse juste après les tags.
Par exemple, pour les tags suivants, le tag C d'identifiant 17049ZER93619x303734523452623450 appartient catégorie 2:
'''
catégotie 1 
- tag A (1704912293619x303734523452694300)
- tag B (17049ZER93619x303734523452694300)

catégotie 2 
- tag C (17049ZER93619x303734523452623450)
- tag D (170AZZER93619x303734524452623450)
'''

Voici les tags avec lesquels tu devras essayer de classifier l'insight:""" + prompt_tags + """

Tu ne dois par renvoyer le tag, mais uniquement son identifiant.
Un identifiant contient toujours un x à l'intérieur, comme par example 1704912293619x303731423452694300.
Ainsi, 1704912293619 n'est pas un identifiant valide.
Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Voici l'insight que tu dois essayer de catégoriser: '{insight}'
"""

In [35]:
class FirstInsight(BaseModel):
    tags_id: List[str] = Field(description="Identifiants des tags de l'insight")
    content: str = "" #Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nTypes: " + ', '.join(self.insight_types)

In [36]:
categorsiation_parser = PydanticOutputParser(pydantic_object=FirstInsight)

prompt_categorsiation = PromptTemplate.from_template(
    template= prompt_template_categorsiation,
    partial_variables= {"format_instructions": categorsiation_parser.get_format_instructions()},
)

prompts = []
for insight in insights_df["content"]:
    context = copy(feedback_context)
    context["insight"] = insight
    prompts.append(prompt_categorsiation.invoke(context))

#print(prompts[0].text)

In [37]:
parsed_responses = safe_async_analysis(prompts, categorsiation_parser)


In [38]:

insights_df["tag"] = [rep.tags_id for rep in parsed_responses]
#insights_df["Insights"] = [[] for rep in parsed_responses]


### Types affectation

In [39]:
prompt_types = ""

for _, tag in types_df.iterrows():
    prompt_types += '\n'+"- "+tag["Title"]+' ('+tag["_id"] +') : ' + tag["Definition"]

print(prompt_types)


- Point positif (1698433290120x936044292663509300) : Élément apprécié par le client ou l'utilisateur
- Point de douleur (1698433300252x835626794232717300) : Problème qui gène ou ennuie le client ou l'utilisateur
- Nouvelle demande (1698433314230x619003097145126100) : Suggestion d'évolution faite par le client ou l'utilisateur
- Bug (1698433323222x402426615286320700) : Anomalie de fonctionnement de l'application détectée par l'utilisateur


In [40]:

prompt_template_types = """Tu es {role} au sein de l'entreprise suivante :
{context}

Tu as mené une enquête auprès de tes {cible}. 

Catégorise l'insight qui te sera donné à l’aide de l'identifiant d'un des types qui te seront donnés. 
Tu dois associser exactement un type. Choisit celui qui est le plus pertinent.
Répond avec l'identifiants suités entre parenthèse juste après les types. La definition des types est située jsute après les double points. 
Par exemple, pour les types suivants, le type 2 a pour identifiant 1704912293619x303671423452694300.
'''
- type 1 (1704412293619x303731423423694300) : définition du type 1
- type 2 (1704912293619x303671423452694300) : définition du type 2
'''

Voici les types:""" + prompt_types + """

Tu ne dois par renvoyer le type, mais uniquement son identifiant.
Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Un identifiant contient toujours un x à l'intérieur, comme par example 1704912293619x303731423452694300.
Ainsi, 1704912293619 n'est pas un identifiant valide.

Voici l'insight que tu dois essayer de catégoriser: '{insight}'
"""

In [41]:
class FirstInsight(BaseModel):
    insight_type: str = Field(description="Identifiants du type de l'insight")
    content: str = "" #Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nType: " +self.insight_type

In [42]:
categorsiation_parser = PydanticOutputParser(pydantic_object=FirstInsight)

prompt_categorsiation = PromptTemplate.from_template(
    template= prompt_template_types,
    partial_variables= {"format_instructions": categorsiation_parser.get_format_instructions()},
)

prompts = []
for insight in insights_df["content"]:
    context = copy(feedback_context)
    context["insight"] = insight
    prompts.append(prompt_categorsiation.invoke(context))

#print(prompts[0].text)

In [43]:
parsed_responses = safe_async_analysis(prompts, categorsiation_parser)


In [44]:
insights_df["type"] = [rep.insight_type for rep in parsed_responses]

In [45]:
feedbacks_df.to_csv(project_path+'/feedbacks.csv', index_label='Index')
insights_df.to_csv(project_path+'/insights.csv', index_label='Index')

# Insights clustering

In [46]:
feedbacks_df = clean_df(pd.read_csv(project_path+'/feedbacks.csv', index_col='Index'))
insights_df = clean_df(pd.read_csv(project_path+'/insights.csv', index_col='Index'))



In [47]:
embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')

In [48]:
class DeducedInsight(BaseModel):
    insights_mineurs: List[int] = Field(description="Index des insights mineurs qui ont été résumés en cet insight.")
    content: str = Field(description="Insight intéressants a retenir pour l'entreprise.")

    def __str__(self):
        return '- ' + self.content + '\n Enfants:' + str(self.insights_mineurs)


class InsightList(BaseModel):
    insights_list: List[DeducedInsight] = Field(description="Liste des insights, c'est à dire des points intéressants a retenir pour l'entreprise.")
    # You can add custom validation logic easily with Pydantic.

    def __str__(self):
        return "Insights: \n"+"\n\n".join([str(i) for i in self.insights_list])



In [49]:

prompt_template_reduction = """Tu es {role} au sein de l'entreprise suivante:
{context}

Une liste d'insights mineurs a été identifiée à partir de retours {cible}.

Ils sont de très bonne qualité, et apportent des retours intéressants à l'entreprise en question. 
Mais il est possible que certains soient redondants ou inutilement précis, auquel cas nous souhaiterions les regrouper. 

Si c'est le cas, les insights redondants doivent être regroupés en un insight majeur. 
Si au contraite, l'insight à un sens bien dictinct des autres, il devient un insight majeur, et doit donc être recopié à l'identique. 

Pour transformers les insights mineurs en insights majeurs, suit ces quelques règles:

1) Si l'un des insights mineurs permet de synthétiser l'information du regroupement, il devient l'insight majeur du groupe. Recopie le à l'identique et associe lui les insights mineurs, y comprie lui même.

2) Si aucun des insights mineurs ne convient, formule un insight majeurs permettant de synthétiser leur sens. Voici les contraintes que doivent respecter ton insights majeur:
- Une personne de ton équipe qui lit un insight majeur doit pouvoir en comprendre le sens.
- Un insight majeur doit idéalement ne pas être trop long, tout en restant parfaitement compréhensible et pertinent. Les phrases nominales sont autorisées. 
- Un insight majeur ne doit comporter qu'une seule information : on ne mélange pas plusieurs éléments au sein d'un insight majeur. 

Un insight mineur doit être regroupé dans exactement un insight majeur. Rappelon que si l'insight mineur devient majeur, les deux auront le même contenu.
Ainsi, chaque insight mineur doit être l'enfant d'exactement un insight majeur que tu retournes.

Associe à chaque insight majeur l'indice des insights mineurs qui lui sont associés. 
Vérifie bien que les indices correspondent, et que tous les insights mineurs sont associés à un insight majeur. 
L'ordre des insights mineurs est aléatoire, et ne doit pas avoir d'importance dans ta réponse.

Réponds uniquement avec un ficher JSON, comme expliqué :
{format_instructions}

Voici la liste des insights mineurs que tu dois transformer en insights majeurs:
{insights}

"""


#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres.
#- Etre distincts les uns des autres.


In [50]:

prompt_template_regrouping = """Tu es {role} au sein de l'entreprise suivante:
{context}

Une liste d'insights a été identifiée à partir de retours clients.
Un insight est une déduction intéressante de l'étude des commentaires {cible}, qu'il serait vraiment intéressant faire remonter aux responsables de l'entreprise.
Par exemple, un bon insight pourrait être: {example_insight}

Si certain sont redondant, reformule les en un seul insight. Il est préférable qu'il ne soit pas trop long, et évite les bouts de phrase sans réel intéret. Par exemple, ne pas ajouter '... pour améliorer l'experience client'.
Associe à chaque nouvel insight créé l'ensemble des feedbacks qui sont associés aux insights qu'il regroupe.
Il est possible qu'il n'y ai besoin de regrouper aucun insight.
Un insight ne peut être regroupé que dans un seul autre insight.
Chaque insight doit donc être l'enfant d'exactement un insight que tu retournes.

Pour les insights qui n'ont pas besoin d'être regroupés, recopie les ainsi que leurs feedbacks associés.
L'ordre des insights est aléatoire, et ne doit pas avoir d'importance dans ta réponse.

{format_instructions}

Voici les insights que tu dois regrouper:

{insights}

Tu ne dois rien écrire d'autre que le JSON requis.

"""
#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres.
#- Etre distincts les uns des autres.
#Tu ne doit pas réecrir les insights qui ne sont pas regroupés.


In [51]:
# Dimension reduction
n_neighbors= 5 #15

minimisation_steps = 5
#cluster_desired_size = 2
min_cluster_size=3 #15
nb_insight_stop = 10
minimal_reduction_ratio = 0.1

insight_context = {
    "cible": cible,
    "context": context_entreprise,
    "example_insight": example_insight,
    "role": role,
    "question": question,
}

In [52]:
prompts

[StringPromptValue(text='Tu es product owner au sein de l\'entreprise suivante :\nMetro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).\n\nTu as mené une enquête auprès de tes client. \n\nCatégorise l\'insight qui te sera donné à l’aide de l\'identifiant d\'un des types qui te seront donnés. \nTu dois associser exactement un type. Choisit celui qui est le plus pertinent.\nRépond avec l\'identifiants suités entre parenthèse juste après les types. La definition des types est située jsute après les double points. \nPar exemple, pour les types suivants, le type 2 a pour identifiant 1704912293619x303671423452694300.\n\'\'\'\n- type 1 (1704412293619x303731423423694300) : définition du type 1\n- type 2 (1704912293619x303671423452694300) : définition du type 2\n\'\'\'\n\nVoici les types:\n- Point positif (1698433290120x936044292663509300)

In [57]:
insight_parser = PydanticOutputParser(pydantic_object=InsightList)

prompt_reduction = PromptTemplate.from_template(
    template= prompt_template_reduction,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)

prompt_regrouping = PromptTemplate.from_template(
    template= prompt_template_regrouping,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)

insights = copy(insights_df)
insight_layers = []#[copy(insights_df)]
single_cluster = False
reduction = 1.0

for step in range(minimisation_steps):

    #for processing_step in ["reduction"]:#, "regrouping"]:
        ### Création des représentations

    #print("Processing step:", processing_step)
    sentence_embeddings = embedding_model.encode(insights['content'])

    # On réduit la dimention pour améliorer l'efficacité de la clusterisation
    umap_embeddings = umap.UMAP(n_neighbors=n_neighbors, 
                        n_components=5, 
                        metric='cosine').fit_transform(sentence_embeddings)

    ### Clusterisation
    #num_clusters = 1 + len(insights) // cluster_desired_size
    #clustering_model = KMeans(n_clusters=num_clusters, n_init='auto')

    clustering_model = hdbscan.HDBSCAN(min_cluster_size=min_cluster_size,
                        metric='euclidean',                      
                        cluster_selection_method='eom')
    clustering_model.fit(umap_embeddings)

    #clustering_model.fit(umap_embeddings)
    cluster_assignment = clustering_model.labels_ 
    cluster_assignment -= min(cluster_assignment) # has to start at 0
    
    num_clusters = max(cluster_assignment)+1

    insights["cluster"] = cluster_assignment 
    insights = insights.sort_values("cluster")
    insights.reset_index(drop=True, inplace=True)


    if reduction <= minimal_reduction_ratio:
        print("Stopping because of unsufficient reduction")
        break

    insight_layers.append(copy(insights))

    if len(insights) <= nb_insight_stop:
        print("Minimal number of insights reached")
        break

    if single_cluster:
        break   

    cluter_sizes = list(insights.groupby(['cluster']).count()["content"])
    if len(cluter_sizes) == 1:
        print("Stopping because single cluster")
        single_cluster = False
        break

    print("Step "+ str(step)+ ": processing "+ str(num_clusters) + " clusters")
    print("Cluster sizes:" + str(cluter_sizes))

    clusters = []
    prompts = []
    cumul_size = 0
    for cluster_id in range(num_clusters): # IL FAUDRAIT GARDER INDEM LE DERNIER CLUSTER
        cluster = insights[insights['cluster'] == cluster_id]
        cluster_name ='/cluster_'+ str(cluster_id)+"_step_"+str(step) +'.csv'
        cluster.to_csv( project_path+cluster_name, index_label='Index')
        clusters.append(cluster)

        context = copy(insight_context)
        context['insights'] = '\n'.join([str(i+cumul_size)+": "+s for i, s in enumerate(cluster["content"])])
        #print(context['insights'])

        #if processing_step == "reduction":
        prompt=prompt_reduction.invoke(context)
        #elif processing_step == "regrouping":
        #prompt=prompt_regrouping.invoke(context)
        #else:
        #    raise("Wrong processing step")
        prompts.append(prompt)
        cumul_size += len(cluster)

    ### Traitement des clusters
    parsed_responses = safe_async_analysis(prompts, insight_parser)
    
    new_insights = []
    for i, parsed_response in enumerate(parsed_responses):
        content_list = [insight.content for insight in parsed_response.insights_list]
        childrens_list = [list(insight.insights_mineurs) for insight in parsed_response.insights_list]
        feedback_count_list = [sum(insights.loc[c, "feedback_count"]) for c in childrens_list]
        dfs = pd.DataFrame({
            #"related_feedback":[list(itertools.chain.from_iterable(insights.iloc[insight.insights_mineurs]['related_feedback'])) for insight in parsed_response.insights_list],
            "content":content_list,
            "childrens":childrens_list,
            "type": most_common([insights.loc[c, "type"].iloc[0] for c in childrens_list]),
            #"cluster":i,
            "feedback_count":feedback_count_list,
            #"childrens":[list(clusters[i].iloc[insight.insights_mineurs]["_id"]) for insight in parsed_response.insights_list],
            })
        new_insights.append(dfs)

    new_insights = pd.concat(new_insights)
    new_insights.reset_index(drop=True, inplace=True)

    
    reduction = (1-(len(new_insights)/len(insights)))
    insights = new_insights
    
    print("Number of new insights:"+ str(len(new_insights)))
    print("Reduction in the number of insights by " + "%d" % int(reduction*100) + "%")
    print()

#insight_layers.append(copy(new_insights))

Step 0: processing 3 clusters
Cluster sizes:[4, 11, 5]
Number of new insights:16
Reduction in the number of insights by 19%

Step 1: processing 3 clusters
Cluster sizes:[4, 4, 8]
Number of new insights:16
Reduction in the number of insights by 0%

Stopping because of unsufficient reduction


In [58]:
list(insight_layers[0]['content'])

["Vente d'alcool à l'unité plutôt qu'en carton",
 'Problème de comparaison des prix entre internet et magasin',
 'Amélioration de la prise en charge des clients qui achètent en grande quantité',
 'Préférence pour les promotions papier ou digitales',
 'Demande de livraison de tous les produits disponibles en magasin',
 'Livraison sans condition proposée par concurrent',
 "Mise à disposition d'équipements pour aider au chargement dans les véhicules des clients",
 "Réduction de l'offre traiteur durant les fêtes",
 "Absence d'entrées chaudes",
 'Délais dans la gestion des avoirs',
 'Opportunités de destockage chez les concurrents',
 'Désorganisation et difficulté dans le rangement en magasin',
 'Problématique de transparence des coûts de livraison',
 "Insuffisance de l'offre internet",
 'Problèmes de livraison',
 'Prix plus élevés que la grande distribution même pour des produits similaires',
 'Insatisfaction quant à la disparition de produits de qualité à prix abordables',
 'Prix élevés p

In [59]:
list(insight_layers[-1]['content'])

["Vente d'alcool à l'unité plutôt qu'en carton",
 'Problème de comparaison des prix entre internet et magasin',
 'Préférence pour les promotions papier ou digitales',
 'Délais dans la gestion des avoirs',
 "Problèmes d'offre traiteur durant les fêtes",
 'Problèmes de livraison et de transparence des coûts',
 "Insuffisance de l'offre internet",
 'Problèmes de compétitivité des prix',
 'Amélioration de la prise en charge des clients en grande quantité',
 'Demande de livraison de tous les produits disponibles en magasin',
 'Livraison sans condition proposée par concurrent',
 "Mise à disposition d'équipements pour aider au chargement dans les véhicules des clients",
 'Opportunités de destockage chez les concurrents',
 'Désorganisation et difficulté dans le rangement en magasin',
 'Disparition de produits de qualité à prix abordables',
 'Concurrence offre de meilleures options de relevés de prix']

In [60]:
for i, df in enumerate(insight_layers):
    df.to_csv(project_path+'/insights_'+ str(i) +'.csv', index_label='Index')

In [61]:
#list(insight_layers[0][insight_layers[0]["cluster"] == 2]["content"])

In [62]:
insight_layers[0]

Unnamed: 0,content,feedback_count,related_feedback,childrens,tag,type,cluster
0,Vente d'alcool à l'unité plutôt qu'en carton,1,1705851599759x115801332943705310,[],[],1698433314230x619003097145126100,0
1,Problème de comparaison des prix entre interne...,1,1705851599759x118530353766926000,[],"[1705848223473x225401328908415580, 17058480545...",1698433300252x835626794232717300,0
2,Amélioration de la prise en charge des clients...,1,1705851599759x147056969853707870,[],"[1705848223473x225401328908415580, 17058482740...",1698433314230x619003097145126100,0
3,Préférence pour les promotions papier ou digit...,1,1705851599759x123910318505263460,[],"[1705848274056x125824383936905310, 17058483026...",1698433314230x619003097145126100,0
4,Demande de livraison de tous les produits disp...,1,1705851599759x115801332943705310,[],"[1705848082881x454792214332598400, 17058481188...",1698433314230x619003097145126100,1
5,Livraison sans condition proposée par concurrent,1,1705851599759x147526339935997200,[],[1705848082881x454792214332598400],1698433314230x619003097145126100,1
6,Mise à disposition d'équipements pour aider au...,1,1705851599759x147056969853707870,[],"[1705848274056x125824383936905310, 17058483026...",1698433314230x619003097145126100,1
7,Réduction de l'offre traiteur durant les fêtes,1,1705851599759x139047234470437000,[],"[1705848118874x455206967781607300, 17058482234...",1698433300252x835626794232717300,1
8,Absence d'entrées chaudes,1,1705851599759x139047234470437000,[],[],1698433300252x835626794232717300,1
9,Délais dans la gestion des avoirs,1,1705851599759x160186801121862100,[],[],1698433300252x835626794232717300,1


In [63]:
insight_layers[1]

Unnamed: 0,content,childrens,type,feedback_count,cluster
0,Vente d'alcool à l'unité plutôt qu'en carton,[0],1698433314230x619003097145126100,1,0
1,Problème de comparaison des prix entre interne...,[1],1698433314230x619003097145126100,1,0
2,Préférence pour les promotions papier ou digit...,[3],1698433314230x619003097145126100,1,0
3,Délais dans la gestion des avoirs,[9],1698433300252x835626794232717300,1,0
4,Problèmes d'offre traiteur durant les fêtes,"[7, 8]",1698433300252x835626794232717300,2,1
5,Problèmes de livraison et de transparence des ...,"[12, 14]",1698433300252x835626794232717300,2,1
6,Insuffisance de l'offre internet,[13],1698433300252x835626794232717300,1,1
7,Problèmes de compétitivité des prix,"[15, 17, 19]",1698433300252x835626794232717300,3,1
8,Amélioration de la prise en charge des clients...,[2],1698433314230x619003097145126100,1,2
9,Demande de livraison de tous les produits disp...,[4],1698433300252x835626794232717300,1,2


In [64]:
n_layers = len(insight_layers)
layers_sizes = [len(l) for l in insight_layers]
print("Layers sizes:", layers_sizes)

Layers sizes: [20, 16]


# Data cleaning

In [65]:
insight_layers = []
for i in range(n_layers):
    df = pd.read_csv(project_path+'/insights_'+ str(i) +'.csv', index_col='Index')
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    #df['tag'] = df['tag'].apply(lambda x: eval(x))
    #df['type'] = df['type'].apply(lambda x: eval(x))
    #df['childrens'] = df['childrens'].apply(lambda x: eval(x))
    insight_layers.append(df)
#insights_df = pd.concat(insight_layers)

Previous insights supression

In [66]:
res = bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("project") == project_id,
            BubbleField("company") == company_id,
            ],
    )
python_insight_df = pd.DataFrame(res)

if len(python_insight_df)>0:
    for bubble_id in tqdm(python_insight_df["_id"]):
        bubble_client.delete_by_id(
            "python_insight",
            bubble_id,
        )

    print("Deleted", len(python_insight_df), "python_insight")
else:
    print("Nothing to delete")

  0%|          | 0/69 [00:00<?, ?it/s]

Deleted 69 python_insight


Adding parents

In [67]:
insight_layers[0]["parent"] = None #[[] for _ in insight_layers[0].iterrows()]
insight_layers[-1]["parent"] = None


for i in range(n_layers-1):
    insight_layers[i]["parent"] = None
    for p, row in insight_layers[i+1].iterrows():
        for c in row["childrens"]: #eval(
            insight_layers[i]["parent"].iloc[int(c)] = p

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  insight_layers[i]["parent"].iloc[int(c)] = p
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  insight_layers[i]["parent"].iloc[int(c)] = p
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  insight_layers[i]["parent"].iloc[int(c)] = p
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  insight_layers[i]["parent"].iloc[

In [68]:
insight_layers[-1]["parents"] = [[] for _ in insight_layers[-1].iterrows()]

for i in range(n_layers-2, -1, -1):
    print(i)
    # Update the parents in the DB
    res = bubble_client.create(
        "python_insight",
        [{
            "company": company_id,
            "project": project_id,
            "content": row["content"],
            "backend_status": "new",
            "feedback_count": 1,
            "step": i+2,
            "type": row["type"],
            "parents": row["parents"],
            "parent": str(row["parent"]),
            "childrens": eval(row["childrens"]) if type(row["childrens"])==str else row["childrens"],
        }  for _, row in insight_layers[i+1].iterrows()]
    )

    df = pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+2,
            BubbleField("company") == company_id,
            ],
    ))
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    insight_layers[i+1] = df

    # Initialize an empty list of parents for each row
    insight_layers[i]["parents"] = [[] for _ in insight_layers[i].iterrows()]

    for k, row in insight_layers[i].iterrows():
        if row["parent"] is not None:
            # Get the parent index
            parent_index = row["parent"]

            # Get the parent's list of parents
            parent_parents = insight_layers[i + 1]["parents"].iloc[parent_index]

            # Add the parent to the current row's list of parents
            parent_id = insight_layers[i + 1].loc[parent_index, '_id']
            insight_layers[i].loc[k, "parents"].append(parent_id)

            # Recursively add the parent's parents to the current row's list of parents
            insight_layers[i].loc[k, "parents"].extend(parent_parents)


0


In [70]:

res = bubble_client.create(
        "python_insight",
        [{
            "company": company_id,
            "project": project_id,
            "content": row["content"],
            "backend_status": "new",
            "feedback_count": 1,
            "step": 1,
            "related_feedback":row['related_feedback'],
            "tag": row["tag"],
            "type": row["type"],
            "parents": row["parents"],
            "parent": str(row["parent"]),
            "childrens": 0#[[] for _ in insight_layers[0][:1000].iterrows()],
        }  for _, row in insight_layers[0].iterrows()]
    )

In [71]:
online_python_insights = [
    pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+1,
            BubbleField("company") == company_id,
            ],
    )) for i in range(n_layers)
]
[len(l) for l in online_python_insights]


[20, 16]

In [79]:
feedbacks_df

Unnamed: 0_level_0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,2024-01-23 13:01:24.684000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,95,"[0, 1]",1705851599759x115801332943705310
1,2024-01-23 13:01:25.540000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[2, 3, 4]",1705851599759x118530353766926000
2,2024-01-23 13:01:25.869000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,[5],1705851599759x119429130200745520
3,2024-01-23 13:01:26.675000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,63,[6],1705851599759x120869695273613470
4,2024-01-23 13:01:27.422000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,[7],1705851599759x123910318505263460
5,2024-01-23 13:01:28.146000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Je ne comprends pas comment un grossiste comme...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,240,"[8, 9]",1705851599759x133516960359271180
6,2024-01-23 13:01:28.860000+00:00,2024-01-21 15:40:00.210000+00:00,1705847494855x437900943146650500,Nous regrettons que Métro ne propose plus d'en...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,237,"[10, 11, 12]",1705851599759x139047234470437000
7,2024-01-23 13:01:29.538000+00:00,2024-01-21 15:40:00.024000+00:00,1705847494855x437900943146650500,metro devrai mieux s'occuper des client sutout...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,179,"[13, 14]",1705851599759x147056969853707870
8,2024-01-23 13:01:30.241000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,Les prix sont trop élevés même avec le système...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,221,"[15, 16, 17]",1705851599759x147526339935997200
9,2024-01-23 13:01:30.709000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,livraison a revoir et les avoirs tpujours enat...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,51,"[18, 19]",1705851599759x160186801121862100


In [73]:
insight_layers[0]

Unnamed: 0_level_0,content,feedback_count,related_feedback,childrens,tag,type,cluster,parent,parents
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,Vente d'alcool à l'unité plutôt qu'en carton,1,1705851599759x115801332943705310,[],[],1698433314230x619003097145126100,0,0,[1706115139170x176066618262017860]
1,Problème de comparaison des prix entre interne...,1,1705851599759x118530353766926000,[],"[1705848223473x225401328908415580, 17058480545...",1698433300252x835626794232717300,0,1,[1706115139172x999814523808118700]
2,Amélioration de la prise en charge des clients...,1,1705851599759x147056969853707870,[],"[1705848223473x225401328908415580, 17058482740...",1698433314230x619003097145126100,0,8,[1706115139181x492181878485639300]
3,Préférence pour les promotions papier ou digit...,1,1705851599759x123910318505263460,[],"[1705848274056x125824383936905310, 17058483026...",1698433314230x619003097145126100,0,2,[1706115139173x211190355417851800]
4,Demande de livraison de tous les produits disp...,1,1705851599759x115801332943705310,[],"[1705848082881x454792214332598400, 17058481188...",1698433314230x619003097145126100,1,9,[1706115139182x639034486674913800]
5,Livraison sans condition proposée par concurrent,1,1705851599759x147526339935997200,[],[1705848082881x454792214332598400],1698433314230x619003097145126100,1,10,[1706115139183x403073150503908200]
6,Mise à disposition d'équipements pour aider au...,1,1705851599759x147056969853707870,[],"[1705848274056x125824383936905310, 17058483026...",1698433314230x619003097145126100,1,11,[1706115139184x493306245997971800]
7,Réduction de l'offre traiteur durant les fêtes,1,1705851599759x139047234470437000,[],"[1705848118874x455206967781607300, 17058482234...",1698433300252x835626794232717300,1,4,[1706115139177x176034103581617080]
8,Absence d'entrées chaudes,1,1705851599759x139047234470437000,[],[],1698433300252x835626794232717300,1,4,[1706115139177x176034103581617080]
9,Délais dans la gestion des avoirs,1,1705851599759x160186801121862100,[],[],1698433300252x835626794232717300,1,3,[1706115139176x330727317825570050]


In [87]:
df = insight_layers[0]

def get_all_parents(feedback_identifier):
    parents = []
    for i, row in df.loc[df['related_feedback'] == feedback_identifier].iterrows():
        for parent in row['parents']:
            parents.append(parent)
    return parents

feedbacks_df['parents'] = feedbacks_df['_id'].apply(get_all_parents)

feedbacks_df


Unnamed: 0_level_0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id,parents
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,2024-01-23 13:01:24.684000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,95,"[0, 1]",1705851599759x115801332943705310,"[1706115139170x176066618262017860, 17061151391..."
1,2024-01-23 13:01:25.540000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[2, 3, 4]",1705851599759x118530353766926000,"[1706115139172x999814523808118700, 17061151391..."
2,2024-01-23 13:01:25.869000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,[5],1705851599759x119429130200745520,[1706115139192x387446849877817400]
3,2024-01-23 13:01:26.675000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,63,[6],1705851599759x120869695273613470,[1706115139190x523785184278189600]
4,2024-01-23 13:01:27.422000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,[7],1705851599759x123910318505263460,[1706115139173x211190355417851800]
5,2024-01-23 13:01:28.146000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Je ne comprends pas comment un grossiste comme...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,240,"[8, 9]",1705851599759x133516960359271180,"[1706115139180x293727936415107300, 17061151391..."
6,2024-01-23 13:01:28.860000+00:00,2024-01-21 15:40:00.210000+00:00,1705847494855x437900943146650500,Nous regrettons que Métro ne propose plus d'en...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,237,"[10, 11, 12]",1705851599759x139047234470437000,"[1706115139177x176034103581617080, 17061151391..."
7,2024-01-23 13:01:29.538000+00:00,2024-01-21 15:40:00.024000+00:00,1705847494855x437900943146650500,metro devrai mieux s'occuper des client sutout...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,179,"[13, 14]",1705851599759x147056969853707870,"[1706115139181x492181878485639300, 17061151391..."
8,2024-01-23 13:01:30.241000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,Les prix sont trop élevés même avec le système...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,221,"[15, 16, 17]",1705851599759x147526339935997200,"[1706115139183x403073150503908200, 17061151391..."
9,2024-01-23 13:01:30.709000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,livraison a revoir et les avoirs tpujours enat...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,51,"[18, 19]",1705851599759x160186801121862100,"[1706115139176x330727317825570050, 17061151391..."


In [91]:
for _, row in tqdm(feedbacks_df.iterrows()):
    res = bubble_client.update_object(
        "Feedbacks",
        row['_id'], 
        {
            "insights": row["parents"],
        } 
    )

0it [00:00, ?it/s]