# Dependancies

## Requirements

In [495]:
#!pip install sentence_transformers langchain openai tqdm datasets asyncio scikit-learn cohere tiktoken umap altair

In [496]:
import numpy as np
import re
import pandas as pd
from tqdm.notebook import tqdm
from datasets import load_dataset
import umap
import altair as alt
from sklearn.metrics.pairwise import cosine_similarity
import warnings
from sentence_transformers import SentenceTransformer
import pprint
from typing import List

from langchain_community.llms import Ollama
from langchain.output_parsers.regex_dict import RegexDictParser
from langchain.output_parsers import PydanticOutputParser
from langchain_core.messages import HumanMessage, SystemMessage, ChatMessage
from langchain.prompts import ChatPromptTemplate, PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from openai import AsyncOpenAI
import asyncio
import os

import requests
import json
from bubble_api import Field as BubbleField
from bubble_api import BubbleClient

import itertools
from copy import copy
from tqdm.notebook import tqdm, trange
from sklearn.cluster import KMeans

import umap.umap_ as umap
#import umap
import hdbscan

import openai
openai.api_key = "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"


## Models

In [497]:
import os
os.environ["OPENAI_API_KEY"] = "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"

In [498]:
client = AsyncOpenAI()

embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')
GENERATION_ENGINE = "gpt-4-1106-preview"
EMBEDDING_ENGINE = "text-embedding-ada-002"

import nest_asyncio
nest_asyncio.apply()

In [529]:
async def get_analysis(prompt):
    response = await client.chat.completions.create(
        messages=[
            #{"role": "system", "content": "You are a helpful assistant designed to output JSON."},
            {"role": "user", "content": str(prompt)},
        ],
        response_format={ "type": "json_object" },
        model=GENERATION_ENGINE)
    return response.choices[0].message.content

def apply_async_analysis(prompts):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_analysis(prompt)) for prompt in prompts]
    return loop.run_until_complete(asyncio.gather(*tasks))


In [530]:
def safe_async_analysis(prompts, parser, max_steps=3):
    results = [None for _ in prompts]
    to_be_run = list(range(len(prompts)))
    step = 0
    while to_be_run != []:
        #print("step:", step)
        #print("to_be_run:", len(to_be_run))
        assert step < max_steps
        bugs = []
        
        responses = apply_async_analysis([prompts[i] for i in to_be_run])

        for i in to_be_run:
            assert results[i] is None
            try:
                try:
                    parsed_response = parser.parse(responses[i])
                except:
                    parsed_response = parser.parse('{"properties":'+responses[i]+'}')
                    print("handled properties!")
                results[i] = parsed_response
            except:
                if max_steps==0:
                    print("prompt")
                    print(prompts[i].text)

                    print("reponse")
                    print(responses[i])

                    print("others:")
                    print(responses)

                    parsed_response = parser.parse(responses[i])
                bugs.append(i)

        to_be_run = bugs
        step += 1
    assert None not in results
    return results
    

In [531]:
async def get_embedding(text):
    response = await client.embeddings.create(input=text, model=EMBEDDING_ENGINE)
    return response.data[0].embedding

def apply_async_get_embedding(dfi):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_embedding(row['Comment'])) for _, row in dfi.iterrows()]
    return loop.run_until_complete(asyncio.gather(*tasks))

## Data

In [532]:
PROJECT =  "Metro" #"Cheerz"
project_path = 'Results/'+PROJECT
os.makedirs(project_path, exist_ok=True)

In [533]:
try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')

    path = '/content/drive/MyDrive/Blumana Folder'
else:
    path = "/Users/gardille/development/Blumana"

In [534]:
feedbacks_df = pd.read_csv(path+"/Data/Commentaires/metro.csv") #, index_col="Index")
#feedbacks_df = pd.read_csv("data/Trustpilot/cheerz_fr.csv", index_col="Index")
#feedbacks_df["Comment"] = feedbacks_df["Title"] + '\n' + feedbacks_df["content"]
feedbacks_column = 'Comment' #"Content"
feedbacks_df.head()

Unnamed: 0,Comment
0,"Trop de ruptures , de produits arrêtés du jour..."
1,Je n'ai pas grand chose à dire sur les prix pa...
2,"Metro augmente ses prix à vu deuil, pour la li..."
3,Rupture de produit tout type de produit \n ( s...
4,Gros soucis du côté stationnement pour les véh...


In [535]:
context_entreprise = "Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro)."
role = "product owner"
cible = "client"
question = "Que recommanderiez-vous à Metro d'améliorer ?"
example_insight = "Manque de clarté de l'affichage des prix en magasin"

exemple_commentaire = "je suis exclusif metro je n ai aucun representant j achetais jusqu a present tout metro par facilite mais je suis tres souvent décue par la reponse ha non on n en a pas cela arrive demain je pense que depuis le covid tout le monde ou presque s en fou!!!"

examples_insights_df = pd.DataFrame([
    {"Insights qui devraient en découler": "Déceptions face aux retard de livraison"},
    {"Insights qui devraient en découler": "Impression d'une baisse de qualité du service depuis le Covid"},
])

feedback_context = {
            "context": context_entreprise,
            "role": role,
            "cible": cible,
            "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"",
            "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
            "nb_cat": "2",
            #"avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
            "categories": "\"Recrutement\" , \"Service global\"",
            "question": question,
            "exemple_commentaire": exemple_commentaire,
            "example_insights": '\n- '.join(list(examples_insights_df['Insights qui devraient en découler'])),
        }

feedback_context

{'context': 'Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).',
 'role': 'product owner',
 'cible': 'client',
 'insight_type': '"Point positif", "Point de douleur", "Nouvelle demande"',
 'insight_definition': 'Point positif : élément apprécié, Point de douleur : élément problématique',
 'nb_cat': '2',
 'categories': '"Recrutement" , "Service global"',
 'question': "Que recommanderiez-vous à Metro d'améliorer ?",
 'exemple_commentaire': 'je suis exclusif metro je n ai aucun representant j achetais jusqu a present tout metro par facilite mais je suis tres souvent décue par la reponse ha non on n en a pas cela arrive demain je pense que depuis le covid tout le monde ou presque s en fou!!!',
 'example_insights': "Déceptions face aux retard de livraison\n- Impression d'une baisse de qualité du service depuis le Covid"}

## Bubble API

In [536]:
COLUMNS_INSIGHTS = ["content", "backend_status", "status", "backend_type", "type", "company", "feedback_count", "parent", "project", "step", "tag"]

In [537]:
base_url = "https://blumana.app" #/version-test"
bubble_id = "04ca44f04c936081d8408b12c1ba67e2"

bubble_client = BubbleClient(
    base_url=base_url,
    api_token=bubble_id,
    bubble_version="test" #dev
)

In [538]:
#Randstad
#company_id = "1696884561832x730324245490558300"
#source_id = "1702244804258x371787369839591400"

#Metro
#Source : Dataset test - METRO
#Projet : METRO
company_id = "1705585399217x205117684451615600"
source_id = "1705851599107x404539534708310000"
project_id = "1705851616871x644869783878893600"


In [539]:
#bubble_client.delete_all("python_insight")

Feedbacks

In [540]:

res = bubble_client.get_objects(
        "Feedback",
        [
            BubbleField("source") == source_id,
            #Field("company") == company_id,
            ],
    )
feedbacks_df = pd.DataFrame(res)
feedbacks_df['Modified Date'] = pd.to_datetime(feedbacks_df['Modified Date'])
feedbacks_df['Created Date'] = pd.to_datetime(feedbacks_df['Created Date'])
#feedbacks_df.set_index('_id', inplace=True)
feedbacks_column = 'content' #"content"

feedbacks_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id
0,2024-01-30 22:36:31.278000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,95,[],1705851599759x115801332943705310
1,2024-01-30 22:36:31.656000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,[],1705851599759x118530353766926000
2,2024-01-30 22:36:32.014000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,[],1705851599759x119429130200745520
3,2024-01-25 13:15:45.483000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,63,[],1705851599759x120869695273613470
4,2024-01-30 22:36:32.606000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,[],1705851599759x123910318505263460


Types

In [541]:
res = bubble_client.get_objects(
        "Add-On",
    )
types_df = pd.DataFrame(res)
types_df['Modified Date'] = pd.to_datetime(types_df['Modified Date'])
types_df['Created Date'] = pd.to_datetime(types_df['Created Date'])
types_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,Title,Definition,_id
0,2023-11-29 20:08:33.257000+00:00,2023-10-27 19:01:30.120000+00:00,admin_user_sifter-63385_test,Point positif,Élément apprécié par le client ou l'utilisateur,1698433290120x936044292663509300
1,2023-11-29 20:08:18.542000+00:00,2023-10-27 19:01:40.253000+00:00,admin_user_sifter-63385_test,Point de douleur,Problème qui gène ou ennuie le client ou l'uti...,1698433300252x835626794232717300
2,2023-11-29 20:07:58.192000+00:00,2023-10-27 19:01:54.230000+00:00,admin_user_sifter-63385_test,Nouvelle demande,Suggestion d'évolution faite par le client ou ...,1698433314230x619003097145126100
3,2023-10-27 19:04:56.574000+00:00,2023-10-27 19:02:03.222000+00:00,admin_user_sifter-63385_test,Bug,Anomalie de fonctionnement de l'application dé...,1698433323222x402426615286320700


Tags

In [542]:
res = bubble_client.get_objects(
        "Tag",
        [
            BubbleField("company") == company_id,
            ],
    )
tags_df = pd.DataFrame(res)
tags_df['Modified Date'] = pd.to_datetime(tags_df['Modified Date'])
tags_df['Created Date'] = pd.to_datetime(tags_df['Created Date'])
tags_df.head()

Unnamed: 0,Created Date,Created By,Modified Date,Description,Name,Company,Projects,Filter,_id
0,2024-01-21 14:40:54.587000+00:00,admin_user_sifter-63385_test,2024-01-21 14:40:54.589000+00:00,Concerne les retours liés à un achat effectué ...,Magasin,1705585399217x205117684451615600,[],1705847852729x742507764532722400,1705848054587x622458924372477600
1,2024-01-21 14:41:22.881000+00:00,admin_user_sifter-63385_test,2024-01-21 14:42:43.769000+00:00,Concerne les retours liés à un achat effectué ...,Livraison,1705585399217x205117684451615600,[],1705847852729x742507764532722400,1705848082881x454792214332598400
2,2024-01-21 14:41:58.874000+00:00,admin_user_sifter-63385_test,2024-01-21 14:42:32.586000+00:00,Cette catégorie inclut les avis relatifs à la ...,Disponibilité des produits,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848118874x455206967781607300
3,2024-01-21 14:43:43.473000+00:00,admin_user_sifter-63385_test,2024-01-21 14:43:43.474000+00:00,Catégorie regroupant les avis concernant les p...,Politique de prix,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848223473x225401328908415580
4,2024-01-21 14:44:10.225000+00:00,admin_user_sifter-63385_test,2024-01-21 14:44:10.226000+00:00,"Avis portant sur la qualité, la fraîcheur ou l...",Qualité des produits,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848250225x478538894601366000


In [543]:
tags_df

Unnamed: 0,Created Date,Created By,Modified Date,Description,Name,Company,Projects,Filter,_id
0,2024-01-21 14:40:54.587000+00:00,admin_user_sifter-63385_test,2024-01-21 14:40:54.589000+00:00,Concerne les retours liés à un achat effectué ...,Magasin,1705585399217x205117684451615600,[],1705847852729x742507764532722400,1705848054587x622458924372477600
1,2024-01-21 14:41:22.881000+00:00,admin_user_sifter-63385_test,2024-01-21 14:42:43.769000+00:00,Concerne les retours liés à un achat effectué ...,Livraison,1705585399217x205117684451615600,[],1705847852729x742507764532722400,1705848082881x454792214332598400
2,2024-01-21 14:41:58.874000+00:00,admin_user_sifter-63385_test,2024-01-21 14:42:32.586000+00:00,Cette catégorie inclut les avis relatifs à la ...,Disponibilité des produits,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848118874x455206967781607300
3,2024-01-21 14:43:43.473000+00:00,admin_user_sifter-63385_test,2024-01-21 14:43:43.474000+00:00,Catégorie regroupant les avis concernant les p...,Politique de prix,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848223473x225401328908415580
4,2024-01-21 14:44:10.225000+00:00,admin_user_sifter-63385_test,2024-01-21 14:44:10.226000+00:00,"Avis portant sur la qualité, la fraîcheur ou l...",Qualité des produits,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848250225x478538894601366000
5,2024-01-21 14:44:34.056000+00:00,admin_user_sifter-63385_test,2024-01-21 14:44:34.057000+00:00,Cette catégorie englobe les retours d'expérien...,Expérience d'achat,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848274056x125824383936905310
6,2024-01-21 14:45:02.697000+00:00,admin_user_sifter-63385_test,2024-01-21 14:45:02.698000+00:00,Commentaires relatifs à l'interaction avec le ...,Service client,1705585399217x205117684451615600,[],1705847838457x608321687289097300,1705848302697x426707208945675400


Filters

In [544]:
res = bubble_client.get_objects(
        "Filter",
        [
            BubbleField("company") == company_id,
            ],
    )
filters_df = pd.DataFrame(res)
filters_df

Unnamed: 0,Modified Date,Created Date,Created By,Company,Name,Projects,_id
0,2024-01-22T07:16:16.180Z,2024-01-21T14:37:18.457Z,admin_user_sifter-63385_test,1705585399217x205117684451615600,Thématiques,[1705851616871x644869783878893600],1705847838457x608321687289097300
1,2024-01-22T07:16:23.551Z,2024-01-21T14:37:32.729Z,admin_user_sifter-63385_test,1705585399217x205117684451615600,Mode d'achat,[1705851616871x644869783878893600],1705847852729x742507764532722400


## Useful functions

In [545]:
def clean_df(df):
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    return df

In [546]:
def batchify(iterable, size=1):
    l = len(iterable)
    for ndx in range(0, l, size):
        yield iterable[ndx:min(ndx + size, l)]

for x in batchify(list(range(0, 10)), 3):
    print(x)

[0, 1, 2]
[3, 4, 5]
[6, 7, 8]
[9]


In [547]:
types_df

Unnamed: 0,Modified Date,Created Date,Created By,Title,Definition,_id
0,2023-11-29 20:08:33.257000+00:00,2023-10-27 19:01:30.120000+00:00,admin_user_sifter-63385_test,Point positif,Élément apprécié par le client ou l'utilisateur,1698433290120x936044292663509300
1,2023-11-29 20:08:18.542000+00:00,2023-10-27 19:01:40.253000+00:00,admin_user_sifter-63385_test,Point de douleur,Problème qui gène ou ennuie le client ou l'uti...,1698433300252x835626794232717300
2,2023-11-29 20:07:58.192000+00:00,2023-10-27 19:01:54.230000+00:00,admin_user_sifter-63385_test,Nouvelle demande,Suggestion d'évolution faite par le client ou ...,1698433314230x619003097145126100
3,2023-10-27 19:04:56.574000+00:00,2023-10-27 19:02:03.222000+00:00,admin_user_sifter-63385_test,Bug,Anomalie de fonctionnement de l'application dé...,1698433323222x402426615286320700


In [548]:
def deduce_backend_type(insight_type):
    if insight_type == "1698433300252x835626794232717300":
        return "pain"
    elif insight_type == "1698433290120x936044292663509300":
        return "positive"   
    elif insight_type == "1698433314230x619003097145126100":
        return "feature"  
    elif insight_type == "1698433323222x402426615286320700":
        return "bug"   
    print("Incorrect type:", insight_type)

In [549]:
def most_common(lst):
    return max(set(lst), key=lst.count)

# Feedbacks extraction

In [550]:
class Feedback(BaseModel):
    insights_list: List[str] = Field(description="Contenu et type des insights")
    content = ""
    sentiment: str = Field(description="Sentiment exprimé, peut être 'Positif', 'Neutre' ou 'Négatif'. Ne pas oublier les majuscules et accentuations.")
    # You can add custom validation logic easily with Pydantic.
    @validator("sentiment")
    def valid_sentiment(cls, field):
        if field not in ["Positif", "Neutre", "Négatif"]:
            raise ValueError("Sentiment "+field+" not valid.")
        return field

    def __str__(self):
        return "Commentaire: \""+ self.content+"\"\n\nSentiment: "+self.sentiment+"\n\nInsights: \n"+"\n\n".join([str(i) for i in self.insights_list])




In [551]:

prompt_template_feedback = """Tu es {role} au sein de l'entreprise suivante:
{context}

Tu as mené une enquête auprès de tes {cible}. 

Pour le retour qui te sera donné, effectue les étapes suivantes:

Étape 1 - Identifie si le sentiment exprimé par le {cible} est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question ayant été posée ({question}) afin de bien interpréter le sens du retour {cible}.
Attention à ne pas oublier l'accent si tu choisis Négatif.

Étape 2 - Identifie les éventuels insights à faire remonter auprès de ton équipe. Il se peut qu'il n'y ai aucun insight a conclure de ce commentaire.
Voici les contraintes qu'un'insight doit respecter:
- Une personne de ton équipe qui lit un insight doit pouvoir en comprendre le sens.
- Un insight doit être aussi court que possible, tout en restant parfaitement compréhensible et pertinent.
- Un insight ne doit comporter qu'une seule information.

Par exemple, pour le retour suivant:
'''
{exemple_commentaire}
'''
on voudrait faire remonter les points suivants:
'''
- {example_insights}
'''

Si le commentaire n'est pas très intéressant, ne remonte aucun insight.

Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Voici le retour à traiter:
"{feedback}"
"""

#Si le {cible} n'a rien à signaler ("ras", "tout est ok", "rien à signaler") crée un insight dédié

In [552]:
feedback_parser = PydanticOutputParser(pydantic_object=Feedback)

prompt_feedback = PromptTemplate.from_template(
    template= prompt_template_feedback,
    partial_variables= {"format_instructions": feedback_parser.get_format_instructions()},
)

prompts = []
for feedback in feedbacks_df[feedbacks_column]:
    context = copy(feedback_context)
    context["feedback"] = feedback
    prompts.append(prompt_feedback.invoke(context))

#print(prompts[0].text)

In [553]:
parsed_responses

[InsightList(insights_list=[DeducedInsight(insights_mineurs=[1, 7], content='Écarts de prix avec les supermarchés et grandes surfaces perçus sur certains produits spécifiques.'), DeducedInsight(insights_mineurs=[0], content='Augmentation de tarifs sans préavis.'), DeducedInsight(insights_mineurs=[2], content="Volumes d'achat imposés jugés trop élevés."), DeducedInsight(insights_mineurs=[3], content='Perception des prix comme étant trop élevés et non compétitifs, en dépit du système de prix dégressif.'), DeducedInsight(insights_mineurs=[4], content='Amélioration de la flexibilité et du processus des livraisons.'), DeducedInsight(insights_mineurs=[5], content='Optimisation nécessaire de la politique tarifaire et de la communication des prix, surtout pour les achats réguliers et les commandes en ligne.'), DeducedInsight(insights_mineurs=[6], content='Variabilité de la qualité des produits, notamment les salades icebergs et les framboises fraîches.')]),
 InsightList(insights_list=[DeducedI

In [554]:
parsed_responses = safe_async_analysis(prompts, feedback_parser)

feedbacks_df["sentiment"] = [rep.sentiment for rep in parsed_responses]
feedbacks_df["insights"] = [[] for rep in parsed_responses]

k=0
insights = []
for i, rep in enumerate(parsed_responses):
    for j, insight in enumerate(rep.insights_list):
        insights.append(insight)
        feedbacks_df["insights"].iloc[i].append(str(k))
        k += 1

In [555]:
feedbacks_df.head()

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id
0,2024-01-30 22:36:31.278000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,95,[0],1705851599759x115801332943705310
1,2024-01-30 22:36:31.656000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[1, 2]",1705851599759x118530353766926000
2,2024-01-30 22:36:32.014000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,[3],1705851599759x119429130200745520
3,2024-01-25 13:15:45.483000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,63,[],1705851599759x120869695273613470
4,2024-01-30 22:36:32.606000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,[4],1705851599759x123910318505263460


In [556]:
insights_df = pd.DataFrame({
    "content":insights,
    "feedback_count": 1,
    })

In [557]:
feedbacks_df

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id
0,2024-01-30 22:36:31.278000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,95,[0],1705851599759x115801332943705310
1,2024-01-30 22:36:31.656000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[1, 2]",1705851599759x118530353766926000
2,2024-01-30 22:36:32.014000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,[3],1705851599759x119429130200745520
3,2024-01-25 13:15:45.483000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,63,[],1705851599759x120869695273613470
4,2024-01-30 22:36:32.606000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,[4],1705851599759x123910318505263460
...,...,...,...,...,...,...,...,...,...,...,...
161,2024-01-26 15:46:37.480000+00:00,2024-01-21 15:40:01.573000+00:00,1705847494855x437900943146650500,Pour les TPE certains prix sont trop élevés. P...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,95,"[236, 237]",1705851601547x933884317348528900
162,2024-01-26 15:46:37.886000+00:00,2024-01-21 15:40:01.746000+00:00,1705847494855x437900943146650500,ATTENDRE PLUS DE PROMOS OU DU DISPOSITIF DE AC...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,140,"[238, 239, 240]",1705851601547x959144493981025400
163,2024-01-23 13:03:04.736000+00:00,2024-01-21 15:40:01.745000+00:00,1705847494855x437900943146650500,"très content de métro, ou je trouve toujours m...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,97,"[241, 242, 243]",1705851601547x969738883521839900
164,2024-01-23 13:03:05.409000+00:00,2024-01-21 15:40:01.573000+00:00,1705847494855x437900943146650500,pouvoir acheter à la pièce...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,29,[244],1705851601547x976188087974111600


In [558]:
insights_df["related_feedback"] = [[] for _ in range(len(insights_df))]

for i, row in feedbacks_df.iterrows():
    for j in row["insights"]:
        insights_df["related_feedback"].iloc[int(j)] = row['_id'] #[int(i)]

insights_df["childrens"] = [[] for _ in range(len(insights_df))]

insights_df.head()

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  insights_df["related_feedback"].iloc[int(j)] = row['_id'] #[int(i)]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-co

Unnamed: 0,content,feedback_count,related_feedback,childrens
0,Demande de livraison individuelle pour les bou...,1,1705851599759x115801332943705310,[]
1,Réclamation sur inadéquation entre les offres ...,1,1705851599759x118530353766926000,[]
2,Demande de transparence des prix en halles lor...,1,1705851599759x118530353766926000,[]
3,Désorganisation du rangement en magasin,1,1705851599759x119429130200745520,[]
4,Demande de promotions sous forme papier ou dig...,1,1705851599759x123910318505263460,[]


# Insights categorisation

### Tagging

In [559]:
prompt_tags = ""

for i, filter in filters_df.iterrows():
    prompt_tags += '\n\n'+filter["Name"]#+' ('+filter["_id"] +')'
    tags = tags_df[tags_df["Filter"] == filter["_id"]]
    for _, tag in tags.iterrows():
        prompt_tags += '\n'+"- "+tag["Name"]+' ('+tag["_id"] +')'

print(prompt_tags)




Thématiques
- Disponibilité des produits (1705848118874x455206967781607300)
- Politique de prix (1705848223473x225401328908415580)
- Qualité des produits (1705848250225x478538894601366000)
- Expérience d'achat (1705848274056x125824383936905310)
- Service client (1705848302697x426707208945675400)

Mode d'achat
- Magasin (1705848054587x622458924372477600)
- Livraison (1705848082881x454792214332598400)


In [560]:

prompt_template_categorsiation = """Tu es {role} au sein de l'entreprise suivante :
{context}

Tu as mené une enquête auprès de tes {cible}. 

Tu dois associer à l'insight donné plus loin aucun, l'identifiant d'un ou plusieurs tags. S'il n'est pas possible d'associer un tag avec certitude dans l'une des catégories, laisse la liste vide. Répond avec la liste des identifiants suités entre parenthèse juste après les tags.
Par exemple, pour les tags suivants, le tag C d'identifiant 17049ZER93619x303734523452623450 appartient catégorie 2:
'''
catégotie 1 
- tag A (1704912293619x303734523452694300)
- tag B (17049ZER93619x303734523452694300)

catégotie 2 
- tag C (17049ZER93619x303734523452623450)
- tag D (170AZZER93619x303734524452623450)
'''

Voici les tags avec lesquels tu devras essayer de classifier l'insight:""" + prompt_tags + """

Tu ne dois par renvoyer le tag, mais uniquement son identifiant.
Un identifiant contient toujours un x à l'intérieur, comme par example 1704912293619x303731423452694300.
Ainsi, 1704912293619 n'est pas un identifiant valide.

Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Voici l'insight que tu dois essayer de catégoriser: '{insight}'
"""

In [561]:
class FirstInsight(BaseModel):
    tags_id: List[str] = Field(description="Identifiants des tags de l'insight")
    content: str = "" #Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nTypes: " + ', '.join(self.insight_types)

In [562]:
categorsiation_parser = PydanticOutputParser(pydantic_object=FirstInsight)

prompt_categorsiation = PromptTemplate.from_template(
    template= prompt_template_categorsiation,
    partial_variables= {"format_instructions": categorsiation_parser.get_format_instructions()},
)

prompts = []
for insight in insights_df["content"]:
    context = copy(feedback_context)
    context["insight"] = insight
    prompts.append(prompt_categorsiation.invoke(context))

#print(prompts[0].text)

In [563]:
parsed_responses = safe_async_analysis(prompts, categorsiation_parser)

In [564]:

insights_df["tag"] = [rep.tags_id for rep in parsed_responses]
#insights_df["Insights"] = [[] for rep in parsed_responses]

### Types affectation

In [565]:
prompt_types = ""

for _, tag in types_df.iterrows():
    prompt_types += '\n'+"- "+tag["Title"]+' ('+tag["_id"] +') : ' + tag["Definition"]

print(prompt_types)


- Point positif (1698433290120x936044292663509300) : Élément apprécié par le client ou l'utilisateur
- Point de douleur (1698433300252x835626794232717300) : Problème qui gène ou ennuie le client ou l'utilisateur
- Nouvelle demande (1698433314230x619003097145126100) : Suggestion d'évolution faite par le client ou l'utilisateur
- Bug (1698433323222x402426615286320700) : Anomalie de fonctionnement de l'application détectée par l'utilisateur


In [566]:

prompt_template_types = """
Tu es {role} au sein de l'entreprise suivante :
{context}

Tu as mené une enquête auprès de tes {cible}. 

Catégorise l'insight qui te sera donné à l’aide de l'identifiant d'un des types qui te seront donnés. 
Tu dois associser exactement un type. Choisit celui qui est le plus pertinent.
Répond avec l'identifiants suités entre parenthèse juste après les types. La definition des types est située jsute après les double points. 
Par exemple, pour les types suivants, le type 2 a pour identifiant 1704912293619x303671423452694300.
'''
- type 1 (1704412293619x303731423423694300) : définition du type 1
- type 2 (1704912293619x303671423452694300) : définition du type 2
'''

Voici les types:""" + prompt_types + """

Tu ne dois par renvoyer le type, mais uniquement son identifiant.
Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Un identifiant contient toujours un x à l'intérieur, comme par example 1704912293619x303731423452694300.
Ainsi, 1704912293619 n'est pas un identifiant valide.

Voici l'insight que tu dois essayer de catégoriser: '{insight}'
"""

In [567]:
class FirstInsight(BaseModel):
    insight_type: str = Field(description="Identifiants du type de l'insight")
    content: str = "" #Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nType: " +self.insight_type

In [568]:
categorsiation_parser = PydanticOutputParser(pydantic_object=FirstInsight)

prompt_categorsiation = PromptTemplate.from_template(
    template= prompt_template_types,
    partial_variables= {"format_instructions": categorsiation_parser.get_format_instructions()},
)

prompts = []
for insight in insights_df["content"]:
    context = copy(feedback_context)
    context["insight"] = insight
    prompts.append(prompt_categorsiation.invoke(context))

#print(prompts[0].text)

In [569]:
parsed_responses = safe_async_analysis(prompts, categorsiation_parser)


In [570]:
insights_df["type"] = [rep.insight_type for rep in parsed_responses]

In [571]:
feedbacks_df.to_csv(project_path+'/feedbacks.csv', index_label='Index')
insights_df.to_csv(project_path+'/insights.csv', index_label='Index')

# Insights clustering

In [572]:
feedbacks_df = clean_df(pd.read_csv(project_path+'/feedbacks.csv', index_col='Index'))
insights_df = clean_df(pd.read_csv(project_path+'/insights.csv', index_col='Index'))

In [573]:
embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')

In [574]:
class DeducedInsight(BaseModel):
    insights_mineurs: List[int] = Field(description="Index des insights mineurs qui ont été résumés en cet insight.")
    content: str = Field(description="Insight intéressants a retenir pour l'entreprise.")

    def __str__(self):
        return '- ' + self.content + '\n Enfants:' + str(self.insights_mineurs)


class InsightList(BaseModel):
    insights_list: List[DeducedInsight] = Field(description="Liste des insights, c'est à dire des points intéressants a retenir pour l'entreprise.")
    # You can add custom validation logic easily with Pydantic.

    def __str__(self):
        return "Insights: \n"+"\n\n".join([str(i) for i in self.insights_list])



In [762]:

prompt_template_reduction = """Tu es {role} au sein de l'entreprise suivante:
{context}

Une liste d'insights mineurs a été identifiée à partir de retours {cible}.

Ils sont de très bonne qualité, et apportent des retours intéressants à l'entreprise en question. 
Mais il est possible que certains soient redondants ou inutilement précis, auquel cas nous souhaiterions les regrouper. 

Tu as en entrée des insights mineurs, et devra les regrouper en insights majeurs.
Comme détaillé plus loin, un les insights ne doivent être regroupés que si ils parlent de la même chose. Et tu ne dois reformuler qu'en dernier recours, quand aucun des insights mineurs ne convient. 
Un insight mineur peut devenir un insight majeur.

Pour transformers les insights mineurs en insights majeurs, suit ces quelques règles:

1) Si un insight traite d'un sujet différent de tous les autres, il devient un insight majeur.
Les deux auront donc le même contenu.

1) Si l'un des insights mineurs permet de synthétiser l'information d'un regroupement d'insight, il devient l'insight majeur du groupe. Recopie le à l'identique et associe lui les insights mineurs, y comprie lui même.

2) Si tu as identifié un regroupement mais qu'aucun des insights mineurs ne convient, formule un insight majeurs permettant de synthétiser leur sens. Voici les contraintes que doivent respecter ton insights majeur:
- Une personne de ton équipe qui lit un insight majeur doit pouvoir en comprendre le sens.
- Un insight majeur doit idéalement ne pas être trop long, tout en restant parfaitement compréhensible et pertinent. Les phrases nominales sont autorisées. 
- Un insight majeur ne doit comporter qu'une seule information : on ne mélange pas plusieurs éléments au sein d'un insight majeur. 

Chaque insight mineur doit être l'enfant d'exactement un insight majeur que tu retournes.

Associe à chaque insight majeur l'indice des insights mineurs qui lui sont associés. 
Vérifie bien que les indices correspondent, et que tous les insights mineurs sont associés à un insight majeur. 
L'ordre des insights mineurs est aléatoire, et ne doit pas avoir d'importance dans ta réponse.

Afin de conserver un résultat claire et cohérent, il est préférable de ne pas regrouper des insights sans grand rapport, et d'éviter les reformulations inutiles. 

Réponds uniquement avec un ficher JSON, comme expliqué :
{format_instructions}

Voici la liste des insights mineurs que tu dois transformer en insights majeurs:
{insights}

"""


#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres.
#- Etre distincts les uns des autres.


In [763]:

prompt_template_reduction_sans_reformulation = """Tu es {role} au sein de l'entreprise suivante:
{context}

Une liste d'insights a été identifiée à partir de retours {cible}.

Ils sont globalement de bonne qualité, et apportent des retours intéressants à l'entreprise en question. 
Mais il est possible que certains soient redondants ou inutilement précis, auquel cas nous souhaiterions les regrouper. 

Si jamais certains te semblent intéressant à regrouper, choisit l'insights qui permet le mieux de synthétiser l'information du regroupement et associe lui les autres.
Recopie le à l'identique et associe lui les autres insights, y comprie lui même.

Pour les insights qui n'ont pas besoin d'être regroupés, recopie les et associe les à eux même. (il s'agit d'un regroupement d'un seul insight)
Chaque insight doit donc appartenir à un regroupement, qui ne contient éventuellement que lui même.
Associe à chaque regroupement l'indice des insights qui lui sont associés. 

L'ordre des insights mineurs est aléatoire, et ne doit pas avoir d'importance dans ta réponse.

Afin de conserver un résultat claire et cohérent, il est préférable de ne pas regrouper des insights sans grand rapport, et d'éviter les reformulations inutiles. 

Réponds uniquement avec un ficher JSON, comme expliqué :
{format_instructions}

Voici la liste des insights mineurs que tu dois transformer en insights majeurs:
{insights}

"""


#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres.
#- Etre distincts les uns des autres.


In [764]:
# Dimension reduction

N_NEIGHBORS = 15
MINIMISATION_STEPS = 5
CLUSTER_DESIRED_SIZE = 15  # For Kmeans only
MIN_CLUSTER_SIZE = 5  # 15
NB_INSIGHT_STOP = 20
MINIMAL_REDUCTION_RATIO = 0.1
REWORDING = True

CLUSTERING_DIMENTION = 50
CLUSTERING_METHOD = "KMeans"

insight_context = {
    "cible": cible,
    "context": context_entreprise,
    "example_insight": example_insight,
    "role": role,
    "question": question,
}

In [765]:
from sklearn.cluster import AgglomerativeClustering

In [766]:
insight_parser = PydanticOutputParser(pydantic_object=InsightList)

prompt_reduction = PromptTemplate.from_template(
    template= prompt_template_reduction if REWORDING else prompt_template_reduction_sans_reformulation,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)

prompt_regrouping = PromptTemplate.from_template(
    template= prompt_template_regrouping,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)

insights = copy(insights_df)
insight_layers = []#[copy(insights_df)]
single_cluster = False
reduction = 1.0

for step in range(MINIMISATION_STEPS):

    #for processing_step in ["reduction"]:#, "regrouping"]:
        ### Création des représentations

    #print("Processing step:", processing_step)
    sentence_embeddings = embedding_model.encode(insights['content'])

    # On réduit la dimention pour améliorer l'efficacité de la clusterisation
    adjusted_clustering_dimention = min(CLUSTERING_DIMENTION, len(insights)//3)
    umap_embeddings = umap.UMAP(n_neighbors=N_NEIGHBORS, 
                        n_components=adjusted_clustering_dimention, 
                        metric='cosine').fit_transform(sentence_embeddings)

    ### Clusterisation
    if CLUSTERING_METHOD == "KMeans":
        num_clusters = 1 + len(insights) // CLUSTER_DESIRED_SIZE
        clustering_model = KMeans(n_clusters=num_clusters, n_init='auto')
    elif CLUSTERING_METHOD == "hdbscan":
        clustering_model = hdbscan.HDBSCAN(min_cluster_size=MIN_CLUSTER_SIZE,
                            metric='euclidean',                      
                            cluster_selection_method='eom' #leaf
                            )
        
    clustering_model.fit(umap_embeddings)

    #clustering_model.fit(umap_embeddings)
    cluster_assignment = clustering_model.labels_ 
    cluster_assignment -= min(cluster_assignment) # has to start at 0
    
    num_clusters = max(cluster_assignment)+1

    insights["cluster"] = copy(cluster_assignment)
    insights = insights.sort_values("cluster")
    insights.reset_index(drop=True, inplace=True)


    if reduction <= MINIMAL_REDUCTION_RATIO:
        print("Stopping because of unsufficient reduction")
        break

    insight_layers.append(copy(insights))

    if len(insights) <= NB_INSIGHT_STOP:
        print("Minimal number of insights reached")
        break

    if single_cluster:
        break   

    cluter_sizes = list(insights.groupby(['cluster']).count()["content"])
    if len(cluter_sizes) == 1:
        print("Stopping because single cluster")
        single_cluster = False
        break

    print("Step "+ str(step)+ ": processing "+ str(num_clusters) + " clusters")
    print("Adjusted clustering dimention:", adjusted_clustering_dimention)
    print("Cluster sizes:" + str(cluter_sizes))

    #clusters = []
    prompts = []
    cumul_size = 0
    for cluster_id in range(num_clusters): # IL FAUDRAIT GARDER INDEM LE DERNIER CLUSTER
        cluster = insights[insights['cluster'] == cluster_id]
        #cluster_name ='/cluster_'+ str(cluster_id)+"_step_"+str(step) +'.csv'
        #cluster.to_csv( project_path+cluster_name, index_label='Index')
        #clusters.append(cluster)

        context = copy(insight_context)
        context['insights'] = '\n'.join([str(i+cumul_size)+": "+s for i, s in enumerate(cluster["content"])])
        #print(context['insights'])

        #if processing_step == "reduction":
        prompt=prompt_reduction.invoke(context)
        #elif processing_step == "regrouping":
        #prompt=prompt_regrouping.invoke(context)
        #else:
        #    raise("Wrong processing step")
        prompts.append(prompt)
        cumul_size += len(cluster)

    ### Traitement des clusters
    parsed_responses = safe_async_analysis(prompts, insight_parser)
    
    new_insights = []
    for i, parsed_response in enumerate(parsed_responses):
        content_list = [insight.content for insight in parsed_response.insights_list]
        childrens_list = [list(insight.insights_mineurs) for insight in parsed_response.insights_list]
        feedback_count_list = [sum(insights.loc[c, "feedback_count"]) for c in childrens_list]
        dfs = pd.DataFrame({
            #"related_feedback":[list(itertools.chain.from_iterable(insights.iloc[insight.insights_mineurs]['related_feedback'])) for insight in parsed_response.insights_list],
            "content":content_list,
            "childrens":childrens_list,
            "type": most_common([insights.loc[c, "type"].iloc[0] for c in childrens_list]),
            #"cluster":i,
            "feedback_count":feedback_count_list,
            #"childrens":[list(clusters[i].iloc[insight.insights_mineurs]["_id"]) for insight in parsed_response.insights_list],
            })
        new_insights.append(dfs)

    new_insights = pd.concat(new_insights)
    new_insights.reset_index(drop=True, inplace=True)

    
    reduction = (1-(len(new_insights)/len(insights)))
    insights = new_insights
    
    print("Number of new insights:"+ str(len(new_insights)))
    print("Reduction in the number of insights by " + "%d" % int(reduction*100) + "%")
    print()

#insight_layers.append(copy(new_insights))

In [None]:
insight_layers[0]

Unnamed: 0,content,feedback_count,related_feedback,childrens,tag,type,cluster
0,Manque de produits disponibles en ligne,1,1705851601547x613008870526594600,[],"[1705848118874x455206967781607300, 17058480828...",1698433300252x835626794232717300,0
1,Réapprovisionnement insuffisant en saison,1,1705851601547x804238016121627800,[],[1705848118874x455206967781607300],1698433300252x835626794232717300,0
2,Offre limitée en livraison à domicile,1,1705851599759x479416668866214460,[],"[1705848082881x454792214332598400, 17058481188...",1698433300252x835626794232717300,0
3,Limitation de la disponibilité des produits en...,1,1705851599759x703635478822510100,[],"[1705848118874x455206967781607300, 17058480828...",1698433300252x835626794232717300,0
4,Produits nécessaires non disponibles pour la l...,1,1705851599759x741737583902983600,[],"[1705848118874x455206967781607300, 17058480828...",1698433300252x835626794232717300,0
...,...,...,...,...,...,...,...
240,Diminution de la qualité des produits hallal,1,1705851601547x873163516395813400,[],[1705848250225x478538894601366000],1698433300252x835626794232717300,16
241,Insatisfaction relative à la politique de reto...,1,1705851599759x684481932766598300,[],[1705848223473x225401328908415580],1698433300252x835626794232717300,16
242,"Satisfaction dans les domaines des boissons, p...",1,1705851601547x237827247385357540,[],[],1698433290120x936044292663509300,16
243,Sentiment de détérioration de la qualité de se...,1,1705851601547x579937716857114900,[],[1705848302697x426707208945675400],1698433300252x835626794232717300,16


In [None]:
list(insight_layers[0]['content'])

['Manque de produits disponibles en ligne',
 'Réapprovisionnement insuffisant en saison',
 'Offre limitée en livraison à domicile',
 'Limitation de la disponibilité des produits en livraison',
 'Produits nécessaires non disponibles pour la livraison',
 'Manque de produits bio',
 'Pénurie croissante de produits toutes catégories',
 'Manque de produits en stock',
 'Réapprovisionnements non suivis',
 'Manque de produits disponibles pour la livraison',
 "Non-disponibilité de l'offre 'achetez plus' en livraison",
 'Produits spécifiques manquants pour le secteur de la cuisine',
 'Approvisionnement insuffisant',
 'Offre de produits en livraison insuffisante',
 'Manque de produits pour pizzerias',
 "Clients mécontents de l'absence d'entrées chaudes",
 'Disponibilité des produits',
 'Suggestion de baisser les prix pour reconquérir la clientèle professionnelle',
 'Amélioration grâce à la visite commerciale',
 'Perte de temps pour les commerçants',
 'Ouverture aux particuliers vue comme inefficac

In [None]:
list(insight_layers[-1]['content'])

['Optimisation du suivi des avoirs en attente pour une meilleure gestion des retours clients.',
 'Amélioration de la gestion des ressources humaines pour assurer la continuité du personnel et une expertise uniforme.',
 'Amélioration de la gestion relationnelle des directeurs de magasin.',
 "Simplification de l'approvisionnement et optimisation de l'assortiment produit, incluant le suivi des articles intéressants, pour améliorer l'efficacité opérationnelle.",
 "Optimisations à apporter en matière d'horaires, de gestion du temps des commerçants et de nombre de caisses pour améliorer l'expérience client.",
 'Optimisation de la gestion des stocks, des dates de péremption et du déstockage pour éviter les ruptures et fidéliser la clientèle.',
 "Amélioration de l'organisation en magasin, incluant la signalétique et la disposition des rayonnages pour réduire les erreurs et améliorer l'accessibilité.",
 'Harmonisation des offres promotionnelles, révision de la stratégie de prix et ajustement de

In [None]:
for i, df in enumerate(insight_layers):
    df.to_csv(project_path+'/insights_'+ str(i) +'.csv', index_label='Index')

In [None]:
#list(insight_layers[0][insight_layers[0]["cluster"] == 2]["content"])

In [None]:
insight_layers[0]

Unnamed: 0,content,feedback_count,related_feedback,childrens,tag,type,cluster
0,Manque de produits disponibles en ligne,1,1705851601547x613008870526594600,[],"[1705848118874x455206967781607300, 17058480828...",1698433300252x835626794232717300,0
1,Réapprovisionnement insuffisant en saison,1,1705851601547x804238016121627800,[],[1705848118874x455206967781607300],1698433300252x835626794232717300,0
2,Offre limitée en livraison à domicile,1,1705851599759x479416668866214460,[],"[1705848082881x454792214332598400, 17058481188...",1698433300252x835626794232717300,0
3,Limitation de la disponibilité des produits en...,1,1705851599759x703635478822510100,[],"[1705848118874x455206967781607300, 17058480828...",1698433300252x835626794232717300,0
4,Produits nécessaires non disponibles pour la l...,1,1705851599759x741737583902983600,[],"[1705848118874x455206967781607300, 17058480828...",1698433300252x835626794232717300,0
...,...,...,...,...,...,...,...
240,Diminution de la qualité des produits hallal,1,1705851601547x873163516395813400,[],[1705848250225x478538894601366000],1698433300252x835626794232717300,16
241,Insatisfaction relative à la politique de reto...,1,1705851599759x684481932766598300,[],[1705848223473x225401328908415580],1698433300252x835626794232717300,16
242,"Satisfaction dans les domaines des boissons, p...",1,1705851601547x237827247385357540,[],[],1698433290120x936044292663509300,16
243,Sentiment de détérioration de la qualité de se...,1,1705851601547x579937716857114900,[],[1705848302697x426707208945675400],1698433300252x835626794232717300,16


In [None]:
insight_layers[1]

Unnamed: 0,content,childrens,type,feedback_count,cluster
0,Demande de simplification et d'amélioration du...,"[152, 153]",1698433314230x619003097145126100,2,0
1,Demande de renforcement du programme de fidéli...,[148],1698433314230x619003097145126100,1,0
2,Améliorer la qualité de service et le comporte...,"[157, 164]",1698433300252x835626794232717300,2,0
3,Assurer une mise à jour constante des stocks p...,[167],1698433300252x835626794232717300,1,0
4,Revoir la stratégie et le système de livraison...,"[168, 170, 181, 182, 183, 184]",1698433300252x835626794232717300,6,0
...,...,...,...,...,...
86,Demande de livraison individuelle pour les bou...,[145],1698433314230x619003097145126100,1,6
87,"Demande d'ajustement des remises par produits,...","[143, 144]",1698433314230x619003097145126100,2,6
88,Nécessité de réviser et diversifier les straté...,"[140, 142, 147, 149, 150]",1698433314230x619003097145126100,5,6
89,"Catalogue peu clair, notamment sur les alcools...",[215],1698433300252x835626794232717300,1,6


In [None]:
n_layers = len(insight_layers)
layers_sizes = [len(l) for l in insight_layers]
print("Layers sizes:", layers_sizes)

Layers sizes: [245, 91, 44, 26, 17]


# Data cleaning

In [None]:
insight_layers = []
for i in range(n_layers):
    df = pd.read_csv(project_path+'/insights_'+ str(i) +'.csv', index_col='Index')
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    #df['tag'] = df['tag'].apply(lambda x: eval(x))
    #df['type'] = df['type'].apply(lambda x: eval(x))
    #df['childrens'] = df['childrens'].apply(lambda x: eval(x))
    df["backend_type"] = df["type"].apply(deduce_backend_type)
    insight_layers.append(df)
#insights_df = pd.concat(insight_layers)

Previous insights supression

In [None]:
res = bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("project") == project_id,
            BubbleField("company") == company_id,
            ],
    )
python_insight_df = pd.DataFrame(res)

if len(python_insight_df)>0:
    for bubble_id in tqdm(python_insight_df["_id"]):
        bubble_client.delete_by_id(
            "python_insight",
            bubble_id,
        )

    print("Deleted", len(python_insight_df), "python_insight")
else:
    print("Nothing to delete")

Nothing to delete


Adding parents

In [None]:
insight_layers[0]["parent"] = None #[[] for _ in insight_layers[0].iterrows()]
insight_layers[-1]["parent"] = None

for i in range(n_layers-1):
    insight_layers[i]["parent"] = None
    for p, row in insight_layers[i+1].iterrows():
        for c in row["childrens"]: #eval(
            insight_layers[i]["parent"].iloc[int(c)] = p

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  insight_layers[i]["parent"].iloc[int(c)] = p
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  insight_layers[i][

In [None]:
insight_layers[-1]["parents"] = [[] for _ in insight_layers[-1].iterrows()]

for i in range(n_layers-2, -1, -1):
    print(i)
    # Update the parents in the DB
    res = bubble_client.create(
        "python_insight",
        [{
            "company": company_id,
            "project": project_id,
            "content": row["content"],
            "backend_status": "new",
            "feedback_count":row["feedback_count"],
            "step": i+2,
            "type": row["type"],
            "parents": row["parents"],
            "parent": str(row["parent"]),
            "backend_type": row['backend_type'],
            "childrens": eval(row["childrens"]) if type(row["childrens"])==str else row["childrens"],
            "cluster": row["cluster"],
        }  for _, row in insight_layers[i+1].iterrows()]
    )

    df = pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+2,
            BubbleField("company") == company_id,
            ],
    ))
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    insight_layers[i+1] = df

    # Initialize an empty list of parents for each row
    insight_layers[i]["parents"] = [[] for _ in insight_layers[i].iterrows()]

    for k, row in insight_layers[i].iterrows():
        if row["parent"] is not None:
            # Get the parent index
            parent_index = row["parent"]

            # Get the parent's list of parents
            parent_parents = insight_layers[i + 1]["parents"].iloc[parent_index]

            # Add the parent to the current row's list of parents
            parent_id = insight_layers[i + 1].loc[parent_index, '_id']
            insight_layers[i].loc[k, "parents"].append(parent_id)

            # Recursively add the parent's parents to the current row's list of parents
            insight_layers[i].loc[k, "parents"].extend(parent_parents)


3
2
1
0


In [None]:

res = bubble_client.create(
        "python_insight",
        [{
            "company": company_id,
            "project": project_id,
            "content": row["content"],
            "backend_status": "new",
            "feedback_count": row["feedback_count"],
            "step": 1,
            "related_feedback":row['related_feedback'],
            "tag": row["tag"],
            "type": row["type"],
            "backend_type": row['backend_type'],
            "parents": row["parents"],
            "parent": str(row["parent"]),
            "childrens": 0,#[[] for _ in insight_layers[0][:1000].iterrows()],
            "cluster": row["cluster"],
        }  for _, row in insight_layers[0].iterrows()]
    )

In [None]:
online_python_insights = [
    pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+1,
            BubbleField("company") == company_id,
            ],
    )) for i in range(n_layers)
]

In [None]:
assert [len(l) for l in insight_layers] == [len(l) for l in online_python_insights]

In [None]:
feedbacks_df

Unnamed: 0_level_0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id,parents
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,2024-01-30 22:36:31.278000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,95,[0],1705851599759x115801332943705310,"[1706656270315x805386054581975000, 17066562691..."
1,2024-01-30 22:36:31.656000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[1, 2]",1705851599759x118530353766926000,"[1706656270454x521706147930424100, 17066562692..."
2,2024-01-30 22:36:32.014000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,[3],1705851599759x119429130200745520,"[1706656270052x235311938307865900, 17066562692..."
3,2024-01-25 13:15:45.483000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,63,[],1705851599759x120869695273613470,[]
4,2024-01-30 22:36:32.606000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,[4],1705851599759x123910318505263460,"[1706656270323x747679631677827300, 17066562692..."
...,...,...,...,...,...,...,...,...,...,...,...,...
161,2024-01-26 15:46:37.480000+00:00,2024-01-21 15:40:01.573000+00:00,1705847494855x437900943146650500,Pour les TPE certains prix sont trop élevés. P...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,95,"[236, 237]",1705851601547x933884317348528900,"[1706656270187x996105094333132400, 17066562692..."
162,2024-01-26 15:46:37.886000+00:00,2024-01-21 15:40:01.746000+00:00,1705847494855x437900943146650500,ATTENDRE PLUS DE PROMOS OU DU DISPOSITIF DE AC...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,140,"[238, 239, 240]",1705851601547x959144493981025400,"[1706656270328x223745049965965440, 17066562692..."
163,2024-01-23 13:03:04.736000+00:00,2024-01-21 15:40:01.745000+00:00,1705847494855x437900943146650500,"très content de métro, ou je trouve toujours m...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,97,"[241, 242, 243]",1705851601547x969738883521839900,"[1706656270311x357723403232986560, 17066562692..."
164,2024-01-23 13:03:05.409000+00:00,2024-01-21 15:40:01.573000+00:00,1705847494855x437900943146650500,pouvoir acheter à la pièce...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,29,[244],1705851601547x976188087974111600,"[1706656270315x805386054581975000, 17066562691..."


In [None]:
insight_layers[1]

Unnamed: 0,Created Date,Created By,Modified Date,content,backend_status,status,company,feedback_count,project,step,parents,parent,childrens,backend_type,type,cluster,_id
0,2024-01-31T09:09:32.121Z,admin_user_sifter-63385_test,2024-01-31T09:09:32.121Z,Demande de simplification et d'amélioration du...,new,Catégorisé,1705585399217x205117684451615600,2,1705851616871x644869783878893600,2,"[1706692170828x623196606473314300, 17066921691...",23,"[152, 153]",feature,1698433314230x619003097145126100,0,1706692172121x299854251419433560
1,2024-01-31T09:09:32.122Z,admin_user_sifter-63385_test,2024-01-31T09:09:32.122Z,Demande de renforcement du programme de fidéli...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,2,"[1706692170828x623196606473314300, 17066921691...",23,[148],feature,1698433314230x619003097145126100,0,1706692172122x106984816271625810
2,2024-01-31T09:09:32.128Z,admin_user_sifter-63385_test,2024-01-31T09:09:32.128Z,Améliorer la qualité de service et le comporte...,new,Catégorisé,1705585399217x205117684451615600,2,1705851616871x644869783878893600,2,"[1706692170830x261285361739452830, 17066921690...",25,"[157, 164]",pain,1698433300252x835626794232717300,0,1706692172128x405041850450036160
3,2024-01-31T09:09:32.133Z,admin_user_sifter-63385_test,2024-01-31T09:09:32.133Z,Assurer une mise à jour constante des stocks p...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,2,"[1706692170709x242838134161749150, 17066921690...",12,[167],pain,1698433300252x835626794232717300,0,1706692172133x145721511030695970
4,2024-01-31T09:09:32.138Z,admin_user_sifter-63385_test,2024-01-31T09:09:32.138Z,Revoir la stratégie et le système de livraison...,new,Catégorisé,1705585399217x205117684451615600,6,1705851616871x644869783878893600,2,"[1706692170708x160219304503880000, 17066921690...",11,"[168, 170, 181, 182, 183, 184]",pain,1698433300252x835626794232717300,0,1706692172138x359543120062729500
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
86,2024-01-31T09:09:32.832Z,admin_user_sifter-63385_test,2024-01-31T09:09:32.832Z,Demande de livraison individuelle pour les bou...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,2,"[1706692170932x351699508043980860, 17066921690...",42,[145],feature,1698433314230x619003097145126100,6,1706692172832x299151173247687940
87,2024-01-31T09:09:32.832Z,admin_user_sifter-63385_test,2024-01-31T09:09:32.833Z,"Demande d'ajustement des remises par produits,...",new,Catégorisé,1705585399217x205117684451615600,2,1705851616871x644869783878893600,2,"[1706692170929x680651763668357400, 17066921690...",40,"[143, 144]",feature,1698433314230x619003097145126100,6,1706692172832x483256625381925250
88,2024-01-31T09:09:32.833Z,admin_user_sifter-63385_test,2024-01-31T09:09:32.833Z,Nécessité de réviser et diversifier les straté...,new,Catégorisé,1705585399217x205117684451615600,5,1705851616871x644869783878893600,2,"[1706692170929x680651763668357400, 17066921690...",40,"[140, 142, 147, 149, 150]",feature,1698433314230x619003097145126100,6,1706692172833x406859150600374900
89,2024-01-31T09:09:32.837Z,admin_user_sifter-63385_test,2024-01-31T09:09:32.837Z,"Catalogue peu clair, notamment sur les alcools...",new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,2,"[1706692170855x530061594118364160, 17066921690...",39,[215],pain,1698433300252x835626794232717300,6,1706692172837x306275858644260860


In [None]:
df = insight_layers[0]

def get_all_parents(feedback_identifier):
    parents = []
    for i, row in df.loc[df['related_feedback'] == feedback_identifier].iterrows():
        for parent in row['parents']:
            parents.append(parent)
    return parents

feedbacks_df['parents'] = feedbacks_df['_id'].apply(get_all_parents)

feedbacks_df


Unnamed: 0_level_0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id,parents
Index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,2024-01-30 22:36:31.278000+00:00,2024-01-21 15:40:00.025000+00:00,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,95,[0],1705851599759x115801332943705310,"[1706692172832x299151173247687940, 17066921709..."
1,2024-01-30 22:36:31.656000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[1, 2]",1705851599759x118530353766926000,"[1706692172477x358147699275571200, 17066921706..."
2,2024-01-30 22:36:32.014000+00:00,2024-01-21 15:39:59.898000+00:00,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,[3],1705851599759x119429130200745520,"[1706692172627x479533783141196350, 17066921706..."
3,2024-01-25 13:15:45.483000+00:00,2024-01-21 15:40:00.012000+00:00,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,63,[],1705851599759x120869695273613470,[]
4,2024-01-30 22:36:32.606000+00:00,2024-01-21 15:39:59.800000+00:00,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,[4],1705851599759x123910318505263460,"[1706692172833x406859150600374900, 17066921709..."
...,...,...,...,...,...,...,...,...,...,...,...,...
161,2024-01-26 15:46:37.480000+00:00,2024-01-21 15:40:01.573000+00:00,1705847494855x437900943146650500,Pour les TPE certains prix sont trop élevés. P...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,95,"[236, 237]",1705851601547x933884317348528900,"[1706692172619x690489434679861800, 17066921706..."
162,2024-01-26 15:46:37.886000+00:00,2024-01-21 15:40:01.746000+00:00,1705847494855x437900943146650500,ATTENDRE PLUS DE PROMOS OU DU DISPOSITIF DE AC...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,140,"[238, 239, 240]",1705851601547x959144493981025400,"[1706692172832x483256625381925250, 17066921709..."
163,2024-01-23 13:03:04.736000+00:00,2024-01-21 15:40:01.745000+00:00,1705847494855x437900943146650500,"très content de métro, ou je trouve toujours m...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,97,"[241, 242, 243]",1705851601547x969738883521839900,"[1706692172286x436384536226539700, 17066921707..."
164,2024-01-23 13:03:05.409000+00:00,2024-01-21 15:40:01.573000+00:00,1705847494855x437900943146650500,pouvoir acheter à la pièce...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,29,[244],1705851601547x976188087974111600,"[1706692172812x660318031746457500, 17066921708..."


In [None]:
for _, row in tqdm(feedbacks_df.iterrows()):
    res = bubble_client.update_object(
        "Feedbacks",
        row['_id'], 
        {
            "insights": row["parents"],
        } 
    )

0it [00:00, ?it/s]

In [None]:

res = bubble_client.get_objects(
        "Feedback",
        [
            BubbleField("source") == source_id,
            ],
    )
pd.DataFrame(res)

Unnamed: 0,Modified Date,Created Date,Created By,content,company,sentiment,Analyzed?,source,character_number,insights,_id
0,2024-01-31T09:09:40.888Z,2024-01-21T15:40:00.025Z,1705847494855x437900943146650500,livrer TOUT les produits disponibles en magasi...,1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,95,"[1706692172832x299151173247687940, 17066921709...",1705851599759x115801332943705310
1,2024-01-31T09:09:41.524Z,2024-01-21T15:39:59.800Z,1705847494855x437900943146650500,Votre offer internet devient « ridicule ». Ell...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,486,"[1706692172477x358147699275571200, 17066921706...",1705851599759x118530353766926000
2,2024-01-31T09:09:42.169Z,2024-01-21T15:39:59.898Z,1705847494855x437900943146650500,Le rangement est bordélique une vache ne retro...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,66,"[1706692172627x479533783141196350, 17066921706...",1705851599759x119429130200745520
3,2024-01-25T13:15:45.483Z,2024-01-21T15:40:00.012Z,1705847494855x437900943146650500,"Je profite ailleurs d'opération de destockage,...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,63,[],1705851599759x120869695273613470
4,2024-01-31T09:09:42.889Z,2024-01-21T15:39:59.800Z,1705847494855x437900943146650500,il est dommage de ne plus recevoir les promoti...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,78,"[1706692172833x406859150600374900, 17066921709...",1705851599759x123910318505263460
...,...,...,...,...,...,...,...,...,...,...,...
161,2024-01-31T09:10:40.742Z,2024-01-21T15:40:01.573Z,1705847494855x437900943146650500,Pour les TPE certains prix sont trop élevés. P...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,95,"[1706692172619x690489434679861800, 17066921706...",1705851601547x933884317348528900
162,2024-01-31T09:10:41.167Z,2024-01-21T15:40:01.746Z,1705847494855x437900943146650500,ATTENDRE PLUS DE PROMOS OU DU DISPOSITIF DE AC...,1705585399217x205117684451615600,Négatif,False,1705851599107x404539534708310000,140,"[1706692172832x483256625381925250, 17066921709...",1705851601547x959144493981025400
163,2024-01-31T09:10:41.964Z,2024-01-21T15:40:01.745Z,1705847494855x437900943146650500,"très content de métro, ou je trouve toujours m...",1705585399217x205117684451615600,Positif,False,1705851599107x404539534708310000,97,"[1706692172286x436384536226539700, 17066921707...",1705851601547x969738883521839900
164,2024-01-31T09:10:42.665Z,2024-01-21T15:40:01.573Z,1705847494855x437900943146650500,pouvoir acheter à la pièce...,1705585399217x205117684451615600,Neutre,False,1705851599107x404539534708310000,29,"[1706692172812x660318031746457500, 17066921708...",1705851601547x976188087974111600


# Visualisation

In [None]:
insight_layers = [
    pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+1,
            BubbleField("company") == company_id,
            ],
    )) for i in range(n_layers)
]

In [None]:
insight_layers[0].tail()

Unnamed: 0,Created Date,Created By,Modified Date,content,backend_status,status,company,feedback_count,project,step,tag,parents,related_feedback,parent,childrens,backend_type,type,cluster,_id
240,2024-01-31T09:09:36.699Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.699Z,Diminution de la qualité des produits hallal,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848250225x478538894601366000],"[1706692172314x923121154777131200, 17066921708...",1705851601547x873163516395813400,37,[],pain,1698433300252x835626794232717300,16,1706692176699x809093445115013100
241,2024-01-31T09:09:36.701Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.701Z,Insatisfaction relative à la politique de reto...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848223473x225401328908415580],"[1706692172406x725545913901704200, 17066921708...",1705851599759x684481932766598300,40,[],pain,1698433300252x835626794232717300,16,1706692176701x243606379234283070
242,2024-01-31T09:09:36.705Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.705Z,"Satisfaction dans les domaines des boissons, p...",new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[],"[1706692172840x298558305073492100, 17066921708...",1705851601547x237827247385357540,90,[],positive,1698433290120x936044292663509300,16,1706692176705x878322767934921700
243,2024-01-31T09:09:36.706Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.706Z,Sentiment de détérioration de la qualité de se...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848302697x426707208945675400],"[1706692172315x698660951734622100, 17066921708...",1705851601547x579937716857114900,38,[],pain,1698433300252x835626794232717300,16,1706692176706x834896778630232800
244,2024-01-31T09:09:36.707Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.708Z,Mauvaise qualité des produits du fournisseur f...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848250225x478538894601366000],"[1706692172182x483805781779606200, 17066921708...",1705851599759x355665424227480400,18,[],pain,1698433300252x835626794232717300,16,1706692176707x293644796928223900


In [None]:
sentences = insight_layers[0]["content"]
sentence_embeddings = embedding_model.encode(sentences)
sentence_embeddings.shape

(245, 1024)

In [None]:
insight_layers[0]['parent']

0      17
1      29
2      17
3      17
4      17
       ..
240    37
241    40
242    90
243    38
244    18
Name: parent, Length: 245, dtype: object

In [None]:
insight_layers[0]

Unnamed: 0,Created Date,Created By,Modified Date,content,backend_status,status,company,feedback_count,project,step,tag,parents,related_feedback,parent,childrens,backend_type,type,cluster,_id
0,2024-01-31T09:09:33.966Z,admin_user_sifter-63385_test,2024-01-31T09:09:33.966Z,Manque de produits disponibles en ligne,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,"[1705848118874x455206967781607300, 17058480828...","[1706692172181x819422048688594000, 17066921706...",1705851601547x613008870526594600,17,[],pain,1698433300252x835626794232717300,0,1706692173966x743319040851267100
1,2024-01-31T09:09:33.979Z,admin_user_sifter-63385_test,2024-01-31T09:09:33.979Z,Réapprovisionnement insuffisant en saison,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848118874x455206967781607300],"[1706692172286x436384536226539700, 17066921707...",1705851601547x804238016121627800,29,[],pain,1698433300252x835626794232717300,0,1706692173979x232869741906919460
2,2024-01-31T09:09:33.987Z,admin_user_sifter-63385_test,2024-01-31T09:09:33.987Z,Offre limitée en livraison à domicile,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,"[1705848082881x454792214332598400, 17058481188...","[1706692172181x819422048688594000, 17066921706...",1705851599759x479416668866214460,17,[],pain,1698433300252x835626794232717300,0,1706692173987x789833958091335600
3,2024-01-31T09:09:33.995Z,admin_user_sifter-63385_test,2024-01-31T09:09:33.995Z,Limitation de la disponibilité des produits en...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,"[1705848118874x455206967781607300, 17058480828...","[1706692172181x819422048688594000, 17066921706...",1705851599759x703635478822510100,17,[],pain,1698433300252x835626794232717300,0,1706692173995x239513363482010780
4,2024-01-31T09:09:34.004Z,admin_user_sifter-63385_test,2024-01-31T09:09:34.004Z,Produits nécessaires non disponibles pour la l...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,"[1705848118874x455206967781607300, 17058480828...","[1706692172181x819422048688594000, 17066921706...",1705851599759x741737583902983600,17,[],pain,1698433300252x835626794232717300,0,1706692174004x404407836447653570
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
240,2024-01-31T09:09:36.699Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.699Z,Diminution de la qualité des produits hallal,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848250225x478538894601366000],"[1706692172314x923121154777131200, 17066921708...",1705851601547x873163516395813400,37,[],pain,1698433300252x835626794232717300,16,1706692176699x809093445115013100
241,2024-01-31T09:09:36.701Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.701Z,Insatisfaction relative à la politique de reto...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848223473x225401328908415580],"[1706692172406x725545913901704200, 17066921708...",1705851599759x684481932766598300,40,[],pain,1698433300252x835626794232717300,16,1706692176701x243606379234283070
242,2024-01-31T09:09:36.705Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.705Z,"Satisfaction dans les domaines des boissons, p...",new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[],"[1706692172840x298558305073492100, 17066921708...",1705851601547x237827247385357540,90,[],positive,1698433290120x936044292663509300,16,1706692176705x878322767934921700
243,2024-01-31T09:09:36.706Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.706Z,Sentiment de détérioration de la qualité de se...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848302697x426707208945675400],"[1706692172315x698660951734622100, 17066921708...",1705851601547x579937716857114900,38,[],pain,1698433300252x835626794232717300,16,1706692176706x834896778630232800


In [None]:
def to_int(i):
    try:
        return int(i)
    except:
        return -1

for layer in insight_layers:
    layer['parent'] = layer['parent'].apply(to_int)


In [None]:
list(insight_layers[1]["content"])

["Demande de simplification et d'amélioration du programme de points de fidélité, avec des avantages accessibles dès le premier euro dépensé.",
 'Demande de renforcement du programme de fidélisation pour les clients réguliers.',
 'Améliorer la qualité de service et le comportement du personnel pour renforcer la satisfaction client.',
 'Assurer une mise à jour constante des stocks pour éviter les ruptures et fidéliser la clientèle.',
 'Revoir la stratégie et le système de livraison pour améliorer la compétitivité face à la concurrence',
 "Simplifier l'approvisionnement en réduisant la nécessité de multiplier les fournisseurs",
 "Optimiser l'assortiment produit en réponse à la concurrence",
 'Renforcer la fidélisation pour contrer la perte de clientèle au profit de la concurrence',
 'Analyser la stratégie de livraison de Pomona pour identifier les adaptations nécessaires',
 'Qualité médiocre des confitures à bas prix, indique une amélioration nécessaire de la qualité des produits à faibl

In [None]:
for i, layer in enumerate(insight_layers):
    print(list(insight_layers[0][insight_layers[0]['parent'] == 'None']["content"]))

[]
[]
[]
[]
[]


In [None]:
sum(insight_layers[0]['parent']<0)

1

In [None]:
#@Insight Plot the archive {display-mode: "form"}

# UMAP reduces the dimensions from 1024 to 2 dimensions that we can plot
reducer = umap.UMAP(n_neighbors=15)

def map_to_parent(i, parents_df):
    try:
        return parents_df.loc[i, 'content']
    except:
        return ""


Unnamed: 0,content,parent,cluster,x,y
0,Manque de produits disponibles en ligne,Restrictions dans la disponibilité et l'assort...,0,1.734255,2.587591
1,Réapprovisionnement insuffisant en saison,Problèmes d'approvisionnement et de réapprovis...,0,1.523192,2.736245
2,Offre limitée en livraison à domicile,Restrictions dans la disponibilité et l'assort...,0,0.970757,3.002320
3,Limitation de la disponibilité des produits en...,Restrictions dans la disponibilité et l'assort...,0,0.884670,3.056148
4,Produits nécessaires non disponibles pour la l...,Restrictions dans la disponibilité et l'assort...,0,1.534592,2.617728
...,...,...,...,...,...
240,Diminution de la qualité des produits hallal,Mécontentement face à la baisse de qualité des...,16,0.931845,3.811974
241,Insatisfaction relative à la politique de reto...,Insatisfaction relative à la politique de reto...,16,1.106189,4.386450
242,"Satisfaction dans les domaines des boissons, p...","Satisfaction concernant les boissons, produits...",16,1.472405,4.870232
243,Sentiment de détérioration de la qualité de se...,Mécontentement général concernant la qualité d...,16,1.185947,4.484133


In [None]:
insight_layers[0]

Unnamed: 0,Created Date,Created By,Modified Date,content,backend_status,status,company,feedback_count,project,step,tag,parents,related_feedback,parent,childrens,backend_type,type,cluster,_id
0,2024-01-31T09:09:33.966Z,admin_user_sifter-63385_test,2024-01-31T09:09:33.966Z,Manque de produits disponibles en ligne,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,"[1705848118874x455206967781607300, 17058480828...","[1706692172181x819422048688594000, 17066921706...",1705851601547x613008870526594600,17,[],pain,1698433300252x835626794232717300,0,1706692173966x743319040851267100
1,2024-01-31T09:09:33.979Z,admin_user_sifter-63385_test,2024-01-31T09:09:33.979Z,Réapprovisionnement insuffisant en saison,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848118874x455206967781607300],"[1706692172286x436384536226539700, 17066921707...",1705851601547x804238016121627800,29,[],pain,1698433300252x835626794232717300,0,1706692173979x232869741906919460
2,2024-01-31T09:09:33.987Z,admin_user_sifter-63385_test,2024-01-31T09:09:33.987Z,Offre limitée en livraison à domicile,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,"[1705848082881x454792214332598400, 17058481188...","[1706692172181x819422048688594000, 17066921706...",1705851599759x479416668866214460,17,[],pain,1698433300252x835626794232717300,0,1706692173987x789833958091335600
3,2024-01-31T09:09:33.995Z,admin_user_sifter-63385_test,2024-01-31T09:09:33.995Z,Limitation de la disponibilité des produits en...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,"[1705848118874x455206967781607300, 17058480828...","[1706692172181x819422048688594000, 17066921706...",1705851599759x703635478822510100,17,[],pain,1698433300252x835626794232717300,0,1706692173995x239513363482010780
4,2024-01-31T09:09:34.004Z,admin_user_sifter-63385_test,2024-01-31T09:09:34.004Z,Produits nécessaires non disponibles pour la l...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,"[1705848118874x455206967781607300, 17058480828...","[1706692172181x819422048688594000, 17066921706...",1705851599759x741737583902983600,17,[],pain,1698433300252x835626794232717300,0,1706692174004x404407836447653570
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
240,2024-01-31T09:09:36.699Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.699Z,Diminution de la qualité des produits hallal,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848250225x478538894601366000],"[1706692172314x923121154777131200, 17066921708...",1705851601547x873163516395813400,37,[],pain,1698433300252x835626794232717300,16,1706692176699x809093445115013100
241,2024-01-31T09:09:36.701Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.701Z,Insatisfaction relative à la politique de reto...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848223473x225401328908415580],"[1706692172406x725545913901704200, 17066921708...",1705851599759x684481932766598300,40,[],pain,1698433300252x835626794232717300,16,1706692176701x243606379234283070
242,2024-01-31T09:09:36.705Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.705Z,"Satisfaction dans les domaines des boissons, p...",new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[],"[1706692172840x298558305073492100, 17066921708...",1705851601547x237827247385357540,90,[],positive,1698433290120x936044292663509300,16,1706692176705x878322767934921700
243,2024-01-31T09:09:36.706Z,admin_user_sifter-63385_test,2024-01-31T09:09:36.706Z,Sentiment de détérioration de la qualité de se...,new,Catégorisé,1705585399217x205117684451615600,1,1705851616871x644869783878893600,1,[1705848302697x426707208945675400],"[1706692172315x698660951734622100, 17066921708...",1705851601547x579937716857114900,38,[],pain,1698433300252x835626794232717300,16,1706692176706x834896778630232800


Unnamed: 0,content
0,Restrictions dans la disponibilité et l'assort...
1,Problèmes d'approvisionnement et de réapprovis...
2,Offre insuffisante dans les catégories de prod...
3,Clients mécontents de l'absence d'entrées chau...
4,Suggestion récurrente de baisser les prix pour...
...,...
87,Mauvaise qualité des équipements et produits p...
88,Problèmes de communication avec le fournisseur...
89,Déception face à l'annulation d'extensions de ...
90,Insatisfaction relative à la politique de reto...


In [None]:
df_explore

Unnamed: 0,content,parent_nb,parent,cluster,x,y
0,Manque de produits disponibles en ligne,1,Restrictions dans la disponibilité et l'assort...,0,1.120149,-0.891384
1,Réapprovisionnement insuffisant en saison,1,Problèmes d'approvisionnement et de réapprovis...,0,1.197603,-1.204674
2,Offre limitée en livraison à domicile,1,Restrictions dans la disponibilité et l'assort...,0,0.431923,-0.636497
3,Limitation de la disponibilité des produits en...,1,Restrictions dans la disponibilité et l'assort...,0,0.473064,-0.858071
4,Produits nécessaires non disponibles pour la l...,1,Restrictions dans la disponibilité et l'assort...,0,0.945667,-0.792652
...,...,...,...,...,...,...
240,Diminution de la qualité des produits hallal,1,Mécontentement face à la baisse de qualité des...,16,0.255959,-0.433506
241,Insatisfaction relative à la politique de reto...,0,Insatisfaction relative à la politique de reto...,16,0.416740,0.138926
242,"Satisfaction dans les domaines des boissons, p...",0,"Satisfaction concernant les boissons, produits...",16,0.162481,-0.091484
243,Sentiment de détérioration de la qualité de se...,0,Mécontentement général concernant la qualité d...,16,0.264117,0.455169


In [None]:
df_explore = pd.DataFrame({
        'content':df_explore['parent'].unique(),
        'parent':df_explore['parent'].unique(),
        'cluster':'-1',
    })

In [None]:
df_explore["content"]

0               Manque de produits disponibles en ligne
1             Réapprovisionnement insuffisant en saison
2                 Offre limitée en livraison à domicile
3     Limitation de la disponibilité des produits en...
4     Produits nécessaires non disponibles pour la l...
                            ...                        
87    Mauvaise qualité des équipements et produits p...
88    Problèmes de communication avec le fournisseur...
89    Déception face à l'annulation d'extensions de ...
90    Insatisfaction relative à la politique de reto...
91    Satisfaction concernant les boissons, produits...
Name: content, Length: 337, dtype: object

In [None]:
df_explore[df_explore["parent"] == df_explore["content"]]

Unnamed: 0,content,parent_nb,parent,cluster,x,y
81,Problèmes récurrents avec les boîtes à pizza,1.0,Problèmes récurrents avec les boîtes à pizza,5,1.171641,7.007329
87,Suppression fréquente d'articles,1.0,Suppression fréquente d'articles,5,1.494333,6.908218
90,Changement fréquent de l'emplacement des produ...,0.0,Changement fréquent de l'emplacement des produ...,5,2.078505,6.78524
41,,,,black,5.750813,6.663392


['Manque de produits disponibles en ligne',
 'Réapprovisionnement insuffisant en saison',
 'Offre limitée en livraison à domicile',
 'Limitation de la disponibilité des produits en livraison',
 'Produits nécessaires non disponibles pour la livraison',
 'Manque de produits bio',
 'Pénurie croissante de produits toutes catégories',
 'Manque de produits en stock',
 'Réapprovisionnements non suivis',
 'Manque de produits disponibles pour la livraison',
 "Non-disponibilité de l'offre 'achetez plus' en livraison",
 'Produits spécifiques manquants pour le secteur de la cuisine',
 'Approvisionnement insuffisant',
 'Offre de produits en livraison insuffisante',
 'Manque de produits pour pizzerias',
 "Clients mécontents de l'absence d'entrées chaudes",
 'Disponibilité des produits',
 'Suggestion de baisser les prix pour reconquérir la clientèle professionnelle',
 'Amélioration grâce à la visite commerciale',
 'Perte de temps pour les commerçants',
 'Ouverture aux particuliers vue comme inefficac

In [None]:
'Problèmes récurrents avec les boîtes à pizza' in list(df_explore["content"])

True

In [None]:
df_explore.iloc[0]["content"]

'Manque de produits disponibles en ligne'

In [None]:
parents = [x for x in df_explore["parent"].unique() if x not in list(df_explore["content"])]
len(parents)

0

In [None]:
len(list((df_explore["parent"] == df_explore["content"]).astype(str)))

337

In [None]:
step=2

# Prepare the data to plot and interactive visualization
# using Altair
df_explore = pd.DataFrame(data={
    'content': insight_layers[step]['content'], 
    'parent_nb': (insight_layers[step]['parent']%2).astype(str),
    'parent': insight_layers[step]['parent'].apply(lambda x: map_to_parent(x, insight_layers[step+1])),
    'cluster': insight_layers[step]['cluster'].astype(str),
    })
df_explore['is_parent'] = list((df_explore["parent"] == df_explore["content"]).astype(int)+0.5)

parents = df_explore["parent"].unique()
df_parents = pd.DataFrame({
    'content':parents,
    'parent':'',
    'cluster':'black',
    'is_parent': 1.5,
})
df_explore = pd.concat([df_explore, df_parents])

sentences = list(df_explore["content"])
sentence_embeddings = embedding_model.encode(sentences)

umap_embeds = reducer.fit_transform(sentence_embeddings)

df_explore['x'] = umap_embeds[:,0]
df_explore['y'] = umap_embeds[:,1]

# Plot
chart = alt.Chart(df_explore).mark_circle(size=60).encode(
    x=#'x',
    alt.X('x',
        scale=alt.Scale(zero=False)
    ),
    y=
    alt.Y('y',
        scale=alt.Scale(zero=False)
    ),
    color='cluster',
    tooltip=['content', "parent"],
    size='is_parent'
    #shape='parent_nb',
).properties(
    width=700,
    height=400
)

chart.interactive()

In [None]:
def plot_clustering_step(insight_layers, step):
    sentences = insight_layers[step]["content"]
    sentence_embeddings = embedding_model.encode(sentences)

    umap_embeds = reducer.fit_transform(sentence_embeddings)

    # Prepare the data to plot and interactive visualization
    # using Altair
    df_explore = pd.DataFrame(data={
        'content': insight_layers[step]['content'], 
        'parent': insight_layers[step]['parent'].apply(lambda x: map_to_parent(x, insight_layers[step+1])),
        'cluster': insight_layers[step]['cluster'].astype(str),
        })
    df_explore['x'] = umap_embeds[:,0]
    df_explore['y'] = umap_embeds[:,1]

    parents = df_explore["parent"].unique()
    parents_embeddings = embedding_model.encode(parents)
    umap_embeds = reducer.transform(parents_embeddings)

    df_parents = pd.DataFrame({
        'content':parents,
        'parent':'',
        'cluster':'-1',
        'x': umap_embeds[:,0],
        'y': umap_embeds[:,1],
    })

    df_explore = pd.concat([df_explore, df_parents])
    # Plot
    chart = alt.Chart(df_explore).mark_circle(size=60).encode(
        x=#'x',
        alt.X('x',
            scale=alt.Scale(zero=False)
        ),
        y=
        alt.Y('y',
            scale=alt.Scale(zero=False)
        ),
        color='cluster',
        tooltip=['content', "parent"],
        size=
    ).properties(
        width=700,
        height=400
    )

    return chart, df_explore
    

chart, df_explore = plot_clustering_step(insight_layers, 0)
df_explore
chart.interactive()

In [None]:
df_explore

Unnamed: 0,content,parent_nb,parent,cluster,x,y,is_parent
0,Améliorer la gestion des invendus et considére...,1,"Optimisation de la gestion des stocks, des dat...",0,1.626692,9.167979,False
1,Harmoniser les offres promotionnelles et tarif...,0,Harmonisation des offres promotionnelles et de...,0,4.006276,10.306921,False
2,Améliorer la signalétique et l'accessibilité d...,1,"Amélioration de l'organisation en magasin, inc...",0,2.627098,8.716757,False
3,Demande d'une stratégie de prix plus compétiti...,0,Révision de la stratégie de prix et des option...,0,3.430581,10.971392,False
4,Optimiser la réorganisation des rayonnages et ...,1,"Amélioration de l'organisation en magasin, inc...",0,1.607211,8.448781,False
...,...,...,...,...,...,...,...
21,Attirance des clients pour des produits avec d...,,,black,4.239891,11.472876,True
22,Importance d'améliorer la clarté et l'exactitu...,,,black,4.119987,11.475318,True
23,Besoin d'améliorer les options de paiement et ...,,,black,4.660998,9.469762,True
24,Améliorer la fraîcheur et la présentation des ...,,,black,2.851190,7.889685,True


In [None]:
len(df_explore['parent'].unique())

92

In [None]:
chart = plot_clustering_step(insight_layers, 0)
chart.interactive()

In [None]:
chart = plot_clustering_step(insight_layers, 1)
chart.interactive()

In [None]:
chart = plot_clustering_step(insight_layers, 2)
chart.interactive()

In [None]:
chart = plot_clustering_step(insight_layers, 3)
chart.interactive()

TF-IDF

In [None]:
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/gardille/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(feedbacks_df['content'])
feature_names = vectorizer.get_feature_names_out()
dense = vectors.todense()
denselist = dense.tolist()
df = pd.DataFrame(denselist, columns=feature_names)
df = df[df.columns.difference(stopwords.words('french'))]


In [None]:
df.iloc[0].argmax()

171

In [None]:
print('\n'.join(df.columns))

10
11
12
13
15
150
16h
17
18
19
1euro
1ère
20
2023
21
22
25
25kg
2ème
30
34
35
40
450
50c
55
5l
60
70
72
90
abandonne
abeil
abonnés
abordables
absent
abusée
acceptable
accessible
accord
accueil
achalandage
achalandé
achat
achats
achete
acheter
achetez
acheté
achetés
achète
achèterais
actuellement
adresse
affché
affichage
affiche
afficher
affichez
affiché
affichés
afin
agaçant
agit
agreable
agréable
ailleurs
aimable
aime
aimerais
ainsi
ajout
alcool
alcools
aldi
ales
alimentaire
aller
alors
alpagel
an
ancien
annuler
année
années
ans
anti
appliqué
apprenne
appro
approvisionnement
appréciés
après
arrive
arrivent
arriver
arrivés
arrière
arrêt
arrêter
arrêtez
arrêts
arrêté
article
articles
arômes
assez
associés
assortiment
assumer
atteinte
attendre
attention
attractif
attractifs
aucun
aucune
augmentation
augmentations
augmente
augmentent
augmenter
augmentes
augmenté
aujourd
auprès
aussi
autorisé
autre
autrement
autres
avant
avantageux
avis
avocats
avoir
avoirs
baisse
baissez
bananes
banque
b

In [None]:
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(insights_df['content'])
feature_names = vectorizer.get_feature_names_out()
dense = vectors.todense()
denselist = dense.tolist()
df = pd.DataFrame(denselist, columns=feature_names)
df = df[df.columns.difference(stopwords.words('french'))]

In [None]:
#print('\n'.join(df.columns))

In [None]:
df

Unnamed: 0,absence,accessibles,accords,accueil,achat,achats,achetant,acheter,achetez,actuelle,...,écart,échelonné,élevé,élevés,épiceries,équipe,étiquetage,étiquettes,évite,être
0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
240,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
241,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
242,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
243,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [None]:

def get_top_two_columns(row):
    top_two_indexes = row.nlargest(5).index.tolist()
    return top_two_indexes

top_two_columns_df = df.apply(get_top_two_columns, axis=1)

print(top_two_columns_df)

0      [bouteilles, individuelle, alcool, livraison, ...
1      [celles, internet, réclamation, halles, inadéq...
2      [lors, transparence, commande, halles, livraison]
3      [désorganisation, rangement, magasin, absence,...
4            [digitale, forme, papier, sous, promotions]
                             ...                        
240    [alcoolisées, remises, suggestion, augmenter, ...
241    [générale, satisfaction, clients, absence, acc...
242    [disponibilité, produits, absence, accessibles...
243    [efficace, client, service, absence, accessibles]
244                [plutôt, unité, achat, gros, demande]
Length: 245, dtype: object


In [None]:
print('\n'.join(insights_df['content']))

Demande de livraison individuelle pour les bouteilles d'alcool
Réclamation sur inadéquation entre les offres internet et celles des halles
Demande de transparence des prix en halles lors de la commande en livraison
Désorganisation du rangement en magasin
Demande de promotions sous forme papier ou digitale
Discrepancy in pricing between wholesale and retail, even with the same supplier
Clients mécontents de l'absence d'entrées chaudes
Demande pour des options traiteurs pendant les fêtes
Nécessité d'améliorer l'assistance au chargement pour les clients achetant en grande quantité
Les prix sont considérés trop élevés par rapport à la concurrence
Le concurrent livre sans conditions, point fort par rapport à Metro
À revoir la gestion de la livraison
Suivi des avoirs en attente à améliorer
Manque de promotions pour petites quantités
Volumes proposés trop élevés
Demande de mise en place de points de fidélité
Réduction de l'assortiment en livraison impactant les commandes
Non-disponibilité de 