# Dependancies

## Requirements

In [None]:
#!pip install sentence_transformers langchain openai tqdm datasets asyncio scikit-learn cohere tiktoken umap altair

In [None]:
import numpy as np
import re
import pandas as pd
from tqdm.notebook import tqdm
from datasets import load_dataset
import umap
import altair as alt
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer
from typing import List
import enum


from langchain_community.llms import Ollama
from langchain.output_parsers.regex_dict import RegexDictParser
from langchain.output_parsers import PydanticOutputParser
from langchain_core.messages import HumanMessage, SystemMessage, ChatMessage
from langchain.prompts import ChatPromptTemplate, PromptTemplate
from pydantic import BaseModel, Field, validator
from openai import AsyncOpenAI
import asyncio
import os

import requests
import json
from bubble_api import Field as BubbleField
from bubble_api import BubbleClient

import itertools
from copy import copy
from tqdm.notebook import tqdm, trange
from sklearn.cluster import KMeans

import umap.umap_ as umap
#import umap
import hdbscan

from typing import Literal, Union
from pydantic.config import ConfigDict

import openai
import instructor

openai.api_key = "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"


## Useful functions

In [None]:
import unicodedata

def remove_accents(text):
    # Replace accented characters with their non-accented counterparts
    try:
        return unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8')
    except TypeError:  # handles cases when text is not a string (e.g., a number)
        return text

text = "Pôint positîf"
converted_text = remove_accents(text)
print(converted_text)

In [None]:
def clean_df(df):
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    return df

def batchify(iterable, size=1):
    l = len(iterable)
    for ndx in range(0, l, size):
        yield iterable[ndx:min(ndx + size, l)]

for x in batchify(list(range(0, 10)), 3):
    print(x)

def deduce_backend_type(insight_type):
    if insight_type == "1698433300252x835626794232717300":
        return "pain"
    elif insight_type == "1698433290120x936044292663509300":
        return "positive"   
    elif insight_type == "1698433314230x619003097145126100":
        return "feature"  
    elif insight_type == "1698433323222x402426615286320700":
        return "bug"   
    print("Incorrect type:", insight_type)

def most_common(lst):
    return max(set(lst), key=lst.count)

def columns_to_string(df, column_title, column_desc, add_index=False):
    def concanenatre_title_description(x, y):
        return x+" : "+y
    
    l = list(df.apply(lambda x: concanenatre_title_description(x[column_title], x[column_desc]), axis=1))
    if add_index:
        l = [str(i)+" - "+e for i, e in enumerate(l)]
    return '\n'.join(l)


def convert_text_to_constants(text):
    text = remove_accents(text)
    text = re.sub(r"([a-z])([A-Z]+)", r"\1_\2", text.upper())
    return re.sub(r" ", "_", text)

text = "Point positif"
converted_text = convert_text_to_constants(text)
print(converted_text)

## Models

In [None]:
import os
os.environ["OPENAI_API_KEY"] = "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"

In [None]:
#client = AsyncOpenAI()
client = instructor.patch(AsyncOpenAI())

embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')
GENERATION_ENGINE = "gpt-4-1106-preview"
EMBEDDING_ENGINE = "text-embedding-ada-002"

import nest_asyncio
nest_asyncio.apply()

In [None]:
async def get_analysis(prompt, response_model):
    response: response_model = await client.chat.completions.create(
        messages=[
            {"role": "system", "content": "Tu est un assistant spélialisé dans l'analyse de commentaires, et qui ne renvoit que des fichiers JSON."},
            {"role": "user", "content": str(prompt)},
        ],
        response_format={ "type": "json_object" },
        model=GENERATION_ENGINE,
        temperature=0,
        response_model=response_model,
        )
    return response #.choices[0].message.content

def apply_async_analysis(prompts, response_model):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_analysis(prompt, response_model)) for prompt in prompts]
    res =  loop.run_until_complete(asyncio.gather(*tasks))
    return res


In [None]:
def safe_async_analysis(prompts, parser, max_steps=3):
    results = [None for _ in prompts]
    to_be_run = list(range(len(prompts)))
    step = 0
    while to_be_run != []:
        #print("step:", step)
        #print("to_be_run:", len(to_be_run))
        assert step < max_steps
        bugs = []
        
        responses = apply_async_analysis([prompts[i] for i in to_be_run])

        for i in to_be_run:
            assert results[i] is None
            try:
                try:
                    parsed_response = parser.parse(responses[i])
                except:
                    parsed_response = parser.parse('{"properties":'+responses[i]+'}')
                    print("handled properties!")
                results[i] = parsed_response
            except:
                if max_steps==0:
                    print("prompt")
                    print(prompts[i].text)

                    print("reponse")
                    print(responses[i])

                    print("others:")
                    print(responses)

                    parsed_response = parser.parse(responses[i])
                bugs.append(i)

        to_be_run = bugs
        step += 1
    assert None not in results
    return results
    

In [None]:
async def get_embedding(text):
    response = await client.embeddings.create(input=text, model=EMBEDDING_ENGINE)
    return response.data[0].embedding

def apply_async_get_embedding(dfi):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_embedding(row['Comment'])) for _, row in dfi.iterrows()]
    return loop.run_until_complete(asyncio.gather(*tasks))

## Data

In [None]:
PROJECT =  "Metro" #"Cheerz"
project_path = 'Results/'+PROJECT
os.makedirs(project_path, exist_ok=True)

In [None]:
try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')

    path = '/content/drive/MyDrive/Blumana Folder'
else:
    path = "/Users/gardille/development/Blumana"

In [None]:
feedbacks_df = pd.read_csv(path+"/Data/Commentaires/metro.csv") #, index_col="Index")
#feedbacks_df = pd.read_csv("data/Trustpilot/cheerz_fr.csv", index_col="Index")
#feedbacks_df["Comment"] = feedbacks_df["Title"] + '\n' + feedbacks_df["content"]
feedbacks_column = 'Comment' #"Content"
feedbacks_df.head()

## Bubble API

In [None]:
COLUMNS_INSIGHTS = ["content", "backend_status", "status", "backend_type", "type", "company", "feedback_count", "parent", "project", "step", "tag"]

In [None]:
base_url = "https://blumana.app" #/version-test"
bubble_id = "04ca44f04c936081d8408b12c1ba67e2"

bubble_client = BubbleClient(
    base_url=base_url,
    api_token=bubble_id,
    bubble_version="test" #dev
)

In [None]:
#Randstad
#company_id = "1696884561832x730324245490558300"
#source_id = "1702244804258x371787369839591400"

#Metro
#Source : Dataset test - METRO
#Projet : METRO
company_id = "1705585399217x205117684451615600"
source_id = "1705851599107x404539534708310000"
project_id = "1705851616871x644869783878893600"


In [None]:
#bubble_client.delete_all("python_insight")

Feedbacks

In [None]:

res = bubble_client.get_objects(
        "Feedback",
        [
            BubbleField("source") == source_id,
            #Field("company") == company_id,
            ],
    )
feedbacks_df = pd.DataFrame(res)
feedbacks_df['Modified Date'] = pd.to_datetime(feedbacks_df['Modified Date'])
feedbacks_df['Created Date'] = pd.to_datetime(feedbacks_df['Created Date'])
feedbacks_column = 'content' #"content"

feedbacks_df.head()

Types

In [None]:
res = bubble_client.get_objects(
        "Add-On",
    )
types_df = pd.DataFrame(res)
types_df['Modified Date'] = pd.to_datetime(types_df['Modified Date'])
types_df['Created Date'] = pd.to_datetime(types_df['Created Date'])
types_df.head()

In [None]:
types_df[['Title',	'Definition']]

In [None]:
TypeInsight = enum.Enum("Type de l'insight", [(convert_text_to_constants(x), x) for x in types_df.Title])

Tags

In [None]:
res = bubble_client.get_objects(
        "Tag",
        [
            BubbleField("company") == company_id,
            ],
    )
tags_df = pd.DataFrame(res)
tags_df['Modified Date'] = pd.to_datetime(tags_df['Modified Date'])
tags_df['Created Date'] = pd.to_datetime(tags_df['Created Date'])
tags_df.head()

In [None]:
TagInsight = enum.Enum("Categories de l'insight", [(convert_text_to_constants(x), x) for x in tags_df.Name])

Filters

In [None]:
res = bubble_client.get_objects(
        "Filter",
        [
            BubbleField("company") == company_id,
            ],
    )
filters_df = pd.DataFrame(res)
filters_df

## Context

In [None]:
types_descr = columns_to_string(types_df, "Title", "Definition")
print(types_descr)

In [None]:
tags_descr = columns_to_string(tags_df, "Name", "Description")
print(tags_descr)

In [None]:
context_entreprise = "Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro)."
role = "product owner"
cible = "client"
question = "Que recommanderiez-vous à Metro d'améliorer ?"
example_insight = "Manque de clarté de l'affichage des prix en magasin"

exemple_commentaire = "je suis exclusif metro je n ai aucun representant j achetais jusqu a present tout metro par facilite mais je suis tres souvent décue par la reponse ha non on n en a pas cela arrive demain je pense que depuis le covid tout le monde ou presque s en fou!!!"

examples_insights_df = pd.DataFrame([
    {"Insights qui devraient en découler": "Déceptions face aux retard de livraison"},
    {"Insights qui devraient en découler": "Impression d'une baisse de qualité du service depuis le Covid"},
])

feedback_context = {
            "context": context_entreprise,
            "role": role,
            "cible": cible,
            "insight_types": types_descr,
            "insight_categories": tags_descr,
            "question": question,
            "exemple_commentaire": exemple_commentaire,
            "example_insights": '\n- '.join(list(examples_insights_df['Insights qui devraient en découler'])),
        }

feedback_context

# Feedbacks extraction

## List of insights

In [None]:
class FirstInsight(BaseModel):
    #model_config = ConfigDict(title='Main')
    
    insight_categories: List[TagInsight] = Field(description="Categories de l'insight.")
    insight_type: TypeInsight = Field(description="Type de l'insight.")
    #titre: str = Field(description="Titre de l'insight.")
    contenu: str = Field(description="Contenu de l'insight.") #Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nTypes: " + ', '.join(self.insight_types)
    
class InsightsList(BaseModel):
    insights_list: List[FirstInsight] = Field(description="Liste des insight qui ont été extrait des commentaires")


In [None]:
FirstInsight.model_json_schema() 

In [None]:

prompt_template = """Tu es {role} au sein de l'entreprise suivante:
{context}

Tu as mené une enquête auprès des {cible} de l'entreprise, et tu cherche à les analyser.
Effectue les étapes suivantes:

Étape 1 - Identification des insights
Identifie les insights à faire remonter auprès de ton équipe.
Voici les contraintes que les insights doivent respecter:
- Une personne de ton équipe qui lit un insight doit pouvoir en comprendre le sens, sans qu'il y ait d'ambiguité.
- Un insight doit être aussi court que possible, tout en restant parfaitement compréhensible et pertinent.
- N'ajoute pas de bouts de phrases unitiles, comme la conséquence quand celle ci est évidente. Par exemple, inutile d'ajouter des bouts de phrase comme "..., ce qui entraîne un intérêt moindre pour l'enseigne"
- Un insight ne doit comporter qu'une seule information.

Si un commentaire n'est pas très intéressant, il ne doit pas faire remonter d'insight.
L'ordre des retours est aléatoire, et ne doit pas avoir d'impact sur ton analyse.

Étape 2 - Catégorisation des insights
Si cela est possible, associe à chaque insight les catégories qui correspondent.

Les catégories suivies de leurs description sont: 
{insight_categories}

Étape 2 - Type des insights
Associe à chaque insight son type, parmi:
{insight_types}

Voici les retours à traiter:

"{feedback}"
"""

#Réponds uniquement avec un ficher JSON, comme expliqué:
#{format_instructions}


In [None]:
parser = PydanticOutputParser(pydantic_object=InsightsList)

prompt = PromptTemplate.from_template(
    template= prompt_template,
    #partial_variables= {"format_instructions": parser.get_format_instructions()},
)

prompts = []
for feedback in feedbacks_df[feedbacks_column]:
    context = copy(feedback_context)
    context["feedback"] = feedback
    prompts.append(prompt.invoke(context))

#print(prompts[0].text)

In [None]:
from openai import OpenAI

sync_client = instructor.patch(OpenAI())

user: InsightsList = sync_client.chat.completions.create(
    model="gpt-3.5-turbo",
    response_model=InsightsList,
    messages=[
        {"role": "user", "content": prompts[0].text},
    ]
)

In [None]:
user

In [None]:
apply_async_analysis(prompts, InsightsList)

In [None]:
feedbacks_df["sentiment"] = [rep.sentiment for rep in parsed_responses]
feedbacks_df["insights"] = [[] for rep in parsed_responses]

k=0
insights = []
for i, rep in enumerate(parsed_responses):
    for j, insight in enumerate(rep.insights_list):
        insights.append(insight)
        feedbacks_df["insights"].iloc[i].append(str(k))
        k += 1

## Feedbacks attribution

In [None]:
class Feedback(BaseModel):
    insights_list: List[str] = Field(description="Contenu et type des insights")
    content = ""
    sentiment: str = Field(description="Sentiment exprimé, peut être 'Positif', 'Neutre' ou 'Négatif'. Ne pas oublier les majuscules et accentuations.")
    # You can add custom validation logic easily with Pydantic.
    @validator("sentiment")
    def valid_sentiment(cls, field):
        if field not in ["Positif", "Neutre", "Négatif"]:
            raise ValueError("Sentiment "+field+" not valid.")
        return field

    def __str__(self):
        return "Commentaire: \""+ self.content+"\"\n\nSentiment: "+self.sentiment+"\n\nInsights: \n"+"\n\n".join([str(i) for i in self.insights_list])



In [None]:

prompt_template_feedback = """Tu es {role} au sein de l'entreprise suivante:
{context}

Tu as mené une enquête auprès des {cible} de l'entreprise. 

Étape 1 - Identifie les insights à faire remonter auprès de ton équipe.
Voici les contraintes que les insights doivent respecter:
- Une personne de ton équipe qui lit un insight doit pouvoir en comprendre le sens, sans qu'il y ait d'ambiguité.
- Un insight doit être aussi court que possible, tout en restant parfaitement compréhensible et pertinent.
- N'ajoute pas de bouts de phrases unitiles, comme la conséquence quand celle ci est évidente. Par exemple, inutile d'ajouter des bouts de phrase comme "..., ce qui entraîne un intérêt moindre pour l'enseigne"
- Un insight ne doit comporter qu'une seule information.

Étape 2 - Identifie si le sentiment exprimé dans chacun des retours par le {cible} est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question ayant été posée ({question}) afin de bien interpréter le sens du retour {cible}.
Attention à ne pas oublier l'accent si tu choisis Négatif.

Étape 3 - Associe chaque retour aux écentuels feedbacks qui en découlent.

Par exemple, pour les retours suivants:
'''
{exemple_commentaire}
'''
on voudrait faire remonter les points suivants:
'''
- {example_insights}
'''

Si un commentaire n'est pas très intéressant, il ne doit pas faire remonter d'insight.

Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Voici les retours à traiter:

"{feedback}"
"""

#Si le {cible} n'a rien à signaler ("ras", "tout est ok", "rien à signaler") crée un insight dédié

In [None]:
feedback_parser = PydanticOutputParser(pydantic_object=Feedback)

prompt_feedback = PromptTemplate.from_template(
    template= prompt_template_feedback,
    partial_variables= {"format_instructions": feedback_parser.get_format_instructions()},
)

prompts = []
for feedback in feedbacks_df[feedbacks_column]:
    context = copy(feedback_context)
    context["feedback"] = feedback
    prompts.append(prompt_feedback.invoke(context))

#print(prompts[0].text)

In [None]:
parsed_responses = safe_async_analysis(prompts, feedback_parser)

feedbacks_df["sentiment"] = [rep.sentiment for rep in parsed_responses]
feedbacks_df["insights"] = [[] for rep in parsed_responses]

k=0
insights = []
for i, rep in enumerate(parsed_responses):
    for j, insight in enumerate(rep.insights_list):
        insights.append(insight)
        feedbacks_df["insights"].iloc[i].append(str(k))
        k += 1

In [None]:
feedbacks_df.head()

In [None]:
insights_df = pd.DataFrame({
    "content":insights,
    "feedback_count": 1,
    })

In [None]:
feedbacks_df

In [None]:
insights_df["related_feedback"] = [[] for _ in range(len(insights_df))]

for i, row in feedbacks_df.iterrows():
    for j in row["insights"]:
        insights_df["related_feedback"].iloc[int(j)] = row['_id'] #[int(i)]

insights_df["childrens"] = [[] for _ in range(len(insights_df))]

insights_df.head()

# Insights categorisation

### Tagging

In [None]:
prompt_tags = ""

for i, filter in filters_df.iterrows():
    prompt_tags += '\n\n'+filter["Name"]#+' ('+filter["_id"] +')'
    tags = tags_df[tags_df["Filter"] == filter["_id"]]
    for _, tag in tags.iterrows():
        prompt_tags += '\n'+"- "+tag["Name"]+' ('+tag["_id"] +')'

print(prompt_tags)


In [None]:

prompt_template_categorsiation = """Tu es {role} au sein de l'entreprise suivante :
{context}

Tu as mené une enquête auprès de tes {cible}. 

Tu dois associer à l'insight donné plus loin aucun, l'identifiant d'un ou plusieurs tags. S'il n'est pas possible d'associer un tag avec certitude dans l'une des catégories, laisse la liste vide. Répond avec la liste des identifiants suités entre parenthèse juste après les tags.
Par exemple, pour les tags suivants, le tag C d'identifiant 17049ZER93619x303734523452623450 appartient catégorie 2:
'''
catégotie 1 
- tag A (1704912293619x303734523452694300)
- tag B (17049ZER93619x303734523452694300)

catégotie 2 
- tag C (17049ZER93619x303734523452623450)
- tag D (170AZZER93619x303734524452623450)
'''

Voici les tags avec lesquels tu devras essayer de classifier l'insight:""" + prompt_tags + """

Tu ne dois par renvoyer le tag, mais uniquement son identifiant.
Un identifiant contient toujours un x à l'intérieur, comme par example 1704912293619x303731423452694300.
Ainsi, 1704912293619 n'est pas un identifiant valide.
Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Voici l'insight que tu dois essayer de catégoriser: '{insight}'
"""

In [None]:
class FirstInsight(BaseModel):
    tags_id: List[str] = Field(description="Identifiants des tags de l'insight")
    content: str = "" #Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nTypes: " + ', '.join(self.insight_types)

In [None]:
categorsiation_parser = PydanticOutputParser(pydantic_object=FirstInsight)

prompt_categorsiation = PromptTemplate.from_template(
    template= prompt_template_categorsiation,
    partial_variables= {"format_instructions": categorsiation_parser.get_format_instructions()},
)

prompts = []
for insight in insights_df["content"]:
    context = copy(feedback_context)
    context["insight"] = insight
    prompts.append(prompt_categorsiation.invoke(context))

#print(prompts[0].text)

In [None]:
parsed_responses = safe_async_analysis(prompts, categorsiation_parser)


In [None]:

insights_df["tag"] = [rep.tags_id for rep in parsed_responses]
#insights_df["Insights"] = [[] for rep in parsed_responses]


### Types affectation

In [None]:
prompt_types = ""

for _, tag in types_df.iterrows():
    prompt_types += '\n'+"- "+tag["Title"]+' ('+tag["_id"] +') : ' + tag["Definition"]

print(prompt_types)

In [None]:

prompt_template_types = """Tu es {role} au sein de l'entreprise suivante :
{context}

Tu as mené une enquête auprès de tes {cible}. 

Catégorise l'insight qui te sera donné à l’aide de l'identifiant d'un des types qui te seront donnés. 
Tu dois associser exactement un type. Choisit celui qui est le plus pertinent.
Répond avec l'identifiants suités entre parenthèse juste après les types. La definition des types est située jsute après les double points. 
Par exemple, pour les types suivants, le type 2 a pour identifiant 1704912293619x303671423452694300.
'''
- type 1 (1704412293619x303731423423694300) : définition du type 1
- type 2 (1704912293619x303671423452694300) : définition du type 2
'''

Voici les types:""" + prompt_types + """

Tu ne dois par renvoyer le type, mais uniquement son identifiant.
Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}

Un identifiant contient toujours un x à l'intérieur, comme par example 1704912293619x303731423452694300.
Ainsi, 1704912293619 n'est pas un identifiant valide.

Voici l'insight que tu dois essayer de catégoriser: '{insight}'
"""

In [None]:
categorsiation_parser = PydanticOutputParser(pydantic_object=FirstInsight)

prompt_categorsiation = PromptTemplate.from_template(
    template= prompt_template_types,
    partial_variables= {"format_instructions": categorsiation_parser.get_format_instructions()},
)

prompts = []
for insight in insights_df["content"]:
    context = copy(feedback_context)
    context["insight"] = insight
    prompts.append(prompt_categorsiation.invoke(context))

#print(prompts[0].text)

In [None]:
parsed_responses = safe_async_analysis(prompts, categorsiation_parser)


In [None]:
insights_df["type"] = [rep.insight_type for rep in parsed_responses]

In [None]:
feedbacks_df.to_csv(project_path+'/feedbacks.csv', index_label='Index')
insights_df.to_csv(project_path+'/insights.csv', index_label='Index')

# Insights clustering

In [None]:
feedbacks_df = clean_df(pd.read_csv(project_path+'/feedbacks.csv', index_col='Index'))
insights_df = clean_df(pd.read_csv(project_path+'/insights.csv', index_col='Index'))

In [None]:
embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')

In [None]:
class DeducedInsight(BaseModel):
    insights_mineurs: List[int] = Field(description="Index des insights mineurs qui ont été résumés en cet insight.")
    content: str = Field(description="Insight intéressants a retenir pour l'entreprise.")

    def __str__(self):
        return '- ' + self.content + '\n Enfants:' + str(self.insights_mineurs)


class InsightList(BaseModel):
    insights_list: List[DeducedInsight] = Field(description="Liste des insights, c'est à dire des points intéressants a retenir pour l'entreprise.")
    # You can add custom validation logic easily with Pydantic.

    def __str__(self):
        return "Insights: \n"+"\n\n".join([str(i) for i in self.insights_list])



In [None]:

prompt_template_reduction = """Tu es {role} au sein de l'entreprise suivante:
{context}

Une liste d'insights mineurs a été identifiée à partir de retours {cible}.

Ils sont de très bonne qualité, et apportent des retours intéressants à l'entreprise en question. 
Mais il est possible que certains soient redondants ou inutilement précis, auquel cas nous souhaiterions les regrouper. 

Si c'est le cas, les insights redondants doivent être regroupés en un insight majeur. 
Si au contraite, l'insight à un sens bien dictinct des autres, il devient un insight majeur, et doit donc être recopié à l'identique. 

Pour transformers les insights mineurs en insights majeurs, suit ces quelques règles:

1) Si l'un des insights mineurs permet de synthétiser l'information du regroupement, il devient l'insight majeur du groupe. Recopie le à l'identique et associe lui les insights mineurs, y comprie lui même.

2) Si aucun des insights mineurs ne convient, formule un insight majeurs permettant de synthétiser leur sens. Voici les contraintes que doivent respecter ton insights majeur:
- Une personne de ton équipe qui lit un insight majeur doit pouvoir en comprendre le sens.
- Un insight majeur doit idéalement ne pas être trop long, tout en restant parfaitement compréhensible et pertinent. Les phrases nominales sont autorisées. 
- Un insight majeur ne doit comporter qu'une seule information : on ne mélange pas plusieurs éléments au sein d'un insight majeur. 

Un insight mineur doit être regroupé dans exactement un insight majeur. Rappelon que si l'insight mineur devient majeur, les deux auront le même contenu.
Ainsi, chaque insight mineur doit être l'enfant d'exactement un insight majeur que tu retournes.

Associe à chaque insight majeur l'indice des insights mineurs qui lui sont associés. 
Vérifie bien que les indices correspondent, et que tous les insights mineurs sont associés à un insight majeur. 
L'ordre des insights mineurs est aléatoire, et ne doit pas avoir d'importance dans ta réponse.

Réponds uniquement avec un ficher JSON, comme expliqué :
{format_instructions}

Voici la liste des insights mineurs que tu dois transformer en insights majeurs:
{insights}

"""


#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres.
#- Etre distincts les uns des autres.


In [None]:

prompt_template_reduction_sans_reformulation = """Tu es {role} au sein de l'entreprise suivante:
{context}

Une liste d'insights mineurs a été identifiée à partir de retours {cible}.

Ils sont de très bonne qualité, et apportent des retours intéressants à l'entreprise en question. 
Mais il est possible que certains soient redondants ou inutilement précis, auquel cas nous souhaiterions les regrouper. 

Pour les regrouper, choisit l'insights mineurs qui permet le mieux de synthétiser l'information du regroupement, il devient l'insight majeur du groupe. 
Recopie le à l'identique et associe lui les insights mineurs, y comprie lui même.

Chaque insight mineur doit être l'enfant d'exactement un insight majeur que tu retournes.

Associe à chaque insight majeur l'indice des insights mineurs qui lui sont associés. 
Vérifie bien que les indices correspondent, et que tous les insights mineurs sont associés à un insight majeur. 
L'ordre des insights mineurs est aléatoire, et ne doit pas avoir d'importance dans ta réponse.

Réponds uniquement avec un ficher JSON, comme expliqué :
{format_instructions}

Voici la liste des insights mineurs que tu dois transformer en insights majeurs:
{insights}

"""


#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres.
#- Etre distincts les uns des autres.


In [None]:

prompt_template_regrouping = """Tu es {role} au sein de l'entreprise suivante:
{context}

Une liste d'insights a été identifiée à partir de retours clients.
Un insight est une déduction intéressante de l'étude des commentaires {cible}, qu'il serait vraiment intéressant faire remonter aux responsables de l'entreprise.
Par exemple, un bon insight pourrait être: {example_insight}

Si certain sont redondant, reformule les en un seul insight. Il est préférable qu'il ne soit pas trop long, et évite les bouts de phrase sans réel intéret. Par exemple, ne pas ajouter '... pour améliorer l'experience client'.
Associe à chaque nouvel insight créé l'ensemble des feedbacks qui sont associés aux insights qu'il regroupe.
Il est possible qu'il n'y ai besoin de regrouper aucun insight.
Un insight ne peut être regroupé que dans un seul autre insight.
Chaque insight doit donc être l'enfant d'exactement un insight que tu retournes.

Pour les insights qui n'ont pas besoin d'être regroupés, recopie les ainsi que leurs feedbacks associés.
L'ordre des insights est aléatoire, et ne doit pas avoir d'importance dans ta réponse.

{format_instructions}

Voici les insights que tu dois regrouper:

{insights}

Tu ne dois rien écrire d'autre que le JSON requis.

"""
#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres.
#- Etre distincts les uns des autres.
#Tu ne doit pas réecrir les insights qui ne sont pas regroupés.


In [None]:
# Dimension reduction

N_NEIGHBORS = 15
MINIMISATION_STEPS = 5
CLUSTER_DESIRED_SIZE = 15  # For Kmeans only
MIN_CLUSTER_SIZE = 5  # 15
NB_INSIGHT_STOP = 20
MINIMAL_REDUCTION_RATIO = 0.1
REWORDING = True

CLUSTERING_DIMENTION = 50
CLUSTERING_METHOD = "KMeans"

insight_context = {
    "cible": cible,
    "context": context_entreprise,
    "example_insight": example_insight,
    "role": role,
    "question": question,
}

In [None]:
from sklearn.cluster import AgglomerativeClustering

In [None]:
insight_parser = PydanticOutputParser(pydantic_object=InsightList)

prompt_reduction = PromptTemplate.from_template(
    template= prompt_template_reduction if REWORDING else prompt_template_reduction_sans_reformulation,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)

prompt_regrouping = PromptTemplate.from_template(
    template= prompt_template_regrouping,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)

insights = copy(insights_df)
insight_layers = []#[copy(insights_df)]
single_cluster = False
reduction = 1.0

for step in range(MINIMISATION_STEPS):

    #for processing_step in ["reduction"]:#, "regrouping"]:
        ### Création des représentations

    #print("Processing step:", processing_step)
    sentence_embeddings = embedding_model.encode(insights['content'])

    # On réduit la dimention pour améliorer l'efficacité de la clusterisation
    adjusted_clustering_dimention = min(CLUSTERING_DIMENTION, len(insights)//3)
    umap_embeddings = umap.UMAP(n_neighbors=N_NEIGHBORS, 
                        n_components=adjusted_clustering_dimention, 
                        metric='cosine').fit_transform(sentence_embeddings)

    ### Clusterisation
    if CLUSTERING_METHOD == "KMeans":
        num_clusters = 1 + len(insights) // CLUSTER_DESIRED_SIZE
        clustering_model = KMeans(n_clusters=num_clusters, n_init='auto')
    elif CLUSTERING_METHOD == "hdbscan":
        clustering_model = hdbscan.HDBSCAN(min_cluster_size=MIN_CLUSTER_SIZE,
                            metric='euclidean',                      
                            cluster_selection_method='eom' #leaf
                            )
        
    clustering_model.fit(umap_embeddings)

    #clustering_model.fit(umap_embeddings)
    cluster_assignment = clustering_model.labels_ 
    cluster_assignment -= min(cluster_assignment) # has to start at 0
    
    num_clusters = max(cluster_assignment)+1

    insights["cluster"] = copy(cluster_assignment)
    insights = insights.sort_values("cluster")
    insights.reset_index(drop=True, inplace=True)


    if reduction <= MINIMAL_REDUCTION_RATIO:
        print("Stopping because of unsufficient reduction")
        break

    insight_layers.append(copy(insights))

    if len(insights) <= NB_INSIGHT_STOP:
        print("Minimal number of insights reached")
        break

    if single_cluster:
        break   

    cluter_sizes = list(insights.groupby(['cluster']).count()["content"])
    if len(cluter_sizes) == 1:
        print("Stopping because single cluster")
        single_cluster = False
        break

    print("Step "+ str(step)+ ": processing "+ str(num_clusters) + " clusters")
    print("Adjusted clustering dimention:", adjusted_clustering_dimention)
    print("Cluster sizes:" + str(cluter_sizes))

    #clusters = []
    prompts = []
    cumul_size = 0
    for cluster_id in range(num_clusters): # IL FAUDRAIT GARDER INDEM LE DERNIER CLUSTER
        cluster = insights[insights['cluster'] == cluster_id]
        #cluster_name ='/cluster_'+ str(cluster_id)+"_step_"+str(step) +'.csv'
        #cluster.to_csv( project_path+cluster_name, index_label='Index')
        #clusters.append(cluster)

        context = copy(insight_context)
        context['insights'] = '\n'.join([str(i+cumul_size)+": "+s for i, s in enumerate(cluster["content"])])
        #print(context['insights'])

        #if processing_step == "reduction":
        prompt=prompt_reduction.invoke(context)
        #elif processing_step == "regrouping":
        #prompt=prompt_regrouping.invoke(context)
        #else:
        #    raise("Wrong processing step")
        prompts.append(prompt)
        cumul_size += len(cluster)

    ### Traitement des clusters
    parsed_responses = safe_async_analysis(prompts, insight_parser)
    
    new_insights = []
    for i, parsed_response in enumerate(parsed_responses):
        content_list = [insight.content for insight in parsed_response.insights_list]
        childrens_list = [list(insight.insights_mineurs) for insight in parsed_response.insights_list]
        feedback_count_list = [sum(insights.loc[c, "feedback_count"]) for c in childrens_list]
        dfs = pd.DataFrame({
            #"related_feedback":[list(itertools.chain.from_iterable(insights.iloc[insight.insights_mineurs]['related_feedback'])) for insight in parsed_response.insights_list],
            "content":content_list,
            "childrens":childrens_list,
            "type": most_common([insights.loc[c, "type"].iloc[0] for c in childrens_list]),
            #"cluster":i,
            "feedback_count":feedback_count_list,
            #"childrens":[list(clusters[i].iloc[insight.insights_mineurs]["_id"]) for insight in parsed_response.insights_list],
            })
        new_insights.append(dfs)

    new_insights = pd.concat(new_insights)
    new_insights.reset_index(drop=True, inplace=True)

    
    reduction = (1-(len(new_insights)/len(insights)))
    insights = new_insights
    
    print("Number of new insights:"+ str(len(new_insights)))
    print("Reduction in the number of insights by " + "%d" % int(reduction*100) + "%")
    print()

#insight_layers.append(copy(new_insights))

In [None]:
insight_layers[0]

In [None]:
list(insight_layers[0]['content'])

In [None]:
list(insight_layers[-1]['content'])

In [None]:
for i, df in enumerate(insight_layers):
    df.to_csv(project_path+'/insights_'+ str(i) +'.csv', index_label='Index')

In [None]:
#list(insight_layers[0][insight_layers[0]["cluster"] == 2]["content"])

In [None]:
insight_layers[0]

In [None]:
insight_layers[1]

In [None]:
n_layers = len(insight_layers)
layers_sizes = [len(l) for l in insight_layers]
print("Layers sizes:", layers_sizes)

# Data cleaning

In [None]:
insight_layers = []
for i in range(n_layers):
    df = pd.read_csv(project_path+'/insights_'+ str(i) +'.csv', index_col='Index')
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    #df['tag'] = df['tag'].apply(lambda x: eval(x))
    #df['type'] = df['type'].apply(lambda x: eval(x))
    #df['childrens'] = df['childrens'].apply(lambda x: eval(x))
    df["backend_type"] = df["type"].apply(deduce_backend_type)
    insight_layers.append(df)
#insights_df = pd.concat(insight_layers)

Previous insights supression

In [None]:
res = bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("project") == project_id,
            BubbleField("company") == company_id,
            ],
    )
python_insight_df = pd.DataFrame(res)

if len(python_insight_df)>0:
    for bubble_id in tqdm(python_insight_df["_id"]):
        bubble_client.delete_by_id(
            "python_insight",
            bubble_id,
        )

    print("Deleted", len(python_insight_df), "python_insight")
else:
    print("Nothing to delete")

Adding parents

In [None]:
insight_layers[0]["parent"] = None #[[] for _ in insight_layers[0].iterrows()]
insight_layers[-1]["parent"] = None


for i in range(n_layers-1):
    insight_layers[i]["parent"] = None
    for p, row in insight_layers[i+1].iterrows():
        for c in row["childrens"]: #eval(
            insight_layers[i]["parent"].iloc[int(c)] = p

In [None]:
insight_layers[-1]["parents"] = [[] for _ in insight_layers[-1].iterrows()]

for i in range(n_layers-2, -1, -1):
    print(i)
    # Update the parents in the DB
    res = bubble_client.create(
        "python_insight",
        [{
            "company": company_id,
            "project": project_id,
            "content": row["content"],
            "backend_status": "new",
            "feedback_count":row["feedback_count"],
            "step": i+2,
            "type": row["type"],
            "parents": row["parents"],
            "parent": str(row["parent"]),
            "backend_type": row['backend_type'],
            "childrens": eval(row["childrens"]) if type(row["childrens"])==str else row["childrens"],
            "cluster": row["cluster"],
        }  for _, row in insight_layers[i+1].iterrows()]
    )

    df = pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+2,
            BubbleField("company") == company_id,
            ],
    ))
    for col in df.columns:
        if type(df.loc[0, col]) == str and df.loc[0, col][0]=="[":
            df[col] = df[col].apply(lambda x: eval(x))
    insight_layers[i+1] = df

    # Initialize an empty list of parents for each row
    insight_layers[i]["parents"] = [[] for _ in insight_layers[i].iterrows()]

    for k, row in insight_layers[i].iterrows():
        if row["parent"] is not None:
            # Get the parent index
            parent_index = row["parent"]

            # Get the parent's list of parents
            parent_parents = insight_layers[i + 1]["parents"].iloc[parent_index]

            # Add the parent to the current row's list of parents
            parent_id = insight_layers[i + 1].loc[parent_index, '_id']
            insight_layers[i].loc[k, "parents"].append(parent_id)

            # Recursively add the parent's parents to the current row's list of parents
            insight_layers[i].loc[k, "parents"].extend(parent_parents)


In [None]:

res = bubble_client.create(
        "python_insight",
        [{
            "company": company_id,
            "project": project_id,
            "content": row["content"],
            "backend_status": "new",
            "feedback_count": row["feedback_count"],
            "step": 1,
            "related_feedback":row['related_feedback'],
            "tag": row["tag"],
            "type": row["type"],
            "backend_type": row['backend_type'],
            "parents": row["parents"],
            "parent": str(row["parent"]),
            "childrens": 0,#[[] for _ in insight_layers[0][:1000].iterrows()],
            "cluster": row["cluster"],
        }  for _, row in insight_layers[0].iterrows()]
    )

In [None]:
online_python_insights = [
    pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+1,
            BubbleField("company") == company_id,
            ],
    )) for i in range(n_layers)
]

In [None]:
assert [len(l) for l in insight_layers] == [len(l) for l in online_python_insights]

In [None]:
feedbacks_df

In [None]:
insight_layers[1]

In [None]:
df = insight_layers[0]

def get_all_parents(feedback_identifier):
    parents = []
    for i, row in df.loc[df['related_feedback'] == feedback_identifier].iterrows():
        for parent in row['parents']:
            parents.append(parent)
    return parents

feedbacks_df['parents'] = feedbacks_df['_id'].apply(get_all_parents)

feedbacks_df


In [None]:
for _, row in tqdm(feedbacks_df.iterrows()):
    res = bubble_client.update_object(
        "Feedbacks",
        row['_id'], 
        {
            "insights": row["parents"],
        } 
    )

In [None]:

res = bubble_client.get_objects(
        "Feedback",
        [
            BubbleField("source") == source_id,
            ],
    )
pd.DataFrame(res)

# Visualisation

In [None]:
insight_layers = [
    pd.DataFrame(bubble_client.get_objects(
        "python_insight",
        [
            BubbleField("step") == i+1,
            BubbleField("company") == company_id,
            ],
    )) for i in range(n_layers)
]

In [None]:
insight_layers[0].tail()

In [None]:
sentences = insight_layers[0]["content"]
sentence_embeddings = embedding_model.encode(sentences)
sentence_embeddings.shape

In [None]:
insight_layers[0]['parent']

In [None]:
insight_layers[0]

In [None]:
def to_int(i):
    try:
        return int(i)
    except:
        return -1

for layer in insight_layers:
    layer['parent'] = layer['parent'].apply(to_int)


In [None]:
list(insight_layers[1]["content"])

In [None]:
for i, layer in enumerate(insight_layers):
    print(list(insight_layers[0][insight_layers[0]['parent'] == 'None']["content"]))

In [None]:
sum(insight_layers[0]['parent']<0)

In [None]:
insight_layers[1].iloc[insight_layers[0]['parent'], "content"]

In [None]:
insight_layers[0].loc[0, "cluster"] == 0

In [None]:
map_to_parent(0, insight_layers[1])

In [None]:
insight_layers[1].loc[0, 'parent']

In [None]:
#@Insight Plot the archive {display-mode: "form"}

# UMAP reduces the dimensions from 1024 to 2 dimensions that we can plot
reducer = umap.UMAP(n_neighbors=15)
umap_embeds = reducer.fit_transform(sentence_embeddings)

def map_to_parent(i, parents_df):
    try:
        return parents_df.loc[i, 'content']
    except:
        return ""
    
# Prepare the data to plot and interactive visualization
# using Altair
df_explore = pd.DataFrame(data={
    'content': insight_layers[0]['content'], 
    'parent': insight_layers[0]['parent'].apply(lambda x: map_to_parent(x, insight_layers[1])),
    'cluster': insight_layers[0]['cluster'].astype(str),
    })
df_explore['x'] = umap_embeds[:,0]
df_explore['y'] = umap_embeds[:,1]
df_explore


In [None]:

# Plot
chart = alt.Chart(df_explore).mark_circle(size=60).encode(
    x=#'x',
    alt.X('x',
        scale=alt.Scale(zero=False)
    ),
    y=
    alt.Y('y',
        scale=alt.Scale(zero=False)
    ),
    color='cluster',
    tooltip=['content', "parent"]
).properties(
    width=700,
    height=400
)
chart.interactive()

TF-IDF

In [None]:
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

nltk.download('punkt')

In [None]:
def td_idf(documents)
    vectorizer = TfidfVectorizer()
    vectors = vectorizer.fit_transform(documents)
    feature_names = vectorizer.get_feature_names_out()
    dense = vectors.todense()
    denselist = dense.tolist()
    df = pd.DataFrame(denselist, columns=feature_names)
    df = df[df.columns.difference(stopwords.words('french'))]


In [None]:
df = td_idf(feedbacks_df['content'])
#print('\n'.join(df.columns))

In [None]:
#print('\n'.join(df.columns))

In [None]:

def get_top_two_columns(row):
    top_two_indexes = row.nlargest(5).index.tolist()
    return top_two_indexes

top_two_columns_df = df.apply(get_top_two_columns, axis=1)

print(top_two_columns_df)

In [None]:
#print('\n'.join(insights_df['content']))