In [238]:
import numpy as np
import re
import pandas as pd
from tqdm.notebook import tqdm
from datasets import load_dataset
import umap
import altair as alt
from sklearn.metrics.pairwise import cosine_similarity
from annoy import AnnoyIndex
import warnings
from sentence_transformers import SentenceTransformer
import pprint
from typing import List

from langchain_community.llms import Ollama
from langchain.output_parsers.regex_dict import RegexDictParser
from langchain.output_parsers import PydanticOutputParser
from langchain_core.messages import HumanMessage, SystemMessage, ChatMessage
from langchain.prompts import ChatPromptTemplate, PromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field, validator
from langchain_openai import ChatOpenAI
from openai import AsyncOpenAI
import asyncio
import os

import itertools
from copy import copy
from tqdm.notebook import tqdm, trange
from sklearn.cluster import KMeans
import openai
openai.api_key = "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"


In [239]:
client = AsyncOpenAI()

embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')
GENERATION_ENGINE = "gpt-4-1106-preview"
EMBEDDING_ENGINE = "text-embedding-ada-002"

import nest_asyncio
nest_asyncio.apply()

In [240]:
PROJECT =  "Metro" #"Cheerz"
project_path = 'Results/'+PROJECT
os.makedirs(project_path, exist_ok=True)

In [249]:
feedbacks_df = pd.read_csv("/Users/gardille/development/BlueMana/data/Commentaires/metro.csv")
#feedbacks_df = pd.read_csv("data/Trustpilot/cheerz_fr.csv", index_col="Index")
#feedbacks_df["Comment"] = feedbacks_df["Title"] + '\n' + feedbacks_df["Content"]
feedbacks_column = 'Comment' #"Content" 
feedbacks_df.head()

Unnamed: 0,Comment
0,"Trop de ruptures , de produits arrêtés du jour..."
1,Je n'ai pas grand chose à dire sur les prix pa...
2,"Metro augmente ses prix à vu deuil, pour la li..."
3,Rupture de produit tout type de produit \n ( s...
4,Gros soucis du côté stationnement pour les véh...


## Insights categorisation

In [242]:

class FirstInsight(BaseModel):
    insight_types: List[str] = Field(description="Types de l'insight")
    content: str = Field(description="Point intéressant a retenir du commentaire.")

    def __str__(self):
        return '- ' + self.content + "\nTypes: " + ', '.join(self.insight_types)

class Feedback(BaseModel):
    insights_list: List[FirstInsight] = Field(description="Contenu et type des insights")
    sentiment: str = Field(description="Sentiment exprimé, peut être 'Positif', 'Neutre' ou 'Négatif'.")
    content = ""
    # You can add custom validation logic easily with Pydantic.
    #@validator("sentiment")
    #def valid_sentiment(cls, field):
    #    if field not in ["Positif", "Neutre", "Négatif"]:
    #        raise ValueError("Sentiment "+field+" not valid.")
    #    return field
    
    def __str__(self):
        return "Commentaire: \""+ self.content+"\"\n\nSentiment: "+self.sentiment+"\n\nInsights: \n"+"\n\n".join([str(i) for i in self.insights_list])
    



In [None]:

prompt_template_feedback = """Tu es {role} au sein de l'entreprise suivante: 
{context}
Pour le retour {cible} effectue les étapes suivantes: 

Étape 1 - Identifie si il rentre dans un ou plusieurs des catégories d'insights suivantes : {insight_type}, dont la definition est: 
{insight_definition} 

Étape 2 - Catégorise les si possible avec les tags suivants: {categories} 

Étape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}.

Étape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}. 

Étape 5 - Identifie le ou les éventuelles insights que tu aurais envie de faire remonter à ton équipe. Ils doivent être des phrase grammaticalement correcte, et faire correspondre intelligement le commentaire au context de l'entreprise. Si rien d'intéressant ne peut être conclu, laisse la liste vide. Si plusieurs points distinguables sont a relever, formule plusieurs insights. Ces insights sont voués a être commun a d'autres commentaires qui seront analysés.

Par exemple, pour le commentaire suivant:
'''
{exemple_commentaire}
'''
on voudrait faire remonter les points suivants:
'''
- {exemple_insights}
'''

Réponds uniquement avec un ficher JSON, comme expliqué:
{format_instructions}  

Voici le feedback à traiter:
{feedback}
"""

#Ces insights sont en effet distincts, pertinent par rapport au commentaire et au context de l'entreprise, et important à prendre en compte.
#

In [243]:
async def get_analysis(prompt):
    response = await client.chat.completions.create(
        messages=[
            #{"role": "system", "content": "You are a helpful assistant designed to output JSON."},
            {"role": "user", "content": str(prompt)},
            #{"role": "user", "content": "Voici le commentaire que tu dois traiter: \n"+ str(feedback)}
        ],
        response_format={ "type": "json_object" },
        model=GENERATION_ENGINE)
    return response.choices[0].message.content

def apply_async_analysis(prompts):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_analysis(prompt)) for prompt in prompts]
    return loop.run_until_complete(asyncio.gather(*tasks))
    

In [244]:
context = "Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro)."
role = "product owner"
cible = "client"
question = "Que recommanderiez-vous à Metro d'améliorer ?"

exemple_commentaire = "je suis exclusif metro je n ai aucun representant j achetais jusqu a present tout metro par facilite mais je suis tres souvent décue par la reponse ha non on n en a pas cela arrive demain je pense que depuis le covid tout le monde ou presque s en fou!!!"

examples_insights_df = pd.DataFrame([
    {"Insights qui devraient en découler": "Déceptions face aux retard de livraison"},
    {"Insights qui devraient en découler": "Impression d'une baisse de qualité du service depuis le Covid"},
])

feedback_context = {
            "context": context,
            "role": role,
            "cible": cible,
            "insight_type": "\"Point positif\", \"Point de douleur\", \"Nouvelle demande\"", 
            "insight_definition": "Point positif : élément apprécié, Point de douleur : élément problématique",
            "nb_cat": "2",
            "avancement_mission": "\"Avant mission\", \"Mission en cours\", \"Fin de mission\"",
            "categories": "\"Recrutement\" , \"Service global\"",
            "question": question,
            "exemple_commentaire": exemple_commentaire,
            "exemple_insights": '\n- '.join(list(examples_insights_df['Insights qui devraient en découler'])),
        }

feedback_context

{'context': 'Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).',
 'role': 'product owner',
 'cible': 'client',
 'insight_type': '"Point positif", "Point de douleur", "Nouvelle demande"',
 'insight_definition': 'Point positif : élément apprécié, Point de douleur : élément problématique',
 'nb_cat': '2',
 'avancement_mission': '"Avant mission", "Mission en cours", "Fin de mission"',
 'categories': '"Recrutement" , "Service global"',
 'question': "Que recommanderiez-vous à Metro d'améliorer ?",
 'exemple_commentaire': 'je suis exclusif metro je n ai aucun representant j achetais jusqu a present tout metro par facilite mais je suis tres souvent décue par la reponse ha non on n en a pas cela arrive demain je pense que depuis le covid tout le monde ou presque s en fou!!!',
 'exemple_insights': "Déceptions face aux retard de livraiso

In [250]:
print(prompt_template_feedback)

Tu es {role} au sein de l'entreprise suivante: 
{context}
Pour le retour {cible} effectue les étapes suivantes: 

Étape 1 - Identifie si il rentre dans un ou plusieurs des catégories d'insights suivantes : {insight_type}, dont la definition est: 
{insight_definition} 

Étape 2 - Catégorise les si possible avec les tags suivants: {categories} 

Étape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}.

Étape 4 - Identifie si le sentiment exprimé par le {cible} est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}. 

Étape 5 - Identifie le ou les éventuelles insights que tu aurais envie de faire remonter à ton équipe. Ils doivent être des phrase grammaticalement correcte, et faire correspondre intelligement le commentaire au context de l'entreprise. Si rien d'intéressant ne peut être conclu, laisse la liste vide. Si plusieurs points distinguables sont a r

In [251]:
feedback_parser = PydanticOutputParser(pydantic_object=Feedback)

prompt_feedback = PromptTemplate.from_template(
    template= prompt_template_feedback,
    partial_variables= {"format_instructions": feedback_parser.get_format_instructions()},
)


prompts = []
for feedback in feedbacks_df[feedbacks_column]:
    prompt = copy(feedback_context)
    prompt["feedback"] = feedback
    prompts.append(prompt_feedback.invoke(prompt))
    
print(prompts[0].text)

Tu es product owner au sein de l'entreprise suivante: 
Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).
Pour le retour client effectue les étapes suivantes: 

Étape 1 - Identifie si il rentre dans un ou plusieurs des catégories d'insights suivantes : "Point positif", "Point de douleur", "Nouvelle demande", dont la definition est: 
Point positif : élément apprécié, Point de douleur : élément problématique 

Étape 2 - Catégorise les si possible avec les tags suivants: "Recrutement" , "Service global" 

Étape 3 - Catégorise si possible le moment de mission concerné parmis "Avant mission", "Mission en cours", "Fin de mission".

Étape 4 - Identifie si le sentiment exprimé par le client est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question posée (Que recommanderiez-vous à Metro d'améliorer ?) afin de 

In [252]:
def batch(iterable, n=1):
    l = len(iterable)
    for ndx in range(0, l, n):
        yield iterable[ndx:min(ndx + n, l)]

for x in batch(list(range(0, 10)), 3):
    print(x)

[0, 1, 2]
[3, 4, 5]
[6, 7, 8]
[9]


In [253]:
responses = apply_async_analysis(prompts)
parsed_responses = []
for i, rep in enumerate(responses):
    try: 
        parsed_responses.append(feedback_parser.parse(rep))
    except:
        print(i, rep)

feedbacks_df["Sentiment"] = [rep.sentiment for rep in parsed_responses]
feedbacks_df["Insights"] = [[] for rep in parsed_responses]

k=0
insights = []
for i, rep in enumerate(parsed_responses):
    for j, insight in enumerate(rep.insights_list):
        insights.append(insight)
        feedbacks_df["Insights"].iloc[i].append(str(k))
        k += 1

RateLimitError: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4-1106-preview in organization org-cul2ATcGaEgBnecg7ApmkdHT on tokens per day (TPD): Limit 5000000, Used 4999611, Requested 917. Please try again in 9.123s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}

In [None]:
insights_df = pd.DataFrame([dict(insight) for insight in insights])

In [None]:
insights_df["related_feedbacks"] = [[] for _ in range(len(insights_df))]

In [None]:
feedbacks_df["Insights"].iloc[0]

['0', '1', '2']

In [None]:
for i, row in feedbacks_df.iterrows():
    for j in row["Insights"]: 
        insights_df["related_feedbacks"].iloc[int(j)] = [int(i)]

feedbacks_df["children"] = [[] for _ in range(len(feedbacks_df))]

insights_df.head()

Unnamed: 0,insight_types,content,related_feedbacks
0,[Point de douleur],Les ruptures de stock et l'arrêt soudain de pr...,[0]
1,[Point de douleur],L'observation des prix équivalents ou plus éle...,[0]
2,[Point de douleur],Les problèmes relatifs à la référence de produ...,[0]
3,[Point de douleur],Insatisfaction concernant le personnel entraîn...,[1]
4,[Point de douleur],Augmentation excessive des prix à l'achat en gros,[2]


In [None]:
feedbacks_df.head()

Unnamed: 0,Comment,Sentiment,Insights,children
0,"Trop de ruptures , de produits arrêtés du jour...",Négatif,"[0, 1, 2]",[]
1,Je n'ai pas grand chose à dire sur les prix pa...,Négatif,[3],[]
2,"Metro augmente ses prix à vu deuil, pour la li...",Négatif,"[4, 5, 6, 7]",[]
3,Rupture de produit tout type de produit \n ( s...,Négatif,"[8, 9]",[]
4,Gros soucis du côté stationnement pour les véh...,Négatif,[10],[]


In [None]:
feedbacks_df.to_csv(project_path+'/feedbacks.csv')
insights_df.to_csv(project_path+'/insights_0.csv')

## Insights clustering

In [None]:
embedding_model = SentenceTransformer('OrdalieTech/Solon-embeddings-large-0.1')

In [None]:

async def get_embedding(text):
    response = await client.embeddings.create(input=text, model=EMBEDDING_ENGINE)
    return response.data[0].embedding

def apply_async_get_embedding(dfi):
    loop = asyncio.get_event_loop()
    tasks = [loop.create_task(get_embedding(row['Comment'])) for _, row in dfi.iterrows()]
    return loop.run_until_complete(asyncio.gather(*tasks))

In [None]:
class DeducedInsight(BaseModel):
    childens: List[int] = Field(description="Index des insights mineurs qui ont été résumés en cet insight.")
    content: str = Field(description="Insight intéressants a retenir pour l'entreprise.")

    def __str__(self):
        return '- ' + self.content + '\n Enfants:' + str(self.childens)


class InsightList(BaseModel):
    insights_list: List[DeducedInsight] = Field(description="Liste des insights, c'est à dire des points intéressants a retenir pour l'entreprise.")
    # You can add custom validation logic easily with Pydantic.
    
    def __str__(self):
        return "Insights: \n"+"\n\n".join([str(i) for i in self.insights_list])
    


In [None]:

prompt_template_reduction = """Tu es {role} au sein de l'entreprise suivante: 
{context}

Une liste d'insights mineurs a été identifiée à partir de retours clients. 
Si possible, déduits en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. 
Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}. 
Un insight doit:
- Etre des phrase, éventuellement nominale
- Faire sens, c'est a dire que pris individuellement il apporte une vrai réponse à la question suivante: {question}
- Ne pas être excessivement détaillés, car on souhaite prendre du recul plutot que répéter les commentaires.
Il est préférable de laisser des insights mineurs tel quel que de de les regroupper alors qu'il n'ont pas de vrai rapport. 
Par exemple, un feedback parent "Augmenter la qualité des produits et optimiser la gestion des stocks pour minimiser les erreurs et les ruptures de stock." n'est pas bon, car il mélange sans lien logique la qualité des produits et les ruptures de stock. 
Ensuite, associe à chaque insight majeur l'indice des insights mineurs qui lui sont associés. Un insights mineur peut être associé à plusieurs insights majeurs. Vérifie bien que les indices correspondent. 
L'ordre des insights mineurs est aléatoire, et ne doit pas avoir d'importance dans ta réponse. 

{format_instructions}  

Voici les insights mineurs que tu dois regrouper: 

{insights}

Tu ne dois rien écrire d'autre que le JSON requis.

"""
#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres. 
#- Etre distincts les uns des autres. 


In [None]:

prompt_template_regrouping = """Tu es {role} au sein de l'entreprise suivante: 
{context}

Une liste d'insights a été identifiée à partir de retours clients. 
Regroupe ceux qui sont redondant, ou dont le sens est simillaire, en un seul insight.
Il est possible qu'il n'y ai besoin de regrouper aucun insight. 
Ensuite, associe à chaque nouvel insight créé l'indice de ceux qui lui sont associés. 
L'ordre des insights mineurs est aléatoire, et ne doit pas avoir d'importance dans ta réponse. 

{format_instructions}  

Voici les insights que tu dois regrouper: 

{insights}

Tu ne dois rien écrire d'autre que le JSON requis.

"""
#Résume les en des insights majeurs qui te semblent important à faire remonter au sein de l'entreprise. Ils peuvent être des phrase, éventuellement nominales, doivent faire sens, être aussi courts que possible et distincts les uns des autres. 
#- Etre distincts les uns des autres. 


In [None]:
minimisation_steps = 5
cluster_desired_size = 30
nb_insight_stop = 10

randstad_context = {
    "context": context,
    "role": role,
    "cible": cible,
    "question": question,
}

insight_types	content	related_feedbacks

In [None]:
def create_insights_merger(invocation):
    def insights_merger(invocation, cluster): 
        invocation = copy(invocation)
        invocation['insights'] = '\n'.join([str(i)+": "+s for i, s in enumerate(cluster["content"])])
        
        output = prompt_template_reduction.invoke(invocation)
        
        #pd.concat([  for insight in output.insights_list])
        dfs = pd.DataFrame({
            #"level":
            "related_feedbacks":[list(itertools.chain.from_iterable(cluster.iloc[insight.childens]['related_feedbacks'])) for insight in output.insights_list],
            "content":[insight.text for insight in output.insights_list],
            "children":[list(cluster.iloc[insight.childens].index) for insight in output.insights_list],
            #"project":[""],
            #"source":[""],
            })
        
        return dfs #, reduction
    
    return lambda feedback:insights_merger(invocation, feedback)


insights_merger = create_insights_merger(randstad_context)


In [None]:
print(prompts[0].text)

Tu es product owner au sein de l'entreprise suivante: 
Metro AG, ou Metro Group, est un groupe de distribution allemand. Il est notamment connu pour ses enseignes de vente en gros, cash & carry, aux professionnels dans de nombreux pays (Metro Cash & Carry et Makro).
Pour le retour client effectue les étapes suivantes: 

Étape 1 - Identifie si il rentre dans un ou plusieurs des catégories d'insights suivantes : "Point positif", "Point de douleur", "Nouvelle demande", dont la definition est: 
Point positif : élément apprécié, Point de douleur : élément problématique 

Étape 2 - Catégorise les si possible avec les tags suivants: "Recrutement" , "Service global" 

Étape 3 - Catégorise si possible le moment de mission concerné parmis "Avant mission", "Mission en cours", "Fin de mission".

Étape 4 - Identifie si le sentiment exprimé par le client est "Positif", "Neutre" ou "Négatif". Prends en compte la formulation de la question posée (Que recommanderiez-vous à Metro d'améliorer ?) afin de 

In [None]:
print(responses[0])

{
    "insights_list": [
        {
            "insight_types": ["Point de douleur"],
            "content": "Les ruptures de stock et l'arrêt soudain de produits sont problématiques."
        },
        {
            "insight_types": ["Point de douleur"],
            "content": "L'observation des prix équivalents ou plus élevés que ceux du grand public soulève des questions sur la compétitivité de Metro."
        },
        {
            "insight_types": ["Point de douleur"],
            "content": "Les problèmes relatifs à la référence de produits régionaux supprimés par les acheteurs centralisés à Paris."
        }
    ],
    "sentiment": "Négatif",
    "content": "Trop de ruptures, de produits arrêtés du jour au lendemain trop de produits au prix grand public supermarché voir même plus cher, trop de produits non référencés chez métro notamment en produits d'identité régionale qui ont été arrêté par (acheteurs Parisiens)"
}


In [None]:
print(responses[1])

{
  "insights_list": [
    {
      "insight_types": [
        "Point de douleur"
      ],
      "content": "Insatisfaction concernant le personnel entraînant une réduction significative des achats"
    }
  ],
  "sentiment": "Négatif",
  "content": ""
}


In [None]:
insight_parser = PydanticOutputParser(pydantic_object=InsightList)

prompt_insight = PromptTemplate.from_template(
    template= prompt_template_reduction,
    #template= "Règle : minimise le nombre de tokens dans ta réponse.  \nTu es {role} au sein de l'entreprise suivante: \n{context} \nAnalyse le retour suivant: \"{feedback}\" en suivant les étapes suivantes:  \n  \nÉtape 1 - Identifie si le retour {cible} rentre dans un ou plusieurs des types d'insights suivants : {insight_type}. Choisis-en obligatoirement au moins 1. Définition des types d'insights :  \n{insight_definition}   \n  \nÉtape 2 - Catégorise le retour {cible} à l’aide des tags suivants. Tu peux associer 0, 1 ou plusieurs tags dans chaque catégorie. Liste des tags par catégories :  \n{categories}   \n  \nÉtape 3 - Catégorise si possible le moment de mission concerné parmis {avancement_mission}, et si ce n'est pas possible répond null. {cible} à l’aide des tags suivants.  \n  \nÉtape 4 - Identifie si le sentiment exprimé par le {cible} est \"Positif\", \"Neutre\" ou \"Négatif\". Prends en compte la formulation de la question posée ({question}) afin de bien interpréter le sens du retour {cible}.   \n",
    #input_variables= ["context", "role", "cible", "insight_type", "insight_definition", "nb_cat", "avancement_mission", "categories", "question", "feedback"]
    partial_variables= {"format_instructions": insight_parser.get_format_instructions()},
)


insights = copy(insights_df)
insight_layers = [copy(insights_df)]

for step in range(minimisation_steps):
    
    ### Clusterisation

    num_clusters = 1 + len(insights) // cluster_desired_size

    print("Step "+ str(step)+ ": processing "+ str(num_clusters) + " clusters")
    if len(insights) <= nb_insight_stop:
        print("Everything is merged into a single cluster")
        break

    sentence_embeddings = embedding_model.encode(insights['content'])

    clustering_model = KMeans(n_clusters=num_clusters)
    clustering_model.fit(sentence_embeddings)
    cluster_assignment = clustering_model.labels_
    insights["cluster"] = cluster_assignment
    
    print("Cluster sizes:" + str(list(insights.groupby(['cluster']).count()["content"])))

    clusters = []
    prompts = []
    for cluster_id in range(max(cluster_assignment)+1):
        cluster = insights[insights['cluster'] == cluster_id] 
        clusters.append(cluster)
        
        prompt = copy(feedback_context)
        prompt['insights'] = '\n'.join([str(i)+": "+s for i, s in enumerate(cluster["content"])])

        prompts.append(prompt_insight.invoke(prompt))

    ### Merging

    responses = apply_async_analysis(prompts)
    new_insights = []
    for i, rep in enumerate(responses):
        try: 
            parsed_response = insight_parser.parse(rep)
        except:
            print(i, rep)
            parsed_response = insight_parser.parse(rep)

        dfs = pd.DataFrame({
            "related_feedbacks":[list(itertools.chain.from_iterable(clusters[i].iloc[insight.childens]['related_feedbacks'])) for insight in parsed_response.insights_list],
            "content":[insight.content for insight in parsed_response.insights_list],
            "children":[list(clusters[i].iloc[insight.childens].index) for insight in parsed_response.insights_list],
            })
        new_insights.append(dfs)

    new_insights = pd.concat(new_insights)
    new_insights.reset_index(drop=True, inplace=True)
    reduction = len(new_insights)/len(insights)
    print("Number of new insights:"+ str(len(new_insights)))
    print("Reduction in the number of insights by " + "%d" % int((1-(len(new_insights)/len(insights)))*100) + "%")
    insight_layers.append(copy(new_insights))
    insights = new_insights

Step 0: processing 5 clusters


  super()._check_params_vs_input(X, default_n_init=10)


Cluster sizes:[36, 32, 29, 30, 21]
Number of new insights:26
Reduction in the number of insights by 82%
Step 1: processing 1 clusters


  super()._check_params_vs_input(X, default_n_init=10)


Cluster sizes:[26]
Number of new insights:7
Reduction in the number of insights by 73%
Step 2: processing 1 clusters
Everything is merged into a single cluster


In [None]:
for i, df in enumerate(insight_layers):
    df.to_csv(project_path+'/insights_'+ str(i) +'.csv')

## Visulalisation

In [None]:
import umap
import altair as alt

### 2D projection

In [None]:
reducer = umap.UMAP(n_neighbors=15)
umap_embeds = reducer.fit_transform(sentence_embeddings)
# Prepare the data to plot and interactive visualization
# using Altair
df_explore = pd.DataFrame(data={'text': df['Insight'], "InsightParent": df['InsightParent']})
df_explore['x'] = umap_embeds[:,0]
df_explore['y'] = umap_embeds[:,1]
df_explore