In [47]:
import json
import boto3
import pandas as pd
import ast

from utils.analysis_utils import classify_one_feedback
from utils.database import get_field_value
from pymongo import MongoClient
import certifi
import importlib

In [41]:
# TODO: Remove

import importlib
import utils.analysis_utils
import utils.database

# Reload the modules
importlib.reload(utils.analysis_utils)
importlib.reload(utils.database)

# Now you can import your functions
from utils.analysis_utils import classify_one_feedback
from utils.database import get_field_value


In [3]:
_secrets_manager_client = boto3.client("secretsmanager", region_name="eu-west-3")

_secrets = json.loads(
    _secrets_manager_client.get_secret_value(
        SecretId=f"Prod/alloreview"
    )["SecretString"]
)
MONGO_CONNECTION_STRING = (
    "mongodb+srv://alloreview:{}@feedbacksdev.cuwx1.mongodb.net".format(
        _secrets["mongodb"]["password"]
    )
)
mongo_client = MongoClient(MONGO_CONNECTION_STRING,tlsCAFile=certifi.where())

collection = mongo_client['feedbacks_db']['feedbacks_Prod']

# Generating Elementary Subjects

After creating all the extractions, our objective is to generate elementary subjects.

We use the following method:

1. For each extraction, we attempt to classify it among the existing elementary subjects.
2. If no subject matches, we generate a new one.
3. As we progress, we also verify that we are not generating duplicates.

## Process

We classify and generate our elementary subjects progressively:

1. Classify each extraction
2. Generate new subjects as needed
3. Check for duplicates

By the end of this process, after classifying everything, we will have generated all our subjects.

## Database Storage

The elementary subjects are pushed into the `elementary_subjects_dev` database.

In [4]:
BRAND = 'ditp_analysis'

BRAND_DESCR = '''
Feedbacks are from French public services.
'''

In [7]:
# getting feedbacks from mongo

from_mongo = pd.DataFrame(list(collection.aggregate([
    {
        '$match': {
            'brand': BRAND,
        },
    },
])))

from_mongo.shape

(80172, 84)

In [17]:
def format_ligne(ligne):
    # Fonction interne pour g√©rer les valeurs manquantes
    def extraire_champ(champ, allow_empty=False):
        return champ if pd.notnull(champ) and (allow_empty or champ != 'N/A') else None

    # Champs obligatoires et facultatifs
    champs = [
        ("Intitul√© Structure 1", ligne.get("intitule_structure_1"), False),
        ("Intitul√© Structure 2", ligne.get("intitule_structure_2"), True),
        ("Tags M√©tiers", ligne.get("tags_metiers"), True),
        ("Pays de la demande", ligne.get("pays"), False)
    ]
    
    # Initialisation des lignes avec une phrase fixe
    lignes = ["Feedbacks are from French public services."]
    
    # G√©n√©ration des lignes dynamiques si les champs sont pr√©sents
    for label, champ, allow_empty in champs:
        valeur = extraire_champ(champ, allow_empty)
        if valeur:
            lignes.append(f"{label}: {valeur}")
    
    # Retour du r√©sultat format√©
    return "\n".join(lignes)

In [51]:
# Keeping only feedbacks with extractions and splitted_analysis_v2

# subdf = from_mongo[from_mongo['extractions'].notna()]
# subdf = subdf[subdf['splitted_analysis_v2'].notna()]
df = pd.read_csv('ditp_test_2.csv')
subdf = df
subdf['brand_context'] = subdf.apply(format_ligne, axis=1)
print(subdf.shape)

row = subdf.sample().iloc[0]

print("Example of row:", row.verbatims)


(43, 85)
Example of row: changement d'adresse pour carte grise
J'ai d√©m√©nag√© r√©cemment et pour mettre √† jour ma carte grise, je me suis connect√©e sur ANTS, la d√©marche a √©t√© tr√®s simple, quand je la compare aux longues files d'attente en Pr√©fecture d'il y a quelques ann√©es, enfin je parle d'un temps que les moins de 20 ans ne peuvent pas connaitre. Ce service est parfait, rapide, pas de d√©placement, franchement, top !


The function `classify_one_feedback` is used to classify each extraction.

In [45]:
print(row["_id"])
print(row["extractions"])
print(row["brand_context"])

print(type(row["_id"]))
print(type(row["extractions"]))
print(type(row["brand_context"]))

ditp_analysis/3073551
[{'sentiment': 'SUGGESTION', 'extraction': "Demande d'information sur le dossier", 'text': "Demande d'information sur mon dossier"}, {'sentiment': 'NEGATIVE', 'extraction': 'Absence de r√©ponse √† la demande de retraite compl√©mentaire', 'text': "Je n'ai pas eu de r√©ponse."}, {'sentiment': 'NEGATIVE', 'extraction': 'Dossier de retraite compl√©mentaire toujours en cours de traitement', 'text': 'Traitement de dossier toujours en cours.'}, {'sentiment': 'SUGGESTION', 'extraction': "Confirmation de l'enregistrement de la demande de retraite compl√©mentaire", 'text': "J'ai besoin de savoir si ma demande de retraite compl√©mentaire pour le 1er octobre est bien enregistr√©e et de conna√Ætre le montant et la date de paiement ?"}, {'sentiment': 'SUGGESTION', 'extraction': 'Demande de montant et date de paiement de la retraite compl√©mentaire', 'text': "J'ai besoin de savoir si ma demande de retraite compl√©mentaire pour le 1er octobre est bien enregistr√©e et de conna√Ætr

In [53]:
res = classify_one_feedback(
    feedback_id=row['_id'],
    extractions=ast.literal_eval(row["extractions"]),
    model="gpt-4o-mini",
    brand=BRAND,
    brand_context=row["brand_context"],
    language="french",
    extractions_column="extractions",
    update_mongo=False
)

res

Sentence : J'ai d√©m√©nag√© r√©cemment et pour mettre √† jour ma carte grise,
Extraction : Simplicit√© de la d√©marche pour mettre √† jour la carte grise
Elementary Subjects : ['Services publics : Simplicit√© des d√©marches administratives : Mise √† jour de la carte grise']
Sentence :  la d√©marche a √©t√© tr√®s simple,
Extraction : Simplicit√© de la d√©marche pour mettre √† jour la carte grise
Elementary Subjects : ['Services publics : Simplicit√© des d√©marches administratives : Mise √† jour de la carte grise']
Sentence :  quand je la compare aux longues files d'attente en Pr√©fecture d'il y a quelques ann√©es,
Extraction : Comparaison favorable avec les longues files d'attente en Pr√©fecture
Elementary Subjects : ["Service : Comparaison de l'efficacit√© : Efficacit√© par rapport aux services en Pr√©fecture"]
Sentence :  Ce service est parfait,
Extraction : Service parfait
Sentence :  rapide,
Extraction : Service rapide
Sentence :  pas de d√©placement,
Extraction : Pas de d√©placemen

{'id': 'ditp_analysis/615879',
 'extractions': [{'sentiment': 'POSITIVE',
   'extraction': 'Simplicit√© de la d√©marche pour mettre √† jour la carte grise',
   'text': "J'ai d√©m√©nag√© r√©cemment et pour mettre √† jour ma carte grise,",
   'elementary_subjects': ['Services publics : Simplicit√© des d√©marches administratives : Mise √† jour de la carte grise'],
   'topics': {}},
  {'sentiment': 'POSITIVE',
   'extraction': 'Simplicit√© de la d√©marche pour mettre √† jour la carte grise',
   'text': ' la d√©marche a √©t√© tr√®s simple,',
   'elementary_subjects': ['Services publics : Simplicit√© des d√©marches administratives : Mise √† jour de la carte grise'],
   'topics': {}},
  {'sentiment': 'POSITIVE',
   'extraction': "Comparaison favorable avec les longues files d'attente en Pr√©fecture",
   'text': " quand je la compare aux longues files d'attente en Pr√©fecture d'il y a quelques ann√©es,",
   'elementary_subjects': ["Service : Comparaison de l'efficacit√© : Efficacit√© par rappo

In [8]:
# this function allows to parallelize the analysis process and to save the results on the mongo database
from utils.analysis_utils import run_analysis_full_parallel

In [11]:

importlib.reload(utils.analysis_utils)

# Now you can import your functions
from utils.analysis_utils import run_analysis_full_parallel

In [9]:
to_analyse = subdf.sample(10) # test on a subset
print('To extract:', to_analyse.shape[0])

extractions_with_ids = to_analyse[['extractions', '_id']].to_dict(orient='records')

To extract: 10


In [12]:
analysis = run_analysis_full_parallel(
    extractions_with_ids,
    BRAND,
    brand_descr=BRAND_DESCR,
    language='french',
    model="gpt-4o-mini",
    save_to_mongo=False
)

analysis

t


Processing chunks: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 10305.42it/s]


[[], [], [], [], [], [], [], [], [], []]

In [None]:
analysis

[{'id': 'columbuscafe_test/5b6e404652649c8ae22e',
  'extractions': [{'sentiment': 'POSITIVE',
    'extraction': 'Appr√©ciation g√©n√©rale',
    'text': '2üëç',
    'elementary_subjects': ['Satisfaction g√©n√©rale : Volont√© de revenir'],
    'topics': []}]},
 {'id': 'columbuscafe_test/72f750f6fe9766ce0e77',
  'extractions': [{'sentiment': 'NEGATIVE',
    'extraction': 'Erreur dans la commande',
    'text': 'Encore une fois une erreur dans la commande,',
    'elementary_subjects': ['Service : Probl√®me de traitement des commandes : Commande non trait√©e'],
    'topics': []},
   {'sentiment': 'NEGATIVE',
    'extraction': 'Probl√®mes r√©currents avec les commandes sur Deliveroo',
    'text': ' comme √† chaque commande r√©alis√©e sur Deliveroo.',
    'elementary_subjects': ['Service : Probl√®me de traitement des commandes : Probl√®mes avec les commandes sur Deliveroo'],
    'topics': []},
   {'sentiment': 'POSITIVE',
    'extraction': 'Service g√©n√©ralement bon en boutique',
    'text':

## Check elementary subjects that we generated

In [None]:
from utils.database import get_elementary_subjects

In [None]:
positive_elementary_subjects = get_elementary_subjects(BRAND, 'positive')

len(positive_elementary_subjects)

21

In [None]:
[x['elementary_subject'] for x in positive_elementary_subjects[:5]]

['Ambiance : Ambiance agr√©able',
 'Service : Accueil chaleureux',
 'Service : Probleml√∂sung : Schnelle Probleml√∂sung bei Fehlern',
 'Produits : Qualit√© des produits : Qualit√© de la nourriture',
 'Produits : Qualit√© des produits : Qualit√© du caf√©']

In [None]:
negative_elementary_subjects = get_elementary_subjects(BRAND, 'negative')

print(len(negative_elementary_subjects))

[x['elementary_subject'] for x in negative_elementary_subjects[:5]]

15


['Service : Comportement du personnel : Serveur impoli ou nerveux',
 'Magasin : Am√©nagement : Emplacement du mobilier inappropri√©',
 "Accessibilit√© : Difficult√© d'acc√®s pour les fauteuils roulants",
 'Produits : Probl√®me de qualit√© : Chocolat non consommable',
 'Prix : Tarifs √©lev√©s']

In [13]:
row = subdf.sample().iloc[0]
extractions = get_field_value(
    feedback_id=row['_id'],
    field_name='extractions',
)
res = classify_one_feedback(
    feedback_id=row['_id'],
    extractions=extractions,
    model="gpt-4o-mini",
    brand=BRAND,
    brand_descr=BRAND_DESCR,
    language="french",
    extractions_column="extractions",
    update_mongo=False
)

# res

Sentence : J‚Äôai fait ma demande d‚ÄôAspa en juillet 2021.
Extraction : Demande d'Aspa en attente depuis juillet 2021
Elementary Subjects : ["Service : D√©lais d'attente pour les demandes : Demande d'Aspa en attente"]
Sentence : Mon dossier est complet et il est toujours en attente depuis !
Extraction : Demande d'Aspa en attente depuis juillet 2021
Elementary Subjects : ["Service : D√©lais de traitement des demandes : Demande d'Aspa en attente"]
Sentence : je suis pass√©e par la CARSAT DE L‚ÄôORNE ou j‚Äôai trouv√© une super √©coute !
Extraction : Bonne √©coute de la CARSAT DE L‚ÄôORNE
Elementary Subjects : ["Service : Qualit√© de l'√©coute des agents"]
Sentence : J‚Äôai re√ßu un mail sur mon espace client me disant que mon dossier serait trait√© sous 7 jours ouvr√©s,
Extraction : Dossier non trait√© dans les d√©lais annonc√©s
Elementary Subjects : ['Service : D√©lai de traitement : Dossier non trait√© dans les d√©lais annonc√©s']
Sentence : et bien non !
Extraction : Dossier non trai

In [None]:
========================
========================
Sentence : D√©marche prime √† la conversion interminable.
Extraction : D√©marche prime √† la conversion interminable
Elementary Subjects : ['Services publics : D√©marches administratives : D√©marche prime √† la conversion trop longue']
===========
Sentence : Des documents fournis sont encore illisibles soi-disant...
Extraction : Documents fournis illisibles
Elementary Subjects : ['Documents : Probl√®me de lisibilit√©']
===========
Sentence : mais nous avons des nouvelles de notre dossier tous les deux mois.
Extraction : Mises √† jour du dossier tous les deux mois
Elementary Subjects : ['Service : Fr√©quence des mises √† jour de dossier']
