In [20]:
from elasticsearch import Elasticsearch, helpers
import csv
import time

# Connexion au cluster Elasticsearch
es = Elasticsearch(hosts="http://localhost:9200")

# Nom de l'index
index_name = "reviews"

# Mapping pour l'index
mapping = {
    "mappings": {
        "_meta": {
            "created_by": "yaya"
        },
        "properties": {
            "Company": {"type": "keyword"},
            "Customer": {"type": "keyword"},
            "Date_experience": {"type": "date", "format": "yyyy-MM-dd"},
            "Date_reply": {"type": "date", "format": "yyyy-MM-dd"},
            "Date_review": {"type": "date", "format": "yyyy-MM-dd"},
            "Response_time":{"type": "long"},
            "Experience": {"type": "keyword"},
            "Language": {"type": "keyword"},
            "Number_review": {"type": "long"},
            "Rating": {"type": "long"},
            "Reply": {"type": "keyword"},
            "Status": {"type": "keyword"},
            "Title": {"type": "keyword"},
            "document_id": {"type": "keyword"}
        }
    }
}


def create_elasticsearch_index():
    es = Elasticsearch(hosts="http://localhost:9200")

    # Index des avis clients
    index_name = "reviews"
    # Cr√©er l'index avec le mapping (you can skip this if the index already exists)
    if not es.indices.exists(index=index_name):
        es.indices.create(index=index_name, body=mapping)

    # Lecture du fichier CSV et correction des champs vides
    with open("../data/processed/reviews.csv", encoding="utf-8") as f:
        reader = csv.DictReader(f)
        documents = []
        for idx, row in enumerate(reader):
            if "" in row:
                row["document_id"] = str(idx)  # Ajout de l'ID du document
                for key in list(row.keys()):
                    if key == "":
                        row.pop(key)  # Suppression des champs avec des cl√©s vides
            documents.append(row)

    # Ins√©rer les documents en vrac dans Elasticsearch
    if documents:
        try:
            response = helpers.bulk(es, documents, index=index_name)
            print("Documents ins√©r√©s avec succ√®s :", response)
        except helpers.BulkIndexError as e:
            print("Erreur lors de l'insertion des documents :")
            for err in e.errors:
                print("Erreur :", err)

    # V√©rification des documents ins√©r√©s
    result = es.search(index=index_name, size=5)  # R√©cup√®re les 5 premiers documents

    # Afficher les r√©sultats
    for hit in result["hits"]["hits"]:
        print(hit["_source"])


    # V√©rification des documents ins√©r√©s
    result = es.search(index=index_name, size=5)  # R√©cup√®re les 5 premiers documents

    # Afficher les r√©sultats
    for hit in result["hits"]["hits"]:
        print(hit["_source"])

    response = es.search(index="reviews")
    # R√©cup√©ration du template
    template = es.indices.get_mapping()

    # recherche de tous les documents
    es = Elasticsearch(hosts="http://localhost:9200")

    # Index des avis clients
    index_name = "reviews"
    
    query = {
        "query": {
            "match_all": {}
        }
    }

    # Ex√©cuter la requ√™te
    result = es.search(index="reviews", body=query)

    # Afficher les r√©sultats
    for hit in result["hits"]["hits"]:
        print(hit["_source"])


    # Requ√™te pour obtenir les 5 mots cl√©s positifs
    es = Elasticsearch(hosts="http://localhost:9200")

    # Index des avis clients
    index_name = "reviews"
    query = {
        "query": {
            "match_all": {}
        },
        "aggs": {
            "positive_words": {
                "terms": {
                    "field": "Experience",
                    "size": 5,
                    "min_doc_count": 5
                },
                "aggs": {
                    "rating_filter": {
                        "filter": {
                            "range": {
                                "Rating": {
                                    "gte": 5,
                                    "lte": 5
                                }
                            }
                        }
                    }
                }
            }
        }
    }
    # Ex√©cution de la requ√™te
    result = es.search(index=index_name, body = query)

    # R√©cup√©ration des r√©sultats
    positive_words = result["aggregations"]["positive_words"]["buckets"]

    for positive_word in positive_words:
        print(f"Mot cl√© positif : {positive_word['key']} - Nombre d'occurrences : {positive_word['doc_count']}")

    # Recherche des mots les plus r√©currents dans les commentaires n√©gatifs
    es = Elasticsearch(hosts="http://localhost:9200")

    # Index des avis clients
    index_name = "reviews"
    query = {
        "query": {
            "match_all": {}
        },
        "aggs": {
            "negative_words": {
                "terms": {
                    "field": "Title",
                    "size": 3,
                    "min_doc_count": 10
                },
                "aggs": {
                    "rating_filter": {
                        "filter": {
                            "range": {
                                "Rating": {
                                    "gte": 1,
                                    "lte": 1
                                }
                            }
                        }
                    }
                }
            }
        }
    }
    # Ex√©cution de la requ√™te
    result = es.search(index=index_name, body=query)

    # R√©cup√©ration des r√©sultats
    negative_words = result["aggregations"]["negative_words"]["buckets"]

    # Affichage des r√©sultats
    for negative_word in negative_words:
        print(f"Mot cl√© n√©gatif : {negative_word['key']} - Nombre d'occurrences : {negative_word['doc_count']}")
    
    # Ordonner la sortie du plus petit au plus grand nombre d'occurrences
    negative_words_sorted = sorted(negative_words, key=lambda x: x["doc_count"])

    # Affichage des r√©sultats ordonn√©s
    for negative_word in negative_words_sorted:
        print(f"Mot cl√© n√©gatif : {negative_word['key']} - Nombre d'occurrences : {negative_word['doc_count']}")


    # Requ√™te d'agr√©gation pour obtenir des statistiques sur le champ "Rating"
    es = Elasticsearch(hosts="http://localhost:9200")

    # Index des avis clients
    index_name = "reviews"
    query = {
        "size": 0,
        "aggs": {
            "value_count": {
                "value_count": {
                    "field": "Rating"
                }
            },
            "rating_stats": {
                "stats": {
                    "field": "Rating"
                }
            },
            "extended_ratings_stats": {
                "extended_stats": {
                    "field": "Rating"
                }
            }
        }
    }

    # Ex√©cuter la requ√™te
    result = es.search(index="reviews", body=query)

    # Afficher les r√©sultats de l'agr√©gation
    aggregations = result.get("aggregations", {})
    value_count = aggregations.get("value_count", {})
    rating_stats = aggregations.get("rating_stats", {})
    extended_ratings_stats = aggregations.get("extended_ratings_stats", {})

    print("Nombre total de valeurs de rating:", value_count.get("value", 0))
    print("Statistiques de rating:")
    print("    Minimum:", rating_stats.get("min", 0))
    print("    Maximum:", rating_stats.get("max", 0))
    print("    Moyenne:", rating_stats.get("avg", 0))
    print("    Somme:", rating_stats.get("sum", 0))
    print("    √âcart-type:", extended_ratings_stats.get("std_deviation", 0))
        
    # Liste des entreprises avec le plus de commentaires n√©gatifs
    es = Elasticsearch(hosts="http://localhost:9200")

    # Index des avis clients
    index_name = "reviews"
    query = {
        "query": {
            "match_all": {}
        },
        "sort": [
            {
                "Rating": {
                    "order": "asc"  # Tri ascendant (du plus bas au plus haut)
                }
            }
        ]
    }

    # Ex√©cution de la requ√™te pour r√©cup√©rer les commentaires tri√©s par note
    result = es.search(index=index_name, body=query)

    # Analyse des commentaires tri√©s pour identifier les entreprises avec le plus de commentaires n√©gatifs
    from collections import Counter

    negative_reviews = []
    for hit in result["hits"]["hits"]:
        rating = int(hit["_source"]["Rating"])  # Convertir la note en entier
        if rating < 3:  # Supposons que 1 √† 2 sont consid√©r√©s comme des notes n√©gatives
            negative_reviews.append(hit["_source"]["Company"])

    # Utilisation de Counter pour compter le nombre de commentaires n√©gatifs par entreprise
    company_count = Counter(negative_reviews)

    # Triez les entreprises par le nombre de commentaires n√©gatifs (du plus au moins)
    sorted_companies = sorted(company_count.items(), key=lambda x: x[1], reverse=True)

    # Afficher les entreprises avec le plus de commentaires n√©gatifs
    for company, count in sorted_companies[:6]:  # Affiche les 5 premi√®res entreprises avec le plus de commentaires n√©gatifs
        print(f"Entreprise : {company}, Nombre de commentaires n√©gatifs : {count}")

    # Le nombre de commentaires non r√©pondues par les entreprises
    # Ex√©cution de la requ√™te
    result = es.search(index=index_name, 
    body={
        "query": {
            "match": {
                "Reply": {
                    "query": "No Reply"
                }
            }
        },
        "aggs": {
            "companies": {
                "terms": {
                    "field": "Company",
                    "size": 10
                }
            }
        }
    })

    # R√©cup√©ration des r√©sultats
    companies = result["aggregations"]["companies"]["buckets"]

    # Affichage des r√©sultats
    for company in companies:
        print(f"Entreprise : {company['key']} - Nombre de No Reply : {company['doc_count']}")

    # Ex√©cution de la requ√™te pour obtenir le classement des entreprises selon leur note moyenne
    es = Elasticsearch(hosts="http://localhost:9200")

    # Index des avis clients
    index_name = "reviews"
    query = {
        "aggs": {
            "companies": {
                "terms": {
                    "field": "Company"
                },
                "aggs": {
                    "average_rating": {
                        "avg": {
                            "field": "Rating"
                        }
                    }
                }
            }
        }
    }

    result = es.search(index=index_name, body=query)

    # R√©cup√©ration des r√©sultats
    companies = result["aggregations"]["companies"]["buckets"]

    # Tri des entreprises par leur note moyenne
    companies.sort(key=lambda company: company["average_rating"]["value"], reverse=False)

    # Affichage des r√©sultats
    for company in companies:
        average_ratings = round(company['average_rating']['value'], 2)
        print(f"Entreprise : {company['key']} - Note moyenne : {average_ratings}")

    # Ex√©cution de la requ√™te pour obtenir les diff√©rents statuts des commentateurs
    es = Elasticsearch(hosts="http://localhost:9200")

    # Index des avis clients
    index_name = "reviews"
    query = {
        "aggs": {
            "statuses": {
                "terms": {
                    "field": "Status"
                }
            }
        }
    }

    result = es.search(index=index_name, body=query)

    # R√©cup√©ration des r√©sultats
    statuses = result["aggregations"]["statuses"]["buckets"]

    # Affichage des r√©sultats
    for status in statuses:
        print(f"Status : {status['key']} - Nombre de commentateurs : {status['doc_count']}")

    
    # Ex√©cution de la requ√™te pour obtenir le nombre de types de statut des commentateurs par entreprise
    es = Elasticsearch(hosts="http://localhost:9200")

    # Index des avis clients
    index_name = "reviews"
    query = {
        "aggs": {
            "companies": {
                "terms": {
                    "field": "Company",
                    "size": 10  # Adjust the size based on your needs
                },
                "aggs": {
                    "statuses": {
                        "terms": {
                            "field": "Status"
                        }
                    }
                }
            }
        }
    }

    result = es.search(index=index_name, body=query)

    # R√©cup√©ration des r√©sultats
    companies = result["aggregations"]["companies"]["buckets"]

    # Affichage des r√©sultats
    for company in companies:
        company_name = company['key']
        statuses = company["statuses"]["buckets"]
        
        print(f"Entreprise : {company_name}")
        for status in statuses:
            status_name = status['key']
            count = status['doc_count']
            print(f"    Status : {status_name} - Nombre de commentateurs : {count}")

    
    # Nombre et Pourcentage de commentaires non r√©pondus par entreprise
    query = {
        "query": {
            "match": {
                "Reply": "No Reply"
            }
        },
        "aggs": {
            "total_no_reply": {
                "value_count": {
                    "field": "Reply"
                }
            },
            "companies": {
                "terms": {
                    "field": "Company"
                },
                "aggs": {
                    "number_of_no_reply": {
                        "value_count": {
                            "field": "Reply"
                        }
                    }
                }
            }
        }
    }

    result = es.search(index=index_name, body=query)
    # R√©cup√©ration des r√©sultats
    total_no_reply = result["aggregations"]["total_no_reply"]["value"]
    companies = result["aggregations"]["companies"]["buckets"]

    # Affichage des r√©sultats
    for company in companies:
        number_of_no_reply = company["number_of_no_reply"]["value"]
        percentage = (number_of_no_reply / total_no_reply) * 100
        print(f"Entreprise : {company['key']} - Nombre de No Reply : {number_of_no_reply} - Taux de No Reply : {percentage:.2f}%")

    # Ex√©cution de la requ√™te pour obtenir le d√©lai de r√©ponse des entreprises sur les avis ayant obtenu une r√©ponse.
    es = Elasticsearch(hosts="http://localhost:9200")

    # Index des avis clients
    index_name = "reviews"
    query = {
        "aggs": {
            "companies": {
                "terms": {
                    "field": "Company"
                },
                "aggs": {
                    "average_day": {
                        "avg": {
                            "field": "Response_time"
                        }
                    }
                }
            }
        }
    }

    result = es.search(index=index_name, body=query)

    # R√©cup√©ration des r√©sultats
    companies = result["aggregations"]["companies"]["buckets"]

    # Tri des entreprises par leur note moyenne
    companies.sort(key=lambda company: company["average_day"]["value"], reverse=False)

    # Affichage des r√©sultats
    for company in companies:
        average_days = round(company['average_day']['value'], 2)
        print(f"Entreprise : {company['key']} - D√©lai de r√©ponse moyen : {average_days}")
    

if __name__ == "__main__":
    create_elasticsearch_index()

"""Verified: V√©rifi√©,
    Invited: Invit√©,
    Merged: Fusionn√©,
    Redirected: Redirig√©
"""

  es.indices.create(index=index_name, body=mapping)


Erreur lors de l'insertion des documents :
Erreur : {'index': {'_index': 'review2', '_id': 'aik1sosB9-HHTkh5OCtR', 'status': 400, 'error': {'type': 'document_parsing_exception', 'reason': "[1:163] failed to parse field [Date_review] of type [date] in document with id 'aik1sosB9-HHTkh5OCtR'. Preview of field's value: '2023-07-28 06:28:34'", 'caused_by': {'type': 'illegal_argument_exception', 'reason': 'failed to parse date field [2023-07-28 06:28:34] with format [yyyy-MM-dd]', 'caused_by': {'type': 'date_time_parse_exception', 'reason': "Text '2023-07-28 06:28:34' could not be parsed, unparsed text found at index 10"}}}, 'data': {'Company': 'Younited Credit', 'Customer': 'M fran√ßois GUYOT', 'Number_review': '2', 'Language': 'FR', 'Title': 'SUPER SOCIETE DE CREDITS TRES REACTIVE‚Ä¶', 'Date_review': '2023-07-28 06:28:34', 'Reply': 'No Reply', 'Date_reply': '2023-07-28 06:28:34', 'Rating': '5', 'Status': 'Verified', 'Experience': 'SUPER SOCIETE DE CREDITS TRES REACTIVE‚Ä¶SUPER SOCIETE DE 

In [21]:
response = es.search(index="review2")
# R√©cup√©ration du template
template = es.indices.get_mapping()



In [22]:
# recherche de tous les documents 
query = {
    "query": {
        "match_all": {}
    }
}

# Ex√©cuter la requ√™te
result = es.search(index="review2", body=query)

# Afficher les r√©sultats
for hit in result["hits"]["hits"]:
    print(hit["_source"])

    

  result = es.search(index="review2", body=query)


In [23]:
# recherche de documents contenant "bon produit"
query = {            
    "size": 20,

    "query": {
        "match": {
            "Experience": "bon produit"
        }
    }
}

# Ex√©cuter la requ√™te
result = es.search(index="review", body=query)


# Afficher les r√©sultats
for hit in result["hits"]["hits"]:
    print(hit["_source"])
    

{'Company': 'Boursorama Banque', 'Customer': 'FELIX', 'Number_review': '8', 'Language': 'MQ', 'Title': 'EXCELLENT  PRODUIT  FINANCIER', 'Date_review': '2022-11-03 00:00:00', 'Reply': 'No Reply', 'Date_reply': '2022-11-03 00:00:00', 'Rating': '5', 'Status': 'Invited', 'Experience': 'EXCELLENT  PRODUIT  FINANCIER', 'Date_experience': '2022-11-03 00:00:00', 'document_id': '1865'}
{'Company': 'Boursorama Banque', 'Customer': 'paulo dos reis', 'Number_review': '2', 'Language': 'FR', 'Title': 'nickel', 'Date_review': '2022-05-11 00:00:00', 'Reply': 'No Reply', 'Date_reply': '2022-05-11 00:00:00', 'Rating': '5', 'Status': 'Invited', 'Experience': 'nickelnickel, super produit', 'Date_experience': '2022-05-11 00:00:00', 'document_id': '2005'}
{'Company': 'Boursorama Banque', 'Customer': 'FELIX', 'Number_review': '8', 'Language': 'MQ', 'Title': 'EXCELLENT  PRODUIT  FINANCIER', 'Date_review': '2022-11-03 00:00:00', 'Reply': 'No Reply', 'Date_reply': '2022-11-03 00:00:00', 'Rating': '5', 'Status':

  result = es.search(index="review", body=query)


In [24]:
from elasticsearch import Elasticsearch

# Connexion √† Elasticsearch
es = Elasticsearch(hosts="http://localhost:9200")

# Nom de l'index
index_name = "review"

# Expressions √† rechercher
expressions = ["bon produit", "bonne qualit√©", "bon rapport qualit√© prix", "facile", "top", "excellent"]

# Cr√©ation de la requ√™te bool√©enne
query = {
    "size": 20,

    "query": {
        "bool": {
            "should": [  # Utilisation de "should" pour rechercher n'importe laquelle des expressions
                {"match_phrase": {"Reply": expression}} for expression in expressions
            ]
        }
    }
}

# Ex√©cution de la requ√™te pour r√©cup√©rer les documents contenant l'une des expressions
result = es.search(index=index_name, body=query)

# Afficher les documents correspondants
for hit in result["hits"]["hits"]:
    print(hit["_source"])


  result = es.search(index=index_name, body=query)


{'Company': 'Orange Bank', 'Customer': 'Boyer', 'Number_review': '1', 'Language': 'RE', 'Title': 'Orange Bank oh top', 'Date_review': '2022-03-31 00:00:00', 'Reply': 'Bonjour Lorenza,Merci beaucoup pour cet avis au top du top üôÇ√† tr√®s vite,Romain', 'Date_reply': '2022-05-04 00:00:00', 'Rating': '5', 'Status': 'Invited', 'Experience': 'Orange Bank oh top', 'Date_experience': '2022-03-31 00:00:00', 'document_id': '1472'}
{'Company': 'Orange Bank', 'Customer': 'Boyer', 'Number_review': '1', 'Language': 'RE', 'Title': 'Orange Bank oh top', 'Date_review': '2022-03-31 00:00:00', 'Reply': 'Bonjour Lorenza,Merci beaucoup pour cet avis au top du top üôÇ√† tr√®s vite,Romain', 'Date_reply': '2022-05-04 00:00:00', 'Rating': '5', 'Status': 'Invited', 'Experience': 'Orange Bank oh top', 'Date_experience': '2022-03-31 00:00:00', 'document_id': '1472'}
{'Company': 'Orange Bank', 'Customer': 'Boyer', 'Number_review': '1', 'Language': 'RE', 'Title': 'Orange Bank oh top', 'Date_review': '2022-03-31 

In [25]:
# Expressions √† rechercher
expressions = ["bon produit", "bonne qualit√©", "bon rapport qualit√© prix", "facile", "top", "excellent"]

# Cr√©ation de la requ√™te bool√©enne
query = {
    "size": 20,

    "query": {
        "bool": {
            "should": [  # Utilisation de "should" pour rechercher n'importe laquelle des expressions
                {"match_phrase": {"Reply": expression}} for expression in expressions
            ]
        }
    }
}

# Ex√©cution de la requ√™te pour r√©cup√©rer les documents contenant l'une des expressions
result = es.search(index=index_name, body=query)

# Afficher les documents correspondants
for hit in result["hits"]["hits"]:
    print(hit["_source"])


{'Company': 'Orange Bank', 'Customer': 'Boyer', 'Number_review': '1', 'Language': 'RE', 'Title': 'Orange Bank oh top', 'Date_review': '2022-03-31 00:00:00', 'Reply': 'Bonjour Lorenza,Merci beaucoup pour cet avis au top du top üôÇ√† tr√®s vite,Romain', 'Date_reply': '2022-05-04 00:00:00', 'Rating': '5', 'Status': 'Invited', 'Experience': 'Orange Bank oh top', 'Date_experience': '2022-03-31 00:00:00', 'document_id': '1472'}
{'Company': 'Orange Bank', 'Customer': 'Boyer', 'Number_review': '1', 'Language': 'RE', 'Title': 'Orange Bank oh top', 'Date_review': '2022-03-31 00:00:00', 'Reply': 'Bonjour Lorenza,Merci beaucoup pour cet avis au top du top üôÇ√† tr√®s vite,Romain', 'Date_reply': '2022-05-04 00:00:00', 'Rating': '5', 'Status': 'Invited', 'Experience': 'Orange Bank oh top', 'Date_experience': '2022-03-31 00:00:00', 'document_id': '1472'}
{'Company': 'Orange Bank', 'Customer': 'Boyer', 'Number_review': '1', 'Language': 'RE', 'Title': 'Orange Bank oh top', 'Date_review': '2022-03-31 

  result = es.search(index=index_name, body=query)


In [26]:
# Requ√™te de recherche avec l'op√©rateur or 
query = {
    "size": 20,
    "query": {
        "match": {
        "Experience": {
            "query": "mauvais lent inefficace cher top",
            "operator": "or"
            }
        }
    }
}

# Ex√©cuter la requ√™te
result = es.search(index="review", body=query)

# Afficher les r√©sultats
for hit in result["hits"]["hits"]:
    print(hit["_source"])

{'Company': 'Younited Credit', 'Customer': 'cliente', 'Number_review': '2', 'Language': 'FR', 'Title': 'Tr√®s lent tr√®s tr√®s lent', 'Date_review': '2023-04-10 00:00:00', 'Reply': "Bonjour,Nous vous remercions d'avoir pris le temps de nous laisser un message.Ayant tent√© de vous joindre sans succ√®s, nous tenions √† vous faire savoir que nous sommes d√©sol√©s de constater que vous n'√™tes pas pleinement satisfait de nos services. En effet, ayant √©t√© victime de notre succ√®s √† la suite d‚Äôun afflux de demandes, les d√©lais de r√©ponse se sont vus rallong√©s.Nos √©quipes mettent tout en ≈ìuvre afin de pouvoir √† nouveau donner une r√©ponse rapide √† l‚Äôensemble de nos clients.Nous prenons en compte vos commentaires dans le cadre de l‚Äôam√©lioration de notre qualit√© de service.Excellente journ√©e,Tracy", 'Date_reply': '2023-04-12 00:00:00', 'Rating': '2', 'Status': 'Verified', 'Experience': 'Tr√®s lent tr√®s tr√®s lent', 'Date_experience': '2023-04-04 00:00:00', 'document_id': '11

  result = es.search(index="review", body=query)


In [27]:
# Cr√©ation de la requ√™te pour r√©cup√©rer les 5 pires commentaires
query = {
    "size": 5,  # Nombre de commentaires √† r√©cup√©rer
    "sort": [
        {"Rating": {"order": "asc"}}  # Tri par note (ascendant, donc les pires notes d'abord)
    ]
}

# Ex√©cution de la requ√™te pour r√©cup√©rer les 20 pires commentaires
result = es.search(index=index_name, body=query)

# Afficher les 5 pires commentaires
for hit in result["hits"]["hits"]:
    rating = hit["_source"]["Rating"]
    comment = hit["_source"]["Experience"]
    company = hit["_source"]["Company"]
    print(f"Compagnie: {company}, Note : {rating}, Commentaire : {comment}\n")

  result = es.search(index=index_name, body=query)


Compagnie: Younited Credit, Note : 1, Commentaire : UnsatisfiedThe service client is very in professional. Disgusting

Compagnie: Younited Credit, Note : 1, Commentaire : 26 hours and no reply yet26 hours and no reply yet! Why should I trust you? I will definitely go and ask for a credit from another company that cares for its customers! Disappointed.

Compagnie: Younited Credit, Note : 1, Commentaire : Transmission par photo chaotique j‚Äôen‚Ä¶Transmission par photo chaotique j‚Äôen suis √† ma 200 eme photo, scanner √† chaque fois refus√© soit pas nette, pas cadr√© grosse perte de temps

Compagnie: Younited Credit, Note : 1, Commentaire : I resigned with FREE and they asked me‚Ä¶I resigned with FREE and they asked me to sent Player to FREE. cannot login your account. and you still taking money from my bank.

Compagnie: Younited Credit, Note : 1, Commentaire : inutileinutile inutile inutile



In [28]:
# Requ√™te de recherche avec filtre de plage de documents avec 4<rating<5
query = {
    "query": {
        "range": {
            "Rating": {
                "gte": 4,
                "lte": 5
            }
        }
    }
}

# Ex√©cuter la requ√™te
result = es.search(index="review", body=query)

# Afficher les r√©sultats
for hit in result["hits"]["hits"]:
    print(hit["_source"])

  result = es.search(index="review", body=query)


{'Company': 'Younited Credit', 'Customer': 'M fran√ßois GUYOT', 'Number_review': '2', 'Language': 'FR', 'Title': 'SUPER SOCIETE DE CREDITS TRES REACTIVE‚Ä¶', 'Date_review': '2023-07-28 06:28:34', 'Reply': 'No Reply', 'Date_reply': '2023-07-28 06:28:34', 'Rating': '5', 'Status': 'Verified', 'Experience': 'SUPER SOCIETE DE CREDITS TRES REACTIVE‚Ä¶SUPER SOCIETE DE CREDITS TRES REACTIVE sans probl√™mes merci pour votre pret accorde avec le moins d administratif possible', 'Date_experience': '2023-07-20 00:00:00', 'document_id': '0'}
{'Company': 'Younited Credit', 'Customer': 'Les parisiens', 'Number_review': '2', 'Language': 'FR', 'Title': 'Simple et efficace !', 'Date_review': '2023-07-28 17:28:34', 'Reply': 'No Reply', 'Date_reply': '2023-07-28 17:28:34', 'Rating': '5', 'Status': 'Verified', 'Experience': 'Simple et efficace !', 'Date_experience': '2023-07-19 00:00:00', 'document_id': '1'}
{'Company': 'Younited Credit', 'Customer': 'STEPHANIE RENOUX', 'Number_review': '3', 'Language': 'F

In [29]:
# Requ√™te de recherche avec l'op√©rateur or 
query = {
    "query": {
        "match": {
        "Experience": {
            "query": "simple rapide effice bien top",
            "operator": "or"
            }
        }
    }
}

# Ex√©cuter la requ√™te
result = es.search(index="review", body=query)

# Afficher les r√©sultats
for hit in result["hits"]["hits"]:
    print(hit["_source"])

  result = es.search(index="review", body=query)


{'Company': 'Orange Bank', 'Customer': '‡¶Ü‡¶≤‡ßÄ ‡¶Ü‡¶π‡¶Æ‡¶¶ ‡¶∏‡ßã‡¶π‡¶æ‡¶®', 'Number_review': '4', 'Language': 'FR', 'Title': 'Qualit√©', 'Date_review': '2023-05-30 00:00:00', 'Reply': 'Bonjour,Nous vous remercions pour votre retour positif et pour la confiance que vous nous accordez üòâ.A bient√¥t,Roger', 'Date_reply': '2023-06-02 00:00:00', 'Rating': '5', 'Status': 'Invited', 'Experience': 'Qualit√©Top du top. Super bien', 'Date_experience': '2023-01-10 00:00:00', 'document_id': '946'}
{'Company': 'Boursorama Banque', 'Customer': 'Hugo G', 'Number_review': '1', 'Language': 'FR', 'Title': 'super bien', 'Date_review': '2022-10-15 00:00:00', 'Reply': 'No Reply', 'Date_reply': '2022-10-15 00:00:00', 'Rating': '5', 'Status': 'Invited', 'Experience': 'super biensuper bien, au top', 'Date_experience': '2022-10-15 00:00:00', 'document_id': '1898'}
{'Company': 'Orange Bank', 'Customer': '‡¶Ü‡¶≤‡ßÄ ‡¶Ü‡¶π‡¶Æ‡¶¶ ‡¶∏‡ßã‡¶π‡¶æ‡¶®', 'Number_review': '4', 'Language': 'FR', 'Title': 'Qualit√©',

In [30]:
from elasticsearch import Elasticsearch

# Connexion au cluster Elasticsearch
es = Elasticsearch(hosts="http://localhost:9200")

# Requ√™te d'agr√©gation pour obtenir des statistiques sur le champ "Rating"
query = {
    "size": 0,
    "aggs": {
        "value_count": {
            "value_count": {
                "field": "Rating"
            }
        },
        "rating_stats": {
            "stats": {
                "field": "Rating"
            }
        },
        "extended_ratings_stats": {
            "extended_stats": {
                "field": "Rating"
            }
        }
    }
}

# Ex√©cuter la requ√™te
result = es.search(index="review", body=query)

# Afficher les r√©sultats de l'agr√©gation
aggregations = result.get("aggregations", {})
value_count = aggregations.get("value_count", {})
rating_stats = aggregations.get("rating_stats", {})
extended_ratings_stats = aggregations.get("extended_ratings_stats", {})

print("Nombre total de valeurs de rating:", value_count.get("value", 0))
print("Statistiques de rating:")
print("    Minimum:", rating_stats.get("min", 0))
print("    Maximum:", rating_stats.get("max", 0))
print("    Moyenne:", rating_stats.get("avg", 0))
print("    Somme:", rating_stats.get("sum", 0))
print("    √âcart-type:", extended_ratings_stats.get("std_deviation", 0))


  result = es.search(index="review", body=query)


Nombre total de valeurs de rating: 9576
Statistiques de rating:
    Minimum: 1.0
    Maximum: 5.0
    Moyenne: 4.7180451127819545
    Somme: 45180.0
    √âcart-type: 0.7912112398310651


In [31]:
# Requ√™te de recherche avec agr√©gation pour le nombre total de docs pour chaque entreprise
query = {
    "size": 0,
    "aggs": {
        "companies": {
            "terms": {
                "field": "Company",
                "size": 10
            }
        }
    }
}

# Ex√©cuter la requ√™te
result = es.search(index="review", body=query)

# Afficher les r√©sultats de l'agr√©gation
for bucket in result["aggregations"]["companies"]["buckets"]:
    print(bucket["key"], ":", bucket["doc_count"])

Orange Bank : 3048
Younited Credit : 2776
Boursorama Banque : 1524
Anytime : 948
Cofidis : 948
Floabank : 332


  result = es.search(index="review", body=query)


In [32]:
# Cr√©ation de la requ√™te pour trier les commentaires par note (Rating) de la plus basse √† la plus haute
query = {
    "query": {
        "match_all": {}
    },
    "sort": [
        {
            "Rating": {
                "order": "asc"  # Tri ascendant (du plus bas au plus haut)
            }
        }
    ]
}

# Ex√©cution de la requ√™te pour r√©cup√©rer les commentaires tri√©s par note
result = es.search(index=index_name, body=query, size=5)  # R√©cup√®re les 5 premiers commentaires les plus n√©gatifs

# Afficher les r√©sultats
for hit in result["hits"]["hits"]:
    print(hit["_source"])

{'Company': 'Younited Credit', 'Customer': 'HENRY', 'Number_review': '3', 'Language': 'CM', 'Title': 'Unsatisfied', 'Date_review': '2022-08-04 00:00:00', 'Reply': "Bonjour,Nous vous remercions d‚Äôavoir pris le temps de nous laisser un message.Nous sommes ravis de vous compter parmi nos clients, toutefois, nous sommes navr√©s de lire que vous ne soyez pas pleinement satisfait de votre exp√©rience Younited.Nous vous pr√©sentons nos excuses pour la g√™ne occasionn√©e. Nous sommes toutefois ravis d'avoir pu vous accompagner dans votre projet.N'h√©sitez pas √† nous faire part de d'autres remarques.Excellente journ√©e,\xa0Audrey", 'Date_reply': '2022-09-07 00:00:00', 'Rating': '1', 'Status': 'Verified', 'Experience': 'UnsatisfiedThe service client is very in professional. Disgusting', 'Date_experience': '2022-08-04 00:00:00', 'document_id': '96'}
{'Company': 'Younited Credit', 'Customer': 'Troy', 'Number_review': '1', 'Language': 'FR', 'Title': '26 hours and no reply yet', 'Date_review': '2

  result = es.search(index=index_name, body=query, size=5)  # R√©cup√®re les 5 premiers commentaires les plus n√©gatifs


In [33]:
# Liste des entreprises avec le plus de commentaires n√©gatifs
query = {
    "query": {
        "match_all": {}
    },
    "sort": [
        {
            "Rating": {
                "order": "asc"  # Tri ascendant (du plus bas au plus haut)
            }
        }
    ]
}

# Ex√©cution de la requ√™te pour r√©cup√©rer les commentaires tri√©s par note
result = es.search(index=index_name, body=query)

# Analyse des commentaires tri√©s pour identifier les entreprises avec le plus de commentaires n√©gatifs
from collections import Counter

negative_reviews = []
for hit in result["hits"]["hits"]:
    rating = int(hit["_source"]["Rating"])  # Convertir la note en entier
    if rating < 3:  # Supposons que 1 √† 2 sont consid√©r√©s comme des notes n√©gatives
        negative_reviews.append(hit["_source"]["Company"])

# Utilisation de Counter pour compter le nombre de commentaires n√©gatifs par entreprise
company_count = Counter(negative_reviews)

# Triez les entreprises par le nombre de commentaires n√©gatifs (du plus au moins)
sorted_companies = sorted(company_count.items(), key=lambda x: x[1], reverse=True)

# Afficher les entreprises avec le plus de commentaires n√©gatifs
for company, count in sorted_companies[:6]:  # Affiche les 5 premi√®res entreprises avec le plus de commentaires n√©gatifs
    print(f"Entreprise : {company}, Nombre de commentaires n√©gatifs : {count}")


Entreprise : Younited Credit, Nombre de commentaires n√©gatifs : 6
Entreprise : Orange Bank, Nombre de commentaires n√©gatifs : 3
Entreprise : Cofidis, Nombre de commentaires n√©gatifs : 1


  result = es.search(index=index_name, body=query)


In [34]:
#Mots n√©gatifs les plus fr√©quents :

from elasticsearch import Elasticsearch
import nltk
from collections import Counter
from nltk.tokenize import word_tokenize

# Connexion √† Elasticsearch
es = Elasticsearch(hosts="http://localhost:9200")

# Nom de l'index
index_name = "review"

# R√©cup√©ration des commentaires avec une note n√©gative
query = {
    "query": {
        "range": {
            "Rating": {
                "lt": 3  # Commentaires avec une note inf√©rieure √† 3 (supposons que 1 √† 2 sont consid√©r√©s comme des notes n√©gatives)
            }
        }
    }
}

# Ex√©cution de la requ√™te pour r√©cup√©rer les commentaires
result = es.search(index=index_name, body=query)

# R√©cup√©ration des commentaires et extraction des mots n√©gatifs
negative_reviews = []
for hit in result["hits"]["hits"]:
    negative_reviews.append(hit["_source"]["Reply"])  # Supposons que les commentaires sont dans le champ "Reply"

# Concat√©nation de tous les commentaires en un seul texte
all_negative_text = " ".join(negative_reviews)

# Tokenisation des mots
tokens = word_tokenize(all_negative_text)

# Utilisation de Counter pour compter la fr√©quence des mots
word_freq = Counter(tokens)

# Triez les mots par fr√©quence (du plus au moins fr√©quent)
sorted_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)

# Afficher les mots n√©gatifs les plus fr√©quents (par exemple, les 10 premiers)
for word, freq in sorted_words[:30]:
    print(f"Mot : {word}, Fr√©quence : {freq}")


  result = es.search(index=index_name, body=query)


Mot : de, Fr√©quence : 38
Mot : ,, Fr√©quence : 18
Mot : vous, Fr√©quence : 17
Mot : ., Fr√©quence : 14
Mot : √†, Fr√©quence : 13
Mot : nous, Fr√©quence : 10
Mot : votre, Fr√©quence : 10
Mot : pas, Fr√©quence : 8
Mot : la, Fr√©quence : 8
Mot : nos, Fr√©quence : 7
Mot : Bonjour, Fr√©quence : 6
Mot : ‚Äô, Fr√©quence : 6
Mot : le, Fr√©quence : 6
Mot : que, Fr√©quence : 6
Mot : pour, Fr√©quence : 6
Mot : un, Fr√©quence : 5
Mot : sommes, Fr√©quence : 5
Mot : Younited, Fr√©quence : 5
Mot : Je, Fr√©quence : 5
Mot : Nous, Fr√©quence : 4
Mot : ne, Fr√©quence : 4
Mot : journ√©e, Fr√©quence : 4
Mot : en, Fr√©quence : 4
Mot : No, Fr√©quence : 4
Mot : Reply, Fr√©quence : 4
Mot : remercions, Fr√©quence : 3
Mot : d, Fr√©quence : 3
Mot : pris, Fr√©quence : 3
Mot : temps, Fr√©quence : 3
Mot : laisser, Fr√©quence : 3


In [35]:
#Mots n√©gatifs les plus fr√©quents superieurs √† 5 lettres et le commentaires

from elasticsearch import Elasticsearch
import nltk
from collections import Counter
from nltk.tokenize import word_tokenize

# Connexion √† Elasticsearch
es = Elasticsearch(hosts="http://localhost:9200")

# Nom de l'index
index_name = "review"

# R√©cup√©ration des commentaires avec une note n√©gative
query = {
    "query": {
        "range": {
            "Rating": {
                "lt": 2  # Commentaires avec une note inf√©rieure √† 2 
            }
        }
    }
}

# Ex√©cution de la requ√™te pour r√©cup√©rer les commentaires
result = es.search(index=index_name, body=query)

# R√©cup√©ration des commentaires et extraction des mots n√©gatifs
negative_reviews = []
for hit in result["hits"]["hits"]:
    negative_reviews.append(hit["_source"]["Reply"])  # Supposons que les commentaires sont dans le champ "Reply"

# Concat√©nation de tous les commentaires en un seul texte
all_negative_text = " ".join(negative_reviews)

# Tokenisation des mots
tokens = word_tokenize(all_negative_text)

# Filtrez les mots pour qu'ils aient plus de 5 lettres
filtered_words = [word for word in tokens if len(word) > 5]

# Utilisation de Counter pour compter la fr√©quence des mots
word_freq = Counter(filtered_words)

# Triez les mots par fr√©quence (du plus au moins fr√©quent)
sorted_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)

# Afficher les mots n√©gatifs les plus fr√©quents (par exemple, les 10 premiers)
for word, freq in sorted_words[:30]:
    
    print(f"Mot : {word}, Fr√©quence : {freq}")


  result = es.search(index=index_name, body=query)


Mot : Bonjour, Fr√©quence : 6
Mot : sommes, Fr√©quence : 5
Mot : Younited, Fr√©quence : 5
Mot : journ√©e, Fr√©quence : 3
Mot : Credit, Fr√©quence : 3
Mot : pouvez, Fr√©quence : 3
Mot : remercions, Fr√©quence : 2
Mot : laisser, Fr√©quence : 2
Mot : message.Nous, Fr√©quence : 2
Mot : toutefois, Fr√©quence : 2
Mot : navr√©s, Fr√©quence : 2
Mot : pleinement, Fr√©quence : 2
Mot : satisfait, Fr√©quence : 2
Mot : exp√©rience, Fr√©quence : 2
Mot : pr√©sentons, Fr√©quence : 2
Mot : excuses, Fr√©quence : 2
Mot : occasionn√©e, Fr√©quence : 2
Mot : d'avoir, Fr√©quence : 2
Mot : d'autres, Fr√©quence : 2
Mot : remarques.Excellente, Fr√©quence : 2
Mot : France, Fr√©quence : 2
Mot : aupr√®s, Fr√©quence : 2
Mot : commentaire, Fr√©quence : 2
Mot : l'√©quipe, Fr√©quence : 2
Mot : contacter, Fr√©quence : 2
Mot : webmaster, Fr√©quence : 2
Mot : compter, Fr√©quence : 1
Mot : clients, Fr√©quence : 1
Mot : Younited.Nous, Fr√©quence : 1
Mot : accompagner, Fr√©quence : 1


In [36]:
# 10 Mots positifs les plus fr√©quents superieurs √† 5 lettres et le commentaires
from elasticsearch import Elasticsearch

# Connexion √† Elasticsearch
es = Elasticsearch(hosts="http://localhost:9200")

# Nom de l'index
index_name = "review"

# Cr√©ation de la requ√™te pour rechercher les commentaires positifs
query = {
    "query": {
        "range": {
            "Rating": {
                "gte": 4  # Supposons que 4 et 5 sont consid√©r√©s comme des notes positives
            }
        }
    }
}

# Ex√©cution de la requ√™te pour r√©cup√©rer les commentaires positifs
result = es.search(index=index_name, body=query)

# R√©cup√©ration des commentaires positifs
positive_reviews = [hit["_source"]["Reply"] for hit in result["hits"]["hits"]]

# Concat√©nation de tous les commentaires en un seul texte
all_positive_text = " ".join(positive_reviews)

# Tokenisation des mots
from nltk.tokenize import word_tokenize
tokens = word_tokenize(all_positive_text)

# Filtre pour les mots de plus de 5 lettres
filtered_tokens = [token for token in tokens if len(token) > 5]

# Utilisation de Counter pour compter la fr√©quence des mots
from collections import Counter
word_freq = Counter(filtered_tokens)

# Triez les mots par fr√©quence (du plus au moins fr√©quent)
sorted_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)

# Afficher les 10 mots les plus fr√©quents
top_10_words = sorted_words[:20]

# Afficher les mots et leurs fr√©quences ainsi que les commentaires correspondants
for word, freq in top_10_words:
    print(f"Mot : {word}, Fr√©quence : {freq}")
    # Recherche des commentaires contenant ce mot
    matching_comments = [review for review in positive_reviews if word in review]
    # Afficher les commentaires correspondants
    for comment in matching_comments[:5]:  # Afficher les 5 premiers commentaires
        print(f"Commentaire : {comment}\n")


  result = es.search(index=index_name, body=query)


Mot : remercions, Fr√©quence : 10
Commentaire : Bonjour,Nous vous remercions d‚Äôavoir pris le temps de nous laisser un message et sommes ravis de lire que vous √™tes pleinement satisfait de votre exp√©rience Younited.Nous vous remercions une nouvelle fois pour votre confiance.Excellente journ√©e,Alexandra

Commentaire : Bonjour,Nous vous remercions d‚Äôavoir pris le temps de nous laisser un message et sommes ravis de lire que vous √™tes pleinement satisfait de votre exp√©rience Younited.Nous vous remercions une nouvelle fois pour votre confiance.Excellente journ√©e,Alexandra

Commentaire : Bonjour,¬†Nous vous remercions pour votre commentaire et sommes navr√©s de lire que vous n'√™tes pas pleinement satisfait de votre exp√©rience Younited.Le taux d‚Äôint√©r√™t d√©pend du montant emprunt√©, de la dur√©e, et de votre situation personnelle que vous avez renseign√© lors de la simulation de votre demande cr√©dit.Chez Younited, nous nous effor√ßons de proposer des financements √† des taux c

In [37]:
# la liste des entreprises avec le plus de "No Reply" dans la colonne Reply

from elasticsearch import Elasticsearch

# Connexion √† Elasticsearch
es = Elasticsearch(hosts="http://localhost:9200")

# Nom de l'index
index_name = "review"

# Cr√©ation de la requ√™te pour agr√©ger les entreprises avec le plus de "No Reply"
query = {
    "size": 0,  # Ne pas r√©cup√©rer les documents, uniquement les agr√©gations
    "aggs": {
        "companies_with_no_reply": {
            "terms": {
                "field": "Company.keyword",  # Champ de l'entreprise
                "size": 6  # Nombre d'entreprises √† afficher (top 10)
            },
            "aggs": {
                "no_reply_count": {
                    "filter": {
                        "term": {"Reply": "No Reply"}  # Filtre pour les "No Reply"
                    }
                }
            }
        }
    }
}

# Ex√©cution de la requ√™te pour agr√©ger les entreprises avec le plus de "No Reply"
result = es.search(index=index_name, body=query)

# R√©cup√©ration des agr√©gations
aggregations = result["aggregations"]["companies_with_no_reply"]["buckets"]

# Afficher les entreprises avec le plus de "No Reply"
for bucket in aggregations:
    company_name = bucket["key"]
    no_reply_count = bucket["no_reply_count"]["doc_count"]
    print(f"Entreprise : {company_name}, Nombre de 'No Reply' : {no_reply_count}")


  result = es.search(index=index_name, body=query)


In [38]:
from elasticsearch import Elasticsearch

# Connexion √† Elasticsearch
es = Elasticsearch(hosts="http://localhost:9200")

# Nom de l'index
index_name = "review3"

# Extraction des mots cl√©s n√©gatifs
def get_negative_keywords():
    query = {
        "query": {
            "range": {
                "Rating": {
                    "lt": 3  # Filtrer les commentaires avec une note inf√©rieure √† 3 (n√©gatifs)
                }
            }
        }
    }
    aggs = {
        "top_negative_keywords": {
            "terms": {
                "field": "Reply",
                "size": 5
            }
        }
    }
    result = es.search(index="review2", size=0, body={"query": query, "aggs": aggs})
    return [bucket["key"] for bucket in result["aggregations"]["top_negative_keywords"]["buckets"]]

# Extraction des mots cl√©s positifs
def get_positive_keywords():
    query = {
        "query": {
            "range": {
                "Rating": {
                    "gte": 4  # Filtrer les commentaires avec une note de 4 ou plus (positifs)
                }
            }
        }
    }
    aggs = {
        "top_positive_keywords": {
            "terms": {
                "field": "Reply",
                "size": 5
            }
        }
    }
    result = es.search(index="review2", size=0, body={"query": query, "aggs": aggs})
    return [bucket["key"] for bucket in result["aggregations"]["top_positive_keywords"]["buckets"]]

# Entreprises avec le plus de "No Reply"
def get_companies_with_most_no_reply():
    query = {
        "query": {
            "term": {
                "Reply": "No Reply"
            }
        }
    }
    aggs = {
        "companies_with_most_no_reply": {
            "terms": {
                "field": "Company",
                "size": 5
            }
        }
    }
    result = es.search(index="review2", size=0, body={"query": query, "aggs": aggs})
    return [bucket["key"] for bucket in result["aggregations"]["companies_with_most_no_reply"]["buckets"]]

# Classement des entreprises selon leur note moyenne
def get_company_average_ratings():
    aggs = {
        "company_average_ratings": {
            "terms": {
                "field": "Company",
                "size": 5
            },
            "aggs": {
                "avg_rating": {
                    "avg": {
                        "field": "Rating"
                    }
                }
            }
        }
    }
    result = es.search(index="review2", size=0, body={"aggs": aggs})
    return [{
        "Company": bucket["key"],
        "AverageRating": bucket["avg_rating"]["value"]
    } for bucket in result["aggregations"]["company_average_ratings"]["buckets"]]

# Groupe des commentateurs selon le "status"
def get_commentator_groups_by_status():
    aggs = {
        "commentator_groups": {
            "terms": {
                "field": "Status",
                "size": 5
            }
        }
    }
    result = es.search(index="review2", size=0, body={"aggs": aggs})
    return [bucket["key"] for bucket in result["aggregations"]["commentator_groups"]["buckets"]]

# Appel des fonctions pour r√©pondre aux questions
if __name__ == "__main":
    negative_keywords = get_negative_keywords()
    print("Mots cl√©s n√©gatifs les plus utilis√©s :", negative_keywords)

    positive_keywords = get_positive_keywords()
    print("Mots cl√©s positifs les plus utilis√©s :", positive_keywords)

    companies_with_most_no_reply = get_companies_with_most_no_reply()
    print("Entreprises avec le plus de 'No Reply' :", companies_with_most_no_reply)

    company_average_ratings = get_company_average_ratings()
    print("Classement des entreprises selon leur note moyenne :", company_average_ratings)

    commentator_groups = get_commentator_groups_by_status()
    print("Groupe des commentateurs selon le 'status' :", commentator_groups)

