

# Lien_article_Texte_Mining :
 https://www.cnews.fr/france/2024-12-03/arnaque-la-copie-de-cb-attention-cette-escroquerie-qui-touche-de-nombreux-francais

 # Date de publication:
 le 3 décembre 2024 

 # site de publication:
 CNEWS

 # Résumé de l'article:
 Cet article informe sur le démantèlement, en novembre 2024, d'un réseau de fraudeurs spécialisés dans le « skimming » à Toulouse. Cette technique permet de cloner des cartes bancaires en manipulant des terminaux de paiement pour accéder aux comptes des victimes. Les cartes clonées servent à des achats en ligne sur des sites à faible sécurité ou leurs données sont revendues. Malgré une baisse signalée du skimming en France, la Fédération bancaire recommande une vigilance accrue des comptes pour détecter toute fraude



Etape du Texte_Mining de notre data_text

Etape du Pré-processing

Import des librairies utiles 

In [1]:
# Pour le data management 
import pandas as pd
import numpy as np

# Pour le pré processing
from unidecode import unidecode
import re
from nltk.stem import SnowballStemmer
from nltk.corpus import stopwords
import nltk

# Les bigrammes
from collections import Counter
from nltk.util import ngrams
from collections import defaultdict

# Pour la vectorisation
from sklearn.feature_extraction.text import TfidfVectorizer 

# Pour la modélisation
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score, recall_score, precision_score

from sklearn.naive_bayes import GaussianNB

1.Découverte et exploration des données
  1.1. Import de la l'article à partir de telechargement en fichier text

1.Extraction de la data_texte

In [2]:
# Chemin du fichier texte
file_path = "articles/Arnaque à la copie de CB _ attention à cette escroquerie qui a touché de nombreux français.txt"

# Lecture du fichier texte
with open(file_path, "r", encoding="utf-8") as file:
    article_text = file.read()
print("Texte extrait avec succès.")



Texte extrait avec succès.


Exploration de nos données texte

In [3]:
# determinons la longueur de data  brutes (sans traitement)
len(article_text)

# nos data texte contient 22 231 caractères(y compris espace , ponctuation etc)

22231

In [4]:
article_text[:2000].split()

['<https://www.cnews.fr/rechercher>',
 'CNEWS',
 '|',
 'Actualités,',
 'Infos',
 'et',
 'News',
 'en',
 'direct',
 'vidéo',
 'et',
 'replay',
 '<https://',
 'www.cnews.fr/>',
 '*',
 'Les',
 'replays',
 '<https://www.cnews.fr/les-replays>',
 '*',
 'Les',
 'podcasts',
 '<https://www.cnews.fr/les-podcasts>',
 'Thèmes',
 '*',
 'Faits',
 'divers',
 '<https://www.cnews.fr/faits-divers>',
 '*',
 'Colère',
 'des',
 'agriculteurs',
 '<https://www.cnews.fr/agriculture>',
 '*',
 'Proche-Orient',
 '<https://www.cnews.fr/proche-orient>',
 '*',
 'Politique',
 '<https://www.cnews.fr/politique>',
 '*',
 'France',
 '<https://www.cnews.fr/france>',
 '*',
 'Monde',
 '<https://www.cnews.fr/monde>',
 '*',
 'Paris',
 '<https://www.cnews.fr/paris>',
 '*',
 'Culture',
 '<https://www.cnews.fr/culture>',
 '*',
 'Divertissement',
 '<https://www.cnews.fr/divertissement>',
 '*',
 'People',
 '<https://www.cnews.fr/people>',
 '*',
 'Vie',
 'numérique',
 '<https://www.cnews.fr/vie-numerique>',
 '*',
 'Sport',
 '<http

In [5]:
# verifions que le contenu de notre données est du type string

type(article_text)

str

Je selectionne les lignes 

2.Prétraitement du texte
Nettoyage du texte pour supprimer les caractères inutiles, suppression des accents et des stopwords


In [6]:

nltk.download('stopwords') # téléchargement du package depuis la bibliothèque NLTK(Natural language Toolkit)
stop_words = set(stopwords.words('french'))  #  je charge la ligne des  stopwords pour la langue française


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\fanti\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [7]:
print(stop_words)

{'par', 'aura', 'me', 'nos', 'ta', 'aurai', 'eue', 'son', 'ne', 'vous', 'avaient', 'seras', 'le', 'fûtes', 'eux', 'un', 'd', 'notre', 't', 'seront', 'soit', 'on', 'fût', 'avais', 'du', 'des', 'ma', 's', 'fûmes', 'fut', 'était', 'sommes', 'vos', 'seriez', 'aurais', 'ayez', 'lui', 'étantes', 'auras', 'sera', 'fussions', 'ton', 'serons', 'eussent', 'une', 'étée', 'ayantes', 'avions', 'eu', 'aurons', 'aurez', 'ils', 'eusse', 'ont', 'ai', 'même', 'serai', 'm', 'n', 'y', 'soyez', 'nous', 'étés', 'sont', 'eût', 'ayante', 'sur', 'aux', 'tes', 'fusse', 'étions', 'fussiez', 'fus', 'il', 'avec', 'qui', 'ses', 'serez', 'eussions', 'aies', 'étées', 'auraient', 'les', 'ces', 'j', 'eussiez', 'ayons', 'qu', 'étant', 'et', 'suis', 'aviez', 'auriez', 'fussent', 'mes', 'eurent', 'eusses', 'pour', 'ait', 'que', 'sois', 'aurait', 'avons', 'soyons', 'se', 'leur', 'sa', 'mais', 'furent', 'soient', 'eus', 'aie', 'étante', 'eûmes', 'c', 'mon', 'ou', 'de', 'eûtes', 'je', 'serais', 'étaient', 'êtes', 'serions', 

Après le chargement de la liste des mots inutiles (stop_words) pour notre analyse textuelle, nous constatons qu'elle contient un total de 157 termes.

In [8]:
print( len(stop_words))

157


3. passons à  l'étape du pré-procéssing de notre data_texte

In [9]:
# étape du pré-processing


def preprocess_text(text):
    text = text.lower()  # Conversion en minuscules
    text = unidecode(text)  # Suppression des accents
    text = re.sub(r'http\S+', '', text)  # Suppression des URL
    text = re.sub(r'[^a-z\s]', '', text)  # Suppression des caractères spéciaux
    text = re.sub(r'\b\w{1,2}\b', '', text)  # Suppression des mots très courts (1-2 lettres)
    text = re.sub(r'\s+', ' ', text)  # Suppression des espaces multiples
    words = text.split()  # Tokenisation
    words = [word for word in words if word not in stop_words]  # Suppression des stopwords
    return ' '.join(words).split()

# Appliquer le nettoyage avancé
cleaned_text = preprocess_text(article_text)
print("Texte nettoyé avec succès.")



Texte nettoyé avec succès.


In [10]:
cleaned_text

['cnews',
 'actualites',
 'infos',
 'news',
 'direct',
 'video',
 'replay',
 'wwwcnewsfr',
 'replays',
 'podcasts',
 'themes',
 'faits',
 'divers',
 'colere',
 'agriculteurs',
 'procheorient',
 'politique',
 'france',
 'monde',
 'paris',
 'culture',
 'divertissement',
 'people',
 'vie',
 'numerique',
 'sport',
 'lifestyle',
 'beaute',
 'environnement',
 'faits',
 'divers',
 'insolite',
 'jeux',
 'video',
 'nutrition',
 'sante',
 'science',
 'corner',
 'partenaires',
 'meteo',
 'astrologie',
 'jeux',
 'loto',
 'programme',
 'tnt',
 'facebook',
 'instagram',
 'twitter',
 'derniere',
 'minute',
 'previous',
 'noel',
 'beaux',
 'livres',
 'offrir',
 'fous',
 'sport',
 'offrirauxfousdesport',
 'asteroide',
 'siberie',
 'images',
 'impressionnantes',
 'meteore',
 'avant',
 'impact',
 'video',
 'impressionnantesdumeteoreavantsonimpactvideo',
 'vents',
 'violents',
 'voici',
 'departements',
 'places',
 'vigilance',
 'jaune',
 'jeudi',
 'departementsplacesenvigilancejaunecejeudi',
 'iran',
 'p

Après la phase du pré_processing, le texte a été considérablement nettoyé, passant de 22231 termes bruts à seulement 740 mots significatifs prêts pour l'analyse.

In [11]:

print(f"Longueur des données brutes (concaténées) : {len(article_text)} caractères.")
print(f"Nombre de mots après prétraitement : {len(cleaned_text)} mots.")

Longueur des données brutes (concaténées) : 22231 caractères.
Nombre de mots après prétraitement : 740 mots.


4.Phase de vectorisation

 Nous avons opter pour la technique de vectorisation tf-idf(Term-Frequency-Inverse Document Frequency), elle va nous permet de pondérer la fréquence de nos tokens en fonction de son importance relative . 

 On calculera donc le score de chacun des mots dans notre (cleaned_text)


In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer


tfidf_vectorizer = TfidfVectorizer(max_features=100,ngram_range=(1,2))
tfidf_matrix = tfidf_vectorizer.fit_transform([' '.join(cleaned_text)])
tfidf_df = pd.DataFrame(
    tfidf_matrix.toarray(),
    columns=tfidf_vectorizer.get_feature_names_out()
)


In [13]:
print(tfidf_vectorizer.get_feature_names_out())

['annuler' 'asteroide' 'asteroide siberie' 'avant' 'avant impact'
 'bancaire' 'bancaires' 'beaux' 'beaux livres' 'carte' 'carte bancaire'
 'cette' 'cnewsutmmediumreferralutmcontentthumbnails'
 'cnewsutmmediumreferralutmcontentthumbnails bbelowarticlethumbnailsunit'
 'comme' 'copie' 'departements' 'departements places'
 'departementsplacesenvigilancejaunecejeudi' 'donnees' 'etre' 'faits'
 'fous' 'fous sport' 'francais' 'francais posent'
 'francaistarnaquecalacopiedecbaattentioncacetteescroqueriequiatouchcadenombreuxfrancaais'
 'fraude' 'images' 'images impressionnantes' 'impact' 'impact video'
 'impressionnantes' 'impressionnantes meteore'
 'impressionnantesdumeteoreavantsonimpactvideo'
 'impressionnantesdumeteoreavantsonimpactvideo vents' 'iran' 'jaune'
 'jaune jeudi' 'jeudi' 'jeudi departementsplacesenvigilancejaunecejeudi'
 'largent' 'livres' 'livres offrir' 'marine' 'marine pen' 'meme'
 'meme question' 'memequestionouvalargenttonnemarinelepen'
 'memequestionouvalargenttonnemarinelep

In [14]:
# Conversion en DataFrame avec les mots comme lignes et leurs fréquences
tfidf_df = pd.DataFrame(tfidf_df.sum(axis=0), columns=['Fréquence']).reset_index()
tfidf_df.rename(columns={'index': 'Mot'}, inplace=True)

# Vérification des colonnes
print(tfidf_df.head())


                 Mot  Fréquence
0            annuler   0.129369
1          asteroide   0.086246
2  asteroide siberie   0.086246
3              avant   0.215615
4       avant impact   0.086246




In [15]:

stop_words = list(stop_words)
# Liste des stop words à exclure
stop_words.extend([
    'voici', 'vents', 'sport', 'siberie', 'posent', 'offrir', 'noel', 
    'nobel', 'narges', 'motions', 'mohammadi', 'meteore', 'meme', 
    'marine', 'livresjaune', 'iran', 'jeudi', 'fous', 'comme', 
    'cette', 'avant', 'asteroide','jaune','plus','beaux'
])

# Filtrage des mots pertinents
filtered_tfidf_df = tfidf_df[
    (tfidf_df['Fréquence'] > 0.05) &  # Fréquence minimale
    (tfidf_df['Fréquence'] < 0.5) &  # Fréquence maximale
    (tfidf_df['Mot'].str.len().between(4, 15)) &  # Longueur des mots
    (~tfidf_df['Mot'].str.contains(r'[^a-zA-Zéèêàùç]', regex=True)) &  # Exclusion des mots avec caractères spéciaux
    (~tfidf_df['Mot'].isin(stop_words))  # Exclusion des stopwords
]


In [16]:
# affichage de la frequence du IF-IDF par colonne
pd.set_option("display.max_columns", None)  
pd.set_option("display.width", None)       
print(filtered_tfidf_df)

             Mot  Fréquence
0        annuler   0.129369
5       bancaire   0.215615
6      bancaires   0.107808
9          carte   0.301862
15         copie   0.086246
16  departements   0.107808
19       donnees   0.129369
20          etre   0.107808
21         faits   0.064685
24      francais   0.129369
27        fraude   0.086246
28        images   0.086246
30        impact   0.086246
41       largent   0.064685
42        livres   0.086246
66          paix   0.064685
68          pays   0.086246
69        places   0.107808
72     politique   0.064685
78       raisons   0.064685
80         sante   0.086246
81        savoir   0.086246
85      skimming   0.107808
88      toulouse   0.086246
92         video   0.129369
94     vigilance   0.107808
96      violents   0.086246


Après le filtrage par TF-IDF , nous allons compter le nombre d'occurrence de chaque mots
des mots importants retenu par colonne 

Visualisation de la distribution des fréquences des mots 

In [17]:

import plotly.express as px

# Créer un graphique avec les mots pertinents
fig = px.bar(filtered_tfidf_df, x='Mot', y='Fréquence', title="Fréquence des mots pertinents (TF-IDF)",
             text='Fréquence', color='Fréquence', hover_name='Mot')

# Personnaliser le graphique
fig.update_traces(textposition='outside')
fig.update_layout(
    xaxis_title='Mots', yaxis_title='Fréquence',
    xaxis=dict(tickangle=45),
    margin=dict(l=40, r=20, t=40, b=120)
)

# Afficher le graphique
fig.show()



In [18]:
from collections import defaultdict
from wordcloud import WordCloud
import plotly.express as px
import pandas as pd


# Génération du WordCloud avec les mots filtrés
word_weights = dict(zip(filtered_tfidf_df['Mot'], filtered_tfidf_df['Fréquence']))

wordcloud = WordCloud(
    width=800,
    height=400,
    background_color='white',
    colormap='viridis'
).generate_from_frequencies(word_weights)

# Conversion en image pour affichage avec Plotly
wordcloud_image = wordcloud.to_array()

# Affichage avec Plotly
fig = px.imshow(
    wordcloud_image,
    
    color_continuous_scale="viridis"
)
# Suppression des marges et des bordures blanches
fig.update_layout(
    margin=dict(l=0, r=0, t=0, b=0),  # Suppression des marges
    coloraxis_showscale=False  # Suppression de l'échelle des couleurs si non nécessaire
)


fig.update_xaxes(showticklabels=False)
fig.update_yaxes(showticklabels=False)
fig.show()



analyse du resulat et recommandation

Mon analyse


Les résultats de mon WordCloud mettent en évidence les mots les plus significatifs en fonction de leur pondération (TF-IDF). Ils révèlent une forte concentration sur les problématiques de fraude bancaire, avec des thématiques majeures telles que le "skimming", une technique de fraude ciblant les données bancaires, ainsi que des notions comme "vigilance" et les "impacts" sur le pays.

La présence de termes tels que "vidéo", "copie" et "impressionnantes" suggère une orientation vers des supports visuels pour sensibiliser les utilisateurs. Ces éléments pourraient indiquer que les campagnes de prévention axées sur des contenus visuels percutants sont particulièrement adaptées pour informer le public sur les risques et les méthodes liées aux fraudes bancaires.


Ma recommandation

- Mise en place de campagnes de prévention renforcées, appuyées par des supports vidéo éducatifs, afin d’expliquer les risques liés aux fraudes et de sensibiliser le public aux précautions à adopter. Ces campagnes pourraient être diffusées sur des plateformes clés telles que Facebook, Twitter et Instagram, pour toucher un large public de manière efficace et engageante.


- Identification et renforcement des mesures  de  sécurité sur les zones les plus touchées par la fraude 

text_mining article La dangereuse dynamique des soldes des cartes de crédit aux États-Unis

reation WordCould avec Article de Robin 

https://www.lafinancepourtous.com/2024/09/12/la-dangereuse-dynamique-des-soldes-des-cartes-de-credit-aux-etats-unis/


In [19]:
from bs4 import BeautifulSoup
# Chemin du fichier html 

file_path1= "articles/La dangereuse dynamique des soldes des cartes de crédit aux États-Unis - La finance pour tous.html"
# Lecture du fichier texte
with open(file_path1, "r", encoding="utf-8") as file:
    html_content= file.read()

# Extraction du texte avec BeautifulSoup
soup = BeautifulSoup(html_content, "html.parser")
article_text1 = soup.get_text()

print("Texte extrait avec succès.")

Texte extrait avec succès.


Exploration de nos données extrait

In [20]:
len(article_text1)

15141

In [21]:
article_text1[:1000].split()

['La',
 'dangereuse',
 'dynamique',
 'des',
 'soldes',
 'des',
 'cartes',
 'de',
 'crédit',
 'aux',
 'États-Unis',
 '-',
 'La',
 'finance',
 'pour',
 'tous',
 'Aller',
 'au',
 'menu',
 'Aller',
 'au',
 'contenu',
 'Aller',
 'à',
 'la',
 'recherche',
 'Accéder',
 'à',
 'la',
 'navigation',
 'La',
 'finance',
 'pour',
 'tous',
 'Accéder',
 'à',
 'la',
 'recherche',
 'Pratique',
 'Décryptages',
 'Enseignants',
 'Juniors',
 'Boutique',
 'Accueil',
 'Actualités',
 'Rechercher',
 'Rechercher',
 'La',
 'finance',
 'pour',
 'tous',
 'sur',
 'facebook',
 'La',
 'finance',
 'pour',
 'tous',
 'sur',
 'twitter',
 'La',
 'finance',
 'pour',
 'tous',
 'sur',
 'linkedin',
 'La',
 'finance',
 'pour',
 'tous',
 'sur',
 'instagram',
 'La',
 'finance',
 'pour',
 'tous',
 'sur',
 'youtube',
 'La',
 'finance',
 'pour',
 'tous',
 'sur',
 'tiktok',
 'La',
 'finance',
 'pour',
 'tous',
 '-',
 'Le',
 'site',
 'pédagogique',
 'sur',
 "l'argent",
 'et',
 'la',
 'finance',
 'La',
 'finance',
 'pour',
 'tous',
 'e

In [22]:
# verifions que le contenu de nos données extrait est du type string
type(article_text1)

str

2.Prétraitement du texte
Nettoyage du texte pour supprimer les caractères inutiles, suppression des accents et des stopwords


In [23]:
nltk.download('stopwords') # téléchargement du package depuis la bibliothèque NLTK(Natural language Toolkit)
stop_words1 = set(stopwords.words('french'))  #  je charge la ligne des  stopwords pour la langue française

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\fanti\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [24]:
print(stop_words1)

{'par', 'aura', 'me', 'nos', 'ta', 'aurai', 'eue', 'son', 'ne', 'vous', 'avaient', 'seras', 'le', 'fûtes', 'eux', 'un', 'd', 'notre', 't', 'seront', 'soit', 'on', 'fût', 'avais', 'du', 'des', 'ma', 's', 'fûmes', 'fut', 'était', 'sommes', 'vos', 'seriez', 'aurais', 'ayez', 'lui', 'étantes', 'auras', 'sera', 'fussions', 'ton', 'serons', 'eussent', 'une', 'étée', 'ayantes', 'avions', 'eu', 'aurons', 'aurez', 'ils', 'eusse', 'ont', 'ai', 'même', 'serai', 'm', 'n', 'y', 'soyez', 'nous', 'étés', 'sont', 'eût', 'ayante', 'sur', 'aux', 'tes', 'fusse', 'étions', 'fussiez', 'fus', 'il', 'avec', 'qui', 'ses', 'serez', 'eussions', 'aies', 'étées', 'auraient', 'les', 'ces', 'j', 'eussiez', 'ayons', 'qu', 'étant', 'et', 'suis', 'aviez', 'auriez', 'fussent', 'mes', 'eurent', 'eusses', 'pour', 'ait', 'que', 'sois', 'aurait', 'avons', 'soyons', 'se', 'leur', 'sa', 'mais', 'furent', 'soient', 'eus', 'aie', 'étante', 'eûmes', 'c', 'mon', 'ou', 'de', 'eûtes', 'je', 'serais', 'étaient', 'êtes', 'serions', 

In [25]:
print(len(stop_words1))

157


3. passons à  l'étape du pré-procéssing de notre data_texte

In [26]:
def preprocess_text(text):
    text = text.lower()  # Conversion en minuscules
    text = unidecode(text)  # Suppression des accents
    text = re.sub(r'http\S+', '', text)  # Suppression des URL
    text = re.sub(r'[^a-z\s]', '', text)  # Suppression des caractères spéciaux
    text = re.sub(r'\b\w{1,2}\b', '', text)  # Suppression des mots très courts (1-2 lettres)
    text = re.sub(r'\s+', ' ', text)  # Suppression des espaces multiples
    words = text.split()  # Tokenisation
    words = [word for word in words if word not in stop_words1]  # Suppression des stopwords
    return ' '.join(words).split()

# Appliquer le nettoyage avancé
text_cleaned = preprocess_text(article_text1)
print("Texte nettoyé avec succès.")

Texte nettoyé avec succès.


In [27]:
text_cleaned

['dangereuse',
 'dynamique',
 'soldes',
 'cartes',
 'credit',
 'etatsunis',
 'finance',
 'tous',
 'aller',
 'menu',
 'aller',
 'contenu',
 'aller',
 'recherche',
 'acceder',
 'navigation',
 'finance',
 'tous',
 'acceder',
 'recherche',
 'pratique',
 'decryptages',
 'enseignants',
 'juniors',
 'boutique',
 'accueil',
 'actualites',
 'rechercher',
 'rechercher',
 'finance',
 'tous',
 'facebook',
 'finance',
 'tous',
 'twitter',
 'finance',
 'tous',
 'linkedin',
 'finance',
 'tous',
 'instagram',
 'finance',
 'tous',
 'youtube',
 'finance',
 'tous',
 'tiktok',
 'finance',
 'tous',
 'site',
 'pedagogique',
 'largent',
 'finance',
 'finance',
 'tous',
 'association',
 'dinteret',
 'general',
 'creee',
 'aider',
 'chacun',
 'sentir',
 'plus',
 'laise',
 'questions',
 'economiques',
 'financieres',
 'rechercher',
 'rechercher',
 'fermer',
 'fermer',
 'resultats',
 'recherche',
 'actualites',
 'decryptages',
 'dangereuse',
 'dynamique',
 'soldes',
 'cartes',
 'credit',
 'etatsunis',
 'dangereu

Après la phase du pré_processing, le texte a été considérablement nettoyé, passant de 15141 termes bruts à seulement 1223 mots significatifs prêts pour l'analyse.

In [28]:
print(f"Longueur des données brutes (concaténées) : {len(article_text1)} caractères.")
print(f"Nombre de mots après prétraitement : {len(text_cleaned)} mots.")

Longueur des données brutes (concaténées) : 15141 caractères.
Nombre de mots après prétraitement : 1223 mots.


4.Phase de vectorisation

 Nous avons opter pour la technique de vectorisation tf-idf(Term-Frequency-Inverse Document Frequency), elle va nous permet de pondérer la fréquence de nos tokens en fonction de son importance relative . 

 On calculera donc le score de chacun des mots dans notre (text_cleaned)

In [29]:
from sklearn.feature_extraction.text import TfidfVectorizer


tfidf_vectorizer = TfidfVectorizer(max_features=100,ngram_range=(1,2))
tfidf_matrix = tfidf_vectorizer.fit_transform([' '.join(text_cleaned)])
tdidf_df = pd.DataFrame(
    tfidf_matrix.toarray(),
    columns=tfidf_vectorizer.get_feature_names_out()
)


In [30]:
print(tfidf_vectorizer.get_feature_names_out())

['accueil' 'accueil actualites' 'actualites' 'actualites offline' 'aucun'
 'aucun cookie' 'autoriser' 'autoriser refuser' 'bien' 'boutique'
 'boutique sommesnous' 'carte' 'carte credit' 'cartes' 'cartes credit'
 'cette' 'cette hausse' 'chiffres' 'chiffres lepargne' 'consommation'
 'contact' 'contact fetchdictionary' 'cookie' 'cookie savoir' 'cookies'
 'credit' 'credit etatsunis' 'credit renouvelable' 'crise' 'decryptages'
 'decryptages enseignants' 'depose' 'depose aucun' 'dimpayes' 'dinteret'
 'dynamique' 'enseignants' 'enseignants juniors' 'etatsunis' 'facebook'
 'fetchdictionary' 'fetchdictionary mentions' 'finance' 'finance tous'
 'financiere' 'france' 'hausse' 'juniors' 'juniors boutique' 'legales'
 'legales sitemap' 'lepargne' 'lepargne salariale' 'menages' 'mentions'
 'mentions legales' 'officiel' 'officiel autoriser' 'offline'
 'offline contact' 'origine' 'outils' 'permettent' 'peut' 'plan'
 'plan site' 'plus' 'plus voir' 'posez' 'posez question' 'pratique'
 'pratique decryptag

In [31]:
# Conversion en DataFrame avec les mots comme lignes et leurs fréquences
tdidf_df = pd.DataFrame(tdidf_df.sum(axis=0), columns=['Fréquence']).reset_index()
tdidf_df.rename(columns={'index': 'Mot'}, inplace=True)

# Vérification des colonnes
print(tdidf_df.head())

                  Mot  Fréquence
0             accueil   0.074029
1  accueil actualites   0.074029
2          actualites   0.098705
3  actualites offline   0.061691
4               aucun   0.061691


In [32]:
stop_words = list(stop_words1)
# Liste des stop words à exclure
stop_words.extend([
    'accueil actualites','actualites offline','aucun','aucun cookie', 'bien','boutique sommesnous','cette','chiffres lepargne',
   'contact fetchdictionary', 'cookie','cookie savoir', 'cookies', 'decryptages enseignants','depose','depose aucun','dimpayes',
   'enseignants juniors' ,'fetchdictionary' ,'fetchdictionary mentions' ,'finance tous', 'juniors','juniors boutique',
    'legales sitemap', 'mentions','mentions legales','officiel autoriser','offline contact','permettent' ,
    'plus', 'plus voir', 'posez', 'posez question' ,'quelques', 'question quelques', 'salariale pratique', 'savoir' ,'savoir plus',
      'service', 'service depose','site posez' ,'sitemap' ,'sitemap plan', 'sommesnous', 'sommesnous outils',
      'taux dimpayes', 'tous', 'voir' ,'voir site','plan'
])

# Filtrage des mots pertinents
filtered_tdidf_df = tdidf_df[
    (tdidf_df['Fréquence'] > 0.05) &  # Fréquence minimale
    (tdidf_df['Fréquence'] < 0.5) &  # Fréquence maximale
    (tdidf_df['Mot'].str.len().between(4, 15)) &  # Longueur des mots
    (~tdidf_df['Mot'].str.contains(r'[^a-zA-Zéèêàùç]', regex=True)) &  # Exclusion des mots avec caractères spéciaux
    (~tdidf_df['Mot'].isin(stop_words1))  # Exclusion des stopwords
]

In [33]:
# affichage de la frequence du IF-IDF par colonne
pd.set_option("display.max_columns", None)  
pd.set_option("display.width", None)       
print(filtered_tdidf_df)

                Mot  Fréquence
0           accueil   0.074029
2        actualites   0.098705
4             aucun   0.061691
6         autoriser   0.074029
8              bien   0.086367
9          boutique   0.086367
11            carte   0.074029
13           cartes   0.246763
15            cette   0.061691
17         chiffres   0.061691
19     consommation   0.086367
20          contact   0.086367
22           cookie   0.061691
24          cookies   0.098705
25           credit   0.345468
28            crise   0.061691
29      decryptages   0.123382
31           depose   0.061691
34         dinteret   0.061691
36      enseignants   0.086367
38        etatsunis   0.098705
39         facebook   0.061691
40  fetchdictionary   0.061691
42          finance   0.234425
44       financiere   0.061691
46           hausse   0.086367
47          juniors   0.098705
49          legales   0.086367
51         lepargne   0.061691
53          menages   0.148058
54         mentions   0.086367
56      

In [34]:
import plotly.express as px

# Créer un graphique avec les mots pertinents
fig = px.bar(filtered_tdidf_df, x='Mot', y='Fréquence', title="Fréquence des mots pertinents (TF-IDF)",
             text='Fréquence', color='Fréquence', hover_name='Mot')

# Personnaliser le graphique
fig.update_traces(textposition='outside')
fig.update_layout(
    xaxis_title='Mots', yaxis_title='Fréquence',
    xaxis=dict(tickangle=45),
    margin=dict(l=40, r=20, t=40, b=120)
)

# Afficher le graphique
fig.show()


In [35]:
from collections import defaultdict
from wordcloud import WordCloud
import plotly.express as px
import pandas as pd


# Génération du WordCloud avec les mots filtrés
word_weights = dict(zip(filtered_tdidf_df['Mot'], filtered_tdidf_df['Fréquence']))

wordcloud = WordCloud(
    width=800,
    height=400,
    background_color='white',
    colormap='viridis'
).generate_from_frequencies(word_weights)

# Conversion en image pour affichage avec Plotly
wordcloud_image = wordcloud.to_array()

# Affichage avec Plotly
fig = px.imshow(
    wordcloud_image,
    
    color_continuous_scale="viridis"
)

# Suppression des marges et des bordures blanches
fig.update_layout(
    margin=dict(l=0, r=0, t=0, b=0),  # Suppression des marges
    coloraxis_showscale=False  # Suppression de l'échelle des couleurs si non nécessaire
)

fig.update_xaxes(showticklabels=False)
fig.update_yaxes(showticklabels=False)
fig.show()


Concatenation des deux wordCloud en combinant le fitrage des dataFrame

In [36]:
import pickle  # Importer pickle pour la sérialisation
from wordcloud import WordCloud
import pandas as pd
import plotly.express as px

def save_wordcloud(filtered_tfidf_df, filtered_tdidf_df): # liaison avec notre streamlit
    """
    Génère et sauvegarde un Word Cloud combiné dans un fichier Pickle.
    """
    # Fusionner les DataFrames sur la colonne 'Mot'
    combined_df = pd.concat([filtered_tfidf_df, filtered_tdidf_df])
    combined_df = combined_df.groupby('Mot', as_index=False).sum()  # Additionner les fréquences des mots communs

    # Convertir en dictionnaire pour le Word Cloud
    word_weights = dict(zip(combined_df['Mot'], combined_df['Fréquence']))

    # Générer le Word Cloud combiné
    wordcloud = WordCloud(
        width=800,
        height=400,
        background_color='white',
        colormap='cool'
    ).generate_from_frequencies(word_weights)

    # Sauvegarder le Word Cloud en fichier Pickle
    with open("wordcloud.pkl", "wb") as f:
        pickle.dump(wordcloud, f)

    print("Word Cloud sauvegardé avec succès.")


In [37]:
# pour generer le WordCloud combiner dans le repertoire
save_wordcloud(filtered_tfidf_df, filtered_tdidf_df)


Word Cloud sauvegardé avec succès.
