In [None]:
import re
import docx

# Fonction pour extraire le texte d'un fichier DOCX
def extract_text_from_docx(doc_path):
    doc = docx.Document(doc_path)
    full_text = "\n".join([para.text for para in doc.paragraphs])
    return full_text

# Fonction pour extraire les liens
def extract_links(text):
    url_pattern = r"https?://[^\s]+"  # Expression régulière pour détecter les liens
    links = re.findall(url_pattern, text)
    return links

# Chemin vers le document WORD ( Base de données isheero.docx )
doc_path = "Base de données isheero.docx"

# Extraction du texte et des liens
text = extract_text_from_docx(doc_path)
links = extract_links(text)

# Nature de links
import os

file_path = "links"

if not os.path.exists(file_path):
    print("❌ Le fichier 'links' n'existe pas.")
elif os.path.isdir(file_path):
    print("❌ 'links' est un dossier, pas un fichier.")
else:
    print("✅ 'links' est bien un fichier.")



In [None]:
import os

# Dossier "links" ( dans le même répertoire que le script ou notebook )
folder_name = "links"

# Obtenir le chemin absolu
abs_path = os.path.abspath(folder_name)

# Afficher le chemin
print(f" Chemin absolu du dossier 'links' :\n{abs_path}")


In [None]:
# Ce code sert à écrire les liens extraits dans des fichiers à l’intérieur du dossier links

with open("links/mes_liens.txt", "w") as f:
    for link in links:
        f.write(link + "\n")

print(links)

In [None]:
import os

# Chemin vers le dossier "links"
dossier_links = "Links"

# Liste pour stocker tous les liens
tous_liens = []

# Vérifie si le dossier existe
if not os.path.exists(dossier_links):
    print(f"❌ Le dossier n'existe pas : {dossier_links}")
elif os.path.isfile(dossier_links):
    print("C'est un fichier.")
elif not os.path.isdir(dossier_links):
    print(f"❌ Le chemin n'est pas un dossier : {dossier_links}")
else:
    print(f" Dossier trouvé : {dossier_links}")
    print(" Lecture des fichiers...\n")

    # Parcourt tous les fichiers dans le dossier (  os.listdir() sert à lister le contenu d’un dossier mais pas celui d’un fichier texte. )
    for nom_fichier in os.listdir(dossier_links):
        chemin_fichier = os.path.join(dossier_links, nom_fichier)

        # Vérifie que c'est bien un fichier texte
        if os.path.isfile(chemin_fichier) and nom_fichier.endswith(".txt"):
            print(f"📝 Contenu de : {nom_fichier}")
            with open(chemin_fichier, "r", encoding="utf-8") as f:
                
                lignes = f.readlines()
                # Nettoyage de chaque ligne (suppression \n et espaces)
                liens_propres = [ligne.strip() for ligne in lignes if ligne.strip()]
                tous_liens.extend(liens_propres)

# Résultat
print("✅ Tous les liens extraits :")
print(tous_liens)

print(f" Nombre total de liens : {len(tous_liens)}")


In [None]:
print("Aperçu des 10 premiers liens :")
print(tous_liens[:10])

In [None]:
# Sélection des liens du premier trimestre de l'année 2025
tous_liens_1 = tous_liens [ 89922 : 104476 ]
tous_liens_2 = tous_liens [ 552 : 11764 ]
tous_liens_3 = tous_liens_1 + tous_liens_2

# Traitement
URLS = []

# Année de remplacement
nouvelle_annee = "2025"

for url in  tous_liens_3:
#    partie_avant, reste =  tous_liens_1.split("gdeltv2/", 1)   # coupe 1 seule fois 
    partie_avant, reste = url.split("gdeltv2/", 1)  # ici c’est bien sur chaque URL. On n'applique pas .split sur une liste mais seulement sur les chaines de caractères
    
    nouvelle_date = nouvelle_annee + reste[4:]  # remplacer les 4 premiers chiffres
    nouvelle_url = partie_avant + "gdeltv2/" + nouvelle_date
    URLS.append(nouvelle_url)

# Affichage
for u in URLS :
    print ( u )

In [None]:
import pandas as pd

### ce code sert à convertir la liste URLS en dataframe pour un usage ultérieur
df_liens = pd.DataFrame( URLS, columns= ['Liens'] )

### pour transformer le dataframe en csv
df_liens.to_csv('Liens_2025.csv', index=False)

In [None]:
# Pour la sélection des fichiers events
LINKS = [url for url in URLS if url.endswith("export.CSV.zip")]

for u in LINKS :
    print(u)


In [None]:
import pandas as pd
import requests
import os
from tqdm import tqdm
import zipfile

OUTPUT_DIR = 'GDELT_DATA'    # Répertoire de sortie pour les fichiers téléchargés


# Ce code sert à télécharger et extraire les fichiers events pour une période donnée
def download_and_extract(links, output_dir):
    for link in tqdm(links, desc="Téléchargement des fichiers GDELT"):
        file_name = link.split("/")[-1]

        # Vérifier si le fichier existe déjà pour éviter de le retélécharger
        if not os.path.exists(file_name):
            response = requests.get(link, stream=True)
            if response.status_code == 200:
                with open(file_name, 'wb') as f:
                    f.write(response.content)
            else:
                print(f"Erreur de téléchargement pour {link}")
                continue

        # Décompression du fichier ZIP
        # Vérifier si c'est bien un fichier ZIP
        if zipfile.is_zipfile(file_name):
            print("Le fichier est un ZIP valide.")
            with zipfile.ZipFile(file_name, 'r') as zip_ref:
                zip_ref.extractall(output_dir)
                print("Extraction réussie !")
        else:
            print("Erreur : Le fichier n'est pas un ZIP valide.")
            continue 
            
        os.remove(file_name)  # Supprimer le fichier ZIP après extraction pour économiser l'espace

download_and_extract( LINKS , OUTPUT_DIR)

print ( OUTPUT_DIR )

In [None]:
import os
from tqdm import tqdm
import pandas as pd



OUTPUT_DIR = 'GDELT_DATA' 
COUNTRY_CODE = "BN"


#  Filtrer les données par pays
def filter_events_by_country(output_dir, country_code):
    all_data = []
    for file in tqdm(os.listdir(output_dir), desc="Filtrage des fichiers CSV"):
        file_path = os.path.join(output_dir, file)
        try:
            # Lecture des données CSV en utilisant des chunks pour traiter des fichiers volumineux
            for chunk in pd.read_csv(file_path, sep='\t', chunksize=100000, header=None, encoding='latin1', dtype=str):
                # La colonne 53 correspond aux évènements du Bénin 
                filtered_chunk = chunk[chunk[53] == country_code]
                all_data.append(filtered_chunk)
        except Exception as e:
            print(f"Erreur lors de la lecture de {file}: {e}")
    # Combiner toutes les données filtrées en un seul DataFrame
    return pd.concat(all_data, ignore_index=True)

benin_data = filter_events_by_country(OUTPUT_DIR, COUNTRY_CODE)

In [None]:
FINAL_DATASET = 'Benin_dataset.csv'  # Nom du fichier final


# Étape 5 : enregistrer le dataset final en csv
def save_final_dataset(dataframe, output_file):
    dataframe.to_csv(output_file, index=False)
    print(f" Dataset final enregistré sous {output_file}")

save_final_dataset(benin_data, FINAL_DATASET)


In [None]:
import pandas as pd
df = pd.read_csv( 'Benin_dataset.csv' , sep = ',' , encoding = 'latin1' , dtype = 'str' )
df.head()

In [None]:
# Créer un DataFrame vide avec 10 colonnes pour la structuration finale 
df_nouveau = pd.DataFrame(columns=[
     'Année', 'Mois' , 'Date_Heure', 'Pays', 'Code_Pays', 
    'Adresse_Web', 'Source', 'Tendance', 'Résumé', 'Sentiment_Global'
])

# Remplir certaines colonnes du nouveau DataFrame avec les valeurs de df
df_nouveau['Année'] = df.iloc[ : , 3]
df_nouveau['Date_Heure'] = df.iloc[ : , 59]
df_nouveau['Pays'] = df.iloc[ : , 52]
df_nouveau['Code_Pays'] = df.iloc[ : , 53]
df_nouveau['Adresse_Web'] = df.iloc[ : , 60]
df_nouveau['Source'] = 'GDELT'

df_nouveau.head()


In [None]:
import pandas as pd


# Liste vide pour stocker les mois
mois_list = []

# Boucle sur chaque ligne de df1
for code in df.iloc[ : , 2]:
    mois_code = str(code)[-2:]  # On prend les 2 derniers caractères
    if mois_code == "01":
        mois_list.append("Janvier")
    elif mois_code == "02":
        mois_list.append("Février")
    elif mois_code == "03":
        mois_list.append("Mars")
    elif mois_code == "04":
        mois_list.append("Avril")
    elif mois_code == "05":
        mois_list.append("Mai")
    elif mois_code == "06":
        mois_list.append("Juin")
    elif mois_code == "07":
        mois_list.append("Juillet")
    elif mois_code == "08":
        mois_list.append("Août")
    elif mois_code == "09":
        mois_list.append("Septembre")
    elif mois_code == "10":
        mois_list.append("Octobre")
    elif mois_code == "11":
        mois_list.append("Novembre")
    elif mois_code == "12":
        mois_list.append("Décembre")
    else:
        mois_list.append("Inconnu")

# Création du deuxième DataFrame
df_nouveau ['Mois'] = pd.DataFrame({"Mois": mois_list})

# Résultat
df_nouveau.head()


In [None]:
### Ce code sert à télécharger les articles contenus dans chaque liens inscrit dans la dernière colonne de df en ordre et avec une gestion d'erreur

import pandas as pd
import os
from newspaper import Article

# Dossier de sortie
OUTPUT_FOLDER = "Publications_file"
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

# Charger le fichier CSV
df = pd.read_csv('Benin_dataset.csv', sep=',', encoding='latin1', dtype='str', header=None)
total_articles = len(df)

# Initialiser les logs
logs = []

# Boucle principale
for idx, row in df.iterrows():
    url = row.iloc[-1]
    article_num = str(idx + 1).zfill(len(str(total_articles)))  # ex: '001', '045', ...

    try:
        article = Article(url, language='fr')
        article.download()
        article.parse()
        text = article.text

        if len(text.strip()) > 0:
            filename = f"{article_num}_article.txt"
            filepath = os.path.join(OUTPUT_FOLDER, filename)
            with open(filepath, "w", encoding="utf-8") as f:
                f.write(text)
            status = "OK"
            print(f"[✔] Article {article_num} téléchargé.")
        else:
            filename = f"{article_num}_Article_vide.txt"
            filepath = os.path.join(OUTPUT_FOLDER, filename)
            with open(filepath, "w", encoding="utf-8") as f:
                f.write("")
            status = "Vide"
            print(f"[✘] Article vide : {url}")

    except Exception as e:
        error_type = type(e).__name__
        filename = f"{article_num}_{error_type}.txt"
        filepath = os.path.join(OUTPUT_FOLDER, filename)
        with open(filepath, "w", encoding="utf-8") as f:
            f.write("")
        status = f"Erreur ({error_type})"
        print(f"[!] Erreur avec {url} : {e}")

    # Ajouter une ligne au log
    logs.append({
        "Numéro": article_num,
        "URL": url,
        "Statut": status,
        "Fichier": filename
    })

# Sauvegarder le fichier log à la fin
log_df = pd.DataFrame(logs)
log_df.to_csv(os.path.join(OUTPUT_FOLDER, "log.csv"), index=False, encoding="utf-8")

print("\n Journal de traitement enregistré dans : log.csv")


In [None]:
### Ce code permet d'identifier les tendances et les résumés de tous les articles contenus dans tous les liens de df sauf le premier liens

import os
import pandas as pd
import spacy
from gensim import corpora
from gensim.models import LdaModel
from collections import defaultdict
import heapq
import re

# Dossier contenant les fichiers texte
output_folder = "Publications_file"

# Liste des résultats
résum = []

# Dictionnaire de catégories thématiques

thematic_categories = {
    "émotionnel": ["colère", "peur", "espoir", "frustration", "solidarité", "joie", "tristesse"],
    "éducation": ["étudiant", "élève", "université", "école", "enseignant", "examen", "formation", "apprentissage", "cours", "scolarité", "diplôme", "bourse", "alphabétisation", "enseignement supérieur"],
    "culture": ["culture", "coutume", "tradition", "musique", "peinture", "danse", "festival", "patrimoine", "art", "exposition", "sculpture", "création artistique"],
    "politique": ["gouvernement", "élection", "vote", "président", "ministre", "député", "réforme", "loi", "république", "constitution", "campagne", "parti politique"],
    "guerre": ["conflit", "bataille", "militaire", "armée", "arme", "attaque", "bombardement", "soldat", "insurrection", "rébellion", "invasion", "violence armée"],
    "paix": ["paix", "cessez-le-feu", "réconciliation", "dialogue", "médiation", "accord", "cohabitation", "diplomatie"],
    "fête": ["fête", "anniversaire", "célébration", "carnaval", "mariage", "commémoration", "événement festif", "réjouissance"],
    "décès": ["mort", "décès", "obsèques", "inhumation", "funérailles", "disparition", "deuil"],
    "corruption": ["corruption", "fraude", "détournement", "scandale", "enquête", "abus de pouvoir", "transparence", "clientélisme"],
    "science": ["recherche", "expérience", "laboratoire", "innovation", "scientifique", "théorie", "découverte"],
    "littérature": ["livre", "roman", "écrivain", "auteur", "poésie", "lecture", "bibliothèque", "publication"],
    "emploi": ["emploi", "chômage", "recrutement", "stage", "travail", "carrière", "emploi jeune", "offre d’emploi"],
    "bourse": ["bourse", "aide financière", "soutien étudiant", "bourse d’étude", "financement", "subvention"],
    "technologie": ["technologie" , "numérique", "internet", "logiciel", "application", "réseaux sociaux", "intelligence artificielle", "hackathon", "robotique", "cybersécurité"],
    "transport": ["route", "véhicule", "trafic", "bus", "train", "accident", "circulation", "aéroport", "transport en commun", "infrastructure"],
    "justice": ["tribunal", "juge", "procès", "plainte", "avocat", "peine", "infraction", "mandat", "condamnation"],
    "santé": ["hôpital", "maladie", "santé", "vaccin", "soins", "pandémie", "épidémie", "urgence", "chirurgie", "médicament"],
    "environnement": ["climat", "écologie", "biodiversité", "pollution", "réchauffement", "forêt", "durabilité", "recyclage", "catastrophe naturelle"],
    "médias": ["presse", "journaliste", "média", "reportage", "information", "émission", "radio", "télévision", "liberté de la presse"],
    "religion": ["religion", "église", "mosquée", "temple", "culte", "foi", "prière", "fête religieuse", "chrétien", "musulman", "imam", "bible", "coran"],
    "migration": ["migrant", "réfugié", "asile", "immigration", "diaspora", "exil", "frontière", "intégration"],
    "sécurité": ["police", "criminalité", "sécurité", "violence", "vol", "braquage", "terrorisme", "drogue", "garde", "milice"],
    "genre": ["femme", "égalité", "féminisme", "harcèlement", "discrimination", "droits des femmes", "sexisme", "violence conjugale", "genre"],
    "jeunesse": ["jeunesse", "jeune", "talent", "espoir", "ambition", "futur", "engagement jeune", "génération"],
    "sport": ["sport", "football", "match", "compétition", "athlète", "champion", "entraîneur", "tournoi", "ligue", "Jeux Olympiques"],
    "urbanisme": ["ville", "quartier", "urbanisation", "infrastructure", "logement", "architecture", "voirie"],
    "agriculture": ["agriculture", "ferme", "récolte", "semence", "champ", "élevage", "engrais", "paysan", "agroalimentaire"],
    "droits_humains": ["droits", "liberté", "justice", "oppression", "militant", "répression", "torture", "droit international", "ONG"],
    "diplomatie": ["coopération", "relation internationale", "accord bilatéral", "visite officielle", "ambassade", "négociation", "partenariat"],
    "vie_quotidienne": ["famille", "foyer", "marché", "eau", "électricité", "logement", "alimentation", "prix", "consommation", "vie chère"],
    "énergie": ["énergie", "carburant", "gaz", "pétrole", "électricité", "solaire", "nucléaire", "hydroélectrique", "transition énergétique"],
    "tourisme": ["tourisme", "site touristique", "voyage", "visite", "patrimoine", "hôtel", "guide touristique"],
    "innovation": ["startup", "technopole", "incubateur", "technologie", "idée", "créativité", "prototype", "pitch"],
    "égalité sociale": ["justice sociale", "inégalité", "solidarité", "exclusion", "inclusion", "pauvreté", "minorités"],
    "hostilité": ["haine", "violence", "menace", "intimidation", "insulte", "confrontation", "tension"]
}

# Fonctions
def preprocess_and_segment(text):
    nlp = spacy.load("fr_core_news_sm")
    doc = nlp(text.lower())
    sentences = list(doc.sents)
    tokens = [token.lemma_ for token in doc if not token.is_stop and token.pos_ == "NOUN" and token.is_alpha]
    return tokens, sentences, doc

def detect_topics(tokens):
    dictionary = corpora.Dictionary([tokens])
    corpus = [dictionary.doc2bow(tokens)]
    lda_model = LdaModel(corpus, num_topics=1, id2word=dictionary, passes=10)
    return lda_model, dictionary

def generate_narrative_summary(text, num_summary_sentences=1):       # mieux vaut passer à 1 phrase
    tokens, sentences, doc = preprocess_and_segment(text)
    lda_model, dictionary = detect_topics(tokens)

    topic_words = []
    for idx, topic in lda_model.show_topics(formatted=False, num_words=10):
        topic_words.extend([word for word, _ in topic])

    sentence_scores = defaultdict(int)
    for sent in sentences:
        for word in topic_words:
            if word in sent.text.lower():
                sentence_scores[sent.text] += 1

    best_sentences = heapq.nlargest(num_summary_sentences, sentence_scores, key=sentence_scores.get)

    matched_categories = []
    for category, ref_words in thematic_categories.items():
        if any(word in ref_words for word in topic_words):
            matched_categories.append(category)

    summary_text = " ".join(best_sentences).strip()
    themes_text = ", ".join(set(matched_categories)) if matched_categories else "Sujets généraux ou divers"

    return themes_text, summary_text

# Extraire le numéro au début du nom de fichier
def extract_article_number(filename):
    match = re.match(r"(\d+)", filename)
    return int(match.group(1)) if match else float("inf")

# Lister et trier les fichiers texte
file_list = sorted(
    [f for f in os.listdir(output_folder) if f.endswith(".txt")],
    key=extract_article_number
)

# Parcourir les fichiers
for filename in file_list:
    file_path = os.path.join(output_folder, filename)
    article_number = extract_article_number(filename)

    # Cas d’article vide ou fichier d’erreur
    if "Article_vide" in filename or any(err in filename for err in ["Error", "Exception", "FileNotFound", "Timeout"]):
        theme = "Inconnu"
        summary = "Illisible"
    else:
        try:
            with open(file_path, "r", encoding="utf-8") as file:
                text = file.read()

            if len(text.strip()) == 0:
                theme = "Inconnu"
                summary = "Illisible"
            else:
                theme, summary = generate_narrative_summary(text)

        except Exception:
            theme = "Inconnu"
            summary = "Illisible"

    # Ajouter au tableau
    résum.append({
        "Numéro d’article": article_number,
        "Nom du fichier": filename,
        "Tendance": theme,
        "Résumé": summary
    })

# Créer le DataFrame
df_résum = pd.DataFrame(résum)

# Affichage
df_résum


In [None]:
# Version modifiée du code pour qu’il traite un seul lien URL au lieu d’un dossier de fichiers texte ( uniquement le premier liens )


import os
import spacy
import pandas as pd
import heapq
import re
from collections import defaultdict
from newspaper import Article
from gensim import corpora
from gensim.models import LdaModel

# Lien unique à traiter
url = "https://kaloumpresse.com/2019/05/27/nouvelle-c"

# Chargement du modèle spaCy français
nlp = spacy.load("fr_core_news_sm")

# Dictionnaire des thématiques 
thematic_categories = {
    "politique": ["gouvernement", "élection", "président", "ministre", "réforme"],
    "santé": ["hôpital", "maladie", "vaccin", "soins", "pandémie"],
    "éducation": ["école", "université", "étudiant", "enseignant", "formation"],
    "justice": ["tribunal", "juge", "procès", "plainte", "avocat", "peine", "infraction", "mandat", "condamnation"],
}

# Fonctions
def preprocess_and_segment(text):
    nlp = spacy.load("fr_core_news_sm")
    doc = nlp(text.lower())
    sentences = list(doc.sents)
    tokens = [token.lemma_ for token in doc if not token.is_stop and token.pos_ == "NOUN" and token.is_alpha]
    return tokens, sentences, doc

def detect_topics(tokens):
    dictionary = corpora.Dictionary([tokens])
    corpus = [dictionary.doc2bow(tokens)]
    lda_model = LdaModel(corpus, num_topics=1, id2word=dictionary, passes=10)
    return lda_model, dictionary

def generate_narrative_summary(text, num_summary_sentences=1):       # mieux vaut passer à 1 phrase
    tokens, sentences, doc = preprocess_and_segment(text)
    lda_model, dictionary = detect_topics(tokens)

    topic_words = []
    for idx, topic in lda_model.show_topics(formatted=False, num_words=10):
        topic_words.extend([word for word, _ in topic])

    sentence_scores = defaultdict(int)
    for sent in sentences:
        for word in topic_words:
            if word in sent.text.lower():
                sentence_scores[sent.text] += 1

    best_sentences = heapq.nlargest(num_summary_sentences, sentence_scores, key=sentence_scores.get)

    matched_categories = []
    for category, ref_words in thematic_categories.items():
        if any(word in ref_words for word in topic_words):
            matched_categories.append(category)

    summary_text = " ".join(best_sentences).strip()
    themes_text = ", ".join(set(matched_categories)) if matched_categories else "Sujets généraux ou divers"

    return themes_text, summary_text


# Étape 1 : Télécharger et parser l'article
try:
    article = Article(url, language='fr')
    article.download()
    article.parse()
    text = article.text

    if len(text.strip()) == 0:
        raise ValueError("Texte vide")

    # Étape 2 : Résumé + Thème
    theme, summary = generate_narrative_summary(text)

    # Affichage du résultat
    print("\n🎯 Résultats analytiques pour l'URL :")
    print(f"- Thème(s) dominant(s) : {theme}")
    print(f"- Résumé :\n{summary}")

except Exception as e:
    print(f"\n[Erreur] Impossible d'analyser l'article : {e}")


In [None]:
### Pour compléter le tableau
df_résum.iloc [0,2] = theme
df_résum.iloc [0,3] = summary

df_résum

In [None]:
### Ce code permet d'identifier les sentiments exprimés dans tous les articles contenus dans tous les liens de df sauf le premier

import os
import pandas as pd
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

# Dossier contenant les fichiers texte
output_folder = "Publications_file"
sentim = []

# Chargement du modèle de sentiment multilingue
sentiment_model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
tokenizer = AutoTokenizer.from_pretrained(sentiment_model_name)
model = AutoModelForSequenceClassification.from_pretrained(sentiment_model_name)
sentiment_analyzer = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# Fonction d’analyse du sentiment
def analyze_overall_sentiment(text):
    result = sentiment_analyzer(text[:512])[0]  # Tronquer à 512 caractères max
    label = result["label"]
    score = result["score"]
    stars = int(label[0])  # Exemple : '4 stars' → 4
    if stars <= 2:
        sentiment = "Mécontent"
    elif stars == 3:
        sentiment = "Indifférent"
    else:
        sentiment = "Content"
    return sentiment, round(score, 3)

# Fonction d’interprétation du score de confiance
def interpret_confiance(score):
    if score >= 0.90:
        return "Très fiable"
    elif score >= 0.75:
        return "Fiable"
    elif score >= 0.60:
        return "Faible confiance"
    else:
        return "Peu fiable"

# Liste des fichiers texte triés (ordre alphabétique)
filenames = sorted([f for f in os.listdir(output_folder) if f.endswith(".txt")])

# Analyse de chaque fichier
for filename in filenames:
    file_path = os.path.join(output_folder, filename)

    # Vérifier si le fichier est un article vide ou une erreur
    if "Article_vide" in filename or "ArticleException" in filename:
        sentiment = "Inconnu"
        confiance = "Inconnu"
        interpretation = "Inconnu"
    else:
        try:
            with open(file_path, "r", encoding="utf-8") as file:
                text = file.read()

            sentiment, confiance = analyze_overall_sentiment(text)
            interpretation = interpret_confiance(confiance)

        except Exception as e:
            sentiment = "Inconnu"
            confiance = "Inconnu"
            interpretation = f"Erreur: {type(e).__name__}"

    sentim.append({
        "Fichier": filename,
        "Sentiment": sentiment,
        "Confiance": confiance,
        "Interprétation": interpretation
    })

# Construire le DataFrame final
df_sentim = pd.DataFrame(sentim)

# Afficher
df_sentim 


In [None]:
# Version modifiée du code pour qu’il traite un seul lien URL au lieu d’un dossier de fichiers texte ( uniquement le premier liens )

from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
from newspaper import Article

# ➤ Lien à analyser
url = "https://kaloumpresse.com/2019/05/27/nouvelle-c"

# Chargement du modèle de sentiment multilingue
sentiment_model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
tokenizer = AutoTokenizer.from_pretrained(sentiment_model_name)
model = AutoModelForSequenceClassification.from_pretrained(sentiment_model_name)
sentiment_analyzer = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# Fonction d’analyse du sentiment
def analyze_overall_sentiment(text):
    result = sentiment_analyzer(text[:512])[0]  # Tronquer à 512 tokens max
    label = result["label"]  # ex : '4 stars'
    score = result["score"]
    stars = int(label[0])
    if stars <= 2:
        sentiment = "Mécontent"
    elif stars == 3:
        sentiment = "Indifférent"
    else:
        sentiment = "Content"
    return sentiment, round(score, 3)

# Fonction d’interprétation du score de confiance
def interpret_confiance(score):
    if score >= 0.90:
        return "Très fiable"
    elif score >= 0.75:
        return "Fiable"
    elif score >= 0.60:
        return "Faible confiance"
    else:
        return "Peu fiable"

# Extraction de l’article depuis l’URL
try:
    article = Article(url, language='fr')
    article.download()
    article.parse()
    text = article.text

    if not text.strip():
        raise ValueError("Article vide")

    sentiment, confiance = analyze_overall_sentiment(text)
    interpretation = interpret_confiance(confiance)

    # Résultat
    print("\n🔎 Analyse de sentiment pour l'article :")
    print(f"- Sentiment : {sentiment}")
    print(f"- Score de confiance : {confiance}")
    print(f"- Interprétation : {interpretation}")

except Exception as e:
    print(f"\n[Erreur] Impossible d'analyser l'article : {e}")


In [None]:
### Pour compléter le tableau
df_sentim.iloc [0,1] = "Content"
df_sentim.iloc [0,2] = "0.451"
df_sentim.iloc [0,3] = "Peu fiable"

df_sentim

In [None]:
### Structuration achevée

df_nouveau['Tendance'] = df_résum['Tendance']
df_nouveau['Résumé'] = df_résum['Résumé']
df_nouveau['Sentiment_Global'] = df_sentim['Sentiment']

df_nouveau

# Pour la réalisation du dashboard...

In [None]:
import pandas as pd
#df_liens.to_csv('Liens_2025.csv', index=False)
df_liens = pd.read_csv ( 'Liens_2025.csv' , sep = '\t' , encoding = 'latin1' , dtype = 'str' )

df_liens

In [None]:
### Pour transformer df_liens en liste
URLS = df_liens [ 'Liens' ].tolist()

### # Pour la sélection des fichiers gkg
LINKS = [ url for url in URLS if url.endswith( 'translation.gkg.csv.zip' ) ]
for u in LINKS :
    print (u)

In [None]:
import pandas as pd
import requests
import os
from tqdm import tqdm
import zipfile

OUTPUT_DIR = 'DATA_GKG'    # Répertoire de sortie pour les fichiers téléchargés


# Télécharger et extraire les fichiers gkg pour une période donnée
def download_and_extract(links, output_dir):
    for link in tqdm(links[808 : ], desc="Téléchargement des fichiers GDELT"):
        file_name = link.split("/")[-1]
#        output_path = os.path.join(output_dir, file_name)

        # Vérifier si le fichier existe déjà pour éviter de le retélécharger
        if not os.path.exists(file_name):
            response = requests.get(link, stream=True)
            if response.status_code == 200:
                with open(file_name, 'wb') as f:
                    f.write(response.content)
            else:
                print(f"Erreur de téléchargement pour {link}")
                continue

        # Décompression du fichier ZIP
        # Vérifier si c'est bien un fichier ZIP
        if zipfile.is_zipfile(file_name):
            print("Le fichier est un ZIP valide.")
            with zipfile.ZipFile(file_name, 'r') as zip_ref:
                zip_ref.extractall(output_dir)
                print("Extraction réussie !")
        else:
            print("Erreur : Le fichier n'est pas un ZIP valide.")
            continue 
            
        os.remove(file_name)  # Supprimer le fichier ZIP après extraction pour économiser l'espace


download_and_extract( LINKS , OUTPUT_DIR)

print ( OUTPUT_DIR )
             

In [None]:
import os
from tqdm import tqdm
import pandas as pd



OUTPUT_DIR = 'DATA_GKG' 



# Filtrer les données par pays
def filter_events_by_country(output_dir):
    all_data = []
    for file in tqdm(os.listdir(output_dir), desc="Filtrage des fichiers CSV"):
        file_path = os.path.join(output_dir, file)
        try:
            # Lecture des données CSV en utilisant des chunks pour traiter des fichiers volumineux
            for chunk in pd.read_csv(file_path, sep='\t', chunksize=10, header=None, encoding='latin1', dtype=str):
                # La colonne 53 correspond aux évènements du Bénin 
                filtered_chunk = chunk[chunk.iloc[:, 10].str.contains(r"1#Benin#BN#BN##9.5#2.25#BN#", na=False)]
                all_data.append(filtered_chunk)
        except Exception as e:
            print(f"Erreur lors de la lecture de {file}: {e}")
    # Combiner toutes les données filtrées en un seul DataFrame
    return pd.concat(all_data, ignore_index=True)

benin_data = filter_events_by_country(OUTPUT_DIR)

In [None]:
FINAL_DATASET = 'Benin_dataset_gkg.csv'  # Nom du fichier final


# Étape 5 : enregistrer le dataset final en csv
def save_final_dataset(dataframe, output_file):
    dataframe.to_csv(output_file, index=False)
    print(f" Dataset final enregistré sous {output_file}")

save_final_dataset(benin_data, FINAL_DATASET)


In [None]:
import pandas as pd
df_1 = pd.read_csv( 'Benin_dataset_gkg.csv', sep = ',' , encoding = 'latin1' , dtype = 'str' )
df_1

In [None]:
df_1.columns = [
    "GKGRECORDID", "DATE", "SourceCollectionIdentifier", "SourceCommonName",
    "DocumentIdentifier", "Counts", "V2Counts", "Themes", "V2Themes", "Locations",
    "V2Locations", "Persons", "V2Persons", "Organizations", "V2Organizations",
    "V2Tone", "Dates", "GCAM", "SharingImage", "RelatedImages", "SocialImageEmbeds",
    "SocialVideoEmbeds", "Quotations", "AllNames", "Amounts", "TranslationInfo", "Extras"
]

df_1

In [None]:
df_2 = pd.DataFrame(columns=[
    'Identifiant_Unique' , 'Site_Source' , 'Thèmes' ,
    'Lieux' , 'Organisations' 
])

df_2['Identifiant_Unique'] = df_1["GKGRECORDID"]
df_2['Site_Source'] = df_1["SourceCommonName"]
df_2['Thèmes'] = df_1["V2Themes"]
df_2['Lieux'] = df_1["V2Locations"]
df_2['Organisations'] = df_1["V2Organizations"]

df_2

In [None]:
print(len(df_2['Thèmes']) )
print(df_2['Thèmes'].str.split().str.len().sum() )
print(df_2['Organisations'].str.split().str.len().sum() )

In [None]:
df_2.info()

In [None]:
df_2.describe()

In [None]:
# Vérifié s'il y a les lignes répétées
df_2.duplicated().sum()

In [None]:
# Nombre de valeurs manquantes 
df_2.isna().sum()

In [None]:
df_2.dropna( inplace=True ) 
df_2

In [None]:
# Nombre de valeurs manquantes 
df_2.isna().sum()

In [None]:
df_2.to_csv('Thèmes_Org.csv' , index=True )

In [None]:
### Ce code sert à extraire, compter et afficher les thèmes les plus fréquents 

from collections import Counter

# Extraire toutes les listes de thèmes et les concatène dans une grande liste unique graâce à .sum() 
all_themes = df_2["Thèmes"].str.split(';').sum()

# Compter les occurrences
theme_counts = Counter(all_themes)

# Cette ligne trie tous les thèmes par nombre d’occurrences, du plus au moins fréquent, et stocke le résultat dans une liste de tuples 
top_themes = theme_counts.most_common()

# Affichage
for theme, count in top_themes:
    if count >= 5 :
        print(f"{theme}: {count}")    ### Afficher les thèmes qui sont apparus au moins 5 fois (thèmes fréquents)
        
# Créer une liste avec les thèmes ayant au moins 5 occurrences
frequent_themes = [theme for theme, count in top_themes if count >= 5]

# Affichage de la liste
print(frequent_themes)

In [None]:
import pandas as pd
from wordcloud import WordCloud
import matplotlib.pyplot as plt


# Générer le nuage de mots
text = " ".join(frequent_themes)
wordcloud = WordCloud(width=1200, height=800, background_color='white').generate(text)

# Affichage
plt.figure(figsize=(15, 10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.title("Thèmes dominants dans les articles liés au Bénin", fontsize=20)
plt.show()

In [None]:
### Ce code sert à extraire, compter et afficher les organisations les plus fréquentes 
from collections import Counter
import matplotlib.pyplot as plt

# Fonction pour extraire uniquement les noms d’organisations (sans les IDs numériques)
def extract_organization_names(org_series):
    org_names = []
    for row in org_series :
        items = row.split(';')  # Séparateur entre les organisations
        for item in items:
            parts = item.split(',')  # Séparation entre nom et identifiant
            if parts:
                org_names.append(parts[0].strip())
    return org_names

# Extraction depuis le DataFrame df_2
all_org = extract_organization_names(df_2["Organisations"])

# Compter les occurrences
org_counts = Counter(all_org)

# Cette ligne Sélectionne le top 15 des organisations les plus fréquentes  
top_n = 15
top_org = org_counts.most_common(top_n)

labels = [org for org, count in top_org ]
values = [count for org, count in top_org ]


In [None]:
#  Diagramme circulaire des organisations les plus fréquentes
plt.figure(figsize=(8, 8))
plt.pie(values, labels=labels, autopct='%1.1f%%', startangle=180)
plt.title(f"Top {top_n} des organisations les plus citées dans les articles sur le Bénin", fontsize=14)
plt.axis('equal')
plt.tight_layout()
plt.show()