In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("everydaycodings/global-news-dataset")

print("Path to dataset files:", path)

Using Colab cache for faster access to the 'global-news-dataset' dataset.
Path to dataset files: /kaggle/input/global-news-dataset


In [None]:
import pandas as pd
import numpy as np

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

/kaggle/input/global-news-dataset/rating.csv
/kaggle/input/global-news-dataset/data.csv
/kaggle/input/global-news-dataset/raw-data.csv


In [None]:
# --- Imports ---
import pandas as pd
import re
import spacy
from tqdm import tqdm

# Chargement du dataset brut 
raw_csv_path = "/kaggle/input/global-news-dataset/raw-data.csv"
raw_df = pd.read_csv(raw_csv_path)

print("Dataset chargé avec succès.")
print("Colonnes disponibles :", raw_df.columns)
print("Nombre total d'articles :", len(raw_df))

# Étape 1 : Nettoyage et normalisation du texte 
def clean_text(text):
    text = str(text).lower()                                   # conversion en minuscules
    text = re.sub(r"http\S+|www\S+|https\S+", '', text)        # suppression des URLs
    text = re.sub(r'\d+', '', text)                            # suppression des chiffres
    text = re.sub(r'[^\w\s]', '', text)                        # suppression de la ponctuation
    text = re.sub(r'\s+', ' ', text).strip()                   # normalisation des espaces
    return text

print("\nNettoyage du texte en cours...")
raw_df['cleaned_text'] = raw_df['content'].astype(str).apply(clean_text)
print("Nettoyage terminé.")

# Étape 2 : Chargement du modèle spaCy 
print("\nChargement du modèle spaCy (anglais)...")
nlp = spacy.load("en_core_web_sm", disable=["ner"])  # désactivation du NER pour accélérer
print("Modèle chargé.")

# Étape 3 : Tokenization, POS tagging et Lemmatization 
pos_list = []
lemmas_list = []

print("\nApplication du pipeline NLP sur l'ensemble du corpus...")
for doc in tqdm(nlp.pipe(raw_df['cleaned_text'].tolist(), batch_size=100, n_process=2)):
    tokens = [token.text for token in doc]
    pos_tags = [token.pos_ for token in doc]
    lemmas = [token.lemma_ for token in doc]
    tokens_list.append(tokens)
    pos_list.append(pos_tags)
    lemmas_list.append(lemmas)

#  Étape 4 : Ajout des résultats dans le DataFrame 
raw_df['tokens'] = tokens_list
raw_df['pos_tags'] = pos_list
raw_df['lemmas'] = lemmas_list

#  Étape 5 : Sauvegarde du dataset annoté 
output_path = "/content/global_news_preprocessed.csv"
raw_df.to_csv(output_path, index=False, encoding='utf-8')

print("\nPrétraitement terminé. Fichier sauvegardé avec succès.")
print(f"Chemin du fichier sauvegardé : {output_path}")
print("Aperçu du dataset final :")
print(raw_df[['content', 'cleaned_text', 'tokens', 'pos_tags', 'lemmas']].head(2))


  raw_df = pd.read_csv(raw_csv_path)


Dataset chargé avec succès.
Colonnes disponibles : Index(['article_id', 'source_id', 'source_name', 'author', 'title',
       'description', 'url', 'url_to_image', 'published_at', 'content',
       'category'],
      dtype='object')
Nombre total d'articles : 933257

Nettoyage du texte en cours...
Nettoyage terminé.

Chargement du modèle spaCy (anglais)...
Modèle chargé.

Application du pipeline NLP sur l'ensemble du corpus...


933257it [1:13:22, 211.99it/s]



Prétraitement terminé. Fichier sauvegardé avec succès.
Chemin du fichier sauvegardé : /content/global_news_preprocessed.csv
Aperçu du dataset final :
                                             content  \
0  LOS ANGELES, CA - JANUARY 09: Adam Neumann spe...   
1  This article was created in partnership with W...   

                                        cleaned_text  \
0  los angeles ca january adam neumann speaks ons...   
1  this article was created in partnership with w...   

                                              tokens  \
0  [los, angeles, ca, january, adam, neumann, spe...   
1  [this, article, was, created, in, partnership,...   

                                            pos_tags  \
0  [PROPN, PROPN, AUX, PROPN, PROPN, PROPN, VERB,...   
1  [DET, NOUN, AUX, VERB, ADP, NOUN, ADP, NOUN, P...   

                                              lemmas  
0  [los, angeles, can, january, adam, neumann, sp...  
1  [this, article, be, create, in, partnership, w...  


In [None]:
#  Étape 6 : Conversion du texte en TF-IDF

from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.sparse import save_npz

# Initialisation du vectorizer TF-IDF
tfidf = TfidfVectorizer(
    max_features=5000,       # limite du vocabulaire
    min_df=5,                # ignore mots apparaissant dans moins de 5 articles
    max_df=0.8,              # ignore mots apparaissant dans plus de 80 % des articles
    ngram_range=(1, 2),      # unigrams + bigrams
    stop_words='english'     # stopwords intégrées
)

print("\nConversion TF-IDF en cours...")
# Fit et transformation
tfidf_matrix = tfidf.fit_transform(raw_df['cleaned_text'])

# Sauvegarde de la matrice TF-IDF au format sparse (.npz)
tfidf_output_path = "/content/tfidf_matrix.npz"
save_npz(tfidf_output_path, tfidf_matrix)
print(f"TF-IDF généré et sauvegardé : {tfidf_output_path}")

# Sauvegarde du vocabulaire TF-IDF pour référence
vocab_path = "/content/tfidf_vocabulary.txt"
with open(vocab_path, "w") as f:
    for word in tfidf.get_feature_names_out():
        f.write(word + "\n")
print(f"Vocabulaire TF-IDF sauvegardé : {vocab_path}")

print("\nTF-IDF terminé. Dimensions : ", tfidf_matrix.shape)



Conversion TF-IDF en cours...
TF-IDF généré et sauvegardé : /content/tfidf_matrix.npz
Vocabulaire TF-IDF sauvegardé : /content/tfidf_vocabulary.txt

TF-IDF terminé. Dimensions :  (933257, 5000)


partie B


In [None]:
import pandas as pd
import spacy
from tqdm import tqdm
import os

#  Étape 1 : Chargement du dataset ===
preprocessed_path = "/content/global_news_preprocessed.csv"
df_preprocessed = pd.read_csv(preprocessed_path, low_memory=False)

print("Dataset prétraité chargé avec succès.")
print("Nombre total d'articles :", len(df_preprocessed))

#  Étape 2 : Chargement du modèle spaCy 
nlp_ner = spacy.load("en_core_web_sm")
print("Modèle spaCy avec NER chargé.")

#  Étape 3 : Fonction de traitement par lots 
def process_chunk(df_chunk, chunk_idx, save_dir="/content/ner_chunks"):
    os.makedirs(save_dir, exist_ok=True)
    entities_list = []

    print(f"\nTraitement du lot {chunk_idx} ({len(df_chunk)} articles)...")
    for doc in tqdm(
        nlp_ner.pipe(df_chunk['cleaned_text'].astype(str).tolist(),
                     batch_size=50, n_process=2),
        total=len(df_chunk)
    ):
        entities = [(ent.text, ent.label_) for ent in doc.ents]
        entities_list.append(entities)

    df_chunk['entities_spacy'] = entities_list

    # Sauvegarde du lot partiel
    chunk_path = os.path.join(save_dir, f"ner_chunk_{chunk_idx}.csv")
    df_chunk.to_csv(chunk_path, index=False, encoding='utf-8')
    print(f" Lot {chunk_idx} sauvegardé → {chunk_path}")

#  Étape 4 : Traitement en boucle 
chunk_size = 10000
num_chunks = len(df_preprocessed) // chunk_size + 1

for i in range(num_chunks):
    start = i * chunk_size
    end = min((i + 1) * chunk_size, len(df_preprocessed))
    df_chunk = df_preprocessed.iloc[start:end].copy()
    process_chunk(df_chunk, i)

print("\n Tous les lots ont été traités et sauvegardés dans /content/ner_chunks")

#  Étape 5 : Fusion finale 
merged_path = "/content/global_news_with_entities_full.csv"
all_chunks = [pd.read_csv(os.path.join("/content/ner_chunks", f))
              for f in os.listdir("/content/ner_chunks") if f.endswith(".csv")]
df_full = pd.concat(all_chunks, ignore_index=True)
df_full.to_csv(merged_path, index=False, encoding='utf-8')

print(f"\n Fusion terminée : {merged_path}")
print(f"Nombre total d’articles avec entités : {len(df_full)}")


Dataset prétraité chargé avec succès.
Nombre total d'articles : 933257
Modèle spaCy avec NER chargé.

Traitement du lot 0 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 162.37it/s]


✅ Lot 0 sauvegardé → /content/ner_chunks/ner_chunk_0.csv

Traitement du lot 1 (10000 articles)...


100%|██████████| 10000/10000 [00:59<00:00, 167.82it/s]


✅ Lot 1 sauvegardé → /content/ner_chunks/ner_chunk_1.csv

Traitement du lot 2 (10000 articles)...


100%|██████████| 10000/10000 [01:06<00:00, 151.13it/s]


✅ Lot 2 sauvegardé → /content/ner_chunks/ner_chunk_2.csv

Traitement du lot 3 (10000 articles)...


100%|██████████| 10000/10000 [01:07<00:00, 148.24it/s]


✅ Lot 3 sauvegardé → /content/ner_chunks/ner_chunk_3.csv

Traitement du lot 4 (10000 articles)...


100%|██████████| 10000/10000 [01:03<00:00, 158.62it/s]


✅ Lot 4 sauvegardé → /content/ner_chunks/ner_chunk_4.csv

Traitement du lot 5 (10000 articles)...


100%|██████████| 10000/10000 [01:05<00:00, 153.03it/s]


✅ Lot 5 sauvegardé → /content/ner_chunks/ner_chunk_5.csv

Traitement du lot 6 (10000 articles)...


100%|██████████| 10000/10000 [01:03<00:00, 157.19it/s]


✅ Lot 6 sauvegardé → /content/ner_chunks/ner_chunk_6.csv

Traitement du lot 7 (10000 articles)...


100%|██████████| 10000/10000 [01:05<00:00, 153.64it/s]


✅ Lot 7 sauvegardé → /content/ner_chunks/ner_chunk_7.csv

Traitement du lot 8 (10000 articles)...


100%|██████████| 10000/10000 [01:04<00:00, 155.32it/s]


✅ Lot 8 sauvegardé → /content/ner_chunks/ner_chunk_8.csv

Traitement du lot 9 (10000 articles)...


100%|██████████| 10000/10000 [01:03<00:00, 158.72it/s]


✅ Lot 9 sauvegardé → /content/ner_chunks/ner_chunk_9.csv

Traitement du lot 10 (10000 articles)...


100%|██████████| 10000/10000 [01:05<00:00, 151.83it/s]


✅ Lot 10 sauvegardé → /content/ner_chunks/ner_chunk_10.csv

Traitement du lot 11 (10000 articles)...


100%|██████████| 10000/10000 [01:04<00:00, 154.42it/s]


✅ Lot 11 sauvegardé → /content/ner_chunks/ner_chunk_11.csv

Traitement du lot 12 (10000 articles)...


100%|██████████| 10000/10000 [01:06<00:00, 150.80it/s]


✅ Lot 12 sauvegardé → /content/ner_chunks/ner_chunk_12.csv

Traitement du lot 13 (10000 articles)...


100%|██████████| 10000/10000 [00:40<00:00, 245.56it/s]


✅ Lot 13 sauvegardé → /content/ner_chunks/ner_chunk_13.csv

Traitement du lot 14 (10000 articles)...


100%|██████████| 10000/10000 [00:23<00:00, 419.20it/s]


✅ Lot 14 sauvegardé → /content/ner_chunks/ner_chunk_14.csv

Traitement du lot 15 (10000 articles)...


100%|██████████| 10000/10000 [00:24<00:00, 403.69it/s]


✅ Lot 15 sauvegardé → /content/ner_chunks/ner_chunk_15.csv

Traitement du lot 16 (10000 articles)...


100%|██████████| 10000/10000 [00:24<00:00, 400.85it/s]


✅ Lot 16 sauvegardé → /content/ner_chunks/ner_chunk_16.csv

Traitement du lot 17 (10000 articles)...


100%|██████████| 10000/10000 [00:25<00:00, 396.38it/s]


✅ Lot 17 sauvegardé → /content/ner_chunks/ner_chunk_17.csv

Traitement du lot 18 (10000 articles)...


100%|██████████| 10000/10000 [00:23<00:00, 430.21it/s]


✅ Lot 18 sauvegardé → /content/ner_chunks/ner_chunk_18.csv

Traitement du lot 19 (10000 articles)...


100%|██████████| 10000/10000 [00:25<00:00, 396.04it/s]


✅ Lot 19 sauvegardé → /content/ner_chunks/ner_chunk_19.csv

Traitement du lot 20 (10000 articles)...


100%|██████████| 10000/10000 [00:25<00:00, 391.58it/s]


✅ Lot 20 sauvegardé → /content/ner_chunks/ner_chunk_20.csv

Traitement du lot 21 (10000 articles)...


100%|██████████| 10000/10000 [00:24<00:00, 410.65it/s]


✅ Lot 21 sauvegardé → /content/ner_chunks/ner_chunk_21.csv

Traitement du lot 22 (10000 articles)...


100%|██████████| 10000/10000 [00:23<00:00, 433.92it/s]


✅ Lot 22 sauvegardé → /content/ner_chunks/ner_chunk_22.csv

Traitement du lot 23 (10000 articles)...


100%|██████████| 10000/10000 [00:24<00:00, 400.82it/s]


✅ Lot 23 sauvegardé → /content/ner_chunks/ner_chunk_23.csv

Traitement du lot 24 (10000 articles)...


100%|██████████| 10000/10000 [00:24<00:00, 411.32it/s]


✅ Lot 24 sauvegardé → /content/ner_chunks/ner_chunk_24.csv

Traitement du lot 25 (10000 articles)...


100%|██████████| 10000/10000 [00:22<00:00, 447.33it/s]


✅ Lot 25 sauvegardé → /content/ner_chunks/ner_chunk_25.csv

Traitement du lot 26 (10000 articles)...


100%|██████████| 10000/10000 [00:54<00:00, 182.60it/s]


✅ Lot 26 sauvegardé → /content/ner_chunks/ner_chunk_26.csv

Traitement du lot 27 (10000 articles)...


100%|██████████| 10000/10000 [01:04<00:00, 155.24it/s]


✅ Lot 27 sauvegardé → /content/ner_chunks/ner_chunk_27.csv

Traitement du lot 28 (10000 articles)...


100%|██████████| 10000/10000 [00:59<00:00, 167.10it/s]


✅ Lot 28 sauvegardé → /content/ner_chunks/ner_chunk_28.csv

Traitement du lot 29 (10000 articles)...


100%|██████████| 10000/10000 [00:59<00:00, 167.80it/s]


✅ Lot 29 sauvegardé → /content/ner_chunks/ner_chunk_29.csv

Traitement du lot 30 (10000 articles)...


100%|██████████| 10000/10000 [00:58<00:00, 170.05it/s]


✅ Lot 30 sauvegardé → /content/ner_chunks/ner_chunk_30.csv

Traitement du lot 31 (10000 articles)...


100%|██████████| 10000/10000 [00:59<00:00, 166.89it/s]


✅ Lot 31 sauvegardé → /content/ner_chunks/ner_chunk_31.csv

Traitement du lot 32 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 166.12it/s]


✅ Lot 32 sauvegardé → /content/ner_chunks/ner_chunk_32.csv

Traitement du lot 33 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 162.93it/s]


✅ Lot 33 sauvegardé → /content/ner_chunks/ner_chunk_33.csv

Traitement du lot 34 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.56it/s]


✅ Lot 34 sauvegardé → /content/ner_chunks/ner_chunk_34.csv

Traitement du lot 35 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 159.04it/s]


✅ Lot 35 sauvegardé → /content/ner_chunks/ner_chunk_35.csv

Traitement du lot 36 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 159.89it/s]


✅ Lot 36 sauvegardé → /content/ner_chunks/ner_chunk_36.csv

Traitement du lot 37 (10000 articles)...


100%|██████████| 10000/10000 [01:04<00:00, 155.72it/s]


✅ Lot 37 sauvegardé → /content/ner_chunks/ner_chunk_37.csv

Traitement du lot 38 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 163.92it/s]


✅ Lot 38 sauvegardé → /content/ner_chunks/ner_chunk_38.csv

Traitement du lot 39 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 161.49it/s]


✅ Lot 39 sauvegardé → /content/ner_chunks/ner_chunk_39.csv

Traitement du lot 40 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 160.01it/s]


✅ Lot 40 sauvegardé → /content/ner_chunks/ner_chunk_40.csv

Traitement du lot 41 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.36it/s]


✅ Lot 41 sauvegardé → /content/ner_chunks/ner_chunk_41.csv

Traitement du lot 42 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.10it/s]


✅ Lot 42 sauvegardé → /content/ner_chunks/ner_chunk_42.csv

Traitement du lot 43 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 162.40it/s]


✅ Lot 43 sauvegardé → /content/ner_chunks/ner_chunk_43.csv

Traitement du lot 44 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 163.73it/s]


✅ Lot 44 sauvegardé → /content/ner_chunks/ner_chunk_44.csv

Traitement du lot 45 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 165.22it/s]


✅ Lot 45 sauvegardé → /content/ner_chunks/ner_chunk_45.csv

Traitement du lot 46 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.05it/s]


✅ Lot 46 sauvegardé → /content/ner_chunks/ner_chunk_46.csv

Traitement du lot 47 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 165.83it/s]


✅ Lot 47 sauvegardé → /content/ner_chunks/ner_chunk_47.csv

Traitement du lot 48 (10000 articles)...


100%|██████████| 10000/10000 [01:03<00:00, 157.90it/s]


✅ Lot 48 sauvegardé → /content/ner_chunks/ner_chunk_48.csv

Traitement du lot 49 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 160.47it/s]


✅ Lot 49 sauvegardé → /content/ner_chunks/ner_chunk_49.csv

Traitement du lot 50 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 163.05it/s]


✅ Lot 50 sauvegardé → /content/ner_chunks/ner_chunk_50.csv

Traitement du lot 51 (10000 articles)...


100%|██████████| 10000/10000 [01:05<00:00, 153.06it/s]


✅ Lot 51 sauvegardé → /content/ner_chunks/ner_chunk_51.csv

Traitement du lot 52 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 161.20it/s]


✅ Lot 52 sauvegardé → /content/ner_chunks/ner_chunk_52.csv

Traitement du lot 53 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 165.96it/s]


✅ Lot 53 sauvegardé → /content/ner_chunks/ner_chunk_53.csv

Traitement du lot 54 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 165.15it/s]


✅ Lot 54 sauvegardé → /content/ner_chunks/ner_chunk_54.csv

Traitement du lot 55 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 166.21it/s]


✅ Lot 55 sauvegardé → /content/ner_chunks/ner_chunk_55.csv

Traitement du lot 56 (10000 articles)...


100%|██████████| 10000/10000 [00:59<00:00, 167.55it/s]


✅ Lot 56 sauvegardé → /content/ner_chunks/ner_chunk_56.csv

Traitement du lot 57 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 162.88it/s]


✅ Lot 57 sauvegardé → /content/ner_chunks/ner_chunk_57.csv

Traitement du lot 58 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 163.68it/s]


✅ Lot 58 sauvegardé → /content/ner_chunks/ner_chunk_58.csv

Traitement du lot 59 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 166.17it/s]


✅ Lot 59 sauvegardé → /content/ner_chunks/ner_chunk_59.csv

Traitement du lot 60 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.97it/s]


✅ Lot 60 sauvegardé → /content/ner_chunks/ner_chunk_60.csv

Traitement du lot 61 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 162.59it/s]


✅ Lot 61 sauvegardé → /content/ner_chunks/ner_chunk_61.csv

Traitement du lot 62 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 162.39it/s]


✅ Lot 62 sauvegardé → /content/ner_chunks/ner_chunk_62.csv

Traitement du lot 63 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 162.42it/s]


✅ Lot 63 sauvegardé → /content/ner_chunks/ner_chunk_63.csv

Traitement du lot 64 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 159.87it/s]


✅ Lot 64 sauvegardé → /content/ner_chunks/ner_chunk_64.csv

Traitement du lot 65 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.07it/s]


✅ Lot 65 sauvegardé → /content/ner_chunks/ner_chunk_65.csv

Traitement du lot 66 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.04it/s]


✅ Lot 66 sauvegardé → /content/ner_chunks/ner_chunk_66.csv

Traitement du lot 67 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 160.34it/s]


✅ Lot 67 sauvegardé → /content/ner_chunks/ner_chunk_67.csv

Traitement du lot 68 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 161.92it/s]


✅ Lot 68 sauvegardé → /content/ner_chunks/ner_chunk_68.csv

Traitement du lot 69 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.72it/s]


✅ Lot 69 sauvegardé → /content/ner_chunks/ner_chunk_69.csv

Traitement du lot 70 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 165.34it/s]


✅ Lot 70 sauvegardé → /content/ner_chunks/ner_chunk_70.csv

Traitement du lot 71 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.55it/s]


✅ Lot 71 sauvegardé → /content/ner_chunks/ner_chunk_71.csv

Traitement du lot 72 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 165.66it/s]


✅ Lot 72 sauvegardé → /content/ner_chunks/ner_chunk_72.csv

Traitement du lot 73 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 160.58it/s]


✅ Lot 73 sauvegardé → /content/ner_chunks/ner_chunk_73.csv

Traitement du lot 74 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 160.00it/s]


✅ Lot 74 sauvegardé → /content/ner_chunks/ner_chunk_74.csv

Traitement du lot 75 (10000 articles)...


100%|██████████| 10000/10000 [00:59<00:00, 166.67it/s]


✅ Lot 75 sauvegardé → /content/ner_chunks/ner_chunk_75.csv

Traitement du lot 76 (10000 articles)...


100%|██████████| 10000/10000 [01:03<00:00, 156.92it/s]


✅ Lot 76 sauvegardé → /content/ner_chunks/ner_chunk_76.csv

Traitement du lot 77 (10000 articles)...


100%|██████████| 10000/10000 [01:03<00:00, 158.44it/s]


✅ Lot 77 sauvegardé → /content/ner_chunks/ner_chunk_77.csv

Traitement du lot 78 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 158.82it/s]


✅ Lot 78 sauvegardé → /content/ner_chunks/ner_chunk_78.csv

Traitement du lot 79 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 161.46it/s]


✅ Lot 79 sauvegardé → /content/ner_chunks/ner_chunk_79.csv

Traitement du lot 80 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 163.48it/s]


✅ Lot 80 sauvegardé → /content/ner_chunks/ner_chunk_80.csv

Traitement du lot 81 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 162.69it/s]


✅ Lot 81 sauvegardé → /content/ner_chunks/ner_chunk_81.csv

Traitement du lot 82 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 162.68it/s]


✅ Lot 82 sauvegardé → /content/ner_chunks/ner_chunk_82.csv

Traitement du lot 83 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.22it/s]


✅ Lot 83 sauvegardé → /content/ner_chunks/ner_chunk_83.csv

Traitement du lot 84 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 162.57it/s]


✅ Lot 84 sauvegardé → /content/ner_chunks/ner_chunk_84.csv

Traitement du lot 85 (10000 articles)...


100%|██████████| 10000/10000 [01:03<00:00, 157.54it/s]


✅ Lot 85 sauvegardé → /content/ner_chunks/ner_chunk_85.csv

Traitement du lot 86 (10000 articles)...


100%|██████████| 10000/10000 [01:02<00:00, 161.10it/s]


✅ Lot 86 sauvegardé → /content/ner_chunks/ner_chunk_86.csv

Traitement du lot 87 (10000 articles)...


100%|██████████| 10000/10000 [01:01<00:00, 163.80it/s]


✅ Lot 87 sauvegardé → /content/ner_chunks/ner_chunk_87.csv

Traitement du lot 88 (10000 articles)...


100%|██████████| 10000/10000 [01:00<00:00, 164.73it/s]


✅ Lot 88 sauvegardé → /content/ner_chunks/ner_chunk_88.csv

Traitement du lot 89 (10000 articles)...


100%|██████████| 10000/10000 [00:59<00:00, 167.53it/s]


✅ Lot 89 sauvegardé → /content/ner_chunks/ner_chunk_89.csv

Traitement du lot 90 (10000 articles)...


100%|██████████| 10000/10000 [00:59<00:00, 167.96it/s]


✅ Lot 90 sauvegardé → /content/ner_chunks/ner_chunk_90.csv

Traitement du lot 91 (10000 articles)...


100%|██████████| 10000/10000 [00:59<00:00, 168.52it/s]


✅ Lot 91 sauvegardé → /content/ner_chunks/ner_chunk_91.csv

Traitement du lot 92 (10000 articles)...


100%|██████████| 10000/10000 [00:59<00:00, 166.74it/s]


✅ Lot 92 sauvegardé → /content/ner_chunks/ner_chunk_92.csv

Traitement du lot 93 (3257 articles)...


100%|██████████| 3257/3257 [00:20<00:00, 162.07it/s]


✅ Lot 93 sauvegardé → /content/ner_chunks/ner_chunk_93.csv

✅ Tous les lots ont été traités et sauvegardés dans /content/ner_chunks

✅ Fusion terminée : /content/global_news_with_entities_full.csv
Nombre total d’articles avec entités : 933257
