In [9]:
import pandas as pd
import numpy as np
import os

# Problem statement

A lot of articles coming from the same source adopt the same structure and have the same keywords. This makes clustering algorithms focus on the title's structure instead of the content. This is a problem because the content is what we want to cluster, not the structure.

```
Cluster 459 (61 articles, from 2022-02-11 00:00:00 to 2024-02-08 00:00:00, duration: 727 days 00:00:00)
  Carcassonne - Richard Anconina au théâtre Jean-Alary : "Je me voyais mal parler fort sur scène devant des gens"
  Carcassonne : des poids lourds de l'équipement viticole à Bezons
  Carcassonne : quand la campagne de don de sang se drape de gastronomie et de gourmandise
  Carcassonne : Nicolas Dupont-Aignan en visite ce vendredi sur le thème du tourisme
  Carcassonne : les commerçants des halles associés aux viticulteurs, pour une nocturne festive
```

Same with Mimizan and Rodez, Narbonne, Lunel, Lézignan-Corbières

```
Cluster 488 (12 articles, from 2022-02-11 00:00:00 to 2023-11-17 00:00:00, duration: 644 days 00:00:00)
  Mimizan : un baptême en montgolfière pour fêter ses 100 ans
  Ecomusée de Marquèze dans les Landes : onze sports mis à l’honneur dans une exposition
  Mimizan : les activités et les finances de l’Office intercommunal de tourisme en débat au Conseil communautaire
  Mimizan : le club de plongée Cap 40 va fêter ses 15 ans samedi 18 juin
  Mimizan : retour des fêtes du 23 au 27 août

Cluster 340 (110 articles, from 2022-02-11 00:00:00 to 2024-02-10 00:00:00, duration: 729 days 00:00:00)
  Rodez : un nouveau local pour les Meubles solidaires
  Rodez : un "convoi de la liberté" s'improvise sur l'avenue Victor-Hugo
  Rodez : la mue du parc commercial des Moutiers (2/3) - Rouergue Saveurs déménage  à L’Éphémère
  Rodez : Yoann Sicard, en rando autour du monde
  Rodez : un centre de formation pour devenir prothésiste ongulaire
 

Cluster 382 (115 articles, from 2022-02-11 00:00:00 to 2024-02-10 00:00:00, duration: 729 days 00:00:00)
  Grand Narbonne : Cinq piliers pour mettre le cap sur 2030
  Narbonne : au Radio club amateur, la crise du bénévolat "c'est comme internet, on ne peut pas aller contre !"
  Une plateforme dédiée au logement pour fonctionnaires voit le jour à Narbonne
  Narbonne : contre le sexisme et pour les droits des femmes, elles ne baissent pas les armes
  Narbonne : mobilisation pour la Journée internationale des droits des femmes
  
  
Cluster 640 (39 articles, from 2022-02-11 00:00:00 to 2024-02-06 00:00:00, duration: 725 days 00:00:00)
  Les cartels de la feria de Céret
  Lunel : les réalisateurs Yohan Manca et Stéphane Brizé invités d’honneur de Traversées en avril
  A Lunel, La Manufacture, nouveau quartier au-delà de la gare, verra le jour fin 2023
  Lunel : une 38e édition du festival Traversées entre social et soleil
  A Lunel, le 5e Prix international de la reliure d’art révèle de véritables talents

Cluster 21 (94 articles, from 2022-02-11 00:00:00 to 2023-12-05 00:00:00, duration: 662 days 00:00:00)
  Lézignan-Corbières : Sophie Courrière-Calmon en route vers les législatives
  Lézignan-Corbières : la cantine de Joseph-Anglade relève le "défi locavore"
  FCL à Lézignan-Corbières : un derby au sommet sur fond d’entente cordiale
  Lézignan-Corbières : une sortie de résidence à l’Espace culturel des Corbières
  Lézignan-Corbières : mobilisation pour l'Ukraine
```

### Not events

```
Cluster 371 (12 articles, from 2022-03-17 00:00:00 to 2023-11-03 00:00:00, duration: 596 days 00:00:00)
  En images : notre sélection de trench-coat féminins
  En images : notre sélection de vestes kimono
  En images : notre sélection de blazers de rentrée
  En images : notre sélection de bérets pour femmes
  En images : notre sélection de bûches de Noël
```

```
Cluster 659 (25 articles, from 2022-03-16 00:00:00 to 2023-10-29 00:00:00, duration: 592 days 00:00:00)
  Photos. Remiremont : 5 500 cartes électorales mises sous pli par les élus du conseil municipal
  Photos. Remiremont : conférences et hommage à Poncelet au programme de la Ve Cohorte Napoléonienne
  Photos. Du soleil, de l'ambiance mais pas de vainqueur pour le match de foot entre Dommartin-lès-Remiremont et Ramonchamp
  Photos. Remiremont : le quartier de Rhumont se soulève contre la flambée des charges locatives
  Photos. Dommartin-lès-Remiremont: : les tracteurs à pédales créent une folle ambiance
```

```
Cluster 455 (15 articles, from 2022-03-14 00:00:00 to 2023-08-26 00:00:00, duration: 530 days 00:00:00)
  Savez-vous que…? . Le Facteur Cheval a eu l’idée de construire son Palais idéal après avoir buté sur une pierre
  Le « savez-vous » du jour. Savez-vous quel est le seul empereur né à Nancy - et qui a eu un sacré rôle dans l’histoire lorraine ?
  Le savez-vous du jour/Athlétisme. Savez-vous quel ancien perchiste de l’ES Thaon a participé aux Interclubs de N1B sous les couleurs de l’AVEC ?
  Le savez-vous ?. Quel est le nom du créateur de ce logo ?
  Le savez-vous du jour. Savez-vous qui a donné son nom au Maggi ?
```

```
Cluster 246 (12 articles, from 2022-03-12 00:00:00 to 2023-03-13 00:00:00, duration: 366 days 00:00:00)
  Questions à. « Des équipes qu’il faut convaincre »
  Questions à. « La Normandie nous a contactés pour que nous fassions un réseau »
  Questions à | Montbenoît. « Je ne souhaitais pas y aller, mais j’accepte avec joie »
  Questions à. « Nous sommes les catalyseurs du tourisme »
  Questions à. « Je veux passer en bio, ça me tient à cœur ! »
```

```
Cluster 102 (70 articles, from 2022-02-20 00:00:00 to 2023-04-25 00:00:00, duration: 429 days 00:00:00)
  Prévisions. Vents violents et pluie : votre météo de ce lundi en Lorraine et en Franche-Comté
  Prévisions. Journée ensoleillée et températures fraiches : la météo de ce dimanche en Lorraine
  Prévisions. Du soleil et moins de bise : votre météo de ce mardi 8 février en Lorraine et en Franche-Comté
  Prévisions. Nuages et douceur printanière ce lundi : votre météo du 14 mars 2022 en Lorraine
  Prévisions. Grisaille ce jeudi : votre météo du 17 mars en Lorraine
```

```
Cluster 3 (34 articles, from 2022-02-20 00:00:00 to 2024-02-12 00:00:00, duration: 722 days 00:00:00)
  Météo, prévisions en Normandie pour le dimanche 20 février
  Météo, prévisions en Normandie pour le lundi 7 mars
  Météo, prévisions en Normandie pour le dimanche 3 avril
  Météo, prévisions en Normandie pour le dimanche 10 avril
  Météo, prévisions pour le mardi 19 avril en Normandie
```

```
Cluster 459 (61 articles, from 2022-02-11 00:00:00 to 2024-02-08 00:00:00, duration: 727 days 00:00:00)
  Carcassonne - Richard Anconina au théâtre Jean-Alary : "Je me voyais mal parler fort sur scène devant des gens"
  Carcassonne : des poids lourds de l'équipement viticole à Bezons
  Carcassonne : quand la campagne de don de sang se drape de gastronomie et de gourmandise
  Carcassonne : Nicolas Dupont-Aignan en visite ce vendredi sur le thème du tourisme
  Carcassonne : les commerçants des halles associés aux viticulteurs, pour une nocturne festive
```

Same with Mimizan and Rodez, Narbonne, Lunel, Lézignan-Corbières

```
Cluster 488 (12 articles, from 2022-02-11 00:00:00 to 2023-11-17 00:00:00, duration: 644 days 00:00:00)
  Mimizan : un baptême en montgolfière pour fêter ses 100 ans
  Ecomusée de Marquèze dans les Landes : onze sports mis à l’honneur dans une exposition
  Mimizan : les activités et les finances de l’Office intercommunal de tourisme en débat au Conseil communautaire
  Mimizan : le club de plongée Cap 40 va fêter ses 15 ans samedi 18 juin
  Mimizan : retour des fêtes du 23 au 27 août

Cluster 340 (110 articles, from 2022-02-11 00:00:00 to 2024-02-10 00:00:00, duration: 729 days 00:00:00)
  Rodez : un nouveau local pour les Meubles solidaires
  Rodez : un "convoi de la liberté" s'improvise sur l'avenue Victor-Hugo
  Rodez : la mue du parc commercial des Moutiers (2/3) - Rouergue Saveurs déménage  à L’Éphémère
  Rodez : Yoann Sicard, en rando autour du monde
  Rodez : un centre de formation pour devenir prothésiste ongulaire
 

Cluster 382 (115 articles, from 2022-02-11 00:00:00 to 2024-02-10 00:00:00, duration: 729 days 00:00:00)
  Grand Narbonne : Cinq piliers pour mettre le cap sur 2030
  Narbonne : au Radio club amateur, la crise du bénévolat "c'est comme internet, on ne peut pas aller contre !"
  Une plateforme dédiée au logement pour fonctionnaires voit le jour à Narbonne
  Narbonne : contre le sexisme et pour les droits des femmes, elles ne baissent pas les armes
  Narbonne : mobilisation pour la Journée internationale des droits des femmes
  
  
Cluster 640 (39 articles, from 2022-02-11 00:00:00 to 2024-02-06 00:00:00, duration: 725 days 00:00:00)
  Les cartels de la feria de Céret
  Lunel : les réalisateurs Yohan Manca et Stéphane Brizé invités d’honneur de Traversées en avril
  A Lunel, La Manufacture, nouveau quartier au-delà de la gare, verra le jour fin 2023
  Lunel : une 38e édition du festival Traversées entre social et soleil
  A Lunel, le 5e Prix international de la reliure d’art révèle de véritables talents

Cluster 21 (94 articles, from 2022-02-11 00:00:00 to 2023-12-05 00:00:00, duration: 662 days 00:00:00)
  Lézignan-Corbières : Sophie Courrière-Calmon en route vers les législatives
  Lézignan-Corbières : la cantine de Joseph-Anglade relève le "défi locavore"
  FCL à Lézignan-Corbières : un derby au sommet sur fond d’entente cordiale
  Lézignan-Corbières : une sortie de résidence à l’Espace culturel des Corbières
  Lézignan-Corbières : mobilisation pour l'Ukraine
```

### Not events

```
Cluster 371 (12 articles, from 2022-03-17 00:00:00 to 2023-11-03 00:00:00, duration: 596 days 00:00:00)
  En images : notre sélection de trench-coat féminins
  En images : notre sélection de vestes kimono
  En images : notre sélection de blazers de rentrée
  En images : notre sélection de bérets pour femmes
  En images : notre sélection de bûches de Noël
```

```
Cluster 659 (25 articles, from 2022-03-16 00:00:00 to 2023-10-29 00:00:00, duration: 592 days 00:00:00)
  Photos. Remiremont : 5 500 cartes électorales mises sous pli par les élus du conseil municipal
  Photos. Remiremont : conférences et hommage à Poncelet au programme de la Ve Cohorte Napoléonienne
  Photos. Du soleil, de l'ambiance mais pas de vainqueur pour le match de foot entre Dommartin-lès-Remiremont et Ramonchamp
  Photos. Remiremont : le quartier de Rhumont se soulève contre la flambée des charges locatives
  Photos. Dommartin-lès-Remiremont: : les tracteurs à pédales créent une folle ambiance
```

```
Cluster 455 (15 articles, from 2022-03-14 00:00:00 to 2023-08-26 00:00:00, duration: 530 days 00:00:00)
  Savez-vous que…? . Le Facteur Cheval a eu l’idée de construire son Palais idéal après avoir buté sur une pierre
  Le « savez-vous » du jour. Savez-vous quel est le seul empereur né à Nancy - et qui a eu un sacré rôle dans l’histoire lorraine ?
  Le savez-vous du jour/Athlétisme. Savez-vous quel ancien perchiste de l’ES Thaon a participé aux Interclubs de N1B sous les couleurs de l’AVEC ?
  Le savez-vous ?. Quel est le nom du créateur de ce logo ?
  Le savez-vous du jour. Savez-vous qui a donné son nom au Maggi ?
```

```
Cluster 246 (12 articles, from 2022-03-12 00:00:00 to 2023-03-13 00:00:00, duration: 366 days 00:00:00)
  Questions à. « Des équipes qu’il faut convaincre »
  Questions à. « La Normandie nous a contactés pour que nous fassions un réseau »
  Questions à | Montbenoît. « Je ne souhaitais pas y aller, mais j’accepte avec joie »
  Questions à. « Nous sommes les catalyseurs du tourisme »
  Questions à. « Je veux passer en bio, ça me tient à cœur ! »
```

```
Cluster 102 (70 articles, from 2022-02-20 00:00:00 to 2023-04-25 00:00:00, duration: 429 days 00:00:00)
  Prévisions. Vents violents et pluie : votre météo de ce lundi en Lorraine et en Franche-Comté
  Prévisions. Journée ensoleillée et températures fraiches : la météo de ce dimanche en Lorraine
  Prévisions. Du soleil et moins de bise : votre météo de ce mardi 8 février en Lorraine et en Franche-Comté
  Prévisions. Nuages et douceur printanière ce lundi : votre météo du 14 mars 2022 en Lorraine
  Prévisions. Grisaille ce jeudi : votre météo du 17 mars en Lorraine
```

```
Cluster 3 (34 articles, from 2022-02-20 00:00:00 to 2024-02-12 00:00:00, duration: 722 days 00:00:00)
  Météo, prévisions en Normandie pour le dimanche 20 février
  Météo, prévisions en Normandie pour le lundi 7 mars
  Météo, prévisions en Normandie pour le dimanche 3 avril
  Météo, prévisions en Normandie pour le dimanche 10 avril
  Météo, prévisions pour le mardi 19 avril en Normandie
```

We want to identify common prefixes

# Loading

In [10]:

DATA_FILE="newspapers_filtered_2024-04-30_18-17-52.jsonl"

from json import loads

data = [
    loads(line)
    for line in open(DATA_FILE, "r", encoding="utf-8").readlines()
]

print(f"Loaded {len(data)} records")

df = pd.DataFrame(data)

df["date"] = pd.to_datetime(df["date"])


Loaded 84593 records


In [11]:
EMBEDDINGS_FILE = f"{DATA_FILE}_embeddings.npy"

embeddings = np.load(EMBEDDINGS_FILE)

df["embedding"] = [e for e in embeddings]

print(f"Loaded {len(embeddings)} embeddings")

Loaded 84593 embeddings


In [12]:
df.iloc[0]

title             International de Sète : la pétanque, une affai...
text              L'international de pétanque de Sète, avait lie...
date                                            2022-03-07 00:00:00
article_id                                                  2047761
article_url       https://france3-regions.francetvinfo.fr/occitanie
article_domain                      france3-regions.francetvinfo.fr
embedding         [-0.02630615234375, 0.0106658935546875, 0.0487...
Name: 0, dtype: object

# HDBSCAN

In [14]:
import hdbscan

MIN_CLUSTER_SIZE = 10

## Dimension reduction using UMAP

In [15]:
from umap import UMAP

# Specify the desired number of dimensions (K)
K = MIN_CLUSTER_SIZE

# Create a UMAP object with the specified number of dimensions
umap_reducer = UMAP(n_components=K, random_state=42)

# Fit and transform the embeddings to reduce dimensionality
umap_embeddings = umap_reducer.fit_transform(df['embedding'].tolist())

# Set the reduced embeddings as a list to each row in the DataFrame
df[f'umap_embedding{K}'] = umap_embeddings.tolist()

  warn(f"n_jobs value {self.n_jobs} overridden to 1 by setting random_state. Use no seed for parallelism.")


### Set features column

In [16]:
# Combine the UMAP embedding and date feature
df['combined_features'] = df.apply(lambda row: row[f'umap_embedding{K}'], axis=1)

### Perform HDBSCAN clustering

In [17]:
model = hdbscan.HDBSCAN(min_cluster_size=MIN_CLUSTER_SIZE, metric='euclidean', cluster_selection_method='eom')
labels = model.fit_predict(df['combined_features'].tolist())
df['cluster'] = labels

In [60]:
# a lot of articles have the same prefix. This induces biais in the embedding. We would like to detect the common prefixes of articles. For each cluster, take the K first titles, and find the length of the common prefix. if the common prefix is longer than 5 characters, write the common prexif to the console

K = 5

prefixes = dict()

for cluster in df['cluster'].unique()[1:]:
    #TODO : Get the K first titles of the cluster
    titles = df[df['cluster'] == cluster].sort_values("date")
    titles = titles['title'].head(K)

    # Find the common prefix
    common_prefix = os.path.commonprefix([title.lower() for title in titles])

    # If the common prefix is longer than 5 characters, write it to the console
    if len(common_prefix) > 5:
        print(f"Cluster {cluster}")
        print(f"Common prefix : {common_prefix}")

        # count the number of times the prefix appears
        count = len(df[df['title'].str.lower().str.startswith(common_prefix)])
        print(f"Count : {count}")
        if common_prefix not in prefixes:
            prefixes[common_prefix] = count


Cluster 42
Common prefix : hockey sur glace
Count : 110
Cluster 0
Common prefix : la météo à 
Count : 260
Cluster 183
Common prefix : football
Count : 1430
Cluster 630
Common prefix : météo en bretagne
Count : 36
Cluster 216
Common prefix : football
Count : 1430
Cluster 97
Common prefix : l'essentiel d
Count : 54
Cluster 155
Common prefix : football
Count : 1430
Cluster 13
Common prefix : les prévisions météo france 3 nouvelle
Count : 28
Cluster 379
Common prefix : genlis. 
Count : 37
Cluster 60
Common prefix : saint-pée-sur-nivelle : 
Count : 18
Cluster 228
Common prefix : football
Count : 1430
Cluster 331
Common prefix : beaune. 
Count : 137
Cluster 260
Common prefix : saint-palais : 
Count : 27
Cluster 589
Common prefix : barbezieux
Count : 50
Cluster 6
Common prefix : lorraine. 
Count : 292
Cluster 44
Common prefix : nolay. 
Count : 20
Cluster 217
Common prefix : andernos-les-bains : 
Count : 33
Cluster 685
Common prefix : photos. 
Count : 756
Cluster 333
Common prefix : arnay-le-d

In [61]:
prefixes

{'hockey sur glace': 110,
 'la météo à ': 260,
 'football': 1430,
 'météo en bretagne': 36,
 "l'essentiel d": 54,
 'les prévisions météo france 3 nouvelle': 28,
 'genlis. ': 37,
 'saint-pée-sur-nivelle\xa0: ': 18,
 'beaune. ': 137,
 'saint-palais\xa0: ': 27,
 'barbezieux': 50,
 'lorraine. ': 292,
 'nolay. ': 20,
 'andernos-les-bains\xa0: ': 33,
 'photos. ': 756,
 'arnay-le-duc. ': 22,
 'mazerolles\xa0: ': 21,
 'rodez : ': 108,
 'villeneuve-sur-lot\xa0: ': 29,
 'bligny-sur-ouche. ': 24,
 'basket-ball': 326,
 'le puy-en-velay. ': 38,
 'semur-en-auxois. ': 66,
 'vosges': 1165,
 'vosges. ': 1143,
 'saint-georges-de-didonne\xa0: ': 26,
 'insolite': 147,
 'gevrey-chambertin. ': 21,
 'châteaubernard': 32,
 'isère - le débat de la semaine. ': 20,
 'athlétisme': 133,
 'les 5 infos business à retenir ce ': 14,
 'basket/': 50,
 'dordogne': 279,
 'champagne-mouton\xa0: ': 21,
 'pouilly-en-auxois. ': 23,
 'la matinale. ': 58,
 'voiron. ': 61,
 'météo, prévisions ': 27,
 'l’éditorial. ': 7,
 'loire/

In [63]:
sum(prefixes.values())

15944

# Remove rows with common prefixes

In [64]:
# Remove rows with common prefixes

filtered = df

for prefix in prefixes.keys():
    filtered = filtered[~filtered['title'].str.startswith(prefix)]

# >number of rows removed

len(df) - len(filtered)

23

In [67]:
# Save the filtered data to a new file

from json import dumps

df['date_str'] = df['date'].dt.strftime('%Y-%m-%d')
COLUMNS = ["title", "text",'date', "article_id", "article_url", "article_domain"]
FILTERED_DATA_FILE = f"{DATA_FILE.removesuffix('.jsonl')}_no_common_prefixes.jsonl"

# rename date_str to date
filtered = df.rename(columns={"date_str": "date"})

for prefix in prefixes.keys():
    filtered = filtered[~filtered['title'].str.lower().str.startswith(prefix)]


with open(FILTERED_DATA_FILE, "w", encoding="utf-8") as f:
    for item in filtered[COLUMNS].to_dict(orient="records"):
        f.write(dumps(item, ensure_ascii=False) + "\n")
    

print(f"Saved {len(filtered)} rows in {FILTERED_DATA_FILE}")


  for item in filtered[COLUMNS].to_dict(orient="records"):


Saved 70805 rows in newspapers_filtered_2024-04-30_18-17-52_no_common_prefixes.jsonl


In [68]:
# Re export embeddings

embeddings = np.array([item for item in filtered['embedding']])

assert len(embeddings) == len(filtered)

np.save(f'{FILTERED_DATA_FILE.removesuffix(".jsonl")}_embeddings.npy', embeddings)