In [11]:
from random import sample
from itertools import chain

from colour import Color
import numpy as np
from tqdm.auto import tqdm
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_distances as pairwise_cos_dist


class avance():
    
    def __init__(self, liste_txt : list[str], NB_PIVOTS : int = 50) -> None:
        self.liste_txt = liste_txt
        self.NB_PIVOTS = NB_PIVOTS
        
        tqdm.write("\nDédoublonage avancé")
        
        with tqdm(total=2, desc = "Calcul des vecteurs BoW") as pbar:
            docspivots = sample(list(enumerate(liste_txt)), NB_PIVOTS)
            textespivots = {e for _, e in docspivots}
            #On crée les vecteurs pour les textes (coordonnée n = occurences du mot de position n dans la liste de vocabulaire)
            vocab = set(' '.join(textespivots).lower().split())
            vectorizer = TfidfVectorizer(stop_words = ("english"), vocabulary = vocab)
            pbar.update()
            tf = vectorizer.fit_transform(liste_txt)
            pbar.update()
            self.arrtf = tf.toarray()
            self.pivots = docspivots


            

    def process(self, taillegroupe : int = 1000, sensibilite : float = 0.00001) -> None:
        index_doublons , liste_doublons= [], []
        liste_txt = self.liste_txt
        self.taillegroupe = taillegroupe
        avg = np.mean([len(e) for e in liste_txt])
        #On sépare les textes en groupes de même taille, en fonction de leur longueur
        from operator import itemgetter
        tupliste = [(txt, i) for i, txt in enumerate(liste_txt)]
        tupliste = sorted(tupliste, key=lambda tupliste: len(tupliste))

        print(tupliste)
        nbgroupes = 1 + (len(liste_txt) // taillegroupe)
        groupes = [liste_txt[i*taillegroupe:(i+1)*taillegroupe] for i in range(nbgroupes)]

        colors = [Color("blue")] +list(Color("blue").range_to(Color("green"),nbgroupes))
        
        manualpbar = tqdm(groupes, desc="Calcul des vecteurs seconds / supression")
        for i, groupe in enumerate(manualpbar):
            manualpbar.colour = colors[i].hex_l
            #Array de tous les vecteurs 2, un texte par ligne comparé a chaque pivot par colonne
            vect1_pivot = np.array([self.arrtf [i] * (avg / len(e)) for i, e in self.pivots], dtype = np.half)
            vect1_non_pivot = np.array([self.arrtf [i] * (avg / len(e)) for i, e in enumerate(groupe)], dtype = np.half)
            array_vecteurs = pairwise_cos_dist(vect1_non_pivot, vect1_pivot)
            del vect1_non_pivot, vect1_pivot

            #Matrice de la distance cosinus entre chaque texte du corpus, chaque intersection [x,y] donnant
            #la distance entre les textes de rang x et y
            matrice_cosine = pairwise_cos_dist(array_vecteurs)
            del array_vecteurs

            #Permet de faire abstraction de la distance nulle du texte n avec lui-même et ne pas le remonter comme doublon
            for i in range(np.shape(matrice_cosine)[0]): 
                matrice_cosine[i,i] = 1
            #Liste de toutes les distances faibles --> Doublons
            lst_doublons = np.transpose(np.nonzero(matrice_cosine < sensibilite)).tolist()

            del matrice_cosine

            for e in lst_doublons:
                lst_doublons.remove([e[1], e[0]])

            #Nous permet de supprimer directement les doublons par l'index vu que l'élement reste a sa place (seuls ceux qui suivent ont étés supprimés)
            doublons = sorted([e[1] for e in lst_doublons], reverse = True) 
            del lst_doublons

            for db in doublons:
                index_doublons.append(indices[(taillegroupe * i) + db])
                liste_doublons.append(groupe.pop(db))

            del doublons

        self.liste_propre = list(chain.from_iterable(groupes))
        self.index_doublons = index_doublons
        self.liste_doublons = liste_doublons
        tqdm.write(f"Dédoublonage avancé : Il reste désormais {len(liste_txt)} articles.")

In [14]:
from random import sample
from itertools import chain

from colour import Color
import numpy as np
from tqdm.auto import tqdm
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_distances as pairwise_cos_dist


class avance():
    
    def __init__(self, liste_txt : list[str], taillegroupe : int = 1000, NB_PIVOTS : int = 50) -> None:
        self.liste_txt = liste_txt
        self.taillegroupe = taillegroupe
        self.NB_PIVOTS = NB_PIVOTS
        
        tqdm.write("\nDédoublonage avancé")
        
        with tqdm(total=2, desc = "Calcul des vecteurs BoW") as pbar:
            avg = np.mean([len(e) for e in liste_txt])
            docspivots = sample(liste_txt, NB_PIVOTS)

            #On crée les vecteurs pour les textes (coordonnée n = occurences du mot de position n dans la liste de vocabulaire)
            vocab = set(' '.join(docspivots).lower().split())
            vectorizer = TfidfVectorizer(stop_words = ("english"), vocabulary = vocab)
            pbar.update()
            tf = vectorizer.fit_transform(liste_txt)
            pbar.update()
            arrtf = tf.toarray()

            #On sépare les textes en groupes de même taille, en fonction de leur longueur
            liste_txt = sorted(liste_txt, key=lambda liste_txt: len(liste_txt))
            nbgroupes = 1 + (len(liste_txt) // taillegroupe)
            groupes = [liste_txt[i*taillegroupe:(i+1)*taillegroupe] for i in range(nbgroupes)]

        colors = list(Color("blue").range_to(Color("green"),nbgroupes))
        tupliste = [(txt, i) for i, txt in enumerate(liste_txt)]
        tupliste = sorted(tupliste, key=lambda tupliste: len(tupliste))
        manualpbar = tqdm(groupes, desc="Calcul des vecteurs seconds / supression")
        doublons_tot = set()
        cquoilesdoublons = set()
        for i, groupe in enumerate(manualpbar):
            manualpbar.colour = colors[i].hex_l
            #Array de tous les vecteurs 2, un texte par ligne comparé a chaque pivot par colonne
            vect1_pivot = np.array([arrtf[i] * (avg / len(e)) for i, e in enumerate(docspivots)], dtype = np.half)
            vect1_non_pivot = np.array([arrtf[i] * (avg / len(e)) for i, e in enumerate(groupe)], dtype = np.half)
            array_vecteurs = pairwise_cos_dist(vect1_non_pivot, vect1_pivot)
            del vect1_non_pivot, vect1_pivot

            #Matrice de la distance cosinus entre chaque texte du corpus, chaque intersection [x,y] donnant
            #la distance entre les textes de rang x et y
            matrice_cosine = pairwise_cos_dist(array_vecteurs)
            del array_vecteurs

            #Permet de faire abstraction de la distance nulle du texte n avec lui-même et ne pas le remonter comme doublon
            for i in range(np.shape(matrice_cosine)[0]): 
                matrice_cosine[i,i] = 1
            #Liste de toutes les distances faibles --> Doublons
            lst_doublons = np.transpose(np.nonzero(matrice_cosine < 0.00001)).tolist()

            del matrice_cosine

            for e in lst_doublons:
                lst_doublons.remove([e[1], e[0]])

            #Nous permet de supprimer directement les doublons par l'index vu que l'élement reste a sa place (seuls ceux qui suivent ont étés supprimés)
            doublons = sorted([e[1] for e in lst_doublons], reverse = True) 
            del lst_doublons

            for db in doublons:
                doublons_tot.add((taillegroupe * i) + db)
                cquoilesdoublons.add(groupe.pop(db))

            del doublons

        self.liste_propre = list(chain.from_iterable(groupes))
        self.index_doublons = doublons_tot
        self.doublons = cquoilesdoublons
        tqdm.write(f"Dédoublonage avancé : Il reste désormais {len(liste_txt)} articles.")

In [15]:
import json
def jsonread(chemin_fichier: str, y = "utf-8-sig"):
    """Charge un json et retourne l'objet appelé, prend en entrée le nom du fichier sans l'extension"""
    with open(f"{chemin_fichier}.json", mode = "r", encoding = y) as j:
            return json.load(j)
        
x = jsonread("a - 2022-07-04")

x = [e["texte"] for e in x]

y = avance(x)


Dédoublonage avancé


Calcul des vecteurs BoW:   0%|          | 0/2 [00:00<?, ?it/s]

Calcul des vecteurs seconds / supression:   0%|          | 0/3 [00:00<?, ?it/s]

Dédoublonage avancé : Il reste désormais 2871 articles.


In [18]:
y.index_doublons

{870001,
 870011,
 870012,
 870048,
 870063,
 870068,
 870074,
 870081,
 870117,
 870142,
 870174,
 870225,
 870232,
 870313,
 870314,
 870327,
 870383,
 870427,
 870466,
 870471,
 870532,
 870680,
 870772,
 870775,
 870826,
 999001,
 999011,
 999012,
 999048,
 999063,
 999068,
 999074,
 999081,
 999117,
 999142,
 999174,
 999225,
 999232,
 999313,
 999314,
 999327,
 999383,
 999427,
 999466,
 999471,
 999532,
 999680,
 999772,
 999775,
 999826,
 999949,
 999993}

In [13]:
y = y.process()

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



Calcul des vecteurs seconds / supression:   0%|          | 0/3 [00:00<?, ?it/s]

NameError: name 'indices' is not defined