In [2]:
import numpy as np
from Levenshtein import distance
from tqdm import tqdm
import os

In [7]:
paths = os.listdir('./data')
paths = [path for path in paths if path.endswith('.txt')]
paths_data = ['./data/' + path for path in paths]
paths

['common_words.txt',
 'english.txt',
 'hungarian_text_0.txt',
 'hungarian_text_unduped_0.txt']

In [2]:
# load ./data/hungarian_data_0.txt
with open('./data/hungarian_text_0.txt', encoding="utf-8") as f:
    data = f.readlines()

In [3]:
data[0:4]

['2DIN fejegys√©g - Pilisszentl√°szl√≥ - 2DIN - 2DIN fejegys√©g, 2DIN navig√°ci√≥, 2DIN kamera\n',
 'Keres≈ëoptimaliz√°lt b√©relhet≈ë weboldal k√©sz√≠t√©s kontra saj√°t weboldal\n',
 'Az elm√∫lt id≈ëszakban megn√∂vekedett az ig√©ny a c√©ges bemutatkoz√≥ weboldalakra, valamint a web√°ruh√°zakra, hiszen egyre kevesebb az a szolg√°ltat√≥ vagy term√©keket √©rt√©kes√≠t≈ë, aki online jelenl√©t hi√°ny√°ban is k√©pes lenne hossz√∫t√°von fennmaradni. A c√©gek k√©t ir√°nyban tudnak gondolkodni: saj√°t vagy b√©relhet≈ë weboldalban. Sok √©ve foglalkozom keres≈ëoptimaliz√°lt b√©relhet≈ë weboldal k√©sz√≠t√©ssel, valamint term√©szetesen olyan honlapokkal is, amelyek √°tad√°s ut√°n v√©glegesen a vev≈ë tulajdon√°ban maradnak. Az √©vek sor√°n t√∂bb 100 bemutatkoz√≥ honlapot √©s web√°ruh√°zat adtam √°t sikeresen, √≠gy j√≥l l√°tom, mikor, melyik lehet≈ës√©get √©rdemesebb ink√°bb v√°lasztani.\n',
 'Az al√°bbi sorokkal b√≠zom benne, hogy seg√≠thetek d√∂nt√©st hozni abban, hogy saj√°t weboldalt nyiss vagy in

In [4]:
def remove_near_duplicates(strings):
    # Create an empty list to store unique strings
    unique_strings = []
    duplicates = []
    
    # Loop through each string in the input list
    for string in strings:
        # Check if the string is similar to any existing unique strings
        is_duplicate = False
        if string == '\n':
            unique_strings.append(string)
            continue
        for unique_string in unique_strings:
            # Calculate the Levenshtein distance between the strings
            lev_distance = distance(string, unique_string)
            
            # Check if the distance is below the given threshold
            threshold = min(len(unique_string), len(string))//2
            if lev_distance <= threshold:
                # print("--------------------------------------------")
                # print(unique_string)
                # print(string)
                is_duplicate = True
                break
        
        # If the string is not a near duplicate, add it to the list of unique strings
        if not is_duplicate:
            unique_strings.append(string)
        else:
            duplicates.append(string)
    
    # Return the list of unique strings
    return unique_strings, duplicates


In [5]:
from concurrent.futures import ThreadPoolExecutor

def remove_near_duplicates_wrapper(data):
    return remove_near_duplicates(data)

WINDOW = 10000
num_processes=16
executor = ThreadPoolExecutor(max_workers=num_processes)
futures = []

for i in range(0, len(data), WINDOW):
    subset = data[i:i+WINDOW].copy()
    future = executor.submit(remove_near_duplicates_wrapper, subset)
    futures.append(future)

unduped = []
for future in futures:
    unique, dupes = future.result()
    unduped.extend(unique)


In [5]:
from multiprocessing import Pool

def remove_near_duplicates_wrapper(data):
    return remove_near_duplicates(data)

WINDOW = 10000
pool = Pool()
results = []

for i in range(0, len(data), WINDOW):
    subset = data[i:i+WINDOW]
    result = pool.apply_async(remove_near_duplicates_wrapper, args=(subset,))
    results.append(result)
print("setup done")
unduped = []
for result in results:
    unique, dupes = result.get()
    print("done")
    unduped.extend(unique)


setup done


In [82]:
unduped = []
WINDOW = 10000
for i in range(0, len(data),WINDOW ):
    unique, dupes = remove_near_duplicates(data[i:i+WINDOW])
    unduped.extend(unique)

 58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 5844/10000 [02:49<02:00, 34.48it/s] 


KeyboardInterrupt: 

In [76]:
# load ./data/hungarian_data_0.txt
with open('./data/hungarian_text_unduped_0.txt',"w", encoding="utf-8" ) as f:
    f.write(''.join(unduped))
    

In [None]:
# load ./data/hungarian_data_0.txt
with open('./data/hungarian_text_dupes_0.txt', encoding="utf-8") as f:
    f.write(dupes)

In [65]:
len(dupes)

7068

In [66]:
unique

['2DIN fejegys√©g - Pilisszentl√°szl√≥ - 2DIN - 2DIN fejegys√©g, 2DIN navig√°ci√≥, 2DIN kamera\n',
 'Keres≈ëoptimaliz√°lt b√©relhet≈ë weboldal k√©sz√≠t√©s kontra saj√°t weboldal\n',
 'Az elm√∫lt id≈ëszakban megn√∂vekedett az ig√©ny a c√©ges bemutatkoz√≥ weboldalakra, valamint a web√°ruh√°zakra, hiszen egyre kevesebb az a szolg√°ltat√≥ vagy term√©keket √©rt√©kes√≠t≈ë, aki online jelenl√©t hi√°ny√°ban is k√©pes lenne hossz√∫t√°von fennmaradni. A c√©gek k√©t ir√°nyban tudnak gondolkodni: saj√°t vagy b√©relhet≈ë weboldalban. Sok √©ve foglalkozom keres≈ëoptimaliz√°lt b√©relhet≈ë weboldal k√©sz√≠t√©ssel, valamint term√©szetesen olyan honlapokkal is, amelyek √°tad√°s ut√°n v√©glegesen a vev≈ë tulajdon√°ban maradnak. Az √©vek sor√°n t√∂bb 100 bemutatkoz√≥ honlapot √©s web√°ruh√°zat adtam √°t sikeresen, √≠gy j√≥l l√°tom, mikor, melyik lehet≈ës√©get √©rdemesebb ink√°bb v√°lasztani.\n',
 'Az al√°bbi sorokkal b√≠zom benne, hogy seg√≠thetek d√∂nt√©st hozni abban, hogy saj√°t weboldalt nyiss vagy in

In [77]:
dupes

['1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 november 2022 december 2022 janu√°r 2023 febru√°r 2023 m√°rcius 2023 √°prilis 2023 m√°jus 2023 j√∫nius 2023 j√∫lius 2023 augusztus 2023 szeptember 2023 okt√≥ber 2023\n',
 '${$T.render.getIconImage($T.mgr,($T.item.inbound.dep?$T.item.inbound.dep:$T.item.dest),false)} ${$T.mgr.getAptName(($T.item.inbound.dep?$T.item.inbound.dep:$T.item.dest))} ${$T.render.getDateTime($T.item.inbound,false)} ${$T.mgr.getAptName(($T.item.inbound.dest?$T.item.inbound.dest:$T.item.dep))} ${$T.render.getDateTime($T.item.inbound,true)} ${$T.render.getDurationAndStops($T.item.inbound)} ${$T.mgr.getAirline($T.item.inbound, $T.item.airline)}\n',
 'Weboldalunk az alapvet≈ë m≈±k√∂d√©shez sz√ºks√©ges cookie-kat haszn√°l. Sz√©lesebb k√∂r≈± funkcionalit√°shoz marketing jelleg≈± cookie-kat enged√©lyezhet, amivel elfogadja az Adatkezel√©si t√°j√©koztat√≥ban foglaltakat.\n',
 'Kock√°zati figyelmeztet√©s: A CFD-k √∂sszetett instrumentumo