In [3]:
import pandas as pd
import numpy as np
import pickle

from scipy.sparse import load_npz, csr_matrix
from sklearn.neighbors import NearestNeighbors
from scripts.caracteristica import caracteristica as car

from datasketch import MinHash, MinHashLSH

In [4]:
def jaccard_distance_sparse(u, v):
    intersection = u.multiply(v).sum()
    union = u.maximum(v).sum()
    return 1.0 - intersection / union

In [5]:
n_perm = 128

def minhash_vector(sparse_vector:csr_matrix, num_perm:int=n_perm):
    minhash = MinHash(num_perm=num_perm)
    for index in sparse_vector.indices:
        minhash.update(str(index).encode('utf8'))
    return minhash

In [6]:
k = 2
th = 0.2
lsh = pickle.load(open(f'../Data/lsh/k{k}_th{th}.pkl', 'rb'))

In [7]:
caracteristica, tweets = car(k=k)

In [16]:
indice = 1000

m = minhash_vector(caracteristica[indice])
aprox = lsh.query(m)

original = tweets.iloc[indice]
print(f'{original["screen_name"] + ";".ljust(10)} {original["text"]}\n')

repeticiones = {}
for i in aprox:
    twt = tweets.iloc[i]
    print( f'{(str(i) + ",").ljust(8)} {twt["screen_name"].strip().ljust(20)}:'.ljust(30), twt['text'] )
    if twt['screen_name'] not in repeticiones:
        repeticiones[twt['screen_name']] = 1
    else:
        repeticiones[twt['screen_name']] += 1

monysalas13;          yo rechazo 

425991,  AnitaBarriga7       : @berfontaine @lauritalumaco1 rechazo
393224,  Arojoval1247        : @baradit zanganoyo rechazo
917513,  jlisperguiersa      : por eso rechazo
557066,  Pato_Dip            : felices por un mamarracho bueno los entiendo si con suerte saben lo que hacen rechazo
1081353, DTv65               : @onj999 @criordor @convencioncl obvio rechazo 
1343497, juanenriquepena     : @r_saavedram @berfontaine gran defensor del rechazo
426000,  Maurici63695451     : @gdominguez_ @convencioncl rechazo 
18,      Natalia00219204     : @tere_marinovic @ortegalucy77 rechazo
884759,  YsYeya              : esi un asco cuna para pedofilos rechazo
458781,  CHRIS93527600       : @hugo_gutierrez_ @convencioncl nop lo han hecho tan mal que solitos lograron juntar desde el ppd hasta la udi por el rechazo
884766,  Claudia87671761     : que caballero este tipo y dicen que representan al rechazo
360480,  oscartoroyagui      : @jaime_bassa gargarella parece

757013,  luisfvial           : @roangri @augusto_toribio @josefcolagos @servelchile @calderonbassi @tere_marinovic rechazo
789783,  MarizuVillafana     : @jignaciozp @rocicantuarias rechazo
855326,  RACM56348397        : @gdominguez_ yo no estoy confundido hare lo posible por el rechazo
789795,  SergioBecker14      : @ruben_antiyal @jaime_bassa @apruebaxchile chile sin senado rechazo 
953637,  LatapiatLuisa       : @hugo_gutierrez_ @servelchile rechazo rechazo rechazo
855336,  Munitavirginia1     : @gdominguez_ rechazo
298283,  YsYeya              : @pitufin11356306 @jldebeaumont @rmontero_ yo tb rechazo
625963,  Metal_Man80         : @t13 gracias baradit por la campaña al rechazo 
822571,  caralcamta          : @patriciapolitz no aprovecharon su oportunidad rechazo 
134446,  FerBlaBe            : @mcubillossigall @tere_marinovic @elisaloncon rechazo 
527663,  JCCONTACTOSUR       : @delosquesobran @siliconvalle @danielstingo @rod_herrera rechazo 
822572,  manevergara         : @patrici

432090,  karenpgt2           : asi o mas claro de los rechazo 
169947,  GordonB37550709     : @fernando_atria esa huea no pasa derechito al rechazo
727003,  Cristia41626668     : @conyschon agregando motivos para que aumente el rechazo
727005,  InversorMigrant     : @conyschon rechazo 
1152987, cristianieto        : @danielstingo generalisimo del rechazo
497633,  SGuital             : gracias atria baradit stingo sigan haciendo campaña x el rechazo
1152996, WnDenso             : @danielstingo gracias por avisar rechazo
1120231, Cesar25943245       : @dobleopinion @elisaloncon rechazo
1021932, dantebattling66     : @alondracvidal interesante rechazo
530414,  mf_hans             : @renatogaring rechazo
661487,  frango73013360      : @mister_wolf_0 @mcubillossigall la señorita astrid apoyando a pinochet y ahora al rechazo
1021936, pabloskii7          : @alondracvidal notable ojalas pudieran desenmascarar todas esas mentiras que atrae el rechazo
432118,  riocruces78         : razon tenia e

959640,  jorge05568100       : @jaime_bassa mientras los chilenos aprobamos el rechazo rechazo rechazo
1254554, Edmund_Burke255     : @elisaloncon gracias por esto ganara el rechazo
1221792, Jz2022ch            : @sergiohi10 @baradit queremos una nueva constitucion lo que no queremos es la que acaban de redactar yo rechazo
959655,  fernand32360671     : @jaime_bassa somos una republica y este proyecto de constitucion no me representa yo rechazo
1254568, Fedox_21            : @jorgeandreani1 @tolygacitua @ignacioachurra yo rechazo
599207,  rodrimitrius08      : @marcelo10138979 @dorka075 @baradit rechazo
1057959, sobrelaverdadco     : @rocicantuarias no puede o si puede que fue lo que se rechazo 
599211,  foxaburtoc          : @brebolledod17 @arturozunigaj rechazo 
631983,  BluestonePame       : @gdominguez_ por eso rechazo 
1254579, MAGNANI78070531     : @elisaloncon gracias por informar con mayor razon rechazo
730293,  aelguetat           : @labeasanchez rechazo
730301,  chilenadecora

569609,  MLuisa40911444      :  @felipeharboe votara rechazo
1290506, bello_girasol       : @cmonckeberg que rechazo
176405,  Arnold73020321      : @gustavovdx6 @danielstingo rechazo 
798998,  CoquetaMidv         : @hugo_gutierrez_ @convencioncl rechazo
471319,  andresjavierCL      : @24horastvn @patriciapolitz yo rechazo
471320,  JorgeElgueta14      : @harryjurgensen mas motivo x votar rechazo
209180,  ecruzapruebo        : @monchelorosas @hugo_gutierrez_ @convencioncl vayase con pancho malo ese parece que sera su referente si vota rechazo
864548,  DRAGONDELLAGO       : @jaime_bassa yo rechazo 
373031,  Marcela66236613     : @meqchile vamos por el rechazo
274732,  Va1Garcia           : @labeasanchez @ignacioachurra es falso q es plurinacional rechazo
176429,  afcornejo           : q mas claro a votar rechazo
962864,  copitodullebery     : @luis_elqui @jeniffermella @fernando_atria @baradit @gabrielboric @izkia @danielstingo @camila_vallejo nogracias rechazo
635198,  PhantomTrac       

671695,  AldoFabrizzioM2     : a votar rechazo 
1195987, InesSonita          : @joseantoniokast @rocicantuarias me sumo al rechazo
507860,  EGK1961             : @patriciapolitz @latercera si moodys lo dice habra que hacerlo rechazo
1327061, jfpg26              : @ignacioachurra si el pueblo dira rechazo
1327062, Roberto56581676     : @ignacioachurra gracias por llevarme al rechazo
81886,   maggiescobarC       : @mcubillossigall @elisaloncon rechazo
1327075, patrici16224517     : @ignacioachurra mentira puras mentiras x chile rechazo
1359848, egz1103             : @baradit gracias rechazo
442346,  Franpazlira         : @jaime_bassa @gabrielboric no me voy a quedar fuera esta vez si voy a ir a votar rechazo 
573423,  Pjcea1              : @mdaza_abogado rechazo 
999409,  josepepepe90        : @rkatrileo @pcayuqueo yo voto rechazo
212983,  andresjavierCL      : @tere_marinovic rechazo
180221,  soyelfele           : @fernando_atria @renatogaring infeliz como todo lo que has hecho desde la

1101282, maca_ugarte3        : @danielstingo avanza derecho al rechazo 
1363427, rodriurbi2004       : @amorenoe @danielstingo @brebolledod17 @berfontaine @rocicantuarias rechazo 
1134050, NiccoFontena        : @jaime_bassa q bajo el nivel de bassa con este tipo de tweet le hace campaña al rechazo
1265123, andresguzmandev     : @criordor no hay que comerse el sandwich antes del recreo esperemos al 49 rechazo 
871914,  EduardoLucat        : @cristian2671 @criordor rechazo 
249330,  JoseCendre          : si estos aprueban yo rechazo 
1035763, ernestomorag        : @zurdocrit1co @carolcbown odian nuestra bandera nuestro himno facil rechazo
1101307, nromanramirez       : @danielstingo de que nos sirve tener abogados gratisaaaaaa para los delincuentes gracias pero rechazo 
1134086, sandrafabito        : @jaime_bassa mentira yo rechazo
1363462, RomanPineiro        : mayoneso @fernando_atria le va a hachar la culpa a @danielstingo por el triunfo del rechazo
314891,  JuanMTFV            : @jga

482263,  marceloguerras      : @royomanuela rechazo
1367004, CesarMuozPerez3     : @baradit que tan cierto es si es asi le entregaron en bandeja el triunfo al rechazo 
56285,   maca_ugarte3        : leo esto y con mas fuerza rechazo 
744415,  carmen_borbaran     : @tere_marinovic eso es cohecho desde el dia uno ud ha hecho campaña por el rechazo
547812,  Margari45205337     : @ignacioachurra andan aprobando puras estupideces y no se concentran en lo que la sociedad les encomendo rechazo
1334244, Rene98572145        : @delosquesobran @danielstingo rechazo
482282,  LuisAlf06946512     : @ampueroadriana vamos rechazo
187373,  Alfredo44245899     : @jorgeamigo15 @ignacioachurra asi es esperando el rechazo
580590,  covarrubias300      : @fernando_atria hagamoslo simple rechazo
1039341, Alexbra11811387     : @juvarsa2 @jaime_bassa @convencioncl voto rechazo
1072118, necontres           : @ignacioachurra rechazo
1104888, ConstituyenteEl     : @danielstingo seguimos dejando la cagada rechazo
1

1272358, Jacquel05021176     : esta es la mejor campaña para el rechazo
1305127, Maricarmengmeza     : @jaime_bassa rechazo 
1174055, DonCokeArayaT_      : esa mierda es un panfleto rechazo
977453,  KrnReuque           : son barzas la bancada rechazo
649775,  UAC72               : @meqchile felicitaciones por promover el rechazo 
813617,  DanteQuezada66      : @benitobaranda @benitobaranda es tan simple como la esto rechazo
551480,  Permarost           : @hugo_gutierrez_ @convencioncl razon 47 para votar rechazo
1075768, LiliamMeynet        : @ruth_uas @convencioncl rechazo
649787,  Camilo23935957      : @meqchile rechazo 
289340,  DennissseMoreno     : vamos yo rechazo 
1370685, matiasiglesia19     : @janismeneses_d6 un mamarracho constitucional voto rechazo
289342,  DennissseMoreno     : vamos yo rechazo 
649794,  hleon1705           : @criordor junta vaselina en septiembre te entubaremos el plurimamarracho zurda imbecil rechazo
125508,  parancibiaes        : @baradit rechazo 
485957

161874,  VivaChileLibr3      : @iracihassler rechazo 
686162,  Enrique311064       : @manuconstituye igual rechazo
325714,  pensador1983        : @marcelomena @marcosbarrazag rechazo
981076,  Carlos08704475      : @benitobaranda @uchileradio se farrearon una gran oportunidad rechazo
1112146, JuliaOrostegui      : @arturozunigaj y negaban que esto pasaria por eso y muchas cosas mas yo voto rechazo
981082,  VidalIlich          : @benitobaranda @uchileradio rechazo curita rechazo
1210458, Pangalillo2105      : @gdominguez_ @convencioncl @noneutrales falta votar rechazo
1275996, Brauliomfl          : asi estaremos en muy poco tiempo mas que terrible por eso yo rechazo
653407,  ApolonioToledo      : @benitobaranda por esto y mas rechazo
424033,  kary_truefeelig     : @benitobaranda muy clara mi informacion rechazo 
1112162, jaimeandresm        : @benitobaranda con todo lo que he visto y el tremendo riego que corremos con esa constitucion empobresedora rechazo
325734,  NicoUlloa77         : 

Seleccionamos tweets de original y el usuario mas repetido.

In [100]:
mas_repetido = max(repeticiones)
tweets = pd.read_parquet('../Data/tweets.parquet')
par = []
for c, name in enumerate(tweets['screen_name']):
    if name == original['screen_name']:
        tweet = tweets['text'].iloc[c]
        par.append(f'{name}: {tweet}')
    elif name == mas_repetido:
        tweet = tweets['text'].iloc[c]
        par.append(f'{name}: {tweet}')

Funcion que calcula diferencia jaccard entre los tweets, se la pedi a chatgpt asique igual seria buena idea revisarla en mas detalle.

In [101]:
import textdistance
import heapq

def find_most_similar_pairs(strings, k=30):
    pairs = []
    heap = []
    
    for i in range(len(strings)):
        for j in range(i + 1, len(strings)):
            similarity_score = textdistance.jaccard(strings[i], strings[j])
            
            heapq.heappush(heap, (similarity_score, (strings[i], strings[j])))
            if len(heap) > k:
                heapq.heappop(heap)
    
    while heap:
        pairs.append(heapq.heappop(heap)[1])
    
    return pairs[::-1]

Calculamos los tweets mas similares, y mantenemos solamente los pares en donde haya un tweet de usuario original y otro del mas repetido.

In [102]:
similar_pairs = find_most_similar_pairs(par)
for pair in similar_pairs:
    og = 0
    repetido = 0
    for tweet in pair:
        if mas_repetido in tweet:
            repetido += 1
        elif original['screen_name'] in tweet:
            og += 1
    if og == 1 and repetido == 1:
        print(pair)

('monysalas13: el gobierno de los practicantes mentirosos y corruptos desde los debates que el mamarracho vivia pidiendo disculpas u', 'zurditodiestro: ahora se podria entender que algunos dinosaurios de la politica llamen a votar en contra de la nueva constitucion')
('monysalas13: con la nueva constitucion tus fondos no seran heredables no existiran mas retiros seran administrados por el estado', 'zurditodiestro: ahora se podria entender que algunos dinosaurios de la politica llamen a votar en contra de la nueva constitucion')
('monysalas13: ponte serio felipe haz perdido tanta credibilidad bailando al ritmo de los capuchas que no representas al de todas ma', 'zurditodiestro: ahora se podria entender que algunos dinosaurios de la politica llamen a votar en contra de la nueva constitucion')
('monysalas13: el gobierno espera que todo el pueblo votante en chile se informe lea y comprenda la nueva constitucion en alrededor de 60', 'zurditodiestro: ahora se podria entender que algunos dino