In [1]:
from pre_procesamiento import pre_process
from hashing import hash_signature_pool  
import pandas as pd
from collections import defaultdict
import pickle
import numpy as np
import itertools
import random
from ray.util.multiprocessing import Pool
import time
import psutil
start = time.time()

  from .autonotebook import tqdm as notebook_tqdm


# I. Pre-procesamiento de tweets:
Las siguientes transformaciones fueron aplicadas al texto que posteriormente se usó para computar las firmas de hash.
* Quitamos los retweets
* Removemos stopwords del español
* Quitamos los emoji
* Quitamos los tweets que contienen un enlace, ya que suelen ser poco interesantes al limitarse a compartir ese enlace sin mayor comentario
* Eliminamos los tweets que, tras aplicar todo el procesamiento anterior, tengan menos de 20 caracteres, ya que nos pareció que no representan un mayor aporte a los resultados.

Cada chunk fue guardado en disco por separado con pickle y eliminado de memoria.

In [2]:
%%capture --no-stdout

chunksize = 2500000
shingles_dictionary = dict() # Diccionario que contendrá los set de shingles
for indice, chunk in enumerate(pd.read_csv("tweets_2022_abril_junio.csv", usecols=['screen_name', 'text'], chunksize=chunksize)):
        if indice == 0:
                prev_max_index = -1
        update_dict, prev_max_index = pre_process(chunk, indice, prev_max_index+1)
        shingles_dictionary.update(update_dict)
del chunk
del update_dict

# II. MinHash

Calculamos las firmas de hash usando el algoritmo [SuperMinHash](https://arxiv.org/abs/1706.05698). Paralelizamos con 4 nucleos para acortar tiempo. La cantidad de nucleos empleados responde a la cantidad de nucleos disponibles en la máquina al momento de ejecutar.

In [3]:
#%%capture --no-stdout
core_count = psutil.cpu_count() # Obtener nucleos disponibles
if core_count >= 6:
    partition_n = 4 # Si tienes más de 6, usas 4
else:
    partition_n = max(1, core_count//2) # Si tienes menos, usas la mitad 
lista_dict = list(shingles_dictionary.items())
largo = len(shingles_dictionary) // partition_n
dicts = [dict(lista_dict[:largo])]
for i in range(1,partition_n):
    if i != 3:
        dicts.append(dict(lista_dict[largo*i:largo*(i+1)]))
    else:
        dicts.append(dict(lista_dict[largo*i:]))
with Pool() as p:
    p.map(hash_signature_pool, [(dicc, 20, indice) for indice, dicc in enumerate(dicts)])

2023-06-07 12:14:26,448	INFO worker.py:1625 -- Started a local Ray instance.


Cargas las firmas de hash y consolidar en un único objeto

In [4]:
with open("fhs/file0.obj", 'rb') as file:
    FH = pickle.load(file)

for i in range(1, partition_n):
    with open(f"fhs/file{i}.obj", 'rb') as file:
        FH2 = pickle.load(file)
        FH = np.concatenate((FH, FH2), axis=1)
    del FH2
FH.shape

(20, 975932)

Volvemos a cargar los tweets pre-procesados en memoria.

In [5]:
with open('processed_tweets/resumen0.obj', 'rb') as file:
    resumen = pickle.load(file)
with open('processed_tweets/resumen1.obj', 'rb') as file:
    resumen = pd.concat([resumen, pickle.load(file)])

# III. LSH

Definimos parámetros para aplicar la técnica de banding

In [6]:
r = 10
b = 2
t = round((1/b)**(1/r), 2)
t

0.93

Nuestra elección de b y r fija el umbral en 0.93.

In [7]:
# Tomado de https://towardsdatascience.com/locality-sensitive-hashing-how-to-find-similar-items-in-a-large-set-with-precision-d907c52b05fc
n, d = FH.shape
hashbuckets = defaultdict(set)
bands = np.array_split(FH, b, axis=0)
for i,band in enumerate(bands):
    for j in range(d):
        # The last value must be made a string, to prevent accidental
        # key collisions of r+1 integers when we really only want
        # keys of r integers plus a band index
        band_id = tuple(list(band[:,j])+[str(i)])
        hashbuckets[band_id].add(j)
candidate_pairs = set()
for bucket in hashbuckets.values():
    if len(bucket) > 1:
        for pair in itertools.combinations(bucket, 2):
            candidate_pairs.add(pair)
print(f"Obtuvimos {len(candidate_pairs)} pares candidatos, con b = {b} y r = {r}")

Obtuvimos 872437 pares candidatos, con b = 2 y r = 10


Podamos los tweets idénticos entre sí

In [8]:
trimmed_cadidate_pairs = []
for pair in candidate_pairs:
        a, b = pair
        text_a = resumen.text[a]
        text_b = resumen.text[b]
        if (text_a != text_b):
                trimmed_cadidate_pairs.append((a, b))
print(f"Quedan {len(trimmed_cadidate_pairs)} pares candidatos")

Quedan 503119 pares candidatos


Mostrar 5 ejemplos de tweets semejantes

In [9]:
for pair in random.sample(trimmed_cadidate_pairs, 5):
    a, b = pair
    print(f"1. {resumen.screen_name[a]}: ",resumen.text[a])
    print(f"2. {resumen.screen_name[b]}: ",resumen.text[b])
    print("----------")

1. Edwards32237132:  @Jaime_Bassa Rechazo.
2. Wolfie____:  @Jaime_Bassa Rechazo!
----------
1. NormaJeanBake16:  @RobertoCeledonF @mentiraslared Ojalá 🙏
2. albert_1917:  @RobertoCeledonF @mentiraslared Ya
----------
1. ElAnti_Fas:  @gdominguez_ @convencioncl Mentirosillo
2. Alexiavivanco:  @gdominguez_ @convencioncl Mentiroso lunático
----------
1. aydeemoreno2013:  @fernando_atria FALSA.
2. tomasprrr:  @fernando_atria Dicen
----------
1. CarmenMayo21:  @IgnacioAchurra RECHAZOOOOOOOOOOP.
2. OSKARITO201245:  @IgnacioAchurra RECHAZOOOOOO
----------


Formatear como df

In [10]:
result = []
for pair in trimmed_cadidate_pairs:
    a, b = pair
    result.append([resumen.text[a], resumen.text[b], resumen.screen_name[a], resumen.screen_name[b]])

similar_tweets_df = pd.DataFrame(result, columns=['tweet_1', 'tweet_2', 'author_1', 'author_2'])
similar_tweets_df.head()

Unnamed: 0,tweet_1,tweet_2,author_1,author_2
0,@fernando_atria @christianpviera @letelier_rau...,@fernando_atria @christianpviera @letelier_rau...,torovoltan,Josea2tp
1,@Parisi_oficial @CaneloCarola @fernando_atria ...,@_alvaromunoz @Parisi_oficial @CaneloCarola @f...,Soyunalias,crstmart
2,@patriciapolitz @convencioncl Exito !,@patriciapolitz @convencioncl #rechazo,Oso__03,Francis63499130
3,@mcubillossigall @gabrielboric Rechazo,@mcubillossigall @gabrielboric Pin 1,BulboaMario,PabloPedemonte6
4,@tere_marinovic Jajajaja,@tere_marinovic Jajaja 🎃,cadm12,CCasuario


# Autores Similares

In [11]:
count_dict = dict()

def def_value():
    return 0
for pair in trimmed_cadidate_pairs:
    a, b = pair
    user_a = resumen.screen_name[a]
    user_b = resumen.screen_name[b]
    if user_a != user_b:
        try:
            count_dict[user_a][user_b] += 1
        except KeyError:
            count_dict[user_a] = defaultdict(def_value) # No retorna key error
            count_dict[user_a][user_b] += 1
            
        try:
            count_dict[user_b][user_a] += 1
        except KeyError:
            count_dict[user_b] = defaultdict(def_value) # No retorna key error
            count_dict[user_b][user_a] += 1
            

Mostrar solo los autores que están por sobre un threshold de tweets similares

In [12]:
count_df = pd.DataFrame(count_dict).reset_index()
count_long = pd.melt(count_df, id_vars='index')
similar_authors = count_long[count_long.value >= 25].rename({'index': 'user_1', 'variable': 'user_2', 'value':'sim_tweet_count'}, axis = 1)
similar_authors = similar_authors.sort_values("sim_tweet_count", ascending=False)
similar_authors.head()

Unnamed: 0,user_1,user_2,sim_tweet_count
26939121,osotroncoso,x1educalidad,323.0
590548,x1educalidad,osotroncoso,323.0
590561,malahierba84,osotroncoso,322.0
53825421,osotroncoso,malahierba84,322.0
42277822,Miltonterasss,alejandrazarzar,228.0
...,...,...,...
83398957,tita_novoa,CeledonDani,25.0
16784016,spastrian,Vickita58,25.0
83398989,Libre1Chile,CeledonDani,25.0
83399034,SitaLo,CeledonDani,25.0


Función para imprimir tweets de dos candidatos pares:

In [13]:
def show_tweets_from_candidates(user_1, user_2, amount):
    iterations = 0
    for pair in trimmed_cadidate_pairs:
        a, b = pair
        user_a = resumen.screen_name[a]
        user_b = resumen.screen_name[b]
        if ((user_a == user_1) and (user_b == user_2)) or ((user_b == user_1) and (user_a == user_2)):
            print("By user ", user_a,":\n",  f'"{resumen.text[a]}"\n')
            print("By user ", user_b, ":\n", f'"{resumen.text[b]}"')
            print("_______________________________________________________\n")
            if iterations == (amount-1):
                break
            iterations+=1

Veamos dos ejemplos de pares de tweets escritos por autores similares.

In [14]:
show_tweets_from_candidates("x1educalidad", "osotroncoso", 2)

By user  x1educalidad :
 "#AprueboDeSalida 
#Apruebo 
#Apruebo4deSeptiembre   
#AprueboNuevaConstitución 
#AprueboPlebiscitoDeSalida"

By user  osotroncoso :
 "#Apruebo4deSeptiembre 
#AprueboPlebiscitoDeSalida #AprueboNuevaConstitucion #Apruebo #AprueboDeSalida"
_______________________________________________________

By user  osotroncoso :
 "#Apruebo4deSeptiembre 
#AprueboPlebiscitoDeSalida #AprueboNuevaConstitucion #Apruebo #AprueboDeSalida"

By user  x1educalidad :
 "#AprueboDeSalida 
#Apruebo 
#Apruebo4deSeptiembre   
#AprueboNuevaConstitución 
#AprueboPlebiscitoDeSalida"
_______________________________________________________



A continuación podemos examinar un cierto número de tweets para un n dado de autores similares.

In [15]:
def shown_n_similar_authors_examples(n_examples_per_pair, n_author_pairs):
    iteration = 0
    for index, row in similar_authors.iterrows():
        user_1 = row.user_1
        user_2 = row.user_2
        show_tweets_from_candidates(user_1, user_2, n_examples_per_pair) # Sacar 3 ejemplos por cada par
        if iteration == (n_author_pairs-1):
            break
        iteration += 1
shown_n_similar_authors_examples(3, 2)
# Se mostraran 3 ejemplos para 2 pares de autores similares: 

By user  x1educalidad :
 "#AprueboDeSalida 
#Apruebo 
#Apruebo4deSeptiembre   
#AprueboNuevaConstitución 
#AprueboPlebiscitoDeSalida"

By user  osotroncoso :
 "#Apruebo4deSeptiembre 
#AprueboPlebiscitoDeSalida #AprueboNuevaConstitucion #Apruebo #AprueboDeSalida"
_______________________________________________________

By user  osotroncoso :
 "#Apruebo4deSeptiembre 
#AprueboPlebiscitoDeSalida #AprueboNuevaConstitucion #Apruebo #AprueboDeSalida"

By user  x1educalidad :
 "#AprueboDeSalida 
#Apruebo 
#Apruebo4deSeptiembre   
#AprueboNuevaConstitución 
#AprueboPlebiscitoDeSalida"
_______________________________________________________

By user  x1educalidad :
 "#Apruebo4deSeptiembre 
#Apruebo
#AprueboPlebiscitoDeSalida
#AprueboNuevaConstitucion"

By user  osotroncoso :
 "#Apruebo
#Apruebo4deSeptiembre 
#AprueboPlebiscitoDeSalida #AprueboNuevaConstitucion"
_______________________________________________________

By user  x1educalidad :
 "#AprueboDeSalida 
#Apruebo 
#Apruebo4deSeptiembre   


In [16]:
tiempo_total = time.time() - start
tiempo_total / 60

7.815567966302236