# Análisis de data procesada:

La data se obtuvo mediante el Apify en su versión gratuita. Se scrapearon tweets mencionando a 'Boric' desde el 01-03-2025 hasta el 06-03-2025.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud

In [3]:
df = pd.read_csv(data/sentiment_data.csv)
df.head(5)

NameError: name 'data' is not defined

### Limpieza de datos:

Primero limpearemos hashtags, links y largo de los tweets:

In [8]:
import nltk
import re
from nltk.corpus import stopwords

In [9]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/pollodk/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [24]:
stop_words = set(stopwords.words("spanish"))

def clean_text(text):
    """Limpia un tweet eliminando menciones, links y caracteres especiales"""
    text = str(text).lower()  # Convertir a minúsculas
    text = re.sub(r"http\S+|www\S+|https\S+", "", text, flags=re.MULTILINE)
    text = re.sub(r"@\w+", "", text)
    text = re.sub(r"[^a-zA-Záéíóúñü\s]", "", text)
    text = " ".join([word for word in text.split() if word not in stop_words])
    return text.strip()

# Aplicar limpieza a la columna "Texto"
df["text_limpio"] = df["text"].apply(clean_text)

# Mostrar tweets limpios
df[["text", "text_limpio"]].head()

Unnamed: 0,text,text_limpio
0,Quiere ver como aumentan su patrimonio los min...,quiere ver aumentan patrimonio ministros boric...
1,"@fenuchile @ivanwese De dónde, si Boric siempr...",dónde si boric siempre amarillo votamos
2,Que buena vida de los ZURDOS que no tienen que...,buena vida zurdos lidiar consecuencias politic...
3,@jgalemparte Y por qué hay que andar comprando...,andar comprando casas ex presidentes imagino f...
4,@PenajaAgain Magnum thin 😭😭😭😭 he hates em so h...,magnum thin hates em so hes looking at other o...


In [25]:
min_length = 10
max_length = 280

df = df[df["text_limpio"].str.len().between(min_length, max_length)]

print(f"✅ Tweets después de filtrar: {len(df)}")

✅ Tweets después de filtrar: 3787


In [26]:
df.to_csv("data/processed_tweets.csv", index=False, encoding="utf-8")
print("✅ Tweets limpios guardados en 'processed_tweets.csv'")

✅ Tweets limpios guardados en 'processed_tweets.csv'


In [27]:
df = pd.read_csv('data/processed_tweets.csv')
df.head(5)

Unnamed: 0,createdAt,retweetCount,viewCount,id,isReply,text,text_limpio
0,Thu Mar 06 19:31:57 +0000 2025,0,0,1897731897133826493,False,Quiere ver como aumentan su patrimonio los min...,quiere ver aumentan patrimonio ministros boric...
1,Thu Mar 06 19:31:00 +0000 2025,0,1,1897731661548470479,True,"@fenuchile @ivanwese De dónde, si Boric siempr...",dónde si boric siempre amarillo votamos
2,Thu Mar 06 19:30:36 +0000 2025,0,1,1897731561027481627,False,Que buena vida de los ZURDOS que no tienen que...,buena vida zurdos lidiar consecuencias politic...
3,Thu Mar 06 19:30:32 +0000 2025,0,1,1897731543843357053,True,@jgalemparte Y por qué hay que andar comprando...,andar comprando casas ex presidentes imagino f...
4,Thu Mar 06 19:29:30 +0000 2025,0,1,1897731281955197024,True,@PenajaAgain Magnum thin 😭😭😭😭 he hates em so h...,magnum thin hates em so hes looking at other o...


### Análisis de la data:

In [30]:
df = df.sort_values(by='viewCount', ascending=False)
df

Unnamed: 0,createdAt,retweetCount,viewCount,id,isReply,text,text_limpio
3473,Mon Mar 03 18:57:08 +0000 2025,1796,550605,1896635972466749512,False,Expropiaremos Colonia Dignidad. Uno de los lug...,expropiaremos colonia dignidad lugares oscuros...
3058,Wed Mar 05 15:00:31 +0000 2025,746,462346,1897301204453233097,False,🇨🇱🇺🇸 | AHORA: El presidente chileno Gabriel Bo...,ahora presidente chileno gabriel boric confirm...
1490,Wed Mar 05 15:00:31 +0000 2025,746,462290,1897301204453233097,False,🇨🇱🇺🇸 | AHORA: El presidente chileno Gabriel Bo...,ahora presidente chileno gabriel boric confirm...
3340,Tue Mar 04 17:48:45 +0000 2025,4016,386621,1896981153678340309,False,Agradezco la llamada del presidente Gabriel Bo...,agradezco llamada presidente gabriel boric rel...
3724,Sat Mar 01 20:35:35 +0000 2025,618,286727,1895935975098106255,False,Tanto tiempo lejos con nuestros hermanos de Bo...,tiempo lejos hermanos bolivia común hora avanz...
...,...,...,...,...,...,...,...
835,Thu Mar 06 13:49:38 +0000 2025,0,0,1897645753952035283,True,"@MarceloRojas Sinceramente, si fueras Empresar...",sinceramente si empresario darías pega algun p...
112,Thu Mar 06 18:44:38 +0000 2025,0,0,1897719991199244531,True,@miguellittin Los jóvenes están súper felices ...,jóvenes súper felices boric favor realismo pol...
83,Thu Mar 06 19:00:49 +0000 2025,0,0,1897724063344120230,False,Boric en modo electoral: enfatiza que “no da l...,boric modo electoral enfatiza da mismo gobiern...
2916,Thu Mar 06 12:12:00 +0000 2025,0,0,1897621180095279382,True,@Damivago @AXELKAISER Pensaba ver a Gabriel Bo...,pensaba ver gabriel boric ahí


## Word Embedding:

In [64]:
import gensim
import pandas as pd
from tqdm.notebook import tqdm

# Cargar el modelo de FastText pre-entrenado
fasttext_model_path = "cc.es.300.vec"
word_vectors = gensim.models.KeyedVectors.load_word2vec_format(fasttext_model_path, binary=False)

# Verificar que el modelo se cargó correctamente
print("✅ Modelo FastText cargado con éxito")
print(f"Número de palabras en el vocabulario: {len(word_vectors.index_to_key)}")

ImportError: cannot import name 'triu' from 'scipy.linalg.special_matrices' (/home/pollodk/.pyenv/versions/3.10.6/lib/python3.10/site-packages/scipy/linalg/special_matrices.py)