In [93]:
import pandas as pd
import json

In [164]:
import nltk
from nltk.corpus import stopwords

# Download NLTK stop words for various languages
nltk.download('stopwords')

# Get stop words for Spanish
spanish_stop_words = stopwords.words('spanish')

print(spanish_stop_words)


['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos', 'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos', 'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'míos', 'mías', 'tuyo', 'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra', 'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras', 'esos', 'esas', 'estoy', 'estás', 'está', 'estamos', 'estáis', 'están', 'e

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [165]:
spanish_stop_words.extend([
"mas",
"sino",
"esten",
"haber",
"hecho",
"si",
"cuya",
"siendo",
"hacen",
"unas",
"unos",
"sido",
"estan"])

In [166]:

def load_json_from_path(file_path):
    """
    Load JSON data from a file path.

    Parameters:
        file_path (str): The path to the JSON file.

    Returns:
        dict: The JSON data loaded from the file.
    """
    with open(file_path, 'r', encoding="utf8") as file:
        json_data = json.load(file)
    return json_data



In [167]:
a1 = load_json_from_path('./data/article1.json')

In [168]:
a1

[{'title': 'Petro y la lucha de clases / Columna de Felipe López Caballero',
  'url': 'https://www.eltiempo.com/politica/gobierno/petro-y-la-lucha-de-clases-columna-de-felipe-lopez-caballero-3333631',
  'content': ['La explicación está en la narrativa que Petro y sus redes sociales han creado. Según esta: 1) Colombia ha estado gobernada durante 200 años por unas élites corruptas interesadas solamente en enriquecerse y perpetuarse en el poder.',
   '2) Con Petro llegaría el primer presidente de izquierda cuya preocupación son los pobres y la justicia social.',
   '3) Los dueños de Colombia no estarían dispuestos a ceder sus privilegios ante un exguerrillero que busca el cambio.',
   'Esa narrativa es simplista, efectista y dañina. Para comenzar, el problema no es que Petro sea un exguerrillero. Si el presidente fuera Antonio Navarro la economía estaría funcionando mejor y la polarización no estaría disparada. La mitad del estancamiento del PIB obedece a factores internacionales, pero la

In [169]:
import re
from unidecode import unidecode

def preprocess_text(text):
    
    text = unidecode(text) # Remove accents 
    text = re.sub(r'[^a-zA-Z\s]', '', text.lower()) # Remove punctuation and convert to lowercase

    return text

def remove_stop_words(text, custom_stop_words):
    """
    Remove custom stop words from the input text.

    Args:
        text (str): Input text.
        custom_stop_words (list): List of custom stop words to be removed.

    Returns:
        str: Text with custom stop words removed.
    """
    stop_words = set(custom_stop_words)
    return ' '.join(word for word in text.split() if word.lower() not in stop_words)

In [170]:
documents = a1[0]['content']

In [171]:
documents = [remove_stop_words(preprocess_text(d),spanish_stop_words) for d in documents]

In [172]:
documents

['explicacion narrativa petro redes sociales creado segun colombia gobernada anos elites corruptas interesadas solamente enriquecerse perpetuarse poder',
 'petro llegaria primer presidente izquierda preocupacion pobres justicia social',
 'duenos colombia estarian dispuestos ceder privilegios exguerrillero busca cambio',
 'narrativa simplista efectista danina comenzar problema petro exguerrillero presidente antonio navarro economia estaria funcionando mejor polarizacion estaria disparada mitad estancamiento pib obedece factores internacionales mitad nombre propio problema petro agitador politico brillante resultado administrador incompetente personalidad paranoica pendenciera habitos trabajo extranos',
 'exito baso diagnostico acertado fallas sistema embargo soluciones siempre enmarcadas optica lucha clases realista obsoleta petro frente sector privado prevencion cuasi marxista cree capitalismo fracasando razon aclara socialismo fracaso',
 'oposicion oligarquia razon cambio pide pueblo 

In [173]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer


# Initialize CountVectorizer
vectorizer = CountVectorizer(stop_words=spanish_stop_words)

# Fit and transform the documents
X = vectorizer.fit_transform(documents)


In [174]:
vectorizer.get_feature_names_out()

array(['abstracto', 'acabar', 'acertado', 'aclara', 'actual',
       'actualidad', 'acueducto', 'acuerdo', 'acumulado', 'administrador',
       'afectan', 'agitador', 'alcantarillado', 'alejandro', 'alertado',
       'alfonso', 'alvaro', 'anos', 'anterior', 'antonio', 'aprobadas',
       'baso', 'bien', 'bloqueado', 'brillante', 'busca', 'buscan',
       'cabrera', 'cambio', 'camilo', 'capitalismo', 'cardenas', 'carlos',
       'cecilia', 'ceder', 'chantajeados', 'clase', 'clases', 'colombia',
       'colombianos', 'comenzar', 'compromete', 'concepto',
       'congresistas', 'conocedores', 'consecuencias', 'consideran',
       'contundentes', 'corruptas', 'creado', 'credibilidad', 'cree',
       'creen', 'creera', 'criticas', 'criticos', 'cuasi', 'da', 'danina',
       'debate', 'defensores', 'delincuentes', 'derecha', 'desarrollo',
       'despues', 'diagnostico', 'disparada', 'dispuestos', 'dos',
       'duenos', 'echeverry', 'economia', 'economica', 'economistas',
       'efectista'

In [157]:
def generate_pairs(text):
    words = text.split()
    pairs = []
    for i in range(len(words) - 1):
        pairs.append(words[i]+" "+words[i+1])
    return pairs

In [158]:
docs_pairs = []

# Generate pairs after removing stop words for each document
docs_pairs.extend([pair for d in documents for pair in generate_pairs(remove_stop_words(d, stop_words))])

print(docs_pairs)

['explicacion narrativa', 'narrativa petro', 'petro redes', 'redes sociales', 'sociales creado', 'creado segun', 'segun colombia', 'colombia gobernada', 'gobernada anos', 'anos elites', 'elites corruptas', 'corruptas interesadas', 'interesadas solamente', 'solamente enriquecerse', 'enriquecerse perpetuarse', 'perpetuarse poder', 'petro llegaria', 'llegaria primer', 'primer presidente', 'presidente izquierda', 'izquierda preocupacion', 'preocupacion pobres', 'pobres justicia', 'justicia social', 'duenos colombia', 'colombia estarian', 'estarian dispuestos', 'dispuestos ceder', 'ceder privilegios', 'privilegios exguerrillero', 'exguerrillero busca', 'busca cambio', 'narrativa simplista', 'simplista efectista', 'efectista danina', 'danina comenzar', 'comenzar problema', 'problema petro', 'petro exguerrillero', 'exguerrillero presidente', 'presidente antonio', 'antonio navarro', 'navarro economia', 'economia estaria', 'estaria funcionando', 'funcionando mejor', 'mejor polarizacion', 'polar

In [175]:
encoding = vectorizer.transform(docs_pairs).toarray()
co_ocurrences = encoding.T@encoding

names = vectorizer.get_feature_names_out().tolist()

np.fill_diagonal(co_ocurrences, 0)

co_ocurrences_df = pd.DataFrame(co_ocurrences, index=names, columns=names)

In [177]:
top_matches = co_ocurrences_df.sum(axis=1).sort_values(ascending=False).head(11)
top_matches

petro         15
colombia      10
razon          9
pais           8
izquierda      8
presidente     8
nadies         6
lopez          6
siempre        6
derecha        6
pobres         6
dtype: int64

In [183]:
co_ocurrences_df[co_ocurrences_df['petro']!=0]['petro'].sort_values(ascending=False)

problema         2
agitador         1
estudiado        1
exguerrillero    1
frente           1
gustavo          1
llegaria         1
narrativa        1
obsoleta         1
primer           1
razon            1
redes            1
reformas         1
verdad           1
Name: petro, dtype: int64

In [161]:
co_ocurrences_df.loc[top_matches.index,top_matches.index]

Unnamed: 0,petro,colombia,razon,presidente,izquierda,pais,siempre,derecha,nadies,pobres
petro,0,0,1,0,0,0,0,0,0,0
colombia,0,0,0,0,0,0,0,0,0,0
razon,1,0,0,0,0,0,1,0,0,0
presidente,0,0,0,0,2,0,0,0,0,0
izquierda,0,0,0,2,0,0,0,1,0,0
pais,0,0,0,0,0,0,0,0,1,0
siempre,0,0,1,0,0,0,0,0,0,0
derecha,0,0,0,0,1,0,0,0,0,0
nadies,0,0,0,0,0,1,0,0,0,0
pobres,0,0,0,0,0,0,0,0,0,0


Index(['petro', 'mas', 'colombia', 'razon', 'pais', 'presidente', 'izquierda',
       'sino', 'esten', 'pobres'],
      dtype='object')