In [1]:
import re
import os
import nltk
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer, WordNetLemmatizer

In [2]:
def normalize_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

In [3]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download("omw-1.4")

def remove_stopwords(text, custom_stopwords_file):
    tokens = word_tokenize(text)
    
    stop_words = set(stopwords.words('english'))
    
    if custom_stopwords_file:
        with open(custom_stopwords_file, 'r') as file:
            custom_stopwords = set(word.strip() for word in file)
        stop_words = stop_words.union(custom_stopwords)
    
    filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
    return filtered_tokens

def apply_stemming(tokens):
    stemmer = PorterStemmer()
    stemmed_tokens = [stemmer.stem(word) for word in tokens]
    return stemmed_tokens

def apply_lemmatization(tokens):
    lemmatizer = WordNetLemmatizer()
    lemmatized_tokens = [lemmatizer.lemmatize(word) for word in tokens]
    return lemmatized_tokens


[nltk_data] Downloading package punkt to /home/jeffersonc/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/jeffersonc/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/jeffersonc/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /home/jeffersonc/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [4]:
data_directory = 'data/reuters/training/'
custom_stopwords_file = "data/reuters/stopwords"

def load_data():
    files = {}
    for filename in os.listdir(data_directory):
        with open(os.path.join(data_directory, filename), 'r') as file:
            content = file.read()  # Leer todo el contenido del archivo como una cadena
            content_normalized=normalize_text(content)
            content=remove_stopwords(content_normalized,custom_stopwords_file)
            #content=apply_stemming(content)
            content=apply_lemmatization(content)
            files[filename] = content
    return files

In [5]:
# Ejemplo de uso
data = load_data()


In [6]:
i=0
for filename, content in data.items():
    print(f"Nombre del archivo: {filename}")
    print(f"Contenido del archivo: {content}\n")
    if(i>=5):
       break
    else:
        i+=1

Nombre del archivo: 4819
Contenido del archivo: ['consumer', 'financial', 'corp', 'ltcfin', '1986', 'net', 'shr', '61', 'ct', '42', 'ct', 'net', '6247000', '5587000', 'rev', '654', 'mln', '536', 'mln', 'note', '1986', 'net', 'includes', 'investment', 'gain', '25', 'ct', 'share', 'versus', 'ct', 'share', '1985', 'extraordinary', 'gain', 'ct', 'share']

Nombre del archivo: 12797
Contenido del archivo: ['pioneer', 'sugar', 'csr', 'takeover', 'offer', 'low', 'ltpioneer', 'sugar', 'mill', 'considered', 'proposed', '220', 'dlrs', 'share', 'cash', 'takeover', 'offer', 'announced', 'csr', 'ltcsras', 'march', '31', 'low', 'view', 'grouphkuiie', 'prospect', 'csrs', 'bid', '6826', 'pct', 'pioneer', '9980', 'mln', 'issued', 'share', 'hold', 'value', 'entire', 'grop_j9culd', 'make', 'alternative', 'share', 'offer', 'announced', 'term', 'pioneer', 'recommended', 'statement', 'shareholder', 'retain', 'stock', 'pending', 'board', 'response', 'receives', 'full', 'detail', 'csr', 'offer']

Nombre del ar

In [6]:
import pandas as pd

unique_words = set()

files_content=data
for file_content in files_content.values():
    unique_words.update(file_content)

df = pd.DataFrame(0, index=files_content.keys(), columns=sorted(unique_words))

for file_name, file_content in files_content.items():
    for word in file_content:
        df.at[file_name, word] += 1


In [7]:
df = df.sort_index(axis=0)
df

Unnamed: 0,0,000,0006913,0006916,0007050,0007100,0007150,001,0015,0020,...,zorinsky,zseven,zuccherifici,zuckerman,zulia,zurich,zurichbased,zuyuan,zverev,zzzz
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
10,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
100,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1000,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
10000,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
999,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9992,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9993,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9994,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [12]:
df.to_csv('Back_of_words_version2.1.csv', index=True)

In [12]:
pruebadf=pd.read_csv('Back_of_words_version2.csv')
pruebadf

In [8]:
nombres_columnas = df.columns.tolist()

print(nombres_columnas)



In [9]:
def crear_array_regex(query, nombres_columnas):
    patrones = [r'\b{}\b'.format(re.escape(palabra)) for palabra in query.split()]
    regex = re.compile('|'.join(patrones))
    resultado = [1 if regex.search(columna) else 0 for columna in nombres_columnas]
    
    return resultado

query = "trade example"
array_resultado = crear_array_regex(query, nombres_columnas)
print(array_resultado)

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

In [10]:
for valie in array_resultado:
    if valie==1:
        print(valie)

1
1


In [15]:
titulos = df.index.tolist()

print(titulos)

['1', '10', '100', '1000', '10000', '10002', '10005', '10008', '10011', '10014', '10015', '10018', '10023', '10025', '10027', '1003', '10032', '10035', '10037', '10038', '10040', '10041', '10042', '10043', '10046', '10048', '10049', '10050', '10052', '10053', '10054', '10057', '10058', '10061', '10062', '10064', '10065', '10066', '10067', '10068', '1007', '10071', '10073', '10074', '10075', '10076', '10078', '10079', '1008', '10080', '10081', '10083', '10085', '10086', '10088', '10089', '1009', '10090', '10091', '10092', '10094', '10095', '10096', '10097', '10098', '10099', '101', '1010', '10100', '10102', '10105', '10106', '10107', '10108', '10109', '1011', '10110', '10112', '10114', '10115', '10119', '10120', '10122', '10124', '10128', '10129', '1013', '10130', '10135', '10136', '10139', '10140', '10146', '1015', '10151', '10153', '10154', '10155', '10156', '10158', '1016', '10162', '10163', '10165', '10168', '1017', '10171', '10172', '10173', '10174', '10175', '10176', '10177', '101

In [16]:
import numpy as np
def calculo_distancia(np_array_query, np_array_text,scores):
  producto_punto = np.dot(np_array_query, np_array_text)

  norma_a = np.linalg.norm(np_array_query)
  norma_b = np.linalg.norm(np_array_text)

  distancia_coseno = producto_punto / (norma_a * norma_b)
  scores.append(distancia_coseno)

In [14]:
def ranked_skores(scores):
    score_sorted=sorted(scores)
    #best_scores=score_sorted[:3]
    best_titles = []
    titulos_aux=titulos.copy()
    contador=0
    for score in score_sorted:
        if score==0.0:
            print("No hay similitud")
        else:         
            indice = scores.index(score) 
            best_titles.append(titulos[indice])     
            scores[indice]=None
            titulos_aux[indice]=None 
            contador+=1
            if contador>=3:
                break   
    print("los tres titulos: ", best_titles)
    print("****************************")
    print("\n\n")
    return best_titles

In [17]:
import numpy as np
array_query = np.array(array_resultado)
print("Query a procesar: ",query)
scores=[]
for ind,fil in df.iterrows():
    array_doc=np.array(fil)
    calculo_distancia(array_query,array_doc,scores)
best_titles=ranked_skores(scores)


Query a procesar:  trade example
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitud
No hay similitu

In [18]:
print(best_titles)

['5214', '6357', '6890']
