# Espacios Vectoriales

### Cargar Data Prepocesada

In [1]:
import os
# Ruta de la carpeta
#folder_path = r'C:\Users\usuario\Fer-Pc\Escritorio\EPN\2024-A\SEPTIMO_SEMESTRE\RECUPERACION_DE_INFORMACION\repoMantillaRI\ProyectoRI\data\preprocessed_txt'
#folder_path = r"C:\Users\kevin\OneDrive\Documentos\GitHub\ProyectoRI\data\preprocessed_txt"
folder_path = r"D:\U\7. Septimo\RI\ProyectoRI\data\preprocessed_txt"

# Leer los archivos de texto en la carpeta
texts = [open(os.path.join(folder_path, filename), 'r', encoding='utf-8').read()
         for filename in os.listdir(folder_path) if filename.endswith(".txt")]

In [2]:
len(texts)

7769

# Vectorización usando Bag of Words (BoW)

In [3]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [4]:
vectorizer_bow = CountVectorizer()
X_bow = vectorizer_bow.fit_transform(texts)
# Convertir la matriz de BoW a una matriz binaria
X_bow_binary = (X_bow > 0).astype(int)

In [5]:
# Imprimir el vocabulario
print("Vocabulario:")
print(vectorizer_bow.vocabulary_)


Vocabulario:
{'bahia': 1187, 'cocoa': 2957, 'review': 17009, 'shower': 18020, 'continu': 3314, 'week': 20869, 'zone': 21400, 'allevi': 447, 'drought': 4568, 'earli': 4688, 'januari': 8099, 'improv': 7567, 'prospect': 16185, 'come': 3048, 'temporao': 19400, 'normal': 14488, 'humid': 7353, 'level': 8903, 'restor': 16954, 'comissaria': 3059, 'smith': 18269, 'dri': 4553, 'period': 15471, 'mean': 13297, 'late': 8741, 'year': 21284, 'arriv': 894, 'end': 4954, 'februari': 5496, 'bag': 1182, 'kilo': 8451, 'make': 12966, 'cumul': 3674, 'total': 19747, 'season': 17663, 'mln': 13713, 'stage': 18583, 'deliv': 3991, 'earlier': 4689, 'consign': 3263, 'includ': 7603, 'figur': 5605, 'doubt': 4494, 'crop': 3594, 'harvest': 6882, 'practic': 15921, 'estim': 5183, 'sale': 17409, 'stand': 18600, 'hundr': 7359, 'thousand': 19541, 'hand': 6793, 'farmer': 5431, 'middlemen': 13511, 'export': 5331, 'processor': 16112, 'fit': 5672, 'shipper': 17970, 'experienc': 5315, 'dificulti': 4191, 'obtain': 14661, 'superio

# Vectorización usando TF-IDF

In [6]:
vectorizer_tfidf = TfidfVectorizer()
X_tfidf = vectorizer_tfidf.fit_transform(texts)
X_tfidf_binary = (X_tfidf > 0).astype(int)


In [7]:
vocabulario_tfidf = vectorizer_tfidf.get_feature_names_out()
len(vocabulario_tfidf)

21411

In [8]:
termino = vocabulario_tfidf[14541]
print(termino)

notic


# Motor de Busqueda

In [9]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from scipy.spatial.distance import jaccard

### Busqueda con BoW

### Jaccard

In [10]:
# Vectorización de la consulta utilizando el vectorizador BoW
query = "japan revis longterm energi demand ministri"
query_vector_bow = vectorizer_bow.transform([query])
query_vector_bow_binary = (query_vector_bow > 0).astype(int)

# Calcular la similitud de Jaccard entre la consulta y los documentos
similarity_scores_jaccard = []
for doc_vector in X_bow_binary:
    score = 1 - jaccard(query_vector_bow_binary.toarray()[0], doc_vector.toarray()[0])
    similarity_scores_jaccard.append(score)

# Convertir a un array de numpy
similarity_scores_jaccard = np.array(similarity_scores_jaccard)

# Obtener los documentos ordenados por similitud
ranked_documents_jaccard = np.argsort(similarity_scores_jaccard)[::-1]

# Mostrar solo los primeros 10 resultados
for i, doc_index in enumerate(ranked_documents_jaccard[:3]):  # Solo los primeros 10 resultados
    print(f"Resultado {i+1}: Documento {doc_index}, Similitud: {similarity_scores_jaccard[doc_index]}")
    print(texts[doc_index][:200])  # Mostrar los primeros 200 caracteres del documento
    print()

Resultado 1: Documento 5093, Similitud: 0.16666666666666663
japan octoberdecemb gnp pct julysept revis rise offici japan octoberdecemb gnp pct julysept revis rise offici

Resultado 2: Documento 7233, Similitud: 0.1428571428571429
japan trade ministri ask trade hous export reduc dlr sale sourc japan trade ministri ask trade hous export reduc dlr sale sourc

Resultado 3: Documento 6864, Similitud: 0.11111111111111116
sumita bank japan interven sumita bank japan interven



### Coseno

In [11]:
query = "japan revis longterm energi demand ministri"
# Vectorización de la consulta utilizando el vectorizador BoW
query_vector_bow = vectorizer_bow.transform([query])

# Calcular la similitud entre la consulta y los documentos utilizando BoW
similarity_scores_bow = cosine_similarity(query_vector_bow, X_bow) 

# Obtener los documentos ordenados por similitud
ranked_documents_bow = np.argsort(similarity_scores_bow)[0][::-1]

# Mostrar solo los primeros 10 resultados
for i, doc_index in enumerate(ranked_documents_bow[:3]):  # Solo los primeros 10 resultados
    print(f"Resultado {i+1}: Documento {doc_index}, Similitud: {similarity_scores_bow[0][doc_index]}")
    print(texts[doc_index][:200])  # Mostrar los primeros 200 caracteres del documento
    print()

Resultado 1: Documento 4382, Similitud: 0.3265986323710905
bank japan call longterm effort trade shortterm effect foreign exchang rate movement correct intern trade imbal appear wane longterm effort requir cut japan chronic depend extern demand bank japan mon

Resultado 2: Documento 4343, Similitud: 0.3265986323710905
bank japan call longterm effort trade shortterm effect foreign exchang rate movement correct intern trade imbal appear wane longterm effort requir cut japan chronic depend extern demand bank japan mon

Resultado 3: Documento 5093, Similitud: 0.2886751345948129
japan octoberdecemb gnp pct julysept revis rise offici japan octoberdecemb gnp pct julysept revis rise offici



### Busqueda con TF IDF

### Jaccard

In [12]:
# Vectorización de la consulta utilizando el vectorizador TF-IDF
query = "japan revis longterm energi demand ministri"
query_vector_tfidf = vectorizer_tfidf.transform([query])
query_vector_tfidf_binary = (query_vector_tfidf > 0).astype(int)

# Calcular la similitud de Jaccard entre la consulta y los documentos
similarity_scores_jaccard = []
for doc_vector in X_tfidf_binary:
    score = 1 - jaccard(query_vector_tfidf_binary.toarray()[0], doc_vector.toarray()[0])
    similarity_scores_jaccard.append(score)

# Convertir a un array de numpy
similarity_scores_jaccard = np.array(similarity_scores_jaccard)

# Obtener los documentos ordenados por similitud
ranked_documents_jaccard = np.argsort(similarity_scores_jaccard)[::-1]

# Mostrar solo los primeros 10 resultados
for i, doc_index in enumerate(ranked_documents_jaccard[:3]):  # Solo los primeros 10 resultados
    print(f"Resultado {i+1}: Documento {doc_index}, Similitud: {similarity_scores_jaccard[doc_index]}")
    print(texts[doc_index][:200])  # Mostrar los primeros 200 caracteres del documento
    print()

Resultado 1: Documento 5093, Similitud: 0.16666666666666663
japan octoberdecemb gnp pct julysept revis rise offici japan octoberdecemb gnp pct julysept revis rise offici

Resultado 2: Documento 7233, Similitud: 0.1428571428571429
japan trade ministri ask trade hous export reduc dlr sale sourc japan trade ministri ask trade hous export reduc dlr sale sourc

Resultado 3: Documento 6864, Similitud: 0.11111111111111116
sumita bank japan interven sumita bank japan interven



### Coseno

In [13]:
query = "japan revis longterm energi demand ministri"

# Vectorización de la consulta utilizando el vectorizador TF-IDF
query_vector_tfidf = vectorizer_tfidf.transform([query])

# Calcular la similitud entre la consulta y los documentos utilizando TF-IDF
similarity_scores_tfidf = cosine_similarity(query_vector_tfidf, X_tfidf)

# Obtener los documentos ordenados por similitud
ranked_documents_tfidf = np.argsort(similarity_scores_tfidf)[0][::-1]

# Mostrar solo los primeros 10 resultados
for i, doc_index in enumerate(ranked_documents_tfidf[:3]):  # Solo los primeros 10 resultados
    print(f"Resultado {i+1}: Documento {doc_index}, Similitud: {similarity_scores_tfidf[0][doc_index]}")
    print(texts[doc_index][:200])  # Mostrar los primeros 200 caracteres del documento
    print()

Resultado 1: Documento 4382, Similitud: 0.3182553521039866
bank japan call longterm effort trade shortterm effect foreign exchang rate movement correct intern trade imbal appear wane longterm effort requir cut japan chronic depend extern demand bank japan mon

Resultado 2: Documento 4343, Similitud: 0.3182553521039866
bank japan call longterm effort trade shortterm effect foreign exchang rate movement correct intern trade imbal appear wane longterm effort requir cut japan chronic depend extern demand bank japan mon

Resultado 3: Documento 6606, Similitud: 0.31014857782739863
japan longterm prime cut record low japan longterm bank cut prime rate record low pct percentag point respons fall secondari market yield fiveyear debentur longterm banker longterm prime rate customar

