In [1]:
import os
import re
from collections import Counter
import csv
import csv
import math
def preprocess_text(text):
    # Convertir el texto a minúsculas
    text = text.lower()
    # Eliminar caracteres no alfabéticos y números
    text = re.sub(r'[^a-záéíóúüñ]', ' ', text)
    return text

def create_term_document_matrix(texts):
    word_set = set()
    term_document_matrix = {}

    # Crear un conjunto de palabras únicas
    for text in texts:
        text = preprocess_text(text)
        words = text.split()
        word_set.update(words)

    # Inicializar la matriz de términos-documento
    for word in word_set:
        term_document_matrix[word] = [0] * len(texts)

    # Contar la frecuencia de palabras en cada texto
    for i, text in enumerate(texts):
        text = preprocess_text(text)
        words = text.split()
        word_freq = Counter(words)
        for word, freq in word_freq.items():
            term_document_matrix[word][i] = freq

    return term_document_matrix

def read_texts_from_files(folder_path):
    texts = []
    file_list = os.listdir(folder_path)
    for file_name in file_list:
        file_path = os.path.join(folder_path, file_name)
        with open(file_path, 'r', encoding='utf-8') as file:
            text = file.read()
            texts.append(text)
    return texts

def save_matrix_to_csv(matrix, csv_file_path):
    with open(csv_file_path, 'w', newline='', encoding='utf-8-sig') as csvfile:
        writer = csv.writer(csvfile)
        # Escribir los encabezados de las columnas
        writer.writerow(['Palabra'] + [f'Texto {i+1}' for i in range(20)])  # 20 es el número de textos
        # Escribir los datos de la matriz
        for word, frequencies in matrix.items():
            writer.writerow([word] + frequencies)

# Ruta de la carpeta que contiene los archivos de texto
folder_path = 'DATA'

# Leer los textos de los archivos
texts = read_texts_from_files(folder_path)

# Crear la matriz de términos-documento
term_document_matrix = create_term_document_matrix(texts)

# Ruta donde quieres guardar el archivo CSV (en la misma carpeta que el script)
csv_file_path = 'archivo.csv'

# Guardar la matriz en un archivo CSV
save_matrix_to_csv(term_document_matrix, csv_file_path)


In [2]:
consultas = [
    "Historia medieval de las ciudades europeas",
    "Principales destinos turísticos en Europa",
    "Influencia de la realeza en la cultura europea",
    "Importancia de los parques urbanos en las ciudades",
    "Gastronomía típica en capitales europeas",
    "Eventos deportivos icónicos en Europa",
    "Celebraciones de Navidad en ciudades europeas",
    "Museos de arte importantes en Europa",
    "Efectos de la Segunda Guerra Mundial en ciudades europeas",
    "Arquitectura histórica en ciudades europeas",
    "Clubes de futbol famosos y sus estadios en Europa",
    "Transformación urbana y regeneración de espacios",
    "Tradición cervecera en ciudades europeas",
    "Mercados y comercio tradicional en Europa",
    "Centros de arte y creatividad en ciudades modernas",
    "Actividades de ocio y entretenimiento en ciudades metropolitanas",
    "Conservación de la naturaleza y la vida silvestre en zonas urbanas",
    "Planificación de eventos culturales y festivales en ciudades",
    "Desarrollo del transporte y la infraestructura urbana",
    "Impacto de la tecnología en la vida urbana"
]
# Función para leer la matriz de términos-documento desde un archivo CSV
def read_matrix_from_csv(csv_file_path):
    term_document_matrix = {}
    with open(csv_file_path, 'r', encoding='utf-8-sig') as csvfile:
        reader = csv.reader(csvfile)
        headers = next(reader)  # Leer los encabezados de las columnas
        for row in reader:
            palabra = row[0]
            frecuencias = list(map(int, row[1:]))  # Convertir las frecuencias de str a int
            term_document_matrix[palabra] = frecuencias
    return term_document_matrix


In [3]:
import pandas as pd
import numpy as np

# Función para crear la matriz de consulta
def crear_matriz_consulta(consulta, term_document_matrix):
    matriz_consulta = np.zeros(len(term_document_matrix[next(iter(term_document_matrix))]))
    palabras_consulta = consulta.lower().split()
    for palabra in palabras_consulta:
        if palabra in term_document_matrix:
            matriz_consulta += np.array(term_document_matrix[palabra])
    return matriz_consulta

# Leer la matriz de términos-documento desde el archivo CSV
term_document_matrix = read_matrix_from_csv(csv_file_path)

# Crear una lista de vectores de consulta
vectores_consultas = [crear_matriz_consulta(consulta, term_document_matrix) for consulta in consultas]

# Convertir la lista de vectores en un DataFrame para una mejor visualización
df_vectores_consultas = pd.DataFrame(vectores_consultas, columns=range(1, len(vectores_consultas[0]) + 1))

# Mostrar el DataFrame de vectores de consulta
print(df_vectores_consultas)


      1     2    3     4    5    6    7     8     9    10   11    12   13  \
0    7.0   9.0  3.0   4.0  2.0  4.0  3.0   2.0   5.0  2.0  4.0   6.0  2.0   
1    1.0   1.0  0.0   0.0  1.0  0.0  1.0   2.0   1.0  2.0  3.0   3.0  3.0   
2   10.0  11.0  3.0   8.0  2.0  5.0  3.0   8.0  10.0  6.0  7.0  11.0  6.0   
3    8.0   8.0  5.0   4.0  3.0  4.0  6.0   4.0   6.0  4.0  5.0  12.0  6.0   
4    1.0   0.0  0.0   0.0  2.0  0.0  1.0   2.0   1.0  2.0  3.0   2.0  3.0   
5    1.0   1.0  0.0   0.0  1.0  0.0  1.0   2.0   1.0  2.0  3.0   3.0  3.0   
6    6.0   7.0  3.0   4.0  2.0  3.0  3.0   6.0   4.0  4.0  5.0   7.0  4.0   
7    6.0   8.0  5.0   4.0  2.0  3.0  3.0   4.0   4.0  4.0  5.0   8.0  4.0   
8    8.0   9.0  3.0   6.0  2.0  4.0  3.0   6.0   7.0  5.0  6.0   9.0  5.0   
9    1.0   0.0  0.0   0.0  1.0  1.0  1.0   2.0   1.0  2.0  3.0   2.0  3.0   
10   8.0  10.0  6.0   6.0  3.0  6.0  9.0   6.0   5.0  6.0  6.0  10.0  6.0   
11   7.0   9.0  5.0   6.0  2.0  5.0  5.0   4.0   4.0  5.0  3.0   7.0  2.0   

In [4]:
import pandas as pd
from numpy.linalg import norm

# Función para calcular la similitud coseno entre dos vectores
def similitud_coseno(vector_query, vector_documento):
    dot_product = np.dot(vector_query, vector_documento)
    query_norm = norm(vector_query)
    doc_norm = norm(vector_documento)
    similarity = dot_product / (query_norm * doc_norm)
    return similarity

# Leer los textos desde archivos de texto
def read_texts_from_files(folder_path):
    texts = []
    file_list = os.listdir(folder_path)
    for file_name in file_list:
        file_path = os.path.join(folder_path, file_name)
        with open(file_path, 'r', encoding='utf-8') as file:
            text = file.read()
            texts.append(text)
    return texts

# Leer los textos de los archivos
folder_path = 'DATA'  # Cambia 'ruta_de_tu_carpeta_de_textos' por la ruta correcta
texts = read_texts_from_files(folder_path)

# Calcular la similitud coseno entre cada consulta y cada documento
similitudes = []
for vector_consulta in vectores_consultas:
    similitudes_documento = []
    for documento in term_document_matrix:
        similitud = similitud_coseno(vector_consulta, term_document_matrix[documento])
        similitudes_documento.append(similitud)
    similitudes.append(similitudes_documento)

# Convertir las similitudes en un DataFrame para una mejor visualización
df_similitudes = pd.DataFrame(similitudes, columns=list(term_document_matrix.keys()), index=consultas)

# Mostrar el DataFrame de similitudes
print(df_similitudes)

# Guardar el DataFrame de similitudes en un archivo CSV
df_similitudes.to_csv('similitudes.csv')

                                                          un      park  \
Historia medieval de las ciudades europeas          0.725715  0.144005   
Principales destinos turísticos en Europa           0.458957  0.285714   
Influencia de la realeza en la cultura europea      0.772274  0.194595   
Importancia de los parques urbanos en las ciudades  0.712468  0.221766   
Gastronomía típica en capitales europeas            0.417959  0.294884   
Eventos deportivos icónicos en Europa               0.458957  0.285714   
Celebraciones de Navidad en ciudades europeas       0.767557  0.223161   
Museos de arte importantes en Europa                0.787309  0.216982   
Efectos de la Segunda Guerra Mundial en ciudade...  0.765141  0.195907   
Arquitectura histórica en ciudades europeas         0.455842  0.301511   
Clubes de futbol famosos y sus estadios en Europa   0.757838  0.331662   
Transformación urbana y regeneración de espacios    0.827267  0.220714   
Tradición cervecera en ciudades europe

In [5]:
# Función para calcular la similitud coseno entre dos vectores
def similitud_coseno(vector_query, vector_documento):
    dot_product = np.dot(vector_query, vector_documento)
    query_norm = norm(vector_query)
    doc_norm = norm(vector_documento)
    similarity = dot_product / (query_norm * doc_norm)
    return similarity
# Leer la matriz de términos-documento desde el archivo CSV
term_document_matrix = read_matrix_from_csv(csv_file_path)

# Crear una lista de vectores de consulta después de leer la matriz
vectores_consultas = [crear_matriz_consulta(consulta, term_document_matrix) for consulta in consultas]

# Calcular la similitud coseno entre cada consulta y cada documento
similitudes = []
for vector_consulta in vectores_consultas:
    similitudes_documento = []
    for documento in term_document_matrix:
        similitud = similitud_coseno(vector_consulta, term_document_matrix[documento])
        similitudes_documento.append(similitud)
    similitudes.append(similitudes_documento)

# Convertir las similitudes en un DataFrame para una mejor visualización
df_similitudes = pd.DataFrame(similitudes, columns=list(term_document_matrix.keys()), index=consultas)

# Mostrar el DataFrame de similitudes
print(df_similitudes)

# Obtener los top 3 textos más similares para cada consulta
top_3_textos = {}
for i, consulta in enumerate(consultas):
    top_3_indices = np.argsort(similitudes[i])[-3:][::-1]
    print(f"Similitudes para la consulta '{consulta}': {similitudes[i]}")
    top_3_textos[consulta] = [(indice + 1, texts[indice]) for indice in top_3_indices if indice < len(texts)]

# Imprimir los top 3 textos para cada consulta
for consulta, top_3 in top_3_textos.items():
    print(f"\nTop 3 textos para la consulta: {consulta}")
    for rank, texto in top_3:
        print(f"Rank {rank}: {texto}")



                                                          un      park  \
Historia medieval de las ciudades europeas          0.725715  0.144005   
Principales destinos turísticos en Europa           0.458957  0.285714   
Influencia de la realeza en la cultura europea      0.772274  0.194595   
Importancia de los parques urbanos en las ciudades  0.712468  0.221766   
Gastronomía típica en capitales europeas            0.417959  0.294884   
Eventos deportivos icónicos en Europa               0.458957  0.285714   
Celebraciones de Navidad en ciudades europeas       0.767557  0.223161   
Museos de arte importantes en Europa                0.787309  0.216982   
Efectos de la Segunda Guerra Mundial en ciudade...  0.765141  0.195907   
Arquitectura histórica en ciudades europeas         0.455842  0.301511   
Clubes de futbol famosos y sus estadios en Europa   0.757838  0.331662   
Transformación urbana y regeneración de espacios    0.827267  0.220714   
Tradición cervecera en ciudades europe