Nombre: Cristina Molina

# Bibliotecas

In [1]:
import os  # Interacción con el sistema de archivos.
import re  # Operaciones de expresiones regulares.
import csv  # Lectura y escritura de archivos CSV.
import pandas as pd  # Manipulación y análisis de datos tabulares.
from sklearn.metrics.pairwise import cosine_similarity  # Cálculo de similitud coseno.


# Prepocesamiento de la Data

1. **Función de preprocesamiento de texto (`preprocess_text`):**
   - **Descripción:** Esta función lee un archivo de texto, lo convierte a minúsculas, divide el texto en tokens (palabras) y elimina duplicados.
   - **Argumentos:**
     - `file_path` (str): Ruta del archivo de texto a procesar.
   - **Retorno:** Retorna una lista de tokens procesados.

2. **Procesamiento de archivos de texto:**
   - **Descripción:** Este bloque de código procesa cada archivo de texto en un directorio especificado, utilizando la función de preprocesamiento `preprocess_text`.
   - **Directorio:** El directorio de los archivos de texto se especifica en la variable `directory`.
   - **Salida:** Se almacenan los tokens procesados de todos los archivos en la lista `all_tokens`.

3. **Guardado de tokens en un archivo CSV:**
   - **Descripción:** Los tokens únicos se guardan en un archivo CSV.
   - **Archivo de salida:** El nombre del archivo CSV se especifica en la variable `csv_file`.
   - **Contenido del CSV:** Contiene una sola columna llamada "Token".

4. **Lectura y visualización del archivo CSV:**
   - **Descripción:** Lee el archivo CSV generado y muestra su contenido.
   - **Impresión:** Se imprime el contenido del archivo CSV en la consola.

In [2]:
# Función de prepocesamiento
def preprocess_text(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()

    # Convertir el texto a minúsculas
    text = text.lower()

    # Dividir el texto en tokens (palabras)
    tokens = re.findall(r'\b(?![0-9]+\b)\w+\b', text)

    # Eliminar duplicados de la lista de tokens
    tokens = list(dict.fromkeys(tokens))

    return tokens

# Directorio donde se encuentran los archivos TXT
directory = '/content/drive/MyDrive/DATA'

# Lista para almacenar los tokens procesados de todos los archivos
all_tokens = []

# Procesar cada archivo en el directorio
for filename in os.listdir(directory):
    if filename.endswith('.txt'):
        file_path = os.path.join(directory, filename)
        tokens = preprocess_text(file_path)
        all_tokens.extend(tokens)

# Eliminar duplicados de la lista de tokens de todos los archivos
all_tokens = list(dict.fromkeys(all_tokens))

In [3]:
# Guardar la lista de tokens en un archivo CSV
csv_file = 'tokens.csv'
with open(csv_file, 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(["Token"])  # Escribir encabezado
    writer.writerows([[token] for token in all_tokens])

print(f"Se han guardado los tokens en {csv_file}.")

Se han guardado los tokens en tokens.csv.


In [4]:
# Leer y mostrar el contenido del archivo CSV
print("Contenido del archivo CSV:")
with open(csv_file, 'r', encoding='utf-8') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

Contenido del archivo CSV:
['Token']
['westfalenpark']
['es']
['uno']
['de']
['los']
['parques']
['urbanos']
['más']
['grandes']
['europa']
['rosarium']
['que']
['alberga']
['una']
['las']
['colecciones']
['extensas']
['rosas']
['en']
['el']
['mundo']
['y']
['la']
['un']
['lugar']
['destacado']
['para']
['visitantes']
['dortmund']
['parque']
['famoso']
['por']
['su']
['torre']
['florian']
['ofrece']
['vistas']
['panorámicas']
['ciudad']
['u']
['tower']
['centro']
['arte']
['creatividad']
['antigua']
['cervecería']
['reconvertida']
['ahora']
['dinámico']
['museo']
['ostwall']
['espacios']
['exposiciones']
['estudios']
['artistas']
['símbolo']
['transformación']
['cultural']
['tiene']
['larga']
['tradición']
['cervecera']
['visita']
['a']
['sus']
['muchas']
['cervecerías']
['parada']
['obligatoria']
['ofrecen']
['tours']
['incluyen']
['degustaciones']
['cervezas']
['locales']
['como']
['dortmunder']
['export']
['lager']
['orgullo']
['mercado']
['navidad']
['posiblemente']
['alto']
['merc

# Matriz de Conteo de Palabras

1. **Procesamiento de archivos de texto y conteo de palabras:**
   - **Descripción:** Este bloque de código recorre cada archivo de texto en un directorio especificado, realiza el preprocesamiento del texto y cuenta la frecuencia de cada palabra en cada archivo.
   - **Tokenización y conteo:** Para cada archivo, se tokeniza el texto y se cuentan las ocurrencias de cada token en el texto.
   - **Almacenamiento de resultados:** Los conteos de palabras se almacenan en un DataFrame de Pandas llamado `dfConteos`.
   - **Columnas:** Cada columna del DataFrame representa una palabra única encontrada en los textos.
   - **Filas:** Cada fila del DataFrame representa un archivo de texto, con los conteos de palabras correspondientes.

In [5]:
# Lista para almacenar los tokens procesados de todos los archivos
all_tokens = []

# Procesar cada archivo en el directorio
for filename in os.listdir("/content/drive/MyDrive/DATA"):
    if filename.endswith('.txt'):
        file_path = os.path.join("/content/drive/MyDrive/DATA", filename)
        tokens = preprocess_text(file_path)
        all_tokens.extend(tokens)

# Eliminar duplicados de la lista de tokens de todos los archivos
all_tokens = list(dict.fromkeys(all_tokens))

# Definir los nombres de los textos y los conteos de palabras relacionadas con cada categoría
textos = os.listdir("/content/drive/MyDrive/DATA")

# Crear una lista de listas para almacenar los conteos de palabras
conteos = []

# Procesar cada archivo en el directorio
for filename in os.listdir("/content/drive/MyDrive/DATA"):
    if filename.endswith('.txt'):
        file_path = os.path.join("/content/drive/MyDrive/DATA", filename)
        with open(file_path, 'r', encoding='utf-8') as file:
            text = file.read().lower()
            # Inicializar la lista de conteos para este archivo
            conteo = []
            # Contar cuántas veces aparece cada palabra de la lista en el texto
            for token in all_tokens:
                count = text.count(token)
                conteo.append(count)
            # Agregar los conteos de palabras para este archivo a la lista de conteos
            conteos.append(conteo)

# Crear un DataFrame de Pandas con los conteos de palabras
dfConteos = pd.DataFrame(conteos, columns=all_tokens, index=textos)

# Mostrar el DataFrame
dfConteos

Unnamed: 0,westfalenpark,es,uno,de,los,parques,urbanos,más,grandes,europa,...,decoraciones,plaza,mayor,convierte,enorme,pueden,encontrar,tipo,regalos,delicias
12. Westfalenpark.txt,2,9,1,7,2,1,1,2,1,1,...,0,0,0,0,0,0,0,0,0,0
15. U-Tower - Centro de Arte y Creatividad.txt,0,5,0,6,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
17. La cervecería Dortmund.txt,0,4,0,5,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
14. Mercado de Navidad de Dortmund.txt,0,7,1,11,1,0,0,2,1,0,...,0,0,0,0,0,0,0,0,0,0
13. Museo del Fútbol Alemán.txt,0,3,0,10,2,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
11. Historia de Dortmund.txt,0,1,0,3,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
16. Borussia Dortmund y el Signal Iduna Park.txt,0,3,1,3,1,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
20. Zoológico de Dortmund.txt,0,6,0,5,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
07. Real Madrid y el Estadio Santiago Bernabéu.txt,0,7,1,3,3,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
06. Gran Vía.txt,0,5,0,3,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0


In [6]:
# Guardar el contenido del DataFrame en un archivo CSV
csv_matrizConteo = 'matrizConteo.csv'
dfConteos.to_csv(csv_matrizConteo)

print(f"Se ha guardado el contenido del DataFrame en {csv_matrizConteo}.")

Se ha guardado el contenido del DataFrame en matrizConteo.csv.


# Matriz de querys y términos

1. **Procesamiento de las querys y conteo de palabras:**
   - **Descripción:** Este bloque de código realiza un proceso similar al anterior, pero en lugar de procesar archivos de texto ordinarios, procesa archivos de consulta almacenados en un directorio específico.
   - **Tokenización y conteo:** Para cada archivo de consulta, se tokeniza el texto y se cuentan las ocurrencias de cada token en el texto.
   - **Almacenamiento de resultados:** Los conteos de palabras de las consultas se almacenan en un DataFrame de Pandas llamado `dfConteosQ`.
   - **Columnas:** Cada columna del DataFrame representa una palabra única encontrada en los textos de consulta.
   - **Filas:** Cada fila del DataFrame representa un archivo de consulta, con los conteos de palabras correspondientes.


In [7]:
# Ruta base para construir los tokens
base_path = "/content/drive/MyDrive/DATA"

# Lista para almacenar los tokens procesados de todos los archivos en la ruta base
all_tokens = []

# Procesar cada archivo en la ruta base
for filename in os.listdir(base_path):
    if filename.endswith('.txt'):
        file_path = os.path.join(base_path, filename)
        tokens = preprocess_text(file_path)  # Suponiendo que tienes la función preprocess_text definida
        all_tokens.extend(tokens)

# Eliminar duplicados de la lista de tokens de todos los archivos
all_tokens = list(dict.fromkeys(all_tokens))

# Definir los nombres de los textos y los conteos de palabras relacionadas con cada categoría
textosQ = os.listdir("/content/drive/MyDrive/querys")

# Crear una lista de listas para almacenar los conteos de palabras
conteosQ = []

# Procesar cada archivo en el directorio
for filename in os.listdir("/content/drive/MyDrive/querys"):
    if filename.endswith('.txt'):
        file_path = os.path.join("/content/drive/MyDrive/querys", filename)
        with open(file_path, 'r', encoding='utf-8') as file:
            textQ = file.read().lower()  # Cambio aquí, utilizar textQ en lugar de textosQ
            # Inicializar la lista de conteos para este archivo
            conteoQ = []
            # Contar cuántas veces aparece cada palabra de la lista en el texto
            for token in all_tokens:
                count = textQ.count(token)
                conteoQ.append(count)
            # Agregar los conteos de palabras para este archivo a la lista de conteos
            conteosQ.append(conteoQ)

# Crear un DataFrame de Pandas con los conteos de palabras
dfConteosQ = pd.DataFrame(conteosQ, columns=all_tokens, index=textosQ)

# Mostrar el DataFrame
dfConteosQ

Unnamed: 0,westfalenpark,es,uno,de,los,parques,urbanos,más,grandes,europa,...,decoraciones,plaza,mayor,convierte,enorme,pueden,encontrar,tipo,regalos,delicias
query1.txt,0,1,0,2,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
query2.txt,0,2,0,1,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
query3.txt,0,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
query4.txt,0,2,0,2,1,1,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
query5.txt,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
query6.txt,0,0,0,1,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
query7.txt,0,2,0,2,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
query8.txt,0,1,0,1,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
query9.txt,0,1,0,2,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
query10.txt,0,1,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [8]:
# Guardar el contenido del DataFrame en un archivo CSV
csv_matrizQuery = 'matrizQuery.csv'
dfConteosQ.to_csv(csv_matrizQuery)

print(f"Se ha guardado el contenido del DataFrame en {csv_matrizQuery}.")

Se ha guardado el contenido del DataFrame en matrizQuery.csv.


# Similitud Coseno por cada query

1. **Cálculo de similitud de coseno entre consultas y documentos:**
   - **Descripción:** Este bloque de código calcula la similitud coseno entre cada consulta y cada documento basándose en los vectores de frecuencia de palabras obtenidos previamente para ambos conjuntos de datos.
   - **Vectores de documentos:** Se extraen los vectores de frecuencia de palabras de los documentos del DataFrame `dfConteos`.
   - **Vectores de consultas:** Se extraen los vectores de frecuencia de palabras de las consultas del DataFrame `dfConteosQ`.
   - **Cálculo de similitud:** Utilizando la función `cosine_similarity` de scikit-learn, se calcula la similitud coseno entre los vectores de consulta y los vectores de documentos.
   - **Almacenamiento de resultados:** Las similitudes calculadas se almacenan en un DataFrame de Pandas llamado `df_similitudes`.
   - **Índices y columnas:** Los índices del DataFrame representan los nombres de las consultas, mientras que las columnas representan los nombres de los documentos. Los valores en cada celda del DataFrame son las similitudes coseno entre la consulta correspondiente y el documento respectivo.

In [9]:
# Iterar sobre cada fila del DataFrame y convertirla en un vector
vectores_documentos = dfConteos.values

# Iterar sobre cada fila del DataFrame de consultas y convertirla en un vector
vectores_consultas = dfConteosQ.values

# Calcular la similitud coseno entre cada consulta y cada documento
similitudes = cosine_similarity(vectores_consultas, vectores_documentos)

# Convertir las similitudes en un DataFrame para una mejor visualización
df_similitudes = pd.DataFrame(similitudes, index=dfConteosQ.index, columns=dfConteos.index)

In [10]:
df_similitudes

Unnamed: 0,12. Westfalenpark.txt,15. U-Tower - Centro de Arte y Creatividad.txt,17. La cervecería Dortmund.txt,14. Mercado de Navidad de Dortmund.txt,13. Museo del Fútbol Alemán.txt,11. Historia de Dortmund.txt,16. Borussia Dortmund y el Signal Iduna Park.txt,20. Zoológico de Dortmund.txt,07. Real Madrid y el Estadio Santiago Bernabéu.txt,06. Gran Vía.txt,04. Parque del Retiro.txt,01. Historia de Madrid.txt,05. Gastronomía Madrileña.txt,03. Museo del Prado.txt,02. El Palacio Real.txt,19. Dortmund durante la Segunda Guerra Mundial.txt,18. La Reinoldikirche.txt,10. Madrid Río.txt,09. Nochevieja en Puerta del Sol.txt,08 Navidad en Madrid.txt
query1.txt,0.888786,0.882145,0.862907,0.871421,0.837419,0.854727,0.855062,0.861528,0.853737,0.885584,0.880967,0.886169,0.879834,0.800626,0.905189,0.801199,0.899141,0.896791,0.891824,0.876821
query2.txt,0.801201,0.762217,0.718931,0.767364,0.724263,0.719227,0.713668,0.758507,0.731605,0.767421,0.774654,0.726766,0.70788,0.729187,0.735409,0.740646,0.705165,0.731854,0.683998,0.711589
query3.txt,0.904543,0.891105,0.915195,0.839025,0.862818,0.928355,0.912246,0.902393,0.871957,0.921987,0.88337,0.926151,0.882354,0.762346,0.874726,0.889198,0.877915,0.890971,0.90713,0.869108
query4.txt,0.935752,0.869539,0.876109,0.87178,0.848676,0.845617,0.854924,0.870515,0.87101,0.891056,0.904961,0.901735,0.872872,0.820857,0.851384,0.822166,0.881861,0.890586,0.872226,0.870515
query5.txt,0.871477,0.866334,0.825012,0.839921,0.791155,0.867493,0.867179,0.900464,0.889017,0.897913,0.843307,0.881938,0.951227,0.726393,0.900832,0.761178,0.877472,0.922602,0.888277,0.895489
query6.txt,0.539168,0.491321,0.499347,0.570189,0.561249,0.556794,0.469446,0.560758,0.438792,0.517549,0.505013,0.535211,0.439917,0.437842,0.457961,0.519984,0.459711,0.441769,0.514868,0.519975
query7.txt,0.893785,0.88851,0.828037,0.918295,0.863528,0.819661,0.836823,0.885015,0.864818,0.865226,0.903799,0.858929,0.873545,0.844585,0.869591,0.78298,0.873729,0.890507,0.882321,0.899765
query8.txt,0.794359,0.795193,0.75672,0.766131,0.787147,0.779365,0.751748,0.779842,0.742197,0.788694,0.76219,0.781026,0.750776,0.767129,0.721899,0.776699,0.748896,0.751538,0.745674,0.766396
query9.txt,0.899192,0.893885,0.91635,0.83825,0.874803,0.907082,0.894757,0.870583,0.838271,0.892035,0.854457,0.889665,0.804059,0.827845,0.809585,0.955214,0.861085,0.848742,0.83086,0.812544
query10.txt,0.901537,0.885916,0.89304,0.823763,0.85884,0.88764,0.893224,0.865329,0.866799,0.907165,0.864485,0.898461,0.843504,0.802076,0.788856,0.895768,0.841959,0.863997,0.839699,0.8183


# Ranking, top 3 de los textos mas cercanos a las querys

1. **Creación del diccionario de contenidos de consulta:**
   - **Descripción:** Este bloque de código lee el contenido de cada archivo de consulta en el directorio especificado y lo almacena en un diccionario donde la clave es el nombre del archivo y el valor es el contenido del archivo en minúsculas.
   - **Directorio de consultas:** Se especifica el directorio donde se encuentran los archivos de consulta en la variable `directory_queries`.
   - **Lectura de archivos:** Se itera sobre cada archivo en el directorio de consultas y se lee su contenido utilizando un bucle `for` y la función `open`.
   - **Almacenamiento en el diccionario:** El contenido de cada archivo se almacena en el diccionario `contenidos_consultas`, donde la clave es el nombre del archivo y el valor es su contenido.

2. **Obtención del ranking de documentos para cada consulta:**
   - **Descripción:** Este bloque de código calcula los documentos más similares para cada consulta basándose en las similitudes coseno previamente calculadas y los contenidos de las consultas.
   - **Iteración sobre las similitudes:** Se itera sobre cada fila del DataFrame `df_similitudes`, donde cada fila representa una consulta y cada columna representa un documento.
   - **Ordenamiento de los documentos:** Para cada consulta, se ordenan los documentos por similitud coseno y se obtienen los índices de los tres documentos más similares.
   - **Almacenamiento del ranking:** Los nombres de los documentos correspondientes a los tres índices más altos se almacenan en un diccionario `top_documentos_por_consulta`, donde la clave es el contenido de la consulta y el valor es una lista de los nombres de los documentos más similares.
   - **Impresión del ranking:** Se imprime el ranking de documentos para cada consulta, mostrando la consulta y los documentos más similares.


In [11]:
# Directorio donde se encuentran los archivos de consulta
directory_queries = "/content/drive/MyDrive/querys"

# Diccionario para almacenar los contenidos de las consultas
contenidos_consultas = {}

# Leer el contenido de cada archivo de consulta y almacenarlo en el diccionario
for filename in os.listdir(directory_queries):
    if filename.endswith('.txt'):
        file_path = os.path.join(directory_queries, filename)
        with open(file_path, 'r', encoding='utf-8') as file:
            text_query = file.read().lower()
            contenidos_consultas[filename] = text_query

# Crear un diccionario para almacenar los documentos más similares para cada consulta
top_documentos_por_consulta = {}

# Obtener el top 3 de documentos más similares para cada consulta
for index, row in df_similitudes.iterrows():
    # Ordenar los documentos por similitud coseno y obtener los índices de los tres más altos
    top_documentos_indices = row.argsort()[-3:][::-1]
    # Obtener los nombres de los documentos correspondientes a esos índices
    top_documentos = df_similitudes.columns[top_documentos_indices]
    # Almacenar los nombres de los documentos en el diccionario
    top_documentos_por_consulta[contenidos_consultas[index]] = top_documentos.tolist()

# Mostrar el ranking de documentos para cada consulta
for consulta, documentos in top_documentos_por_consulta.items():
    print(f"Consulta: {consulta}")
    print(f"Documentos más similares: {documentos}")
    print()

Consulta: historia medieval de las ciudades europeas
Documentos más similares: ['02. El Palacio Real.txt', '18. La Reinoldikirche.txt', '10. Madrid Río.txt']

Consulta: principales destinos turísticos en europa
Documentos más similares: ['12. Westfalenpark.txt', '04. Parque del Retiro.txt', '06. Gran Vía.txt']

Consulta: influencia de la realeza en la cultura europea
Documentos más similares: ['11. Historia de Dortmund.txt', '01. Historia de Madrid.txt', '06. Gran Vía.txt']

Consulta: importancia de los parques urbanos en las ciudades
Documentos más similares: ['12. Westfalenpark.txt', '04. Parque del Retiro.txt', '01. Historia de Madrid.txt']

Consulta: gastronomía típica en capitales europeas
Documentos más similares: ['05. Gastronomía Madrileña.txt', '10. Madrid Río.txt', '02. El Palacio Real.txt']

Consulta: eventos deportivos icónicos en europa
Documentos más similares: ['14. Mercado de Navidad de Dortmund.txt', '13. Museo del Fútbol Alemán.txt', '20. Zoológico de Dortmun