# Taller 02: Modelo de Espacio Vectorial - Byron Ortiz

### Prof. Iván Carrera


### Objetivo: 
Comprender y aplicar el Modelo de Espacio Vectorial para el ranking de documentos basado en la similitud de contenido con una consulta dada

In [1]:
import os
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# Ruta a la carpeta donde están los documentos
data_path = 'data2'

# Lista de títulos de los documentos
document_titles = ["Historia de Madrid", "El Palacio Real", "Museo del Prado", "Parque del Retiro", 
                   "Gastronomía Madrilena", "Gran Vía", "Real Madrid y el Estadio Santiago Bernabéu", 
                   "Navidad en Madrid", "Nochevieja en Puerta del Sol", "Madrid Río", "Historia de Dortmund", 
                   "Westfalenpark", "Museo del Fútbol Alemán", "Mercado de Navidad de Dortmund", 
                   "U-Tower - Centro de Arte y Creatividad", "Borussia Dortmund y el Signal Iduna Park", 
                   "La cervecería Dortmund", "La Reinoldikirche", "Dortmund durante la Segunda Guerra Mundial", 
                   "Zoológico de Dortmund"]

# Leer los documentos
documents = []
for i in range(1, 21):
    with open(os.path.join(data_path, f"dat{i}.txt"), 'r', encoding='utf-8') as file:
        documents.append(file.read())

# Crear el vectorizador de conteo de palabras
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(documents)

# Convertir la matriz a un DataFrame
count_matrix = pd.DataFrame(X.toarray(), index=document_titles, columns=vectorizer.get_feature_names_out())

# Imprimir la matriz de conteo de palabras
print("Matriz de conteo de palabras (C'):")
print(count_matrix)

# Guardar la matriz como un archivo CSV
count_matrix.to_csv('matriz_conteo_palabras.csv')

print("Matriz de conteo de palabras creada y guardada como 'matriz_conteo_palabras.csv'")


Matriz de conteo de palabras (C'):
                                            000  118  2015  25  300  500  882  \
Historia de Madrid                            0    0     0   0    0    0    0   
El Palacio Real                               1    0     0   0    0    0    0   
Museo del Prado                               0    0     0   0    0    0    0   
Parque del Retiro                             0    1     0   0    0    0    0   
Gastronomía Madrilena                         0    0     0   0    0    0    0   
Gran Vía                                      0    0     0   0    0    0    0   
Real Madrid y el Estadio Santiago Bernabéu    0    0     0   0    0    0    0   
Navidad en Madrid                             0    0     0   0    0    0    0   
Nochevieja en Puerta del Sol                  0    0     0   0    0    0    0   
Madrid Río                                    0    0     0   0    0    0    0   
Historia de Dortmund                          0    0     0   0    0    0  

## NORMALIZAR C'

In [2]:
from sklearn.preprocessing import Normalizer
from sklearn.feature_extraction.text import CountVectorizer

# Cargar la matriz de conteo de palabras desde el archivo CSV
count_matrix = pd.read_csv('matriz_conteo_palabras.csv', index_col=0)
print("Matriz de conteo de palabras (C'):")
print(count_matrix)

# Normalizar la matriz de conteo de palabras (C')
normalizer = Normalizer(norm='l2')
C_normalized = normalizer.fit_transform(count_matrix.values)

# Convertir la matriz normalizada a un DataFrame
normalized_count_matrix = pd.DataFrame(C_normalized, index=count_matrix.index, columns=count_matrix.columns)
print("\nMatriz de conteo de palabras normalizada (C' normalizado):")
print(normalized_count_matrix)

# Guardar la matriz normalizada como un archivo CSV
normalized_count_matrix.to_csv('matriz_conteo_palabras_normalizada.csv')

print("Matriz de conteo de palabras normalizada creada y guardada como 'matriz_conteo_palabras_normalizada.csv'")


Matriz de conteo de palabras (C'):
                                            000  118  2015  25  300  500  882  \
Historia de Madrid                            0    0     0   0    0    0    0   
El Palacio Real                               1    0     0   0    0    0    0   
Museo del Prado                               0    0     0   0    0    0    0   
Parque del Retiro                             0    1     0   0    0    0    0   
Gastronomía Madrilena                         0    0     0   0    0    0    0   
Gran Vía                                      0    0     0   0    0    0    0   
Real Madrid y el Estadio Santiago Bernabéu    0    0     0   0    0    0    0   
Navidad en Madrid                             0    0     0   0    0    0    0   
Nochevieja en Puerta del Sol                  0    0     0   0    0    0    0   
Madrid Río                                    0    0     0   0    0    0    0   
Historia de Dortmund                          0    0     0   0    0    0  

## Transformar y normalizar la matriz de consultas Q

Q

In [3]:
# Lista de consultas
queries = ["Historia medieval de las ciudades europeas", 
           "Principales destinos turísticos en Europa", 
           "Influencia de la realeza en la cultura europea", 
           "Importancia de los parques urbanos en las ciudades", 
           "Gastronomía típica en capitales europeas", 
           "Eventos deportivos icónicos en Europa", 
           "Celebraciones de Navidad en ciudades europeas", 
           "Museos de arte importantes en Europa", 
           "Efectos de la Segunda Guerra Mundial en ciudades europeas", 
           "Arquitectura histórica en ciudades europeas", 
           "Clubes de fútbol famosos y sus estadios en Europa", 
           "Transformación urbana y regeneración de espacios", 
           "Tradición cervecera en ciudades europeas", 
           "Mercados y comercio tradicional en Europa", 
           "Centros de arte y creatividad en ciudades modernas", 
           "Actividades de ocio y entretenimiento en ciudades metropolitanas", 
           "Conservación de la naturaleza y la vida silvestre en zonas urbanas", 
           "Planificación de eventos culturales y festivales en ciudades", 
           "Desarrollo del transporte y la infraestructura urbana", 
           "Impacto de la tecnología en la vida urbana"]

# Vectorizar las consultas usando el mismo vocabulario
vectorizer = CountVectorizer(vocabulary=count_matrix.columns)
Q = vectorizer.transform(queries)

# Normalizar la matriz de consultas (Q)
Q_normalized = normalizer.transform(Q.toarray())

# Convertir la matriz de consultas normalizada a un DataFrame
normalized_query_matrix = pd.DataFrame(Q_normalized, index=queries, columns=count_matrix.columns)
print("\nMatriz de consultas normalizada (Q normalizado):")
print(normalized_query_matrix)

# Guardar la matriz de consultas normalizada como un archivo CSV
normalized_query_matrix.to_csv('matriz_consultas_normalizada.csv')

print("Matriz de consultas normalizada creada y guardada como 'matriz_consultas_normalizada.csv'")



Matriz de consultas normalizada (Q normalizado):
                                                    000  118  2015   25  300  \
Historia medieval de las ciudades europeas          0.0  0.0   0.0  0.0  0.0   
Principales destinos turísticos en Europa           0.0  0.0   0.0  0.0  0.0   
Influencia de la realeza en la cultura europea      0.0  0.0   0.0  0.0  0.0   
Importancia de los parques urbanos en las ciudades  0.0  0.0   0.0  0.0  0.0   
Gastronomía típica en capitales europeas            0.0  0.0   0.0  0.0  0.0   
Eventos deportivos icónicos en Europa               0.0  0.0   0.0  0.0  0.0   
Celebraciones de Navidad en ciudades europeas       0.0  0.0   0.0  0.0  0.0   
Museos de arte importantes en Europa                0.0  0.0   0.0  0.0  0.0   
Efectos de la Segunda Guerra Mundial en ciudade...  0.0  0.0   0.0  0.0  0.0   
Arquitectura histórica en ciudades europeas         0.0  0.0   0.0  0.0  0.0   
Clubes de fútbol famosos y sus estadios en Europa   0.0  0.0   0.0  0.

## Calcular la distancia entre las consultas y los documentos

In [4]:
from sklearn.metrics.pairwise import cosine_distances

# Cargar las matrices normalizadas desde los archivos CSV 
C_normalized = pd.read_csv('matriz_conteo_palabras_normalizada.csv', index_col=0).values
Q_normalized = pd.read_csv('matriz_consultas_normalizada.csv', index_col=0).values

# Calcular la distancia coseno entre las consultas y los documentos
distances = cosine_distances(Q_normalized, C_normalized)

# Convertir las distancias a un DataFrame
distance_matrix = pd.DataFrame(distances, index=queries, columns=count_matrix.index)
print("\nMatriz de distancias (coseno):")
print(distance_matrix)

# Guardar la matriz de distancias como un archivo CSV
distance_matrix.to_csv('matriz_distancias.csv')

print("Matriz de distancias creada y guardada como 'matriz_distancias.csv'")



Matriz de distancias (coseno):
                                                    Historia de Madrid  \
Historia medieval de las ciudades europeas                    0.709381   
Principales destinos turísticos en Europa                     0.917801   
Influencia de la realeza en la cultura europea                0.572879   
Importancia de los parques urbanos en las ciudades            0.667795   
Gastronomía típica en capitales europeas                      0.883752   
Eventos deportivos icónicos en Europa                         0.917801   
Celebraciones de Navidad en ciudades europeas                 0.664422   
Museos de arte importantes en Europa                          0.740062   
Efectos de la Segunda Guerra Mundial en ciudade...            0.692438   
Arquitectura histórica en ciudades europeas                   0.917801   
Clubes de fútbol famosos y sus estadios en Europa             0.780313   
Transformación urbana y regeneración de espacios              0.767505   
Tradic

## Crear la matriz final Q con nombres de consultas y valores de distancia más cercanos

In [5]:
# Crear la matriz Q con nombres de consultas, nombres de documentos y las tres distancias más cercanas
q_matrix = []

for query in queries:
    sorted_distances = distance_matrix.loc[query].sort_values().head(3)
    combined = [f"{doc}: {dist:.4f}" for doc, dist in zip(sorted_distances.index, sorted_distances.values)]
    q_matrix.append([query] + combined)

# Convertir la matriz Q a un DataFrame
q_matrix_df = pd.DataFrame(q_matrix, columns=['Query', 'Closest 1', 'Closest 2', 'Closest 3'])
print("\nMatriz Q (consulta y los tres documentos más cercanos con sus distancias):")
print(q_matrix_df)

# Guardar la matriz Q como un archivo CSV
q_matrix_df.to_csv('matriz_q.csv', index=False)

print("Matriz Q creada y guardada como 'matriz_q.csv'")



Matriz Q (consulta y los tres documentos más cercanos con sus distancias):
                                                Query  \
0          Historia medieval de las ciudades europeas   
1           Principales destinos turísticos en Europa   
2      Influencia de la realeza en la cultura europea   
3   Importancia de los parques urbanos en las ciud...   
4            Gastronomía típica en capitales europeas   
5               Eventos deportivos icónicos en Europa   
6       Celebraciones de Navidad en ciudades europeas   
7                Museos de arte importantes en Europa   
8   Efectos de la Segunda Guerra Mundial en ciudad...   
9         Arquitectura histórica en ciudades europeas   
10  Clubes de fútbol famosos y sus estadios en Europa   
11   Transformación urbana y regeneración de espacios   
12           Tradición cervecera en ciudades europeas   
13          Mercados y comercio tradicional en Europa   
14  Centros de arte y creatividad en ciudades mode...   
15  Activida