# PEC 2. Introducción a los sistemas de recuperación de información.

Vamos a desarrollar un sistema de recuperación de información básico. Partiendo de una lista de documentos de texto tendrás que usar las técnicas de recuperación para obtener, procesar y analizar datos útiles a partir de texto.





---

# **Parte 1**.

## 1. Representación de documentos

Supongamos que tenemos una colección con los siguientes 5 documentos. Una forma de gestionar una lista de documentos y hacerla más fácilmente accesible es mediante un tipo de datos nativo en Python denominados diccionarios. Los **diccionarios en Python** son un tipo de estructuras de datos que permiten guardar un conjunto no ordenado de pares clave-valor, donde las claves son únicas, es decir, que no pueden existir dos elementos con una misma clave. 

In [0]:
document_1 = "I love watching movies when it's cold outside ;-)"
document_2 = "Toy Story is the best animation movie ever, I love it!"
document_3 = "Watching horror movies alone at night is really scary"
document_4 = "He loves to watch films filled with suspense and unexpected plot twists"
document_5 = "My mom loves to watch movies. My dad hates movie theaters. My brothers like any kind of movie. And I haven't watched a single movie since I got into college"
documents = [document_1, document_2, document_3, document_4, document_5]

docIds = ['doc01','doc02','doc03','doc04','doc05']

documents_dict =  # TODO : generar un diccionario de la forma { 'doc01': 'I love..', ... }

print ( documents_dict['doc01'] )

### 1.1 Separando las palabras

Lo primero que hay que hacer para poder tratar el texto es separar las palabras que lo componen, es decir, hacer una lista  de palabras. El modelo que vamos a utilizar aquí se denomina [**bolsa-de-palabras**](https://es.wikipedia.org/wiki/Modelo_bolsa_de_palabras) (bag-of-words) ya que nos interesan las palabras sin importar su posición o importancia en el documento.  
 

In [0]:
documents_words = [########## for doc in documents_dict.values()]  # TODO : separarar las palabras con split para hacer una lista de palabras
documents_words_dict = dict ( zip ( documents_dict.keys(), documents_words )) # Obtener un diccionario del tipo { 'doc01': ['I', 'love', ...],... }

print ( documents_words_dict['doc01'])


El problema es que separar las palabras no es una tarea trivial. No solo el espacio en blanco actúa de separador, también lo hace el punto (``.``), la coma (``,``), los paréntesis (``(),[],{}``), la interrogación (``?``), la admiración (``!``), etc. Aunque estos signos de puntuación tienen múltiples funciones. Así el punto también sirve para separar los acrónimos (siglas, como EE.UU.) o partes de los números (como 1.024,64).


Por lo tanto, vamos a utilizar [**expresiones regulares**](https://es.wikipedia.org/wiki/Expresi%C3%B3n_regular) para separar las palabras. Consideramos como un palabra una combinación del caracteres alfabéticos separado por cualquier otro carácter.


Para ello vamos a utilizar la librería [NTLK](https://es.wikipedia.org/wiki/NLTK) (Natural Language Toolkit) y dentro de ella la función [RegexpTokenizer](https://www.nltk.org/_modules/nltk/tokenize/regexp.html) que divide una cadena de texto usando expresiones regulares.

De todas los token obtenidos vamos a desechar lo que no sean palabras (conjuntos de caracteres alfabéticos): números, signos de puntuación, etc 


In [0]:
from nltk.tokenize import RegexpTokenizer

def tokenizer (text):
  tokens = RegexpTokenizer()  # TODO : separar palabras
  alpha = [ ] # TODO : eliminar tokens que no son alfabeticos 
  return alpha

documents_words = [##########  for doc in documents_dict.values()]  # TODO
documents_words_dict = dict ( zip ( documents_dict.keys(), documents_words ))
print(documents_words_dict['doc02'])

**Q1 - Al separar las palabras por el método de las expresiones regulares, ¿notas algún problema o posible mejora?**

### 1.2 Convirtiendo a minúsculas

Una estrategia para reducir el número de palabras es convertirlas a minúsculas, pues algunos signos de puntuación modifican la letra inicial de las palabras. Así se consigue reducir el número de variantes de una misma palabra.


In [0]:
def lowerize ( tokens ):
  lower_tokens = [] # TODO : convertir a minúsculas
  return lower_tokens

documents_words_lower = [ ######## for tokens in documents_words_dict.values() ] # TODO : convertir a minusculas todas los documentos

documents_words_lower_dict = dict ( zip ( documents_dict.keys(),documents_words_lower))
print (documents_words_lower_dict ['doc02'])

**Q2 - ¿Qué alternativas propones a la conversión de todas las palabras a minúsculas?**

### 1.3 Palabras vacías

Las palabras vacías (stopwords) son palabras con sentido gramatical pero con poco significado. Además estas palabras que incluyen artículos, preposiciones, conjunciones, pronombres, etc. son muy frecuentes en los documentos. Así que su eliminación reduce considerablemente el número de palabras.

NLTK tiene listas de palabras vacías en 16 idiomas. En este caso, se ha cargado la lista en inglés.

In [0]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

def stop_words_remover ( tokens ):
  stopwordlist = stopwords.words ('english')
  #print (stopwordlist)
  stopped = [  ] # TODO : eliminar de la lista las palabras vacías (stopwordlist)
  return stopped

documents_words_stopped = [ ######## for tokens in documents_words_lower_dict.values()] # TODO: eliminar las palabras vacias de los documentos
documents_words_stopped_dict = dict ( zip ( documents_dict.keys(),documents_words_stopped))
print (documents_words_stopped_dict['doc02'])



### 1.4 Normalización 

Muchos idiomas contienen palabras derivadas de otras y esto se denomina [flexión](https://es.wikipedia.org/wiki/Flexi%C3%B3n_(ling%C3%BC%C3%ADstica)). La flexión es la modificación de una para expresar diferentes categorias gramaticales como persona, número, género, etc.

Tratar esta flexión para llevar las palabras a una forma base se denomina **normalización de palabras**. La normalización permite que si se busca por una palabra se haga al mismo tiempo por todas sus flexiones.

La **lematización** es el proceso de reducir la inflexión de las palabras para llevarla a su forma origen o raíz. El lema es la parte de la palabra a la que se añade la flexión.

En NLTK hay disponibles diferentes lematizadores aunque aquí vamos a utilizar el más conocido: el [algoritmo de Porter](https://es.wikipedia.org/wiki/Algoritmo_de_Porter). 


Podéis ver algo más de estos procesos en 
https://www.datacamp.com/community/tutorials/stemming-lemmatization-python


In [0]:
from nltk.stem import PorterStemmer

def stemmer ( tokens ):
  ps = PorterStemmer()
  stemmed = [ ] # TODO: usar ps.stem para poner todos los token en forma base
  return stemmed

documents_words_stemmed = [ ######### for tokens in documents_words_stopped_dict.values()] # TODO : lematizar todos los documentos
documents_words_stemmed_dict = dict ( zip ( documents_dict.keys(),documents_words_stemmed))
print (documents_words_stemmed_dict ['doc02'])

### 1.5 Dando peso a las palabras: ponderación mediante IF*IDF

Ahora vamos a ver cómo de importante es una palabra/término en los documentos. Para ello podemos calcular la frecuencia de cada término contando el número de veces que aparece en cada documento, que será una medida de su peso o importancia.

$TF (t,d) = f_{t,d}$  (#número de repeticiones del término $t$ en el documento $d$)




In [0]:
def termsFrequency ( terms ):
    freq = {} 
    for                           #TODO : para cada término del documento
                                  #TODO : añadir el termino al diccionario freq y calcular su frecuencia en el documento 
                                  #TODO
    return freq



freqs = [ ######### for terms in documents_words_stemmed_dict.values() ] # TODO: calcular las frecuencias los terminos de cada documento
freq_dict = dict ( zip ( documents_dict.keys(), freqs))
print ( freq_dict['doc05'] )






Para penalizar a los documentos más largos (con más palabras y mayor frecuencia de las mismas) se suele usar la **frecuencia normalizada**, es decir, el cociente entre la frecuencia del término y el número total de palabras del documento:

$TF(t,d ) = \frac{f_{t,d}}{\sum_{u \in d} f_{u,d}} $




In [0]:
def termsFrequencyNormalized ( freqs ):
  freq_n = {}
  sumfreq =                         # TODO : calcular el numero de terminos en el documento
  for                               # TODO : para cada termino
    freq_n[    ] =                  # TODO : calcular su frecuencia normalizada
  return freq_n

freq_dict_n =  [#########  for terms   in freq_dict.values() ] # TODO : calcular las frecuencias normalizadas
freq_dict_norm =  dict ( zip ( documents_dict.keys(),freq_dict_n))
print (freq_dict_norm['doc05'])

La **frecuencia inversa de documentos** para un término $t$ es el logaritmo (generalemente en base 2 aunque puede ser cualquier base) del cociente entre el número de documentos y el número de documentos en los que aparece el término $t$. 

$ IDF (t) = log_2 \frac{N}{\{d \in D : t \in d \}} $

A mayor puntuación de TF*IDF el término es más específico y a menor puntuación, más genérico.

In [0]:
import math

def IDF ( doc_freq_dict ):
  idf_dict = {}
  N =                                # TODO : número de documentos en la colección
  
  for                                # TODO: calcular el número de documentos en los que aparece cada término
                                     # TODO
  
  for                                # TODO : calcular la frecuencia inversa de documento de cada término
    idf_dict[ ] =                    # TODO
    
  return idf_dict

idfs = IDF ( freq_dict_norm )
print (idfs)  # resultado esperado : {'love': 0.32192809488736235, ... }

### 1.6 De palabras a términos

Ahora ya tenemos las funciones necesarias para procesar el texto y para la ponderación.  

In [0]:
def processText (text):
    tokens =                 # TODO : separar las palabras  
    lower_tokens =           # TODO : convertir a minusculas
    stopped =                # TODO : eliminar palabras vacias 
    stemmed =                # TODO : lematizar las palabras
    return stemmed

tf = [####### for doc in documents_dict.values()] #TODO : calcular la frecuency normalizada de las palabras procesadas
tf_dict = dict ( zip ( documents_dict.keys(), tf)) # diccionario {'doc01': {'love': 0.2, 'watch': 0.2, ...}...}

idf =       # TODO : calcular la frecuencia inversa de documento (a partir de tf_dict)

print (tf_dict)
print (idf)

## 2. Construyendo el espacio vectorial

Usando las funciones anteriores vamos a construir la matriz de documentos (en filas) y términos (en columnas). Para facilitar la tarea usaremos una estructura de datos ya conocida, el **dataframe**. 










In [0]:
import pandas as pd

def generateTF_IDF_Table ( tf_dict , idfs):
  uniqueTerms = [  ] # TODO : obtener los términos (únicos) a partir de los diccionario de frecuencias
  uniqueTerms.sort()
  table = []
  for freqs                # TODO : recorrer todas las frecuecias de los documentos
      d = dict.fromkeys(uniqueTerms, 0.0)
      for t in freqs:
        d [ t ] =          # TODO : calcular el producto tf * idf para cada termino 
      table.append ( d )
  df = pd.DataFrame ( table , index = tf_dict.keys())
  return df
 
df = generateTF_IDF_Table (tf_dict, idf)
df.head(5)

### 2.1 Qué documentos son más parecidos (o tratan de lo mismo)

Ahora vamos a ver qué documentos se parecen más entre sí mediante la técnica de la similitud del coseno. 

Para ello vamos a utilizar la librería [sklearn](https://scikit-learn.org/stable/), aunque sólo la funcionalidad para calcular la similitud del coseno. 

Como resultado obtendremos una matriz y una valor del coseno para pares de documentos como medida de lo similares que son. Evidentemente, cada documento será lo más parecido posible consigo mismo. 


In [0]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

cosine_similarity_matrix =  #TODO : calcular la similitud del coseno entre pares de documentos
#print(cosine_similarity_matrix)


# TODO Calcular los 2 documentos más similares según la similitud del coseno (y que no sea consigo mismo)
np.fill_diagonal(cosine_similarity_matrix, 0.0) # poner la diagonal principal a ceros
ind = np.unravel_index ( ######### , cosine_similarity_matrix.shape) # calcular la coordenadas del máximo
print (ind)
print ( cosine_similarity_matrix[ind])

Representando gráficamente esta similitud entre documentos:

In [0]:
from matplotlib import pyplot as plt
from matplotlib import cm

A = cosine_similarity_matrix.flatten().reshape (5,5)
plt.imshow(A, cmap='viridis', interpolation='nearest')
plt.colorbar()
plt.show()

### 2.2 Resolviendo consultas

Vamos a resolver consultas (obtener los documentos más relevantes) considerando la consulta como un vector y comparándolo con el conjunto de documentos mediante la similitud del coseno. 




In [0]:
q = "I watched alone a horror film"

q_mod = processText (q)

def generateQueryTable( query ):
  df_query = pd.DataFrame ( data = None, columns = df.columns , index=['q'] )
  for x in df.columns:
    if x in query:
      df_query[x]=1.0
    else:
      df_query[x]=0.0
  
  return df_query  

df_query = generateQueryTable (q_mod)
df_query.head(5)

In [0]:
from sklearn.metrics.pairwise import cosine_similarity
%time q_cossim =  #TODO : calcular la similitud del coseno e indicar qué documento es el más próximo a la consulta

ind = np.unravel_index ( np.argmax(q_cossim, axis=None), q_cossim.shape)
print (documents[ind[0]])

## 2. Construyendo un índice invertido




In [0]:
def generateInvertedIndex (tf_dict , idfs):
  uniqueTerms = [ ] # TODO : terminos únicos
  #print('Vocabulary = ', len(uniqueTerms)) #no. of unique words
  inv_index = {} #dictionary: key =word/term, value: [docid, termfrequency * inversedocumentfrecuency]

  for vocab                 # TODO : construir el índice invertido como diccionario
                             # TODO

  return inv_index 
  
%time index = generateInvertedIndex (tf_dict, idfs)
%time results =   { x[0] : x[1]  for x  in index['movi'] }

print ( results  )

In [0]:
# evaluar consulta
q = "I watched alone a horror film"

def processQuery ( index,  q ):
  results = {}
  for : #TODO : para cada termino en la consulta
    if :      # TODO : comprobar que está en el índice
              # TODO : obtener lista de documentos
               # TODO : para cada documento 
               # TODO : sumar los tf*idf por documento
               #TODO 


  return results
      
%time r = processQuery( index ,  processText ( q ) )
sorted_results =  # TODO : ordenar resultados de mayor a menor
#print (sorted_results [0:2])
print (documents_dict [ sorted_results [0] ])

**Q3 - ¿Qué es más eficiente para resolver la consulta : el dataframe o el índice invertido?**



---


# **Parte 2**



![TED Talks](https://storage.googleapis.com/kaggle-datasets-images/2405/4030/bf5c2fd8ab2faec33e8a0451ba674c6a/dataset-cover.jpg)

En esta segunda parte vamos a utilizar un caso más real para afianzar los conocimiento adquiridos. Para ello usaremos las transcriciones de las charlas TED, que son conferencias de unos 20 minutos de duración.


Vamos a cargas las transcripciones y generar un dataframe para tratarlas.



In [0]:
from google.colab import files
uploaded = files.upload()

In [0]:
import pandas as pd
import io


data_ted = pd.read_csv(io.StringIO(uploaded['transcripts_ted_talks.csv'].decode('utf-8')))
#data_ted = pd.read_csv('./transcripts_ted_talks.csv')
data_ted.shape

Obteniendo el título de la conferencia a partir de la URL.


In [0]:
data_ted['title']= data_ted['url'].map(lambda x:x.split("/")[-1]).str.replace("_"," ").str.upper().str.strip()
data_ted.head(5)


Obtener las frecuencias de término por documento y la frecuencia inversa de documento para el texto contenido en el título (title) y en la transcripción (transcript) de la charla.

In [0]:
tf_ted = [###### for text in data_ted [['title','transcript']].astype(str).apply (' '.join, axis=1) ] #TODO : obtener la frecuencia normalizada de todas las transcripciones
tf_ted_dict = dict ( zip ( data_ted ['title'], tf_ted)) # generar el diccionario usando el titulo como clave

idf_ted =  # TODO : calcular la frecuencia inversa de documento 

Generar un dataframe con los documentos como filas y los terminos normalizados como columnas.

In [0]:
ted_df =  # TODO : generar dataframe
ted_df.head(5)

**Q4 - ¿Qué dimensiones tiene el dataframe obtenido de procesar las charlas TED?**

A continuación buscamos un par de charlas que sean muy similares.

In [0]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

ted_cosine_similarity =  #TODO : calcular la similitud del coseno entre todos las transcripciones

np.fill_diagonal(ted_cosine_similarity, 0.0) 
ind = np.unravel_index ( ########, ted_cosine_similarity.shape) # TODO:

print (ted_df.index [ind[0]])
print ( ted_df.index [ind[1]])

**Q5 - ¿De qué tratan las 2 charlas más similares entre todas las charlas TED?**

Generar un índice invertido (o utilizar el dataframe) para resolver las siguientes consultas:

In [0]:
%time ted_inv_index =  # TODO : generar indice invertido  

In [0]:
q_ted = "" # TODO : resolver las charlas que traten de virus y pandemias (virus pandemic)

%time res = processQuery  # TODO

ted_sorted_results =  # TODO
print (ted_sorted_results ) # TODO : los 3 charlas más relevantes sobre virus y pandemias  



In [0]:
q_ted = "" # TODO : consultar las charlas sobre cambio climático (climate change)

%time res = processQuery #TODO

ted_sorted_results =  # TODO
print (ted_sorted_results [0:9])

**Q6 - ¿Quién es el ponente de la charla más relevante sobre cambio climático?**



---

# Parte 3. Comprobar la ley Zipf


La **ley Zipf** debe su nombre al lingüista norteamericano George Kingsley Zipf y dictamina que un pequeño número de palabras se utilizan todo el tiempo mientras que una gran mayoría de ellas apenas se utiliza. No es muy sorprendente que palabras muy frecuentes en textos en inglés sean `the`, `of` y similares, y que palabras como `intrauterine` apenas se utilicen. [https://en.wikipedia.org/wiki/Zipf%27s_law]

La ley Zipf puede escribirse de la siguiente forma: la $r$-ésima palabra más frecuente $f(r)$ escala según la fórmula: $f(r) \propto \frac{1}{r^{\alpha}}$ con $\alpha \approx 1$.




In [0]:
frequency = {}

#TODO : calcular las frecuencias de todas las palabras de las charlas (NO eliminar palabras vacías ni lematizar)
transcripts = [ ######## for text in data_ted [['title','transcript']].astype(str).apply (' '.join, axis=1) ]

for words in transcripts:
  for word in words:
    count = # TODO
    frequency[word] =  #TODO

In [0]:
from operator import itemgetter   

frequency_sorted =  #TODO
print (frequency_sorted[0:10])


**Q7 - ¿Cuáles son las 10 palabras más frecuentes en el las charlas TED?**

In [0]:
def createZipfTable(frequencies):
  zipf_table = []
  top_frequency =  #TODO
  #print ('Frecuencia máxima: ' + str(top_frequency) )

  for index, item in enumerate(frequencies , start=1):
    relative_frequency = "1/{}".format(index)
    zipf_frequency = top_frequency * (1 / index)
    zipf_table.append({"word": item[0], "actual_frequency": item[1], "relative_frequency": relative_frequency , "zipf_frequency": zipf_frequency })

  return zipf_table


zipf_table = createZipfTable (frequency_sorted[0:10])


print("|Rank|    Word    |       Freq | Zipf Frac  | Zipf Freq  |")
format_string = "|{:4}|{:12}|{:12.0f}|{:>12}|{:12.2f}|"
for index, item in enumerate(zipf_table,start=1):
        print(format_string.format(index,
                                   item["word"],
                                   item["actual_frequency"],
                                   item["relative_frequency"],
                                   item["zipf_frequency"]))


In [0]:
import numpy as np
import matplotlib.pyplot as plt

zipf_table = createZipfTable (frequency_sorted[0:100])

ranks = list (range ( 1, 1+len (zipf_table) ))
frequencies = [ rec['actual_frequency']  for rec in zipf_table ]
zipf_frequencies = [ rec['zipf_frequency'] for rec in zipf_table ] 

plt.figure(figsize=(8,6))

plt.title("Word Frequencies in TED Talks")
plt.ylabel("Total Number of Occurrences")
plt.xlabel("Rank of words")

plt.plot(
    ranks,
    frequencies, color='blue', label='Actual freq.',
    alpha=0.5
  )


plt.plot(
    ranks,
    zipf_frequencies, color="orange", label='Expected Zipf.',linestyle='--',
    alpha=0.5
  )

plt.legend()


**Q8 - A la vista de los resultados, ¿consideras que las frecuencias siguen una distribución quasi-zipfianica?**



---

