# PEC 2. Introducción a los sistemas de recuperación de la información.

En esta PEC vamos a desarrollar un sistema de recuperación de la información básico. Partiendo de una lista de documentos de texto, deberás utilizar las técnicas de recuperación de la información vistas en la asignatura para obtener, procesar y analizar datos útiles a partir del contenido.


## Ejercicio 3: tareas básicas

Además de las ya clásicas `pandas` y `numpy`, utilizaremos la librería [NLTK](https://es.wikipedia.org/wiki/NLTK) (Natural Language Toolkit), una librería de Python utilizada para analizar texto y aprendizaje automático.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import nltk
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## 3.1 Separando las palabras (Tokenización)

El significado de cada sentencia se obtiene de las palabras que contiene. Así que analizando las palabras presentes en un texto puede interpretarse el significado. Así que lo primero que hay que hacer para tratar el texto es separar las palabras que lo componen, es decir, hacer una lista de palabras. El modelo que utilizaremos aquí se denomina [**bolsa-de-palabras**](https://es.wikipedia.org/wiki/Modelo_bolsa_de_palabras) (bag-of-words) ya que nos interesan las palabras sin importar su posición o importancia en el documento.

La separación de las palabras o tokenización consiste en separar el texto en palabras, también llamadas tokens. Generalmente, el "espacio" se utiliza para separar palabras y elementos como los puntos, comas, dos puntos, etc., se utilizan para separar frases.

Existen múltiples formas de realizar la separación de palabras para un texto determinado.

### 3.1.1 Funciones de Python

Se puede utilizar la función `split()` para separar una cadena de texto en una lista de palabras. De forma predeterminada, `split()` utiliza el espacio en blanco, aunque se puede utilizar cualquier carácter.

In [None]:
text01 = "This sentence is the initial example text that illustrates the concept we're discussing."
text01.split(' ')

['This',
 'sentence',
 'is',
 'the',
 'initial',
 'example',
 'text',
 'that',
 'illustrates',
 'the',
 'concept',
 "we're",
 'discussing.']

El método `split()` de Python no considera los signos de puntuación como elementos separados.

### 3.1.2 Expresiones regulares

El módulo `re` ofrece un conjunto de funciones para buscar coincidencias en una cadena de texto. Una *expresión regular* es una secuencia de caracteres que definen un patrón de búsqueda.

In [None]:
import re

text02 = """There are multiple ways we can perform tokenization on given text data. We can choose any method based on language, library and purpose of modeling."""

# TODO: Utiliza una expresión regular para separar las palabras utilizando la librería re


### 3.1.3 Con NLTK

El Natural Language Toolkit (NLTK) tiene la función `word_tokenize()` para la separación de palabras y `sent_tokenize()` para la separación de frases.

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize

text03 = "<p>This is the first sentence. A gallon-of-milk in the U.S. costs $2.99. Is this the third sentence? Yes, it is!</p>"

# TODO: separar las frases


## 3.2. Eliminación de números y símbolos. Conversión a minúsculas

Como puede comprobarse, `word_tokenizer()` mantiene los signos de puntuación, así como los números y otros símbolos.

Una estrategia para reducir el número de palabras/tokens es convertirlas a minúsculas, puesto que algunos signos de puntuación pueden modificar la letra inicial de las palabras. De esta forma, se reduce el número de variantes de una misma palabra.

In [None]:
import string

def remove_tags (s):
  # TODO: eliminar tags html
  return p.sub('-', s)

# TODO : Eliminar etiquetas, tokenizar, convertir a minúsculas y eliminar símbolos no alfabéticos y números:
def tokenize_and_remove_punctuations(s):
    return nltk.word_tokenize( ss.lower() )

print ((tokenize_and_remove_punctuations (text03)))

## 3.3. Palabras vacías

Las *palabras vacías* (stopwords) son las palabras más comunes en cualquier idioma, tienen sentido gramatical pero tienen un significado limitado en el análisis de un texto. Estas palabras vacías incluyen artículos, preposiciones, conjunciones, pronombres, etc., y su eliminación reduce considerablemente el número de palabras.

NLTK tiene listas de palabras vacías en 16 idiomas. En este caso, se debe cargar la lista en inglés.

In [None]:
# TODO : dada una lista de tokens, elimina aquellos que sean palabras vacías o que tengan una longitud menor o igual a 2.
def remove_stop_words(tokens):
    return filtered_words


## 3.4. Normalización

Muchos idiomas contienen palabras derivadas de otros, y esto se conoce como [flexión](https://es.wikipedia.org/wiki/Flexi%C3%B3n_(ling%C3%BC%C3%ADstica)). La flexión es la modificación de una palabra para expresar diferentes categorías gramaticales como persona, número, género, etc.

El tratamiento de esta flexión para llevar las palabras a una forma base se conoce como normalización de palabras. La normalización permite que, al buscar una palabra, la búsqueda se realice simultáneamente a través de todas sus flexiones.

La **lematización** es el proceso de reducir la inflexión de las palabras para llevarlas a su forma original o raíz. El lema es la parte de la palabra a la que se añade la flexión.

En NLTK existen diferentes lematizadores disponibles, aunque aquí utilizaremos el más conocido: el [algoritmo de Porter](https://es.wikipedia.org/wiki/Algoritmo_de_Porter).

Puede encontrar más información sobre estos procesos en https://www.datacamp.com/community/tutorials/stemming-lemmatization-python.

In [None]:

from nltk.stem import PorterStemmer

# TODO : obtener la versión normalizada de todos los tokens
def stem_words(tokens):
    return stemmed_words

stem_words ( remove_stop_words(tokenize_and_remove_punctuations (text03)) )

Una vez realizadas las operaciones básicas sobre el texto, es momento de reunirlo todo en la función `preprocess_data()` que recibe un array de pares `(documentId, text)` y aplica las transformaciones anteriormente descritas.

In [None]:
#TODO
def preprocess_text ( text , stem=True):
    return stemmed_tokens

def preprocess_data(contents, stem=True):
    return dataDict


In [None]:
document_1 = "I love watching movies when it's cold outside ;-)"
document_2 = "Toy Story is the best animation movie ever, I love it!"
document_3 = "Watching horror movies alone at night is really scary"
document_4 = "He loves to watch films filled with suspense and unexpected plot twists"
document_5 = "My mom loves to watch movies. My dad hates movie theaters. My brothers like any kind of movie. And I haven't watched a single movie since I got into college"
documents = [document_1, document_2, document_3, document_4, document_5]

docIds = ['doc01','doc02','doc03','doc04','doc05']

# TODO : generar una lista de la forma [('doc01', 'I love..'), ... ]

# TODO : preprocesar la lista de documentos de ejemplo


## 3.5. Frecuencia de las palabras

Ahora veremos la importancia de una palabra/token en los documentos.

Lo primero es obtener un vocabulario, que no es más que la lista de todos los tokens únicos que aparecen en todos los documentos.

In [None]:
#TODO:
def get_vocabulary(data):
    return list(fdist.keys())

get_vocabulary ( data_docs)

Para ello, podemos calcular la frecuencia de cada término contando el número de veces que aparece en cada documento, que será una medida de su peso o importancia.

$TF (t, d) = f_{t, d}$ (número de repeticiones del término $t$ en el documento $d$)

In [None]:
from nltk.probability import FreqDist

# TODO: calcular tf
def calculate_tf(tokens):
    tf_score = {}
    return tf_score


fdist = calculate_tf (data_docs['doc05'])
fdist

La **frecuencia inversa de documentos** para un término $t$ es el logaritmo (en este caso en base 2) del cociente entre el número de documentos y el número de documentos en los que aparece el término $t$.

$ IDF (t) = log_{2} \frac{N}{\{d \in D : t \in d \}} $

Una puntuación más alta de TF*IDF indica que el término es más específico, mientras que una puntuación menor indica que es más genérico.

In [None]:
import math

# TODO: Calcula el idf
def calculate_idf(data):
    idf_score = {}
    # TODO: número de documentos
    # TODO: obtener el vocabulario
    for word in all_words:
        word_count = 0
        for token_list in data.values():
            # TODO
            # TODO: calcular idf
    return idf_score


idf_score = calculate_idf ( data_docs )
idf_score

In [None]:
#TODO: haz una función que, dado una lista de documentos, devuelva el tf_idf
def calculate_tfidf(data, idf_score):
    scores = {}
    for key,value in data.items():
        # TODO: calcular tf
    for doc,tf_scores in scores.items():       # TODO
        # TODO
    return scores


tfidf_score = calculate_tfidf ( data_docs, idf_score)
tfidf_score

## 3.6. Generación del espacio vectorial

Utilizando las funciones anteriores, construiremos la matriz de documentos (como filas) y términos (como columnas). Para facilitar esta tarea, utilizaremos una estructura de datos ya conocida, el **dataframe**.

In [None]:
import pandas as pd

# TODO: obtener el vocabulario, calcular el 'if_idf' y crear un df con las frecuencias
def generate_dataframe ( data ):
  # TODO
  tf_idf_score = calculate_tfidf ( data , idf_score)
  table = []
  for doc in tf_idf_score.keys():
      # TODO
  return df


df_data = generate_dataframe (data_docs)
df_data.head(5)


## 3.7. Generar el índice invertido

De forma similar, generaremos un índice invertido que almacenaremos en una estructura de datos Python: el diccionario.

In [None]:
#TODO: llena la función para generar un índice invertido

def generate_inverted_index(data):
    #TODO

    index = {}
    for word in all_words:
        for doc, tokens in data.items():
            #TODO
    return index

inverted_index = generate_inverted_index (data_docs)

inverted_index

## 3.8. Resolución de consultas

Resolveremos consultas (obtendremos los documentos más relevantes) considerando la consulta como un vector y comparándolo con el conjunto de documentos mediante la **similitud del coseno**.

Para ello utilizaremos la librería [sklearn](https://scikit-learn.org/stable/), aunque sólo utilizaremos la funcionalidad para calcular la similitud del coseno.

In [None]:
# TODO: generar un dataframe para a la consulta

q = "I watched alone a horror movie"

def generate_query_dataframe ( vocabulary , q ):
  # TODO : preprocesar las palabras de la consulta

  # TODO : generar un dataframe con la misma estructura
  table = []
  # TODO : si el token está en la consulta se pone un 1, de lo contrario un 0
  return df

df_query =  generate_query_dataframe ( get_vocabulary(data_docs)  , q )
df_query.head()


In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

#TODO : Calcula la similitud del coseno e indicar qué documento es el más cercano a la consulta



# Ejercicio 4

ClinicalTrials.gov es un registro de base de datos online mantenido por los Institutos Nacional de Salud de Estados Unidos (NIH). Contiene información sobre estudios clínicos de todo el mundo, incluyendo detalles sobre los objetivos, participantes, métodos, resultados y otras informaciones relevantes sobre los estudios.

A través de su API abierta, obtendremos información sobre ensayos clínicos reales.  https://classic.clinicaltrials.gov/api/gui/ref/api_urls#urlParams


Una API (interfaz de programación de aplicaciones) es un conjunto de herramientas y protocolos que permiten a diferentes programas informáticos comunicarse entre sí y compartir datos o funcionalidades de forma estandarizada y controlada.

In [None]:
import requests
import pandas as pd

# Define la URL base para la API de ClinicalTrials.gov
base_url = 'https://clinicaltrials.gov/api/query/study_fields?'

# Define tus parámetros de búsqueda
search_term = 'diabetes' # Cambia esto por tu término de búsqueda deseado
max_studies = 15 # Número máximo de estudios a recuperar

# Define los campos que deseas recuperar
fields = [
     'NCTId', # Identificador de ClinicalTrials.gov
     'BriefTitle', # Título breve del estudio
     'Condition', # Condición o enfermedad objeto de estudio
     'InterventionName', # Nombre de la intervención (si se aplica)
     'Phase', # Fase del estudio
     'OverallStatus' # Estado general del estudio
]

In [None]:
# TODO:Define los parámetros para la solicitud en la API
params = {
}

In [None]:
# TODO:
# Haz la solicitud en la API
response = requests.get(base_url, params=params)

In [None]:
# TODO:
if response.status_code == 200:

     # TODO: Analiza la respuesta JSON

     # TODO: Construye un DataFrame con los resultados
     df = pd.DataFrame(studies)

else:
     print("No se ha podido obtener ningún estudio clínico.")

NameError: name 'studies' is not defined

In [None]:
# TODO: Muestra los 10 primeros resultados


In [None]:
#TODO: qué dimensiones tiene el dataset


In [None]:
#TODO: qué datos contiene


La vectorización es el proceso por el que se convierte una colección de textos en un vector de características numéricas. El modelo que seguimos es el de bolsa de palabras o Bag-of-Words, donde los documentos se describen por las palabras que aparecen en el texto, ignorando su posición relativa o su importancia en el texto.

CountVectorizer convierte una colección de documentos en una matriz de contadores que son las apariciones de cada token en cada documento.


Empecemos con el campo 'BriefTitle', utilizando un vectorizador para convertir las palabras clave en una serie de elementos.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

# TODO: procesa el campo 'BriefTitle'



¿Cuántas palabras distintas del título hay en el conjunto de datos?

In [None]:
#TODO


In [None]:
# TODO


Convertir en un DataFrame con 2 columnas: las diferentes palabras clave localizadas y su frecuencia de aparición:

In [None]:
#TODO:


Obtener las palabras clave que aparecen con mayor frecuencia:

In [None]:
#TODO:


Representar con un diagrama de barras ordenado las 5 palabras clave más frecuentes.

In [None]:
#TODO:


# Ejercicio 5: distribución de frecuencias según la ley de Zipf

La ley de Zipf es una observación empírica sobre la distribución de las frecuencias de las palabras en un lenguaje natural. Se basa en dos ideas principales:

* Distribución inversa: La frecuencia de aparición de una palabra es inversamente proporcional a su rango en una lista ordenada de todas las palabras del texto. Esto significa que las palabras más frecuentes tienen un menor rango y viceversa.

* Ley de los pequeños números: La frecuencia de una palabra es aproximadamente proporcional al inverso de su rango. En otras palabras, la frecuencia de la palabra es aproximadamente inversamente proporcional al rango de la palabra.

La función de la Ley de Zipf relaciona el rango de una palabra ($r$) con su frecuencia de aparición ($f$) mediante la siguiente expresión:

$f(r) = \frac{C}{r^s}$

dónde:
$f(r)$ es la frecuencia de la palabra en el rango $r$.
$C$ es una constante que depende del corpus de texto.
$s$ es el exponente de la Ley de Zipf, que suele ser aproximadamente entre 0,7 y 1,0 para los textos en inglés.


Esta función describe la relación entre el rango y la frecuencia de aparición de las palabras en un corpus de texto, siguiendo los principios de la Ley de Zipf.

Para comprobar si es cierto que los textos siguen la ley de Zipf, importaremos la declaración de independencia de Estados Unidos, y comprobaremos si la frecuencia de las palabras cuadra con la frecuencia esperada por la ley de Zipf

In [None]:
# Subir archivo
from google.colab import files
uploaded = files.upload()

Saving declaration-of-independence.txt to declaration-of-independence.txt


In [None]:
# TODO: importar archivo


In [None]:
#TODO: muestra el texto


In [None]:
#TODO: eliminar la puntuación



In [None]:
#TODO:Obtener la frecuencia de las palabras ordenadas de más a menos
from collections import Counter

def top_freq_words(texto):
     # TODO: convertir el texto a lower
     # TODO: contar la frecuencia de las palabras
     # TODO: ordenar la frecuencia en orden descendente
     return sorted_word_freq

In [None]:
# TODO: crear una dataframe con las frecuencias reales y las esperadas según la ley de Zipf
def create_df_zip(sorted_word_freq):

     returno df

df_zip = create_df_zip(sorted_word_freq)

In [None]:
#TODO: muestra el df

In [None]:
# Dibujar las frecuencias reales y las esperadas según la ley de Zipf


Comenta qué ves en el gráfico. ¿Qué pasaría si sacáramos las stopwords del texto?

In [None]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
# TODO: Saca las stop words en inglés


In [None]:
# TODO: vuelve a mostrar la tabla df y el gráfico al excluir las stopwords


In [None]:
# TODO: Dibujar las frecuencias reales y las esperadas según la ley de Zipf (excluyendo las stopwords)


Comenta: ¿qué gráfico tiene más sentido?