<a href="https://colab.research.google.com/github/alvumu/TGINE/blob/main/4_1_TFIDF_similarity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sesión 4.1 - Procesamiento de texto con la librería scikit-learn
En esta sesión de prácticas vamos a ver cómo podemo usar las funciones de tratamiento de texto de la librería scikit-learn para calcular TF, TF-IDF y BM25

Primero, instalaremos la librerías necesarias.

In [None]:
!pip3 install -U scikit-learn
# Descargamos un fichero python con la implementación del BM25
!wget https://dis.um.es/~valencia/recursosTGINE/BM25.py

# Descargamos el fichero datasetEspañol.csv
!wget https://dis.um.es/~valencia/recursosTGINE/datasetEspañol.csv


Collecting scikit-learn
  Downloading scikit_learn-1.3.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (10.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.8/10.8 MB[0m [31m71.3 MB/s[0m eta [36m0:00:00[0m


In [None]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
# Importamos del fichero BM25.py
from BM25 import BM25Transformer

In [None]:
# Leemos los datos del dataset en español de la primera sesión
data = pd.read_csv("datasetEspañol.csv",encoding="UTF-8")
data.tail()

## Apartado 1.1 - Obtener TF del conjunto de texto (Resuelto)

Calculamos la matriz de TF usando la clase CountVectorizer sobre un conjunto de textos.

Se puede consultar información de esta clase en la siguiente URL:
https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer

Hay que tener en cuenta que esta clase tiene muchos parámetros en su método de creación.

In [None]:
texto = """La asignatura de TGINE es una asignatura del máster de BigData que se estudia en la Universidad de Murcia.
En la asignatura de máster vemos una introducción al procesamiento del lenguaje natural y tecnologías de procesamiento
de información no estructurada.
"""
texto2 = "No me gusta el chocolate ni las fresas"

texto3 = """El profesor de la asignatura TGINE es Rafael Valencia García.
"""
# Calculamos la matriz de TF usando la función fit_transform
count_vect = CountVectorizer()
X_counts = count_vect.fit_transform([texto,texto2,texto3])

# Mostramos entonces el número de textos y el número de tokens únicos
print(X_counts.shape)

# X_counts es una matriz dispersa con el TF de cada token en cada texto
# Imprimimos los textos y su correspondientes TF
print(texto)
print(X_counts[0])
print(texto2)
print(X_counts[1])
print(texto3)
print(X_counts[2])

#Los tokens de todo el vocabulario se representan con ids que hacen referencia a cada token.
print("Mostramos los items del diccionario")
print(count_vect.vocabulary_.items())
print("Tamaño vocabulario:", str(len(count_vect.vocabulary_.items())))

#Mostramos el código de una palabra determinada
#hay que tener en cuenta que todos los tokens se guardan en minúsculas
palabra_a_buscar="TGINE"
print("Código de la palabra", palabra_a_buscar, "es:", count_vect.vocabulary_.get(palabra_a_buscar.lower()))

## Apartado 1.2 Calculamos el TF sin tener en cuenta las stopwords
Para eso hacemos uso del parámetro stop_words de CountVectorizer

In [None]:
import nltk
# Descargamos las stopwords de NLTK
# Si no tenemos instalado NLTK lo instalamos
# !pip3 install -U nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('spanish')

# Calculamos la matriz de TF usando la función fit_transform


# Mostramos entonces el número de textos y el número de tokens únicos
print(X_counts.shape)

# X_counts es una matriz dispersa con el TF de cada token en cada texto
# Imprimimos los textos y su correspondientes TF
print(texto)
print(X_counts[0])
print(texto2)
print(X_counts[1])
print(texto3)
print(X_counts[2])

#Los tokens de todo el vocabulario se representan con ids que hacen referencia a cada token.
print("Mostramos los items del diccionario")
print(count_vect.vocabulary_.items())

## Apartado 1.3 TF-IDF (Resuelto)
Obtenemos el TF-IDF utilizando la clase TfidfTransformer

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer = TfidfTransformer()
X_TFIDF = tfidf_transformer.fit_transform(X_counts)

# Mostramos entonces el número de textos y el número de tokens únicos
print(X_TFIDF.shape)

# X_counts es una matriz dispersa con el TF de cada token en cada texto
# Imprimimos los textos y su correspondientes TF
print(texto)
print(X_TFIDF[0])
print(texto2)
print(X_TFIDF[1])
print(texto3)
print(X_TFIDF[2])

## Apartado 1.4 BM25 (Resuelto)

Calculamos el BM25 que tiene en cuenta tanto la transformación del TF como la normalización de la longitud del documento.

In [None]:
bm25_transformer = BM25Transformer()
X_BM25 = bm25_transformer.fit_transform(X_counts)

# Mostramos entonces el número de textos y el número de tokens únicos
print(X_BM25.shape)

# X_counts es una matriz dispersa con el TF de cada token en cada texto
# Imprimimos los textos y su correspondientes TF
print(texto)
print(X_BM25[0])
print(texto2)
print(X_BM25[1])
print(texto3)
print(X_BM25[2])

# Apartado 1.5 Desarrollamos un simple buscador con TFIDF y BM25 (Resuelto)

A continuación vamos a procesar los tuits del archivo de la primera sesión "datosEspañol.csv" y calculamos el TF, el TFIDF y el BM25 de manera similar a como se ha hecho anteriormente.

In [None]:
# Calculamos la matriz de TF usando la función fit_transform
count_vect = CountVectorizer(stop_words=stopwords)
X_counts = count_vect.fit_transform(data['tweet'])

# Mostramos entonces el número de textos y el número de tokens únicos
print(X_counts.shape)

# X_counts es una matriz dispersa con el TF de cada token en cada texto
# Imprimimos el primer tuit y su correspondientes TF
print(data['tweet'][0])
print(X_counts[0])

In [None]:
# El vocabulario que forma los tokens del objeto vectorizer se puede obtener de la siguiente manera
# obtenemos el id del token 'buenosdias' que proviene de un hashtag
count_vect.vocabulary_.get('buenosdias')

In [None]:
# Calculamos ahora el TFIDF
X_TFIDF = tfidf_transformer.fit_transform(X_counts)
# Mostramos entonces el número de textos y el número de tokens únicos
print(X_TFIDF.shape)

# X_counts es una matriz dispersa con el TF de cada token en cada texto
# Imprimimos el primer tuit y su correspondientes TF
print(data['tweet'][0])
print(X_TFIDF[0])

# Calculamos también el BM25
X_BM25 = bm25_transformer.fit_transform(X_counts)
# Mostramos entonces el número de textos y el número de tokens únicos
print(X_BM25.shape)

# X_counts es una matriz dispersa con el TF de cada token en cada texto
# Imprimimos el primer tuit y su correspondientes TF
print(data['tweet'][0])
print(X_BM25[0])

In [None]:
# Podemos ver que el tamaño de la matriz de textos y el número total de tokens es el mismo tanto
# para TFIDF como para BM25
print(X_TFIDF.shape) # (Number of tweets, Number of unique words)
print(X_BM25.shape)

Realizamos una consulta cualquiera y la metemos en el string "query" para a continuación calcular la similitud del coseno usando el TF-IDF y el BM25

In [None]:
query = "semana santa"

In [None]:
# Transformamos la query a TF-ID y sacamos los resultados de la comparación con la función del coseno
# cosine_similarity
query_vec = count_vect.transform([query]) # Ip -- (n_docs,x), Op -- (n_docs,n_Feats)
query_vec_TFIDF = tfidf_transformer.fit_transform(query_vec)
results = cosine_similarity(X_TFIDF,query_vec_TFIDF).reshape((-1,)) # Op -- (n_docs,1) -- Cosine Sim with each doc

# Immprimimos a continuación los primeros 10 resultados ordenados por la similitud obtenida
for i in results.argsort()[-10:][::-1]:
    print(data.iloc[i,2],"--",results[i],"--",i)

In [None]:
# Obtenemos ahora los resultados usando el BM25
query_vec = count_vect.transform([query]) # Ip -- (n_docs,x), Op -- (n_docs,n_Feats)
query_vec_BM25 = bm25_transformer.fit_transform(query_vec)
results = cosine_similarity(X_BM25,query_vec_BM25).reshape((-1,)) # Op -- (n_docs,1) -- Cosine Sim with each doc

# Immprimimos a continuación los primeros 10 resultados ordenados por la similitud obtenida
for i in results.argsort()[-10:][::-1]:
    print(data.iloc[i,2],"--",results[i],"--",i)

## Apartado 1.5 Calculamos la similitud de varios textos con TF-IDF y BM25 (Resuelto)

Vamos a calcular la similitud de el primer texto con respecto a los demás usando la similitud del coseno.

In [None]:
# Definimos un conjunto de textos
textos=['El procesamiento del lenguaje natural (PLN o NLP) es un campo dentro de la inteligencia artificial y la lingüística aplicada que estudia las interacciones mediante uso del lenguaje natural entre los seres humanos y las máquinas. \
Más concretamente se centra en el procesamiento de las comunicaciones humanas, dividiéndolas en partes, e identificando los elementos más relevantes del mensaje.\
Con la Comprensión y Generación de Lenguaje Natural, busca que las máquinas consigan entender, interpretar y manipular el lenguaje humano.'
, 'El procesamiento del lenguaje natural (NLP, por sus siglas en inglés) es una rama de la inteligencia artificial que ayuda a las computadoras a entender, interpretar y manipular el lenguaje humano. \
NLP toma elementos prestados de muchas disciplinas, incluyendo la ciencia de la computación y la lingüística computacional, en su afán por cerrar la brecha entre la comunicación humana y el entendimiento de las computadoras."""], """El procesamiento del lenguaje natural (PLN o NLP) es un campo dentro de la inteligencia artificial y la lingüística aplicada que estudia las interacciones mediante uso del lenguaje natural entre los seres humanos y las máquinas. Más concretamente se centra en el procesamiento de las comunicaciones humanas, dividiéndolas en partes, e identificando los elementos más relevantes del mensaje. Con la Comprensión y Generación de Lenguaje Natural, busca que las máquinas consigan entender, interpretar y manipular el lenguaje humano.'
, 'La lingüística computacional es un campo interdisciplinario que se ocupa del desarrollo de formalismos del funcionamiento del lenguaje natural, tales que puedan ser transformados en programas ejecutables para un ordenador. \
Dicho desarrollo se sitúa entre el modelado basado en reglas y el modelado estadístico del lenguaje natural desde una perspectiva computacional, y en él participan lingüistas e informáticos especializados en inteligencia artificial, psicólogos cognoscitivos y expertos en lógica, entre otros.'
, 'El aprendizaje automático es un tipo de inteligencia artificial (AI) que proporciona a las computadoras la capacidad de aprender, sin ser programadas explícitamente. El aprendizaje automático se centra en el desarrollo de programas informáticos que pueden cambiar cuando se exponen a nuevos datos.'
, 'El  aprendizaje profundo es un tema que cada vez adquiere mayor relevancia en el campo de la inteligencia artificial (IA). Siendo una subcategoría del aprendizaje automático, el aprendizaje profundo trata del uso de redes neuronales para mejorar cosas tales como el reconocimiento de voz, la visión por ordenador y el procesamiento del lenguaje natural. \
Rápidamente se está convirtiendo en uno de los campos más solicitados en informática. \
En los últimos años, el aprendizaje profundo ha ayudado a lograr avances en áreas tan diversas como la percepción de objetos, el procesamiento del lenguaje natural y el reconocimiento de voz (todas ellas áreas especialmente complejas para los investigadores en IA).'
]

# Calculamos la similitud usando TFIDF
count_vect = CountVectorizer(stop_words=stopwords)
X_counts = count_vect.fit_transform(textos)

# Calculamos ahora el TFIDF
tfidf_transformer = TfidfTransformer()
X_TFIDF = tfidf_transformer.fit_transform(X_counts)

# Calculamos también el BM25
BM25_transformer = BM25Transformer(k=1.2,b=0.75)
X_BM25 = BM25_transformer.fit_transform(X_counts)

# Calculamos la similitud de los documentos con el coseno para TFIDF
results = cosine_similarity(X_TFIDF[1::],X_TFIDF[0]).reshape((-1,)) # Op -- (n_docs,1) -- Cosine Sim with each doc
print(results)

# Calculamos la similitud de los textos con el coseno para BM25
results = cosine_similarity(X_BM25[1::],X_TFIDF[0]).reshape((-1,)) # Op -- (n_docs,1) -- Cosine Sim with each doc
print(results)



##1.6 Cambiando a character n-grams
Podemos usar en vez de palabras (words), character n-grams para crear el vocabulario. Lo vemos con el primer ejemplo

In [None]:
texto = """La asignatura de TGINE es una asignatura del máster de BigData que se estudia en la Universidad de Murcia.
En la asignatura de máster vemos una introducción al procesamiento del lenguaje natural y tecnologías de procesamiento
de información no estructurada.
"""
texto2 = "No me gusta el chocolate ni las fresas"

texto3 = """El profesor de la asignatura TGINE es Rafael Valencia García.
"""
# Calculamos la matriz de TF usando la función fit_transform
count_vect = CountVectorizer()
X_counts = count_vect.fit_transform([texto,texto2,texto3])

# Mostramos entonces el número de textos y el número de tokens únicos
print(X_counts.shape)

# X_counts es una matriz dispersa con el TF de cada token en cada texto
# Imprimimos los textos y su correspondientes TF
print(texto)
print(X_counts[0])
print(texto2)
print(X_counts[1])
print(texto3)
print(X_counts[2])

#Los tokens de todo el vocabulario se representan con ids que hacen referencia a cada token.
print("Mostramos los items del diccionario")
print(count_vect.vocabulary_.items())
print("Tamaño vocabulario:", str(len(count_vect.vocabulary_.items())))

#Mostramos el código de una palabra determinada
#hay que tener en cuenta que todos los tokens se guardan en minúsculas
palabra_a_buscar="TGINE"
print("Código de la palabra", palabra_a_buscar, "es:", count_vect.vocabulary_.get(palabra_a_buscar.lower()))