![image info](https://raw.githubusercontent.com/albahnsen/MIAD_ML_and_NLP/main/images/banner_1.png)

# Similitud y normalización de textos

En este notebook aprenderá a calcular la similitud entre diferentes textos y a normalizarlos usando sklearn y [nltk](https://www.nltk.org/).

Este notebook tiene una licencia de [Creative Commons Attribution-ShareAlike 3.0 Unported License](http://creativecommons.org/licenses/by-sa/3.0/deed.en_US). Un agradecimiento especial para [
Adrien sieg](https://medium.com/@adriensieg/text-similarities-da019229c894)

## Instrucciones Generales

La similitud y normalización de textos son tecnicas del procesamiento de lenguaje natural. Mientras que la similitud permite identificar que tan similares son un par de textos, la normalización permite convertir una palabra en su forma más básica.

Este notebook esta compuesto por dos secciones. En la primera secciónn, usted beberá a obtener la similitud entre dos textos usando diferentes métricas. En la segunda parte, normalizará el texto del set de noticias populares de UCI, eliminando stopwords y haciedo stemming y lematización. Para conocer más detalles de la base, puede ingresar al siguiente [vínculo](https://archive.ics.uci.edu/ml/datasets/online+news+popularity#).
   
Para realizar la actividad, solo siga las indicaciones asociadas a cada celda del notebook.

In [1]:
import sys
print(sys.version)

3.11.5 (main, Apr 11 2025, 22:11:19) [Clang 17.0.0 (clang-1700.0.13.3)]


In [2]:
#pip install numpy==2.0.2 tensorflow==2.19.0 scikit-learn==1.6.1 scipy==1.13.1 nltk==3.9.1 pandas==2.2.3

In [3]:
#pip install -r requirements.txt 

In [4]:
import warnings
warnings.filterwarnings('ignore')

## Similitud de texto

### Similitud de Jaccard
La similitud de Jaccard se define como el tamaño de la intersección dividido por el tamaño de la unión de dos conjuntos.

In [5]:
# Definición función de similitud de Jaccard que recibe como parámetros dos textos y retorna su similitud
def jaccard_similarity(str1, str2):
    set1 = set(str1.lower().split())
    set2 = set(str2.lower().split())
    intersection = set1.intersection(set2)
    union = set1.union(set2)
    return len(intersection) / len(union)

In [6]:
# Definición de oraciones para calculo de similitud
s1 = "Una IA pretende imitar la mente humana en el mundo digital"
s2 = "La imaginación humana es el único límite para una IA"

In [7]:
# Impresión de la similitud de Jaccard entre las dos frases
jaccard_similarity(s1, s2)

0.3125

### Similitud de coseno

La similitud del coseno calcula la similitud midiendo el coseno del ángulo entre dos vectores.

In [10]:
# Importación librerías
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from scipy.spatial.distance import cosine
import numpy as np

#### Similitud de coseno CountVectorizer
Al vectorizar con CountVectorizer, este tiene la limitación que palabras de un carácter no se consideran dentro del vocabulario, por ejemplo las palabras 'a' e 'y'. Con esto se tiene:

In [11]:
# Definición función de similitud de Coseno que recibe como parámetros dos textos y retorna su similitud
def cosine_distance_countVectorizer(s1, s2):

    # Uso de CountVectorizer para obtener vectores de una frase
    vect = CountVectorizer(binary=True)
    X_dtm = vect.fit_transform([s1, s2]).toarray()

    return 1-cosine(X_dtm[0],X_dtm[1])

str1 = "El preprocesamiento de texto es importante para los modelos de NLP"
str2 = "El NLP es importante para diferentes problemas en organizaciones"

vectorizer = CountVectorizer()
vectors = vectorizer.fit_transform([str1, str2])
similarity = cosine_similarity(vectors[0:1], vectors[1:2])[0][0]
print(similarity)

0.4622501635210243


#### Similitud de coseno manual
Al realizar la creación los vectores de la frase manualmente se garantiza que se consideran todas las palabras. Con esto:

In [12]:
def obtener_vectores(union, str1, str2):

    s1_l = []
    s2_l = []

    for palabra in union:
        if palabra in str1.split():
            s1_l.append(1)
        else:
            s1_l.append(0)

        if palabra in str2.split():
            s2_l.append(1)
        else:
            s2_l.append(0)

    return s1_l, s2_l

# Definición función de similitud de Coseno que recibe como parámetros dos textos y retorna su similitud
def cosine_distance_manual(str1, str2):

    union = list(set(str1.split()).union(set(str2.split())))

    s1_v, s2_v = obtener_vectores(union, str1, str2)

    return 1-cosine(s1_v, s2_v)

In [14]:
# Impresión de la similitud de coseno entre las dos frases definidas anteriormente
cosine_distance_manual(str1, str2)

np.float64(0.5270462766947299)