![image info](https://raw.githubusercontent.com/albahnsen/MIAD_ML_and_NLP/main/images/banner_1.png)

# Similitud y normalización de textos

En este notebook aprenderá a calcular la similitud entre diferentes textos y a normalizarlos usando sklearn y [nltk](https://www.nltk.org/).

Este notebook tiene una licencia de [Creative Commons Attribution-ShareAlike 3.0 Unported License](http://creativecommons.org/licenses/by-sa/3.0/deed.en_US). Un agradecimiento especial para [
Adrien sieg](https://medium.com/@adriensieg/text-similarities-da019229c894)

## Instrucciones Generales

La similitud y normalización de textos son tecnicas del procesamiento de lenguaje natural. Mientras que la similitud permite identificar que tan similares son un par de textos, la normalización permite convertir una palabra en su forma más básica.

Este notebook esta compuesto por dos secciones. En la primera secciónn, usted beberá a obtener la similitud entre dos textos usando diferentes métricas. En la segunda parte, normalizará el texto del set de noticias populares de UCI, eliminando stopwords y haciedo stemming y lematización. Para conocer más detalles de la base, puede ingresar al siguiente [vínculo](https://archive.ics.uci.edu/ml/datasets/online+news+popularity#).
   
Para realizar la actividad, solo siga las indicaciones asociadas a cada celda del notebook. 

In [16]:
import warnings
warnings.filterwarnings('ignore')

## Similitud de texto

### Similitud de Jaccard
La similitud de Jaccard se define como el tamaño de la intersección dividido por el tamaño de la unión de dos conjuntos.

In [17]:
# Definición función de similitud de Jaccard que recibe como parámetros dos textos y retorna su similitud
def jaccard_similarity(query, document):
    # Calculo de la intersección
    intersection = set(query.split()).intersection(set(document.split()))
    # Calculo de la unión
    union = set(query.split()).union(set(document.split()))
    return len(intersection)/len(union)

In [18]:
# Definición de oraciones para calculo de similitud
s1 = "La intelingencia artificial ayuda a resolver los problemas mas complejos"
s2 = "La inteligencia artificial está creciendo rápidamente y esto puede acarrear diferentes problemas"

In [19]:
# Impresión de la similitud de Jaccard entre las dos frases
jaccard_similarity(s1, s2)

0.15789473684210525

### Similitud de coseno

La similitud del coseno calcula la similitud midiendo el coseno del ángulo entre dos vectores.

In [20]:
# Importación librerías
from sklearn.feature_extraction.text import CountVectorizer
from scipy.spatial.distance import cosine
import numpy as np

#### Similitud de coseno CountVectorizer
Al vectorizar con CountVectorizer, este tiene la limitación que palabras de un carácter no se consideran dentro del vocabulario, por ejemplo las palabras 'a' e 'y'. Con esto se tiene:

In [21]:
# Definición función de similitud de Coseno que recibe como parámetros dos textos y retorna su similitud
def cosine_distance_countVectorizer(s1, s2):

    # Uso de CountVectorizer para obtener vectores de una frase
    vect = CountVectorizer(binary=True)
    X_dtm = vect.fit_transform([s1, s2]).todense()
    
    return 1-cosine(X_dtm[0], X_dtm[1])

In [22]:
# Impresión de la similitud de coseno entre las dos frases definidas anteriormente
cosine_distance_countVectorizer(s1, s2)

ValueError: Input vector should be 1-D.

#### Similitud de coseno manual
Al realizar la creación los vectores de la frase manualmente se garantiza que se consideran todas las palabras. Con esto:

In [None]:
def obtener_vectores(union, s1, s2):

    s1_l = []
    s2_l = []
    
    for palabra in union:
        if palabra in s1.split():
            s1_l.append(1)
        else:
            s1_l.append(0)

        if palabra in s2.split():
            s2_l.append(1)
        else:
            s2_l.append(0)

    return s1_l, s2_l
        
# Definición función de similitud de Coseno que recibe como parámetros dos textos y retorna su similitud
def cosine_distance_manual(s1, s2):
    
    union = list(set(s1.split()).union(set(s2.split())))
    
    s1_v, s2_v = obtener_vectores(union, s1, s2)
    
    return 1-cosine(s1_v, s2_v)

In [None]:
# Impresión de la similitud de coseno entre las dos frases definidas anteriormente
cosine_distance_manual(s1, s2)

0.27386127875258304

La diferencia entre las distancias de coseno se obtiene por la forma de vectorizar, consideren esta segunda para el desarrollo del quiz. Los invitamos a que entiendan con detalle que hace la función manual.

### Codificación de Oraciones y Similitud de Coseno

La codificación de oraciones es una de las representaciones más populares del vocabulario de documentos. Es capaz de capturar el contexto de una palabra en un documento, la similitud semántica y sintáctica, la relación con otras palabras, etc. 

Para esta sección del notebook instale la libreria tensorflow y tensorflow_hub (si aun no las ha instalado) con el comando *!pip install tensorflow* y *!pip install tensorflow_hub* respectivamente.

In [None]:
#pip install tensorflow_hub #tensorflow

In [None]:
# Importación librerías
import tensorflow.compat.v1 as tf
tf.disable_eager_execution()
import tensorflow_hub as hub

In [None]:
# Importación el módulo TF Hub del Universal Sentence Encoder
module_url = "https://tfhub.dev/google/universal-sentence-encoder/2"
embed = hub.Module(module_url)


In [None]:
# Codificación de las frases anteriormente definidas con la libreria tensorflow
with tf.Session() as session:
    session.run([tf.global_variables_initializer(), tf.tables_initializer()])
    sentences_embeddings = session.run(embed([s1, s2]))

DataLossError: Graph execution error:

Detected at node 'checkpoint_initializer_3' defined at (most recent call last):
    File "c:\ProgramData\Anaconda3\lib\runpy.py", line 197, in _run_module_as_main
      return _run_code(code, main_globals, None,
    File "c:\ProgramData\Anaconda3\lib\runpy.py", line 87, in _run_code
      exec(code, run_globals)
    File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py", line 17, in <module>
      app.launch_new_instance()
    File "c:\ProgramData\Anaconda3\lib\site-packages\traitlets\config\application.py", line 846, in launch_instance
      app.start()
    File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\kernelapp.py", line 712, in start
      self.io_loop.start()
    File "c:\ProgramData\Anaconda3\lib\site-packages\tornado\platform\asyncio.py", line 199, in start
      self.asyncio_loop.run_forever()
    File "c:\ProgramData\Anaconda3\lib\asyncio\base_events.py", line 601, in run_forever
      self._run_once()
    File "c:\ProgramData\Anaconda3\lib\asyncio\base_events.py", line 1905, in _run_once
      handle._run()
    File "c:\ProgramData\Anaconda3\lib\asyncio\events.py", line 80, in _run
      self._context.run(self._callback, *self._args)
    File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 510, in dispatch_queue
      await self.process_one()
    File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 499, in process_one
      await dispatch(*args)
    File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 406, in dispatch_shell
      await result
    File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 730, in execute_request
      reply_content = await reply_content
    File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\ipkernel.py", line 390, in do_execute
      res = shell.run_cell(code, store_history=store_history, silent=silent)
    File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\zmqshell.py", line 528, in run_cell
      return super().run_cell(*args, **kwargs)
    File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2914, in run_cell
      result = self._run_cell(
    File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2960, in _run_cell
      return runner(coro)
    File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\async_helpers.py", line 78, in _pseudo_sync_runner
      coro.send(None)
    File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 3185, in run_cell_async
      has_raised = await self.run_ast_nodes(code_ast.body, cell_name,
    File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 3377, in run_ast_nodes
      if (await self.run_code(code, result,  async_=asy)):
    File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 3457, in run_code
      exec(code_obj, self.user_global_ns, self.user_ns)
    File "C:\Users\DubanPedraza\AppData\Local\Temp\ipykernel_4932\3109696665.py", line 3, in <module>
      embed = hub.Module(module_url)
    File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow_hub\module.py", line 176, in __init__
      self._impl = self._spec._create_impl(
    File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow_hub\native_module.py", line 387, in _create_impl
      return _ModuleImpl(
    File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow_hub\native_module.py", line 451, in __init__
      self._init_state(name)
    File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow_hub\native_module.py", line 458, in _init_state
      tf.compat.v1.train.init_from_checkpoint(self._checkpoint_path,
Node: 'checkpoint_initializer_3'
TensorBundle at C:\Users\DUBANP~1\AppData\Local\Temp\tfhub_modules\1fb57c3ffe1a38479233ee9853ddd7a8ac8a8c47\variables\variables shard 0 (60236800 bytes): Checksum does not match: stored 1384306653 vs. calculated on the restored bytes 1648504080
	 [[{{node checkpoint_initializer_3}}]]

Original stack trace for 'checkpoint_initializer_3':
  File "c:\ProgramData\Anaconda3\lib\runpy.py", line 197, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "c:\ProgramData\Anaconda3\lib\runpy.py", line 87, in _run_code
    exec(code, run_globals)
  File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py", line 17, in <module>
    app.launch_new_instance()
  File "c:\ProgramData\Anaconda3\lib\site-packages\traitlets\config\application.py", line 846, in launch_instance
    app.start()
  File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\kernelapp.py", line 712, in start
    self.io_loop.start()
  File "c:\ProgramData\Anaconda3\lib\site-packages\tornado\platform\asyncio.py", line 199, in start
    self.asyncio_loop.run_forever()
  File "c:\ProgramData\Anaconda3\lib\asyncio\base_events.py", line 601, in run_forever
    self._run_once()
  File "c:\ProgramData\Anaconda3\lib\asyncio\base_events.py", line 1905, in _run_once
    handle._run()
  File "c:\ProgramData\Anaconda3\lib\asyncio\events.py", line 80, in _run
    self._context.run(self._callback, *self._args)
  File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 510, in dispatch_queue
    await self.process_one()
  File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 499, in process_one
    await dispatch(*args)
  File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 406, in dispatch_shell
    await result
  File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 730, in execute_request
    reply_content = await reply_content
  File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\ipkernel.py", line 390, in do_execute
    res = shell.run_cell(code, store_history=store_history, silent=silent)
  File "c:\ProgramData\Anaconda3\lib\site-packages\ipykernel\zmqshell.py", line 528, in run_cell
    return super().run_cell(*args, **kwargs)
  File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2914, in run_cell
    result = self._run_cell(
  File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2960, in _run_cell
    return runner(coro)
  File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\async_helpers.py", line 78, in _pseudo_sync_runner
    coro.send(None)
  File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 3185, in run_cell_async
    has_raised = await self.run_ast_nodes(code_ast.body, cell_name,
  File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 3377, in run_ast_nodes
    if (await self.run_code(code, result,  async_=asy)):
  File "c:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 3457, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "C:\Users\DubanPedraza\AppData\Local\Temp\ipykernel_4932\3109696665.py", line 3, in <module>
    embed = hub.Module(module_url)
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow_hub\module.py", line 176, in __init__
    self._impl = self._spec._create_impl(
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow_hub\native_module.py", line 387, in _create_impl
    return _ModuleImpl(
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow_hub\native_module.py", line 451, in __init__
    self._init_state(name)
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow_hub\native_module.py", line 458, in _init_state
    tf.compat.v1.train.init_from_checkpoint(self._checkpoint_path,
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\training\checkpoint_utils.py", line 378, in init_from_checkpoint
    distribution_strategy_context.get_replica_context().merge_call(
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\distribute\distribute_lib.py", line 3110, in merge_call
    return self._merge_call(merge_fn, args, kwargs)
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\distribute\distribute_lib.py", line 3117, in _merge_call
    return merge_fn(self._strategy, *args, **kwargs)
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\autograph\impl\api.py", line 595, in wrapper
    return func(*args, **kwargs)
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\training\checkpoint_utils.py", line 373, in <lambda>
    init_from_checkpoint_fn = lambda _: _init_from_checkpoint(
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\training\checkpoint_utils.py", line 428, in _init_from_checkpoint
    _set_variable_or_list_initializer(var, ckpt_file, tensor_name_in_ckpt)
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\training\checkpoint_utils.py", line 554, in _set_variable_or_list_initializer
    _set_checkpoint_initializer(variable_or_list, ckpt_file, tensor_name, "")
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\training\checkpoint_utils.py", line 507, in _set_checkpoint_initializer
    restore_op = io_ops.restore_v2(
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\ops\gen_io_ops.py", line 1604, in restore_v2
    _, _, _op, _outputs = _op_def_library._apply_op_helper(
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\framework\op_def_library.py", line 795, in _apply_op_helper
    op = g._create_op_internal(op_type_name, inputs, dtypes=None,
  File "C:\Users\DubanPedraza\AppData\Roaming\Python\Python39\site-packages\tensorflow\python\framework\ops.py", line 3814, in _create_op_internal
    ret = Operation(


In [None]:
#Impresión de las codificaciones
sentences_embeddings

In [None]:
# Impresión de la similitud de coseno entre las dos frases definidas anteriormente usando codificación de oraciones
1-cosine(sentences_embeddings[0], sentences_embeddings[1])

NameError: name 'sentences_embeddings' is not defined

## Normalización de textos

In [None]:
# Importación librerías
import pandas as pd
import numpy as np
import scipy as sp
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from nltk.stem.snowball import SnowballStemmer
%matplotlib inline

In [None]:
# Carga de datos de archivos .csv
df = pd.read_csv('https://raw.githubusercontent.com/albahnsen/MIAD_ML_and_NLP/main/datasets/mashable_texts.csv', index_col=0)
df.head()

In [None]:
# Separación de variable de interés (y)
y = df.shares
y.describe()

In [None]:
# Categoización de la variable de interés (y)
y = pd.cut(y, [0, 893, 1200, 2275, 63200], labels=[0, 1, 2, 3])
y.value_counts()

In [None]:
# Definición de variable de interés en el dataframe
df['y'] = y

In [None]:
# Definición de variables predictoras
X = df.text

In [None]:
# Definición de función que recibe un texto vectorizado y calcula el acurracy de un modelo Naive Bayes 
def tokenize_test(vect):
    X_dtm = vect.fit_transform(X)
    print('Features: ', X_dtm.shape[1])
    nb = MultinomialNB()
    print(pd.Series(cross_val_score(nb, X_dtm, y, cv=10)).describe())

### Eliminación de stopwords

In [None]:
# Eliminación de stopwords al usar el parámetro 'stop_words' de la función CountVectorizer()
vect_no_stopw = CountVectorizer(stop_words='english')

In [None]:
# Impresión de stopwords del texto
print(vect_no_stopw.get_stop_words())

In [None]:
# Desempeño del modelo sin considerar stopwords
tokenize_test(vect_no_stopw)

### Stemming

Stemming es un preprocesamiento del texto en el que para cada palabra se obtiene su raíz o en inglés stem.

In [None]:
# Inicialización de stemmer
stemmer = SnowballStemmer('english')

In [None]:
# Creación de matrices de documentos usando CountVectorizer a partir de X
vect = CountVectorizer()
vect.fit(X)

In [None]:
# Definiicón de lista con vocabulario de la matriz de documentos
words = list(vect.vocabulary_.keys())[:100]

In [None]:
# Obtención e impresión de los stem de cada palabra de la lista
print([stemmer.stem(word) for word in words])

### Lematización

La lemmatización es un proceso en el que se busca el lema de cada palabra de un texto, siendo un lema la forma base o de diccionario de una palabra.

In [None]:
# Importación de librerias
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
import nltk
nltk.download('wordnet')

In [None]:
# Obtención e impresión de los lemas de cada palabra de la lista asumiendo que cada palabra es un sustantivo
print([wordnet_lemmatizer.lemmatize(word) for word in words])

In [None]:
# Obtención e impresión de los lemas de cada palabra de la lista asumiendo que cada palabra es un verbo
print([wordnet_lemmatizer.lemmatize(word,pos='v') for word in words])

In [None]:
# Definición de la función que tenga como parámetro texto y devuelva una lista de lemas
def split_into_lemmas(text):
    text = text.lower()
    words = text.split()
    return [wordnet_lemmatizer.lemmatize(word) for word in words]

In [None]:
# Creación de matrices de documentos usando CountVectorizer, usando el parámetro 'split_into_lemmas'
vect_lemas = CountVectorizer(analyzer=split_into_lemmas)

In [None]:
# Desempeño del modelo al lematizar el texto
tokenize_test(vect_lemas)