<a href="https://colab.research.google.com/github/SherlynBallestero/DominoGame/blob/main/Laboratorio_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Laboratorio \#1: Pre-procesamiento léxico

El Procesamiento del Lenguaje Natural (NLP) es una rama de la inteligencia artificial que se centra en la interacción entre las computadoras y el lenguaje humano, buscando la manera de leer, comprender y hacer que las computadoras interpreten el lenguaje humano de manera útil. El preprocesamiento léxico es un paso crítico en NLP, involucrando la preparación y limpieza inicial del texto. Esta fase incluye tareas como la tokenización, la eliminación de ruido, la eliminación de stop-words, la reducción morfológica, el filtrado por ocurrencia y la construcción de vocabulario. Estos pasos son esenciales para transformar un texto "crudo" en un objeto con formato estructurado y analizable, eliminando la información irrelevante y destacando los elementos significativos del lenguaje.

# Configurando el entorno

### spacy

spaCy es una biblioteca avanzada y de alto rendimiento en el campo del Procesamiento del Lenguaje Natural (NLP), diseñada específicamente para aplicaciones de producción. Se destaca por su eficiencia y velocidad, ofreciendo una serie de modelos pre-entrenados optimizados para diversas tareas de NLP como la tokenización, el etiquetado de las partes del discurso, el reconocimiento de entidades nombradas y el análisis de dependencias. Una de las fortalezas clave de spaCy es su capacidad para manejar grandes volúmenes de texto de manera eficiente, lo que la hace ideal para proyectos que requieren un procesamiento de lenguaje natural a gran escala. Además, spaCy integra características como el procesamiento por lotes y la capacidad de personalización de modelos, lo que facilita su incorporación en flujos de trabajo complejos y sistemas de producción en tiempo real. Su enfoque pragmático y orientado a la industria hace de spaCy una herramienta esencial para desarrolladores y científicos de datos que buscan precisión y rendimiento en sus aplicaciones de NLP.

### nltk

NLTK, por otro lado, es una biblioteca de NLP ampliamente reconocida por su enfoque educativo y de investigación. Es una herramienta de gran valor para aprender y enseñar procesamiento del lenguaje natural, gracias a su extensa colección de recursos lingüísticos y herramientas de análisis. NLTK proporciona acceso a una diversidad de corpus textuales y recursos de conocimiento como WordNet, facilitando el estudio de diferentes aspectos del lenguaje y sus aplicaciones computacionales. Además, incluye una amplia gama de herramientas para tareas fundamentales de NLP, como la tokenización, el etiquetado de partes del discurso, y el análisis sintáctico. La biblioteca se distingue por su enfoque didáctico, con amplia documentación y tutoriales que la hacen accesible para principiantes en NLP, así como una opción robusta para investigadores que buscan una plataforma para experimentar con técnicas de procesamiento del lenguaje. A pesar de no estar específicamente orientada a aplicaciones de producción, NLTK sigue siendo una herramienta fundamental en el campo del NLP, especialmente en entornos académicos y de investigación.

### gensim

Gensim es una biblioteca poderosa y versátil para modelado de temas, recuperación de información, y tareas de análisis semántico en el campo del NLP. Una de sus características más destacadas es el acceso a corpus y la capacidad de procesamiento de estos, permitiendo a los usuarios trabajar con grandes colecciones de documentos de texto de manera eficiente. Gensim también sobresale en la implementación de modelos de tópicos como Latent Dirichlet Allocation (LDA) y Latent Semantic Indexing (LSI), que son fundamentales para descubrir la estructura temática subyacente en grandes colecciones de texto. Además, Gensim proporciona funcionalidades para trabajar con embeddings de palabras, como Word2Vec, FastText y Doc2Vec, herramientas esenciales para capturar el significado semántico de las palabras y documentos.

In [15]:
# Instalando los recursos básicos, en caso de no contar con ellos

try:
    import ir_datasets
except:
    !pip install ir-datasets

try:
    import nltk

except:
    !pip install nltk
    import nltk
    nltk.download('punkt')
    nltk.download('wordnet')
    nltk.download('stopwords')
    nltk.download('averaged_perceptron_tagger')

try:
    import spacy
    spacy.load("en_core_web_sm")
except:
    !pip install spacy
    !python -m spacy download en_core_web_sm

try:
    import gensim
except:
    !pip install gensim



[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


In [16]:
# Cargando las bibliotecas
import ir_datasets
import nltk
import spacy
import gensim

# Cargando el corpus

### Cranfield

El corpus Cranfield es un conjunto de datos clásico en el campo de la Recuperación de Información, compuesto por aproximadamente 1,400 resúmenes de artículos de investigación en aerodinámica. Cada documento en este corpus incluye un título, un resumen conciso del contenido, y en algunos casos, palabras clave y referencias bibliográficas. Acompañando a estos documentos, hay alrededor de 225 consultas de prueba y sus correspondientes juicios de relevancia, proporcionados por expertos, que indican la pertinencia de cada documento para una consulta específica. Este diseño estructurado y su enfoque específico en temas de aerodinámica hacen del corpus una herramienta esencial para evaluar la eficacia de Sistemas de Recuperación de Información, sirviendo como un modelo estándar para pruebas comparativas y consistentes en esta disciplina.

In [17]:
# Cargar el corpus y mostrar un documento
dataset = ir_datasets.load("cranfield")

documents = [doc.text for doc in dataset.docs_iter()]

print(documents[0])

experimental investigation of the aerodynamics of a
wing in a slipstream .
  an experimental study of a wing in a propeller slipstream was
made in order to determine the spanwise distribution of the lift
increase due to slipstream at different angles of attack of the wing
and at different free stream to slipstream velocity ratios .  the
results were intended in part as an evaluation basis for different
theoretical treatments of this problem .
  the comparative span loading curves, together with
supporting evidence, showed that a substantial part of the lift increment
produced by the slipstream was due to a /destalling/ or
boundary-layer-control effect .  the integrated remaining lift
increment, after subtracting this destalling lift, was found to agree
well with a potential flow theory .
  an empirical evaluation of the destalling effects was made for
the specific configuration of the experiment .


Nota: Para los efectos de esta clase práctica solo es necesario tomar el título y contenido de los documentos, y se obvian los metadatos como la fecha, el autor, etc., que podrían ser importantes en otros análisis.

## 1. Tokenización

La **tokenización** es el proceso de convertir un texto en una secuencia de *tokens*, que son piezas más pequeñas, como palabras, números o símbolos. Constituye la base para el análisis del texto y el NLP, al transformar el lenguaje natural, complejo y variado, en una forma estructurada y analizable. Es el primer paso para descomponer el texto en unidades manejables, permitiendo procesos más complejos como el análisis sintáctico y semántico. Al dividir el texto en tokens, se simplifica la tarea de identificar patrones, entidades nombradas, temas o sentimientos. Además, permite convertir el texto en una forma tal que los modelos pueden "entender", como vectores de características.

In [18]:
tokenized_docs = []
vector_repr = []
dictionary = {}
vocabulary = []

In [None]:
nlp = spacy.load("en_core_web_sm")
def tokenization_spacy(texts):
  raise NotImplementedError()

tokenization_spacy(documents)

In [19]:
def tokenization_nltk(texts):
    global tokenized_docs
    for doc in texts:
      tokenized_docs.append(nltk.tokenize.word_tokenize(doc))
    return tokenized_docs
tokenization_nltk(documents)

[['experimental',
  'investigation',
  'of',
  'the',
  'aerodynamics',
  'of',
  'a',
  'wing',
  'in',
  'a',
  'slipstream',
  '.',
  'an',
  'experimental',
  'study',
  'of',
  'a',
  'wing',
  'in',
  'a',
  'propeller',
  'slipstream',
  'was',
  'made',
  'in',
  'order',
  'to',
  'determine',
  'the',
  'spanwise',
  'distribution',
  'of',
  'the',
  'lift',
  'increase',
  'due',
  'to',
  'slipstream',
  'at',
  'different',
  'angles',
  'of',
  'attack',
  'of',
  'the',
  'wing',
  'and',
  'at',
  'different',
  'free',
  'stream',
  'to',
  'slipstream',
  'velocity',
  'ratios',
  '.',
  'the',
  'results',
  'were',
  'intended',
  'in',
  'part',
  'as',
  'an',
  'evaluation',
  'basis',
  'for',
  'different',
  'theoretical',
  'treatments',
  'of',
  'this',
  'problem',
  '.',
  'the',
  'comparative',
  'span',
  'loading',
  'curves',
  ',',
  'together',
  'with',
  'supporting',
  'evidence',
  ',',
  'showed',
  'that',
  'a',
  'substantial',
  'part',
 

## 2. Eliminación de Ruido

La **eliminación de ruido** implica descartar elementos no esenciales como signos de puntuación, números, y caracteres especiales. Este proceso ayuda a enfocar el análisis en el contenido relevante. Al eliminar estos elementos, se reduce la complejidad (dimensión) del texto y se facilita la identificación de palabras clave y patrones significativos. Además, la eliminación de ruido es especialmente importante en tareas como la clasificación de texto, la extracción de información y el análisis de sentimientos, donde la presencia de elementos irrelevantes pueden distorsionar los resultados, reducir la precisión de los modelos de NLP y conllevar a resultados no deseados por la mala selección de las características.

In [None]:
def remove_noise_spacy(tokenized_docs):
  raise NotImplementedError()

remove_noise_spacy(tokenization_spacy(documents))

In [34]:

def remove_noise_nltk(tokenized_docs):
    tokens = []
    for doc in tokenized_docs:
        for word in doc:
            if word.isalpha():
                tokens.append(word)
    return tokens
remove_noise_nltk(tokenized_docs)

['experimental',
 'investigation',
 'of',
 'the',
 'aerodynamics',
 'of',
 'a',
 'wing',
 'in',
 'a',
 'slipstream',
 'an',
 'experimental',
 'study',
 'of',
 'a',
 'wing',
 'in',
 'a',
 'propeller',
 'slipstream',
 'was',
 'made',
 'in',
 'order',
 'to',
 'determine',
 'the',
 'spanwise',
 'distribution',
 'of',
 'the',
 'lift',
 'increase',
 'due',
 'to',
 'slipstream',
 'at',
 'different',
 'angles',
 'of',
 'attack',
 'of',
 'the',
 'wing',
 'and',
 'at',
 'different',
 'free',
 'stream',
 'to',
 'slipstream',
 'velocity',
 'ratios',
 'the',
 'results',
 'were',
 'intended',
 'in',
 'part',
 'as',
 'an',
 'evaluation',
 'basis',
 'for',
 'different',
 'theoretical',
 'treatments',
 'of',
 'this',
 'problem',
 'the',
 'comparative',
 'span',
 'loading',
 'curves',
 'together',
 'with',
 'supporting',
 'evidence',
 'showed',
 'that',
 'a',
 'substantial',
 'part',
 'of',
 'the',
 'lift',
 'increment',
 'produced',
 'by',
 'the',
 'slipstream',
 'was',
 'due',
 'to',
 'a',
 'or',
 'ef

## 3. Eliminación de Stop-Words:

La **eliminación de _stop-words_** es un proceso clave en el análisis de texto y el NLP. Los _stop-words_ son palabras comunes que, aunque necesarias para la estructura gramatical, suelen carecer de significado específico, como "el", "la", "de", "y", "en". Eliminar estas palabras del texto ayuda a centrarse en las palabras que realmente contribuyen al significado y contexto. Este paso es fundamental para mejorar la eficiencia de los algoritmos de búsqueda y procesamiento, ya que reduce el tamaño del texto a analizar y resalta términos más relevantes y específicos. Además, en tareas como la extracción de características, clasificación de texto, y análisis de sentimientos, la eliminación de _stop-words_ puede aumentar significativamente la precisión y relevancia de los resultados.

En ciertas ocaciones los tokens definidos en los _stop-words_ son insuficientes y es necesaria ampliar dicha lista con otros tokens propios al corpus que se desea "limpiar".


In [None]:
def remove_stopwords_spacy(tokenized_docs):
  raise NotImplementedError()

remove_stopwords_spacy(remove_noise_spacy(tokenization_spacy(documents)))

In [None]:
def remove_stopwords(tokenized_docs):
    raise NotImplementedError()

remove_stopwords(tokenized_docs)

## 4. Reducción Morfológica

La **reducción morfológica** incluye técnicas como la lematización y el stemming. La **lematización** implica reducir las palabras a su forma base o lema, considerando el análisis morfológico de las palabras. Esto significa que palabras como "corriendo" y "corrió" se reducirían a su lema común "correr", lo que ayuda a mantener el significado contextual en el análisis. Por otro lado, el **stemming** reduce las palabras a su raíz o tallo, a menudo mediante la eliminación de sufijos y prefijos, lo que puede ser menos preciso que la lematización pero es más rápido y simple. Por ejemplo, "corriendo" y "corrió" podrían reducirse a "corr". Ambas técnicas son importantes para normalizar las variantes de las palabras (vocabulario) y facilitar la identificación de patrones en el texto. Mientras que la lematización es más adecuada para tareas que requieren precisión lingüística, el stemming es útil para aplicaciones que necesitan rapidez y eficiencia en el procesamiento de grandes volúmenes de datos.


In [None]:
def morphological_reduction_spacy(tokenized_docs, use_lemmatization=True):
  raise NotImplementedError()

morphological_reduction_spacy(remove_stopwords_spacy(remove_noise_spacy(tokenization_spacy(documents))), True)

In [None]:
def morphological_reduction_nltk(tokenized_docs, use_lemmatization=True):
    raise NotImplementedError()

morphological_reduction_nltk(tokenized_docs)

## 5. Filtrado según Ocurrencia:

El **filtrado según ocurrencia** implica seleccionar o descartar palabras basándose en la frecuencia con la que aparecen en el texto. Permite identificar y enfocarse en términos que son significativos dentro de un corpus específico. Palabras que aparecen con mucha frecuencia (términos comunes) o con muy poca frecuencia (palabras raras) a menudo se eliminan. La razón es que las palabras muy comunes suelen aportar poco valor analítico y las muy raras pueden ser menos relevantes o incluso errores. El filtrado por ocurrencia ayuda a mejorar la relevancia y la calidad de los análisis de texto, simplificando los datos y resaltando las palabras que son verdaderamente representativas del tema o contenido analizado. En aplicaciones prácticas, como en la clasificación de texto o en el modelado de temas, este enfoque facilita la extracción de insights significativos y mejora la eficacia de los algoritmos de NLP al reducir el ruido y la dimensionalidad de los datos.


In [None]:
def filter_tokens_by_occurrence(tokenized_docs, no_below=5, no_above=0.5):
  global dictionary
  raise NotImplementedError()

tokenized_docs = filter_tokens_by_occurrence(tokenized_docs)

## 6. Construcción del Vocabulario

La **construcción del vocabulario** es un paso fundamental en el procesamiento del lenguaje natural (NLP) y en el análisis de textos. Este proceso implica crear un conjunto de palabras únicas, o 'vocabulario', a partir de un corpus. La construcción de un vocabulario eficaz es crucial porque sirve como base para muchas tareas de NLP, como la vectorización de texto, el modelado de temas, y la clasificación de texto. Al definir un vocabulario, se establece un marco uniforme que permite convertir el texto en representaciones numéricas, facilitando así el procesamiento por parte de algoritmos de aprendizaje automático. Este conjunto de palabras únicas también ayuda a identificar y analizar las características más importantes de un corpus, lo que resulta vital para comprender y extraer insights significativos del texto. La construcción de un vocabulario adecuado requiere un equilibrio entre incluir palabras suficientemente representativas y excluir aquellas que no aportan información relevante, asegurando así la eficiencia y precisión en el análisis posterior.


In [None]:
def build_vocabulary(dictionary):
  raise NotImplementedError()

vocabulary = build_vocabulary(dictionary)

## 7. Representación Vectorial de Documentos

En el procesamiento del lenguaje natural (NLP), la **representación vectorial de documentos** es un proceso clave que transforma texto en vectores numéricos, facilitando su análisis por algoritmos de aprendizaje automático. Existen varios métodos para esta representación. El más simple es el modelo Bag of Words (BoW), donde cada documento se representa como un vector que indica la presencia o frecuencia de palabras del vocabulario en el documento. Una variante más avanzada es el modelo TF-IDF (Frecuencia de Término - Frecuencia Inversa de Documento), que refleja no solo la frecuencia de las palabras, sino también su importancia en el documento y el corpus en general. Métodos más sofisticados incluyen modelos de word embeddings, como Word2Vec y GloVe, que capturan relaciones semánticas y contextuales entre palabras, representándolas como vectores densos en un espacio de características de alta dimensión. También existen BERT Embeddings, derivados del modelo de lenguaje BERT, que proporcionan representaciones contextuales de palabras basadas en su uso en oraciones específicas. Cada uno de estos métodos tiene sus fortalezas y aplicaciones, y la elección de uno sobre otro depende de la tarea específica de NLP y los requisitos de precisión y complejidad del análisis.


In [None]:
def vector_representation(tokenized_docs, dictionary, vector_repr, use_bow=True):
    raise NotImplementedError()

vector_repr = vector_representation(tokenized_docs, dictionary, vector_repr)

## 8. Etiquetado de las parte del discurso

El etiquetado de las parte del discurso (POS tagging) implica asignar categorías gramaticales (como sustantivo, verbo, adjetivo) a cada palabra en un texto. Este proceso permite determinar el significado y la función de las palabras en diferentes contextos, lo que es fundamental para tareas como la desambiguación de significados, el análisis sintáctico, la extracción de información y la traducción automática. Al identificar correctamente las partes del discurso, el etiquetado POS mejora la precisión y eficacia en la comprensión y el análisis del lenguaje humano por parte de los sistemas informáticos.

In [None]:
def pos_tagger_spacy(tokenized_docs):
    raise NotImplementedError()

pos_tags = pos_tagger_spacy(tokenization_spacy(documents))

In [None]:
def pos_tagger_nltk(tokenized_docs):
    raise NotImplementedError()

pos_tags = pos_tagger_nltk(tokenized_docs)

Prueba visual de los tokens características para cierto documento.

In [None]:
try:
  from wordcloud import WordCloud
except:
  !pip install wordcloud

try:
  import matplotlib.pyplot as plt
except:
  !pip install matplotlib

In [None]:
def show(document):
  text = ' '.join(document)
  wordcloud = WordCloud(width = 800, height = 800,
                background_color ='white',
                min_font_size = 10).generate(text)

  plt.imshow(wordcloud, interpolation='bilinear')
  plt.axis("off")
  plt.show()

show(tokenized_docs[0])

Si considera que los tokens para el documento graficado en la **nube de palabras** no son lo suficientemente descriptivos, pruebe añadir un filtro pero esta vez sobre los tipos de tokens: sustantivos, verbos, artículos, conjunciones, etc.

# Conclusiones

Si se busca velocidad y eficiencia para aplicaciones en producción, spaCy es probablemente la mejor opción. Sin embargo, si el enfoque está en la educación, la investigación o se necesita una gama más amplia de recursos lingüísticos, NLTK podría ser más adecuado. En muchos casos, se utilizan ambas bibliotecas en diferentes etapas de sus proyectos para aprovechar las fortalezas de cada una.

En particular para el pre-procesamiento léxico spaCy suele ser la elección preferida por su rendimiento y precisión.