# Notebook del Curso completo de NLP Parte 1

Link al video de youtube:  
https://www.youtube.com/watch?v=9x1QtYNLJRY&list=PL7HAy5R0ehQVdPVLV6pIJA9ZE2vVyLRxX&index=1


## Bags of words

Transforma la oración en un vector de las palabras, las transforma en números. Sirve para la detección de spam, análisis de sentimiento. No le da mucha importancia al orden de las palabras sino a si contiene ciertas palabras.

## Método de conteo
Este proceso permite determinar el tamaño del vocabulario. Es una de las formas más básicas y fundamentales de representar texto de manera numérica para que las computadoras puedan entenderlo.

Ejemplo rápido

Si tenemos dos frases:

    "El gato corre."
    "El perro corre."

El vocabulario sería: [El, gato, perro, corre].

    La frase 1 se representaría como: [1, 1, 0, 1]
    La frase 2 se representaría como: [1, 0, 1, 1]

## Tokenización

Divide el texto en tokens. Los tokens son unidades individuales de un texto.

La tokenización es el primer paso crítico en cualquier flujo de trabajo de NLP. Básicamente, consiste en segmentar una cadena de texto en unidades más pequeñas llamadas tokens. Estos tokens pueden ser palabras, frases, subpalabras o incluso caracteres individuales.


In [1]:
texto = 'Hola! Este es un texto en español'
tokens = texto.split()
print(tokens)

['Hola!', 'Este', 'es', 'un', 'texto', 'en', 'español']


En este caso la función separa por espacios, se puede especificar dentro de los parámetros, lo que al final produce es que junta los signos de puntuación, eso se puede analizar si se desea mantenerlo separado. En este caso juntos me indica que es una pregunta.

Otra cosa que se puede hacer es cambiar las palabras a minúsculas para que luego se omitan las palabras iguales.

Cuando se aplica la tokenización puede ser por palabra o por letra, cada letra/palabra tendra una representación numérica. La segunda puede ocupar mas espacio.

### Observación

Más adelante se trabajará con librerías que hacen el proceso de tokenización, este proceso tendra distinto comportamiento a la hora de procesar distintos lenguajes.

**¿Qué cambia entre el Inglés y el Español?**

Aunque ambos idiomas usan el alfabeto latino, existen diferencias lingüísticas que afectan cómo un algoritmo debe separar las palabras:

Contracciones y Posesivos:

- En inglés, es muy común encontrar formas como don't o it's. Un tokenizador debe decidir si separarlos como ["do", "n't"] o dejarlos juntos.

- En español, las contracciones son mínimas (al, del), pero tenemos el reto de los pronombres enclíticos (verbos con pronombres pegados al final), como "dámelo". Un tokenizador avanzado debería ser capaz de entender que "dámelo" contiene tres unidades de significado: ["da", "me", "lo"].

Morfología y Género:

- El español es un idioma con mucha riqueza morfológica. Las palabras cambian de terminación según el género y número (gato, gata, gatos, gatas). En inglés, la mayoría de estas variaciones no existen (cat, cats). Esto hace que el vocabulario en español crezca más rápido si se tokeniza solo por palabras completas.

Puntuación:

- El español utiliza signos de apertura (¿, ¡), lo cual es una señal útil para el modelo que el inglés no posee. Un buen tokenizador debe tratar estos signos como tokens independientes para que el modelo aprenda la intención de la frase desde el inicio.

In [2]:
texto = texto.lower()
tokens = texto.split()
print(tokens)


['hola!', 'este', 'es', 'un', 'texto', 'en', 'español']


## Stopwords

Se identifican las palabras como advervios o artículos y luego se omiten.
Esto permite reducir la dimensionalidad de los vectores.

In [3]:
import nltk
nltk.download('stopwords')
nltk.download('punkt_tab')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [4]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop_words = stopwords.words('spanish')
print(f"Long: {len(stop_words)}, stop_words: {sorted(stop_words)}") # imprimo y lo muenstro ordenado alfabeticamente

print("set long:", len(set(stop_words)))
print(stop_words)

Long: 313, stop_words: ['a', 'al', 'algo', 'algunas', 'algunos', 'ante', 'antes', 'como', 'con', 'contra', 'cual', 'cuando', 'de', 'del', 'desde', 'donde', 'durante', 'e', 'el', 'ella', 'ellas', 'ellos', 'en', 'entre', 'era', 'erais', 'eran', 'eras', 'eres', 'es', 'esa', 'esas', 'ese', 'eso', 'esos', 'esta', 'estaba', 'estabais', 'estaban', 'estabas', 'estad', 'estada', 'estadas', 'estado', 'estados', 'estamos', 'estando', 'estar', 'estaremos', 'estará', 'estarán', 'estarás', 'estaré', 'estaréis', 'estaría', 'estaríais', 'estaríamos', 'estarían', 'estarías', 'estas', 'este', 'estemos', 'esto', 'estos', 'estoy', 'estuve', 'estuviera', 'estuvierais', 'estuvieran', 'estuvieras', 'estuvieron', 'estuviese', 'estuvieseis', 'estuviesen', 'estuvieses', 'estuvimos', 'estuviste', 'estuvisteis', 'estuviéramos', 'estuviésemos', 'estuvo', 'está', 'estábamos', 'estáis', 'están', 'estás', 'esté', 'estéis', 'estén', 'estés', 'fue', 'fuera', 'fuerais', 'fueran', 'fueras', 'fueron', 'fuese', 'fueseis', 

In [5]:
texto = "El gato es negro y el gato es blanco"
texto = texto.lower()

tokens = word_tokenize(texto)
texto_filtrado = [ word for word in tokens if word not in stop_words]
print("Texto filtrado: ", texto_filtrado)

Texto filtrado:  ['gato', 'negro', 'gato', 'blanco']


## Stemming y Lematización

Uno de los problemas de la tokenización de las palabras enteras es que entre palabras similares serán tomadas como entidades separadas que produce mayor dimensionalidad, tales como pájaro, pájaros y pájaritos, podrian ser asociados a la entidad de "pájar".

El procceso de quitar el subfijo es el stemming, es un método más fácil

La lematización es una técnica más sofisticada que utiliza las reglas gramaticales para obtener la base o raíz de la palabra.

La lemmatización puede ser más efectiva que el stemmining pero es más costosa computacionalmente, también puede requerir un etiquetado previo.

Aplicaciones del algoritmo

- asistentes virtuales
- analisis de sentimientos
- motores de busqueda


In [6]:
nltk.download('wordnet')
from nltk.stem import SnowballStemmer

[nltk_data] Downloading package wordnet to /root/nltk_data...


In [7]:
stemmer = SnowballStemmer('spanish')
print(stemmer.stem('caminando'))
print(stemmer.stem('camino'))
print(stemmer.stem('caminar'))


camin
camin
camin


In [8]:
!pip install spacy -q


## Lemmatización


In [9]:
!python -m spacy download es_core_news_sm -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m82.9 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [16]:
import spacy

nlp = spacy.load('es_core_news_sm')
doc = nlp("bailaron bailando bailamos")
doc2 = nlp("pájaro pájaros pájarito pájarera")

for token in doc:
  print(f"{token.text} -> {token.lemma_}")
print("-"*18)
for token in doc2:
  print(f"{token.text} -> {token.lemma_}")

bailaron -> bailar
bailando -> bailar
bailamos -> bailamo
------------------
pájaro -> pájaro
pájaros -> pájaro
pájarito -> pájarito
pájarera -> pájarero


## Resumen

En este laboratorio se abordo la primer parte del tutorial, como algunos términos del NLP, que se utilizan en distintas áreas como los chatbots, modelos de llm, generador de texto, clasificadores de texto, etc.

El español posee un tipo de manipulación distinta, las acentuaciones, los artículos y el género de los sustantivos y adjetivos agregan dimensión al proceso de NLP, en algunos modelos de LLM los tokens en español se toma de a grupo de caracteres.

Los algoritmos de Lemmatization y stemming permiten reducir la dimensión, esto a su vez reduce el error, según el criterio que se desea mejorar se puede optar por uno.

La siguiente parte abordará un ejemplo práctico en un dataset.