<br>
<br>

# **Modelos estadísticos del lenguaje**

## **Tokenización**

La **tokenización** es un paso crucial en el procesamiento del lenguaje natural (NLP, por sus siglas en inglés). En este proceso, un texto (que puede ser una oración, un párrafo o un documento completo) se divide en piezas más pequeñas llamadas "tokens". Estos tokens pueden ser palabras, conjuntos de palabras, subpalabras o incluso caracteres individuales, dependiendo del nivel de tokenización que se está realizando.

Por ejemplo, la frase: "Este año me voy de vacaciones a la playa" puede ser dividida en tokens de la siguiente manera:
"Este", "año", "me", "voy", "de", "vacaciones", "a", "la", "playa". Aunque la forma más fácil de tokenizar un texto es separarlo en palabras, usando para ello los espacios en blanco entre palabras, recuerda que también es posible tokenizar de otras formas.

In [21]:
txt = "Este año me voy de vacaciones a la playa"
tokens = txt.split()
print(tokens)

['Este', 'año', 'me', 'voy', 'de', 'vacaciones', 'a', 'la', 'playa']


Los tokens también pueden incluir signos de puntuación. Dependediendo de la aplicación que estemos desarrollando, puede ser útil mantenerlos o eliminarlos. Podemos hacerlo de la siguiente manera:

In [22]:
txt = "Este año, como hicimos el anterior, nos iremos a la playa de vacaciones."
tokens = txt.split()
print(tokens)

['Este', 'año,', 'como', 'hicimos', 'el', 'anterior,', 'nos', 'iremos', 'a', 'la', 'playa', 'de', 'vacaciones.']


In [23]:
# Tokenizar eliminando signos de puntuación
txt = "Este año, como hicimos el anterior, nos iremos a la playa de vacaciones."

txt = txt.replace(',', '')
txt = txt.replace('.', '')
txt = txt.replace(';', '')
txt = txt.replace(':', '')
txt = txt.replace('?', '')
txt = txt.replace('¿', '')
txt = txt.replace('!', '')
txt = txt.replace('¡', '')

tokens = txt.split()
print(tokens)

['Este', 'año', 'como', 'hicimos', 'el', 'anterior', 'nos', 'iremos', 'a', 'la', 'playa', 'de', 'vacaciones']


---

### Ejercicio

- Crea un script para extraer los símbolos de puntuación como tokens independientes.
- ¿Qué ocurre si nos encontramos un texto donde no se han separado correctamente las palabras y los signos de puntuación? Por ejemplo: "¿Cómo estás?Bien,gracias."


---

## **Lematización**

La **lematización** es un proceso que consiste en reducir las palabras a su forma básica o "lema", que es una forma canónica o de diccionario de una palabra. La lematización tiene en cuenta el análisis morfológico de las palabras, es decir, considera el contexto gramatical y sintáctico para convertir una palabra a su forma base.

Por ejemplo:

"Corriendo" → "correr"

"Mujeres" → "mujer"

## **Derivación o stemming**

La derivación o "stemming" es un proceso que tiene como objetivo reducir las palabras a su raíz o "tallo" (en inglés, "stem"). A diferencia de la lematización, que intenta reducir las palabras a su forma base léxica teniendo en cuenta la morfología y el contexto gramatical, el stemming suele ser un proceso más heurístico y rudimentario que simplemente elimina los sufijos (y a veces prefijos) de las palabras.

Por ejemplo:

"Corriendo" → "corri"

"Comiendo" → "comi"

<img src="imgs/SpaCy_logo.png" width="25%">

Procesar texto no suele ser una tarea trivial. La mayoría de las palabras son raras y es común que palabras que parecen completamente diferentes signifiquen casi lo mismo. Las mismas palabras en diferente orden pueden significar algo completamente diferente. Incluso dividir el texto en unidades útiles similares a palabras puede resultar difícil en muchos idiomas. Si bien es posible resolver algunos problemas a partir únicamente de los caracteres sin procesar, generalmente es mejor utilizar conocimientos lingüísticos para agregar información útil. Eso es exactamente para lo que está diseñado <a href="https://spacy.io/">spaCy</a>: ingresas texto sin formato y obtienes un objeto <code>Doc</code>, que viene con una variedad de anotaciones.

Veamos cómo tokenizar un texto usando Spacy.

In [26]:
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("Este año, como hicimos el anterior, nos iremos a la playa de vacaciones.")
for token in doc:
    print(token.text)

Este
año
,
como
hicimos
el
anterior
,
nos
iremos
a
la
playa
de
vacaciones
.


Antes de tokenizar, es posible que queramos separar en frases el texto.

In [36]:
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("Esto es una oración. Esto es otra oración. U.S.A. es un país. Esta es un frase final.")
for sent in doc.sents:
    print(sent.text)

Esto es una oración.
Esto es otra oración.
U.S.A. es un país.
Esta es un frase final.


## **Part-of-speech (POS) tagging**

Después de la tokenización, spaCy puede analizar y etiquetar un Doc dado. Aquí es donde entran en juego la cadena de procesamiento (pipeline) y sus modelos estadísticos, que permiten a spaCy hacer predicciones sobre qué etiqueta o marcador es el más probable en este contexto.

In [10]:
import spacy
import pandas as pd

nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

data = []

for token in doc:
    data.append([token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop])

df = pd.DataFrame(data, columns=['Text', 'Lemma', 'POS', 'Tag', 'Dep', 'Shape', 'is_alpha', 'is_stop']) 
print(df)

       Text    Lemma    POS  Tag       Dep  Shape  is_alpha  is_stop
0     Apple    Apple  PROPN  NNP     nsubj  Xxxxx      True    False
1        is       be    AUX  VBZ       aux     xx      True     True
2   looking     look   VERB  VBG      ROOT   xxxx      True    False
3        at       at    ADP   IN      prep     xx      True     True
4    buying      buy   VERB  VBG     pcomp   xxxx      True    False
5      U.K.     U.K.  PROPN  NNP      dobj   X.X.     False    False
6   startup  startup   NOUN   NN       dep   xxxx      True    False
7       for      for    ADP   IN      prep    xxx      True     True
8         $        $    SYM    $  quantmod      $     False    False
9         1        1    NUM   CD  compound      d     False    False
10  billion  billion    NUM   CD      pobj   xxxx      True    False


Algunas de las categorías en las que se divide las partes de la oración son:

- **ADJ**: Adjetivo. Por ejemplo, "feliz", "triste".
- **ADP**: Preposición. Por ejemplo, "en", "sobre".
- **ADV**: Adverbio. Por ejemplo, "rápidamente", "lentamente".
- **AUX**: Verbo auxiliar. Por ejemplo, "ha", "está".
- **CONJ**: Conjunción. Por ejemplo, "y", "o".
- **CCONJ**: Conjunción coordinante. Por ejemplo, "y", "ni".
- **DET**: Determinante. Por ejemplo, "el", "un".
- **INTJ**: Interjección. Por ejemplo, "¡hola!", "¡uy!".
- **NOUN**: Sustantivo. Por ejemplo, "gato", "perro".
- **NUM**: Numeral. Por ejemplo, "uno", "dos".
- **PART**: Partícula. Por ejemplo, "no", "sí".
- **PRON**: Pronombre. Por ejemplo, "él", "ella".
- **PROPN**: Nombre propio. Por ejemplo, "María", "Londres".
- **PUNCT**: Puntuación. Por ejemplo, ".", ",".
- **SCONJ**: Conjunción subordinante. Por ejemplo, "que", "si".
- **SYM**: Símbolo. Por ejemplo, "@", "&".
- **VERB**: Verbo. Por ejemplo, "correr", "saltar".
- **X**: Otro, usado para otras categorías o tokens no clasificables.

In [13]:
from spacy import displacy
displacy.serve(doc, style="dep")


Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


Encontramos también las etiquetas "Dep" que indica la dependencia o relación sintáctica entre las palabras de una oración. Algunas de estas etiquetas son:

- **nsubj**: Sujeto nominal de la cláusula.
- **nsubjpass**: Sujeto nominal de una cláusula pasiva.
- **csubj**: Sujeto clausal de la cláusula.
- **csubjpass**: Sujeto clausal de una cláusula pasiva.
- **pobj**: Objeto de una preposición.
- **dobj**: Objeto directo.
- **iobj**: Objeto indirecto.
- **attr**: Atributo, como en "El cielo está azul", donde "azul" es un atributo de "cielo".
- **ROOT**: Palabra central de la oración, desde la que se origina la dependencia.
- **cc**: Conjunción coordinada.
- **conj**: Palabra conectada por una conjunción.
- **det**: Determinante.
- **amod**: Modificador adjetival.
- **advmod**: Modificador adverbial.
- **prep**: Preposición.
- **mark**: Marcador, generalmente una palabra que introduce una cláusula subordinada.
- **aux**: Verbo auxiliar.
- **neg**: Negación.
- **nummod**: Modificador numeral.
- **relcl**: Cláusula relativa.

La etiqueta "is_alpha" significa que el token es una palabra (no un signo de puntuación, número, etc.). La etiqueta "is_stop" significa que el token es una "stop word". 

Las "stop words" son palabras que se utilizan con mucha frecuencia en un idioma pero que generalmente contienen poca información semántica. En muchas tareas de procesamiento del lenguaje natural, estas palabras se eliminan durante el preprocesamiento de los datos para reducir la cantidad de ruido en el conjunto de datos y hacer que los modelos sean más eficientes y efectivos. Estas palabras generalmente incluyen palabras como "el", "un", "y", "de", etc.

Por ejemplo:

In [20]:
import spacy

# Cargar el modelo de spaCy (aquí estoy usando el modelo en inglés, puedes cambiarlo según tus necesidades)
nlp = spacy.load('es_core_news_sm')

# Procesar un texto con el modelo de spaCy
doc = nlp("Esto es una prueba de cómo funciona el atributo is_stop.")

# Iterar sobre los tokens en el documento procesado
for token in doc:
    # Imprimir el texto del token y el valor de su atributo 'is_stop'
    print(f"Token: {token.text}, is_stop: {token.is_stop}")

print("----------------------------------------")
print("Palabras con información útil:")

for token in doc:
    if not token.is_stop:
        print(f"Token: {token.lemma_}")

Token: Esto, is_stop: True
Token: es, is_stop: True
Token: una, is_stop: True
Token: prueba, is_stop: False
Token: de, is_stop: True
Token: cómo, is_stop: True
Token: funciona, is_stop: False
Token: el, is_stop: True
Token: atributo, is_stop: False
Token: is_stop, is_stop: False
Token: ., is_stop: False
----------------------------------------
Palabras con información útil:
Token: prueba
Token: funcionar
Token: atributo
Token: is_stop
Token: .


In [38]:
import spacy
import pandas as pd

nlp = spacy.load("es_core_news_sm")
doc = nlp("Estoy pensando en comprar un coche que cuesta unos 30000€.")

data = []

for token in doc:
    data.append([token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop])

df = pd.DataFrame(data, columns=['Text', 'Lemma', 'POS', 'Tag', 'Dep', 'Shape', 'is_alpha', 'is_stop']) 
print(df)

       Text    Lemma   POS   Tag    Dep   Shape  is_alpha  is_stop
0     Estoy    estar   AUX   AUX    aux   Xxxxx      True     True
1  pensando   pensar  VERB  VERB   ROOT    xxxx      True    False
2        en       en   ADP   ADP   mark      xx      True     True
3   comprar  comprar  VERB  VERB  xcomp    xxxx      True    False
4        un      uno   DET   DET    det      xx      True     True
5     coche    coche  NOUN  NOUN    obj    xxxx      True    False
6       que      que  PRON  PRON  nsubj     xxx      True     True
7    cuesta   costar  VERB  VERB    acl    xxxx      True    False
8      unos      uno  PRON  PRON   nmod    xxxx      True     True
9   30000€.  30000€.   NUM   NUM    obl  dddd€.     False    False


## **Named Entity Recognition**

El reconocimiento de entidades nombradas es una tarea muy común dentro del NLP. Consiste en extraer del texto las entidades que son de interés para el usuario, como por ejemplo nombres de personas, organizaciones, lugares, etc. Vamos a ver cómo hacerlo con la librería spaCy.

In [46]:
import spacy

nlp = spacy.load("es_core_news_sm")
doc = nlp("Madrid es la capital de España y donde vive mi amigo Juan Pérez.")

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Madrid 0 6 LOC
España 24 30 LOC
Juan Pérez 53 63 PER


In [45]:
import spacy
from spacy import displacy

text = "When Sebastian Thrun started working on self-driving cars at Google in 2007, few people outside of the company took him seriously."

nlp = spacy.load("en_core_web_sm")
doc = nlp(text)
displacy.serve(doc, style="ent")




Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


---

### Ejercicio

Carga el archivo de texto con la novela "Cien años de soledad" y calcula:

- El número de palabras que tiene la novela.
- El número de palabras únicas que tiene la novela.
- El número de veces que aparece la palabra "Macondo" en la novela.
- Las 100 palabras más frecuentes de la novela, eliminando las palabras vacías (stopwords).

Ten en cuenta no diferenciar entre mayúsculas y minúsculas.

---


### **Byte Pair Encoding (BPE)**

https://github.com/openai/tiktoken


El **Byte Pair Encoding** (BPE) es una técnica de compresión de datos que también se ha adaptado para tokenizar texto en el procesamiento del lenguaje natural. Originalmente diseñado para representar datos de manera eficiente, BPE funciona identificando pares de bytes (o caracteres) consecutivos que aparecen con frecuencia y fusionándolos en una sola unidad o token. En el contexto del procesamiento del lenguaje natural, este método ayuda a construir un vocabulario de subpalabras, permitiendo que los modelos de lenguaje manejen palabras raras o desconocidas de manera más eficiente y mitiguen el problema de vocabulario abierto, descomponiendo las palabras en unidades más pequeñas que aún retienen significado semántico.


### Paso a Paso:

1. **Vocabulario Inicial**: Comienza construyendo un vocabulario inicial. Esto a menudo implica tomar cada palabra en el conjunto de datos y descomponerla en sus caracteres individuales.

2. **Conteo de Pares**: En cada iteración, cuenta todos los pares de símbolos/caracteres consecutivos (o pares de byte) en el conjunto de datos.

3. **Fusión de Pares más Frecuentes**: Encuentra el par de símbolos más frecuente y los fusiona para formar un nuevo símbolo. Este nuevo símbolo representa ahora una secuencia de caracteres que a menudo aparecen juntos.

4. **Iteración**: Se repite el paso 2 y 3 un número predefinido de veces o hasta que se alcance un tamaño de vocabulario deseado. 


In [25]:
import tiktoken
from tabulate import tabulate

txt = "Hola, me llamo Juan. ¿Cómo te llamas tú?. Me llamo María."

# Convierte txt en una lista de tokens
enc = tiktoken.encoding_for_model("gpt-4")

# Convierte tokens en una lista de índices
ids = enc.encode(txt)

data = []

for id in ids:
    data.append([id, "'" + enc.decode([id]) + "'" ])
    
print(tabulate(data, headers=['id', 'token']))

   id  token
-----  --------
69112  'Hola'
   11  ','
  757  ' me'
 9507  ' ll'
21781  'amo'
29604  ' Juan'
   13  '.'
29386  ' ¿'
96997  'Cómo'
 1028  ' te'
 9507  ' ll'
29189  'amas'
90318  ' tú'
 4710  '?.'
 2206  ' Me'
 9507  ' ll'
21781  'amo'
83305  ' María'
   13  '.'
