# Procesamiento Lenguaje Natural (NLP) I

## ¿Qué es el NLP?

```{admonition} ¿Cuando se origina?
<div align="justify">El campo del procesamiento del lenguaje natural comenzó en la década de 1940, después de la Segunda Guerra Mundial. En ese tiempo, se reconoció la importancia de la traducción de un idioma a otro y se esperaba crear una máquina que pudiera hacer esta traducción automáticamente.</div>
```

<div align="justify"> En el <strong>NLP o Natural Language Processing</strong>  se traduce a procesamiento del lenguaje natural y se refiere a la rama de la informática, más concretamente la rama de la inteligencia artificial que se encarga de dar a los ordenadores la capacidad de entender texto de la misma forma que los seres humanos.</div><br>
<div align="justify">Combina lingüística computacional el modelo de lenguaje humano basado en reglas con modelos estadísticos de aprendizaje automático y de aprendizaje profundo. Todas estas tecnologías permiten que los ordenadores procesen el lenguaje humano para que parezca que comprenden, generan y responden de manera natural y coherente, como si tuvieran una comprensión real del significado y contexto detrás de las palabras y frases.</div><br>

:::{figure-md} markdown-fig
<img src="Genesis-and-Evolution-of-NLP.png" alt="NLP" width="700px">

Genesis y Evolución de NLP
::: 

## Flujo o Pipeline de NLP

```{admonition} ¿Qué es el Pipeline?
<div align="justify">Se refiere a una secuencia de etapas o tareas que se aplican secuencialmente al procesar un texto o documento de texto. Cada etapa de la pipeline tiene un propósito específico y procesa el texto de alguna manera antes de pasar los resultados a la siguiente etapa. Las pipelines de NLP son fundamentales para realizar tareas de análisis de texto y extracción de información de manera sistemática y estructurada.</div>
```

## Vectorización

```{admonition} ¿Qué es la Vectorización?
<div align="justify">Como sabemos, los modelos y algoritmos de aprendizaje automático entienden datos numéricos. La vectorización es un proceso de conversión de datos textuales o categóricos en vectores numéricos. Al convertir los datos en datos numéricos, puede entrenar su modelo con mayor precisión.</div>
```

<div align="justify">¿Por qué necesitamos representar las palabras como vectores numéricos?</div> 

- <div align="justify">Cuantificar la semántica de las palabras.</div>
- <div align="justify">su significado contextualizado. Hay  palabras que si las aislamos de su contexto, pueden significar dos cosas totalmente diferentes.</div>
- <div align="justify">los modelos no pueden procesar texto directamente.</div>


<div align="justify">Entonces queremos que haya una representación que pueda captar el significado de una palabra, o sea como lo haría una una persona humana. Lo importante es cuál es la unidad básica que queremos analizar, si son palabras, si son las frases dentro de un párrafo, si son los párrafos dentro de un documento. Podemos representar, por ejemplo, una frase como un único vector numérico.</div>

```{admonition} Para Profundizar 
:class: tip, dropdown
- [De Texto a Vectores](https://www.tacosdedatos.com/ioexception/de-texto-a-vectores-22jd)
```

### Término de Frecuencia (Term Frequency – Inverse Document Frequency)

```{admonition} ¿Qué significa el Término de Frecuencia(TF-IDF)?
<div align="justify"> <strong>TF-IDF</strong>< puede definirse como el cálculo de cuán relevante es una palabra en una serie o corpus respecto a un texto. La relevancia aumenta proporcionalmente al número de veces que una palabra aparece en el texto, pero se compensa por la frecuencia de la palabra en el corpus (conjunto de datos).</div>
```

#### Ejemplo para explicar Término de Frecuencia

Supongamos que tenemos los siguientes tres documentos:

- Documento 1: "Me gusta caminar por el bosque"
- Documento 2: "Caminar por el bosque es sanador"
- Documento 3: "Me gusta el bosque"

<div align="justify"><strong>Paso 1:</strong> Calcular la Frecuencia de Término (TF)</div>

| Término       | Documento 1                 | Documento 2                 | Documento 3                 |
|---------------|-----------------------------|-----------------------------|-----------------------------|
| "Me"          | 1/5 = 0.2                   | 0                           | 1/4 = 0.25                  |
| "gusta"       | 1/5 = 0.2                   | 0                           | 0                           |
| "caminar"     | 1/5 = 0.2                   | 1/5 = 0.2                   | 0                           |
| "por"         | 1/5 = 0.2                   | 1/5 = 0.2                   | 0                           |
| "el"          | 0                           | 0                           | 1/4 = 0.25                  |
| "bosque"      | 1/5 = 0.2                   | 1/5 = 0.2                   | 1/4 = 0.25                  |
| "es"          | 0                           | 1/5 = 0.2                   | 0                           |
| "sanador"     | 0                           | 1/5 = 0.2                   | 0                           |

<div align="justify"><strong>Paso 2:</strong> Calcular la Frecuencia de Documento Inversa (IDF)</div>

- N = 3 (número total de documentos)

| Término       | IDF                          |
|---------------|------------------------------|
| "Me"          | \(\log(3/2) \approx 0.176\)  |
| "gusta"       | \(\log(3/2) \approx 0.176\)  |
| "caminar"     | \(\log(3/2) \approx 0.176\)  |
| "por"         | \(\log(3/2) \approx 0.176\)  |
| "el"          | \(\log(3/1) = \log(3) \approx 0.477\)  |
| "bosque"      | \(\log(3/2) \approx 0.176\)  |
| "es"          | \(\log(3/1) = \log(3) \approx 0.477\)  |
| "sanador"     | \(\log(3/1) = \log(3) \approx 0.477\)  |

<div align="justify"><strong>Paso 3:</strong> Calcular TF-IDF</div>

| Término       | Documento 1                                       | Documento 2                                       | Documento 3                                       |
|---------------|---------------------------------------------------|---------------------------------------------------|---------------------------------------------------|
| "Me"          | \(0.2 \cdot 0.176 \approx 0.035\)                 | \(0 \cdot 0.176 = 0\)                             | \(0.25 \cdot 0.176 \approx 0.044\)                 |
| "gusta"       | \(0.2 \cdot 0.176 \approx 0.035\)                 | \(0 \cdot 0.176 = 0\)                             | \(0 \cdot 0 = 0\)                                 |
| "caminar"     | \(0.2 \cdot 0.176 \approx 0.035\)                 | \(0.2 \cdot 0.176 \approx 0.035\)                 | \(0 \cdot 0 = 0\)                                 |
| "por"         | \(0.2 \cdot 0.176 \approx 0.035\)                 | \(0.2 \cdot 0.176 \approx 0.035\)                 | \(0 \cdot 0 = 0\)                                 |
| "el"          | \(0 \cdot 0.477 = 0\)                             | \(0 \cdot 0.477 = 0\)                             | \(0.25 \cdot 0.477 \approx 0.119\)                |
| "bosque"      | \(0.2 \cdot 0.176 \approx 0.035\)                 | \(0.2 \cdot 0.176 \approx 0.035\)                 | \(0.25 \cdot 0.176 \approx 0.044\)                 |
| "es"          | \(0 \cdot 0.477 = 0\)                             | \(0.2 \cdot 0.477 \approx 0.095\)                 | \(0 \cdot 0 = 0\)                                 |
| "sanador"     | \(0 \cdot 0.477 = 0\)                             | \(0.2 \cdot 0.477 \approx 0.095\)                 | \(0 \cdot 0 = 0\)                                 |

<div align="justify">En este ejemplo, calculamos primero la frecuencia de cada término en cada documento (TF), luego calculamos la frecuencia de documento inversa (IDF) para cada término y finalmente multiplicamos TF por IDF para obtener los valores de TF-IDF. Esto nos da una medida más equilibrada de la importancia de cada término en cada documento, considerando tanto la frecuencia del término en el documento como su rareza en el corpus total.</div>

### One-hot-encoding 

```{admonition} ¿Qué significa One-hot-encoding?
<div align="justify">En la <strong>codificación one-hot</strong><, cada palabra se representa como un vector binario donde solo un bit está configurado en 1 (encendido), y todos los demás están en 0 (apagado). La longitud del vector es igual al tamaño del vocabulario, y cada palabra tiene un índice único en este vector. Este método es simple e intuitivo, pero no captura ninguna relación semántica entre las palabras. Se utiliza comúnmente como una representación básica en modelos de aprendizaje automático.</div>
```

#### Ejemplo para explicar One-hot-encoding

<div align="justify">Supongamos que tenemos los siguientes dos documentos:</div>

- <div align="justify">Documento 1: "Me gusta caminar por el bosque"</div>
- <div align="justify">Documento 2: "Caminar por el bosque es sanador"</div>

<div align="justify"><strong>Paso 1:</strong> creamos un vocabulario a partir de todas las palabras únicas en ambos documentos:</div>


- <div align="justify">Vocabulario: ["Me", "gusta", "caminar", "por", "el", "bosque", "es", "sanador"]</div>

<div align="justify"><strong>Paso 2:</strong> representamos cada palabra como un vector binario en el que solo un bit está configurado en 1 y todos los demás en 0. Cada palabra tiene un índice único en este vector.</div>

Vocabulario y sus vectores one-hot:

- "Me": [1, 0, 0, 0, 0, 0, 0, 0]
- "gusta": [0, 1, 0, 0, 0, 0, 0, 0]
- "caminar": [0, 0, 1, 0, 0, 0, 0, 0]
- "por": [0, 0, 0, 1, 0, 0, 0, 0]
- "el": [0, 0, 0, 0, 1, 0, 0, 0]
- "bosque": [0, 0, 0, 0, 0, 1, 0, 0]
- "es": [0, 0, 0, 0, 0, 0, 1, 0]
- "sanador": [0, 0, 0, 0, 0, 0, 0, 1]

<div align="justify"><strong>Paso 2:</strong>: Para representar los documentos usando la codificación one-hot, cada palabra en el documento se sustituye por su vector one-hot correspondiente.</div><br>
<div align="justify">Representación one-hot Documento 1: "Me gusta caminar por el bosque"</div>

  - "Me": [1, 0, 0, 0, 0, 0, 0, 0]
  - "gusta": [0, 1, 0, 0, 0, 0, 0, 0]
  - "caminar": [0, 0, 1, 0, 0, 0, 0, 0]
  - "por": [0, 0, 0, 1, 0, 0, 0, 0]
  - "el": [0, 0, 0, 0, 1, 0, 0, 0]
  - "bosque": [0, 0, 0, 0, 0, 1, 0, 0]

<div align="justify">Representación one-hot Documento 2: "Caminar por el bosque es sanador"</div>

  - "caminar": [0, 0, 1, 0, 0, 0, 0, 0]
  - "por": [0, 0, 0, 1, 0, 0, 0, 0]
  - "el": [0, 0, 0, 0, 1, 0, 0, 0]
  - "bosque": [0, 0, 0, 0, 0, 1, 0, 0]
  - "es": [0, 0, 0, 0, 0, 0, 1, 0]
  - "sanador": [0, 0, 0, 0, 0, 0, 0, 1]

<div align="justify">Esta representación muestra cómo cada palabra se convierte en un vector binario único. Sin embargo, como se mencionó, esta técnica no captura ninguna relación semántica entre las palabras.</div>

### Bag of Words

```{admonition} ¿Qué significa Bag of words (BoW)?
<div align="justify">En la <strong> Bag Words o Bolsa de Palabras (BoW)</strong>cada documento se representa como un vector donde cada elemento corresponde al conteo de una palabra en el documento. El orden de las palabras se ignora, y solo sus frecuencias importan. Este método preserva más información que la codificación one-hot, pero aún carece de significado semántico y no considera la importancia relativa de las palabras.</div>
```

#### Ejemplo para explicar Bag of Words

<div align="justify">Supongamos que tenemos los siguientes dos documentos:</div>

- <div align="justify">Documento 1: "Me gusta caminar por el bosque"</div>
- <div align="justify">Documento 2: "Caminar por el bosque es sanador"</div>

<div align="justify"><strong>Paso 1:</strong> creamos un vocabulario a partir de todas las palabras únicas en ambos documentos:</div>

- <div align="justify">Vocabulario: ["Me", "gusta", "caminar", "por", "el", "bosque", "es", "sanador"]</div>

<div align="justify"><strong>Paso 2:</strong> representamos cada documento como un vector de conteos basado en este vocabulario.</div>

<div align="justify">Para el Documento 1:</div>

- "Me" aparece 1 vez
- "gusta" aparece 1 vez
- "caminar" aparece 1 vez
- "por" aparece 1 vez
- "el" aparece 1 vez
- "bosque" aparece 1 vez
- "es" aparece 0 veces
- "sanador" aparece 0 veces

<div align="justify">Vector para Documento 1: [1, 1, 1, 1, 1, 1, 0, 0]</div><br>

<div align="justify">Para el Documento 2:</div>

- "Me" aparece 0 vez
- "gusta" aparece 0 vez
- "caminar" aparece 1 vez
- "por" aparece 1 vez
- "el" aparece 1 vez
- "bosque" aparece 1 vez
- "es" aparece 1 vez
- "sanador" aparece 1 vez

<div align="justify">Vector para Documento 2: [0, 0, 1, 1, 1, 1, 1, 1]</div><br>

<div align="justify"><strong>Paso 3:</strong> la representación BoW para los documentos sería:</div>

- Documento 1: [1, 1, 1, 1, 1, 1, 0, 0]
- Documento 2: [0, 0, 1, 1, 1, 1, 1, 1]

<div align="justify">En esta representación, se ignora el orden de las palabras y solo se consideran sus frecuencias. Aunque este método preserva más información que la codificación one-hot, no captura las relaciones semánticas entre las palabras ni la importancia relativa de cada una en el contexto. </div>

In [43]:
import nltk
from nltk.tokenize import word_tokenize

# Ejemplo de texto
texto_ejemplo = "Este es un ejemplo de texto. En este texto, queremos contar cuántas veces aparece la palabra 'ejemplo'."

# Tokenizar el texto en palabras
palabras = word_tokenize(texto_ejemplo)

# Palabra que quieres contar
palabra_a_contar = "ejemplo"

# Contar cuántas veces aparece la palabra en el texto
conteo = palabras.count(palabra_a_contar)

print(f"La palabra '{palabra_a_contar}' aparece {conteo} veces en el texto.")


La palabra 'ejemplo' aparece 1 veces en el texto.


In [44]:
# Corpus de documentos
corpus = [
    "Este es el primer documento.",
    "Este es el segundo documento.",
    "Y aquí tienes el tercer documento."
]

# Palabra que deseas buscar
palabra_a_buscar = "documento"

# Función para verificar la existencia de la palabra en cada documento
def existe_palabra(documento, palabra):
    return palabra in documento.lower()

# Crear un vector one-hot para cada documento
vectores_one_hot = [existe_palabra(documento, palabra_a_buscar) for documento in corpus]

# Mostrar los resultados
for i, documento in enumerate(corpus):
    print(f"Documento {i + 1}: {documento} - Palabra '{palabra_a_buscar}' presente: {vectores_one_hot[i]}")


Documento 1: Este es el primer documento. - Palabra 'documento' presente: True
Documento 2: Este es el segundo documento. - Palabra 'documento' presente: True
Documento 3: Y aquí tienes el tercer documento. - Palabra 'documento' presente: True


`````{admonition} Para tener en cuenta
:class: tip
<div align="justify">Una bolsa de palabras trata a todas las palabras por igual y sólo se preocupa por la frecuencia de palabras únicas en las frases. El TF-IDF da importancia a las palabras de un documento teniendo en cuenta tanto la frecuencia como la unicidad.</div>
`````

## Librerías para NLP

```{table} Librerías de Python para NLP
:name: my-table-ref

|  Librería |  Descripción| 
|:-----:|:-----:|
| NLTK| Es una biblioteca que admite tareas como clasificación, etiquetado, derivación, análisis y razonamiento semántico.|
| Spacy|Permite crear aplicaciones que pueden procesar y comprender grandes volúmenes de texto y admite tokenización para más de 49 idiomas.|
| Gensim|Logra implementaciones multinúcleo eficientes de algoritmos como el análisis semántico latente (LSA) y la asignación de Dirichlet latente (LDA).| 
| Pattern | Es una biblioteca multipropósito que puede manejar NLP, minería de datos, análisis de redes, aprendizaje automático y visualización|
```

```{dropdown} Documentación de las distintas librerías para NLP
[NLTK](https://www.nltk.org) 

[Spacy](https://spacy.io/api/doc)

[Gensim](https://radimrehurek.com/gensim/auto_examples/index.html##documentation)
```

### NLTK o Kit de Herramientas de Lenguaje Natural

```{admonition} ¿Cuando se origina?
<div align="justify"> NLTK fue desarrollado en la Universidad de Pensilvania por Steven Bird y Edward Loper a finales de la década de 1990. Inicialmente se creó como una plataforma para la enseñanza e investigación en lingüística computacional y procesamiento del lenguaje natural (NLP). Con el paso de los años, NLTK ha evolucionado hasta convertirse en una biblioteca indispensable para tareas relacionadas con el lenguaje en los dominios de inteligencia artificial, aprendizaje automático y ciencia de datos.</div>
```

#### Ejercicio inicial con NLTK 

In [None]:
# si no la has intalado pip install nltk 

In [1]:
import nltk

In [2]:
from nltk.downloader import Downloader

In [3]:
nltk.download("book")

[nltk_data] Downloading collection 'book'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     /Users/claudiorojas/nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package brown to
[nltk_data]    |     /Users/claudiorojas/nltk_data...
[nltk_data]    |   Package brown is already up-to-date!
[nltk_data]    | Downloading package chat80 to
[nltk_data]    |     /Users/claudiorojas/nltk_data...
[nltk_data]    |   Package chat80 is already up-to-date!
[nltk_data]    | Downloading package cmudict to
[nltk_data]    |     /Users/claudiorojas/nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package conll2000 to
[nltk_data]    |     /Users/claudiorojas/nltk_data...
[nltk_data]    |   Package conll2000 is already up-to-date!
[nltk_data]    | Downloading package conll2002 to
[nltk_data]    |     /Users/claudiorojas/nltk_data...
[nltk_data]    |   Package conll2002 is alread

True

In [4]:
from nltk.book import *

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


In [11]:
from nltk.book import text3 as text

In [13]:
len(text1)

260819

In [14]:
print(text.name,"\n")
extracto = " ".join(text[:44])
print(extracto)

The Book of Genesis 

In the beginning God created the heaven and the earth . And the earth was without form , and void ; and darkness was upon the face of the deep . And the Spirit of God moved upon the face of the waters .
