# Clase 13 - Procesamiento de lenguaje natural
El Procesamiento de Lenguaje Natural (NLP) es una rama de la inteligencia artificial que permite a las computadoras analizar, entender y generar lenguaje humano.

Antes de entrenar modelos, es fundamental preprocesar el texto, ya que el lenguaje natural es ruidoso, ambiguo y no estructurado.

## Normalización de Texto
La normalización transforma el texto a una forma uniforme, reduciendo variaciones innecesarias.

Incluye:

* Convertir a minúsculas
* Eliminar signos de puntuación
* Eliminar números
* Eliminar espacios extra

In [9]:
import re

texto = '¡Hola mundo!, aquí aprendiendo a normalizar un texto. Emocionante ¿verdad? 255 '

# Convertir a minúsculas
texto = texto.lower()
#texto

# Eliminar números
texto = re.sub(r'\d+', '', texto)
#texto

# Eliminar puntuación
texto = re.sub(r'[^\w\s]', '', texto)
#texto

# Eliminar espacios extra
texto = re.sub(r'\s+', ' ', texto).strip()
texto

'hola mundo aquí aprendiendo a normalizar un texto emocionante verdad'

## Tokenización
La tokenización consiste en dividir el texto en unidades más pequeñas llamadas tokens (palabras o símbolos).

In [5]:
!pip install nltk



In [10]:
# Importar librerías
import nltk
nltk.download('punkt_tab')

# Tokenización de palabras
from nltk.tokenize import word_tokenize

tokens = word_tokenize(texto)
tokens

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


['hola',
 'mundo',
 'aquí',
 'aprendiendo',
 'a',
 'normalizar',
 'un',
 'texto',
 'emocionante',
 'verdad']

In [8]:
# Importar librería
from nltk.tokenize import sent_tokenize

# Tokenización de oraciones
texto = 'NLP es interesante. Algunas aplicaciones son los chatbots y buscadores.'

tokens = sent_tokenize(texto)
tokens

['NLP es interesante.', 'Algunas aplicaciones son los chatbots y buscadores.']

## Eliminación de Stopwords

Son palabras muy frecuentes que no aportan significado relevante, como:

`el, la, los, de, y, en, es…`

Eliminar stopwords ayuda a:
* reducir ruido
* mejorar modelos de clasificación
* reducir dimensionalidad

In [11]:
from nltk.corpus import stopwords
nltk.download('stopwords')

stopwords = set(stopwords.words('spanish'))

print('Tokens: ', tokens)
print('-'*25)
tokens_filtrados = [word for word in tokens if word not in stopwords]
print(tokens_filtrados)


Tokens:  ['hola', 'mundo', 'aquí', 'aprendiendo', 'a', 'normalizar', 'un', 'texto', 'emocionante', 'verdad']
-------------------------
['hola', 'mundo', 'aquí', 'aprendiendo', 'normalizar', 'texto', 'emocionante', 'verdad']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## Stemming
El stemming reduce las palabras a su raíz que no siempre es una palabra real, se utiliza cuando la velocidad es la prioridad.

```
corriendo → corr

jugando → jug
```

In [13]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('spanish')

palabras = ['corriendo', 'correr', 'corrío', 'corredor', 'correo']

[stemmer.stem(p) for p in palabras]

['corr', 'corr', 'corri', 'corredor', 'corre']

## Lematización
La lematización reduce las palabras a su forma base (lema), usando información lingüística. Es más precisa, pero más costosa computacionalmente.


```
corriendo → correr

mejores → bueno
```

In [14]:
# Instalación de dependencias
!pip install spacy
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m121.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [15]:
# Importar la librería
import spacy

nlp = spacy.load('es_core_news_sm')

doc = nlp('Los niños están corriendo rápidamente en el parque')

[(token.text, token.lemma_) for token in doc]

[('Los', 'el'),
 ('niños', 'niño'),
 ('están', 'estar'),
 ('corriendo', 'correr'),
 ('rápidamente', 'rápidamente'),
 ('en', 'en'),
 ('el', 'el'),
 ('parque', 'parque')]