[Fundamentos de Procesamiento de Lenguaje Natural con Python y NLTK](https://platzi.com/clases/python-lenguaje-natural/)

# Introducción al Procesamiento de Lenguaje Natural

**NLP:** Natural Language Processing

**NLU:** Natural Language Understanding

**Test de Turing:** Si un humano no puede distingiuie entre una máquina y una persona en **una conversación**, entonces esa máquina ha alcanzado un nivel de inteligencia comparable al de un humano...

---

## Usos actuales del NLP
- Máuinas de búsqueda
- Traducción de texto
- Chatbots
- Análisis de discurso
- Reconocimiento del habla

El lenguaje humano es difuso, ambiguo y requiere mucho contexto

## Evolución del NLP
- 1950s-1990s: Sistemas basados en reglas
- 1990s-2000s: Estadística de Corpus
- 2000s-2014s: Machine Learning
- 2014s-2021?: Deep Learning

---

## Avances de NLP

> Entendimiento de texto (Bajo nivel)
>> - Morfologia
>>
>> - Sintaxis
>>
>> - Semántica
>
> Aprendizaje de Representaciones
>> - Vectores de Palabras
>>
>> - Verctores de Frases
>>
>> - Mecanismos de Atención

- Redes LSTM
- BiLSTM
- RedesTransformer
- Redes Reformer

### Librerias:
- NLTK
- spaCy

# Conceptos básicos de NLP

*El lenguaje consiste (en sentido linguistico) en entender y caracterizar las reglas que determinan cómo estructurar expresiones linguisticas...*

### Lenguaje como objeto de estudio

- NLP: Se enfoca a aplicaciones prácticas en la ingenieria
- Linguistica computacional (LC): Se enfoca en responder cuestiones del lenguaje con un fin puramente científico ¿Qué y cómo computan las personas?. La LC tiene dos tipo de modelos, los modelos basados en conocimiento (Knowladge Based)  y los modelos basados en datos (Data Driven)

## Normalización de Texto
Consiste en varios procesos de limpieza y transformación: **Tokenización, Lematización y Segmentación** a nivel de frases o sentencias.

- **Tokenización:** Consiste en separar una frase en tokens, o en unidades mínimas linguisticas (asociadas normalmente con palabras)
- **Lematización:** Convertir cada una de los tokens en su raíz fundamental.
- **Segmentación:** Separar en frases, normalemente podemos usar las comas (,) para esto. El problema es que no siempre se aplica.


*Mi hermano dejo de comer*

**Tokenización:**

| Mi | hermano | dejó | de | comer |

**Lematización:**

| Mi | hermano | **dejar** | de | comer |

**Segmentación:**

Frase: *Mi hermano dejo de comer, por eso no se siente bien.*

> Mi hermano dejo de comer
>
> Por eso no se siente bien

---

**Corpus:** Colección de texto.

**Corpora:** Colección de colecciones de texto.

In [3]:
# Importart Librerias y descargar Corpus
import nltk
nltk.download('cess_esp')

[nltk_data] Downloading package cess_esp to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\cess_esp.zip.


True

# Expresiones Regulares

[Curso de Expresiones Regulares](https://platzi.com/clases/expresiones-regulares/)

Las expresiones regulares constituyen un lenguaje estandarizado para definir cadenas de busqueda de texto o patrones para buscar cadenas de texto en cuerpos de texto.

[Expresiones Regulares en Python: re](https://docs.python.org/3/library/re.html)

In [5]:
import re
corpus = nltk.corpus.cess_esp.sents()
print(corpus)
print(len(corpus))

[['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.'], ['Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.'], ...]
6030


In [6]:
# aplanamos la lista concatenado todas las sublistas en una lista grande
# de forma que ya no tenemos una lista de listas, sino uno sola lista
# con todos los titulares tokenizados uno tras otro

flatten = [w for l in corpus for w in l]
print(len(flatten))

192686


In [9]:
# Miremos los primeros 100 tokens de la lista
print(flatten[:100])

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-', 'EDF', '-Fpt-', 'anunció', 'hoy', ',', 'jueves', ',', 'la', 'compra', 'del', '51_por_ciento', 'de', 'la', 'empresa', 'mexicana', 'Electricidad_Águila_de_Altamira', '-Fpa-', 'EAA', '-Fpt-', ',', 'creada', 'por', 'el', 'japonés', 'Mitsubishi_Corporation', 'para', 'poner_en_marcha', 'una', 'central', 'de', 'gas', 'de', '495', 'megavatios', '.', 'Una', 'portavoz', 'de', 'EDF', 'explicó', 'a', 'EFE', 'que', 'el', 'proyecto', 'para', 'la', 'construcción', 'de', 'Altamira_2', ',', 'al', 'norte', 'de', 'Tampico', ',', 'prevé', 'la', 'utilización', 'de', 'gas', 'natural', 'como', 'combustible', 'principal', 'en', 'una', 'central', 'de', 'ciclo', 'combinado', 'que', 'debe', 'empezar', 'a', 'funcionar', 'en', 'mayo_del_2002', '.', 'La', 'electricidad', 'producida', 'pasará', 'a', 'la', 'red', 'eléctrica', 'pública', 'de', 'México', 'en_virtud_de', 'un', 'acuerdo', 'de', 'venta']


## Palabras, textos y vocabularios

### Estructura de la función re.search()

Determina si el patrón de búsqueda **p** esta contenido en la cadena **s**

re.search(p, s)

**p** representa una expresión regular

In [10]:
arr = [w for w in flatten if re.search('es', w)]

In [11]:
print(arr[:5])

['estatal', 'jueves', 'empresa', 'centrales', 'francesa']


El patrón de búsqueda lo que hace es verificar si dentro de la palabra que esta iterando aparece la expresión 'es' sin importar donde aparezca. A esta expresión regular es lo que llamamos *metacaracter básico*

**Metacaracter:** Es una cadena de texto que define un patrón de búsqueda muy básico.

In [12]:
arr = [w for w in flatten if re.search('es$', w)]
print(arr[:5])

['jueves', 'centrales', 'millones', 'millones', 'dólares']


Al incluir el simbolo '$' al final de la expresión estamos indicando que estamos buscando todas las cadenas finalizadas con la expresión 'es'

Por el contrario, si queremos que la cadena empice con la expresión 'es', entonces debemos incluir el simbolo '^' al inicio de la expresión, asi:

In [13]:
arr = [w for w in flatten if re.search('^es', w)]
print(arr[:5])

['estatal', 'es', 'esta', 'esta', 'eso']


Busqueda de expresiones regulares usando el concepto de **Rango**:

In [14]:
# Rango [a-z] : El rango es cualquier caractér entre la a y la z
# Rango [ghi] : El rango es cualquier caractér entre g, h, i

arr = [w for w in flatten if re.search('^[ghi]', w)]
print(arr[:5])

['grupo', 'hoy', 'gas', 'gas', 'intervendrá']


### Clausuras

Son expresiones que nos indican que una cadena de caractéres se puede repetir, así:

In [15]:
# * repetir 0 o más veces
# + repetir 1 o más veces

arr = [w for w in flatten if re.search('^(no)*', w)]
print(arr[:5])

['El', 'grupo', 'estatal', 'Electricité_de_France', '-Fpa-']


Como podemos ver, hay palabras que no empiezan con la expresión 'no' por que le estamos pidiendo que se repita la expresión **cero** o más veces.

Ahora veamos si le pedimos que se repita la expresión **una** o más veecs:

In [16]:
arr = [w for w in flatten if re.search('^(no)+', w)]
print(arr[:5])

['norte', 'no', 'no', 'noche', 'no']


## Tokenización de Expresiones Regulares

In [17]:
print('esta es \n una prueba')

esta es 
 una prueba


Para que python entienda toda la cadena como texto plano *(raw)*, debemos incluir en el *print* la letra r antes de la cadena, así:

In [18]:
print(r'esta es \n una prueba')

esta es \n una prueba


### Tokenización:

Es el proceso mediante el cual se sub-divide una cadena de texto en unidades linguísticas minimas (palabras)

In [19]:
texto = """ La gente tiene estrellas pero no significan lo mismo para todos. 
            Para algunos, los que viajan, las estrellas son sus guías. 
            Para otros sólo son lucecitas. Para los sabios las estrellas 
            son motivo de estudio y para mi hombre de negocios, eran oro."""

In [20]:
# Caso 1: tokenizar por espacios vacios

print(re.split(r' ', texto))

['', 'La', 'gente', 'tiene', 'estrellas', 'pero', 'no', 'significan', 'lo', 'mismo', 'para', 'todos.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Para', 'algunos,', 'los', 'que', 'viajan,', 'las', 'estrellas', 'son', 'sus', 'guías.', '\n', '', '', '', '', '', '', '', '', '', '', '', 'Para', 'otros', 'sólo', 'son', 'lucecitas.', 'Para', 'los', 'sabios', 'las', 'estrellas', '\n', '', '', '', '', '', '', '', '', '', '', '', 'son', 'motivo', 'de', 'estudio', 'y', 'para', 'mi', 'hombre', 'de', 'negocios,', 'eran', 'oro.']


In [21]:
# Caso 2: Tokenizacion usando regex

print(re.split(r'[ \t\n]+', texto))

['', 'La', 'gente', 'tiene', 'estrellas', 'pero', 'no', 'significan', 'lo', 'mismo', 'para', 'todos.', 'Para', 'algunos,', 'los', 'que', 'viajan,', 'las', 'estrellas', 'son', 'sus', 'guías.', 'Para', 'otros', 'sólo', 'son', 'lucecitas.', 'Para', 'los', 'sabios', 'las', 'estrellas', 'son', 'motivo', 'de', 'estudio', 'y', 'para', 'mi', 'hombre', 'de', 'negocios,', 'eran', 'oro.']


In [22]:
# Caso 3: incluimos la expresión \W la cual selecciona algunos 
# caracteres especiales

print(re.split(r'[ \W\t\n]+', texto))

['', 'La', 'gente', 'tiene', 'estrellas', 'pero', 'no', 'significan', 'lo', 'mismo', 'para', 'todos', 'Para', 'algunos', 'los', 'que', 'viajan', 'las', 'estrellas', 'son', 'sus', 'guías', 'Para', 'otros', 'sólo', 'son', 'lucecitas', 'Para', 'los', 'sabios', 'las', 'estrellas', 'son', 'motivo', 'de', 'estudio', 'y', 'para', 'mi', 'hombre', 'de', 'negocios', 'eran', 'oro', '']


### Tokenización de NLTK

In [24]:
texto = 'En loe E.U. esa postal vale $15.50...'
print(re.split(r'[ \W\t\n]+', texto))

['En', 'loe', 'E', 'U', 'esa', 'postal', 'vale', '15', '50', '']


In [27]:
pattern = r'''(?x)                  # Flag para iniciar el modo verbose
              (?:[A-Z]\.)+          # Hace match con abreviaciones como U.S.A.
              | \w+(?:-\w+)*        # Hace match con palabras que pueden tener un guión interno
              | \$?\d+(?:\.\d+)?%?  # Hace match con dinero o porcentajes como $15.5 o 100%
              | \.\.\.              # Hace match con puntos suspensivos
              | [][.,;"'?():-_`]    # Hace match con signos de puntuación
'''

nltk.regexp_tokenize(texto, pattern)

['En', 'loe', 'E.U.', 'esa', 'postal', 'vale', '$15.50', '...']