El Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés) es un campo de la inteligencia artificial que se enfoca en la interacción entre las computadoras y el lenguaje humano. El objetivo principal del NLP es permitir que las computadoras comprendan, interpreten y generen lenguaje humano de manera similar a como lo hacen los seres humanos. Esto implica tanto la comprensión de texto escrito como el procesamiento de voz y el diálogo.

### NLTK (Natural Language Toolkit):

 Una biblioteca en Python que proporciona herramientas y recursos para trabajar con texto y lenguaje humano. Es ampliamente utilizada para tareas como tokenización, lematización, stemming, análisis sintáctico y más.

### spaCy:

 Otra biblioteca de procesamiento de lenguaje natural en Python que se centra en la eficiencia y el rendimiento. Ofrece características avanzadas como el análisis morfológico, etiquetado de partes del discurso y análisis sintáctico.

### Gensim:

 Una biblioteca en Python que se utiliza para el modelado de tópicos y la generación de vectores de palabras. Es especialmente útil para construir modelos de Word2Vec y Doc2Vec.

### Transformers (Hugging Face):

 Proporciona una interfaz fácil de usar para utilizar modelos de lenguaje preentrenados, como BERT, GPT y otros, para una variedad de tareas de procesamiento del lenguaje natural.

### Stanford NLP:

 Un conjunto de herramientas desarrollado por la Universidad de Stanford para el procesamiento de lenguaje natural. Incluye componentes como el análisis de sentimiento, análisis de dependencia y más.

### CoreNLP:

 También desarrollado por Stanford, es un marco más completo que ofrece análisis de texto en múltiples niveles, incluidos análisis sintáctico, análisis de relaciones y análisis de sentimiento.

### TextBlob:

 Una biblioteca en Python que simplifica muchas tareas de procesamiento de lenguaje natural, como tokenización, análisis de partes del discurso, extracción de frases clave y análisis de sentimiento.

### AllenNLP:

 Una biblioteca de código abierto para la investigación y producción en NLP. Proporciona herramientas para construir y entrenar modelos de lenguaje en un entorno flexible.

### OpenNLP:

 Una biblioteca en Java desarrollada por Apache para tareas de procesamiento de lenguaje natural. Proporciona herramientas como la identificación de entidades nombradas y el análisis de sentimiento.

### fastText:

 Una biblioteca desarrollada por Facebook AI para el aprendizaje de representaciones de palabras y textos de alta calidad. También puede ser utilizado para clasificación de textos.

## Ejemplos de uso

### Búsqueda en Internet: 

Los motores de búsqueda como Google utilizan NLP para comprender las consultas de los usuarios y proporcionar resultados relevantes.

### Análisis de Sentimiento:

 Las empresas pueden utilizar NLP para analizar comentarios de los clientes en redes sociales y opiniones en línea para medir el sentimiento positivo, negativo o neutral hacia sus productos o servicios.

### Chatbots y Asistentes Virtuales:

 Los chatbots y asistentes virtuales como Siri, Alexa y Google Assistant utilizan NLP para entender y responder a las preguntas y comandos de los usuarios en lenguaje natural.

### Traducción Automática:

 Plataformas como Google Translate utilizan NLP para traducir texto entre diferentes idiomas.

### Resumen Automático de Texto:

 Las herramientas de resumen automático pueden tomar textos largos y generar resúmenes más concisos, lo que es útil para la extracción de información.

### Clasificación de Textos:

 Los sistemas de clasificación de textos utilizan NLP para categorizar correos electrónicos, comentarios o documentos en diferentes categorías, como spam o no spam.

### Corrección Gramatical y Ortográfica:

 Las aplicaciones y herramientas de procesamiento de texto utilizan NLP para identificar errores gramaticales y ortográficos en el contenido.

### Generación de Texto Automático:

 Los sistemas de generación de texto automático pueden crear contenido como informes, descripciones de productos o incluso noticias basadas en ciertos datos de entrada.

### Análisis de Opiniones y Comentarios:

 Las empresas pueden usar NLP para analizar opiniones y comentarios de los clientes para identificar patrones y tendencias, y tomar decisiones informadas.

### Extracción de Información:

 NLP puede utilizarse para extraer información específica, como nombres de personas, fechas o ubicaciones, de documentos o texto no estructurado.

### Detección de Fraude: 

Las instituciones financieras pueden utilizar NLP para detectar patrones sospechosos y prevenir el fraude, analizando comunicaciones y transacciones.

### Generación de Descripciones de Productos:

 Las plataformas de comercio electrónico pueden usar NLP para generar descripciones de productos atractivas y coherentes a partir de especificaciones técnicas.

### Diagnóstico Médico:

 En la industria de la salud, NLP puede analizar registros médicos y síntomas para ayudar en el diagnóstico y la toma de decisiones clínicas.

### Análisis de Documentos Legales:

 Las firmas legales pueden utilizar NLP para revisar documentos legales y encontrar información relevante más eficientemente.

### Resolución Automatizada de Consultas:

 Los sistemas de atención al cliente pueden utilizar NLP para responder preguntas frecuentes de manera automatizada y eficiente.

## Expresiones regulares

las expresiones regulares (también conocidas como regex o regexp) son patrones de texto que se utilizan para buscar, identificar y manipular cadenas de caracteres de acuerdo con un conjunto de reglas predefinidas. Las expresiones regulares son una herramienta poderosa y versátil en el procesamiento de texto, ya que permiten realizar búsquedas y manipulaciones complejas en cadenas de manera eficiente.

## Flujo de trabajo

Definición del problema y recopilación de datos:
- Comprende claramente el problema que estás tratando de resolver utilizando NLP. Reúne los datos relevantes para tu tarea. Esto podría ser texto en forma de documentos, oraciones, conversaciones, etc.
Preprocesamiento de datos:

Limpia y preprocesa los datos para eliminar ruido y formatos no deseados.
- Realiza tokenización, eliminación de signos de puntuación, conversión a minúsculas, lematización, stemming, etc.

Exploración y análisis de datos:

- Realiza un análisis exploratorio de los datos para comprender mejor su distribución y características. Identifica patrones, tendencias y posibles desafíos en los datos.

Preparación de datos:

Divide los datos en conjuntos de entrenamiento, validación y prueba.
- Genera representaciones numéricas de texto, como embeddings o matrices de términos y documentos, que los modelos puedan entender.


Diseño y entrenamiento del modelo:
- Selecciona o diseña un modelo adecuado para tu tarea. Puede ser un modelo de lenguaje preentrenado (como BERT, GPT) o un modelo personalizado. Ajusta los parámetros del modelo y entrena utilizando el conjunto de entrenamiento.


Validación y ajuste del modelo:

- Evalúa el rendimiento del modelo en el conjunto de validación. Realiza ajustes en los hiperparámetros y en la arquitectura del modelo según sea necesario para mejorar el rendimiento.


Evaluación del modelo:

- Evalúa el modelo final en el conjunto de prueba para obtener una estimación imparcial de su rendimiento en datos no vistos.

Ajuste y optimización:

- Si los resultados no son satisfactorios, ajusta y optimiza el modelo, repitiendo los pasos anteriores según sea necesario.

Implementación y despliegue:

- Implementa el modelo en una aplicación o sistema que satisfaga el objetivo de tu proyecto. Puede ser una aplicación web, una API, un chatbot, etc.


Monitoreo y mantenimiento:

- Supervisa el rendimiento del modelo en producción y realiza ajustes si los resultados comienzan a deteriorarse. Mantén el modelo actualizado con nuevos datos y tendencias en el lenguaje.

Iteración continua:

- El campo del NLP evoluciona constantemente. A medida que surjan nuevos modelos y enfoques, podrías necesitar iterar y mejorar tus soluciones.



El proceso de realizar NLP implica varias etapas, que generalmente incluyen:

- Tokenización: 

El texto se divide en unidades más pequeñas llamadas "tokens", que pueden ser palabras o incluso partes de palabras, como prefijos o sufijos.

- Limpieza y preprocesamiento: 

En esta etapa, se eliminan las partes innecesarias del texto, como signos de puntuación, caracteres especiales y espacios en blanco extra. También puede implicar la conversión de todo el texto a minúsculas para que las palabras en mayúsculas y minúsculas se traten como iguales.

- Análisis morfológico: 

Se trata de identificar la raíz de las palabras y su estructura gramatical, lo que puede ser útil para entender la relación entre palabras y su significado.

- Etiquetado de partes del discurso: 

Cada palabra se etiqueta con su categoría gramatical, como sustantivo, verbo, adjetivo, etc.

- Lematización y stemming: 

La lematización implica reducir las palabras a su forma base (lema), mientras que el stemming consiste en eliminar sufijos o prefijos para reducir las palabras a su forma raíz. Esto ayuda a tratar diferentes formas de una palabra como la misma.

###### Prefijo: Un prefijo es un fragmento de una palabra que se agrega al principio de una palabra base para cambiar su significado o crear una nueva palabra con una connotación diferente. Por lo general, los prefijos no pueden funcionar como palabras independientes. Ejemplos en inglés incluyen "un-" (como en "unhappiness", que significa "infelicidad"), "re-" (como en "revisit", que significa "visitar de nuevo") y "pre-" (como en "preview", que significa "vista previa").

###### Sufijo: Un sufijo es un fragmento de una palabra que se agrega al final de una palabra base para modificar su significado o formar una nueva palabra. Los sufijos también se utilizan para cambiar la categoría gramatical de una palabra (por ejemplo, convertir un verbo en un sustantivo). Al igual que los prefijos, los sufijos generalmente no pueden funcionar como palabras independientes. Ejemplos en inglés incluyen "-ing" (como en "running", que significa "corriendo"), "-less" (como en "hopeless", que significa "desesperanzado") y "-er" (como en "teacher", que significa "profesor").


#### Lematización:
###### La lematización implica reducir las palabras a su forma más básica, que se llama "lema" o "forma base". El lema es la forma que encontrarías en un diccionario y representa el significado fundamental de una palabra. Durante la lematización, las palabras se transforman en sus lemas, lo que ayuda a agrupar diferentes formas de una palabra bajo la misma raíz. Esto es útil para garantizar una mayor precisión en el análisis semántico y para tratar adecuadamente las diferentes conjugaciones y derivaciones de una palabra.
###### Por ejemplo:

###### "corriendo" se lematizaría a "correr".
###### "gatos" se lematizaría a "gato".
###### "mejores" se lematizaría a "mejor".
###### La lematización suele requerir más conocimiento lingüístico y contexto en comparación con el stemming, ya que busca derivar las formas más precisas y contextualmente relevantes de las palabras.

#### Stemming:
###### El stemming, por otro lado, es una técnica más simple que implica eliminar sufijos y prefijos para reducir una palabra a su forma raíz. Aunque el resultado no siempre es un lema real, el objetivo es agrupar las variantes de una palabra que comparten la misma raíz. A diferencia de la lematización, el stemming a menudo no tiene en cuenta el significado contextual de las palabras.
###### Por ejemplo:

###### "corriendo" podría ser reducido a "corr".
###### "gatos" podría ser reducido a "gat".
###### "mejores" podría ser reducido a "mejor".
###### El stemming es más rápido y menos complejo que la lematización, pero puede dar como resultado raíces que no son palabras reales. Debido a su simplicidad, el stemming es útil cuando la precisión léxica no es crítica, como en la recuperación de información o en algunas tareas de análisis de texto a gran escala.

- Desambiguación: 

En el lenguaje humano, muchas palabras tienen múltiples significados. La desambiguación se refiere a determinar el significado correcto en un contexto particular.

- Análisis sintáctico: 

En esta etapa, se analiza la estructura gramatical y las relaciones sintácticas entre las palabras en una oración para comprender la jerarquía y la dependencia.

- Análisis semántico: 

Se busca comprender el significado general de una oración, teniendo en cuenta la relación entre las palabras y cómo contribuyen al mensaje global.

- Extracción de información: 

Aquí se identifican y se extraen partes específicas de información relevante, como nombres de personas, fechas, ubicaciones, etc.

- Modelado de lenguaje y aprendizaje automático: 

Se utilizan técnicas de aprendizaje automático y modelado de lenguaje para construir modelos que puedan comprender, generar y manipular lenguaje humano. Esto puede incluir tareas como traducción automática, resumen de texto, generación de texto, chatbots, entre otros.

## N-gramas

En el contexto de los n-gramas, "n" se refiere al número de elementos en cada subsecuencia. Los valores comunes de "n" son 1 (unigrama), 2 (bigrama), 3 (trigrama), y así sucesivamente. Cada n-grama captura información sobre cómo las palabras (o caracteres) están dispuestas en relación entre sí dentro del texto. Estos n-gramas se utilizan para varios propósitos, como modelar el lenguaje, realizar análisis de texto y abordar tareas como la predicción de la siguiente palabra en una oración.

Aquí hay algunos ejemplos para ilustrar n-gramas:

- Unigrama (1-grama):

Oración: "El gato negro duerme."
Unigramas: "El", "gato", "negro", "duerme".

- Bigrama (2-grama):

Oración: "El gato negro duerme."

Bigramas: "El gato", "gato negro", "negro duerme".


- Trigrama (3-grama):

Oración: "El gato negro duerme."

Trigramas: "El gato negro", "gato negro duerme".

# Bag of words

es una técnica simple en el procesamiento del lenguaje natural que se utiliza para representar un texto como una colección no ordenada de palabras, ignorando el orden y la estructura gramatical. Básicamente, se trata de crear un "saco" que contiene todas las palabras únicas presentes en un texto, junto con la cantidad de veces que aparece cada palabra. El orden de las palabras no importa en este enfoque; solo se considera la frecuencia de las palabras en el texto.

Aquí tienes un ejemplo sencillo para ilustrar la idea de la bolsa de palabras:

Texto: "El gato negro duerme. El perro blanco juega."

Bolsa de palabras:

"El": 2 veces
"gato": 1 vez
"negro": 1 vez
"duerme": 1 vez
"perro": 1 vez
"blanco": 1 vez
"juega": 1 vez
En el enfoque de bolsa de palabras, el orden de las palabras en el texto no se considera. Solo estamos contando cuántas veces aparece cada palabra en el texto. Como resultado, la información sobre la estructura de las oraciones y las relaciones gramaticales se pierde en este enfoque.

![image.png](attachment:image.png)

## Ejemplo calculo TF-IDF

"El gato negro duerme."
"El perro blanco juega."
"El gato y el perro son amigos."
Cálculo de TF (Frecuencia del Término) para "gato" en el Documento 1:

"gato" aparece 1 vez en el Documento 1.

Número total de palabras en el Documento 1 = 4.

TF("gato", Documento 1) = 1 / 4 = 0.25

Cálculo de IDF (Frecuencia Inversa del Documento) para "gato":

Número total de documentos = 3.
Número de documentos que contienen "gato" = 2.
IDF("gato") = log(3 / 2) = 0.176

Cálculo del valor TF-IDF para "gato" en el Documento 1:
TF-IDF("gato", Documento 1) = TF("gato", Documento 1) * IDF("gato") = 0.25 * 0.176 = 0.044

Realizando cálculos similares para "perro" en los tres documentos:

Cálculo de TF-IDF para "perro" en el Documento 2:
TF-IDF("perro", Documento 2) = TF("perro", Documento 2) * IDF("perro") = 0.25 * 0.176 = 0.044

Cálculo de TF-IDF para "perro" en el Documento 3:
TF-IDF("perro", Documento 3) = TF("perro", Documento 3) * IDF("perro") = 0.25 * 0.176 = 0.044