# 1. NLP I

## 1.1 Introducción a Data Science No Tabular y NLP

### Data Science No Tabular, sus aplicaciones, y la importancia del procesamiento de lenguaje natural (NLP) en este contexto

Data Science No Tabular se refiere al análisis y procesamiento de datos que no están organizados en tablas, como texto, imágenes, audio o video. A diferencia de los datos tabulares, que son fáciles de estructurar y manejar en bases de datos relacionales, los datos no tabulares requieren enfoques más complejos debido a su naturaleza desestructurada o semi-estructurada.


### Aplicaciones de Data Science No Tabular

* **Análisis de Imágenes y Videos:** en ámbitos como la seguridad, diagnóstico médico o redes sociales, se usan técnicas de machine learning para extraer patrones y conocimiento útil a partir de imágenes y videos.

* **Análisis de Texto:** el procesamiento de grandes volumenes de texto (artículos, libros, comentarios en RRSS) para extraer información valiosa, como opiniones, sentimientos o temas recurrentes.

* **Reconocimiento de Voz:** conversión de datos de audio en texto, como lo hacen los asistentes virtuales.

* **Procesamiento de Documentos:** clasificación y organización de documentos de texto de manera automática, como los sistemas de archivos electrónicos o motores de búsqueda.


### Importancia del Procesamiento de Lenguaje Natural (NLP)

El procesamiento de lenguaje natural (NLP) es un subconjunto crucial dentro del Data Science No Tabular, ya que permite a las computadoras entender y generar lenguaje humano de forma automática. A través de técnicas avanzadas de machine learning y deep learning, el NLP transforma grandes volúmenes de datos textuales en información útil, ayudando a tareas como la calsificación de textos, análisis de sentimientos, o la extracción de entidades relevantes.

* **Conversión Texto-Habla:** aplicaciones como asistentes virtuales utilizan NLP para interpretar comandos hablados y responder de manera coherente.

* **Análisis de Sentimientos:** herramientas de análisis de redes sociales utilizan NLP para determinar si los comentarios o publicaciones son positivos negativos o neutros.

* **Traducción Automática:** motores de traducción utilizan NLP para ofrecer traducciones entre distintos idiomas de forma eficiente.

* **Categorización de Documentos:** NLP ayuda a clasificar automáticamente documentos en diversas categorías, facilitando la búsqueda y recuperación de información.


En resumen, el procesamiento de datos no tabulares y el NLP permiten un análisis más completo y profundo de datos no estructurados, ayudando a descubrir patrones y conocimientos valiosos en sectores como la salud, el marketing y la investigación científica.

## 1.2 Conceptos de Bases de Datos No Tabulares

### 1. Bases de Datos Relacionales (SQL)

Las bases de datos relacionales almacenan información en tablas que se componen de filas y columnas. Utilizan el lenguaje SQL (Structured Query Lenguage) para definir y manipular los datos, ofreciendo integridad entre las tablas.
* **Ejemplos:** MySQL, PostgreSQL, Microsoft SQL Server, Oracle.

* **Aplicaiones:** estas bases de datos son ampliamente utilizadas en aplicaciones empresariales donde la consistencia y las relaciones entre los datos son importantes, como en sistemas de gestión de inventarios, aplicaciones bancarias, y plataformas de comercio electrónico.


### 2. Bases de Datos NoSQL

A diferencia de las bases de datos relacionales, las bases de datos NoSQL permiten el almacenamiento de datos en formatos más flexibles como documentos, pares clave-valor o grafos. Son ideales para manejar grandes volúmenes de datos no estructurados o semi-estructurados y son escalables horizontalmente.
* **Ejemplo:** MongoDB (documentos), Redis (clave-valor), Cassandra (columnas), Neo4j (grafos).

* **Aplicaiones:** se utilizan en aplicaciones que requieren alta escalabilidad y flexibilidad, como en análisis de redes sociales, big data, y aplicaciones de IoT.


### 3. Bases de Datos NewSQL

NewSQL es una evolución de las bases de datos de SQL tradicionales, diseñada para ofrecer la escalabilidad de NoSQL sin perder la consistencia y transaccionalidad que ofrece eel modelo relacional.
* **Ejemplos:** Google Spanner, CockroachDB, VoltDB.

* **Aplicaiones:** se utilizan en sistemas que necesitan manejar un gran volumen de transacciones de manera escalable, como en aplicaiones financieras o de comercio digital de alto tráfico.


### 4. Bases de Datos Analíticas

Estas bases de datos entán optimizadas para consultas y análisis de grandes volúmenes de datos, almacenando datos históricos y transaccionales. Se enfocan en la generación de informes y análisis, en vez de en la manipulación transaccional de datos.
* **Ejemplos:** Amazon Redshift, Google BigQuery, Snowflake.

* **Aplicaciones:** son utilizadas en sistemas de inteligencia de negocios (BI) para el análisis de ventas, rendimiento financiero, o datos operativos, permitiendo la creación de dashboards y reportes en tiempo real.


### Bases de Datos As a Service (DBaaS)

Son bases de datos que se ofrecen como un servicio en la nube, eliminando la necesidad de configurar hardware o administrar la infraestructura. Los proveedores se encargan del mantenimiento y escalabilidad.
* **Ejemplos:** Amazon RDS, Azure SQL Database, Google Cloud SQL.

* **Aplicaciones:** utilizadas por empresas que prefieren delegar la administración de sus bases de datos a un proveedor de servicios en la nube, permitiendo un enfoque en el desarrollo de sus aplicaciones sin preocuparse por la infraestructura subyacente.


Estas diferentes categorías de bases de datos ofrecen soluciones específicas dependiendo del tipo de datos y los requisitos de escalabilidad o integridad, permitiendo a las organizaciones elegir la mejor opción para sus necesidades.


## 1.3 Introducción a NLP y sus Características

### Definición de NLP, sus características y fases típicas del procesamiento de lenguaje

El procesamiento de Lenguaje Natural (NLP) es una rama de la inteligencia artificial que se centra en la interacción entre computadoras y el lenguaje humano. Su objetivo es permitir que las máquinas comprendan, interpreten y generen lenguaje humano de manera que sea natural para las personas. Esto incluye tanto el procesamiento de texto escrito como el lenguaje hablado.


### Características de NLP

El NLP se distingue por las siguientes caracterísitcas clave:

* **Conversión de texto a voz y viceversa:** es capaz de transformar texto escrito en voz y viceversa, siendo útil para aplicaciones como asistentes virtuales o lectores de pantalla.

* **Traducción automática:** permite traducir de un idioma a otro de manera automática y eficiente.

* **Categorización e indexación:** clasifica y organiza grandes volúmenes de texto, como artículos, correos electrónicos o documentos, en categorías significativas.

* **Análisis de sentimientos:** evalúa el tono y la intención de un texto, determinando si es positivo, negativo o neutral.

* **Aprendizaje supervisado:** en su mayoría, los modelos de NLP aprenden a través de grandes cantidades de datos etiquetados que ayudan a refinar su capacidad para interpretar lenguaje.


### Fases típicas del procesamiento de lenguaje natural

El procesamiento del lenguaje natural generalmente sigue cinco fases principales para interpretar y comprender el lenguaje:

1. **Análisis léxico y morfológico:** identificación de las palabras individuales dentro de un texto y sus relaciones morfológicas. Esto incluye la separación de las palabras en unidades básicas (tokens) y la identificación de prefijos o sufijos. 

2. **Análisis sintáctico:** comprensión de la estructura gramatical del texto. Esto implica determinar cómo las palabras se agrupan para formar frases y oraciones que siguen las reglas gramaticales de un idioma.

3. **Análisis semantico:** asignación de significado a las palabras y frases dentro del texto, evaluando el contenido del lenguaje para interpretar el significado correcto.

4. **Integración del discurso:** comprende cómo se relacionan las oraciones y frases en un contexto más amplio. Por ejmplo, cómo las oraciones anteriores influyen en el significado de las actuales.

5. **Análisis pragmático:** evaluación del contexto en el que se utiliza el lenguaje para comprender las intenciones subyacentes y los significados implícitos, considerando aspectos como la ironía o el sarcasmo.


Estas fases son cruciales para que las computadoras puedan entender el lenguaje humano de manera similar a cómo lo hacen las personas, y son fundamentales para aplicaciones como traducción automática, chatbots y asistentes virtuales.


## 1.4 Técnicas de NLP

### 1. Análisis de Sentimientos

El análisis de sentimientos en una técnica de procesamiento de lenguaje natural (NLP) utilizada para identificar y extraer opiniones y emociones de un texto. Su objetivo es determinar si el contenido tiene un tono positivo, negativo o neutral. Es muy popular en el análisis de RRSS, encuestas, reseñas de productos, y atención al cliente.

* **Aplicciones:** empresas lo usan para monitoriar la percepción pública de sus productos, detectar problemas de satisfación del cliente y medir el impacto de campañas de marketing.

### 2. NER (Named Entity Recognition)

El *Reconocimiento de Entidades Nombradas* (NER) es una técnica de NLP que localiza y clasifica entidades mencionadas en un texto en categorías predefinidas como personas, organizaciones, ubicaciones, fechas, valores monetarios, entre otras.

* **Aplicaciones:** se utiliza en motores de busqueda para mejorar los resultados de las consultas, en sistemas de reconocimiento, y en análisis de documentos legales o financieros para extraer información clave.

### 3. Stemming

El steming es una técnica que reduce las palabras a su forma base o raíz, eliminando sufijos o prefijos. Por ejemplo, "jugando", "jugaron", y "juego" se reducen a jugar. La idea es tratar todas estas variantes como la misma palabra para simplificar el análisis.
* **Aplicaciones:** se utiliza en motores de búsqueda y sistemas de recuperación de información, permitiendo que diferentes formas de una palabra se agrupen y se traten de manera uniforme.

### 4. Lematización

La lematización es un proceso más avanzado que el stemming. Consiste en reducir una palabra a su lema o forma canónica, considerando el contexto gramatical. Por ejemplo, el plural "amigos" se lematiza a "amigo", pero "jugué" se le matiza a "jugar", teniendo en cuenta la conjugación verbal.
* **Aplicaciones:** es fundamental en la preparación de datos para el análisis de texto, ya que ayuda a mantener el significado semántico correcto de las palabras al tiempo que reduce la cantidad de variaciones. 


### 5. TF-IDF (Term Frequency - Inverse Document Frequency)

TF-IDF es un métrica utilizada para evaluar la importancia de una palabra dentro de un documento en relación con una colección de documentos (corpus). Combina dos conceptos:
* **TF (Frecuancia de término):** cuántas veces aparece un término en un documento.
* **IDF (Frecuencia inversa de documentos).** un valor que disminuye la relevancia de términos comunes en todo el corpus, destacando términos más únicos o específicos.

* **Aplicaciones:** se utiliza en motores de búsqueda y clasificación de documentos para identificar términos clave que distinguen un documento de otros, optimizando los resultados de búsqueda y el análisis de datos textuales.

Estas técnicas son esenciales para el procesamiento de textos y análisis de grandes volúmenes de datos no estructurados, facilitando la extracción de patrones, sentimientos y entidades relevantes.