# Introducción a NLP
``` Clase 1 ```

## ¿Qué es NLP?

El Procesamiento de Lenguaje Natural es la combinación de tres áreas del conocimiento: **CS, lingüística, IA**. 

Su objetivo principal es lograr que las **computadoras puedan entender el lenguaje humano** con el fin de realizar tareas como \
*auto-completado, Q&A, asistentes personales, etc*.

Es una de las áreas más complicadas de la IA, ya que a diferencia de los datos numéricos donde de premisa podemos decir que \
únicamente se puede tener un resultado correcto, NLP trabaja con algo muy ambiguo y poco determinista, **el lenguaje**. 

La interpretación del lenguaje depende de muchos factores, por ejemplo, del tono, de la ubicación en donde se tiene la plática, \
la edad de las personas, el contexto en el que se encuentran, etc.

1. ¿Me puedes prestar un borrador?
2. Esto se puso color de hormiga
3. Efe (???????????)

![Challenges NLP](Challenges_NLP.png)

## Fases del Procesamiento del lenguaje

Con el objetivo de poder tener un mejor entendimiento del lenguaje, los humanos \
dividimos nuestro razonamiento en **5 diferentes fases**

1. Análisis Léxico
2. Análisis Sintáctico
3. Análisis Semántico
4. Integración de discurso
5. Análisis Pragmático

### 🟣 Análisis Léxico

En esta fase **nos enfocamos en entender la estructura interna de las palabras y cómo se representan como unidades del lenguaje**.

El análisis léxico identifica:
- **Unidades léxicas** (*tokens*) como palabras, raíces, sufijos, afijos, etc
- **Categorías gramaticales**: sustantivos, verbos, adjetivos, etc.
- **Variaciones de una misma palabra**: jugar, juega, jugando

Este paso sienta las bases para poder trabajar con el lenguaje desde un punto de vista más estructurado y formal.

🔍 *Ejemplo*
- En la oración *"Ella juega fútbol"*, podemos identificar:
  - `"juega"` como una forma del verbo `"jugar"` (raíz)
  - su categoría: verbo, en tiempo presente
- La palabra `"rápidamente"` se puede dividir en:
  - raíz: `"rápid"`
  - sufijo: `-amente` (que indica adverbio de modo)


Computacionalmente hablando, esta fase se traduce en tareas como **tokenización**, **lemmatización**, y **POS tagging**

---

### 🟠 Análisis Sintáctico

En esta fase **nos enfocamos en la estructura gramatical de las oraciones**, es decir, cómo se combinan las palabras para formar frases con sentido según las reglas del idioma.

Se identifican:
- Las **relaciones entre palabras** (sujeto, verbo, objeto, modificadores, etc.)
- La **jerarquía** y **estructura** de la oración (usualmente representada como un árbol sintáctico)

🔍 *Ejemplo*
- En la oración *"El gato duerme en la silla"*:
  - `"El gato"` es el sujeto
  - `"duerme"` es el verbo principal
  - `"en la silla"` es un complemento de lugar (modificador)

Computacionalmente hablando, esta fase se traduce en tareas como **parsing**


---

### 🟡 Análisis Semántico

Aquí **nos interesa el significado literal de las palabras y oraciones**. Es decir, no solo que una oración esté bien formada, sino que lo que diga tenga sentido.

Esta fase busca:
- Interpretar **el significado de cada palabra** dentro de su contexto
- Resolver **ambigüedades semánticas** (una palabra puede tener varios significados)

🔍 *Ejemplo*
- En *"La computadora tomó café"*, la oración es sintácticamente válida, pero semánticamente incoherente (¿una computadora puede tomar café?).
- La palabra *"banco"* puede referirse a una institución financiera o a un asiento, dependiendo del contexto.

Computacionalmente hablando, esta fase se relaciona con **embeddings semánticos**, **resolución de ambigüedad léxica** y **modelos de lenguaje**.

---

### 🔵 Integración de Discurso

Esta fase analiza **cómo se relacionan varias oraciones dentro de un mismo texto**, buscando coherencia y continuidad.

El objetivo es:
- Mantener la **conexión lógica** entre ideas
- Resolver **referencias** (como pronombres o anáforas)

🔍 *Ejemplo*
- *“María llegó tarde. Estaba cansada.”*
  - Aquí, "estaba" se refiere a María.  
  - Esta conexión entre frases es clave para que el texto tenga sentido global.

Computacionalmente hablando, esta fase se traduce en tareas como **resolución de correferencias**, **segmentación de temas**, y **modelado del contexto largo**.


---

<h1>Por el momento vamos a entender las diferentes tareas del análisis léxico</h1>
Lo demás si está medio loco todavía

# Pipeline NLP

Este tipo de datos, como lo son el texto y el audio tiene su propio proceso de tratamiento \
con el fin de poder hacerlo **entendible** para la computadora.

Algo así como que en los numéricos tenemos *escalado de datos, normalizaciones, imputaciones, etc...*

## 1. Preprocesamiento / Normalización

Dentro de esta fase nos encargamos principalmente de obtener aquellas partes \
más representativas del discurso. Así como de la uniformidad de estas.

1. Minúsculas
2. Eliminación de puntuación, caractéres especiales
3. Eliminación de palabras ruido (stopwords)

Además de esto, dentro de esta fase **dividimos el texto en pequeños conjuntos \
del mismo, de tal forma que al final obtenemos un *_vector no numérico_* del texto**

- El perro estuvo comiendo unas croquetas con sabor a pescado
- [perro, estuvo, comiendo, croquetas, sabor, pescado]

## 2. Vectorización

Se busca **una representación numérica del texto ya procesado en el paso anterior**.

**LAS COMPUTADORAS SOLO ENTIENDEN NUMÉROS**

1. Bag of words
2. TF-IDF
3. Word embeddings (Word2Vec, GloVe)
4. Embeddings contextuales (BERT, GPT)

## 3. Modelado

Se aplican algoritmos que aprenden patrones a partir de los vectores obtenidos. \
Estos algoritmos pueden tener diferntes propóstios, como por ejemplo el autocompletado, o solo Q&A

1. Clasificadores: SPAM / No SPAM
    - Naive Bayes, SVM, Regresión Logística
2. Análisis de Sentimiento
    - RNN, LSTM
3. Resúmenes
    - Transformers
4. Chatbots

---

`Texto crudo → Preprocesamiento → Vectorización → Modelado`

![Text Hierarchy](Text-Hierarchy.webp)

#### Token

Es la **unidad mínima procesable**. Generalmente una palabra, aunque también puede ser una subpalabra, símbolo o signo de puntuación, dependiendo del tokenizador.

Ejemplo:
> Texto: *"El perro duerme."*  
→ Tokens: `["El", "perro", "duerme", "."]`

#### Vocabulario
Es el conjunto de **tokens únicos** en un corpus.

Ejemplo:
> Corpus: `"Me gustan los perros y los gatos. Los perros ladran."`  
→ Vocabulario: `["Me", "gusta", "los", "perros", "y", "gatos", "ladran", "."]`

In [None]:
import string
# tratamos a una oración como un documento
def preprocesar(texto):
    stopwords = ['los', 'las', 'el', 'la', 'y', 'de', 'en', 'es', 'una', 'un', 'por', 'para', 'con', 'a', 'están']
    texto = texto.lower()
    texto = ''.join([c for c in texto if c not in string.punctuation])
    tokens = texto.split()
    tokens = [t for t in tokens if t not in stopwords]
    return tokens

texto = "Los gatos y los perros son las mascotas preferidas de las personas. Los gatos hacen miau y los perros no sé."
print(preprocesar(texto))


['gatos', 'perros', 'son', 'mascotas', 'preferidas', 'personas', 'gatos', 'hacen', 'miau', 'perros', 'no', 'sé']


In [5]:
# TODO: Sacar el Top N de un corpus, no un documento, un corpus :)

In [7]:
# --> Corpus = [[documents]] <--

In [3]:
with open("text-papa.txt", "r", encoding="utf-8") as archivo:
    for linea in archivo:
        print(linea.strip())
        print("\n")

El Papa Francisco falleció el lunes 21 de abril de 2025 a las 07:35 horas en su residencia de la Casa de Santa Marta, en el Vaticano. Tenía 88 años y murió a causa de un derrame cerebral que le provocó un coma y un colapso cardiovascular irreversible. Su deceso marcó el fin de un pontificado de 12 años caracterizado por la humildad, la cercanía con los más desfavorecidos y un impulso reformista dentro de la Iglesia Católica.


Durante sus últimos días, Francisco mostró una notable serenidad. A pesar de su frágil estado de salud, se mantuvo activo y participó en la misa de Pascua, impartiendo la bendición Urbi et Orbi desde la Plaza de San Pedro. Su última aparición pública fue apenas 15 horas antes de su fallecimiento, donde pronunció palabras de esperanza y paz para el mundo.


El anuncio oficial de su muerte fue realizado por el cardenal camarlengo Kevin Farrell, quien destacó la dedicación del pontífice al servicio de la Iglesia y su compromiso con los más pobres y marginados. Inmed

In [None]:
import os
from collections import Counter

STOPWORDS_ES = {
    "el", "la", "los", "las", "un", "una", "unos", "unas", "de", "del", "al",
    "a", "en", "por", "con", "y", "o", "es", "que", "se", "su", "muy", "también",
    "entre", "todas", "todos", "mientras", "para", "como", "le"
}

PUNTUACION = {
    '.': '', ',': '', ';': '', ':': '', '!': '', '?': '', '¡': '', '¿': '',
    '"': '', "'": '', '(': '', ')': '', '[': '', ']': '', '{': '', '}': '',
    '-': '', '_': '', '/': '', '\\': ''
}

def eliminar_puntuacion(texto):
    resultado = ""
    for caracter in texto:
        if caracter in PUNTUACION:
            resultado += PUNTUACION[caracter]
        else:
            resultado += caracter
    return resultado

def leer_archivos(carpeta):
    corpus = ""
    for archivo in os.listdir(carpeta):
        if archivo.endswith(".txt"):
            ruta = os.path.join(carpeta, archivo)
            with open(ruta, 'r', encoding='utf-8') as f:
                corpus += f.read() + " "
    return corpus

def preprocesar_texto(texto, eliminar_stopwords=True):
    texto = texto.lower()
    texto = eliminar_puntuacion(texto)
    tokens = texto.split() # convertir a array
    if eliminar_stopwords:
        tokens = [palabra for palabra in tokens if palabra not in STOPWORDS_ES]
    return tokens

def obtener_top_palabras(tokens, top_n=10):
    contador = Counter(tokens)
    return contador.most_common(top_n)

carpeta = '/Users/ismaelporto/Tukey/NLP/Class 1/files'  
top_n = 10

texto = leer_archivos(carpeta)
tokens = preprocesar_texto(texto, eliminar_stopwords=True)
top_palabras = obtener_top_palabras(tokens, top_n)

print(f"Top {top_n} palabras más frecuentes:")
for palabra, frecuencia in top_palabras:
    print(f"{palabra}: {frecuencia}")


Top 10 palabras más frecuentes:
parque: 5
perro: 2
sol: 1
brilla: 1
niños: 1
juegan: 1
maría: 1
gusta: 1
correr: 1
corre: 1
