# Clase 2: Estructuras Avanzadas y Aplicaciones en PLN 🛠️

Ya vimos los elementos minimos fudamentales de Python (variables, condicionales). Hoy, vamos a construir con ellos: crearemos herramientas reutilizables, organizaremos nuestro código de manera profesional y, al final, ¡construiremos una aplicación web interactiva para analizar texto!

## Hoja de Ruta (2 horas)
1.  **Calentamiento: Manipulación Avanzada de Texto** (20 min)
2.  **Funciones: Creando Herramientas a Medida** (25 min)
3.  **Programación Orientada a Objetos (POO): El Salto a un Código Profesional** (30 min)
4.  **Ejercicio Práctico 1: Expandiendo Nuestras Clases** (15 min)
5.  **Ejercicio Integrador Final: De Python a Aplicación Web con Gradio** (30 min)

## 1. Calentamiento: Manipulación Avanzada de Texto

En PLN, el 90% del trabajo es "limpiar" y "preparar" el texto. Por suerte, los strings en Python vienen con "superpoderes" incorporados llamados **métodos**, que nos facilitan enormemente esta tarea.

In [None]:
# 🧹 .strip() elimina espacios en blanco al principio y final del texto.
# Es importante para evitar errores en comparación de strings o tokens.
# En PLN, se usa justo después de extraer texto de documentos o web scraping.

# 🔠 .lower() convierte todo el texto a minúsculas.
# Esto permite comparar palabras sin importar las mayúsculas (ej: "Hola" = "hola").

# 🔡 .upper() hace lo opuesto: convierte a mayúsculas.
# Puede servir en análisis visuales o normalización para sistemas legados.

# 🔄 .replace('A', 'B') reemplaza una palabra o símbolo por otro.
# En PLN se usa para eliminar o transformar caracteres no deseados (como signos de puntuación, hashtags, etc).

# ✂️ .split() separa el texto en una lista de palabras.
# Es un primer paso para tokenizar, aunque no es la tokenización profesional (como la de spaCy o nltk).

# 🧵 ' '.join(lista) toma una lista de palabras y las une con espacios (o cualquier otro separador).
# Es útil para volver a construir oraciones o generar strings de salida.


In [None]:
# Métodos útiles de strings que usaremos constantemente
texto = "  Procesamiento del Lenguaje Natural en el Rio de la Plata "

In [None]:
# .strip() -> Elimina espacios en blanco al inicio y al final
print(f"Original: '{texto}'")
print(f"Con .strip(): '{texto.strip()}'")

Original: '  Procesamiento del Lenguaje Natural en el Rio de la Plata '
Con .strip(): 'Procesamiento del Lenguaje Natural en el Rio de la Plata'


In [None]:
# .lower() y .upper() -> Convierten a minúsculas y mayúsculas
print(f"Con .lower(): '{texto.lower()}'")
print(f"Con .upper(): '{texto.upper()}'")

Con .lower(): '  procesamiento del lenguaje natural en el rio de la plata '
Con .upper(): '  PROCESAMIENTO DEL LENGUAJE NATURAL EN EL RIO DE LA PLATA '


In [None]:
# .replace('viejo', 'nuevo') -> Reemplaza una parte del texto por otra
print(f"Con .replace(): '{texto.replace('Lenguaje', 'Idioma')}'")

Con .replace(): '  Procesamiento del Idioma Natural en el Rio de la Plata '


In [None]:
# .split() -> Divide un string en una lista de palabras (¡lo vimos en la Clase 1!)
print(f"Con .split(): {texto.split()}")

Con .split(): ['Procesamiento', 'del', 'Lenguaje', 'Natural', 'en', 'el', 'Rio', 'de', 'la', 'Plata']


In [None]:
# 'separador'.join(lista) -> Une los elementos de una lista en un solo string
palabras_a_unir = ["El", "NLP", "es", "genial"]
print(f"Con .join(): '{' '.join(palabras_a_unir)}'")

Con .join(): 'El NLP es genial'


## 2. Funciones: Creacion de Herramientas a Medida

Ya sabemos crear funciones, pero ahora vamos a usarlas como lo hacen los profesionales: para encapsular una lógica específica y hacer nuestro código más limpio y reutilizable. Una buena función hace **una sola cosa y la hace bien**.

Vamos a crear una función que limpie un texto y otra que, usando la primera, cuente las palabras.

In [None]:
# Función 1: Especializada en limpiar texto
def limpiar_texto(texto):
    """Limpia un texto removiendo caracteres de puntuación comunes."""
    caracteres_especiales = ['.', ',', '!', '?', ';', ':']
    texto_limpio = texto
    for char in caracteres_especiales:
        texto_limpio = texto_limpio.replace(char, '')
    return texto_limpio.lower() # Devuelve el texto limpio y en minúsculas

In [None]:
# Función 2: Especializada en contar palabras

def contar_palabras(texto):
    """Usa limpiar_texto() para procesar el texto y luego cuenta las palabras."""
    texto_procesado = limpiar_texto(texto) # ¡Reutilizamos nuestra primera función!
    palabras = texto_procesado.split()
    return len(palabras)

# Definimos una función llamada contar_palabras que recibe un texto como argumento.
# Usamos .lower() para convertir todo a minúsculas (opcional en este caso).
# Luego usamos .split() para dividir el texto en palabras.
# Finalmente, usamos len() para contar cuántas palabras hay.


In [None]:
# --- Uso de las funciones ---
mi_texto = "¡Hola, mundo! ¿Listo/a para aprender sobre Procesamiento del Lenguaje Natural?"
cantidad = contar_palabras(mi_texto)

print(f"El texto original era: '{mi_texto}'")
print(f"Después de limpiarlo y contarlo, tiene {cantidad} palabras.")

El texto original era: '¡Hola, mundo! ¿Listo/a para aprender sobre Procesamiento del Lenguaje Natural?'
Después de limpiarlo y contarlo, tiene 10 palabras.


In [None]:
# Probamos la función con una frase.
# 'cantidad' almacena el número total de palabras encontradas.
# Imprimimos el resultado.

texto = "El procesamiento del lenguaje natural es una rama de la inteligencia artificial"
cantidad = contar_palabras(texto)
print(f"El texto original era: '{texto.upper()}'")
print(f"El texto original era: '{texto.lower()}'")
print(f"Después de limpiarlo y contarlo, tiene {cantidad} palabras.")


El texto original era: 'EL PROCESAMIENTO DEL LENGUAJE NATURAL ES UNA RAMA DE LA INTELIGENCIA ARTIFICIAL'
El texto original era: 'el procesamiento del lenguaje natural es una rama de la inteligencia artificial'
Después de limpiarlo y contarlo, tiene 12 palabras.


## 3. Programación Orientada a Objetos (POO): Un Código más Inteligente

La POO es un paradigma para organizar el código. La idea es simple: en lugar de tener datos y funciones por separado, los agrupamos en "objetos" que tienen tanto los datos (atributos) como las funciones que operan sobre esos datos (métodos).

* **Clase**: Es el "plano" o la "receta". Define cómo serán los objetos.
* **Objeto (o instancia)**: Es la "casa" construida a partir del plano. Es una entidad real con la que interactuamos.
* **`__init__(self, ...)`**: El "constructor". Es un método especial que se ejecuta al crear un nuevo objeto para inicializar sus atributos.
* **`self`**: Se refiere al objeto mismo. Así es como el objeto accede a sus propios datos y métodos.

Vamos a crear una clase `ProcesadorTexto` que encapsule un texto y todas las operaciones que queremos hacer con él.

In [None]:
# Definiendo el "plano" para nuestros procesadores de texto
class ProcesadorTexto:
    # El constructor: se ejecuta cuando creamos un objeto con ProcesadorTexto("...")
    def __init__(self, texto):
        print(f"✨ Creando un nuevo procesador para el texto: '{texto[:30]}...'")
        self.texto_original = texto
        self.texto_limpio = self.texto_original.lower().strip('.,!?')
        self.palabras = self.texto_limpio.split()

    # Un método para contar palabras
    def contar_palabras(self):# Método que cuenta cuántas palabras hay en el documento, usando la lista ya procesada.
        return len(self.palabras)

    # Un método para contar palabras únicas (sin repeticiones)
    def contar_palabras_unicas(self):
        return len(set(self.palabras)) # 'set' elimina duplicados automáticamente

    # Un método para calcular la frecuencia de cada palabra
    def calcular_frecuencia(self):
        frecuencia = {}
        for palabra in self.palabras:
            frecuencia[palabra] = frecuencia.get(palabra, 0) + 1
        return frecuencia

# El método __init__ se ejecuta automáticamente cuando creamos un nuevo Documento.
# Guarda el texto original en self.texto.
# También prepara una lista de palabras en minúscula (tokenización básica) y la guarda en self.palabras.
# La variable self hace referencia al propio objeto que estamos creando.


In [None]:
# --- Uso de la clase ---
# Creamos un objeto (una instancia) de nuestra clase
procesador = ProcesadorTexto("Python para NLP es genial porque Python es versátil.")

# Ahora podemos usar sus métodos
print(f"Total de palabras: {procesador.contar_palabras()}")
print(f"Palabras únicas: {procesador.contar_palabras_unicas()}")
print(f"Frecuencia de palabras: {procesador.calcular_frecuencia()}")

✨ Creando un nuevo procesador para el texto: 'Python para NLP es genial porq...'
Total de palabras: 9
Palabras únicas: 7
Frecuencia de palabras: {'python': 2, 'para': 1, 'nlp': 1, 'es': 2, 'genial': 1, 'porque': 1, 'versátil': 1}


In [None]:
procesador = ProcesadorTexto("""Prácticamente, no existe hoy en día una faceta de la realidad de la cual no se disponga
información de manera electrónica, ya sea estructurada, en forma de bases de datos, o no
estructurada, en forma textual o hipertextual. Desgraciadamente, gran parte de esta
información se genera con un fin concreto y posteriormente no se analiza ni integra con el
resto de información o conocimiento del dominio de actuación. Un ejemplo claro podemos
encontrarlo en muchas empresas y organizaciones, donde existe una base de datos
transaccional (el sistema de información de la organización) que sirve para el funcionamiento
de las aplicaciones del día a día, pero que raramente se utiliza con fines analíticos. Esto
se debe, fundamentalmente, a que no se sabe cómo hacerlo, es decir, no se dispone de las
personas y de las herramientas indicadas para ello.
Afortunadamente, la situación ha cambiado de manera significativa respecto a unos
años atrás, donde el análisis de datos se realizaba exclusivamente en las grandes
corporaciones, gobiernos y entidades bancarias, por departamentos especializados con
nombres diversos: planificación y prospectiva, estadística, logística, investigación operativa,
etc. Tanto la tecnología informática actual, la madurez de las técnicas de aprendizaje
automático y las nuevas herramientas de minería de datos de sencillo manejo, permiten a
una pequeña o mediana organización (o incluso un particular) tratar los grandes
volúmenes de datos almacenados en las bases de datos (propias de la organización,
externas o en la web).""")

# Ahora podemos usar sus métodos
print(f"Total de palabras: {procesador.contar_palabras()}")
print(f"Palabras únicas: {procesador.contar_palabras_unicas()}")
print(f"Frecuencia de palabras: {procesador.calcular_frecuencia()}")

✨ Creando un nuevo procesador para el texto: 'Prácticamente, no existe hoy e...'
Total de palabras: 237
Palabras únicas: 142
Frecuencia de palabras: {'prácticamente,': 1, 'no': 6, 'existe': 2, 'hoy': 1, 'en': 7, 'día': 2, 'una': 3, 'faceta': 1, 'de': 24, 'la': 8, 'realidad': 1, 'cual': 1, 'se': 8, 'disponga': 1, 'información': 4, 'manera': 2, 'electrónica,': 1, 'ya': 1, 'sea': 1, 'estructurada,': 2, 'forma': 2, 'bases': 2, 'datos,': 1, 'o': 5, 'textual': 1, 'hipertextual.': 1, 'desgraciadamente,': 1, 'gran': 1, 'parte': 1, 'esta': 1, 'genera': 1, 'con': 4, 'un': 3, 'fin': 1, 'concreto': 1, 'y': 6, 'posteriormente': 1, 'analiza': 1, 'ni': 1, 'integra': 1, 'el': 3, 'resto': 1, 'conocimiento': 1, 'del': 2, 'dominio': 1, 'actuación.': 1, 'ejemplo': 1, 'claro': 1, 'podemos': 1, 'encontrarlo': 1, 'muchas': 1, 'empresas': 1, 'organizaciones,': 1, 'donde': 2, 'base': 1, 'datos': 5, 'transaccional': 1, '(el': 1, 'sistema': 1, 'organización)': 1, 'que': 3, 'sirve': 1, 'para': 2, 'funcionamiento'

In [None]:
#🔍 ¿Por qué usar clases en PLN?
#📦 Permiten empaquetar texto + funciones en un solo lugar
#✅ Hacen que el código sea más reutilizable y legible
#🧩 Se pueden extender fácilmente (por ejemplo, agregar normalización, conteo de frecuencias, limpieza, etc.)
#🧠 Se asemejan a cómo modelamos el mundo real: un documento tiene texto, palabras, metadatos...

## 4. Ejercicio Práctico 1: Expandiendo Nuestra Clase

¡Tu turno! Vamos a agregarle más "poder" a nuestra clase `ProcesadorTexto`.

**Tu objetivo:** Añadí un nuevo método a la clase llamado `calcular_longitud_media()`. Este método debe calcular y devolver la longitud promedio de las palabras en el texto.

**Pista:** Deberás sumar la longitud de todas las palabras y dividirla por el número total de palabras.

In [None]:
# Pega la clase ProcesadorTexto acá y añádile tu nuevo método.

class ProcesadorTexto:
    def __init__(self, texto):
        self.texto_original = texto
        self.texto_limpio = self.texto_original.lower().strip('.,!?')
        self.palabras = self.texto_limpio.split()
# El constructor recibe un texto, lo guarda como original y también lo limpia:
# - Convierte a minúsculas para normalizar
# - Elimina signos de puntuación básicos con .strip()
# - Divide el texto en palabras con .split() para obtener una lista de tokens


    def contar_palabras(self):
        return len(self.palabras)
# Devuelve el total de palabras del texto ya procesado.
#📌 PLN: Longitud del documento → útil para calcular métricas como longitud promedio, densidad léxica, etc.

    def contar_palabras_unicas(self):
        return len(set(self.palabras))
# Devuelve la cantidad de palabras únicas (sin repetir) en el texto.
#📌 PLN: Muy útil para calcular diversidad léxica, o para entrenar vocabularios.


    def contiene(self, palabra):
        return palabra.lower() in self.palabras
# Verifica si la palabra indicada está presente en el documento, ignorando mayúsculas.
#📌 PLN: Sirve para detección de keywords (palabras ofensivas, etiquetas, temas).

    def calcular_frecuencia(self):
        frecuencia = {}
        for palabra in self.palabras:
            frecuencia[palabra] = frecuencia.get(palabra, 0) + 1
        return frecuencia
# Recorre las palabras del texto y calcula cuántas veces aparece cada una.
# Devuelve un diccionario {palabra: frecuencia}
#📌 PLN: Esta técnica es base para: nubes de palabras / TF-IDF / clasificación basada en bolsa de palabras

    def calcular_longitud_media(self):
        if not self.palabras: # Evitar división por cero si el texto está vacío
            return 0
        total_letras = sum(len(palabra) for palabra in self.palabras)
        return total_letras / len(self.palabras)
# Calcula la longitud promedio de las palabras en el documento.
# Si no hay palabras, devuelve 0 para evitar división por cero.
#📌 PLN: Puede usarse como indicador de complejidad o estilo de escritura.

#Aquí estoy probando lo anterior
procesador_prueba = ProcesadorTexto("""Cualquier profesional o particular puede tener interés o necesidad de analizar sus datos,
desde un comercial que desea realizar un agrupamiento de sus clientes, hasta un broker que
pretende utilizar la minería de datos para analizar el mercado de valores, pasando por un
psiquiatra que intenta clasificar sus pacientes en violentos o no violentos a partir de sus
comportamientos anteriores. Los problemas y las dudas a la hora de cubrir estas
necesidades aparecen si se desconoce por dónde empezar, qué herramientas utilizar, qué
técnicas estadísticas o de aprendizaje automático son más apropiadas y qué tipo de
conocimiento puedo llegar a obtener y con qué fiabilidad. Este libro intenta resolver estas
dudas pero, además, presenta una serie de posibilidades y, por supuesto, de limitaciones,
que ni el comercial, el broker o el psiquiatra podrían haberse planteado sin conocer las bases
de la tecnología de la extracción de conocimiento a partir de datos.
La necesidad o el interés, ante un problema concreto, es una manera habitual de
reciclarse y de aprender una nueva tecnología. No obstante, la anticipación o la
preparación es otra razón muy importante para adquirir un determinado conocimiento. No
es de extrañar, por ello, que cada día existan más materias y contenidos sobre “minería de
datos” en estudios de nivel superior, sean grados universitarios o másteres, así como en
cursos organizados por empresas acerca de esta tecnología (generalmente centrada en sus
propias herramientas). Aparecen por tanto un sinfín de asignaturas obligatorias u optativas
en estudios informáticos, ingenieriles, empresariales, de ciencias de la salud y ciencias
sociales, y muchos otros, como complemento o como alternativa a las materias más clásicas
de estadística que, hasta ahora, estaban más bien centradas en la validación de hipótesis
bajo diferentes distribuciones, la teoría de la probabilidad, el análisis multivariante, los
estudios correlacionales o el análisis de la varianza.""")
long_media = procesador_prueba.calcular_longitud_media()
print(f"La longitud media de las palabras es: {long_media:.2f}") # :.2f formatea a 2 decimales

La longitud media de las palabras es: 5.53


✅ En resumen

Método---------------------------¿Para qué sirve?------------------------Concepto PLN

__init__-------------------------------Preprocesar y tokenizar texto-----------Normalización

contar_palabras	------------------Total de palabras	-----------------------Longitud de documento

contar_palabras_unicas-----------Diversidad léxica------------------------Vocabulario

contiene--------------------------Buscar términos------------------------Búsqueda semántica

calcular_frecuencia---------------Frecuencia léxica-----------------------Bolsa de palabras

calcular_longitud_media----------Complejidad léxica----------------------Métrica de estilo

---
## Glosario Rápido de la Clase 2

* **Método**: Una función que "pertenece" a un objeto (ej: `mi_texto.strip()`).
* **Clase**: El "plano" o plantilla para crear objetos. Define sus atributos y métodos.
* **Objeto/Instancia**: Una entidad concreta creada a partir de una clase.
* **Atributo**: Una variable que "pertenece" a un objeto (ej: `procesador.palabras`).
* **`self`**: Palabra clave dentro de una clase que se refiere a la instancia actual del objeto.
* **POO (Programación Orientada a Objetos)**: Un estilo de programación basado en la idea de agrupar datos y funciones en objetos.
---