# Clase 2: Estructuras Avanzadas y Aplicaciones en PLN 🛠️

Ya vimos los elementos minimos fudamentales de Python (variables, condicionales). Hoy, vamos a construir con ellos: crearemos herramientas reutilizables, organizaremos nuestro código de manera profesional y, al final, ¡construiremos una aplicación web interactiva para analizar texto!

## Hoja de Ruta (2 horas)
1.  **Calentamiento: Manipulación Avanzada de Texto** (20 min)
2.  **Funciones: Creando Herramientas a Medida** (25 min)
3.  **Programación Orientada a Objetos (POO): El Salto a un Código Profesional** (30 min)
4.  **Ejercicio Práctico 1: Expandiendo Nuestras Clases** (15 min)
5.  **Ejercicio Integrador Final: De Python a Aplicación Web con Gradio** (30 min)

## 1. Calentamiento: Manipulación Avanzada de Texto

En PLN, el 90% del trabajo es "limpiar" y "preparar" el texto. Por suerte, los strings en Python vienen con "superpoderes" incorporados llamados **métodos**, que nos facilitan enormemente esta tarea.

In [1]:
# Métodos útiles de strings que usaremos constantemente
texto = "  Procesamiento del Lenguaje Natural en el Rio de la Plata "

In [2]:
# .strip() -> Elimina espacios en blanco al inicio y al final
print(f"Original: '{texto}'") #traigo mi variable y la imprimo
print(f"Con .strip(): '{texto.strip()}'") #Le paso el metodo strip, que elimina cualquier espacio en blanco al principio o al final de la cadena (espacios, tabulaciones, saltos de línea).

Original: '  Procesamiento del Lenguaje Natural en el Rio de la Plata '
Con .strip(): 'Procesamiento del Lenguaje Natural en el Rio de la Plata'


In [3]:
# .lower() y .upper() -> Convierten a minúsculas y mayúsculas
print(f"Con .lower(): '{texto.lower()}'") #convierte a minuscula
print(f"Con .upper(): '{texto.upper()}'") #convierte a mayuscula

Con .lower(): '  procesamiento del lenguaje natural en el rio de la plata '
Con .upper(): '  PROCESAMIENTO DEL LENGUAJE NATURAL EN EL RIO DE LA PLATA '


In [4]:
# .replace('viejo', 'nuevo') -> Reemplaza una parte del texto por otra
print(f"Con .replace(): '{texto.replace('Lenguaje', 'Idioma')}'")

Con .replace(): '  Procesamiento del Idioma Natural en el Rio de la Plata '


In [5]:
# .split() -> Divide un string en una lista de palabras (¡lo vimos en la Clase 1!)
print(f"Con .split(): {texto.split()}")

Con .split(): ['Procesamiento', 'del', 'Lenguaje', 'Natural', 'en', 'el', 'Rio', 'de', 'la', 'Plata']


In [6]:
# 'separador'.join(lista) -> Une los elementos de una lista en un solo string
palabras_a_unir = ["El", "NLP", "es", "genial"]
print(f"Con .join(): '{' '.join(palabras_a_unir)}'")

Con .join(): 'El NLP es genial'


## 2. Funciones: Creacion de Herramientas a Medida

Ej el ejemplo la clase que creamos tiene 3 metodos. Las clases sirven para re-utilizar codigo, tengo por ejemplo una funcion que voy a necesitar utilizar siempre, voy a construir una clase para procesar, por ejemplo limpiador de texto, la construyo con funciones especificas y en vez de escribirlas siempre las importo y voy aplicando metodos. Ya sabemos crear funciones, pero ahora vamos a usarlas como lo hacen los profesionales: para encapsular una lógica específica y hacer nuestro código más limpio y reutilizable. Una buena función hace **una sola cosa y la hace bien**.

Vamos a crear una función que limpie un texto y otra que, usando la primera, cuente las palabras.

In [7]:
# Función 1: Especializada en limpiar texto
def limpiar_texto(texto): #Creo una funcion, a esta funcion le paso un argumento, cuando le pongo dentro del parentesis la palabra texto significa que si o si ahi voy a pasarle un argumento
    """Limpia un texto removiendo caracteres de puntuación comunes."""
    caracteres_especiales = ['.', ',', '!', '?', ';', ':']
    texto_limpio = texto #Creo una variable que va a almacenar nuestro texto limpio, por cada caracter
    for char in caracteres_especiales: #Para cada uno de los elemntos que haya dentro de caracteres especiales va a reemplazar ese caracter, y va a devolver sin imprimir el texto limpio
        texto_limpio = texto_limpio.replace(char, '')
    return texto_limpio.lower() # Devuelve el texto limpio y en minúsculas

In [8]:
# Función 2: Especializada en contar palabras
def contar_palabras(texto):
    """Usa limpiar_texto() para procesar el texto y luego cuenta las palabras."""
    texto_procesado = limpiar_texto(texto) # ¡Reutilizamos nuestra primera función!
    palabras = texto_procesado.split()
    return len(palabras)

In [9]:
# --- Uso de las funciones ---
mi_texto = "¡Hola, mundo! ¿Listo/a para aprender sobre Procesamiento del Lenguaje Natural?" #Aquí se crea una variable llamada mi_texto y se le asigna una cadena de texto con algunos signos de puntuación y espacios.
cantidad = contar_palabras(mi_texto) #Esta línea llama a la función contar_palabras, pasándole la variable mi_texto como argumento.
#La función contar_palabras internamente llama a limpiar_texto para limpiar el texto y luego divide el resultado en palabras para contarlas. El número total de palabras se almacena en la variable cantidad.
print(f"El texto original era: '{mi_texto}'")
print(f"Después de limpiarlo y contarlo, tiene {cantidad} palabras.")

El texto original era: '¡Hola, mundo! ¿Listo/a para aprender sobre Procesamiento del Lenguaje Natural?'
Después de limpiarlo y contarlo, tiene 10 palabras.


## 3. Programación Orientada a Objetos (POO): Un Código más Inteligente

La POO es un paradigma para organizar el código. La idea es simple: en lugar de tener datos y funciones por separado, los agrupamos en "objetos" que tienen tanto los datos (atributos) como las funciones que operan sobre esos datos (métodos).

* **Clase**: Es el "plano" o la "receta". Define cómo serán los objetos.
* **Objeto (o instancia)**: Es la "casa" construida a partir del plano. Es una entidad real con la que interactuamos.
* **`__init__(self, ...)`**: El "constructor". Es un método especial que se ejecuta al crear un nuevo objeto para inicializar sus atributos.
* **`self`**: Se refiere al objeto mismo. Así es como el objeto accede a sus propios datos y métodos.

Vamos a crear una clase `ProcesadorTexto` que encapsule un texto y todas las operaciones que queremos hacer con él.

In [10]:
# Definiendo el "plano" para nuestros procesadores de texto
class ProcesadorTexto:
    # El constructor: se ejecuta cuando creamos un objeto con ProcesadorTexto("...")
    def __init__(self, texto): #Constructor que es el que va a encabezar y ejecutar nuestra clase, le damos el inicio y se va a llamar a si misma SELF, y va a llamar a otro argumento llamado texto
        print(f"✨ Creando un nuevo procesador para el texto: '{texto[:30]}...'")
        self.texto_original = texto # Se guarda el texto original que recibimos en un atributo del objeto llamado texto_original.
        self.texto_limpio = self.texto_original.lower().strip('.,!?') #Se crea otro atributo llamado texto_limpio aplicando varios métodos de cadena al texto original: .lower() lo convierte a minúsculas y .strip('.,!?') elimina los caracteres ., ,, !, ? del principio y del final del texto.
        self.palabras = self.texto_limpio.split() #Se crea un atributo llamado self.palabras dividiendo self.texto_limpio en una lista de palabras usando el método .split().

    # Un método para contar palabras
    def contar_palabras(self): #función que pertenece a la clase ProcesadorTexto.
        return len(self.palabras) #Devuelve el número de elementos en la lista self.palabras, es decir, la cantidad total de palabras.

    # Un método para contar palabras únicas (sin repeticiones)
    def contar_palabras_unicas(self):
        return len(set(self.palabras)) # 'set' elimina duplicados automáticamente. Convierte la lista self.palabras a un set. Un set es una colección que no permite elementos duplicados, por lo que elimina las palabras repetidas. Luego, len() cuenta cuántas palabras únicas quedaron en el set.

    # Un método para calcular la frecuencia de cada palabra
    def calcular_frecuencia(self): #Un método para calcular cuántas veces aparece cada palabra.
        frecuencia = {} #Se inicializa un diccionario vacío para que vea si esta esa palabra o no y va sumando una, no la va a repetir sino que va a acumular la frecuencia, en conjunto llave valor, llave= palabra valor=frecuencia
        for palabra in self.palabras:
            frecuencia[palabra] = frecuencia.get(palabra, 0) + 1 #Para cada palabra, busca si ya está en el diccionario frecuencia. Si está, aumenta su contador en 1. Si no está, la agrega con un contador inicial de 0 y luego le suma 1.
        return frecuencia

In [11]:
# --- Uso de la clase ---
# Creamos un objeto (una instancia) de nuestra clase
procesador = ProcesadorTexto("Python para NLP es genial porque Python es versátil.") #Se llama a la clase ProcesadorTexto como si fuera una función, pasándole la cadena de texto como argumento.

# Ahora podemos usar sus métodos
print(f"Total de palabras: {procesador.contar_palabras()}") #Esta línea llama al método contar_palabras() del objeto procesador usando la notación de punto (.). El método contar_palabras accede a los datos internos de procesador (la lista de palabras limpias) y devuelve la cantidad.
print(f"Palabras únicas: {procesador.contar_palabras_unicas()}") #Similar a la anterior, llama al método contar_palabras_unicas() del objeto procesador para obtener y imprimir el número de palabras sin repetir.
print(f"Frecuencia de palabras: {procesador.calcular_frecuencia()}") #Llama al método calcular_frecuencia() del objeto procesador para obtener y imprimir el diccionario que muestra cuántas veces aparece cada palabra.

✨ Creando un nuevo procesador para el texto: 'Python para NLP es genial porq...'
Total de palabras: 9
Palabras únicas: 7
Frecuencia de palabras: {'python': 2, 'para': 1, 'nlp': 1, 'es': 2, 'genial': 1, 'porque': 1, 'versátil': 1}


## 4. Ejercicio Práctico 1: Expandiendo Nuestra Clase

¡Tu turno! Vamos a agregarle más "poder" a nuestra clase `ProcesadorTexto`.

**Tu objetivo:** Añadí un nuevo método a la clase llamado `calcular_longitud_media()`. Este método debe calcular y devolver la longitud promedio de las palabras en el texto.

**Pista:** Deberás sumar la longitud de todas las palabras y dividirla por el número total de palabras.

In [12]:
# Pega la clase ProcesadorTexto acá y añádile tu nuevo método.

class ProcesadorTexto:
    def __init__(self, texto):
        self.texto_original = texto
        self.texto_limpio = self.texto_original.lower().strip('.,!?')
        self.palabras = self.texto_limpio.split()

    def contar_palabras(self):
        return len(self.palabras)

    def contar_palabras_unicas(self):
        return len(set(self.palabras))

    def calcular_frecuencia(self):
        frecuencia = {}
        for palabra in self.palabras:
            frecuencia[palabra] = frecuencia.get(palabra, 0) + 1
        return frecuencia

    # --- TU CÓDIGO ACÁ ---
    # Añadí el método calcular_longitud_media(self)
    def calcular_longitud_media(self):
        if not self.palabras: # Evitar división por cero si el texto está vacío
            return 0
        total_letras = sum(len(palabra) for palabra in self.palabras)
        return total_letras / len(self.palabras)


# --- Probá tu nuevo método ---
procesador_prueba = ProcesadorTexto("Los modelos de lenguaje son complejos.")
long_media = procesador_prueba.calcular_longitud_media()
print(f"La longitud media de las palabras es: {long_media:.2f}") # :.2f formatea a 2 decimales

La longitud media de las palabras es: 5.33


## 5. Ejercicio Integrador Final: Tu Propia App de Análisis de Texto

Llegó el momento de combinar todo lo que aprendimos. En este desafío final, no solo usarás Python para analizar texto, sino que también construirás una **aplicación web interactiva** con Gradio para mostrar tus resultados al mundo.

**El Objetivo:** Crear una herramienta simple donde un usuario pueda pegar un texto y obtener un análisis básico de PLN al instante.

No te daremos la solución completa. En su lugar, te daremos un mapa, las piezas clave y muchas pistas. Este es tu proyecto

---

### 🧠 Paso 1: El "Cerebro" de la Aplicación (La Función de Análisis)

Primero, necesitamos una función principal que orqueste todo el trabajo. Esta función recibirá el texto del usuario, usará nuestra clase `ProcesadorTexto` para hacer los cálculos y preparará los resultados para ser mostrados.

**Instrucciones:**
1.  Completa el código de la función `analizar_texto(texto)` que te proporcionamos abajo.
2.  Dentro de la función, debes **crear un objeto** de la clase `ProcesadorTexto`.
3.  Usa los **métodos** de ese objeto (`.contar_palabras()`, `.contar_palabras_unicas()`, etc.) para obtener las métricas.
4.  Formatea un `resumen` en un string amigable para el usuario.
5.  La función debe **devolver dos cosas**: el string del resumen y el diccionario de frecuencias.

### 🤖 Tu Compañero de Programación: Usa la IA para Aprender

Como desarrollador/a del presente, tenes acceso a herramientas increíbles. **Te animamos a que uses asistentes de IA como ChatGPT, Gemini, Copilot, etc., como si fueran tu tutor personal.**

No se trata de pedirle la solución completa, sino de hacerle preguntas inteligentes para resolver los "TODO" del código. Algunos ejemplos de prompts que podrías usar:

* *"Tengo una clase en Python llamada `ProcesadorTexto` que se inicializa con un texto ¿Cómo creo un objeto o instancia de esa clase?"*
* *"En Python ¿cómo puedo devolver dos variables (un string y un diccionario) desde una función?"*
* *"Tengo un diccionario de frecuencias de palabras en Python ¿Cómo encuentro la clave (la palabra) que tiene el valor más alto (la mayor frecuencia)?"*
* *"Explícame qué hace el componente `gr.JSON` en la librería Gradio."*
* *"Mi código de Gradio no funciona. ¿Podes ayudarme a depurarlo? Acá está mi función y mi `gr.Interface`..."*

¡Experimenta! Preguntar es la mejor forma de aprender.

---

In [13]:
# Asegúrate de que Gradio esté instalado
!pip install gradio -q
import gradio as gr

In [14]:
# --- Pieza Clave: La Clase que ya construimos ---
# La necesitas para que tu función de análisis pueda usarla.
class ProcesadorTexto:
    def __init__(self, texto):
        self.texto_original = texto
        self.texto_limpio = self.texto_original.lower().strip('.,!?')
        self.palabras = self.texto_limpio.split()
    def contar_palabras(self):
        return len(self.palabras)
    def contar_palabras_unicas(self):
        return len(set(self.palabras))
    def calcular_frecuencia(self):
        frecuencia = {}
        for palabra in self.palabras:
            frecuencia[palabra] = frecuencia.get(palabra, 0) + 1
        return frecuencia

In [15]:
# --- PASO 1: Completa la función "Cerebro" ---
def analizar_texto(texto):
    """
    Esta función es el núcleo de nuestra app.
    Recibe un texto, lo procesa con nuestra clase y devuelve los resultados.
    """
    # Condición de seguridad por si el usuario no escribe nada.
    if not texto.strip():
        return "Por favor, ingresa algo de texto para analizar.", {}

    # TODO 1: Crea una instancia de la clase ProcesadorTexto
    # Pista: procesador = ProcesadorTexto(texto_ingresado)

    # TODO 2: Usa los métodos del objeto para obtener:
    # - Total de palabras
    # - Palabras únicas
    # - Diccionario de frecuencias

    # TODO 3: (Opcional) Encuentra la palabra más frecuente
    # Pista: puedes usar max(diccionario, key=diccionario.get)

    # TODO 4: Crea un string de resumen con formato
    # Ejemplo de formato esperado:
    """
    --- Resumen del Análisis ---
    Total de Palabras: 25
    Palabras Únicas: 20
    Palabra Más Frecuente: 'python' (3 repeticiones)
    """

    # TODO 5: Devuelve el resumen y el diccionario de frecuencias
    # Pista: return resumen, frecuencia_diccionario

In [16]:
# --- PASO 1: Completa la función "Cerebro" ---
def analizar_texto(texto):
    """
    Esta función es el núcleo de nuestra app.
    Recibe un texto, lo procesa con nuestra clase y devuelve los resultados.
    """
    # Condición de seguridad por si el usuario no escribe nada.
    if not texto.strip():
        return "Por favor, ingresa algo de texto para analizar.", {}

    # TODO 1: Crea una instancia de la clase ProcesadorTexto
    # Pista: procesador = ProcesadorTexto(texto_ingresado)
    procesador = ProcesadorTexto(texto)

    # TODO 2: Usa los métodos del objeto para obtener:
    # - Total de palabras
    # - Palabras únicas
    # - Diccionario de frecuencias
    total_palabras = procesador.contar_palabras()
    palabras_unicas = procesador.contar_palabras_unicas()
    frecuencias = procesador.calcular_frecuencia()

    # TODO 3: (Opcional) Encuentra la palabra más frecuente
    # Pista: puedes usar max(diccionario, key=diccionario.get)
    if frecuencias:  # Verifica que el diccionario no esté vacío
        palabra_mas_frecuente = max(frecuencias, key=frecuencias.get)
        repeticiones = frecuencias[palabra_mas_frecuente]
    else:
        palabra_mas_frecuente = "N/A"
        repeticiones = 0

    # TODO 4: Crea un string de resumen con formato
    # Ejemplo de formato esperado:
    resumen = (
        f"--- Resumen del Análisis ---\n"
        f"Total de Palabras: {total_palabras}\n"
        f"Palabras Únicas: {palabras_unicas}\n"
        f"Palabra Más Frecuente: '{palabra_mas_frecuente}' ({repeticiones} repeticiones)"
    )
    """
    --- Resumen del Análisis ---
    Total de Palabras: 25
    Palabras Únicas: 20
    Palabra Más Frecuente: 'python' (3 repeticiones)
    """

    # TODO 5: Devuelve el resumen y el diccionario de frecuencias
    # Pista: return resumen, frecuencia_diccionario
    return resumen, frecuencias

### 🎨 Paso 2: La "Cara" de la Aplicación (La Interfaz de Gradio)

Ahora que tenemos el "cerebro", vamos a conectarlo a una interfaz gráfica. Ya vimos Gradio, así que esta parte te resultará familiar.

**Instrucciones:**
1.  Observa el esqueleto de `gr.Interface` que te damos.
2.  Asegurate de que el parámetro `fn` apunte a tu función `analizar_texto`.
3.  Definí los `inputs` y `outputs` correctamente. Queremos una caja de texto grande para la entrada y dos componentes de salida: uno para el resumen y otro para el diccionario de frecuencias.

---

In [17]:
# --- PASO 2: Configura la Interfaz de Gradio ---
demo = gr.Interface(
    # TODO 6: Apunta 'fn' a tu función de análisis
    fn=analizar_texto,  # Reemplaza con el nombre de tu función

    # Configuración de la entrada
    inputs=gr.Textbox(lines=10, placeholder="Escribí o pega un texto acá para analizarlo..."),

    # TODO 7: Configura las salidas
    # Necesitas dos componentes:
    # 1. Un Textbox para el resumen (gr.Textbox())
    # 2. Un JSON para el diccionario (gr.JSON())
    outputs=[
        gr.Textbox(label="Resumen del Análisis"),
        gr.JSON(label="Frecuencia de Palabras")
    ],

    # Detalles de la interfaz
    title="📊 Analizador de Texto Interactivo",
    description="Creado por VOS con Python y Gradio. Introducí texto y descubrí sus secretos.",
    allow_flagging="never"
)

# TODO 8: Descomenta esta línea cuando tu código esté listo
demo.launch(share=True)  # share=True crea un enlace público temporal



Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://c3fc09503b0f58d65d.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)




---
## Glosario Rápido de la Clase 2

* **Método**: Una función que "pertenece" a un objeto (ej: `mi_texto.strip()`).
* **Clase**: El "plano" o plantilla para crear objetos. Define sus atributos y métodos.
* **Objeto/Instancia**: Una entidad concreta creada a partir de una clase.
* **Atributo**: Una variable que "pertenece" a un objeto (ej: `procesador.palabras`).
* **`self`**: Palabra clave dentro de una clase que se refiere a la instancia actual del objeto.
* **POO (Programación Orientada a Objetos)**: Un estilo de programación basado en la idea de agrupar datos y funciones en objetos.
---