# Ejercicios básicos de NLP: Tokenización y análisis de texto

Ejercicio realizado por:

* Nombre completo del alumno/a 1
* Nombre completo del alumno/a 2

## Instrucciones

Se debe cambiar RRR por una expresión regular y FFF por el nombre de una instrucción o método.

Expresiones regulares con Python:

* <https://www.w3schools.com/python/python_regex.asp>
* <https://realpython.com/regex-python/>

In [10]:
import re # Para trabajar con expresiones regulares
from collections import Counter # Para contar elementos de una colección

## 1. Tokenización

In [None]:
def tokeniza_oraciones(texto):
    """Divide el texto en oraciones."""
    # Ejercicio 1
    # Patrones de fin de oración: punto seguido de espacio y mayúscula
    # Pista: buscar qué significan "lookbehind" y "lookahead"
    return re.split(r'RRR', texto)

def tokeniza_palabras(texto):
    """Divide el texto en palabras."""
    # Ejercicio 2
    # Elimina signos de puntuación
    texto = re.sub(r'RRR', ' ', texto)
    # Ejercicio 3
    # Pasa todo a minúsculas y trocea para obtener las palabras
    return texto.FFF().FFF()

# Ejemplo
texto = "El perro corre rápidamente por el parque. Los niños juegan felices."

print("Oraciones:")
# Ejercicio 4
# Extrae las oraciones
for i, oracion in enumerate(FFF(texto), 1):
    print(f"{i}. {oracion}")

print("\nPalabras:")
# Ejercicio 5
# Extrae las palabras
palabras = FFF(texto)
print(palabras)

Oraciones:
1. El perro corre rápidamente por el parque.
2. Los niños juegan felices.

Palabras:
['el', 'perro', 'corre', 'rápidamente', 'por', 'el', 'parque', 'los', 'niños', 'juegan', 'felices']


## 2. Análisis de texto

In [None]:
def analiza_texto(texto):
    """Realiza un análisis básico del texto."""
    # Tokenización
    oraciones = tokeniza_oraciones(texto)
    palabras = tokeniza_palabras(texto)

    # Análisis
    num_oraciones = len(oraciones)
    num_palabras = len(palabras)
    num_caracteres = len(texto)
    # Ejercicio 6
    palabras_unicas = len(FFF(palabras))
    # Ejercicio 7
    frecuencia_palabras = FFF(palabras)

    # Resultados
    print(f"Número de oraciones: {num_oraciones}")
    print(f"Número de palabras: {num_palabras}")
    print(f"Número de caracteres: {num_caracteres}")
    print(f"Palabras únicas: {palabras_unicas}")
    print("\nPalabras más frecuentes:")
    for palabra, freq in frecuencia_palabras.most_common(5):
        print(f"  {palabra}: {freq}")

# Ejemplo de uso
texto_ejemplo = """
El análisis de texto es una parte fundamental del procesamiento de lenguaje natural. 
Los textos contienen mucha información que podemos extraer. 
El análisis nos permite entender mejor el contenido del texto.
"""

print("Análisis del texto:")
analiza_texto(texto_ejemplo)

Análisis del texto:
Número de oraciones: 3
Número de palabras: 31
Número de caracteres: 211
Palabras únicas: 25

Palabras más frecuentes:
  el: 3
  análisis: 2
  de: 2
  texto: 2
  del: 2


## 3. Búsqueda de patrones

In [None]:
def encuentra_patrones(texto):
    """Encuentra patrones específicos en el texto."""
    # Patrones de ejemplo
    patrones = {
        # Ejercicio 8
        'emails': r'RRR',
        # Ejercicio 9
        'fechas': r'RRR',
        # Ejercicio 10
        'urls': r'RRR',
        # Ejercicio 11
        'hashtags': r'RRR'
    }

    resultados = {}
    for nombre, patron in patrones.items():
        resultados[nombre] = re.findall(patron, texto)

    return resultados

# Ejemplo de uso
texto_patrones = """
Contacto: usuario@ejemplo.com
Fecha: 25/10/2024
Web: https://www.ejemplo.com
Tags: #python #nlp #procesamiento
"""

print("Patrones encontrados:")
patrones = encuentra_patrones(texto_patrones)
for tipo, encontrados in patrones.items():
    if encontrados:
        print(f"\n{tipo.capitalize()}:")
        for item in encontrados:
            print(f"  - {item}")

Patrones encontrados:

Emails:
  - usuario@ejemplo.com

Fechas:
  - 25/10/2024

Urls:
  - https://www.ejemplo.com

Hashtags:
  - #python
  - #nlp
  - #procesamiento


## 4. Estadísticas del texto

In [None]:
def estadisticas_texto(texto):
    """Calcula estadísticas detalladas del texto."""
    oraciones = tokeniza_oraciones(texto)
    palabras_por_oracion = [len(tokeniza_palabras(oracion)) for oracion in oraciones]
    
    stats = {
        # Ejercicio 12
        'longitud_promedio_oracion': FFF(palabras_por_oracion) / FFF(palabras_por_oracion),
        # Ejercicio 13
        'oracion_mas_larga': FFF(palabras_por_oracion),
        # Ejercicio 14
        'oracion_mas_corta': FFF(palabras_por_oracion),
        # Ejercicio 15
        'palabras_totales': FFF(palabras_por_oracion),
        # Ejercicio 16
        'oraciones_totales': FFF(oraciones)
    }
    
    print("Estadísticas del texto:")
    print(f"Promedio de palabras por oración: {stats['longitud_promedio_oracion']:.1f}")
    print(f"Oración más larga: {stats['oracion_mas_larga']} palabras")
    print(f"Oración más corta: {stats['oracion_mas_corta']} palabras")
    print(f"Total de palabras: {stats['palabras_totales']}")
    print(f"Total de oraciones: {stats['oraciones_totales']}")

# Ejemplo de uso
texto_estadisticas = """
Este es un ejemplo de texto para análisis. 
Contiene varias oraciones de diferente longitud y complejidad. 
Algunas son cortas. 
Otras oraciones son más largas y contienen más información para procesar y analizar.
"""

estadisticas_texto(texto_estadisticas)

Estadísticas del texto:
Promedio de palabras por oración: 8.0
Oración más larga: 13 palabras
Oración más corta: 3 palabras
Total de palabras: 32
Total de oraciones: 4
