# Trabajo Práctico 3 - Lenguaje

## Conseguir y limpiar un corpus de textos en algún idioma y dominio de interés.

In [1]:
import re

# Función para cargar el archivo de texto
def load_text(filename):
    with open(filename, 'r', encoding='utf-8') as file:
        text = file.read()
    return text

# Función para limpiar el texto
def clean_text(text):
    # Eliminar contenido entre corchetes
    text = re.sub(r'\[.*?\]', '', text)
    
    # Convertir texto a minúsculas
    text = text.lower()
    
    # Eliminar puntuación, excepto puntos finales que delimitan oraciones
    text = re.sub(r'[^\w\s\.]', '', text)
    
    # Opcional: eliminar números si no son relevantes
    text = re.sub(r'\d+', '', text)
    
    # Eliminar espacios adicionales
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Cargar el texto
filename = 'opensubtitles_es.txt'
raw_text = load_text(filename)

# Limpiar el texto
cleaned_text = clean_text(raw_text)

# Guardar el texto limpio
with open('opensubtitles_es_limpio.txt', 'w', encoding='utf-8') as file:
    file.write(cleaned_text)

## Programación del Modelo de N-gramas

**Paso 1: Cargar el Archivo de Texto Limpio**

In [2]:
# Cargar el texto limpio en una variable
with open('opensubtitles_es_limpio.txt', 'r', encoding='utf-8') as file:
    text = file.read()

**Paso 2: Tokenización del Texto**

In [None]:
import re

# Incluir signos de puntuación en la tokenización
tokens = re.findall(r'\b\w+\b|[.!?]', text.lower())
print("Tokens con puntuación:", tokens[:10])

**Paso 3: Construcción del Modelo de N-Gramas**

In [None]:
from collections import defaultdict, Counter

# Crear el modelo de bigramas
model = defaultdict(Counter)

n = 3  # Cambia a trigramas

# Crear el modelo de trigramas
model = defaultdict(Counter)

for i in range(len(tokens) - n + 1):
    gram = tuple(tokens[i:i + n - 1])  # Dos primeras palabras como clave
    next_word = tokens[i + n - 1]      # La tercera palabra es el objetivo
    model[gram][next_word] += 1  # Incrementamos la cuenta para el siguiente token

**Paso 4: Generación de Texto Basado en el Modelo**

In [None]:
import random

def generate_text_with_end(model, starting_words, max_words=50):
    result = list(starting_words)
    for _ in range(max_words):
        state = tuple(result[-2:])  # Últimas dos palabras
        if state in model and model[state]:
            next_word = random.choices(list(model[state].keys()), weights=model[state].values())[0]
            result.append(next_word)
            # Finalizar si la palabra generada es un signo de puntuación
            if next_word in ['.', '!', '?']:
                break
        else:
            break
    return ' '.join(result)

# Probar la generación con finalización automática
starting_words = ("pero", "no")
generated_text = generate_text_with_end(model, starting_words, 50)
print("Texto generado:", generated_text)

NameError: name 'model' is not defined

## Análisis de los Textos Generados

In [None]:
def lexical_diversity(text):
    words = text.split()
    unique_words = set(words)
    return len(unique_words) / len(words)

def generate_text_fixed_length(model, starting_words, num_words=50):
    result = list(starting_words)
    for _ in range(num_words - len(starting_words)):  # Ajustamos para alcanzar exactamente `num_words`
        state = tuple(result[-2:])  # Últimas dos palabras
        if state in model and model[state]:
            # Elegir la siguiente palabra basada en las probabilidades del modelo
            next_word = random.choices(list(model[state].keys()), weights=model[state].values())[0]
            result.append(next_word)
        else:
            # Si no hay más opciones, reiniciar con un nuevo estado aleatorio
            state = random.choice(list(model.keys()))
            result.extend(state)
    return ' '.join(result[:num_words])  # Limitar la salida exactamente a `num_words`

# Dividir el texto en fragmentos para impresión
def print_in_chunks(text, chunk_size=20):
    words = text.split()
    for i in range(0, len(words), chunk_size):
        print(' '.join(words[i:i + chunk_size]))



# Generar texto de muestra y calcular la diversidad léxica
starting_words = ("es", "muy")
sample_text = generate_text_fixed_length(model, starting_words, 100)  # Genera exactamente 100 palabras
diversity = lexical_diversity(sample_text)

print("Texto generado:")
print_in_chunks(sample_text)
print("\nDiversidad léxica:", diversity)

Texto generado:
es muy poslble que alguien intentaba matarme . los corredores de apuestas . te veo en el rodeo . sobre
que todo sea mucho más . supongamos que . . . . . y los cuchillos . quiero que me
deshice de ellos quedara . y me alegro de verles caballeros . ei impacto tuvo la primera persona del reparto
con problemas . será mejor que hables aunque tenga que decir acerca de mí . o . . . .
. . . para ti . srta . está bien . ella estaba otra vez . despejen . listo dale

Diversidad léxica: 0.64


In [None]:
def average_sentence_length(text):
    sentences = text.split('.')
    return sum(len(sentence.split()) for sentence in sentences) / len(sentences)

# Calcular la longitud promedio de las oraciones
avg_sentence_length = average_sentence_length(sample_text)
print("Longitud promedio de las oraciones:", avg_sentence_length)

Longitud promedio de las oraciones: 2.740740740740741
