# Generación de texto con N-gramas

**Paso 1: Cargar el Archivo de Texto Limpio**

In [43]:
# Cargar el texto limpio en una variable
with open('corpus_argentina_limpio.txt', 'r', encoding='utf-8') as file:
    text = file.read()

**Paso 2: Tokenización del Texto**

In [49]:
import re

# Incluir signos de puntuación en la tokenización
tokens = re.findall(r'\b\w+\b|[.!?]', text.lower())
print("Tokens con puntuación:", tokens[-10:])


Tokens con puntuación: ['corazón', 'es', 'un', 'orgullo', 'que', 'no', 'se', 'puede', 'comparar', '.']


**Paso 3: Construcción del Modelo de N-Gramas**

In [50]:
from collections import defaultdict, Counter

n = 3  # Cambia a trigramas

# Crear el modelo de trigramas
model = defaultdict(Counter)

for i in range(len(tokens) - n + 1):
    gram = tuple(tokens[i:i + n - 1])  # Dos primeras palabras como clave
    next_word = tokens[i + n - 1]      # La tercera palabra es el objetivo
    model[gram][next_word] += 1  # Incrementamos la cuenta para el siguiente token


**Paso 4: Generación de Texto Basado en el Modelo**

In [61]:
import random

def generate_text_with_end(model, starting_words, max_words=50):
    result = list(starting_words)
    for _ in range(max_words):
        state = tuple(result[-2:])  # Últimas dos palabras
        if state in model and model[state]:
            next_word = random.choices(list(model[state].keys()), weights=model[state].values())[0]
            result.append(next_word)
            # Finalizar si la palabra generada es un signo de puntuación
            if next_word in ['.', '!', '?']:
                break
        else:
            break
    return ' '.join(result)

# Probar la generación con finalización automática
starting_words = ("la", "selección")
generated_text = generate_text_with_end(model, starting_words, 50)
print("Texto generado:", generated_text)



Texto generado: la selección nos da tantas alegrías y verlos jugar con garra y corazón es un orgullo que no para de decir que comamos más no se me queden con hambre che .


## Análisis de los Textos Generados

**Diversidad léxica**

In [62]:
def lexical_diversity(text):
    words = text.split()
    unique_words = set(words)
    return len(unique_words) / len(words)

def generate_text_fixed_length(model, starting_words, num_words=50):
    result = list(starting_words)
    for _ in range(num_words - len(starting_words)):  # Ajustamos para alcanzar exactamente `num_words`
        state = tuple(result[-2:])  # Últimas dos palabras
        if state in model and model[state]:
            # Elegir la siguiente palabra basada en las probabilidades del modelo
            next_word = random.choices(list(model[state].keys()), weights=model[state].values())[0]
            result.append(next_word)
        else:
            # Si no hay más opciones, reiniciar con un nuevo estado aleatorio
            state = random.choice(list(model.keys()))
            result.extend(state)
    return ' '.join(result[:num_words])  # Limitar la salida exactamente a `num_words`

# Dividir el texto en fragmentos para impresión
def print_in_chunks(text, chunk_size=20):
    words = text.split()
    for i in range(0, len(words), chunk_size):
        print(' '.join(words[i:i + chunk_size]))



# Generar texto de muestra y calcular la diversidad léxica (español)
starting_words = ("la", "selección")
sample_text = generate_text_fixed_length(model, starting_words, 100)  # Genera exactamente 100 palabras
diversity = lexical_diversity(sample_text)

print("Texto generado")
print_in_chunks(sample_text)
print("\nDiversidad léxica:", diversity, "\n")



Texto generado
la selección está jugando cada vez que jugó argentina armamos un asado en casa de los pasageros se salvaron permaneciendo
a bordo hasta que no para de sonar . otro día en el mundo de las birras eh el sol
pegaba fuerte y el diario . en la parrilla el viejo siempre se luce con su asado . está a
full con laburo parece que lo ascendieron . ah mirá vos . y siempre alguno se manda alguna anécdota que
hace reír a todos especialmente cuando el árbitro pitó el final el resultado estaba de nuestro lado . era cheel

Diversidad léxica: 0.71 



**Longitud promedio de las oraciones**

In [71]:
def average_sentence_length(text):
    sentences = text.split('.')
    return sum(len(sentence.split()) for sentence in sentences) / len(sentences)

# Calcular la longitud promedio de las oraciones (español)
avg_sentence_length_es = average_sentence_length(sample_text)
print("Longitud promedio de las oraciones:", avg_sentence_length_es)

Longitud promedio de las oraciones: 13.428571428571429


**Ratio de Repetición**

In [69]:
from collections import Counter

def repetition_ratio(text):
    words = text.split()
    word_counts = Counter(words)
    repeated_words = sum(1 for count in word_counts.values() if count > 1)
    return repeated_words / len(words)

# Ratio de repetición para el texto 
repetition = repetition_ratio(sample_text)
print("Ratio de repetición:", repetition)


Ratio de repetición: 0.13


**Cantidad de Palabras Únicas**

In [70]:
def unique_words_count(text):
    words = text.split()
    unique_words = set(words)
    return len(unique_words)

# Cantidad de palabras únicas en español e inglés
unique_words = unique_words_count(sample_text)
print("Cantidad de palabras únicas:", unique_words)



Cantidad de palabras únicas: 71
