Generación de resúmenes.  Implementa  un  método  de  resumen  extractivo  de  posts basado  en  frecuencias  y  evalúa  el  resultado.  

Deberás  realizar  distintas  pruebas  para 
demostrar  que  el  método  es  adecuado  para  el  tipo  de  textos,  realizando  los  ajustes 
necesarios  para  su  correcto  funcionamiento.  

La  función  se  denominará 
post_summarisation(text: str)

### Método de resumen extractivo basado en frecuencias



En caso de que nos centremos en el 'clean_post', conformado por lemmas tokenizados sin posibilidad de legibilidad 

In [None]:
import math

def post_summarisation(text: str):
    pass

Resumen extractivo en 'post' original

In [None]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from string import punctuation


def post_summarisation(text: str, top_n: int = 3) -> str:
    """
    Genera un resumen extractivo de un texto (post) seleccionando las oraciones
    con mayor puntuación basada en la frecuencia de las palabras.
    
    Parámetros
    ----------
    text : str
        El texto completo del cual se desea generar el resumen.
    top_n : int, opcional
        Número de oraciones que se desea incluir en el resumen (por defecto 3).
    
    Retorna
    -------
    str
        Cadenas de oraciones elegidas como resumen (separadas por salto de línea).
    
    Ejemplo
    -------
    >>> texto = \"\"\"Este es un ejemplo de texto. Incluye varias oraciones para
    ... demostrar cómo se realiza el resumen. El resumen debe reflejar
    ... las ideas principales del texto. Este texto habla sobre
    ... la importancia de las frecuencias de palabras en el resumen.\"\"\"
    >>> resumen = post_summarisation(texto, top_n=2)
    >>> print(resumen)
    """
    # 3. Calcular la frecuencia de cada palabra
    freq_table = {}
    for word in text:
        freq_table[word] = freq_table.get(word, 0) + 1

    # 4. Puntuar cada oración en base a la frecuencia de sus palabras
    sentence_scores = {}
    for sentence in sentences:
        # Tokenizar la oración (sin puntuaciones, en minúsculas)
        sentence_words = [w.lower() for w in word_tokenize(sentence) if w not in punctuation]
        
        # Calcular la suma de frecuencias
        score = 0
        for word in sentence_words:
            score += freq_table.get(word, 0)
        
        # Guardar la puntuación (normalizamos por longitud para no favorecer oraciones muy largas)
        # (Opcional) Ajuste: dividir la suma total entre la cantidad de palabras
        if len(sentence_words) > 0:
            sentence_scores[sentence] = score / len(sentence_words)

    # 5. Seleccionar las oraciones con la puntuación más alta
    # Ordenamos el diccionario de oraciones por valor (puntuación), de mayor a menor
    sorted_sentences = sorted(sentence_scores, key=sentence_scores.get, reverse=True)

    # Nos quedamos con las 'top_n' oraciones
    summary_sentences = sorted_sentences[:top_n]

    # 6. (Opcional) Ordenar las oraciones seleccionadas según su aparición en el texto original
    # para que el resumen mantenga cierta coherencia.
    # Lo haremos comparando índices en la lista original 'sentences'.
    summary_sentences_sorted_by_position = sorted(summary_sentences, key=lambda s: sentences.index(s))

    # 7. Unir oraciones en un solo string, separadas por salto de línea o un separador
    summary = "\n".join(summary_sentences_sorted_by_position)
    return summary


# ---------------------------------------------------------
# PRUEBA / DEMO
# ---------------------------------------------------------
if __name__ == "__main__":
    # (Importante: Ejecuta nltk.download('punkt') si no lo has hecho antes)
    # Ejemplo rápido
    sample_text = """Este es un post de ejemplo para demostrar la generación de 
    un resumen extractivo. El resumen debe capturar las ideas principales de 
    un texto. Implementar el método de resumen basado en frecuencias es 
    bastante útil en textos largos, donde se busca extraer las oraciones 
    más relevantes. Esperamos que esta demostración sea clara y concisa."""

    summary_result = post_summarisation(sample_text)
    print("Texto original:\n", sample_text)
    print("\nResumen (top 2 oraciones):\n", summary_result)
