<a href="https://colab.research.google.com/github/fsilvao/ia_public/blob/main/Python_NGram.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [30]:
# Cargar la librería de lenguaje natural
import nltk
nltk.download('punkt')

# Importamos las librerías necesarias
import random  # Librería para generar números aleatorios
import nltk  # Natural Language Toolkit, esencial para procesamiento de lenguaje natural
from nltk.util import ngrams  # Función para generar n-grams
from nltk import FreqDist  # Función para calcular la frecuencia de distribución
from collections import defaultdict  # Diccionario que da un valor predeterminado para claves no existentes
import numpy as np  # Librería para operaciones numéricas

# Definimos una función para obtener los n-grams más frecuentes de un corpus
def obtener_ngrams(corpus, n):
    # Tokenizamos el corpus en palabras
    tokens = nltk.word_tokenize(corpus)
    # Generamos los n-grams a partir de los tokens
    n_grams = ngrams(tokens, n)
    # Calculamos la frecuencia de cada n-gram
    frecuencia = FreqDist(n_grams)
    # Devolvemos los n-grams más frecuentes
    return frecuencia.most_common()

# Creamos un corpus de ejemplo
corpus_ejemplo = "Este es un ejemplo de un corpus para la demostración de n-grams. Este corpus es pequeño pero sirve para ilustrar el concepto."

# Obtenemos los bigrams más frecuentes del corpus de ejemplo
bigrams_frecuentes = obtener_ngrams(corpus_ejemplo, 2)
print("Bigrams más frecuentes:", bigrams_frecuentes)

# La función anterior tokeniza el texto, genera los n-grams y calcula su frecuencia
# Ahora mostramos cómo usar los resultados para algo útil

# Creamos un diccionario para almacenar los bigrams y su frecuencia
bigrams_dict = defaultdict(int)
for bigram, freq in bigrams_frecuentes:
    bigrams_dict[bigram] = freq

# Mostramos el diccionario de bigrams
print("Diccionario de bigrams y sus frecuencias:", bigrams_dict)

# Podemos usar los bigrams para predecir la próxima palabra en una secuencia
# Definimos una función para predecir la siguiente palabra dada una palabra inicial
def predecir_siguiente_palabra(palabra, bigrams_dict):
    posibles_siguientes = {bigram[1]: freq for bigram, freq in bigrams_dict.items() if bigram[0] == palabra}
    if not posibles_siguientes:
        return None
    # Elegimos la palabra con mayor frecuencia
    siguiente_palabra = max(posibles_siguientes, key=posibles_siguientes.get)
    return siguiente_palabra

# Probamos la función de predicción
palabra_inicial = "Este"
siguiente_palabra = predecir_siguiente_palabra(palabra_inicial, bigrams_dict)
print(f"La siguiente palabra más probable después de '{palabra_inicial}' es '{siguiente_palabra}'")

# Este es un ejemplo básico de cómo usar n-grams para modelar texto y predecir palabras
# En aplicaciones más avanzadas, se puede utilizar un corpus más grande y considerar trigrams o incluso n-grams mayores.


Bigrams más frecuentes: [(('Este', 'es'), 1), (('es', 'un'), 1), (('un', 'ejemplo'), 1), (('ejemplo', 'de'), 1), (('de', 'un'), 1), (('un', 'corpus'), 1), (('corpus', 'para'), 1), (('para', 'la'), 1), (('la', 'demostración'), 1), (('demostración', 'de'), 1), (('de', 'n-grams'), 1), (('n-grams', '.'), 1), (('.', 'Este'), 1), (('Este', 'corpus'), 1), (('corpus', 'es'), 1), (('es', 'pequeño'), 1), (('pequeño', 'pero'), 1), (('pero', 'sirve'), 1), (('sirve', 'para'), 1), (('para', 'ilustrar'), 1), (('ilustrar', 'el'), 1), (('el', 'concepto'), 1), (('concepto', '.'), 1)]
Diccionario de bigrams y sus frecuencias: defaultdict(<class 'int'>, {('Este', 'es'): 1, ('es', 'un'): 1, ('un', 'ejemplo'): 1, ('ejemplo', 'de'): 1, ('de', 'un'): 1, ('un', 'corpus'): 1, ('corpus', 'para'): 1, ('para', 'la'): 1, ('la', 'demostración'): 1, ('demostración', 'de'): 1, ('de', 'n-grams'): 1, ('n-grams', '.'): 1, ('.', 'Este'): 1, ('Este', 'corpus'): 1, ('corpus', 'es'): 1, ('es', 'pequeño'): 1, ('pequeño', 'per

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
