# N-Gramas

En este cuaderno vamos a ver cómo calcular los n-gramas de un texto:

In [1]:
# importamos los módulos necesarios
import nltk
nltk.download('punkt')
from nltk.util import ngrams
from nltk.tokenize import word_tokenize

def calcular_n_gramas(texto, n):
    # Tokenizar el texto en palabras
    palabras = word_tokenize(texto)
    # Generar los n-gramas
    n_gramas = list(ngrams(palabras, n))
    return n_gramas

# Ejemplo de texto
texto_ejemplo = "Este es un ejemplo de texto para calcular n-gramas en Python basándonos en NLTK"

# Definir el valor de n (el tamaño del n-grama)
n = 3

# Calcular los n-gramas del texto
resultado = calcular_n_gramas(texto_ejemplo, n)

# Imprimir los n-gramas resultantes
print(f"{n}-gramas del texto:")
for gram in resultado:
    print(gram)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


3-gramas del texto:
('Este', 'es', 'un')
('es', 'un', 'ejemplo')
('un', 'ejemplo', 'de')
('ejemplo', 'de', 'texto')
('de', 'texto', 'para')
('texto', 'para', 'calcular')
('para', 'calcular', 'n-gramas')
('calcular', 'n-gramas', 'en')
('n-gramas', 'en', 'Python')
('en', 'Python', 'basándonos')
('Python', 'basándonos', 'en')
('basándonos', 'en', 'NLTK')


Podemos aplicar esto a un texto como los libros que veíamos previamente para ver cuáles son los n-gramas que lo definen. Para ello rescato parte de la función de la clase anterior:

In [2]:
nltk.download('stopwords')
from nltk.corpus import stopwords #palabras vacías
import requests #peticiones a una URL
from bs4 import BeautifulSoup #formato a contenido de web

def leo_y_preproceso(url):
  # Descargamos el contenido de la URL
  respuesta = requests.get(url) #hago una llamada a la página
  contenido_respuesta = respuesta.content #accedo al contenido de la página

  # Extraigo el texto dentro del contenido
  contenido_formateado = BeautifulSoup(contenido_respuesta, 'html.parser')
  texto = contenido_formateado.get_text()
  return texto


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [3]:
palabras_Quijote = leo_y_preproceso("https://www.gutenberg.org/cache/epub/2000/pg2000.txt")

Reiterando el proceso anterior:

In [4]:
# Definir el valor de n (el tamaño del n-grama)
n = 3

# Calcular los n-gramas del texto
resultado_quijote = calcular_n_gramas(palabras_Quijote, n)

# Imprimir los n-gramas resultantes
print(f"{n}-gramas del texto:")
contador = 0
for gram in resultado_quijote:
    print(gram)
    contador = contador + 1
    if contador > 20:
      break

3-gramas del texto:
('The', 'Project', 'Gutenberg')
('Project', 'Gutenberg', 'eBook')
('Gutenberg', 'eBook', 'of')
('eBook', 'of', 'Don')
('of', 'Don', 'Quijote')
('Don', 'Quijote', 'This')
('Quijote', 'This', 'ebook')
('This', 'ebook', 'is')
('ebook', 'is', 'for')
('is', 'for', 'the')
('for', 'the', 'use')
('the', 'use', 'of')
('use', 'of', 'anyone')
('of', 'anyone', 'anywhere')
('anyone', 'anywhere', 'in')
('anywhere', 'in', 'the')
('in', 'the', 'United')
('the', 'United', 'States')
('United', 'States', 'and')
('States', 'and', 'most')
('and', 'most', 'other')


Podemos calcular fácilmente las frecuencias de los n-gramas usando un `Counter`:

In [5]:
from collections import Counter
counter_ngramas  = Counter(resultado_quijote)
counter_ngramas.most_common(15)

[((',', 'y', ','), 650),
 ((';', 'y', ','), 583),
 (('don', 'Quijote', ','), 498),
 ((',', 'y', 'que'), 466),
 ((',', 'que', 'no'), 446),
 (('dijo', ':', '—'), 414),
 ((',', 'y', 'no'), 369),
 (('don', 'Quijote—', ','), 302),
 (('y', 'así', ','), 292),
 (('.', 'Y', ','), 284),
 ((',', 'que', ','), 283),
 ((';', 'y', 'así'), 265),
 (('a', 'don', 'Quijote'), 255),
 ((',', 'pues', ','), 221),
 (('—dijo', 'don', 'Quijote—'), 221)]

Si hacemos la prueba con el preprocesado completo:

In [6]:
def leo_y_preproceso(url):
  # Descargamos el contenido de la URL
  respuesta = requests.get(url) #hago una llamada a la página
  contenido_respuesta = respuesta.content #accedo al contenido de la página

  # Extraigo el texto dentro del contenido
  contenido_formateado = BeautifulSoup(contenido_respuesta, 'html.parser')
  texto = contenido_formateado.get_text()
  palabras = word_tokenize(texto) #tokenizo el texto
  palabras = [palabra.lower() for palabra in palabras] #paso las palabras a minúsculas
  palabras = [palabra for palabra in palabras if palabra.isalpha()] #descarto caracteres no alfabéticos
  palabras_vacias = set(stopwords.words('spanish')) #cargo las palabras vacías del español
  palabras = [palabra for palabra in palabras if palabra not in palabras_vacias] #elimino palabras vacías
  return palabras

In [7]:
palabras_Quijote = leo_y_preproceso("https://www.gutenberg.org/cache/epub/2000/pg2000.txt")

In [8]:
  # Definir el valor de n (el tamaño del n-grama)
n = 3

# Calcular los n-gramas del texto
texto_Quijote = ' '.join(palabras_Quijote)
resultado_quijote = calcular_n_gramas(texto_Quijote, n)

from collections import Counter
counter_ngramas  = Counter(resultado_quijote)
counter_ngramas.most_common(15)

[(('don', 'quijote', 'mancha'), 144),
 (('señor', 'don', 'quijote'), 142),
 (('don', 'quijote', 'sancho'), 76),
 (('don', 'quijote', 'dijo'), 60),
 (('señora', 'dulcinea', 'toboso'), 46),
 (('caballero', 'triste', 'figura'), 36),
 (('dijo', 'don', 'quijote'), 33),
 (('merced', 'señor', 'don'), 32),
 (('vuesa', 'merced', 'señor'), 29),
 (('respondió', 'don', 'quijote'), 26),
 (('bachiller', 'sansón', 'carrasco'), 25),
 (('sancho', 'don', 'quijote'), 24),
 (('caballero', 'don', 'quijote'), 23),
 (('don', 'quijote', 'vio'), 22),
 (('valeroso', 'don', 'quijote'), 21)]