**MODELO N-GRAMS**


---

Crearemos dos tipos de modelos N-Grams en esta sección: un modelo de caracteres N-Grams y un modelo de palabras N-Gram.

Personajes Modelo N-Grams
En esta sección, se explica cómo crear un modelo N-Gram de caracteres simples. En la siguiente sección, cómo implementar el modelo de palabra N-Gram.

In [1]:
import nltk
import numpy as np
import random
import string

import bs4 as bs
import urllib.request
import re

**1. Obtención y normalización del texto**


Usaremos el artículo de Wikipedia sobre Tenis para crear nuestro corpus. El siguiente script recupera el artículo de Wikipedia y extrae todos los párrafos del texto del artículo. Por último, el texto se convierte a minúsculas para facilitar su procesamiento.

In [2]:
raw_html = urllib.request.urlopen('https://en.wikipedia.org/wiki/Tennis')
raw_html = raw_html.read()

article_html = bs.BeautifulSoup(raw_html, 'lxml')
article_paragraphs = article_html.find_all('p')
article_text=""

for para in article_paragraphs:
    article_text += para.text

article_text = article_text.lower()
article_text = re.sub(r'[^A-Za-z. ]', '', article_text)

**3. Creación de N-grams**
Hemos preprocesado nuestro conjunto de datos y ahora es el momento de crear un modelo de N-Grams. Crearemos un modelo de trigrama de personajes como diccionario ngrams. 

Las claves de este diccionario serán los trigramas de caracteres de nuestro corpus y los valores serán los caracteres que aparecen junto a los trigramas. A continuación, dado que estamos creando N-Gram de tres caracteres, declaramos una variable chars. Después de eso, iteramos a través de todos los caracteres de nuestro corpus, comenzando por el cuarto carácter.

A continuación, dentro del ciclo, extraemos el trigrama filtrando los siguientes tres caracteres. El trigrama se almacena en el seq variable. Luego verificamos si el trigrama existe en el diccionario. Si no existe en el ngrams diccionario agregamos el trigrama al diccionario. Después de eso, asignamos una lista vacía como valor al trigrama. Finalmente, el carácter que existe después del trigrama se agrega como valor a la lista.

In [3]:
ngrams = {}
chars = 4

for i in range(len(article_text)-chars):
    seq = article_text[i:i+chars]
    print(seq)
    if seq not in ngrams.keys():
        ngrams[seq] = []
    ngrams[seq].append(article_text[i+chars])

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
r fo
 for
for 
or t
r th
 the
the 
he y
e ye
 yea
year
ears
ars 
rs  
s  t
  th
 thr
thro
hrou
roug
ough
ugh 
gh .
h . 
 . t
. te
 ten
tenn
enni
nnis
nis 
is h
s hi
 his
hist
isto
stor
tori
oria
rian
ian 
an a
n an
 and
and 
nd j
d jo
 jou
jour
ourn
urna
rnal
nali
alis
list
ist 
st b
t bu
 bud
bud 
ud c
d co
 col
coll
olli
llin
lins
ins 
ns h
s ha
 has
has 
as c
s ca
 cal
call
alle
lled
led 
ed n
d na
 nav
navr
avra
vrat
rati
atil
tilo
ilov
lova
ova 
va a
a ar
 arg
argu
rgua
guab
uabl
ably
bly 
ly t
y th
 the
the 
he g
e gr
 gre
grea
reat
eate
ates
test
est 
st p
t pl
 pla
play
laye
ayer
yer 
er o
r of
 of 
of a
f al
 all
all 
ll t
l ti
 tim
time
ime.
me. 
e. b
. bi
 bil
bill
illi
llie
lie 
ie j
e je
 jea
jean
ean 
an k
n ki
 kin
king
ing 
ng s
g sa
 sai
said
aid 
id a
d ab
 abo
abou
bout
out 
ut n
t na
 nav
navr
avra
vrat
rati
atil
tilo
ilov
lova
ova 
va i
a in
 in 
in  
n  s
  sh
 she
shes
hes 
es t
s th
 the
the 
he g


**3. Generación de texto: caracteres_N-grams**

Intentemos ahora generar texto usando los primeros tres caracteres de nuestro corpus como entrada. Los primeros tres caracteres de nuestro corpus son «diez»

En el script primero almacenamos el primer trigrama, es decir ten en el curr_sequence variable. Generaremos un texto de doscientos caracteres, por lo que inicializamos un ciclo que se repite 200 veces. Durante cada iteración, comprobamos si el curr_sequence o el trigrama está en el ngrams diccionario. Si el trigrama no se encuentra en el ngrams diccionario, simplemente salimos del ciclo.

A continuación, el curr_sequence trigrama se pasa como clave para el ngrams diccionario, que devuelve la lista de posibles caracteres siguientes. De la lista de posibles caracteres siguientes, se elige aleatoriamente un índice, que se pasa al possible_chars list para obtener el siguiente carácter del trigrama actual. A continuación, se añade el siguiente carácter al output variable que contiene la salida final.

Finalmente, el curr_sequence se actualiza con el siguiente trigrama del corpus de texto. Si imprime el output variable que contiene doscientos caracteres generados automáticamente, debería ver algo como esto (es importante mencionar que dado que el siguiente carácter se elige al azar, su salida puede ser diferente):

In [None]:
curr_sequence = article_text[0:chars]
output = curr_sequence
for i in range(200):
    if curr_sequence not in ngrams.keys():
        break
    possible_chars = ngrams[curr_sequence]
    next_char = possible_chars[random.randrange(len(possible_chars))]
    output += next_char
    curr_sequence = output[len(output)-chars:len(output)]

print(output)

tennis court. the set .m high slice rise deline used from the same each player or legal seconds weaving imaged forwarded statest preside of all in the coiled this ceramical found profession which hostines


**MODELO PALABRA N-GRAMS**

---
En el modelo de Words N-Grams, cada palabra del texto se trata como un elemento individual. En esta sección, implementaremos el modelo Words N-Grams y lo usaremos para crear un relleno de texto automático.

El conjunto de datos que vamos a usar es el mismo que usamos en la última sección.

Primero creemos un diccionario que contenga trigramas de palabras como claves y la lista de palabras que aparecen después de los trigramas como valores.



In [4]:
nltk.download('punkt')
ngrams = {}
words = 3

words_tokens = nltk.word_tokenize(article_text)
for i in range(len(words_tokens)-words):
    seq = ' '.join(words_tokens[i:i+words])
    print(seq)
    if  seq not in ngrams.keys():
        ngrams[seq] = []
    ngrams[seq].append(words_tokens[i+words])

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


[1;30;43mStreaming output truncated to the last 5000 lines.[0m
entirely to the
to the front
the front foot.this
front foot.this is
foot.this is sometimes
is sometimes also
sometimes also referred
also referred to
referred to as
to as the
as the square
the square stance
square stance .
stance . one
. one foot
one foot is
foot is positioned
is positioned closer
positioned closer to
closer to the
to the net
the net and
net and ahead
and ahead of
ahead of the
of the other
the other which
other which is
which is behind
is behind and
behind and in
and in line
in line with
line with it
with it .
it . both
. both feet
both feet are
feet are aligned
are aligned at
aligned at a
at a degree
a degree angle
degree angle to
angle to the
to the net
the net .
net . the
. the neutral
the neutral stance
neutral stance is
stance is often
is often taught
often taught early
taught early because
early because it
because it allows
it allows beginners
allows beginners to
beginners to learn
to learn about
le

creamos un modelo de trigrama de palabras. El proceso es similar al que se sigue para utilizar trigramas de caracteres. Sin embargo, en el script anterior, primero convertimos nuestro corpus en palabras.

A continuación, iteramos a través de todas las palabras y luego unimos las tres palabras actuales para formar un trigrama. Después de eso, verificamos si la palabra trigrama existe en el ngrams diccionario. Si el trigrama aún no existe, simplemente lo insertamos en el ngrams diccionario como clave.

Finalmente, adjuntamos la lista de palabras que siguen al trigrama en todo el corpus, como valor en el diccionario.

Ahora si miras el ngrams diccionario, en el explorador de variables, se verá así:

Puede ver los trigramas como claves de diccionario y las palabras correspondientes como valores de diccionario.

In [5]:
curr_sequence=" ".join(words_tokens[0:words])
output = curr_sequence
for i in range(50):
    if curr_sequence not in ngrams.keys():
        break
    possible_words = ngrams[curr_sequence]
    next_word = possible_words[random.randrange(len(possible_words))]
    output += ' ' + next_word
    seq_words = nltk.word_tokenize(output)
    curr_sequence=" ".join(seq_words[len(seq_words)-words:len(seq_words)])

print(output)

tennis is a shot returned to the opponent in midair before the ball is spinning counterclockwise it will curve right from the hitters point of view and curve left if spinning clockwise.some servers are content to use the serve simply to initiate the point however advanced players often try to hit a winning


en el script anterior, inicializamos el curr_sequence variable con el primer trigrama del corpus. El primer trigrama es «el tenis es un». Generaremos 50 palabras usando el primer trigrama como entrada. Para ello, ejecutamos un ciclo for que se ejecuta 50 veces. Durante cada iteración, primero se comprueba si la palabra trigrama existe en el ngrams diccionario. Si no, el bucle se rompe. De lo contrario, la lista de palabras que probablemente seguirán el trigrama se recuperará del ngrams diccionario pasando trigrama como valor. De la lista de palabras posibles, se elige una palabra al azar y se agrega al final de la salida. Finalmente, el curr_sequence La variable se actualiza con el valor del siguiente trigrama del diccionario.