In [3]:
# Importamos librerías de NLTK
import nltk
from nltk import bigrams
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist

# Descargamos recursos de NLTK (punkt divide textos en subtextos (Tokenizador)
nltk.download('punkt')

# Texto de ejemplo
text = """El niño dijo 'no quiero comerme la sopa'
          Amanda, no quiero romperte el corazón
          Mi jefe siempre repite la frase 'no quiero tener que reptirlo'"""

# Tokenizamos el texto
tokens = word_tokenize(text)

# Convertimos todo el texto en minúsculas
filtered_tokens = [word.lower() for word in tokens]

# Generamos los bigramas
bi_grams = list(bigrams(filtered_tokens))

# Contamos la frecuencia de cada bigrama
bi_gram_freq = FreqDist(bi_grams)

for bg, freq in bi_gram_freq.items():
  if freq >= 2:
    print(f"Bigrama: {bg}, Frecuencia: {freq}")


Bigrama: ("'no", 'quiero'), Frecuencia: 2


[nltk_data] Downloading package punkt to /home/eubgo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [4]:
# Ejercicio (primera opcion):

# De la siguiente lista de textos:
Texto = """Oye ChatBot, necesito por favor hacer una transferencia de mi cuenta principal a mi cuenta secundaria
            Me ayudas por favor a realizar un retiro sin tarjeta?
            Quiero transferir dinero, pero necesito saber mi número de cuenta y no lo tengo a la mano
            Me intentaron robar, y no sé cómo proteger mi cuenta desde la APP
            Dónde puedo consultar mi número de cuenta para que me hagan una transferencia de dinero?
            El cajero no me dejó hacer un retiro sin tarjeta y no sé por qué
            Tengo una tarjeta de crédito, pero me dice que el pago no pasa cuando la pongo en la terminal
            Cómo puedo apagar mi tardeta de crédito para no hacer transacciones?
            ¿A qué hora abre la sucursal para que pueda sacar mi dinero?
            Chat, me puedes ayudar a hacer una transferencia de dinero por favor?
            ¿Cómo y dónde puedo usar los puntos de mi tarjeta de crédito?"""

# 1) Realizar una tokenización de los mismos (Usando NLTK)
tokens = word_tokenize(Texto)

# 2) Lematizarlos utilizando "WordNetLemmatizer" (Investigar cómo utilizarlo con NLTK)
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmas = []
for lemma in tokens:
    lemmatizer.lemmatize(lemma)
    lemmas.append(lemma)
# print(lemmas)


# 3) Generar una lista de tokens llamada "filtered_tokens" en la cuál, solo se deberán
# conservar los tokens lematizados, en letras minúsculas y sólo si son caracteres
# alfabéticos (letras), además, cada token debe contener al menos 2 letras (elimar los de 2 o 1 caracteres)
filtered_tokens = []
for token in lemmas:
    if token.isalpha():
        if len(token) > 2:
            filtered_tokens.append(token.lower())
# print(filtered_tokens)

## 4) Generar la lista de bigramas usando "bigrams"
bi_grams = list(bigrams(filtered_tokens))

# 5) Generar Obtener la frecuencia de los n-gramas usando "FreqDist"
bi_gram_freq = FreqDist(bi_grams)

# 6) Imprimir las tuplas de bigramas y su frecuencia correspondiente
hfreq = 0
hbg = ""
for bg, freq in bi_gram_freq.items():
    print(f"Bigrama: {bg}, Frecuencia: {freq}")
    if freq > hfreq:
        hfreq = freq
        hbg = bg

print("\n---------------\n Bigrama más repetido: ", hbg, " con: ", hfreq, " repeticiones")



Bigrama: ('oye', 'chatbot'), Frecuencia: 1
Bigrama: ('chatbot', 'necesito'), Frecuencia: 1
Bigrama: ('necesito', 'por'), Frecuencia: 1
Bigrama: ('por', 'favor'), Frecuencia: 3
Bigrama: ('favor', 'hacer'), Frecuencia: 1
Bigrama: ('hacer', 'una'), Frecuencia: 2
Bigrama: ('una', 'transferencia'), Frecuencia: 3
Bigrama: ('transferencia', 'cuenta'), Frecuencia: 1
Bigrama: ('cuenta', 'principal'), Frecuencia: 1
Bigrama: ('principal', 'cuenta'), Frecuencia: 1
Bigrama: ('cuenta', 'secundaria'), Frecuencia: 1
Bigrama: ('secundaria', 'ayudas'), Frecuencia: 1
Bigrama: ('ayudas', 'por'), Frecuencia: 1
Bigrama: ('favor', 'realizar'), Frecuencia: 1
Bigrama: ('realizar', 'retiro'), Frecuencia: 1
Bigrama: ('retiro', 'sin'), Frecuencia: 2
Bigrama: ('sin', 'tarjeta'), Frecuencia: 2
Bigrama: ('tarjeta', 'quiero'), Frecuencia: 1
Bigrama: ('quiero', 'transferir'), Frecuencia: 1
Bigrama: ('transferir', 'dinero'), Frecuencia: 1
Bigrama: ('dinero', 'pero'), Frecuencia: 1
Bigrama: ('pero', 'necesito'), Frecuen

[nltk_data] Downloading package wordnet to /home/eubgo/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [5]:
# Ejercicio (alternativa 2):
import nltk
from nltk.tokenize import word_tokenize
from nltk.util import bigrams
from nltk.probability import FreqDist
from nltk.stem import WordNetLemmatizer

# De la siguiente lista de textos:
Texto = """Oye ChatBot, necesito por favor hacer una transferencia de mi cuenta principal a mi cuenta secundaria
            Me ayudas por favor a realizar un retiro sin tarjeta?
            Quiero transferir dinero, pero necesito saber mi número de cuenta y no lo tengo a la mano
            Me intentaron robar, y no sé cómo proteger mi cuenta desde la APP
            Dónde puedo consultar mi número de cuenta para que me hagan una transferencia de dinero?
            El cajero no me dejó hacer un retiro sin tarjeta y no sé por qué
            Tengo una tarjeta de crédito, pero me dice que el pago no pasa cuando la pongo en la terminal
            Cómo puedo apagar mi tardeta de crédito para no hacer transacciones?
            ¿A qué hora abre la sucursal para que pueda sacar mi dinero?
            Chat, me puedes ayudar a hacer una transferencia de dinero por favor?
            ¿Cómo y dónde puedo usar los puntos de mi tarjeta de crédito?"""

# 1) Realizar una tokenización de los mismos (Usando NLTK)
tokens = word_tokenize(Texto)

# 2) Lematizarlos utilizando "WordNetLemmatizer" (Investigar cómo utilizarlo con NLTK)
nltk.download('wordnet')
lemmatizer = WordNetLemmatizer()
lemmas = [lemmatizer.lemmatize(token) for token in tokens]


# 3) Generar una lista de tokens llamada "filtered_tokens" en la cuál, solo se deberán
# conservar los tokens lematizados, en letras minúsculas y sólo si son caracteres
# alfabéticos (letras), además, cada token debe contener al menos 2 letras (elimar los de 2 o 1 caracteres)
filtered_tokens = [token.lower() for token in lemmas if token.isalpha() and len(token) > 2]

## 4) Generar la lista de bigramas usando "bigrams"
bi_grams = list(bigrams(filtered_tokens))

# 5) Generar Obtener la frecuencia de los n-gramas usando "FreqDist"
bi_gram_freq = FreqDist(bi_grams)

# 6) Imprimir las tuplas de bigramas y su frecuencia correspondiente
hfreq = 0
hbg = ""
for bg, freq in bi_gram_freq.items():
    print(f"Bigrama: {bg}, Frecuencia: {freq}")
    if freq > hfreq:
        hfreq = freq
        hbg = bg

print("\n---------------\n Bigrama más repetido: ", hbg, " con: ", hfreq, " repeticiones")



Bigrama: ('oye', 'chatbot'), Frecuencia: 1
Bigrama: ('chatbot', 'necesito'), Frecuencia: 1
Bigrama: ('necesito', 'por'), Frecuencia: 1
Bigrama: ('por', 'favor'), Frecuencia: 3
Bigrama: ('favor', 'hacer'), Frecuencia: 1
Bigrama: ('hacer', 'una'), Frecuencia: 2
Bigrama: ('una', 'transferencia'), Frecuencia: 3
Bigrama: ('transferencia', 'cuenta'), Frecuencia: 1
Bigrama: ('cuenta', 'principal'), Frecuencia: 1
Bigrama: ('principal', 'cuenta'), Frecuencia: 1
Bigrama: ('cuenta', 'secundaria'), Frecuencia: 1
Bigrama: ('secundaria', 'ayudas'), Frecuencia: 1
Bigrama: ('ayudas', 'por'), Frecuencia: 1
Bigrama: ('favor', 'realizar'), Frecuencia: 1
Bigrama: ('realizar', 'retiro'), Frecuencia: 1
Bigrama: ('retiro', 'sin'), Frecuencia: 2
Bigrama: ('sin', 'tarjeta'), Frecuencia: 2
Bigrama: ('tarjeta', 'quiero'), Frecuencia: 1
Bigrama: ('quiero', 'transferir'), Frecuencia: 1
Bigrama: ('transferir', 'dinero'), Frecuencia: 1
Bigrama: ('dinero', 'pero'), Frecuencia: 1
Bigrama: ('pero', 'necesito'), Frecuen

[nltk_data] Downloading package wordnet to /home/eubgo/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
