In [1]:
import io
import random
import string
import warnings
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import warnings
warnings.filterwarnings('ignore')

import nltk
from nltk.stem import WordNetLemmatizer
nltk.download('popular', quiet=True) # for downloading packages

print("Descargando bibliotecas \'punkt\' y \'wordnet\' que son PLN")

# NOTA!! Descomentar estas dos lineas solo la primera vez!!
nltk.download('punkt')
nltk.download('wordnet')

Descargando bibliotecas 'punkt' y 'wordnet' que son PLN


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [2]:
#Leemos el archivo donde tenemos guardado nuestro "corpus".
with open('data/Comic-OS.txt','r', encoding='utf8', errors ='ignore') as fin:
    raw = fin.read().lower()
#tokenaizer, creamos tokens con los cuales podemos trabajar
sent_tokens = nltk.sent_tokenize(raw)# convierte las listas en oraciones
word_tokens = nltk.word_tokenize(raw)# Ahora en palabras
print("\nUna vez que se lee el archivo se generan los tokens en oraciones:\n")
print(str(sent_tokens)[0:300] + ".....")
print("\nYa procesadas las oraciones se generan los tokens en palabras:\n")
print(str(word_tokens)[0:300] + ".....")


Una vez que se lee el archivo se generan los tokens en oraciones:

['cuando inicio\nen general se considera que la guerra comenzó en europa el 1 de septiembre de 1939\u200b con la invasión alemana de polonia, que provocó la declaración de guerra de reino unido y francia a alemania dos días después.', 'año de termino\nla fecha exacta del fin de la guerra tampoco tie.....

Ya procesadas las oraciones se generan los tokens en palabras:

['cuando', 'inicio', 'en', 'general', 'se', 'considera', 'que', 'la', 'guerra', 'comenzó', 'en', 'europa', 'el', '1', 'de', 'septiembre', 'de', '1939\u200b', 'con', 'la', 'invasión', 'alemana', 'de', 'polonia', ',', 'que', 'provocó', 'la', 'declaración', 'de', 'guerra', 'de', 'reino', 'unido', 'y', .....


In [3]:
#Pre-Procesamiento
lemmer = WordNetLemmatizer()
def LemTokens(tokens):
    return [lemmer.lemmatize(token) for token in tokens]
remove_punct_dict = dict((ord(punct), None) for punct in string.punctuation)
def LemNormalize(text):
    return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))

In [4]:
# Saludos del usuario y respuestas del chat
GREETING_INPUTS = ("hola", "hi", "holi", "hello")
GREETING_RESPONSES = ["hi", "hey", "hola", "que paso", "como estas", "que pedo", "que onda", "que pex", "que tranza"]

def greeting(sentence):
    #Si el usuario saluda, se responde con un saludo
    for word in sentence.split():
        if word.lower() in GREETING_INPUTS:
            return random.choice(GREETING_RESPONSES)

In [5]:
#Generamos la Respuesta
def response(user_response):
    robo_response=''
    sent_tokens.append(user_response)
    TfidfVec = TfidfVectorizer(tokenizer = LemNormalize, stop_words='english')
    tfidf = TfidfVec.fit_transform(sent_tokens)
    print("\nFrecuencias de la base datos por parrafo y token:")
    print(tfidf[0:2], ".....")
    vals = cosine_similarity(tfidf[-1], tfidf)
    print("\nCalcula el parecido mediante el coseno:")
    print(vals)
    idx=vals.argsort()[0][-2]
    print("\nId de oración que más se aproxima:")
    print(idx)
    flat = vals.flatten()
    flat.sort()    
    req_tfidf = flat[-2]
    print("\nValor respuesta:")
    print(req_tfidf)
    print()
    
    if(req_tfidf==0):
        robo_response=robo_response+" Yo solo se de la Segunda Guerra Mundial, si quieres hablar de algo mas vete con otro chatbot =("
        return robo_response
    else:
        robo_response = robo_response+sent_tokens[idx]
        return robo_response

In [6]:
flag=True
print("Algo: Hola! Te interesa saber sobre la segunda guerra mundial? Preguntame!!!")
print("Algo: Si quieres salir e ignormarme =(...solo escribe adios")  
print("      Tambien puedes ser agradecido y darme las gracias por informarte de tan grandioso tema!!")
print("      Escribe 'algo' y despues dale enter")
while(flag==True):
    user_response = input()
    user_response=user_response.lower()
    if(user_response!='adios'):
        if(user_response=='gracias' or user_response=='thank you' or user_response=='un placer hablar contigo' ):
            flag=False
            print("Algo: De nada!! cuando quieras hablar de la Segunda Guerra Mundial sabes como Ejecutarme =D")
        else:
            if(greeting(user_response)!=None):
                print("Algo: "+greeting(user_response))
            else:
                print(end="")
                print("Algo: ", response(user_response))
                sent_tokens.remove(user_response)
    else:
        flag=False
        print("Algo: chao =( no te preocupes, mientras yo me quedare aqui.. hablando solo... solin...solito")

Algo: Hola! Te interesa saber sobre la segunda guerra mundial? Preguntame!!!
Algo: Si quieres salir e ignormarme =(...solo escribe adios
      Tambien puedes ser agradecido y darme las gracias por informarte de tan grandioso tema!!
      Escribe 'algo' y despues dale enter
hitler

Frecuencias de la base datos por parrafo y token:
  (0, 237)	0.15834348750180322
  (0, 265)	0.21543637350495284
  (0, 71)	0.1166311964535698
  (0, 350)	0.19605169128690314
  (0, 773)	0.08431645510740517
  (0, 745)	0.16873051619872897
  (0, 628)	0.15834348750180322
  (0, 224)	0.242757548593127
  (0, 612)	0.242757548593127
  (0, 590)	0.18101576362422953
  (0, 68)	0.242757548593127
  (0, 418)	0.21543637350495284
  (0, 14)	0.242757548593127
  (0, 665)	0.15834348750180322
  (0, 1)	0.18101576362422953
  (0, 276)	0.08431645510740517
  (0, 317)	0.1493458339806793
  (0, 179)	0.19605169128690314
  (0, 379)	0.18940696760866182
  (0, 439)	0.2177043640473245
  (0, 620)	0.17520809802356363
  (0, 194)	0.242757548593127
  (0