In [3]:
import pandas as pd
import numpy as np
from nltk.stem import SnowballStemmer
import nltk
import json
import pickle

__Intenciones__ : el sistema de Inteligencia Artificial, lo primero que trata de identificar cuando alguien le escribe es la “intención” de lo que el usuario le ha querido decir. Por ejemplo, si estamos delante de un chatbot para reservar entradas, habremos definido diferentes intenciones propias del negocio como _#ComprarEntrada_ , _#ModificarReserva_ , _#DevoluciónEntrada_.

In [4]:
# la primera vez que se imprtar NTKL se debe ejecuatr la siguiente setencia para descargar recursos que utiliza dicha biblioteca
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\SantaCruz\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\SantaCruz\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

### Funciones para estanadarizar el texto

In [19]:
def normaliza(word):
        # La palabra debe ser en minúsculas
        # elimina tildes 
        # elimina mayúsculas y números
        from unicodedata import normalize, category
        return ''.join([x for x in normalize('NFD', word) if category(x) == 'Ll'])
    
def normalizar_string(cadena):
        #normalizar un cadena (secuencia de palabras)
        result = ""
        # convertir a minúsucla y eliminar espacios en blanco extras
        cadena = cadena.lower().strip()

        for word in cadena.split(" "):
            aux = normaliza(word)
            if len(aux) > 0:
                result = result + ' ' + aux.strip()
            
        return result.strip(' ').strip('\n')
    
def foo(text):
         #eliminar signos de puntuación
        forbidden = {"?", "¿", "¡", "!", " ", ",", ".", ";", ":", "-", "_"}
        return "".join(c for c in text.lower() if c not in forbidden )

### Leer el data set para realizar el pre-procesamiento

In [20]:
import pandas as pd
df = pd.read_csv("dataset.csv")

In [21]:
#visulizar los primeros elementos
df.head()

Unnamed: 0,sentencia,class
0,sería tan amable de poderme comunicar con la p...,__
1,Estoy buscando por favor a de buró de crédito,buro-credito
2,con de contabilidad,contabilidad
3,sería tan amable de comunicarme con la contabi...,contabilidad
4,habla de DUMMY sería tan amable de comunicarme...,contabilidad


In [22]:
#extraer el contenido del data set como una lista de listas,  sin formato Dataframe
X = df.sentencia.values

In [23]:
#imprmir los primeros 5 elementos de la lista
print(X[0:5])

['sería tan amable de poderme comunicar con la persona encargada de solicitar un correo electrónico'
 'Estoy buscando por favor a de buró de crédito' 'con de contabilidad'
 'sería tan amable de comunicarme con la contabilidad por favor '
 'habla de DUMMY sería tan amable de comunicarme a contabilidad']


Transformar la representación de la columna de etiquetas, de  su forma  categórica-texto a categórica-numérica

In [24]:
#convertir clases categoricas 'string' a discretas 'entero'
clases = pd.DataFrame(df['class'].astype('category'))
clases = clases.apply(lambda x: x.cat.codes)
Y = clases.values

In [25]:
Y[0:5]

array([[1],
       [2],
       [3],
       [3],
       [3]], dtype=int8)

### Normalizar texto 

In [26]:
sentencia = normalizar_string(X[0])
print(sentencia)
print(len(sentencia.split(" ")))

seria tan amable de poderme comunicar con la persona encargada de solicitar un correo electronico
15


In [27]:
words = nltk.word_tokenize(sentencia)

In [28]:
words

['seria',
 'tan',
 'amable',
 'de',
 'poderme',
 'comunicar',
 'con',
 'la',
 'persona',
 'encargada',
 'de',
 'solicitar',
 'un',
 'correo',
 'electronico']

###  Eliminar stop words

In [29]:
#load stop words
from nltk.corpus import stopwords
spanish_stopwords = stopwords.words('spanish') #stop words precargas  de la biblioteca nltk
print("Stop words en español: \n",spanish_stopwords[0:15])

Stop words en español: 
 ['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con']


In [30]:
words_ = []

for word in words: # iterate over word_list
    if word in spanish_stopwords:
        print(word)
        #while word in words : words.remove(word) #puede existir más de una incidencia
    else :
        words_.append(word)

de
con
la
de
un


In [31]:
words = words_
del words_

In [32]:
words = list(set(words)) #uniques
print (" Sentencia : ",len(words), "\n ", words)

 Sentencia :  10 
  ['tan', 'amable', 'poderme', 'electronico', 'comunicar', 'encargada', 'persona', 'solicitar', 'seria', 'correo']


### Agregar stop words

In [33]:
'tan' in spanish_stopwords

False

In [34]:
spanish_stopwords.append('tan')
spanish_stopwords[-1]

'tan'

### Stemizar texto 

In [204]:
#stemmer = LancasterStemmer()
stemmer = SnowballStemmer('spanish', ignore_stopwords=True)

ignore_words = ['?']

#stemizar, pasar a minúscula y eliminar duplicadas 
words = [stemmer.stem(w) for w in words if w not in ignore_words]
words = list(set(words))


print(words)
print(len(words))

['solicit', 'person', 'pod', 'tan', 'comunic', 'electron', 'corre', 'seri', 'amabl', 'encarg']
10


### Codificación a nivel de palabras 

In [205]:
#from  numpy  import  array 
#from  numpy  import  argmax 
#from  sklearn . preprocessing  import  LabelEncoder 
#from  sklearn . preprocessing  import  OneHotEncoder

#values =array(words) 
#print(values)

In [206]:
# integer encode 
#label_encoder = LabelEncoder( ) 
#integer_encoded = label_encoder . fit_transform ( values ) 
#print ( integer_encoded ) 

In [207]:
#integer_encoded

In [208]:
# binary encode 
#onehot_encoder   =   OneHotEncoder ( sparse = False ) 
#integer_encoded   =   integer_encoded . reshape ( len ( integer_encoded ) ,   1 ) 
#onehot_encoded   =   onehot_encoder . fit_transform ( integer_encoded.reshape(-1, 1) ) 
#print ( onehot_encoded ) 

In [209]:
# invert first example 
#inverted   =   label_encoder . inverse_transform ( [ argmax ( onehot_encoded [ 0 ,   : ] ) ] ) 
#print ( inverted ) 

### Codificación a nivel de sentencia

In [210]:
dict_modelo_lenguaje = dict({k: v for v, k in enumerate(words)})

In [211]:
dict_modelo_lenguaje

{'solicit': 0,
 'person': 1,
 'pod': 2,
 'tan': 3,
 'comunic': 4,
 'electron': 5,
 'corre': 6,
 'seri': 7,
 'amabl': 8,
 'encarg': 9}

In [212]:
encoding_sentence = [0] * len(words)
for word in words :
    encoding_sentence[dict_modelo_lenguaje[word]] = 1

In [213]:
encoding_sentence

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

### Keras

In [35]:
import copy
X_ = copy.deepcopy(X[0:5])

In [36]:
X_[0:5]

array(['sería tan amable de poderme comunicar con la persona encargada de solicitar un correo electrónico',
       'Estoy buscando por favor a de buró de crédito',
       'con de contabilidad',
       'sería tan amable de comunicarme con la contabilidad por favor ',
       'habla de DUMMY sería tan amable de comunicarme a contabilidad'],
      dtype=object)

In [216]:
from keras.preprocessing.text import Tokenizer

# create the tokenizer
t = Tokenizer()

# fit the tokenizer on the documents
t.fit_on_texts(X)

# summarize what was learned
print("word_counts: ", t.word_counts)

word_counts:  OrderedDict([('sería', 6), ('tan', 8), ('amable', 7), ('de', 77), ('poderme', 1), ('comunicar', 70), ('con', 130), ('la', 35), ('persona', 11), ('encargada', 2), ('solicitar', 7), ('un', 9), ('correo', 2), ('electrónico', 1), ('estoy', 8), ('buscando', 5), ('por', 55), ('favor', 30), ('a', 26), ('buró', 1), ('crédito', 1), ('contabilidad', 3), ('comunicarme', 23), ('habla', 3), ('dummy', 7), ('me', 96), ('podría', 21), ('el', 38), ('contador', 1), ('general', 2), ('gustaría', 2), ('mucho', 1), ('poder', 1), ('contactar', 1), ('que', 14), ('se', 6), ('encarga', 1), ('los', 3), ('arrendamientos', 1), ('puros', 1), ('y', 3), ('financieros', 1), ('es', 5), ('para', 14), ('información', 3), ('cursos', 1), ('qué', 5), ('tal', 3), ('comunicas', 4), ('dirección', 1), ('una', 23), ('licenciamiento', 1), ('informático', 1), ('discúlpame', 1), ('molestia', 3), ('da', 1), ('pena', 2), ('pero', 1), ('puedes', 22), ('disculpa', 9), ('podrías', 11), ('extensión', 9), ('busco', 6), ('sop

In [217]:
print("document_count: ",t.document_count)

document_count:  192


In [218]:
print("word_index: ", t.word_index)

word_index:  {'con': 1, 'me': 2, 'de': 3, 'comunicar': 4, 'por': 5, 'el': 6, 'la': 7, 'favor': 8, 'a': 9, 'comunicarme': 10, 'una': 11, 'puedes': 12, 'podría': 13, 'disculpe': 14, 'puede': 15, 'que': 16, 'para': 17, 'señor': 18, 'referencia': 19, 'persona': 20, 'podrías': 21, 'área': 22, 'hablar': 23, 'referencias': 24, 'recursos': 25, 'humanos': 26, 'un': 27, 'disculpa': 28, 'extensión': 29, 'laboral': 30, 'tan': 31, 'estoy': 32, 'si': 33, 'quiero': 34, 'amable': 35, 'solicitar': 36, 'dummy': 37, 'sistemas': 38, 'sería': 39, 'se': 40, 'busco': 41, 'alguien': 42, 'ustedes': 43, 'soporte': 44, 'buscando': 45, 'es': 46, 'qué': 47, 'podria': 48, 'comunicas': 49, 'encuentra': 50, 'del': 51, 'intentando': 52, 'comunica': 53, 'número': 54, 'quién': 55, 'las': 56, 'laborales': 57, 'al': 58, 'ventas': 59, 'contabilidad': 60, 'habla': 61, 'los': 62, 'y': 63, 'información': 64, 'tal': 65, 'molestia': 66, 'en': 67, 'señorita': 68, 'quisiera': 69, 'tendrán': 70, 'quería': 71, 'necesito': 72, 'deja

In [219]:
print("word_docs: ",t.word_docs)

word_docs:  {'poderme': 1, 'la': 33, 'electrónico': 1, 'persona': 11, 'con': 128, 'encargada': 2, 'sería': 6, 'comunicar': 70, 'de': 67, 'solicitar': 7, 'correo': 2, 'un': 9, 'amable': 7, 'tan': 8, 'buscando': 5, 'favor': 30, 'a': 25, 'crédito': 1, 'por': 54, 'estoy': 8, 'buró': 1, 'contabilidad': 3, 'comunicarme': 23, 'dummy': 7, 'habla': 3, 'me': 93, 'contador': 1, 'podría': 21, 'general': 2, 'el': 38, 'gustaría': 2, 'mucho': 1, 'se': 6, 'financieros': 1, 'que': 12, 'puros': 1, 'y': 3, 'encarga': 1, 'poder': 1, 'arrendamientos': 1, 'los': 3, 'contactar': 1, 'cursos': 1, 'para': 14, 'información': 3, 'es': 5, 'dirección': 1, 'qué': 5, 'comunicas': 4, 'tal': 3, 'una': 23, 'licenciamiento': 1, 'informático': 1, 'discúlpame': 1, 'da': 1, 'pero': 1, 'molestia': 3, 'puedes': 22, 'pena': 2, 'disculpa': 9, 'podrías': 11, 'extensión': 9, 'busco': 6, 'soportes': 1, 'contadora': 1, 'prodrias': 1, 'disculpame': 2, 'encuentra': 4, 'empresa': 2, 'del': 4, 'corporativo': 1, 'en': 3, 'esta': 1, 'est

convertir a matriz 

In [220]:
# integer encode documents
encoded_docs = t.texts_to_matrix(X_, mode='count')
print(encoded_docs)

[[0. 1. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


### Sklearn

In [221]:
X_ = copy.deepcopy(X[0:5])

In [222]:
X[0:5]

array(['sería tan amable de poderme comunicar con la persona encargada de solicitar un correo electrónico',
       'Estoy buscando por favor a de buró de crédito',
       'con de contabilidad',
       'sería tan amable de comunicarme con la contabilidad por favor ',
       'habla de DUMMY sería tan amable de comunicarme a contabilidad'],
      dtype=object)

In [223]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X_ = vectorizer.fit_transform(X_)
print(X_.toarray())

[[1 0 0 1 0 1 0 1 0 2 0 1 1 0 0 0 1 1 1 0 1 1 1 1]
 [0 1 1 0 0 0 0 0 1 2 0 0 0 1 1 0 0 0 0 1 0 0 0 0]
 [0 0 0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [1 0 0 0 1 1 1 0 0 1 0 0 0 0 1 0 1 0 0 1 1 0 1 0]
 [1 0 0 0 1 0 1 0 0 2 1 0 0 0 0 1 0 0 0 0 1 0 1 0]]


In [224]:
print(vectorizer.get_feature_names())

['amable', 'buró', 'buscando', 'comunicar', 'comunicarme', 'con', 'contabilidad', 'correo', 'crédito', 'de', 'dummy', 'electrónico', 'encargada', 'estoy', 'favor', 'habla', 'la', 'persona', 'poderme', 'por', 'sería', 'solicitar', 'tan', 'un']


In [225]:
{k: v for v, k in enumerate(vectorizer.get_feature_names())}

{'amable': 0,
 'buró': 1,
 'buscando': 2,
 'comunicar': 3,
 'comunicarme': 4,
 'con': 5,
 'contabilidad': 6,
 'correo': 7,
 'crédito': 8,
 'de': 9,
 'dummy': 10,
 'electrónico': 11,
 'encargada': 12,
 'estoy': 13,
 'favor': 14,
 'habla': 15,
 'la': 16,
 'persona': 17,
 'poderme': 18,
 'por': 19,
 'sería': 20,
 'solicitar': 21,
 'tan': 22,
 'un': 23}

# Work flow completo 

In [37]:
X[0:5]

array(['sería tan amable de poderme comunicar con la persona encargada de solicitar un correo electrónico',
       'Estoy buscando por favor a de buró de crédito',
       'con de contabilidad',
       'sería tan amable de comunicarme con la contabilidad por favor ',
       'habla de DUMMY sería tan amable de comunicarme a contabilidad'],
      dtype=object)

### Modelo de bolsa de palabras

In [38]:
#Concatenar todas las oraciones
join_sentence = ' '
X_ = join_sentence.join(X)

In [228]:
X_[0:200]

'sería tan amable de poderme comunicar con la persona encargada de solicitar un correo electrónico Estoy buscando por favor a de buró de crédito con de contabilidad sería tan amable de comunicarme con '

In [39]:
#Normalizar el texto
X_ = normalizar_string(X_)

In [44]:
X_[0:200]

'seria tan amable de poderme comunicar con la persona encargada de solicitar un correo electronico estoy buscando por favor a de buro de credito con de contabilidad seria tan amable de comunicarme con '

In [48]:
# Tokenizar
words = nltk.word_tokenize(X_)
len(words)

1263

In [49]:
words[0:5]

['seria', 'tan', 'amable', 'de', 'poderme']

In [50]:
#eliminar palabras vacias

words_ = []
[words_.append(w) for w in words if not w in spanish_stopwords]
words = words_
del words_

len(words)

658

In [52]:
stemmer = SnowballStemmer('spanish', ignore_stopwords=True)
ignore_words = ['?']

#stemizar
words = [stemmer.stem(w) for w in words if w not in ignore_words]
words = list(set(words))
print(words)

['senorit', 'ver', 'ofimat', 'oficin', 'mercadotecni', 'cond', 'sistem', 'ahi', 'pud', 'quier', 'vent', 'habl', 'senor', 'nuev', 'preci', 'contador', 'dan', 'apoy', 'human', 'cominic', 'pen', 'curs', 'comunicam', 'comun', 'tal', 'molesti', 'oig', 'favor', 'corpor', 'jann', 'jovencit', 'xann', 'gustari', 'telecomun', 'comunic', 'trabaj', 'deb', 'vacant', 'compr', 'si', 'labor', 'buzon', 'amabl', 'comercial', 'mesaj', 'intent', 'pued', 'softwar', 'corre', 'proveedor', 'usted', 'arrend', 'ingenier', 'dej', 'product', 'queri', 'seri', 'dam', 'algui', 'localiz', 'ayud', 'pur', 'recurs', 'tesoreri', 'respect', 'are', 'extension', 'gentil', 'mir', 'comuniqu', 'encuentr', 'direccion', 'onda', 'hac', 'solicit', 'llam', 'quis', 'prodri', 'disculp', 'servici', 'da', 'deun', 'graci', 'rh', 'asesor', 'bur', 'general', 'numer', 'voy', 'revis', 'quic', 'mensaj', 'perdon', 'referent', 'conect', 'gerent', 'oye', 'voz', 'trat', 'credit', 'contabil', 'celul', 'encarg', 'informat', 'financier', 'podri', '

In [53]:
len(words)

136

In [55]:
from keras.preprocessing.text import Tokenizer

# create the tokenizer
t = Tokenizer()
t.fit_on_texts(words)

Using TensorFlow backend.


In [56]:
# summarize what was learned
print("word_counts: ", t.word_counts)

word_counts:  OrderedDict([('senorit', 1), ('ver', 1), ('ofimat', 1), ('oficin', 1), ('mercadotecni', 1), ('cond', 1), ('sistem', 1), ('ahi', 1), ('pud', 1), ('quier', 1), ('vent', 1), ('habl', 1), ('senor', 1), ('nuev', 1), ('preci', 1), ('contador', 1), ('dan', 1), ('apoy', 1), ('human', 1), ('cominic', 1), ('pen', 1), ('curs', 1), ('comunicam', 1), ('comun', 1), ('tal', 1), ('molesti', 1), ('oig', 1), ('favor', 1), ('corpor', 1), ('jann', 1), ('jovencit', 1), ('xann', 1), ('gustari', 1), ('telecomun', 1), ('comunic', 1), ('trabaj', 1), ('deb', 1), ('vacant', 1), ('compr', 1), ('si', 1), ('labor', 1), ('buzon', 1), ('amabl', 1), ('comercial', 1), ('mesaj', 1), ('intent', 1), ('pued', 1), ('softwar', 1), ('corre', 1), ('proveedor', 1), ('usted', 1), ('arrend', 1), ('ingenier', 1), ('dej', 1), ('product', 1), ('queri', 1), ('seri', 1), ('dam', 1), ('algui', 1), ('localiz', 1), ('ayud', 1), ('pur', 1), ('recurs', 1), ('tesoreri', 1), ('respect', 1), ('are', 1), ('extension', 1), ('genti

In [57]:
print("document_count: ",t.document_count)

document_count:  136


In [58]:
print("word_index: ", t.word_index)

word_index:  {'senorit': 1, 'ver': 2, 'ofimat': 3, 'oficin': 4, 'mercadotecni': 5, 'cond': 6, 'sistem': 7, 'ahi': 8, 'pud': 9, 'quier': 10, 'vent': 11, 'habl': 12, 'senor': 13, 'nuev': 14, 'preci': 15, 'contador': 16, 'dan': 17, 'apoy': 18, 'human': 19, 'cominic': 20, 'pen': 21, 'curs': 22, 'comunicam': 23, 'comun': 24, 'tal': 25, 'molesti': 26, 'oig': 27, 'favor': 28, 'corpor': 29, 'jann': 30, 'jovencit': 31, 'xann': 32, 'gustari': 33, 'telecomun': 34, 'comunic': 35, 'trabaj': 36, 'deb': 37, 'vacant': 38, 'compr': 39, 'si': 40, 'labor': 41, 'buzon': 42, 'amabl': 43, 'comercial': 44, 'mesaj': 45, 'intent': 46, 'pued': 47, 'softwar': 48, 'corre': 49, 'proveedor': 50, 'usted': 51, 'arrend': 52, 'ingenier': 53, 'dej': 54, 'product': 55, 'queri': 56, 'seri': 57, 'dam': 58, 'algui': 59, 'localiz': 60, 'ayud': 61, 'pur': 62, 'recurs': 63, 'tesoreri': 64, 'respect': 65, 'are': 66, 'extension': 67, 'gentil': 68, 'mir': 69, 'comuniqu': 70, 'encuentr': 71, 'direccion': 72, 'onda': 73, 'hac': 74,

In [59]:
def sentence_clean(sentence):
    sentence = normalizar_string(sentence)
    words = nltk.word_tokenize(sentence)
    words_ = []
    [words_.append(w) for w in words if not w in spanish_stopwords]
    words = words_
    del words_

    #stemizar, pasar a minúscula y eliminar duplicadas 
    words = [stemmer.stem(w) for w in words if w not in ignore_words]
    
    
    return ' '.join(words)

In [60]:
sentence_clean("hola me puedes comunicar con ")

'hol pued comunic'

In [61]:
X[0:1]

array(['sería tan amable de poderme comunicar con la persona encargada de solicitar un correo electrónico'],
      dtype=object)

In [62]:
X_ = [sentence_clean(x) for x in X]

In [63]:
X_[0:16]

['seri amabl pod comunic person encarg solicit corre electron',
 'busc favor bur credit',
 'contabil',
 'seri amabl comunic contabil favor',
 'habl dummy seri amabl comunic contabil',
 'podri comunic contador general favor',
 'gustari pod contact person encarg arrend pur financier',
 'favor informacion curs',
 'tal comun direccion general favor',
 'person licenci informat',
 'disculpam molesti da pen pued comunic',
 'disculp podri comunic extension',
 'busc',
 'comunic extension soport',
 'contador',
 '']

In [64]:
# integer encode documents
#mode = c("binary", "count", "tfidf","freq")
encoded_docs = t.texts_to_matrix(X_, mode='binary')

In [65]:
print(X_[10])
print(encoded_docs[10])
for i,w in enumerate (encoded_docs[10]):
    if w == 1:
        print(i)

disculpam molesti da pen pued comunic
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.
 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
21
26
35
47
81
127


### otra opción 

In [246]:
from sklearn.feature_extraction.text import CountVectorizer

In [247]:
vectorizer = CountVectorizer()
X_v = vectorizer.fit_transform(X_)
print(X_v.toarray())

[[0 0 1 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [248]:
X[10]

'discúlpame la molestia  me da pena  pero me puedes comunicar con una'

In [249]:
X_v.toarray()[10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0], dtype=int64)

In [250]:
for i,w in enumerate (X_v.toarray()[10]):
    if w > 0:
        print(w,': ',i)

1 :  19
1 :  31
1 :  40
1 :  75
1 :  86
1 :  99


In [251]:
{k: v for v, k in enumerate(vectorizer.get_feature_names())}

{'ahi': 0,
 'algui': 1,
 'amabl': 2,
 'apoy': 3,
 'are': 4,
 'arrend': 5,
 'asesor': 6,
 'ayud': 7,
 'bh': 8,
 'bur': 9,
 'busc': 10,
 'buzon': 11,
 'canaliz': 12,
 'celul': 13,
 'coment': 14,
 'comercial': 15,
 'cominic': 16,
 'compr': 17,
 'comun': 18,
 'comunic': 19,
 'comunicam': 20,
 'comuniqu': 21,
 'cond': 22,
 'conect': 23,
 'contabil': 24,
 'contact': 25,
 'contador': 26,
 'corpor': 27,
 'corre': 28,
 'credit': 29,
 'curs': 30,
 'da': 31,
 'dam': 32,
 'dan': 33,
 'deb': 34,
 'dej': 35,
 'departament': 36,
 'deun': 37,
 'direccion': 38,
 'disculp': 39,
 'disculpam': 40,
 'dummy': 41,
 'electron': 42,
 'empres': 43,
 'encarg': 44,
 'encuentr': 45,
 'extension': 46,
 'favor': 47,
 'financier': 48,
 'general': 49,
 'gentil': 50,
 'gerent': 51,
 'graci': 52,
 'gustari': 53,
 'habl': 54,
 'hac': 55,
 'human': 56,
 'iban': 57,
 'informacion': 58,
 'informat': 59,
 'ingenier': 60,
 'intent': 61,
 'jann': 62,
 'jovencit': 63,
 'labor': 64,
 'laboral': 65,
 'licenci': 66,
 'llam': 67,
 

### Guardar modelo

In [253]:

#almacenar modelo de lenguaje
f = open('words.pckl', 'wb')
pickle.dump(words, f)
f.close()


#almacenar las stop_words
f = open('spanish_stopwords.pckl', 'wb')
pickle.dump(spanish_stopwords, f)
f.close()



#almacenar el modelo de BoW
f = open('CountVectorizer.pckl', 'wb')
pickle.dump(vectorizer, f)
f.close()


#almacenar el modelo de BoW
f = open('keras_vec.pckl', 'wb')
pickle.dump(t, f)
f.close()

In [254]:

dataset_final = pd.DataFrame(encoded_docs)

dataset_final = pd.DataFrame(X_v.toarray())

In [255]:
dataset_final['class'] = Y
dataset_final['class_cat'] = df['class']
dataset_final.shape

(192, 138)

In [256]:
# dropping  duplicte values 
dataset_final.drop_duplicates(keep = 'first', inplace = True) #subset ="First Name"
dataset_final.shape

(136, 138)

In [257]:
dataset_final.to_csv("WoF.csv",index = False)

### Consideraciones

- Negación: la gran mayoría de bots no entienden la negación que puede aparecer en cualquier frase por la sencilla razón de que su construcción se basa en keywords. Esto complica e impide que los usuarios puedan utilizar en sus conversaciones frases tan sencillas como “Quiero una pizza campesina, pero sin champiñones”. A esto se suman casos más complejos y que también pueden darse en una conversación. Pensamos en casos como:

    
    - Quiero una pizza barbacoa sin cerdo (solo una parte de la frase es negativa).
    - No queremos bebidas (toda la frase es negativa).
    - No estoy seguro… tomaré una cerveza (no se niega la cuestión principal).


- Coordinación: es uno de los recursos más utilizados en las conversaciones entre humanos. La mayoría de las plataformas no comprenden oraciones en las que los elementos estén conectados con un nexo. Nuestro conocimiento lingüístico es capaz de resolver ese problema:

    - [Quiero una pizza Hawaiana] y [mi mujer quiere una Margarita] (Dos cláusulas principales).
    
    - Quiero una Hawaiana [con [extra de queso] y [cebolla]] (una modificación añadiendo dos ingredientes).
    
    - Pediré [[una Hawaiana [con [extra de queso] y [cebolla]]] y [una Margarita] (dos pizzas y además la primera con dos ingredientes).





- Conexión entre diferentes frases: la mayoría de los chatbots han sido diseñados siguiendo el modelo de árbol de decisión, por lo que un usuario no puede modificar sus peticiones y se ve obligado a volver a empezar el proceso de compra. Como solución nosotros proponemos usar conectores tal y como te explicamos en el siguiente ejemplo:

    - Quiero una margarita con cebolla… Además, con extra de queso (Añades información en la primera frase: añades un ingrediente).
    
    - Quiero una Hawaiana con extra de piña. Aunque la prefiero sin jamón (añade información antes y después).

In [70]:
### N-gramas

from sklearn.feature_extraction.text import CountVectorizer

corpus = ['This is the first document.',
          'This document is the second document.',
          'And this is the third one.',
          'Is this the first document?']

vectorizer2 = CountVectorizer(analyzer='word', ngram_range=(2, 2))
X2 = vectorizer2.fit_transform(corpus)
print(vectorizer2.get_feature_names())

['and this', 'document is', 'first document', 'is the', 'is this', 'second document', 'the first', 'the second', 'the third', 'third one', 'this document', 'this is', 'this the']


### Tf idf

In [72]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X_v = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())

print(X_v.shape)

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
(4, 9)


In [73]:
print(X_v)

  (0, 1)	0.46979138557992045
  (0, 2)	0.5802858236844359
  (0, 6)	0.38408524091481483
  (0, 3)	0.38408524091481483
  (0, 8)	0.38408524091481483
  (1, 5)	0.5386476208856763
  (1, 1)	0.6876235979836938
  (1, 6)	0.281088674033753
  (1, 3)	0.281088674033753
  (1, 8)	0.281088674033753
  (2, 4)	0.511848512707169
  (2, 7)	0.511848512707169
  (2, 0)	0.511848512707169
  (2, 6)	0.267103787642168
  (2, 3)	0.267103787642168
  (2, 8)	0.267103787642168
  (3, 1)	0.46979138557992045
  (3, 2)	0.5802858236844359
  (3, 6)	0.38408524091481483
  (3, 3)	0.38408524091481483
  (3, 8)	0.38408524091481483


In [261]:
X_

['seri amabl pod comunic person encarg solicit corre electron',
 'busc favor bur credit',
 'contabil',
 'seri amabl comunic contabil favor',
 'habl dummy seri amabl comunic contabil',
 'podri comunic contador general favor',
 'gustari pod contact person encarg arrend pur financier',
 'favor informacion curs',
 'tal comun direccion general favor',
 'person licenci informat',
 'disculpam molesti da pen pued comunic',
 'disculp podri comunic extension',
 'busc',
 'comunic extension soport',
 'contador',
 '',
 '',
 '',
 'disculpam prodri comunic',
 'disculpam encuentr',
 'empres dummy disculp busc',
 'corpor dummy',
 'disculp',
 'disculp oficin',
 'favor',
 'disculp podr conect extension',
 'disculp podri comunic senor',
 'disculp pued comunic senor',
 'disculp pued transfer extension senorit',
 'disculp favor',
 'disculp si pued comunic',
 'seri amabl comunic',
 'encuentr ahi',
 'busc',
 'dummy podri comunic',
 'seri amabl comunic',
 'habl dummy intent comunic',
 'habl dummy intent comuni