## Clustering de frases no respondidas por el bot

En éste caso se prueba vectorizar las frases y agruparlas con clustering.
Los pasos seguidos son:
- preprocesamiento para tildes
- vectorizar los documentos con la matriz tfidf
- reducir dimensiones con descomposición de valores singulares conservando una alta varianza de los datos
- normalizar la matriz para poder usar la distancia euclidea
- hacer clustering con kmeans

In [1]:
from time import time
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import Normalizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import make_pipeline
from sklearn.cluster import KMeans
from sklearn import metrics
from collections import defaultdict

from nltk.corpus import stopwords
stop_words = set(stopwords.words('spanish'))

Se cargan las frases no respondidas por el bot:

In [2]:
documents = []
with open('./new_intents.txt','rt', encoding='utf8') as f:
    for line in f:
        documents.append(line.rstrip('\n'))
        
documents[:5]

['Otro', 'PIP', 'what do you do', 'Chau', 'la ferreteria abre?']

Agrego un preprocesamiento para sacar tildes y hacer lowercase. Tfidf quita la puntuación.

In [3]:
def preprocessing(doc):
    doc = doc.lower()
    doc = doc.replace('á','a').replace('é','e').replace('í','i').replace('ó','o').replace('ú','u')
    return doc

documents = [preprocessing(doc) for doc in documents]

Se obtiene la matriz de frecuencias pesada:

In [4]:
vectorizer = TfidfVectorizer(lowercase=True, ngram_range=(1, 1), max_df=0.9, min_df=2, stop_words=stop_words )

t0 = time()
X = vectorizer.fit_transform(documents)
print("Matriz tfidf obtenida en %fseg" % (time() - t0))
print("Nro de filas/documentos: %s  \nNro de columnas/tokens %s" % X.toarray().shape)

Matriz tfidf obtenida en 0.008625seg
Nro de filas/documentos: 216  
Nro de columnas/tokens 90


Un ejemplo de como esta funcionando el vectorizador:

In [5]:
analyze = vectorizer.build_analyzer()
analyze("Este es un doCumento nuevo?. mamá")

['documento', 'nuevo', 'mamá']

In [6]:
# tokens considerados:
# vectorizer.get_feature_names()

In [7]:
t0 = time()
svd = TruncatedSVD(n_components=50, algorithm='randomized', n_iter=5, random_state=12)
normalizer = Normalizer(copy=False) # kmeans de sklearn no tiene dist coseno
lsa = make_pipeline(svd, normalizer)

X1 = lsa.fit_transform(X)
print("Reduccion con LSA obtenida en %fseg" % (time() - t0))
print("Nro de filas/documentos: %s  \nNro de columnas/features %s" % X1.shape)

Reduccion con LSA obtenida en 0.040613seg
Nro de filas/documentos: 216  
Nro de columnas/features 50


In [8]:
explained_variance = svd.explained_variance_ratio_.sum()
print("Varianza explicada por SVD: {}%".format(int(explained_variance * 100)))

Varianza explicada por SVD: 84%


In [9]:
km_clust = KMeans(n_clusters=30, init='k-means++', n_init=5, max_iter=200, verbose=False, random_state=12)
km_clust.fit(X1)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=200,
       n_clusters=30, n_init=5, n_jobs=None, precompute_distances='auto',
       random_state=12, tol=0.0001, verbose=False)

In [10]:
labels = km_clust.labels_

clusterer = zip(documents,labels)
clusters = defaultdict(lambda: [])
for tup in clusterer:
    clusters[tup[1]].append(tup[0])
    
for k,v in clusters.items():
    print('Cluster {}: \n {}'.format(k,v), end='\n\n')

Cluster 1: 
 ['otro', 'pip', 'chau', 'la ferreteria abre?', 'cual es el mejor tapabocas', 'comoy', 'medidas preventivas', 'horarios de atencion en hospitales', 'que telefono utiles hay', 'asshole', 'donde pido autorizacion para salir?', 'y el kiosko?', 'no, es cierto esta enfermedad', 'queres el cocido?', 'dolar', 'contagio', 'medidas de higiene', 'buena respuesta', 'china', 'hay que usar tapaboca', 'dqle', 'imformacion', 'quiero salir a la calle', 'como evito el contagio', 'como es el lavado correcto de manos', 'sos un maquina?', 'hi', 'como me cudio?', 'porfavor', 'mui ben', 'puto', '¿produce resfrio?', 'como se cura', 'bicicleta', 'ah re que no soy karen.', 'la saliva contaminada penetra en la piel', 'hey', 'cubre nariz boca es necesario', 'remedy for coronacirus', 'niños', 'que es transmision en conglomerados?', '¿es verdad esta enfermedad?', 'diarrea', 'casa', 'quisiera saber el numero de afectados por covid en argentina', 'autorizacion para circular', 'mortal!', 'agregar ante una

Los clusters formados se deben al uso de palabras similares en las frases. Ésto es por como se armó el proceso. Son más claros los temas que está preguntando la gente.

In [1]:
#_autor_: Florencia Alonso