# Aplicación No supervisado

## Imports

Importamos las librerías que necesitaremos en la ejecución del Notebook.

In [24]:
import sys
sys.path.append("..")
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
from datetime import datetime
import nltk
from nltk.tokenize.toktok import ToktokTokenizer
from nltk.corpus import stopwords
from mgmtfm import clean, embedding
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from sklearn.decomposition import LatentDirichletAllocation as LDA
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import seaborn as sns
from sklearn.cluster import Birch 
from random import randint

pd.set_option('max_rows',9999)
pd.set_option('max_columns', 9999)
pd.set_option('display.max_colwidth', 500)


print("Notebook ejecutado el {}.".format(datetime.now().strftime("%d-%m-%Y")))

Notebook ejecutado el 14-11-2019.


Establecemos los parámetros y los ficheros para cargar los tokens y el *embedding*.  Los parámetros *numer_words* y *number_docs* hacen referencia al número de palabras y documentos que mostraremos posteriormente dependiendo del método.

In [22]:
number_topics = 5
number_words = 15
number_docs = 2
file_tokens = "/data/mgm/data/pandas/tokens_monitored_quit_commons_12112019.pkl"
doc2vec_model = "/data/mgm/data/doc2vec/allcalls_500_w7_mincount2_quit_commons_02112019"


## Carga de datos

In [2]:
clean_steps = clean.Clean()
clean_steps.load_tokens(file_tokens)
tokens = clean_steps.tokens

Found 20422 unique tokens.


In [18]:
embedding_steps = embedding.Embedding(clean_steps.tokens,clean_steps.word_index ,num_words=clean_steps.NUM_WORDS)
embedding_steps.load_embedding(doc2vec_model, type=2)

## LDA

In [6]:
count_vectorizer = CountVectorizer()
count_data = count_vectorizer.fit_transform(tokens["plaintext"].apply(" ".join))      

In [9]:
lda = LDA(n_components=number_topics, n_jobs=-1)
lda = lda.fit(count_data)

In [3]:
def print_topics(model, count_vectorizer, n_top_words):
    words = count_vectorizer.get_feature_names()
    for topic_idx, topic in enumerate(model.components_):
        print("\nTopic #%d:" % topic_idx)
        print(" ".join([words[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))

Mostramos los topics.

In [10]:
print("Topics encontrados por LDA:")
print_topics(lda, count_vectorizer, number_words)

Topics found via LDA:

Topic #0:
factura acuerdo linea mas numero movistar euros pago importe reclamacion indica espera llamada amable caso

Topic #1:
euros linea mas fusion movil llamadas paquete movistar promocion seria tarifa gigas tambien moviles fijo

Topic #2:
numero telefono movistar mas movil acuerdo tecnico linea servicio llamar fijo tardes tambien titular ahi

Topic #3:
cuenta movistar grabar cajero decodificador bancaria ultimos menu comprado grabaciones doy plus compania cliente aca

Topic #4:
linea baja acuerdo movil numero movistar portabilidad servicio titular dar suscripcion caso indica servicios amable


## Doc2Vec + Birch

En este apartado vamos a aplicar un método de clustering sobre los documentos pasados a vectores.

En primer lugar obtenemos una lista con los vectores.

In [19]:
docs = tokens["plaintext"].values.tolist()
doc2vec_docs = [embedding_steps.doc2vec_infer(doc) for doc in docs]

Aplicamos Birch y clasificamos los documentos en clusters.

In [20]:
birch = Birch(branching_factor=50, threshold=0.5, n_clusters=number_topics, compute_labels=True). \
                    fit(doc2vec_docs)

labels = birch.labels_
clusters = {n: tokens[labels==n]["plaintext"].values.tolist() for n in range(number_topics)}

Para cada topic detectado mostramos unos documentos de prueba.

In [25]:

for n in range(number_topics):
    print ("\n\ntopic {}\n".format(n))
    for d in range(number_docs):
        nd = randint(0, len(clusters[n]))
        print("Doc {}({}) : {}\n\n".format(d,nd, " ".join(clusters[n][nd])))



topic 0

Doc 0(808) : tardes ayudarle acuerdo telefono galaxy indiqueme amable asociada telefono movistar telefono liberar movistar numero numero llame movil dimos contamos linea numero numero amable codigo imei terminal mirar perdoneme sabado digito codigo desbloqueo aparece digamelo deberia funcionar dale galaxy young metiendo tarjeta operador poniendo pin codigo deberia funcionar acaso lleva guia empresa pertenecia movil tendria llamarnos movistar numero atencion cliente habian tipo incidencia codigo funciona casos sigue falla empresa propietarios numero movistar codigo desbloquear movil funciona pedir acuerdo abrimos incidencia generen codigo pocos paso codigos quedamos pueden dar incidencia acaso pudiera falla valide pongan contacto miramos nuevo codigo pera aplicacion automaticamente cliente movistar numero movil visto promociones movistar permanencia gusta foco tiempo subo euros meses linea tarifas limitada optica megas pasa compromiso compania compromiso todavia hagamos tipo 

Vemos que si parece a priori que los documentos se encuentran relacionados, algunos de los topics en los que sí podemos ver una temática clara son:

<ul>
    <li> Topic 0: Varios conceptos. Liberar móvil, permanencia...</li>
    <li> Topic 1: Alta fusión, alta línea. </li>
   <li>Topic 2: Cancelación. Este parece más coherente. </li>
    <li>Topic 3: Reclamación.</li>
    <li>Topic 4: Datos sobre factura.</li>
</ul>

