# Latent Dirichlet Allocation ##


## Load the dataset

In [1]:
import firebase_admin
import gensim
from firebase_admin import credentials
from firebase_admin import firestore
databaseName='messages'

stopwords=['au', 'aux','bonjour', 'avec','ça', 'ce', 'ces', 'dans','merci','teach','teachr','oui', 'de', 'des', 'du', 'elle', 'en', 'et', 'eux', 'il', 'ils', 'je', 'la', 'le', 'les', 'leur', 'lui', 'ma', 'mais', 'me', 'même', 'mes', 'moi', 'mon', 'ne','néanmoins', 'nos', 'notre', 'nous', 'on', 'ou', 'par', 'pas', 'pour', 'qu', 'que', 'qui', 'sa', 'se', 'ses', 'son', 'sur', 'ta', 'te', 'tes', 'toi', 'ton', 'tu', 'un', 'une', 'vos', 'votre', 'vous', 'c', 'd', 'j', 'l', 'à', 'm', 'n', 's', 't', 'y', 'été', 'étée', 'étées', 'étés', 'étant', 'étante', 'étants', 'étantes', 'suis', 'es', 'est', 'sommes', 'êtes', 'sont', 'serai', 'seras', 'sera', 'serons', 'serez', 'seront', 'serais', 'serait', 'serions', 'seriez', 'seraient', 'étais', 'était', 'étions', 'étiez', 'étaient', 'fus', 'fut', 'fûmes', 'fûtes', 'furent', 'sois', 'soit', 'soyons', 'soyez', 'soient', 'fusse', 'fusses', 'fût', 'fussions', 'fussiez', 'fussent', 'ayant', 'ayante', 'ayantes', 'ayants', 'eu', 'eue', 'eues', 'eus', 'ai', 'as', 'avons', 'avez', 'ont', 'aurai', 'auras', 'aura', 'aurons', 'aurez', 'auront', 'aurais', 'aurait', 'aurions', 'auriez', 'auraient', 'avais', 'avait', 'avions', 'aviez', 'avaient', 'eut', 'eûmes', 'eûtes', 'eurent', 'aie', 'aies', 'ait', 'ayons', 'ayez', 'aient', 'eusse', 'eusses', 'eût', 'eussions', 'eussiez', 'eussent']




In [2]:
#  -------------------------- IMPORT FIREBASE COLLECTION


# Use a service account
cred = credentials.Certificate('service_file.json')
firebase_admin.initialize_app(cred)
db = firestore.client()
collection_ref = db.collection(databaseName)
docs = collection_ref.stream()

In [3]:
# store all docs ids, except the test one
ids_array=[]
for doc in docs:
    if (doc.id !='D***************p'):
        ids_array.append(doc.id)


In [4]:
# store all messages in conversations
conversations_list=[]
for id in ids_array:
    collection_chat = db.collection(databaseName).document(id).collection('chat')
    docs=collection_chat.stream()
    document=[]
    for doc in docs:
        document.append(doc.to_dict()['text'])
    conversations_list.append(document)

In [5]:
introMsg1="Bonjour ! \nje suis à ta disposition pour toute question ou information au sujet de l'appli Teach'r.\n N'hésite pas à me solliciter en cas de besoin, et je ferai le nécessaire pour t'aider\n En cas d'urgence ou si mon temps de réponse est anormalement long, tu peux nous contacter par mail à l'adresse support@teachr.fr\nAu plaisir de t'aider,\nL'équipe Teach'r"
introMsg2="Bonjour !\nje suis à votre disposition pour toute question ou information au sujet de l'appli Teach'r. \nN'hésitez pas à me solliciter en cas de besoin, et je ferai le nécessaire pour vous aider\nEn cas d'urgence ou si mon temps de réponse est anormalement long, veuillez nous contacter par mail à l'adresse support@teachr.fr\n Au plaisir de vous aider,\nL'équipe Teach'r"
introMsg3="Bonjour ! \nJe suis Benjamin du service client Teach'r. Si tu as une question ou que tu recherche une information, je suis là pour ça.\nTu peux retrouver toutes nos questions/réponses en cliquant sur ce lien : www.teachr.fr/faq \nN'hésite pas à me solliciter en cas de besoin, et je ferai le nécessaire pour t'aider\n En cas d'urgence ou si mon temps de réponse est anormalement long, tu peux nous contacter par mail à l'adresse support@teachr.fr\nAu plaisir de t'aider,\nL'équipe Teach'r"
introMsg4="Bonjour !\nJe suis Benjamin du service client Teach'r. Si vous avez une question ou que vous recherchez une information, je suis là pour ça.  \nVous pouvez retrouver toutes nos questions/réponses en cliquant sur ce lien : www.teachr.fr/faq \nN'hésitez pas à me solliciter en cas de besoin, et je ferai le nécessaire pour vous aider\nEn cas d'urgence ou si mon temps de réponse est anormalement long, veuillez nous contacter par mail à l'adresse support@teachr.fr\n Au plaisir de vous aider,\nL'équipe Teach'r"
introMsg5="Bonjour ! \nje suis Benjamin du service client Teach'r. Si tu as une question ou que tu recherche une information, je suis là pour ça.\nTu peux retrouver toutes nos questions/réponses en cliquant sur ce lien : www.teachr.fr/faq \nN'hésite pas à me solliciter en cas de besoin, et je ferai le nécessaire pour t'aider\n En cas d'urgence ou si mon temps de réponse est anormalement long, tu peux nous contacter par mail à l'adresse support@teachr.fr\nAu plaisir de t'aider,\nL'équipe Teach'r"
toExclude=[introMsg1,introMsg2,introMsg3,introMsg4,introMsg5]

filtered_list=[]
for conv in conversations_list:
    filtered_conv=[]
    for msg in conv:
        if msg not in toExclude:
            filtered_conv.append(msg)
    filtered_list.append(filtered_conv)

In [6]:
'''
Loading Gensim and nltk libraries
'''
# pip install gensim
import gensim
from gensim.utils import simple_preprocess
from gensim.parsing.preprocessing import STOPWORDS
from nltk.stem.porter import *
import numpy as np


### Lemmating / Stemming

In [7]:
import nltk
from nltk.stem.snowball import FrenchStemmer
from french_lefff_lemmatizer.french_lefff_lemmatizer import FrenchLefffLemmatizer

lemmatizer=FrenchLefffLemmatizer()
stemmer = FrenchStemmer()

In [8]:
def lem_stem(text):
    return lemmatizer.lemmatize(text,'n')

# Tokenize and lemmatize
def preprocess(text):
    result=[]
    for token in gensim.utils.simple_preprocess(text) :
        if token not in stopwords:
            result.append(lem_stem(token))      
    return result


In [9]:
processed_list = []
for conv in filtered_list:
    for msg in conv:
        processed_list.append(preprocess(msg))


## Bag of words


In [10]:
'''
Create a dictionary from 'processed_docs' containing the number of times a word appears 
'''
dictionary = gensim.corpora.Dictionary(processed_list)


In [11]:
'''
Remove very rare and very common words:

- words appearing less than 2 times
- words appearing in more than 70% of all documents
'''
dictionary.filter_extremes(no_below=2, no_above=0.7, keep_n= 100000)


In [12]:
# '''
# Build a list with tokens and their frequency
# '''
# l=[(dictionary[id],dictionary.cfs[id]) for id in range(len(dictionary))]
# print(l)

### Bag of words ##

[`doc2bow(document)`](https://radimrehurek.com/gensim/corpora/dictionary.html#gensim.corpora.dictionary.Dictionary.doc2bow)

Convert the list into bag-of-words = list of (token_id, token_count)

In [13]:
'''
Create the Bag-of-words model for each document: for each document we create a dictionary reporting how many
words and how many times those words appear.
'''
bow_corpus = [dictionary.doc2bow(doc) for doc in processed_list]


## Step 4: Running LDA using Bag of Words ##

https://radimrehurek.com/gensim/models/ldamulticore.html
number of topics is defined at the begining of the program

In [14]:
'''
Train an lda model using gensim.models.LdaMulticore and save it to 'lda_model'
'''
numberOfTopics = 3
lda_model =  gensim.models.LdaMulticore(bow_corpus, num_topics = numberOfTopics,id2word = dictionary, passes = 20, workers = 2)

In [15]:
'''
For each topic, we will explore the words occuring in that topic and its relative weight
'''
for idx, topic in lda_model.print_topics(-1):
    print("Topic: {} \nWords: {}".format(idx, topic ))
    print("\n")

Topic: 0 
Words: 0.023*"cour" + 0.017*"bien" + 0.016*"si" + 0.015*"ok" + 0.012*"heure" + 0.011*"tout" + 0.010*"bonsoir" + 0.010*"fait" + 0.009*"faire" + 0.009*"plus"


Topic: 1 
Words: 0.037*"cour" + 0.016*"bonne" + 0.013*"si" + 0.012*"demain" + 0.012*"envoyer" + 0.011*"accord" + 0.011*"faire" + 0.011*"disponible" + 0.010*"peux" + 0.010*"journée"


Topic: 2 
Words: 0.050*"réponse" + 0.049*"question" + 0.048*"si" + 0.047*"aider" + 0.047*"cas" + 0.045*"fr" + 0.028*"mail" + 0.025*"information" + 0.025*"adresse" + 0.025*"lien"




## Step 4: Visualization ##

https://towardsdatascience.com/evaluate-topic-model-in-python-latent-dirichlet-allocation-lda-7d57484bb5d0


In [16]:
import pyLDAvis.gensim_models as gensimvis
#import pickle 
import pyLDAvis
# Visualize the topics
pyLDAvis.enable_notebook()
LDAvis_prepared = gensimvis.prepare(lda_model, bow_corpus, dictionary)
LDAvis_prepared