# 1. Setup

In [1]:
%load_ext autoreload

In [3]:
%autoreload 2
import json
import logging
import os
from datetime import datetime
from pathlib import Path

import pandas as pd
import regex as re
import typer
from dateutils import relativedelta
from unidecode import unidecode

from analysis.config import *
from analysis.preprocessing import map_progress, tokenizer_lemma
from analysis.utils import *
from src.custom_logger import get_logger

# Removendo aviso de debug
os.environ["PYDEVD_WARN_SLOW_RESOLVE_TIMEOUT"] = "3000"
# Removendo limitação de print de dfs
# pd.set_option("display.max_rows", 500)
# pd.set_option("display.max_columns", 500)
# pd.set_option("display.width", 1000)

# Caminho da pasta contendo os csvs
data_path = "data/2023/01/19/"
places_file = "data/places.csv"
input_file = "input/hotels_23_01_19.csv"
reports_folder = Path("./reports")
Path(reports_folder).mkdir(exist_ok=True)
data_folder = Path("./data/prep")
Path(data_folder).mkdir(exist_ok=True)


In [4]:
from tqdm import tqdm
tqdm.pandas()

In [5]:
from itertools import chain

join_str = lambda x: "\n".join(list(x)) if x is not None else ""
join_list = lambda x: list(chain.from_iterable(x))

# 2. Prep

In [4]:
%timeit
%autoreload 2
from analysis.prep import read_data
from analysis.prep import prep_complete

df_merge = read_data(input_file, data_path)
df_prep = prep_complete(df_merge)
save_df(df_prep, "data/prep", "df_prep")

drop duplicates
likes
trip_type_travel_group
lattitude and longitude
relative dates


100%|██████████| 270097/270097 [00:57<00:00, 4718.27it/s]
100%|██████████| 270097/270097 [00:22<00:00, 12209.46it/s]


Other ratings


100%|██████████| 270097/270097 [00:11<00:00, 22963.98it/s]


Topics


100%|██████████| 270097/270097 [00:42<00:00, 6330.99it/s]


User


100%|██████████| 270097/270097 [00:02<00:00, 124684.60it/s]


Text


100%|██████████| 270097/270097 [00:10<00:00, 25124.86it/s] 
100%|██████████| 270097/270097 [00:10<00:00, 26811.12it/s] 


tokens


100%|██████████| 270097/270097 [00:18<00:00, 14526.75it/s]
100%|██████████| 270097/270097 [00:18<00:00, 14925.18it/s]


data/prep/df_prep_2023-06-22_20-52-11_175568.pq


In [5]:
%autoreload 2
from analysis.prep import features
import pandas as pd

df_prep = pd.read_parquet("data/prep/df_prep_2023-06-22_20-52-11_175568.pq")
df_prep = df_prep[features]

In [6]:
df_prep.iloc[0]

feature_id                                                    0x0:0xcb0d68682790adde
name                                                                Atlântico Center
retrieval_date_metadata                                   2023-01-19 21:46:33.484494
state                                                                             RJ
region                                                                       SUDESTE
latitude                                                                  -22.898854
longitude                                                                 -43.179802
stars                                                                              0
overall_rating                                                                   2.9
n_reviews                                                                       1397
topic_names                        [tv, VLT, box, ponto, museu do amanhã, tubo, t...
topic_counts                                    [69, 31, 22, 17, 

# 3. Text Prep

In [7]:
df_prep["has_text"] = ~df_prep.text.isna()
df_prep["has_response_text"] = ~df_prep.response_text.isna()

In [8]:
df_prep.text = df_prep.text.fillna("")
df_prep.response_text = df_prep.response_text.fillna("")

In [9]:
df_prep.text.head()

0    Bom preco ,Ótima Localização,atendimento bom ,...
1    Eu ,nunca vi um quarto de hotel tão sujo na mi...
2    Hotel de baixíssima qualidade no atendimento, ...
3    Péssimo atendimento, muito clássico do Rio de ...
4                                                     
Name: text, dtype: object

In [10]:
def basic_cleanning(text):
    # Removing unnecessary spaces
    text = re.sub(r"\s+", r" ", text)
    # Removing dupplicated punctuation
    text = re.sub(r"[.]+" ,r".",text)
    return text

df_prep["text"] = df_prep["text"].progress_apply(basic_cleanning)
df_prep["response_text"] = df_prep["response_text"].progress_apply(basic_cleanning)

100%|██████████| 270097/270097 [00:05<00:00, 50095.66it/s]
100%|██████████| 270097/270097 [00:05<00:00, 51918.09it/s]


In [11]:
import re
from unidecode import unidecode

text = df_prep.text.iloc[0]

print("text_input", text)

def normalize(text):
    text = unidecode(text).lower()
    return text

print("text_out", normalize(text))

text_input Bom preco ,Ótima Localização,atendimento bom ,quarto espaçoso com ar condicionado . Banheiro com toalhas ,chuveiro quebrado só o cano ,café da manhã com poucas opções. Se arrumar o chuveiro e melhorar o café,dá pra cobrar um pouco mais caro a diária.
text_out bom preco ,otima localizacao,atendimento bom ,quarto espacoso com ar condicionado . banheiro com toalhas ,chuveiro quebrado so o cano ,cafe da manha com poucas opcoes. se arrumar o chuveiro e melhorar o cafe,da pra cobrar um pouco mais caro a diaria.


In [12]:
df_prep["text_normalized"] = df_prep["text"].progress_apply(normalize)
df_prep["response_text_normalized"] = df_prep["response_text"].progress_apply(normalize)

100%|██████████| 270097/270097 [00:05<00:00, 47126.11it/s]
100%|██████████| 270097/270097 [00:07<00:00, 36107.85it/s]


In [13]:
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.tokenize import wordpunct_tokenize
from nltk.tokenize import sent_tokenize
# nltk.download("punkt")
# nltk.download("stopwords")
# nltk.download("wordnet")

stopwords = stopwords.words("portuguese")
stm = PorterStemmer()
wnl = WordNetLemmatizer()

def sentence_tokenizer(sentence, reduc="stemmer", min_len=3, stopwords=stopwords):
    words = wordpunct_tokenize(sentence)
    # Removendo pontuação e tornando lowercase
    words = [word.lower() for word in words if word.isalpha()]
    # Removendo stopwords
    words = [word for word in words if word not in stopwords]
    # Selecting and applying reducer
    reduc_f = wnl.lemmatize if reduc == "lemmatizer" else stm.stem
    words = [reduc_f(word) for word in words]
    # Min length cut
    words = [word for word in words if min_len <= len(word)]
    return words

def review_tokenizer(text):
    sentences = text.split(".")
    tokens = [sentence_tokenizer(s) for s in sentences]
    return tokens

text = df_prep.text.iloc[0]
print("text_out", review_tokenizer(text))

text_out [['bom', 'preco', 'ótima', 'localização', 'atendimento', 'bom', 'quarto', 'espaçoso', 'condicionado'], ['banheiro', 'toalha', 'chuveiro', 'quebrado', 'cano', 'café', 'manhã', 'pouca', 'opçõ'], ['arrumar', 'chuveiro', 'melhorar', 'café', 'pra', 'cobrar', 'pouco', 'caro', 'diária'], []]


In [14]:
df_prep.loc[:, "text_tokens"] =              df_prep["text_normalized"].progress_apply(review_tokenizer)
df_prep.loc[:, "text_tokens_len"] =          df_prep["text_tokens"].apply(len)
df_prep.loc[:, "response_text_tokens"] =     df_prep["response_text_normalized"].progress_apply(review_tokenizer)
df_prep.loc[:, "response_text_tokens_len"] = df_prep["response_text_tokens"].apply(len)

100%|██████████| 270097/270097 [00:38<00:00, 6936.83it/s] 
100%|██████████| 270097/270097 [00:48<00:00, 5580.62it/s] 


In [15]:
df_prep.highlights.head()


0    [Bom preço]
1           None
2           None
3    [Bom preço]
4           None
Name: highlights, dtype: object

In [16]:
df_prep.highlights = df_prep.highlights.apply(lambda x: ", ".join(x) if x is not None else "")

In [17]:
df_prep["highlights_normalized"] = df_prep["highlights"].progress_apply(normalize)

100%|██████████| 270097/270097 [00:00<00:00, 649229.02it/s]


In [18]:
df_prep.loc[:, "highlights_tokens"] = df_prep["highlights_normalized"].progress_apply(lambda x: [sentence_tokenizer(x)])

100%|██████████| 270097/270097 [00:01<00:00, 188184.52it/s]


In [19]:
df_prep.highlights.head()

0    Bom preço
1             
2             
3    Bom preço
4             
Name: highlights, dtype: object

In [20]:
df_prep.highlights_tokens.head()

0    [[bom, preco]]
1              [[]]
2              [[]]
3    [[bom, preco]]
4              [[]]
Name: highlights_tokens, dtype: object

# 3. Aggregation

In [21]:
df_prep.columns

Index(['feature_id', 'name', 'retrieval_date_metadata', 'state', 'region',
       'latitude', 'longitude', 'stars', 'overall_rating', 'n_reviews',
       'topic_names', 'topic_counts', 'review_id', 'retrieval_date',
       'review_date', 'response_date', 'rating', 'likes', 'rooms', 'locale',
       'service', 'user_id', 'user_name', 'user_is_local_guide',
       'user_reviews', 'user_photos', 'highlights', 'trip_type_travel_group',
       'text', 'response_text', 'text_is_other_language',
       'response_text_is_other_language', 'text_tokens', 'text_tokens_len',
       'response_text_tokens', 'response_text_tokens_len', 'has_text',
       'has_response_text', 'text_normalized', 'response_text_normalized',
       'highlights_normalized', 'highlights_tokens'],
      dtype='object')

In [22]:
from itertools import chain

join_str = lambda x: "\n".join(list(x)) if x is not None else ""
join_list = lambda x: list(chain.from_iterable(x))

df_hotels = df_prep.groupby("name").agg(
    review_count = ("review_id", "count"),
    other_language_count = ("text_is_other_language", "sum"),
    text_count = ("has_text","sum"),
    text_sum = ("text",join_str),
    text_normalized_sum = ("text_normalized",join_str),
    text_tokens_sum = ("text_tokens", join_list),
    response_text_count =          ("has_response_text","sum"),
    response_text_sum =            ("response_text",join_str),
    response_text_normalized_sum = ("response_text_normalized",join_str),
    response_text_tokens_sum =     ("response_text_tokens", join_list),
    highlights_sum = ("highlights", join_str),
    highlights_tokens_sum = ("highlights_tokens", join_list),
).reset_index()

In [23]:
df_hotels = df_hotels.replace(regex=r"\n+",value=r" \n ").replace(regex=r"[.]+",value=r" . ")

In [25]:
df_hotels.shape

(50, 13)

In [26]:
df_hotels.iloc[0]

name                                                                  Acqua Lokos
review_count                                                                 8542
other_language_count                                                          350
text_count                                                                   3994
text_sum                        O parque tá muito ruim,desde a entrada!Piscina...
text_normalized_sum             o parque ta muito ruim,desde a entrada!piscina...
text_tokens_sum                 [[parqu, ruim, desd, entrada, piscina, area, c...
response_text_count                                                           126
response_text_sum                \n Oie Douglas, muito obrigada pela sua avali...
response_text_normalized_sum     \n oie douglas, muito obrigada pela sua avali...
response_text_tokens_sum        [[], [], [], [], [], [], [], [], [], [], [], [...
highlights_sum                   \n Tranquilo, Ideal para crianças \n Vista li...
highlights_token

In [27]:
df_hotels.iloc[7]

name                                                          Boa Vista Eco Hotel
review_count                                                                 1139
other_language_count                                                           42
text_count                                                                    559
text_sum                        Deixa muito a desejar: serviço fraco, tv não f...
text_normalized_sum             deixa muito a desejar: servico fraco, tv nao f...
text_tokens_sum                 [[deixa, desejar, servico, fraco, nao, funcion...
response_text_count                                                             0
response_text_sum                                                             \n 
response_text_normalized_sum                                                  \n 
response_text_tokens_sum        [[], [], [], [], [], [], [], [], [], [], [], [...
highlights_sum                  Tranquilo \n Vista linda, Ambiente romântico, ...
highlights_token

# 4. Topic Modelling

In [28]:
save_df(df_prep, "data/prep", "df_text_prep")
save_df(df_hotels, "data/prep", "df_hotels")

data/prep/df_text_prep_2023-06-22_20-52-11_175568.pq
data/prep/df_hotels_2023-06-22_20-52-11_175568.pq


In [6]:
df_prep = pd.read_parquet("data/prep/df_text_prep_2023-06-22_20-52-11_175568.pq")
df_hotels = pd.read_parquet("data/prep/df_hotels_2023-06-22_20-52-11_175568.pq")

In [7]:
import numpy as np
text_tokens_flat = df_hotels.text_tokens_sum.apply(join_list)
text_tokens_flat.shape

(50,)

In [8]:
text_tokens_flat.head()

0    [parqu, ruim, desd, entrada, piscina, area, co...
1    [top, maravilhoso, quarto, maravilhoso, segura...
2    [quarto, pequena, bano, muy, incomodo, seguran...
3    [bom, preco, otima, localizacao, atendimento, ...
4    [fiquei, hospedada, gostei, estadia, lugar, tr...
Name: text_tokens_sum, dtype: object

In [9]:
from gensim import corpora

corpus = text_tokens_flat.to_list()
gensim_dictionary = corpora.Dictionary(corpus)

text_tokens_corpus = text_tokens_flat.progress_apply(lambda x:gensim_dictionary.doc2bow(x, allow_update=False))
gensim_corpus = text_tokens_corpus.to_list()

100%|██████████| 50/50 [00:00<00:00, 113.16it/s]


In [10]:
# Treinando modelo
import gensim
from gensim.models import CoherenceModel

lda_model = gensim.models.ldamodel.LdaModel(
    corpus=gensim_corpus, 
    num_topics=20, 
    id2word=gensim_dictionary, 
    passes=20,
    # per_word_topics=True
)

hdp_model = gensim.models.hdpmodel.HdpModel(
    corpus=gensim_corpus, 
    id2word=gensim_dictionary, 
    T=30
)

In [12]:
def perplexity_score(model: gensim.models.ldamodel.LdaModel):
    return model.log_perplexity(gensim_corpus)

print('LDA Perplexity:', perplexity_score(lda_model))

LDA Perplexity: -7.229908376737746


In [55]:
def coherence_score(model):
    coherence_score_model = CoherenceModel(model=model, texts=corpus, dictionary=gensim_dictionary, coherence='u_mass')
    return coherence_score_model.get_coherence()

print('LDA Coherence Score:', coherence_score(lda_model))
print('HDP Coherence Score:', coherence_score(hdp_model))

LDA Coherence Score: -0.05151109182430593
HDP Coherence Score: -11.597771208769716


In [None]:
coherence_score_hdp = CoherenceModel(model=hdp_model, texts=corpus, dictionary=gensim_dictionary, coherence='c_v')
coherence_score = coherence_score_hdp.get_coherence()

print('HDP Coherence Score:', coherence_score(hdp_model))

In [16]:
# inspect the size of a python object in bytes
import joblib
joblib.dump(lda_model, "lda_model.joblib")
# 6mb

['lda_model.joblib']

In [25]:
def train_and_eval(n, alpha, beta):
    lda_model = gensim.models.ldamodel.LdaModel(
        corpus=gensim_corpus, 
        id2word=gensim_dictionary, 
        passes=10,
        chunksize=100,
        # per_word_topics=True,
        num_topics=n, 
        alpha=alpha,
        eta=beta,
    )
    p = perplexity_score(lda_model)
    c = coherence_score(lda_model)
    return {"n":n, "alpha":alpha, "beta":beta, "perplexity":p, "coherence":c}

In [32]:
import itertools
import pyperclip
import random
#list containing various hyperparameters
grid = {
    "s":[4,6,8,10,12,14,16,18,20],
    "alpha":['symmetric',0.3,0.5,0.7],
    "beta":['auto',0.3,0.5,0.7],
}


combinations_list = list(itertools.product(*grid.values()))
random.shuffle(combinations_list)
l = len(combinations_list)
print("len(combinations_list)", l)

# EARLY_STOP_CLIPBOARD_STRING

results = []
for i, params in tqdm(enumerate(combinations_list), total=l):
    results.append(train_and_eval(*params))
    print(results[-1])
    try:
        if pyperclip.paste() == "STOP_CLIPBOARD_STRING":
            print("Early stop via clipboard!")
            break
    except:
        pass

joblib.dump(results, "results/results.joblib")

len(combinations_list) 144


  1%|          | 1/144 [01:04<2:33:14, 64.30s/it]

{'n': 20, 'alpha': 'symmetric', 'beta': 0.5, 'perplexity': -7.150037288845718, 'coherence': 0.31945566271429476}
{'n': 20, 'alpha': 0.7, 'beta': 'auto', 'perplexity': -7.236617394342473, 'coherence': 0.31622345478719105}


  1%|▏         | 2/144 [02:21<2:50:25, 72.01s/it]

{'n': 14, 'alpha': 0.5, 'beta': 0.5, 'perplexity': -7.14748851886416, 'coherence': 0.32906760257808726}


  2%|▏         | 3/144 [03:48<3:05:10, 78.80s/it]

{'n': 4, 'alpha': 0.3, 'beta': 0.7, 'perplexity': -7.1626624785210975, 'coherence': 0.30392991132072833}


  3%|▎         | 4/144 [04:56<2:53:57, 74.55s/it]

{'n': 8, 'alpha': 0.5, 'beta': 0.7, 'perplexity': -7.173403951979117, 'coherence': 0.3091871145924898}


  3%|▎         | 5/144 [06:10<2:52:04, 74.27s/it]

{'n': 20, 'alpha': 'symmetric', 'beta': 0.3, 'perplexity': -7.1187894455867715, 'coherence': 0.309276538497324}


  4%|▍         | 6/144 [07:38<3:01:18, 78.83s/it]

{'n': 4, 'alpha': 0.5, 'beta': 'auto', 'perplexity': -7.0787506959932935, 'coherence': 0.32352433951479953}


  5%|▍         | 7/144 [08:55<2:58:39, 78.24s/it]

{'n': 16, 'alpha': 'symmetric', 'beta': 0.5, 'perplexity': -7.145866088439532, 'coherence': 0.31769880177001486}


  6%|▌         | 8/144 [10:18<3:01:12, 79.95s/it]

{'n': 8, 'alpha': 'symmetric', 'beta': 'auto', 'perplexity': -7.0416922019617605, 'coherence': 0.3162415937236847}


  6%|▋         | 9/144 [11:40<3:01:17, 80.58s/it]

{'n': 6, 'alpha': 0.3, 'beta': 'auto', 'perplexity': -7.048537588139184, 'coherence': 0.3162749721893446}


  7%|▋         | 10/144 [12:54<2:55:31, 78.60s/it]

{'n': 10, 'alpha': 0.3, 'beta': 0.5, 'perplexity': -7.148576789232915, 'coherence': 0.3095565943035946}


  8%|▊         | 11/144 [14:13<2:54:36, 78.77s/it]

{'n': 8, 'alpha': 0.3, 'beta': 'auto', 'perplexity': -7.0432364129937115, 'coherence': 0.319975570182468}


  8%|▊         | 12/144 [15:34<2:54:11, 79.18s/it]

{'n': 4, 'alpha': 0.3, 'beta': 0.5, 'perplexity': -7.13979625253369, 'coherence': 0.31031524472051175}


  9%|▉         | 13/144 [16:51<2:51:55, 78.74s/it]

{'n': 20, 'alpha': 0.5, 'beta': 0.7, 'perplexity': -7.168804996556152, 'coherence': 0.3016777549496955}


 10%|▉         | 14/144 [18:14<2:52:56, 79.82s/it]

{'n': 18, 'alpha': 'symmetric', 'beta': 'auto', 'perplexity': -7.182272915103157, 'coherence': 0.31074763562738333}


 10%|█         | 15/144 [19:34<2:52:16, 80.12s/it]

{'n': 14, 'alpha': 'symmetric', 'beta': 'auto', 'perplexity': -7.110686484394191, 'coherence': 0.3131919702708202}


 11%|█         | 16/144 [21:05<2:57:19, 83.12s/it]

{'n': 12, 'alpha': 0.5, 'beta': 0.3, 'perplexity': -7.127698702785447, 'coherence': 0.30194169360669265}


 12%|█▏        | 17/144 [22:29<2:56:30, 83.39s/it]

{'n': 16, 'alpha': 0.5, 'beta': 0.7, 'perplexity': -7.177245490764631, 'coherence': 0.3203827792222053}


 12%|█▎        | 18/144 [23:51<2:54:29, 83.09s/it]

{'n': 14, 'alpha': 'symmetric', 'beta': 0.5, 'perplexity': -7.139714174704355, 'coherence': 0.3117952077992937}


 13%|█▎        | 19/144 [25:15<2:53:41, 83.38s/it]

{'n': 12, 'alpha': 0.5, 'beta': 0.7, 'perplexity': -7.170426045294907, 'coherence': 0.32477819829641574}


 14%|█▍        | 20/144 [26:35<2:49:55, 82.22s/it]

{'n': 16, 'alpha': 0.7, 'beta': 0.7, 'perplexity': -7.183037714591836, 'coherence': 0.31502276994489786}


 15%|█▍        | 21/144 [27:52<2:45:33, 80.76s/it]

{'n': 8, 'alpha': 0.3, 'beta': 0.7, 'perplexity': -7.161098169633859, 'coherence': 0.35271232186365564}


 15%|█▌        | 22/144 [29:07<2:40:58, 79.17s/it]

{'n': 14, 'alpha': 0.5, 'beta': 0.7, 'perplexity': -7.167157613978096, 'coherence': 0.3298062204374141}


 16%|█▌        | 23/144 [30:38<2:46:34, 82.60s/it]

{'n': 16, 'alpha': 0.3, 'beta': 0.5, 'perplexity': -7.157202715175149, 'coherence': 0.31470361642633404}


 17%|█▋        | 24/144 [32:12<2:52:00, 86.01s/it]

{'n': 8, 'alpha': 0.7, 'beta': 0.5, 'perplexity': -7.135186983605457, 'coherence': 0.30728147989918897}


 17%|█▋        | 25/144 [33:27<2:43:57, 82.66s/it]

{'n': 6, 'alpha': 0.5, 'beta': 0.5, 'perplexity': -7.139556902508951, 'coherence': 0.30952391433815873}


 18%|█▊        | 26/144 [34:40<2:37:05, 79.88s/it]

{'n': 10, 'alpha': 0.3, 'beta': 0.3, 'perplexity': -7.114814689036809, 'coherence': 0.31482187901505415}


 19%|█▉        | 27/144 [36:02<2:37:11, 80.61s/it]

{'n': 14, 'alpha': 'symmetric', 'beta': 0.7, 'perplexity': -7.166176425581211, 'coherence': 0.32008673498235257}


 19%|█▉        | 28/144 [37:26<2:37:20, 81.38s/it]

{'n': 12, 'alpha': 0.5, 'beta': 0.5, 'perplexity': -7.154540165956267, 'coherence': 0.3158571006408663}


 20%|██        | 29/144 [38:49<2:36:49, 81.82s/it]

{'n': 12, 'alpha': 0.3, 'beta': 0.5, 'perplexity': -7.140739154911081, 'coherence': 0.3094676640027383}


 21%|██        | 30/144 [40:09<2:34:42, 81.43s/it]

{'n': 18, 'alpha': 0.3, 'beta': 0.7, 'perplexity': -7.164416993249349, 'coherence': 0.30973602215065354}


 22%|██▏       | 31/144 [41:25<2:30:23, 79.85s/it]

{'n': 16, 'alpha': 0.7, 'beta': 'auto', 'perplexity': -7.156708780328407, 'coherence': 0.33110074032635467}


 22%|██▏       | 32/144 [43:02<2:38:26, 84.88s/it]

{'n': 10, 'alpha': 0.3, 'beta': 'auto', 'perplexity': -7.068012651916131, 'coherence': 0.30510818300474424}


 23%|██▎       | 33/144 [44:24<2:35:36, 84.11s/it]

{'n': 6, 'alpha': 0.5, 'beta': 0.7, 'perplexity': -7.1710173473034695, 'coherence': 0.3091143255093325}


 24%|██▎       | 34/144 [45:38<2:28:43, 81.13s/it]

{'n': 16, 'alpha': 0.5, 'beta': 'auto', 'perplexity': -7.15123226653939, 'coherence': 0.3140106702319284}


 24%|██▍       | 35/144 [46:58<2:26:41, 80.75s/it]

{'n': 6, 'alpha': 0.3, 'beta': 0.7, 'perplexity': -7.169019684439054, 'coherence': 0.3066803120835335}


 25%|██▌       | 36/144 [48:12<2:21:26, 78.57s/it]

{'n': 12, 'alpha': 'symmetric', 'beta': 0.5, 'perplexity': -7.143539225114948, 'coherence': 0.32840250324706044}


 26%|██▌       | 37/144 [49:33<2:21:51, 79.55s/it]

{'n': 20, 'alpha': 0.7, 'beta': 0.3, 'perplexity': -7.138302213651029, 'coherence': 0.3216027584107685}


 26%|██▋       | 38/144 [51:08<2:28:21, 83.97s/it]

{'n': 12, 'alpha': 0.3, 'beta': 0.3, 'perplexity': -7.112700246261544, 'coherence': 0.31029568337993796}


 27%|██▋       | 39/144 [52:36<2:29:24, 85.37s/it]

{'n': 6, 'alpha': 0.7, 'beta': 'auto', 'perplexity': -7.046156074695246, 'coherence': 0.3066270538981896}


 28%|██▊       | 40/144 [53:47<2:20:29, 81.05s/it]

{'n': 12, 'alpha': 0.7, 'beta': 0.3, 'perplexity': -7.117180530085916, 'coherence': 0.3229502139412598}


 28%|██▊       | 41/144 [55:16<2:22:57, 83.28s/it]

{'n': 10, 'alpha': 0.5, 'beta': 0.3, 'perplexity': -7.11664025590453, 'coherence': 0.31135620587961044}


 29%|██▉       | 42/144 [56:35<2:19:24, 82.00s/it]

{'n': 4, 'alpha': 'symmetric', 'beta': 0.7, 'perplexity': -7.169729822109315, 'coherence': 0.3157481060470634}


 30%|██▉       | 43/144 [57:41<2:09:56, 77.20s/it]

{'n': 10, 'alpha': 'symmetric', 'beta': 0.7, 'perplexity': -7.1715986190808, 'coherence': 0.33228943011614936}


 31%|███       | 44/144 [59:01<2:10:05, 78.06s/it]

{'n': 18, 'alpha': 0.7, 'beta': 0.5, 'perplexity': -7.149372795944025, 'coherence': 0.31968622432003824}


 31%|███▏      | 45/144 [1:00:25<2:11:41, 79.82s/it]

{'n': 20, 'alpha': 0.7, 'beta': 0.7, 'perplexity': -7.184808791952023, 'coherence': 0.3012762899022708}


 32%|███▏      | 46/144 [1:01:48<2:11:50, 80.72s/it]

{'n': 12, 'alpha': 'symmetric', 'beta': 0.7, 'perplexity': -7.176454205968807, 'coherence': 0.3117935408871527}


 33%|███▎      | 47/144 [1:03:11<2:11:49, 81.54s/it]

{'n': 20, 'alpha': 'symmetric', 'beta': 'auto', 'perplexity': -7.212253303501434, 'coherence': 0.31689799122193263}


 33%|███▎      | 48/144 [1:04:46<2:16:44, 85.46s/it]

{'n': 20, 'alpha': 0.3, 'beta': 0.3, 'perplexity': -7.110883083824559, 'coherence': 0.3050925462350084}


 34%|███▍      | 49/144 [1:06:05<2:12:23, 83.62s/it]

{'n': 10, 'alpha': 'symmetric', 'beta': 'auto', 'perplexity': -7.084421856288436, 'coherence': 0.3147773826633596}


 35%|███▍      | 50/144 [1:07:27<2:10:15, 83.14s/it]

{'n': 12, 'alpha': 0.3, 'beta': 'auto', 'perplexity': -7.095616016939346, 'coherence': 0.3114565227521809}


 35%|███▌      | 51/144 [1:08:46<2:06:53, 81.87s/it]

{'n': 16, 'alpha': 'symmetric', 'beta': 0.3, 'perplexity': -7.111539280824004, 'coherence': 0.30346709751845985}


 36%|███▌      | 52/144 [1:10:06<2:04:42, 81.33s/it]

{'n': 6, 'alpha': 0.7, 'beta': 0.7, 'perplexity': -7.163845393922037, 'coherence': 0.3652976030959727}


 37%|███▋      | 53/144 [1:11:27<2:03:16, 81.28s/it]

{'n': 18, 'alpha': 0.3, 'beta': 0.5, 'perplexity': -7.158223448661454, 'coherence': 0.321426646170554}


 38%|███▊      | 54/144 [1:12:54<2:04:29, 83.00s/it]

{'n': 20, 'alpha': 0.5, 'beta': 'auto', 'perplexity': -7.20696901532716, 'coherence': 0.3218104464936908}


 38%|███▊      | 55/144 [1:14:26<2:07:03, 85.66s/it]

{'n': 20, 'alpha': 0.3, 'beta': 0.7, 'perplexity': -7.164374687003346, 'coherence': 0.303891512912814}


 39%|███▉      | 56/144 [1:15:49<2:04:37, 84.98s/it]

{'n': 6, 'alpha': 0.3, 'beta': 0.3, 'perplexity': -7.104113866601065, 'coherence': 0.3099821837874755}


 40%|███▉      | 57/144 [1:17:05<1:59:03, 82.10s/it]

{'n': 20, 'alpha': 0.5, 'beta': 0.3, 'perplexity': -7.110798222401953, 'coherence': 0.3027102247373863}


 40%|████      | 58/144 [1:18:29<1:58:42, 82.82s/it]

{'n': 14, 'alpha': 0.7, 'beta': 'auto', 'perplexity': -7.1294207278918895, 'coherence': 0.30896890986129005}


 41%|████      | 59/144 [1:19:50<1:56:29, 82.23s/it]

{'n': 8, 'alpha': 0.7, 'beta': 0.3, 'perplexity': -7.110865379996052, 'coherence': 0.3182437680282455}


 42%|████▏     | 60/144 [1:21:09<1:53:42, 81.22s/it]

{'n': 18, 'alpha': 0.5, 'beta': 0.5, 'perplexity': -7.146741649618492, 'coherence': 0.31543252115015047}


 42%|████▏     | 61/144 [1:22:25<1:50:12, 79.67s/it]

{'n': 8, 'alpha': 0.7, 'beta': 'auto', 'perplexity': -7.045719700391868, 'coherence': 0.3113230758430231}


 43%|████▎     | 62/144 [1:23:29<1:42:21, 74.89s/it]

{'n': 18, 'alpha': 0.5, 'beta': 'auto', 'perplexity': -7.165467321714551, 'coherence': 0.31709258257095174}


 44%|████▍     | 63/144 [1:24:38<1:38:53, 73.26s/it]

{'n': 18, 'alpha': 0.5, 'beta': 0.3, 'perplexity': -7.122460833615398, 'coherence': 0.3142035595139099}


 44%|████▍     | 64/144 [1:25:45<1:34:52, 71.15s/it]

{'n': 8, 'alpha': 'symmetric', 'beta': 0.7, 'perplexity': -7.171783646469137, 'coherence': 0.31083111824528165}


 45%|████▌     | 65/144 [1:26:44<1:29:06, 67.68s/it]

{'n': 18, 'alpha': 0.7, 'beta': 'auto', 'perplexity': -7.15459966536185, 'coherence': 0.32548391846461067}


 46%|████▌     | 66/144 [1:28:01<1:31:26, 70.33s/it]

{'n': 10, 'alpha': 0.7, 'beta': 0.5, 'perplexity': -7.147070048666132, 'coherence': 0.3139642616924975}


 47%|████▋     | 67/144 [1:29:04<1:27:42, 68.34s/it]

{'n': 6, 'alpha': 0.7, 'beta': 0.3, 'perplexity': -7.103715851104368, 'coherence': 0.3101276914842394}


 47%|████▋     | 68/144 [1:30:01<1:22:04, 64.80s/it]

{'n': 14, 'alpha': 0.3, 'beta': 0.5, 'perplexity': -7.147102555707063, 'coherence': 0.3037446834103024}


 48%|████▊     | 69/144 [1:31:02<1:19:34, 63.66s/it]

{'n': 14, 'alpha': 0.7, 'beta': 0.7, 'perplexity': -7.1730870503913415, 'coherence': 0.31640772838339437}


 49%|████▊     | 70/144 [1:32:03<1:17:23, 62.75s/it]

{'n': 4, 'alpha': 'symmetric', 'beta': 0.3, 'perplexity': -7.119059105264885, 'coherence': 0.3155441130741069}


 49%|████▉     | 71/144 [1:32:55<1:12:36, 59.68s/it]

{'n': 14, 'alpha': 0.5, 'beta': 0.3, 'perplexity': -7.126516353804202, 'coherence': 0.30183060291182306}


 50%|█████     | 72/144 [1:33:55<1:11:49, 59.85s/it]

{'n': 8, 'alpha': 'symmetric', 'beta': 0.5, 'perplexity': -7.146768770560985, 'coherence': 0.31384933175878077}


 51%|█████     | 73/144 [1:34:54<1:10:23, 59.48s/it]

{'n': 8, 'alpha': 0.7, 'beta': 0.7, 'perplexity': -7.168303311348088, 'coherence': 0.3532445929759127}


 51%|█████▏    | 74/144 [1:35:57<1:10:40, 60.57s/it]

{'n': 6, 'alpha': 'symmetric', 'beta': 0.7, 'perplexity': -7.1688914541220266, 'coherence': 0.3033699872045047}


 52%|█████▏    | 75/144 [1:36:55<1:08:56, 59.94s/it]

{'n': 6, 'alpha': 'symmetric', 'beta': 'auto', 'perplexity': -7.05338704325991, 'coherence': 0.31033426729331337}


 53%|█████▎    | 76/144 [1:37:52<1:06:52, 59.00s/it]

{'n': 12, 'alpha': 'symmetric', 'beta': 0.3, 'perplexity': -7.108088390683067, 'coherence': 0.3104758513737225}


 53%|█████▎    | 77/144 [1:38:53<1:06:29, 59.55s/it]

{'n': 6, 'alpha': 0.5, 'beta': 0.3, 'perplexity': -7.101534557225402, 'coherence': 0.3213022738246337}


 54%|█████▍    | 78/144 [1:39:52<1:05:10, 59.25s/it]

{'n': 8, 'alpha': 0.5, 'beta': 0.5, 'perplexity': -7.146096949368685, 'coherence': 0.3074680133228438}


 55%|█████▍    | 79/144 [1:40:49<1:03:36, 58.72s/it]

{'n': 8, 'alpha': 0.3, 'beta': 0.3, 'perplexity': -7.11855428934285, 'coherence': 0.3180933684452787}


 56%|█████▌    | 80/144 [1:41:54<1:04:38, 60.61s/it]

{'n': 20, 'alpha': 0.3, 'beta': 0.5, 'perplexity': -7.1551363612094105, 'coherence': 0.30461515570860703}


 56%|█████▋    | 81/144 [1:42:58<1:04:46, 61.69s/it]

{'n': 4, 'alpha': 'symmetric', 'beta': 0.5, 'perplexity': -7.140284872021232, 'coherence': 0.30907941344549944}


 57%|█████▋    | 82/144 [1:43:55<1:02:10, 60.17s/it]

{'n': 18, 'alpha': 'symmetric', 'beta': 0.3, 'perplexity': -7.113693623820766, 'coherence': 0.31053096377870887}


 58%|█████▊    | 83/144 [1:44:56<1:01:23, 60.38s/it]

{'n': 14, 'alpha': 'symmetric', 'beta': 0.3, 'perplexity': -7.115669137612167, 'coherence': 0.31696221482084797}


 58%|█████▊    | 84/144 [1:46:03<1:02:15, 62.25s/it]

{'n': 18, 'alpha': 0.5, 'beta': 0.7, 'perplexity': -7.181746258669811, 'coherence': 0.3005623585853427}


 59%|█████▉    | 85/144 [1:47:00<59:55, 60.94s/it]  

{'n': 10, 'alpha': 'symmetric', 'beta': 0.5, 'perplexity': -7.15083368511321, 'coherence': 0.35853079744892274}


 60%|█████▉    | 86/144 [1:48:05<1:00:04, 62.14s/it]

{'n': 16, 'alpha': 0.5, 'beta': 0.5, 'perplexity': -7.147129356302407, 'coherence': 0.3135162749442888}


 60%|██████    | 87/144 [1:49:11<1:00:04, 63.25s/it]

{'n': 4, 'alpha': 0.3, 'beta': 0.3, 'perplexity': -7.121271328171301, 'coherence': 0.3120589626376099}


 61%|██████    | 88/144 [1:50:05<56:28, 60.50s/it]  

{'n': 16, 'alpha': 0.3, 'beta': 'auto', 'perplexity': -7.133122841780804, 'coherence': 0.3055450445013735}


 62%|██████▏   | 89/144 [1:51:10<56:31, 61.66s/it]

{'n': 12, 'alpha': 'symmetric', 'beta': 'auto', 'perplexity': -7.096597253898646, 'coherence': 0.31298068717656}


 62%|██████▎   | 90/144 [1:52:14<56:15, 62.51s/it]

{'n': 4, 'alpha': 0.7, 'beta': 'auto', 'perplexity': -7.077985365749731, 'coherence': 0.3130470220485462}


 63%|██████▎   | 91/144 [1:53:10<53:33, 60.63s/it]

{'n': 16, 'alpha': 'symmetric', 'beta': 'auto', 'perplexity': -7.156752610597947, 'coherence': 0.3086744012489072}


 64%|██████▍   | 92/144 [1:54:15<53:34, 61.81s/it]

{'n': 4, 'alpha': 0.7, 'beta': 0.7, 'perplexity': -7.157697211365702, 'coherence': 0.3015058554864675}


 65%|██████▍   | 93/144 [1:55:05<49:39, 58.42s/it]

{'n': 4, 'alpha': 0.5, 'beta': 0.3, 'perplexity': -7.109752457395275, 'coherence': 0.3119802438768016}


 65%|██████▌   | 94/144 [1:55:59<47:35, 57.12s/it]

{'n': 14, 'alpha': 0.3, 'beta': 0.7, 'perplexity': -7.175146078786623, 'coherence': 0.30495336389301075}


 66%|██████▌   | 95/144 [1:57:00<47:25, 58.07s/it]

{'n': 20, 'alpha': 0.7, 'beta': 0.5, 'perplexity': -7.143923765808623, 'coherence': 0.2995832792341877}


 67%|██████▋   | 96/144 [1:58:00<47:00, 58.76s/it]

{'n': 4, 'alpha': 0.5, 'beta': 0.7, 'perplexity': -7.160056372239823, 'coherence': 0.310146985358152}


 67%|██████▋   | 97/144 [1:58:53<44:38, 57.00s/it]

{'n': 16, 'alpha': 0.7, 'beta': 0.5, 'perplexity': -7.143477520765752, 'coherence': 0.3002263285449952}


 68%|██████▊   | 98/144 [1:59:50<43:44, 57.05s/it]

{'n': 10, 'alpha': 0.7, 'beta': 0.7, 'perplexity': -7.175719578592692, 'coherence': 0.33790811063897286}


 69%|██████▉   | 99/144 [2:00:53<43:58, 58.64s/it]

{'n': 18, 'alpha': 0.3, 'beta': 'auto', 'perplexity': -7.174406740795494, 'coherence': 0.30822630551802166}


 69%|██████▉   | 100/144 [2:01:59<44:45, 61.02s/it]

{'n': 10, 'alpha': 'symmetric', 'beta': 0.3, 'perplexity': -7.114576446229222, 'coherence': 0.31812569436067434}


 70%|███████   | 101/144 [2:02:59<43:32, 60.76s/it]

{'n': 20, 'alpha': 0.5, 'beta': 0.5, 'perplexity': -7.1476467734405364, 'coherence': 0.31243644895743883}


 71%|███████   | 102/144 [2:04:04<43:21, 61.95s/it]

{'n': 14, 'alpha': 0.7, 'beta': 0.3, 'perplexity': -7.129333046764272, 'coherence': 0.30356233575850283}


 72%|███████▏  | 103/144 [2:05:05<42:13, 61.79s/it]

{'n': 16, 'alpha': 0.3, 'beta': 0.7, 'perplexity': -7.169949802122758, 'coherence': 0.30881896713347523}


 72%|███████▏  | 104/144 [2:06:05<40:49, 61.24s/it]

{'n': 16, 'alpha': 0.5, 'beta': 0.3, 'perplexity': -7.124801832098371, 'coherence': 0.307685476221529}


 73%|███████▎  | 105/144 [2:07:10<40:25, 62.20s/it]

{'n': 6, 'alpha': 'symmetric', 'beta': 0.3, 'perplexity': -7.1237234062351416, 'coherence': 0.32234412176977}


 74%|███████▎  | 106/144 [2:08:03<37:44, 59.60s/it]

{'n': 12, 'alpha': 0.7, 'beta': 0.5, 'perplexity': -7.145793334625257, 'coherence': 0.3158707232070464}


 74%|███████▍  | 107/144 [2:09:05<37:02, 60.08s/it]

{'n': 10, 'alpha': 0.7, 'beta': 0.3, 'perplexity': -7.113333447496885, 'coherence': 0.31714522490871044}


 75%|███████▌  | 108/144 [2:10:06<36:16, 60.47s/it]

{'n': 10, 'alpha': 0.5, 'beta': 'auto', 'perplexity': -7.052333462767008, 'coherence': 0.3202333396375387}


 76%|███████▌  | 109/144 [2:11:12<36:17, 62.22s/it]

{'n': 8, 'alpha': 0.5, 'beta': 'auto', 'perplexity': -7.045442907604002, 'coherence': 0.30880832144769566}


 76%|███████▋  | 110/144 [2:12:12<34:52, 61.54s/it]

{'n': 14, 'alpha': 0.3, 'beta': 'auto', 'perplexity': -7.1179223282628294, 'coherence': 0.3118756348650023}


 77%|███████▋  | 111/144 [2:13:16<34:17, 62.33s/it]

{'n': 20, 'alpha': 0.3, 'beta': 'auto', 'perplexity': -7.19865088939463, 'coherence': 0.31422830552529274}


 78%|███████▊  | 112/144 [2:14:26<34:27, 64.60s/it]

{'n': 4, 'alpha': 0.3, 'beta': 'auto', 'perplexity': -7.074571844309121, 'coherence': 0.30727621379704567}


 78%|███████▊  | 113/144 [2:15:24<32:15, 62.44s/it]

{'n': 8, 'alpha': 0.3, 'beta': 0.5, 'perplexity': -7.154472828704589, 'coherence': 0.323552618248805}


 79%|███████▉  | 114/144 [2:16:34<32:24, 64.83s/it]

{'n': 8, 'alpha': 'symmetric', 'beta': 0.3, 'perplexity': -7.115194100583696, 'coherence': 0.3074743852221644}


 80%|███████▉  | 115/144 [2:17:33<30:26, 62.97s/it]

{'n': 18, 'alpha': 0.3, 'beta': 0.3, 'perplexity': -7.115350026271661, 'coherence': 0.30669094758860205}


 81%|████████  | 116/144 [2:18:34<29:09, 62.50s/it]

{'n': 4, 'alpha': 0.7, 'beta': 0.3, 'perplexity': -7.1138760245588655, 'coherence': 0.3136690551327378}


 81%|████████▏ | 117/144 [2:19:27<26:48, 59.58s/it]

{'n': 4, 'alpha': 'symmetric', 'beta': 'auto', 'perplexity': -7.06196956492066, 'coherence': 0.30679265189316524}


 82%|████████▏ | 118/144 [2:20:21<25:06, 57.96s/it]

{'n': 18, 'alpha': 0.7, 'beta': 0.7, 'perplexity': -7.165214496224697, 'coherence': 0.3310135020707914}


 83%|████████▎ | 119/144 [2:21:22<24:27, 58.71s/it]

{'n': 8, 'alpha': 0.5, 'beta': 0.3, 'perplexity': -7.117130925034578, 'coherence': 0.30989048887058057}


 83%|████████▎ | 120/144 [2:22:18<23:12, 58.02s/it]

{'n': 18, 'alpha': 'symmetric', 'beta': 0.5, 'perplexity': -7.16773989929389, 'coherence': 0.33486422520151327}


 84%|████████▍ | 121/144 [2:23:32<24:04, 62.82s/it]

{'n': 14, 'alpha': 0.7, 'beta': 0.5, 'perplexity': -7.145444733689158, 'coherence': 0.33287765777512995}


 85%|████████▍ | 122/144 [2:24:38<23:21, 63.70s/it]

{'n': 10, 'alpha': 0.5, 'beta': 0.7, 'perplexity': -7.178285749314855, 'coherence': 0.33190869262911826}


 85%|████████▌ | 123/144 [2:25:40<22:08, 63.24s/it]

{'n': 18, 'alpha': 'symmetric', 'beta': 0.7, 'perplexity': -7.188308215953747, 'coherence': 0.310974063393933}


 86%|████████▌ | 124/144 [2:26:48<21:36, 64.81s/it]

{'n': 10, 'alpha': 0.7, 'beta': 'auto', 'perplexity': -7.062265332108013, 'coherence': 0.3100342504451882}


 87%|████████▋ | 125/144 [2:27:51<20:18, 64.11s/it]

{'n': 6, 'alpha': 'symmetric', 'beta': 0.5, 'perplexity': -7.1376064506391685, 'coherence': 0.30639408550538655}


 88%|████████▊ | 126/144 [2:28:50<18:47, 62.66s/it]

{'n': 6, 'alpha': 0.7, 'beta': 0.5, 'perplexity': -7.14327008945763, 'coherence': 0.3292029453231676}


 88%|████████▊ | 127/144 [2:29:51<17:37, 62.22s/it]

{'n': 12, 'alpha': 0.5, 'beta': 'auto', 'perplexity': -7.072655830491536, 'coherence': 0.3118407144061633}


 89%|████████▉ | 128/144 [2:30:53<16:34, 62.15s/it]

{'n': 16, 'alpha': 0.3, 'beta': 0.3, 'perplexity': -7.118081148195641, 'coherence': 0.3096695794163654}


 90%|████████▉ | 129/144 [2:31:56<15:35, 62.34s/it]

{'n': 12, 'alpha': 0.7, 'beta': 'auto', 'perplexity': -7.074144940469914, 'coherence': 0.306230372745315}


 90%|█████████ | 130/144 [2:32:58<14:32, 62.29s/it]

{'n': 12, 'alpha': 0.3, 'beta': 0.7, 'perplexity': -7.174739593966493, 'coherence': 0.3130352991493374}


 91%|█████████ | 131/144 [2:34:02<13:35, 62.70s/it]

{'n': 16, 'alpha': 0.7, 'beta': 0.3, 'perplexity': -7.120640797522616, 'coherence': 0.3301274406064222}


 92%|█████████▏| 132/144 [2:35:06<12:39, 63.27s/it]

{'n': 16, 'alpha': 'symmetric', 'beta': 0.7, 'perplexity': -7.1894604467151915, 'coherence': 0.3246892632734616}


 92%|█████████▏| 133/144 [2:36:10<11:36, 63.35s/it]

{'n': 18, 'alpha': 0.7, 'beta': 0.3, 'perplexity': -7.1181882288570115, 'coherence': 0.30788050649397364}


 93%|█████████▎| 134/144 [2:37:18<10:48, 64.82s/it]

{'n': 4, 'alpha': 0.5, 'beta': 0.5, 'perplexity': -7.142370560303605, 'coherence': 0.3226227086194753}


 94%|█████████▍| 135/144 [2:38:18<09:28, 63.17s/it]

{'n': 12, 'alpha': 0.7, 'beta': 0.7, 'perplexity': -7.172934211414985, 'coherence': 0.30242711105199327}


 94%|█████████▍| 136/144 [2:39:15<08:10, 61.36s/it]

{'n': 6, 'alpha': 0.5, 'beta': 'auto', 'perplexity': -7.069498852147298, 'coherence': 0.30617066228813195}


 95%|█████████▌| 137/144 [2:40:10<06:56, 59.50s/it]

{'n': 10, 'alpha': 0.5, 'beta': 0.5, 'perplexity': -7.147537101258204, 'coherence': 0.3107143063815378}


 96%|█████████▌| 138/144 [2:41:11<06:00, 60.11s/it]

{'n': 14, 'alpha': 0.3, 'beta': 0.3, 'perplexity': -7.112426115856567, 'coherence': 0.3143756840907716}


 97%|█████████▋| 139/144 [2:42:16<05:06, 61.33s/it]

{'n': 10, 'alpha': 0.3, 'beta': 0.7, 'perplexity': -7.164527819364741, 'coherence': 0.3251746400103972}


 97%|█████████▋| 140/144 [2:43:10<03:57, 59.29s/it]

{'n': 20, 'alpha': 'symmetric', 'beta': 0.7, 'perplexity': -7.170044331926525, 'coherence': 0.3067196535692826}


 98%|█████████▊| 141/144 [2:44:11<02:59, 59.69s/it]

{'n': 6, 'alpha': 0.3, 'beta': 0.5, 'perplexity': -7.143821111158752, 'coherence': 0.30448626172080073}


 99%|█████████▊| 142/144 [2:45:07<01:57, 58.62s/it]

{'n': 4, 'alpha': 0.7, 'beta': 0.5, 'perplexity': -7.138726313192562, 'coherence': 0.31156023973155333}


 99%|█████████▉| 143/144 [2:45:59<00:56, 56.76s/it]

{'n': 14, 'alpha': 0.5, 'beta': 'auto', 'perplexity': -7.102969693151883, 'coherence': 0.31430788320222}


100%|██████████| 144/144 [2:47:06<00:00, 69.63s/it]


['results/results.joblib']

In [34]:
df_gs = pd.DataFrame(results)
df_gs.sort_values("coherence", ascending=False).head(10)

Unnamed: 0,n,alpha,beta,perplexity,coherence
52,6,0.7,0.7,-7.163845,0.365298
85,10,symmetric,0.5,-7.150834,0.358531
73,8,0.7,0.7,-7.168303,0.353245
21,8,0.3,0.7,-7.161098,0.352712
98,10,0.7,0.7,-7.17572,0.337908
120,18,symmetric,0.5,-7.16774,0.334864
121,14,0.7,0.5,-7.145445,0.332878
43,10,symmetric,0.7,-7.171599,0.332289
122,10,0.5,0.7,-7.178286,0.331909
31,16,0.7,auto,-7.156709,0.331101


In [45]:
df_gs.sort_values("coherence", ascending=False).iloc[0]

n                    6
alpha              0.7
beta               0.7
perplexity   -7.163845
coherence     0.365298
Name: 52, dtype: object

In [47]:
# Treinando Modelo de melhor resultado
n = 6
alpha = 0.7
beta = 0.7
lda_model = gensim.models.ldamodel.LdaModel(
    corpus=gensim_corpus, 
    id2word=gensim_dictionary, 
    passes=10,
    chunksize=100,
    # per_word_topics=True,
    num_topics=n, 
    alpha=alpha,
    eta=beta,
)

p = perplexity_score(lda_model)
c = coherence_score(lda_model)
print("Perplexity", p)
print("Coherence", c)

Perplexity -7.183829775690902
Coherence 0.3107981246556443


In [48]:
def print_topics_formatted(model, num_words=10):
    topics = lda_model.print_topics(num_words=num_words)
    for i, topic in enumerate(topics):
        t_str = topic[1]
        t_str = re.sub(r"[^a-zA-Z]", " ", t_str)
        t_str = re.sub(r"\s+", " ", t_str)
        t_str = f"Tópico {i}: {t_str}"
        print(t_str)

def print_topics(model, num_words=10):
    topics = hdp_model.print_topics(num_words=num_words)
    for topic in topics:
        print(topic)

In [53]:
# Imprimindo tópicos encontrados
print("LDA topics")
print_topics_formatted(lda_model, num_words=100)

LDA topics
Tópico 0:  nao bom hotel piscina lugar otimo quarto excelent atendimento bem sao boa pra dia tudo parqu maravilhoso funcionario comida todo otima familia recomendo melhor cafe agua manha muita local crianca pessoa super restaurant apartamento servico porem estrutura ate recepcao toda quent limpo limpeza poi gostei hora hosped pouco elevador aquatico preco check area top outro sempr cama ter pessimo desejar tambem opco ruim lindo experiencia resort grand estacionamento agradavel coisa nada ainda fila amei brinquedo educado perfeito falta lazer calda diversao almoco fica ambient fazer qualidad veze nova maravilhosa voce atencioso passar ponto varia organizado mal vale aconchegant apena fiquei 
Tópico 1:  atendimento excelent nao lugar bom comida todo equip otimo restaurant maravilhoso bem funcionario piscina boa tudo quarto resort sao hotel super ala atencioso melhor paraben dia recepcao toda otima praia maravilhosa nota lindo recomendo servico especi bebida sempr experiencia 

In [40]:
# Imprimindo tópicos encontrados
print("HDP topics")
print_topics_formatted(hdp_model)

HDP topics
Tópico 0:  parqu lugar bom otimo familia brinquedo nao diversao excelent dia 
Tópico 1:  hotel bom excelent atendimento nao lugar quarto otimo piscina bem 
Tópico 2:  excelent hotel atendimento quarto nao bom otimo todo restaurant lugar 
Tópico 3:  nao bom hotel lugar quarto excelent atendimento boa bem otimo 
Tópico 4:  bom nao lugar quarto atendimento excelent hotel comida otimo bem 
Tópico 5:  hotel cafe excelent atendimento manha quarto nao bom bem funcionario 
Tópico 6:  nao hotel bom piscina lugar otimo quarto excelent atendimento bem 
Tópico 7:  lugar excelent hotel bom atendimento nao maravilhoso otimo comida tudo 
Tópico 8:  hotel bom nao atendimento lugar quarto otimo excelent bem manha 
Tópico 9:  piscina lugar comida excelent bom atendimento funcionario otimo todo quarto 
Tópico 10:  nao quarto aeroporto hotel limpo banheiro bom hora bem sao 
Tópico 11:  hotel nao bom atendimento lugar otimo quarto excelent boa bem 
Tópico 12:  atendimento excelent nao lugar bom 

In [42]:
# Definindo função para atribuir topicos ao documento
def get_topics(tokens, model=lda_model):
    doc_bow = gensim_dictionary.doc2bow(tokens)
    doc_topics = model[doc_bow]
    doc_topics = sorted(doc_topics, key=lambda x:x[1], reverse=1)
    first_topic = doc_topics[0][0]
    return np.array(doc_topics), first_topic

get_topics(text_tokens_flat.iloc[2], model=lda_model)

(array([[13.        ,  0.88055509],
        [ 6.        ,  0.11726438]]),
 13)

In [43]:
df_prep[["lda_topics", "lda_first_topic"]] = pd.DataFrame(text_tokens_flat).progress_apply(
    lambda x: get_topics(x.text_tokens_sum, model=lda_model),
    axis=1,
    result_type="expand",
)

df_prep[["hdp_topics", "hdp_first_topic"]] = pd.DataFrame(text_tokens_flat).progress_apply(
    lambda x: get_topics(x.text_tokens_sum, model=hdp_model),
    axis=1,
    result_type="expand",
)

100%|██████████| 50/50 [00:00<00:00, 69.27it/s]
100%|██████████| 50/50 [00:01<00:00, 45.46it/s]


In [51]:
# Visualizando tópicos
import pyLDAvis.gensim_models as gensimvis
import pyLDAvis
import matplotlib.pyplot as plt


In [52]:
print("LDA visualization")
lda_visualization = gensimvis.prepare(lda_model, gensim_corpus, gensim_dictionary)
pyLDAvis.display(lda_visualization)

LDA visualization


  default_term_info = default_term_info.sort_values(


In [47]:
print("HDP visualization")
hdp_visualization = gensimvis.prepare(hdp_model, gensim_corpus, gensim_dictionary)
pyLDAvis.display(hdp_visualization)

HDP visualization


  default_term_info = default_term_info.sort_values(


# Sentiment Analisys

In [322]:
from analysis.leia.leia import SentimentIntensityAnalyzer 

vader_model = SentimentIntensityAnalyzer()

# Análise de texto simples
vader_model.polarity_scores('Eu estou feliz')

{'neg': 0.0, 'neu': 0.328, 'pos': 0.672, 'compound': 0.6249}

In [327]:
df_prep.filter(regex="^text")

Unnamed: 0,text,text_is_other_language,text_tokens,text_tokens_len,text_normalized
0,"Bom preco ,Ótima Localização,atendimento bom ,...",False,"[[bom, preco, otima, localizacao, atendimento,...",4,"bom preco ,otima localizacao,atendimento bom ,..."
1,"Eu ,nunca vi um quarto de hotel tão sujo na mi...",False,"[[nunca, quarto, hotel, tao, sujo, vida], [len...",6,"eu ,nunca vi um quarto de hotel tao sujo na mi..."
2,"Hotel de baixíssima qualidade no atendimento, ...",False,"[[hotel, baixissima, qualidad, atendimento, ac...",3,"hotel de baixissima qualidade no atendimento, ..."
3,"Péssimo atendimento, muito clássico do Rio de ...",False,"[[pessimo, atendimento, classico, rio, janeiro...",3,"pessimo atendimento, muito classico do rio de ..."
4,,,[[]],1,
...,...,...,...,...,...
270092,Recomendo a todos que desejam visitar gramado!...,False,"[[recomendo, todo, desejam, visitar, gramado, ...",1,recomendo a todos que desejam visitar gramado!...
270093,,,[[]],1,
270094,muito gostoso e aconchegante. café da manhã ex...,False,"[[gostoso, aconchegant], [cafe, manha, excelen...",4,muito gostoso e aconchegante. cafe da manha ex...
270095,,,[[]],1,


# Modelagem

Níveis:
* Hotel
* Avaliação
* Sentença

Sumarização Extrativa:
* N Melhores Sentenças

Modelagem de tópicos:
* Treino feito em cima das avaliações - Quais são os tópicos de uma avaliação?
* Predição feita em cima das sentenças

Análise de sentimento:
* Predição feita em cima das sentenças

Features da sentença:
* Tópicos da sentença
* Sentimento da sentença
* Usuário da avaliação é local guide
* Nota da avaliação
* Número de sentenças da avaliação
* Número de likes da avaliação


# Transformers

In [4]:
df_prep = pd.read_parquet("data/prep/df_text_prep_2023-06-22_20-52-11_175568.pq")
df_hotels = pd.read_parquet("data/prep/df_hotels_2023-06-22_20-52-11_175568.pq")

In [5]:
import nltk

nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Bruno\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Bruno\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
# !python -m spacy download pt_core_news_lg

In [6]:
texto = df_hotels[df_hotels.name == "Copacabana Palace"].text_sum.str.replace(".", ";").str.replace("\n", ".").values[0]
texto

  texto = df_hotels[df_hotels.name == "Copacabana Palace"].text_sum.str.replace(".", ";").str.replace("\n", ".").values[0]


'Maravilhosa Atividades próximas: Ótima Segurança: Muito bom Facilidade de deslocamento a pé: Sim Detalhes importantes: Muito bom mesmo . Sabe quando você sabe que está acontecendo algo realmente inesperado e de grande qualidade? Imagine que logo na entrada, logo na recepção você encontrará as melhores pessoas para te dar as boas vindas nesse maravilhoso palácio! Nessa tarde, em específico, estava acompanhada de um alemão e, para nossa surpresa, um dos recepcionistas que fica falava fluentemente alemão também! Foi maravilhoso! . Um restaurante perfeito de hotel de 100 anos em frente à praia de Copacabana ;  Tudo o que comemos estava delicioso ;  Não é barato, mas acho que o valor para essa equipe, ambiente e serviço de qualidade é baixo ;  Um dos chefs, Diego, foi incrivelmente amigável e positivo  ;  Todos ficaram muito satisfeitos com ele ;  Se quiserem se divertir, venham sem pensar ;  Já faz muito tempo que a refeição acabou, mas estamos saboreando nosso café à beira da piscina ;  

In [7]:
import spacy
from spacy.lang.pt.stop_words import STOP_WORDS
from collections import Counter
from tqdm import tqdm

# Carregar o modelo em português do spaCy
nlp = spacy.load('pt_core_news_lg')

# Tokenizar o texto em frases e palavras usando o spaCy
print("gerando doc")
doc = nlp(texto)
len(doc)

gerando doc


105370

In [39]:
print("gerando frases")
frases = [sent.text for sent in tqdm(doc.sents)]
print("gerando palavras")
palavras = [token.text for token in tqdm(doc) if not token.is_stop and token.is_alpha]

# Calcular a frequência de cada palavra no texto
frequencia_palavras = Counter(palavras)

# Calcular a pontuação de cada frase
pontuacao_frases = {}
print("calculando pontuação")
for frase in tqdm(frases,total=len(frases)):
    pontuacao = 0
    nlp_frase = nlp(frase)
    for palavra in nlp_frase:
        if palavra.text.lower() in frequencia_palavras:
            pontuacao += frequencia_palavras[palavra.text.lower()]
    pontuacao_frases[frase] = pontuacao

# Selecionar as frases mais importantes e gerar o resumo
num_frases_resumo = 2
frases_importantes = sorted(pontuacao_frases, key=pontuacao_frases.get, reverse=True)
resumo = "\n".join(frases_importantes[:num_frases_resumo])

# Imprimir o resumo
print("Resumo:")
print(resumo)

gerando frases


12246it [00:00, 119176.05it/s]


gerando palavras


100%|██████████| 105370/105370 [00:00<00:00, 1148394.32it/s]


calculando pontuação


100%|██████████| 12246/12246 [01:21<00:00, 149.73it/s]

Resumo:
O mais tradicional hotel do Rio de Janeiro ;  Hotel deslumbrante, funcionários muito cordiais, sempre se oferecendo para te atender, serviços impecáveis, quarto grande e mobiliário de muito bom gosto, piscina semi olímpica climatizada sensacional, ótima localização no bairro de Copacabana ;  Café da manhã muito bom com muitas variedades ;  Preço dos produtos oferecidos no hotel muito caros, mas condizente com o nível do hotel ;  
Excelente hotel, só tínhamos um mas já que o primeiro quarto que nos deram tinha comer cupim na área onde são colocadas as malas ;  a desvantagem ;  é um hotel que sempre voltamos apesar desse episódio, pois é o melhor hotel do Rio comparado aos outros ;  bom serviço em todos os sentidos, a equipe é super simpática  ;  Excelente vista da praia .





In [40]:
frases_importantes[:10]

['O mais tradicional hotel do Rio de Janeiro ;  Hotel deslumbrante, funcionários muito cordiais, sempre se oferecendo para te atender, serviços impecáveis, quarto grande e mobiliário de muito bom gosto, piscina semi olímpica climatizada sensacional, ótima localização no bairro de Copacabana ;  Café da manhã muito bom com muitas variedades ;  Preço dos produtos oferecidos no hotel muito caros, mas condizente com o nível do hotel ;  ',
 'Excelente hotel, só tínhamos um mas já que o primeiro quarto que nos deram tinha comer cupim na área onde são colocadas as malas ;  a desvantagem ;  é um hotel que sempre voltamos apesar desse episódio, pois é o melhor hotel do Rio comparado aos outros ;  bom serviço em todos os sentidos, a equipe é super simpática  ;  Excelente vista da praia .',
 'A conservação do hotel é boa, mas entendemos que alguns detalhes como móveis sem reforma, lustre e luminárias com problemas, luz na fechada do hotel piscando, atendimento cortês mas irregular falta de sinaliz

In [8]:
# Install spacy-transformers
# !pip install spacy-transformers

In [42]:
import spacy
from IPython.core.display import display, HTML

# Encontrando as entidades nomeadas e os substantivos mais importantes (que não são stopwords)
entidades_nomeadas = set([ent.text for ent in doc.ents if ent.label_ != ""])
substantivos = set([token.text for token in doc if token.pos_ == "NOUN" and token.is_stop == False])

# Destacando entidades nomeadas em vermelho e substantivos em azul
texto_formatado = texto
for entidade in entidades_nomeadas:
    texto_formatado = texto_formatado.replace(entidade, f"{entidade}")

for substantivo in substantivos:
    texto_formatado = texto_formatado.replace(substantivo, f"{substantivo}")

texto_formatado = "" + texto_formatado + ""
HTML(texto_formatado[:2000])

  from IPython.core.display import display, HTML


In [48]:

# Calculando a pontuação de cada frase
frases_pontuadas = []
for i, frase in enumerate(tqdm(doc.sents)):
    num_entidades = len(set([ent.text for ent in frase.ents if ent.label_ != ""]).intersection(entidades_nomeadas))
    num_substantivos = len(set([token.text for token in frase if token.pos_ == "NOUN" and not token.is_stop]).intersection(substantivos))
    pontuacao = num_entidades + num_substantivos
    frases_pontuadas.append((frase, i, pontuacao))

# Ordenando as frases pela pontuação em ordem decrescente
frases_pontuadas = sorted(frases_pontuadas, key=lambda x: x[2], reverse=True)

# Definindo o número de frases a serem incluídas no resumo
num_frases_resumo = 3

# Selecionando as frases mais importantes para o resumo
frases_importantes = [frase for frase, _, _ in frases_pontuadas[:num_frases_resumo]]

12246it [01:42, 119.49it/s]


In [49]:
frases_importantes

[Fomos tomar café da manhã no Copacabana Palace e foi uma experiência extremamente satisfatória em TODOS os sentidos,Lugar muito aconchegante ficamos a princípio dentro do Restaurante que e muito Bonito e como queria viver toda a experiência pedi gentilmente para trocar de lugar e nos sentarmos também na mesa ao lado da piscina o dia estava nublado e tempo agradável e Presizo ressaltar que o Garson Francisco foi extremamente Solicito e ainda nos ajudou a levar copos e pratinho para essa outra mesa com muita simpatia  ;  Estamos em três e minha filha ainda tinham sonhos que por sinal eu também comi e são os melhores que já degustei em toda minha Vida todas os outros produtos são EXCELENTES coxinhas outros salgados Folheados e Fritos mas tudo bem sequinho e com apresentação IMPECÁVEL Pães de TODOS OS TIPOS QUE EXISTE EU ACHO TUDO EXATAMENTE TUDO FOI MUITO BOM agora vem a parte dolorosa e Aniversário da Mulher e Ela merece mesmo e se hospedar nesse lugar muito Incrível Valor que vale a pe

In [13]:
from transformers import pipeline

summarizer = pipeline("summarization", model="phpaiola/ptt5-base-summ-wikilingua")


In [None]:
texto

In [15]:
len(texto)

510729

In [24]:
df_hotels

Unnamed: 0,name,review_count,other_language_count,text_count,text_sum,text_normalized_sum,text_tokens_sum,response_text_count,response_text_sum,response_text_normalized_sum,response_text_tokens_sum,highlights_sum,highlights_tokens_sum
0,Acqua Lokos,8542,350,3994,"O parque tá muito ruim,desde a entrada!Piscina...","o parque ta muito ruim,desde a entrada!piscina...","[[parqu, ruim, desd, entrada, piscina, area, c...",126,"\n Oie Douglas, muito obrigada pela sua avali...","\n oie douglas, muito obrigada pela sua avali...","[[], [], [], [], [], [], [], [], [], [], [], [...","\n Tranquilo, Ideal para crianças \n Vista li...","[[], [], [], [], [], [], [tranquilo, ideal, cr..."
1,Aroso Paço Hotel,1118,22,660,"Top, maravilhoso Quartos: Maravilhoso Seguranç...","top, maravilhoso quartos: maravilhoso seguranc...","[[top, maravilhoso, quarto, maravilhoso, segur...",4,"\n Prezado Senhor Fernando, Agradecemos a ava...","\n prezado senhor fernando, agradecemos a ava...","[[], [], [], [], [], [], [], [], [], [], [], [...","Luxuoso, Vista linda, Ambiente romântico, Tran...","[[luxuoso, vista, linda, ambient, romantico, t..."
2,Atlantic Hotel Copacabana,4983,748,2857,\n Quartos: Pequeña . baño muy incómodo Segu...,\n quartos: pequena . bano muy incomodo segu...,"[[], [quarto, pequena], [bano, muy, incomodo, ...",0,\n,\n,"[[], [], [], [], [], [], [], [], [], [], [], [...","Vista linda, Bom preço \n Luxuoso, Tranquilo, ...","[[vista, linda, bom, preco], [], [], [], [], [..."
3,Atlântico Center,1397,84,857,"Bom preco ,Ótima Localização,atendimento bom ,...","bom preco ,otima localizacao,atendimento bom ,...","[[bom, preco, otima, localizacao, atendimento,...",0,\n,\n,"[[], [], [], [], [], [], [], [], [], [], [], [...","Bom preço \n Bom preço \n Tranquilo, Bom preço...","[[bom, preco], [], [], [bom, preco], [], [tran..."
4,Atlântico Inn Apart Hotel,1471,35,849,"Fiquei hospedada, gostei da estadia, lugar tra...","fiquei hospedada, gostei da estadia, lugar tra...","[[fiquei, hospedada, gostei, estadia, lugar, t...",0,\n,\n,"[[], [], [], [], [], [], [], [], [], [], [], [...","Tranquilo, Bom preço \n Tranquilo, Bom preço \...","[[tranquilo, bom, preco], [], [], [], [], [tra..."
5,Atrium Quinta de Pedras,1392,43,802,"\n Atendeu plenamente nossas necessidades, co...","\n atendeu plenamente nossas necessidades, co...","[[], [atendeu, plenament, necessidad, quarto, ...",0,\n,\n,"[[], [], [], [], [], [], [], [], [], [], [], [...","\n Tranquilo \n Luxuoso, Ambiente romântico, ...","[[], [tranquilo], [luxuoso, ambient, romantico..."
6,Blue Tree Thermas de Lins,5032,74,3146,"Ótima \n Acomodação, refeição, atendimento são...","otima \n acomodacao, refeicao, atendimento sao...","[[otima], [acomodacao, refeicao, atendimento, ...",1815,"\n Prezado Henrique, Nós do Blue Tree Thermas...","\n prezado henrique, nos do blue tree thermas...","[[], [], [], [], [], [prezado, henriqu, blue, ...","\n Vista linda, Tranquilo, Ideal para criança...","[[], [vista, linda, tranquilo, ideal, crianca]..."
7,Boa Vista Eco Hotel,1139,42,559,"Deixa muito a desejar: serviço fraco, tv não f...","deixa muito a desejar: servico fraco, tv nao f...","[[deixa, desejar, servico, fraco, nao, funcion...",0,\n,\n,"[[], [], [], [], [], [], [], [], [], [], [], [...","Tranquilo \n Vista linda, Ambiente romântico, ...","[[tranquilo], [], [], [], [], [vista, linda, a..."
8,Bourbon Cataratas do Iguaçu Thermas Eco Resort,4868,495,2471,"Resort de ótima qualidade, funcionários bem at...","resort de otima qualidade, funcionarios bem at...","[[resort, otima, qualidad, funcionario, bem, a...",562,"\n Prezado Nuno, Obrigada por dedicar um temp...","\n prezado nuno, obrigada por dedicar um temp...","[[], [], [], [], [prezado, nuno, obrigada, ded...","\n Luxuoso \n Tranquilo, Ideal para crianças ...","[[], [luxuoso], [tranquilo, ideal, crianca], [..."
9,Caravelle Palace Hotel,3208,60,1744,"\n Quarto limpo e ajeitado, café da manhã bom...","\n quarto limpo e ajeitado, cafe da manha bom...","[[], [], [quarto, limpo, ajeitado, cafe, manha...",0,\n,\n,"[[], [], [], [], [], [], [], [], [], [], [], [...","\n Bom preço \n Tranquilo, Bom preço \n Bom p...","[[], [bom, preco], [tranquilo, bom, preco], []..."


hotel
avaliação 
frase - na análise de sentimento pode fazer sentido quebrar por frase


passar análise em todos os textos para avaliar a quantidade de neutros

In [18]:
summary = summarizer(texto[:10_000])
print(summary)

[{'summary_text': 'Aproveite o hotel! Aproveite o hotel! Aproveite o'}]


In [22]:
df_hotels.text_count.sum() / 50

3015.48

In [19]:
df_hotels.name

0                                          Acqua Lokos
1                                     Aroso Paço Hotel
2                            Atlantic Hotel Copacabana
3                                     Atlântico Center
4                            Atlântico Inn Apart Hotel
5                              Atrium Quinta de Pedras
6                            Blue Tree Thermas de Lins
7                                  Boa Vista Eco Hotel
8       Bourbon Cataratas do Iguaçu Thermas Eco Resort
9                               Caravelle Palace Hotel
10                                 Castro's Park Hotel
11                                   Copacabana Palace
12                       Costa do Sauípe - Premium Sol
13                           Costão do Santinho Resort
14                                    Céu Palmas Hotel
15                Dayrell Hotel & Centro de Convenções
16                                          Fast Sleep
17    Golden Dolphin Grand Hotel - Central de Reservas
18        

verificar se tem pelo menos um substantivo e um adjetivo

fazer fluxograma do tratamento de texto
Mostrar filtrando os textos

lda: colocar lista de keywords no chat gpt para ele dar o label

Bom ponto de partida
