In [1]:
from huggingface_hub import login
import pandas as pd

from langchain_community.llms import HuggingFaceEndpoint
from langchain_community.llms import HuggingFaceHub
from langchain.chains import LLMChain
from langchain_core.prompts import PromptTemplate

import time

import warnings
warnings.filterwarnings("ignore")

huggingfacehub_api_token = 'add_your_api_token'

all_results = []

# Import dataset

In [2]:
import pandas as pd
import unicodedata
import re

df = pd.read_csv('../datasets/absapt_2022.csv', delimiter=';')
df = df[['review', 'aspect']]

def remove_accents(input_str):
    nfkd_form = unicodedata.normalize('NFKD', input_str)
    return "".join([c for c in nfkd_form if not unicodedata.combining(c)])

def remove_special_chars(input_str):
    return re.sub(r'[^a-zA-Z0-9\s]', ' ', input_str)

# Apply the function to remove accents and special characters
df['aspect'] = df['aspect'].apply(remove_accents).apply(remove_special_chars)
df = df[df['aspect'].apply(lambda x: len(x.split()) == 1)]

# Group reviews and combine aspects into a list
df = df.groupby('review')['aspect'].apply(list).reset_index()

# Transform column of lists into a single list containing all elements
all_elements = [item for sublist in df['aspect'] for item in sublist]

# Remove duplicates
unique_elements = list(set(all_elements))

#df = df.head(5)
display(df)


Lista de elementos únicos:
65


Unnamed: 0,review,aspect
0,"A 4 quadras do Central Park , ótimo lugar para...","[quarto, cozinha, suite]"
1,A comodidade dos quartos do hotel e a facilida...,"[quarto, hotel, atendimento]"
2,"A localização do hotel é muito boa , porém as ...","[atendimento, localizacao, recepcao, hotel]"
3,"A localização é muito boa, pois fica no centro...","[atendimento, hotel, localizacao]"
4,A única coisa que ainda passa é o café da manh...,"[quarto, chuveiro]"
...,...,...
179,Ótima localização em frente a uma estação do m...,"[rua, quarto, localizacao, praca, hotel]"
180,"Ótima localização, a 20 minutos aproximadament...","[localizacao, hotel, cama, quarto, cozinha]"
181,"Ótima localização, café farto e delicioso, chu...","[localizacao, cama, chuveiro, atendimento, lim..."
182,"Ótima localização. Fica na strip, ao lado do b...",[estacionamento]


# LLMs

In [3]:
llm_vlt5 = HuggingFaceHub(repo_id='Voicelab/vlt5-base-keywords', 
                          huggingfacehub_api_token=huggingfacehub_api_token,
                          model_kwargs={"max_length":500})

llm_google = HuggingFaceHub(repo_id='google/flan-t5-xxl', 
                            huggingfacehub_api_token=huggingfacehub_api_token,
                            model_kwargs={"max_length":500})

llm_bigscience = HuggingFaceEndpoint(repo_id='bigscience/bloom', 
                                     huggingfacehub_api_token=huggingfacehub_api_token,
                                     model_kwargs={"max_length":500})

llm_face = HuggingFaceHub(repo_id='facebook/blenderbot-400M-distill', 
                          huggingfacehub_api_token=huggingfacehub_api_token,
                          model_kwargs={"max_length":500, 'truncation': 'only_first'})

llm_bode = HuggingFaceHub(repo_id='recogna-nlp/Phi-Bode', 
                               huggingfacehub_api_token=huggingfacehub_api_token,
                               model_kwargs={"max_length":500})

Token has not been saved to git credential helper. Pass `add_to_git_credential=True` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /root/.cache/huggingface/token
Login successful


# Function to run the algorithms

In [4]:
def RunLLM(llm, df, question_text, template, llmbode=0):
    begin = time.time()
    result_list = []
    count = 0
    
    for text in df['review']:
        try: 
            question = f"{question_text} {text}"
            prompt = PromptTemplate.from_template(template)
            llm_chain = LLMChain(prompt=prompt, llm=llm)
            #print(f'{count} - Text: {text}')
            result = llm_chain.run(question)
            if (llmbode == 1):
                result_list.append(result.split('A lista é')[1])
            else:
                result_list.append(result.split('\n')[0])
            #print('-----------------------------------')
            count = count + 1
        except Exception as e:
            print(e)
            result_list.append('error')
            count = count + 1

    end = time.time()

    elapsed_time = end - begin
    print("Tempo decorrido:", elapsed_time, "segundos\n")
    
    return result_list

# Running algorithms

## Without custom list

### Getting results:

In [7]:
all_results_without_list = []

#### Phi-Bode

In [17]:
question_text = f"Baseado na seguinte frase, retorne uma lista das palavras mais relevantes:"           
template = """Questão: {question}
Resposta: A lista é """

all_results_without_list.append(RunLLM(llm_bode, df, question_text, template, llmbode=1))

Tempo decorrido: 1563.833020210266 segundos



#### Vlt5

In [13]:
question_text = f"Based in the following phrase, return a list of the most relevant words:"           
template = """Question: {question}
Answer: The list is """

all_results_without_list.append(RunLLM(llm_vlt5, df, question_text, template))

Tempo decorrido: 408.4122705459595 segundos

[]


#### Google

In [23]:
all_results_without_list.append(RunLLM(llm_google, df, question_text, template))

422 Client Error: Unprocessable Entity for url: https://api-inference.huggingface.co/models/google/flan-t5-xxl (Request ID: RTR1mz44kRs99PdrL5N_W)

Input validation error: `inputs` tokens + `max_new_tokens` must be <= 1024. Given: 1047 `inputs` tokens and 100 `max_new_tokens`
Make sure 'text2text-generation' task is supported by the model.
Tempo decorrido: 106.81346106529236 segundos



#### BigScience

In [26]:
all_results_without_list.append(RunLLM(llm_bigscience, df, question_text, template))

Tempo decorrido: 3561.5364277362823 segundos



#### Face

In [28]:
all_results_without_list.append(RunLLM(llm_face, df, question_text, template))

Tempo decorrido: 662.6539831161499 segundos



#### KeyBERT

In [6]:
import sys
sys.path.append('../terms_extraction/')

from terms_extractor import terms_extractor

from keybert import KeyBERT

inicio = time.time()

kw_model = KeyBERT()
keywords = kw_model.extract_keywords(' '.join(df['review'].tolist()), top_n=250)

keywords = [item[0] for item in keywords]

_, processed_df_keybert = terms_extractor(data=df, extract=keywords, 
                                          target_column='review', verbose=1)

fim = time.time()
tempo_decorrido = fim - inicio
print("Tempo decorrido:", tempo_decorrido, "segundos")


Defined pipeline: ['transform_to_lowercase', 'remove_special_characters'] 

Preprocess --> transform_to_lowercase
Converting text to lowercase...
Done!

Preprocess --> remove_special_characters
Removing special characters from text...
Done!



This stage can take several minutes...

Terms extraction with your list...


Processing column prep: 100%|██████████| 184/184 [00:00<00:00, 24934.64it/s]

Done!


Tempo decorrido: 2.321974039077759 segundos





In [8]:
df_final = pd.read_csv('Results_without_list.csv')
df_final = df_final.drop('keybert', axis=1)
processed_df_keybert.reset_index(drop=True, inplace=True)

#### USKE

In [29]:
import sys
sys.path.append('../terms_extraction/')

from terms_extractor import terms_extractor

inicio = time.time()

extract, processed_df = terms_extractor(data=df, measures=['yake', 'tfidf', 'pmi', 'mle', 'dice', 'count'], 
                                        target_column='review', number_to_extract=65, 
                                        stopwords=True, language='portuguese', verbose=1)

fim = time.time()

def merge_list(row):
    merged_list = []
    for sublist in row:
        merged_list.extend(sublist)
    merged_list = list(set(merged_list))
    return merged_list

processed_df['merged'] = processed_df[['yake', 'tfidf', 'pmi', 'mle', 'dice', 'count']].apply(merge_list, axis=1)
processed_df.reset_index(drop=True, inplace=True)

display(processed_df)

tempo_decorrido = fim - inicio
print("Tempo decorrido:", tempo_decorrido, "segundos")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!



Defined pipeline: ['transform_to_lowercase', 'remove_special_characters', 'remove_stopwords'] 

Preprocess --> transform_to_lowercase
Converting text to lowercase...
Done!

Preprocess --> remove_special_characters
Removing special characters from text...
Done!

Preprocess --> remove_stopwords
Getting stopword list and removing from text...
Done!



Performing the terms identification with ['yake', 'tfidf', 'pmi', 'mle', 'dice', 'count'] measures...

You're gonna identify 65 terms per measure!

Applying yake measure...
Applying tfidf measure...
Applying pmi measure...
Applying mle measure...
Applying dice measure...
Applying count measure...

Done!



This stage can take several minutes...

Terms extraction with yake...


Processing column prep: 100%|██████████| 184/184 [00:00<00:00, 32827.94it/s]


Terms extraction with tfidf...


Processing column prep: 100%|██████████| 184/184 [00:00<00:00, 32354.50it/s]


Terms extraction with pmi...


Processing column prep: 100%|██████████| 184/184 [00:00<00:00, 74192.65it/s]


Terms extraction with mle...


Processing column prep: 100%|██████████| 184/184 [00:00<00:00, 22247.74it/s]


Terms extraction with dice...


Processing column prep: 100%|██████████| 184/184 [00:00<00:00, 96444.88it/s]


Terms extraction with count...


Processing column prep: 100%|██████████| 184/184 [00:00<00:00, 30139.50it/s]

Done!







Unnamed: 0,review,aspect,prep,yake,tfidf,pmi,mle,dice,count,merged
0,"A 4 quadras do Central Park , ótimo lugar para...","[quarto, cozinha, suite]",4 quadras central park otimo lugar dar corrida...,"[otimo, perto, tudo, quartos, fica, room, tip,...","[quadras, otimo, perto, tudo, quartos, amplos,...",[4],"[otimo, perto, tudo, quartos, fica, room, tip,...",[4],"[otimo, perto, tudo, quartos, fica, room, tip,...","[otimo, tip, quartos, vista, boa, pois, amplos..."
1,A comodidade dos quartos do hotel e a facilida...,"[quarto, hotel, atendimento]",comodidade quartos hotel facilidade deslocamen...,"[quartos, hotel, metro, atendimento, recomendo...","[quartos, hotel, metro, neste, atendimento, bo...",[],"[quartos, hotel, metro, atendimento, recomendo...",[],"[quartos, hotel, metro, atendimento, recomendo...","[tip, quartos, neste, limpos, bom, sempre, hot..."
2,"A localização do hotel é muito boa , porém as ...","[atendimento, localizacao, recepcao, hotel]",localizacao hotel boa porem partes comuns pequ...,"[localizacao, hotel, boa, porem, diaria, recep...","[localizacao, hotel, boa, porem, cafe, atendim...",[4],"[localizacao, hotel, boa, porem, diaria, recep...",[4],"[localizacao, hotel, boa, porem, diaria, recep...","[cafe, recepcao, manha, boa, diaria, hotel, po..."
3,"A localização é muito boa, pois fica no centro...","[atendimento, hotel, localizacao]",localizacao boa pois fica centro cidade atendi...,"[localizacao, boa, pois, fica, centro, cidade,...","[localizacao, boa, fica, centro, atendimento, ...",[],"[localizacao, boa, pois, fica, centro, cidade,...",[],"[localizacao, boa, pois, fica, centro, cidade,...","[boa, atendimento, centro, hotel, pois, cidade..."
4,A única coisa que ainda passa é o café da manh...,"[quarto, chuveiro]",unica coisa ainda passa cafe manha mediano qua...,"[cafe, manha, quartos, pequenos, banheiro, poi...","[cafe, quartos, tudo]",[],"[cafe, manha, quartos, banheiro, pois, tudo]",[],"[cafe, manha, quartos, banheiro, pois, tudo]","[cafe, pequenos, quartos, manha, banheiro, poi..."
...,...,...,...,...,...,...,...,...,...,...
179,Ótima localização em frente a uma estação do m...,"[rua, quarto, localizacao, praca, hotel]",otima localizacao frente estacao metro praca f...,"[otima, localizacao, frente, estacao, metro, p...","[otima, localizacao, frente, estacao, metro, p...",[],"[otima, localizacao, frente, estacao, metro, p...",[],"[otima, localizacao, frente, estacao, metro, p...","[paris, cafe, estacao, quartos, recomendo, pro..."
180,"Ótima localização, a 20 minutos aproximadament...","[localizacao, hotel, cama, quarto, cozinha]",otima localizacao 20 minutos aproximadamente t...,"[otima, localizacao, torre, perto, metro, hote...","[otima, localizacao, perto, metro, hotel, quar...",[],"[otima, localizacao, torre, perto, metro, hote...",[],"[otima, localizacao, torre, perto, metro, hote...","[cama, torre, vista, hotel, quarto, confortave..."
181,"Ótima localização, café farto e delicioso, chu...","[localizacao, cama, chuveiro, atendimento, lim...",otima localizacao cafe farto delicioso chuveir...,"[otima, localizacao, cafe, banheiro, limpo, ca...","[otima, localizacao, cafe, limpo, cama, atendi...",[],"[otima, localizacao, cafe, banheiro, limpo, ca...",[],"[otima, localizacao, cafe, banheiro, limpo, ca...","[cafe, cama, ficamos, banheiro, limpo, atendim..."
182,"Ótima localização. Fica na strip, ao lado do b...",[estacionamento],otima localizacao fica strip lado belaggio pra...,"[otima, localizacao, fica, quarto, hoteis, rec...","[otima, localizacao, fica, strip, pra, quarto,...",[coisas],"[otima, localizacao, fica, quarto, hoteis, rec...",[coisas],"[otima, localizacao, fica, quarto, hoteis, rec...","[preco, hoteis, coisas, recomendo, strip, bom,..."


Tempo decorrido: 0.4576995372772217 segundos


### Transforming the results into CSV

In [31]:
df_final = pd.DataFrame(all_results_without_list).transpose()
df_final.columns = ['Bode', 'vlt5', 'Google', 'BigScience', 'Facebook']
df_final = processed_df.merge(df_final, left_index=True, right_index=True)
df_final['keybert'] = processed_df_keybert['your list']

display(df_final)

df_final.to_csv('Results_without_list.csv', index=False)

Unnamed: 0,review,aspect,prep,yake,tfidf,pmi,mle,dice,count,merged,vlt5,Google,BigScience,Facebook
0,"A 4 quadras do Central Park , ótimo lugar para...","[quarto, cozinha, suite]",4 quadras central park otimo lugar dar corrida...,"[otimo, perto, tudo, quartos, fica, room, tip,...","[quadras, otimo, perto, tudo, quartos, amplos,...",[4],"[otimo, perto, tudo, quartos, fica, room, tip,...",[4],"[otimo, perto, tudo, quartos, fica, room, tip,...","[otimo, tip, quartos, vista, boa, pois, amplos...","Central Park, mahattan, uma corrida","caminhar, quarto, sala, vista","Central Park (4 quadras away), a good place t...","Wow, that's a lot of quadruple quadres. Do yo..."
1,A comodidade dos quartos do hotel e a facilida...,"[quarto, hotel, atendimento]",comodidade quartos hotel facilidade deslocamen...,"[quartos, hotel, metro, atendimento, recomendo...","[quartos, hotel, metro, neste, atendimento, bo...",[],"[quartos, hotel, metro, atendimento, recomendo...",[],"[quartos, hotel, metro, atendimento, recomendo...","[tip, quartos, neste, limpos, bom, sempre, hot...","hotel, hotel, hotel, hotel, hotel, hotel, hote...","charlie, hotel, quarto","""quartos superiores"" (loft), ""metrô"" (subway)...","I'm not sure what that means, but I do know t..."
2,"A localização do hotel é muito boa , porém as ...","[atendimento, localizacao, recepcao, hotel]",localizacao hotel boa porem partes comuns pequ...,"[localizacao, hotel, boa, porem, diaria, recep...","[localizacao, hotel, boa, porem, cafe, atendim...",[4],"[localizacao, hotel, boa, porem, diaria, recep...",[4],"[localizacao, hotel, boa, porem, diaria, recep...","[cafe, recepcao, manha, boa, diaria, hotel, po...","Accor, Accor, Accor, Accor, Accor, Accor, Acco...","localizacao, part, star",": localização, hotel, pequena, comum, classif...",Do you speak any other languages? I speak Spa...
3,"A localização é muito boa, pois fica no centro...","[atendimento, hotel, localizacao]",localizacao boa pois fica centro cidade atendi...,"[localizacao, boa, pois, fica, centro, cidade,...","[localizacao, boa, fica, centro, atendimento, ...",[],"[localizacao, boa, pois, fica, centro, cidade,...",[],"[localizacao, boa, pois, fica, centro, cidade,...","[boa, atendimento, centro, hotel, pois, cidade...","localization, localization, localization, loca...","cidade, localizaço, hotel","a very good location, since it is located in ...","Wow, that's a lot of words. I didn't know the..."
4,A única coisa que ainda passa é o café da manh...,"[quarto, chuveiro]",unica coisa ainda passa cafe manha mediano qua...,"[cafe, manha, quartos, pequenos, banheiro, poi...","[cafe, quartos, tudo]",[],"[cafe, manha, quartos, banheiro, pois, tudo]",[],"[cafe, manha, quartos, banheiro, pois, tudo]","[cafe, pequenos, quartos, manha, banheiro, poi...","ainda passa, manhã mediano, quartos, quartos, ...","banho, passa, quarto","pequeno, antigo, mediano, rir, fazer, fisioló...","I love french cuisine, but I don't know how t..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
179,Ótima localização em frente a uma estação do m...,"[rua, quarto, localizacao, praca, hotel]",otima localizacao frente estacao metro praca f...,"[otima, localizacao, frente, estacao, metro, p...","[otima, localizacao, frente, estacao, metro, p...",[],"[otima, localizacao, frente, estacao, metro, p...",[],"[otima, localizacao, frente, estacao, metro, p...","[paris, cafe, estacao, quartos, recomendo, pro...","Paris, localization, localization, localizatio...","localizacao, praça, rua",'Ótima localização em frente a uma estação do...,"I'm not sure what that means, but I do know t..."
180,"Ótima localização, a 20 minutos aproximadament...","[localizacao, hotel, cama, quarto, cozinha]",otima localizacao 20 minutos aproximadamente t...,"[otima, localizacao, torre, perto, metro, hote...","[otima, localizacao, perto, metro, hotel, quar...",[],"[otima, localizacao, torre, perto, metro, hote...",[],"[otima, localizacao, torre, perto, metro, hote...","[cama, torre, vista, hotel, quarto, confortave...","aproximadamente, localization, localization, l...","eiffel, hotel, quarto","the following words: Ótima localização, a 20 ...","I have never been to Paris, but I would love ..."
181,"Ótima localização, café farto e delicioso, chu...","[localizacao, cama, chuveiro, atendimento, lim...",otima localizacao cafe farto delicioso chuveir...,"[otima, localizacao, cafe, banheiro, limpo, ca...","[otima, localizacao, cafe, limpo, cama, atendi...",[],"[otima, localizacao, cafe, banheiro, limpo, ca...",[],"[otima, localizacao, cafe, banheiro, limpo, ca...","[cafe, cama, ficamos, banheiro, limpo, atendim...","café farto, cama maravilhosa, café farto, loca...","banheiro, cama, chuveiro, delicioso, farto, ch...","[""Ótima"", ""localização"", ""café"", ""farto"", ""ch...","I'm not sure what you are trying to say, but ..."
182,"Ótima localização. Fica na strip, ao lado do b...",[estacionamento],otima localizacao fica strip lado belaggio pra...,"[otima, localizacao, fica, quarto, hoteis, rec...","[otima, localizacao, fica, strip, pra, quarto,...",[coisas],"[otima, localizacao, fica, quarto, hoteis, rec...",[coisas],"[otima, localizacao, fica, quarto, hoteis, rec...","[preco, hoteis, coisas, recomendo, strip, bom,...","localization, localization, localization, loca...","localizacao, recomendo, reserva","Ótima localização, Fica na strip, ao lado do ...","I don't know what tremendous umtrem is, but I..."


## With custom list

### Getting results:

In [5]:
all_results_with_list = []

#### Phi-Bode

In [6]:
question_text = f"Com base nesta lista de palavras {unique_elements}, retorne apenas as palavras que estão na seguinte frase:"           
template = """Questão: {question}
Resposta: A lista é """

all_results_with_list.append(RunLLM(llm_bode, df, question_text, template, llmbode=1))

429 Client Error: Too Many Requests for url: https://api-inference.huggingface.co/models/recogna-nlp/Phi-Bode (Request ID: keHjl0dBHezk2ctgJFCC4)

Rate limit reached. You reached free usage limit (reset hourly). Please subscribe to a plan at https://huggingface.co/pricing to use the API at this rate
429 Client Error: Too Many Requests for url: https://api-inference.huggingface.co/models/recogna-nlp/Phi-Bode (Request ID: RIBuGxLSHkUGcObe0ygke)

Rate limit reached. You reached free usage limit (reset hourly). Please subscribe to a plan at https://huggingface.co/pricing to use the API at this rate
429 Client Error: Too Many Requests for url: https://api-inference.huggingface.co/models/recogna-nlp/Phi-Bode (Request ID: Y-Nu83Ln-hGchF6Ko64YV)

Rate limit reached. You reached free usage limit (reset hourly). Please subscribe to a plan at https://huggingface.co/pricing to use the API at this rate
429 Client Error: Too Many Requests for url: https://api-inference.huggingface.co/models/recogna-

#### Vlt5

In [7]:
question_text = f"Based in this list of words {unique_elements}, return only the list of words that are in the following sentence:"           
template = """Question: {question}
Answer: The list is """

all_results_with_list.append(RunLLM(llm_vlt5, df, question_text, template))

  warn_deprecated(
  warn_deprecated(


500 Server Error: Internal Server Error for url: https://api-inference.huggingface.co/models/Voicelab/vlt5-base-keywords (Request ID: -e6CYNyPPUmVXNrn77Des)
500 Server Error: Internal Server Error for url: https://api-inference.huggingface.co/models/Voicelab/vlt5-base-keywords (Request ID: yVxcvgs4nRvSE1XQAS8BE)
500 Server Error: Internal Server Error for url: https://api-inference.huggingface.co/models/Voicelab/vlt5-base-keywords (Request ID: xxE8fXATFkzxqpagWzzg7)
Tempo decorrido: 1467.1695261001587 segundos



#### Google

In [10]:
all_results_with_list.append(RunLLM(llm_google, df, question_text, template))

422 Client Error: Unprocessable Entity for url: https://api-inference.huggingface.co/models/google/flan-t5-xxl (Request ID: yqbFTN4_lfLmPeT4ebSRA)

Input validation error: `inputs` tokens + `max_new_tokens` must be <= 1024. Given: 1034 `inputs` tokens and 100 `max_new_tokens`
Make sure 'text2text-generation' task is supported by the model.
422 Client Error: Unprocessable Entity for url: https://api-inference.huggingface.co/models/google/flan-t5-xxl (Request ID: CgAluBOJshvcGVhknyFgE)

Input validation error: `inputs` tokens + `max_new_tokens` must be <= 1024. Given: 1523 `inputs` tokens and 100 `max_new_tokens`
Make sure 'text2text-generation' task is supported by the model.
Tempo decorrido: 745.0241675376892 segundos



#### BigScience

In [11]:
all_results_with_list.append(RunLLM(llm_bigscience, df, question_text, template))

502 Server Error: Bad Gateway for url: https://api-inference.huggingface.co/models/bigscience/bloom
502 Server Error: Bad Gateway for url: https://api-inference.huggingface.co/models/bigscience/bloom
Tempo decorrido: 4537.331174135208 segundos



#### Face

In [13]:
all_results_with_list.append(RunLLM(llm_face, df, question_text, template))

Tempo decorrido: 595.7228946685791 segundos



#### USKE

In [14]:
import sys
sys.path.append('../terms_extraction/')

from terms_extractor import terms_extractor

inicio = time.time()

extract, processed_df = terms_extractor(data=df, extract=unique_elements, 
                                        target_column='review', verbose=1)

fim = time.time()

processed_df.reset_index(drop=True, inplace=True)

display(processed_df)

tempo_decorrido = fim - inicio
print("Tempo decorrido:", tempo_decorrido, "segundos")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!



Defined pipeline: ['transform_to_lowercase', 'remove_special_characters'] 

Preprocess --> transform_to_lowercase
Converting text to lowercase...
Done!

Preprocess --> remove_special_characters
Removing special characters from text...
Done!



This stage can take several minutes...

Terms extraction with your list...


Processing column prep: 100%|██████████| 184/184 [00:00<00:00, 56045.89it/s]

Done!







Unnamed: 0,review,aspect,prep,your list
0,"A 4 quadras do Central Park , ótimo lugar para...","[quarto, cozinha, suite]",a 4 quadras do central park otimo lugar para d...,"[cozinha, suite]"
1,A comodidade dos quartos do hotel e a facilida...,"[quarto, hotel, atendimento]",a comodidade dos quartos do hotel e a facilida...,"[hotel, atendimento]"
2,"A localização do hotel é muito boa , porém as ...","[atendimento, localizacao, recepcao, hotel]",a localizacao do hotel e muito boa porem as pa...,"[localizacao, hotel, instalacoes, recepcao, co..."
3,"A localização é muito boa, pois fica no centro...","[atendimento, hotel, localizacao]",a localizacao e muito boa pois fica no centro ...,"[localizacao, cidade, atendimento, hotel]"
4,A única coisa que ainda passa é o café da manh...,"[quarto, chuveiro]",a unica coisa que ainda passa e o cafe da manh...,[chuveiro]
...,...,...,...,...
179,Ótima localização em frente a uma estação do m...,"[rua, quarto, localizacao, praca, hotel]",otima localizacao em frente a uma estacao do m...,"[localizacao, praca, hotel]"
180,"Ótima localização, a 20 minutos aproximadament...","[localizacao, hotel, cama, quarto, cozinha]",otima localizacao a 20 minutos aproximadamente...,"[localizacao, hotel, quarto, cozinha, cama, ca..."
181,"Ótima localização, café farto e delicioso, chu...","[localizacao, cama, chuveiro, atendimento, lim...",otima localizacao cafe farto e delicioso chuve...,"[localizacao, chuveiro, cama, limpeza, atendim..."
182,"Ótima localização. Fica na strip, ao lado do b...",[estacionamento],otima localizacao fica na strip ao lado do bel...,"[localizacao, estacionamento, quarto, preco]"


Tempo decorrido: 0.0312349796295166 segundos


### Transforming the results into CSV

In [15]:
df_final = pd.DataFrame(all_results_with_list).transpose()
df_final.columns = ['Bode', 'vlt5', 'Google', 'BigScience', 'Facebook']
df_final = processed_df.merge(df_final, left_index=True, right_index=True)

display(df_final)

df_final.to_csv('Results_with_list.csv', index=False)

Unnamed: 0,review,aspect,prep,your list,vlt5,Google,BigScience,Facebook
0,"A 4 quadras do Central Park , ótimo lugar para...","[quarto, cozinha, suite]",a 4 quadras do central park otimo lugar para d...,"[cozinha, suite]","Central Park, corrida, caminhada, quarto, quar...","quarto, hotel, quarto, quarto, quarto, quarto,...","['quadra', 'park', 'central', 'mesa', 'caminh...","I'm not sure what ""travail"" means, but I do k..."
1,A comodidade dos quartos do hotel e a facilida...,"[quarto, hotel, atendimento]",a comodidade dos quartos do hotel e a facilida...,"[hotel, atendimento]","a comodidade, hotel, hotel, hotel, hotel, hote...","comodidade, quartos, hotel, atendimento, preco...","['comodidade', 'quartos', 'facilidade', 'desl...","I'm not sure what ""travail"" means, but I do k..."
2,"A localização do hotel é muito boa , porém as ...","[atendimento, localizacao, recepcao, hotel]",a localizacao do hotel e muito boa porem as pa...,"[localizacao, hotel, instalacoes, recepcao, co...","Accor, Accor, hotel, hotel 4 estrelas, hotel 4...","localizacao, quarto, hotel, atendimento, preco...","['hotel', 'localizacao', 'apartamento', 'gere...","I'm not sure what ""travail"" means, but I do k..."
3,"A localização é muito boa, pois fica no centro...","[atendimento, hotel, localizacao]",a localizacao e muito boa pois fica no centro ...,"[localizacao, cidade, atendimento, hotel]","atendimento, localização, funcionarios, funcio...","localizacao, quarto, hotel, atendimento, preco...","['localizacao', 'atendimento', 'ba', 'entrada...","I'm not sure what ""travail"" means, but I do k..."
4,A única coisa que ainda passa é o café da manh...,"[quarto, chuveiro]",a unica coisa que ainda passa e o cafe da manh...,[chuveiro],"cama, café, chuveiro, chuveiro, chuveiro, chuv...","quarto, hotel, quarto, chuveiro, jantar, escad...","['banheiro', 'banheira', 'casal', 'chuveiro',...","I'm not sure what ""travail"" means, but I do k..."
...,...,...,...,...,...,...,...,...
179,Ótima localização em frente a uma estação do m...,"[rua, quarto, localizacao, praca, hotel]",otima localizacao em frente a uma estacao do m...,"[localizacao, praca, hotel]","aeroporto, localização, quarto, quarto de hote...","localizacao, praça, feira, rua, praça, estaço,...","['cama', 'piscina', 'estacionamento', 'calefa...","I'm not sure what ""travail"" means, but I do k..."
180,"Ótima localização, a 20 minutos aproximadament...","[localizacao, hotel, cama, quarto, cozinha]",otima localizacao a 20 minutos aproximadamente...,"[localizacao, hotel, quarto, cozinha, cama, ca...","aeroporto, hotel, hotel, hotel, hotel, hotel, ...","localizacao, Charles, Eiffel, quarto, vista, T...","['20 minutos aproximadamente', 'aproximadamen...","I'm not sure what ""travail"" means, but I do k..."
181,"Ótima localização, café farto e delicioso, chu...","[localizacao, cama, chuveiro, atendimento, lim...",otima localizacao cafe farto e delicioso chuve...,"[localizacao, chuveiro, cama, limpeza, atendim...","café farto, café limpo, café delicioso, café f...","localizacao, café, chuveiro, banheiro, cama, l...","['cama', 'cafe', 'localizacao', 'banheiro', '...","I'm not sure what ""travail"" means, but I do k..."
182,"Ótima localização. Fica na strip, ao lado do b...",[estacionamento],otima localizacao fica na strip ao lado do bel...,"[localizacao, estacionamento, quarto, preco]","information, localização, quarto, quarto, quar...","localizacao, quarto, hotel, quarto, trem, reso...","['cama', 'piscina', 'estacionamento', 'calefa...","I'm not sure what ""travail"" means, but I do k..."
