# <center>__MÉTODOS NUMÉRICOS__</center>
## <center>__PROJETO DA UNIDADE 2__</center>

#### <center>__ALUNO:__ Maria Luíza Teixeira Nascimento.</center>

####<center>__Tema__: Modelagem de Tópicos com NMF e SVD.</center>

<div class="alert alert-block alert-info">
1. INTRODUÇÃO
</div>

<p>O tema escolhido foi <strong>"Modelagem de Tópicos com NMF"</strong>.</p> 

<h5>Mas o que é Modelagem de Tópicos?</h5>

<p>SCHONS (2007) refletia que as grandes quantidades de informações/dados que a cada ano aumenta propicionava "um grande espaço emaranhado de nós interconectados desprovidos de qualquer organização". Atentava também a importância de termos e desenvolvermos meios de manter essas informações de algum modo organizadas e que conseguissemos <strong>encontrar</strong> e termos <strong>informações relevantes</strong> do que queremos produzir ou consumir.</p>

<p>A modelagem chega como uma <strong>decomposição de objetos em elementos em comum, com base no que é retratato internamente (conteúdo)</strong>. Vemos a Modelagem de Tópicos na pesquisa de RODRIGUES (2019) na construção de indicadores econômicos ou mais recentemente no trabalho de BARATIERI (2021) na pesquisa sobre o novo coronavírus.</p>

<h5>Como o projeto foi feito?</h5>

<p>Após pesquisar aprofundadas sobre o assunto, foi compreendido a forma de como o projeto seria realizado e o que seria esperado. Utilizando técnicas básicas (aprendidas em Estátistica) com <strong>pandas</strong> e <strong>numpy</strong>. Além de ferramentas como <strong>sklearn</strong> e <strong>wordcloud</strong> (Para gerar uma "nuvem" com dados, ficando mais apresentável a visualização de dados).</p>

<p>Temos bibliotecas para a <strong>Manipulação de Dados</strong>, para a <strong>Visualização de Dados</strong>, bem como para o <strong>Topic Modeling</strong> e os <strong>Processamento de Linguagem Natural</strong>.</p>


<div class="alert alert-block alert-info">
2. DESCRIÇÃO DO PROBLEMA
</div>

<p>O cenário escolhido nesse projeto é um DataSet com as colunas de: <strong>User_ID</strong>, <strong>Description</strong>, <strong>Browser_User</strong>, <strong>Device_Used</strong> e <strong>Is_Response</strong>. Que contemplam a opnião dos usuários a vários hoteis da Europa. </p>

<p>E com esse DataSet vamos explorar através da seção/coluna <strong>"Description"</strong> e analisar os comentários dos usuário a respeito da experiência que eles tiveram dos Hoteis (Nomes não especificados) localizados na Europa.</p>

<p>Através dessa descrição conseguiremos fazer uma analise das palavras relevantes que expressem a opinião dos usuários e assim categorizá-los em tópicos a respeito das experiências dos usuários.</p>

<p><strong>Dentre outras aplicações podemos ver o Topic Modeling em</strong>: Modelos de tópicos são muito úteis para fins de agrupamento de documentos, organização de grandes blocos de dados textuais, recuperação de informações de texto não estruturado e seleção de recursos. Por exemplo – o New York Times está usando modelos de tópicos para impulsionar seus usuários – mecanismos de recomendação de artigos. Vários profissionais estão usando modelos de tópicos para indústrias de recrutamento, onde visam extrair características latentes das descrições de cargos e mapeá-las para os candidatos certos. Eles estão sendo usados ​​para organizar grandes conjuntos de dados de e-mails, avaliações de clientes e perfis de mídia social de usuários.</p>

<div class="alert alert-block alert-danger">
3. MÉTODOS APLICADOS À SOLUÇÃO
</div>

<p>Usaremos o <strong>numpy</strong> e <strong>pandas</strong> para a <strong>Manipulação de dados</strong>, como leitura do arquivo.csv, criação do DataFrame, manipulação do DataFrame para accessar um groupo de linhas e colunas pelo nome e outras funções básicas de manipulação.</p>

<p>A biblioteca de <strong>sklearn</strong> é provavelmente a biblioteca mais útil para aprendizado de máquina em Python. A biblioteca sklearn contém muitas ferramentas eficientes para aprendizado de máquina e modelagem estatística, incluindo classificação, regressão, agrupamento e redução de dimensionalidade. Fundamental para o uso do <strong>NMF</strong></p>

<p>E por fim, temos o <strong>scapy</strong> sendo é um poderoso programa interativo de manipulação de pacotes e processamento de texto, juntamente com o <strong>GENSIM</strong>. Em geral, é um pacote útil para pré-processamento de texto é o spaCy, que oferece tokenização não destrutiva, reconhecimento de entidade nomeada, vetores de palavras pré-treinados, segmentação de frases orientada por sintaxe etc.</p>

<div class="alert alert-block alert-info">
4. IMPLEMENTAÇÃO
</div> 

In [1]:
import numpy as np
import pandas as pd

from sklearn.decomposition import NMF
from sklearn import decomposition
from sklearn.decomposition import LatentDirichletAllocation as LDA

import spacy
import en_core_web_sm
from spacy.lang.en import English
nlp = en_core_web_sm.load()

<p>Acima foi feito a importação de <strong>todas</strong> as bibliotecas utilizadas. Os dois primeiros para a <strong>Manipulação de Dados</strong>, o terceiro para a <strong>Visualização de Dados</strong>, logo em seguida temos as bibliotecas para <strong>Topic Modeling</strong> e os últimos para o <strong>Processamento de Linguagem Natural</strong>.</p>

<div class="alert alert-block alert-warning">
<center><p>O projeto foi feito no <strong>Google Colab</strong>, pelo motivo de maior facilidade de usar o Colab. Por esse motivo, a leitura do DataSet é diferente do que seria visto no Jupyter Notebook.</p></center>
</div>

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
df = pd.read_csv('/content/drive/My Drive/hotel-reviews.csv')
df.head()

Unnamed: 0,User_ID,Description,Browser_Used,Device_Used,Is_Response
0,id10326,The room was kind of clean but had a VERY stro...,Edge,Mobile,not happy
1,id10327,I stayed at the Crown Plaza April -- - April -...,Internet Explorer,Mobile,not happy
2,id10328,I booked this hotel through Hotwire at the low...,Mozilla,Tablet,not happy
3,id10329,Stayed here with husband and sons on the way t...,InternetExplorer,Desktop,happy
4,id10330,My girlfriends and I stayed here to celebrate ...,Edge,Tablet,not happy


<p>Acima fizemos a importação da planilha que estaremos analisando. Ela é dividade em 5 colunas: <strong>User_ID</strong>, <strong>Description</strong>, <strong>Browser_User</strong>, <strong>Device_Used</strong> e <strong>Is_Response</strong>.</p>
<p>Essa planilha analisa os comentários/review de usuários a respeito de um hotel. Mas dese DataSet estaremos interessados na <strong>Description</strong>. O link para baixar e ou ver mais informações da planilha estará na seção <strong>Referências Bibliográficas</strong>.</p>

In [4]:
df["Review"] = df["Description"]
df = df[["Review"]]
df

Unnamed: 0,Review
0,The room was kind of clean but had a VERY stro...
1,I stayed at the Crown Plaza April -- - April -...
2,I booked this hotel through Hotwire at the low...
3,Stayed here with husband and sons on the way t...
4,My girlfriends and I stayed here to celebrate ...
...,...
38927,We arrived late at night and walked in to a ch...
38928,The only positive impression is location and p...
38929,Traveling with friends for shopping and a show...
38930,The experience was just ok. We paid extra for ...


<p>Como o nosso foco é o "Description", fiz um DataFrame apenas com os dados da Description e nomei como "Review". Assim, não precisariamos ficar vendo dados/colunas que não estamos trabalhando.</p>

In [5]:
df = df[:500]
df

Unnamed: 0,Review
0,The room was kind of clean but had a VERY stro...
1,I stayed at the Crown Plaza April -- - April -...
2,I booked this hotel through Hotwire at the low...
3,Stayed here with husband and sons on the way t...
4,My girlfriends and I stayed here to celebrate ...
...,...
495,Hotel is modern and attractive. Convenient to ...
496,We were there in October at an unseasonally wa...
497,We only spent one day & night and it was amazi...
498,"The property itself is clean, well-presented a..."


<p>Como o Dataframe (DF) que estamos trabalhando contém 38932 linhas, eu separei para trabalharmos com apenas 500.</p>

In [6]:
def extraindoPalavras(texts, sintaxe):
  output = []
  for doc in nlp.pipe(texts):
    nouns = " ".join(token.lemma_ for token in doc if token.pos_ == sintaxe)
    output.append(nouns)
  return output

df['Review_Substantivos'] = extraindoPalavras(df.loc[:,'Review'], 'NOUN')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [7]:
df

Unnamed: 0,Review,Review_Substantivos
0,The room was kind of clean but had a VERY stro...,room smell dog stay price breakfast
1,I stayed at the Crown Plaza April -- - April -...,staff elevator food restaurant side pool child...
2,I booked this hotel through Hotwire at the low...,hotel price desk manager smoking room baby roo...
3,Stayed here with husband and sons on the way t...,husband son way hotel experience room tower vi...
4,My girlfriends and I stayed here to celebrate ...,girlfriend birthday weekend room rate room nig...
...,...,...
495,Hotel is modern and attractive. Convenient to ...,hotel location couple block staff coffee lobby...
496,We were there in October at an unseasonally wa...,time pool gear poosl husband family night prop...
497,We only spent one day & night and it was amazi...,day night hotel friend family thing stay room ...
498,"The property itself is clean, well-presented a...",property airport hotel property deal business ...


In [8]:
df['Review'][0]

"The room was kind of clean but had a VERY strong smell of dogs. Generally below average but ok for a overnight stay if you're not too fussy. Would consider staying again if the price was right. Breakfast was free and just about better than nothing."

In [9]:
df['Review_Substantivos'][0]

'room smell dog stay price breakfast'

<p>Um exemplo de comparação do dataframe puro e o dataframe com apenas os substantivos.</p>

<p>Acima, foi feito uma operação que utiliza: <strong>spacy</strong>, <strong>en_core_web_sm</strong> e <strong>nlp</strong>. Para percorremos as linhas dos documentos e extrair os subtantivos dos "Review. Como o texto está em inglês, foi usado "en_core_web_sm.load" e passamos como parâmetro a palavra "NOUN" para reconhecer os substantivos em inglês. Usamos os "token" porque é uma operação que é utilizada pelo mecanismo Analítica de Texto para conduzir a análise morfológica, como detectar os limites de token e partes do discurso. E ao final gerei um novo DF que contem apenas os substantivo, chamado "Review_Substantivos".</p>

<p>A partir do código abaixo, começamos a utilizar os conhecimentos sobre NMF, a Fatoração de Matrizes Não negativas é uma ferramenta possui aplicações em mineração de texto. É um método estatístico que nos ajuda a reduzir a dimensão dos corpora ou corpora de entrada. <strong>Um detalhe importante: </strong> O NMF é um algoritmo determinístico que chega a uma única representação do corpus em termos de tópicos.</p>

In [10]:
from gensim.corpora.dictionary import Dictionary

In [11]:
df_visualizacao_coeficientes = df.Review_Substantivos.str.split(" ")
dct = Dictionary(df_visualizacao_coeficientes)
dct.filter_extremes(no_below=5, no_above=0.95)

In [12]:
bow = df_visualizacao_coeficientes.apply(dct.doc2bow)
bow

0       [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1)]
1      [(3, 2), (6, 1), (7, 1), (8, 1), (9, 1), (10, ...
2      [(0, 1), (2, 1), (3, 7), (13, 1), (31, 1), (35...
3      [(3, 3), (8, 1), (17, 1), (43, 1), (49, 2), (5...
4      [(2, 1), (3, 4), (5, 1), (32, 1), (36, 1), (43...
                             ...                        
495    [(14, 1), (16, 1), (21, 1), (31, 2), (37, 1), ...
496    [(27, 1), (58, 1), (69, 1), (87, 3), (91, 1), ...
497    [(3, 1), (5, 1), (13, 1), (26, 1), (36, 1), (4...
498    [(2, 1), (3, 4), (5, 1), (10, 1), (13, 1), (14...
499    [(0, 1), (3, 3), (10, 1), (13, 1), (28, 1), (4...
Name: Review_Substantivos, Length: 500, dtype: object

<p>O NMF nos dará duas matrizes: uma matriz com tópicos por palavras e a matriz de coeficientes H com documentos por tópicos. Como podemos mostrar abaixo, para isso usaremos recursos extras como o <strong>from gensim.corpora.dictionary import Dictionary</strong>. Mas para diferente do que estamos fazendo, precisamos dividir as palavras com o split (Para isso, temos o df "df_visualizacao_coeficientes"), depois definir quais são os parâmetros dos coeficientes que queremos. Por exemplo, não mostraremos palavras que aparecem menos que 7 vezes. E por fim, usar o "doc2bow" que nos mostrará o resultado propriamente dito.</p>

In [13]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

vec = TfidfVectorizer( max_features=5000, max_df=0.95, min_df=5)

texto = vec.fit_transform(df.loc[:, 'Review_Substantivos'])

<p>Voltando para o percursso previsto, temos agora a seleção dos termos mais importante dentro de um documento. Foi implementado o código acima que é o nosso ponto de partida para a seleção de tópicos importante + a formulação dos tópicos (prints e visualização).</p>

<p>Para isso, usamos o sklearn com o CountVectorizer e o TfidfVectorizer, que de acordo com a documentação temos: "Convert a collection of text documents to a matrix of token counts." e "Convert a collection of raw documents to a matrix of TF-IDF features." respectivamente.</p>

<p>Sobre os atributos de "TfidfVectorizer", temos o valor máximo de palavras mais frequentes, informando também o maximo em porcentagem que uma palavra pode aparecer(95%) e o minimo que uma palavra pode aparecer (2). Por fim, aplicamos esse método na coluna de "Review_Susbtantivos".</p>

In [14]:
n_topics = 500 #Numeros de Tópicos
random_state = 1
nmf = NMF(n_components=n_topics, random_state=random_state, init=None)
nmf.fit(texto)

NMF(init=None, n_components=500, random_state=1)

<p>Acima temos a informação de quantos tópicos queremos e abaixo através da função imprimirTopicos temos o resultado de frequência das palavras chaves que buscamos.</p>

In [15]:
def imprimirTopicos(n_top_words, feature_names, nmf):
  for i, topic_vec in enumerate(nmf.components_):
    #print(i, end=' ')
    print("Tópico: ", i)
    for fid in topic_vec.argsort()[-1:-n_top_words-1:-1]:
      print(feature_names[fid], end=' ')
    print("\n")

imprimirTopicos(15, vec.get_feature_names(), nmf)




Tópico:  0
hotel room ground variety woman lady light bottle fee feature fare fan fact family facility 

Tópico:  1
car friend night minute stay pass concert area downside map direction ride group valet screen 

Tópico:  2
fitness service view room bed restaurant review area facility exit evening bag suite office meal 

Tópico:  3
hotel afternoon year fixture expectation experience facility fact family fan fare feature fee feel feeling 

Tópico:  4
bit smoker afternoon wait deal mile part option distance view balcony one tourist stain credit 

Tópico:  5
towel morning apology pm carpet smile call sheet furniture customer review one experience bit shower 

Tópico:  6
dollar dining star block street elevator bedroom map bath note advance boutique apartment area sort 

Tópico:  7
word reservation shopping deal week minute area price balcony bit site sheet building tub end 

Tópico:  8
mold hour lobby minute system fact one couple people way problem feature woman lounge point 

Tópico:  9


<p>Um detalhe importante que pode parecer confuso. É analisado a frequência das palavras por texto e muitas vezes desprezando a ordem "natural" que estamos vendo os dados, muito dados frequentes são colocados juntos e assim até o fim. Mas não está errado, é apenas uma leitura diferente que devemos ficar atento.</p>

<div class="alert alert-block alert-info">
5. CASOS DE USO
</div>

In [16]:
df_exercicio = pd.read_csv('/content/drive/My Drive/japanese_whisky_review.csv')
df_exercicio = df_exercicio.drop(columns=['Unnamed: 0'])
df_exercicio

Unnamed: 0,Bottle_name,Brand,Title,Review_Content
0,The Yamazaki Single Malt Whisky - Distiller’s ...,Yamazaki,Overpriced dissapointment,Dull taste. High price. No finish. Over-hyped ...
1,The Yamazaki Single Malt Whisky - Distiller’s ...,Yamazaki,Delicious,Delicious! sugared red fruits and sweet with a...
2,The Yamazaki Single Malt Whisky - Distiller’s ...,Yamazaki,Good for beginners. i know cos i am a beginner,I am not a whisky expert but i really love the...
3,The Yamazaki Single Malt Whisky - Distiller’s ...,Yamazaki,Yamazaki Tutorial,"This is a terrible Yamazaki. Very young, unsh..."
4,The Yamazaki Single Malt Whisky - Distiller’s ...,Yamazaki,Very Nice,First time and I like it - fresh but not thin ...
...,...,...,...,...
1125,Nikka 1995 Single Cask Coffey Grain,Nikka,Great whisky,Really enjoyed the flavour of this whisky... G...
1126,Nikka 1995 Single Cask Coffey Grain,Nikka,Phenomenal.,Given the slightly racist tone to the guy at t...
1127,Nikka 1995 Single Cask Coffey Grain,Nikka,Great.,The particular distillation process makes this...
1128,Nikka 1995 Single Cask Coffey Grain,Nikka,"It's whisky, not wine",That's probably why the previous poster though...


<p>Como estamos analisando as "reviews" (opiniões) dos usuários e consumidores, continuaremos nesse formato nesse exemplo.</p>
<p>Mas nesse caso, focaremos nos <strong>Adjetivos</strong>.</p>

In [17]:
df_exercicio.columns

Index(['Bottle_name', 'Brand', 'Title', 'Review_Content'], dtype='object')

In [18]:
df_exercicio["Review"] = df_exercicio["Review_Content"]
df_exercicio = df_exercicio[["Review"]]
df_exercicio

Unnamed: 0,Review
0,Dull taste. High price. No finish. Over-hyped ...
1,Delicious! sugared red fruits and sweet with a...
2,I am not a whisky expert but i really love the...
3,"This is a terrible Yamazaki. Very young, unsh..."
4,First time and I like it - fresh but not thin ...
...,...
1125,Really enjoyed the flavour of this whisky... G...
1126,Given the slightly racist tone to the guy at t...
1127,The particular distillation process makes this...
1128,That's probably why the previous poster though...


In [19]:
df_exercicio['Review_Adjetivos'] = extraindoPalavras(df_exercicio.loc[:,'Review'], 'ADJ')
df_exercicio

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,Review,Review_Adjetivos
0,Dull taste. High price. No finish. Over-hyped ...,dull high disappointing
1,Delicious! sugared red fruits and sweet with a...,red sweet morish cinnamon aromatic
2,I am not a whisky expert but i really love the...,comfortable cold rainy expensive well more oth...
3,"This is a terrible Yamazaki. Very young, unsh...",terrible young unsherried well new well well g...
4,First time and I like it - fresh but not thin ...,first fresh thin sweet empty
...,...,...
1125,Really enjoyed the flavour of this whisky... G...,great
1126,Given the slightly racist tone to the guy at t...,racist complex sublime worth
1127,The particular distillation process makes this...,particular unique perfect wide great
1128,That's probably why the previous poster though...,previous worth


In [20]:
texto = vec.fit_transform(df_exercicio.loc[:, 'Review_Adjetivos'])

In [21]:
n_topics = 500 #Numeros de Tópicos
random_state = 1
nmf = NMF(n_components=n_topics, random_state=random_state, init=None)
nmf.fit(texto)

NMF(init=None, n_components=500, random_state=1)

In [22]:
imprimirTopicos(10, vec.get_feature_names(), nmf)



Tópico:  0
great huge floral deep wonderful refreshing favorite fortunate flavorful flat 

Tópico:  1
good brilliant young few fresh free fortunate floral flavorful flat 

Tópico:  2
old aged lovely rich heavy few fresh free fortunate floral 

Tópico:  3
good delicate young few fresh free fortunate floral flavorful flat 

Tópico:  4
japanese first complex late young favourite free fortunate floral flavorful 

Tópico:  5
nice initial delicate hot late heavy young few free fortunate 

Tópico:  6
good delicious free surprised general fresh fortunate floral flavorful flat 

Tópico:  7
lucky free heavy hard fair young few fresh fortunate floral 

Tópico:  8
single hot crisp refreshing young fortunate floral flavorful flat first 

Tópico:  9
well green late harsh worthy favourite free fortunate floral flavorful 

Tópico:  10
amazing free creamy ok due proper well fine full fresh 

Tópico:  11
more free aged pricey flavorful young favourite fresh fortunate floral 

Tópico:  12
lovely low drun

In [29]:
df_exercicio2 = pd.read_csv('/content/drive/My Drive/books-reviews.csv')
df_exercicio2

Unnamed: 0,stars,comment,book_url
0,5.0,"Let me say at the outset of this review, that ...",https://www.amazon.com/dp/1492041130
1,1.0,Its Capitalism at its best. I read the book fr...,https://www.amazon.com/dp/1492041130
2,5.0,If you're looking to get started with data sci...,https://www.amazon.com/dp/1492041130
3,4.0,"In general, this is a good book. It covers a w...",https://www.amazon.com/dp/1492041130
4,5.0,I was an academic data scientist decades befor...,https://www.amazon.com/dp/1492041130
...,...,...,...
20642,3.0,This book offers nice information and thoughts...,https://www.amazon.com/dp/0980200482
20643,5.0,"Am disabled, retired RN, but always wished I w...",https://www.amazon.com/dp/0980200482
20644,3.0,At one point I considered library work as oppo...,https://www.amazon.com/dp/0980200482
20645,5.0,"Overall, I think this is an excellent resource...",https://www.amazon.com/dp/0980200482


<p>A versão original conta com: <strong>Estrelas (start) dadas pelos usuários</strong>, <strong>Comentários a respeito do livro (Comment)</strong> e <strong>O link para encontrar o livro online (Book_url)</strong>.</p> 

<p>Mas só estaremos focamos nos comentários (Comments), vamos também limitar o tamanho do nosso DataFrame em vez de ser 20.647 vamos para 1.000 (mil).</p>

In [30]:
df_exercicio2 = df_exercicio2[:1000]

In [31]:
df_exercicio2["Review"] = df_exercicio2["comment"]
df_exercicio2 = df_exercicio2[["Review"]]
df_exercicio2

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


Unnamed: 0,Review
0,"Let me say at the outset of this review, that ..."
1,Its Capitalism at its best. I read the book fr...
2,If you're looking to get started with data sci...
3,"In general, this is a good book. It covers a w..."
4,I was an academic data scientist decades befor...
...,...
995,A really great book to read... written very el...
996,Great book to understand simple topics of Stat...
997,"Flipped through the book, does have some key p..."
998,This book does an exceptionally good job of ex...


<p>Nessa analise focaremos novamente nos Adjetivos (ADJ).</p>

In [32]:
df_exercicio2['Review_Adjetivos'] = extraindoPalavras(df_exercicio2.loc[:,'Review'], 'ADJ')
df_exercicio2

Unnamed: 0,Review,Review_Adjetivos
0,"Let me say at the outset of this review, that ...",sheer single last many funny true fancy applie...
1,Its Capitalism at its best. I read the book fr...,good nearby other grayscale unacceptable cheap...
2,If you're looking to get started with data sci...,specific online great enough educational
3,"In general, this is a good book. It covers a w...",general good wide enough basic much ready subj...
4,I was an academic data scientist decades befor...,academic little general clear other more major...
...,...,...
995,A really great book to read... written very el...,great many statistical good non
996,Great book to understand simple topics of Stat...,great simple deep funny unorthodox more
997,"Flipped through the book, does have some key p...",key helpful
998,This book does an exceptionally good job of ex...,good mathematical great simple such advanced s...


In [33]:
texto2 = vec.fit_transform(df_exercicio2.loc[:, 'Review_Adjetivos'])

In [34]:
n_topics = 500 #Numeros de Tópicos
random_state = 1
nmf = NMF(n_components=n_topics, random_state=random_state, init=None)
nmf.fit(texto2)

NMF(init=None, n_components=500, random_state=1)

<p>Aplicamos os mesmo procedimetos que o exemplo anterior, o <strong>vec.fit_transform</strong>, vamos delimitar o número de tópicos para 500 e usaremos o <strong>NMF</strong>. Em seguida, faremos a etapa final: <strong>impressão dos tópicos</strong>.</p>

In [35]:
imprimirTopicos(7, vec.get_feature_names(), nmf)



Tópico:  0
practical exploratory non handy impressive young few 

Tópico:  1
great good neural large late young few 

Tópico:  2
easy organized random visual extra similar introductory 

Tópico:  3
perfect visual academic clear friendly engaging difficult 

Tópico:  4
helpful key useful late actionable pleasant efficient 

Tópico:  5
more rare fantastic functional fun full friendly 

Tópico:  6
other general wide readable young favorite few 

Tópico:  7
great advanced similar overwhelming young fun full 

Tópico:  8
relevant key understandable boring cheap enormous enough 

Tópico:  9
competent extra well boring online general past 

Tópico:  10
many overwhelming young fantastic functional fun full 

Tópico:  11
technical extra young visual entire reasonable effective 

Tópico:  12
many thorough happy similar young fun full 

Tópico:  13
unique advanced general huge final fine fast 

Tópico:  14
helpful informative appropriate various whole fast favorite 

Tópico:  15
first social bori

<div class="alert alert-block alert-info">
6. REFERÊNCIAS BIBLIOGRÁFICAS
</div>

<p>_______, Kunal. Python. Scikit-learn(sklearn) in Python – the most important Machine Learning tool I learnt last year!. https://www.analyticsvidhya.com/blog/2015/01/scikit-learn-python-machine-learning-tool/. 5 Jan de 2015. Acessado em: 10/03/2022</p>

<p>_______, Vladimir. 2014. https://www.kaggle.com/vvorotnikov. Acessado em: 13/03/2022.<strong>DataSet usado</strong></p>

<p>BANSAL, Shivam. Python. Beginners Guide to Topic Modeling in Python. https://www.analyticsvidhya.com/blog/2016/08/beginners-guide-to-topic-modeling-in-python/. 24 Ago de 2016. Acessado em: 10/03/2022.</p>

<p>BARGET, Monika. Python. Doing Digital History with Python III: topic modelling with Gensim, spaCy, NTLK and SciKit learn. 15 Jan de 2021. https://dhlab.hypotheses.org/1693. Acessado em: 10/03/2022</p>

<p>BARATIERI, Tatiane et al. Modelagem de tópicos de pesquisa sobre o novo coronavírus: aplicação do Latent Dirichlet Allocation/Modeling of research topics on the new coronavirus: application of Latent Dirichlet Allocation. Ciência, Cuidado e Saúde, v. 20, 2021. Acessado em: 07/03/2022</p>

<p>GOYAL, Chirag. Part 15: Step by Step Guide to Master NLP - Topic Modelling using NMF. https://www.analyticsvidhya.com/blog/2021/06/part-15-step-by-step-guide-to-master-nlp-topic-modelling-using-nmf/. Acessado em: 07/03/2022.</p>

<p>HAMDAOUI, Yassine. TF(Term Frequency)-IDF(Inverse Document Frequency) from scratch in python. https://towardsdatascience.com/tf-term-frequency-idf-inverse-document-frequency-from-scratch-in-python-6c2b61b78558. Acesso em 07/03/2022</p>

<p>HARMANSPREETSINGH. https://www.kaggle.com/harmanpreet93/hotelreviews. Acesso em: 02/03/2022 <strong>DataSet usado</strong></p>

<p>MARTYNETZ, Igor. Uso do spacy em NLP. https://medium.com/@igor.martynetz/uso-do-spacy-em-nlp-f8857980c1c2. Acesso em: 07/03/2022.</p>

<p>RODRIGUES, André Terreri. O poder da palavra: aplicação da modelagem de tópicos na construção de indicadores econômicos. 2019. Tese de Doutorado. Acessado em: 07/03/2022</p>

<p>SCHONS, Claudio Henrique. O volume de informações na Internet e sua desorganização: reflexões e perspectivas. Informação & Informação, v. 12, n. 1, p. 50-65, 2007. Acessado em: 07/03/2022</p>

<p>STECANELLA, Bruno. Understanding TF-ID: A Simple Introduction. https://monkeylearn.com/blog/what-is-tf-idf/. Acesso em 07/03/2022.</p>

<p>THATDATAANALYST.https://www.kaggle.com/koki25ando/contact. Acesso em: 10/03/2022. <strong>DataSet usado</strong><p>