# TERA - DSCSP - Aula 28
## Topic Analysis

#### Introdução

Na aula sobre clustering nós utilizamos diversos algoritmos de clustering e redução de dimensionalidade para conseguir encontrar relações de proximidade entre documentos. Entretanto, apesar de algoritmos como o PCA conseguirem representar reduzidamente o nosso conjunto de documentos, nós não conseguíamos interpretar o resultado obtido. Isso acontece porque o PCA encontra novos vetores de features que são combinações lineares do conjunto de palavras existentes. Esse fator pode não ser um problema se o que se deseja é apenas encontrar clusters sem interpretações mais profundas. Entretanto, muitas vezes gostaríamos de entender o racional por trás da geração dos clusters. Ainda mais, as vezes gostaríamos de reduzir um documento a um conjunto de palavras-chave que podem "resumir" o nosso documento e agrupá-las em **tópicos**. E é exatamente esse o objetivo dessa aula.

A área de topic analysis é de grande importância para Machine Learning, ou mais especificamente a área de Data Mining. A utilização de tópicos nos permite ter uma melhor e mais compacta representação dos nossos dados, principalmente quando temos um conjunto extenso de dados e atributos (features). 

Utilizar topic analysis em Natural Language Processing (NLP) é algo bem intuitivo. Nós naturalmente fazemos isso quando queremos organizar textos (documentos) em diferentes categorias, ou temas. Por exemplo, nós podemos ler artigos do Google News e dizer facilmente que um determinado artigo tem o tema "esporte", ou o tema "política". Nosso trabalho em topic analysis é o de conseguir desenvolver algoritmos de Machine Learning que possam encontrar automaticamente esses tópicos, ou temas, por nós.

Vamos definir a seguir alguns termos importantes que serão utilizados daqui por diante:
- **documentos**: são conjuntos de atributos (normalmente palavras) associadas a amostras de uma população (ex: artigos do wikipedia, texto de um livro etc)
- **atributos** (features): é o conjunto de variáveis observadas. Normalmente é um conjunto de palavras que compõe o vocabulário utilizado.
- **variável latente**: variáveis, ou atributos, implícitas no sistema. No nosso caso, podem representar os tópicos dos documentos.
- **vetor de atributos**: é a representação de um determinado documento a partir dos atributos pertencentes a ele
- **matriz de frequência de termos**: é o empilhamento de diversos vetores de atributos associados a cada documento. Cada documento representa uma linha na matriz, enquanto as colunas representam os atributos dos documentos.

<img src="./imagens/mat_freq.png" alt="Drawing" style="width: 500px;"/>

Vamos começar a praticar!

Primeiro vamos realizar os imports necessários

In [2]:
# Imports usados no curso
%matplotlib inline
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="ticks")
plt.rcParams['figure.figsize'] = (12.0, 8.0)

Obs: Lembre-se de colocar os datasets baixados dentro de uma pasta "`datasets`" na raiz da pasta clonada do repositório da aula!

In [3]:
# Pasta contendo os dados:
DATASET_FOLDER = '../datasets/'

Nós vamos começar utilizando o conhecido dataset de artigos do Wikipedia. Para começar leve, vamos replicar uma parte do código.

In [108]:
# Abra o dataset
df_wiki = pd.read_csv(os.path.join(DATASET_FOLDER, 'wikipedia_dataset_60.csv'), sep=',', names=['titulo', 'artigo', 'cluster'])

df_wiki.head(5)

Unnamed: 0,titulo,artigo,cluster
0,Black Sabbath,"Black Sabbath are an English rock band, formed...",Music
1,Lymphoma,Lymphoma is a type of blood cancer that occurs...,Sickness
2,Hepatitis C,Hepatitis C is an infectious disease affecting...,Sickness
3,HTTP cookie,"A cookie, also known as an HTTP cookie, web co...",Internet
4,Global warming,Global warming is the rise in the average temp...,Global_Warming


Lembre que os clusters indicados foram feitos apenas para fins didáticos. Na maioria das vezes nós não teremos informações a respeito da relação entre documentos. Realizar esse processo seria trabalhoso demais para a maioria das situações envolvendo Machine Learning. E é exatamente esse tipo de trabalho que queremos automatizar.

In [109]:
# Número aproximado de clusters
n_clusters = len(pd.unique(df_wiki['cluster']))
n_clusters

6

In [110]:
# Exemplo de um artigo:
# Vamos mostrar apenas 1000 caracteres
print("Black Sabbath: \n{} (...)".format(df_wiki[df_wiki.titulo=='Black Sabbath']['artigo'].values[0][:1000]))

Black Sabbath: 
Black Sabbath are an English rock band, formed in Birmingham in 1968, by guitarist Tony Iommi, bassist Geezer Butler, singer Ozzy Osbourne, and drummer Bill Ward. The band has since experienced multiple line-up changes, with Tony Iommi the only constant presence in the band through the years. Originally formed in 1968 as a heavy blues rock band named Earth, the band began incorporating occult themes with horror-inspired lyrics and tuned-down guitars. Despite an association with occult and horror themes, Black Sabbath also composed songs dealing with social instability, political corruption, the dangers of drug abuse and apocalyptic prophecies of the horrors of war. Osbourne's heavy drug use led to his dismissal from the band in 1979. He was replaced by former Rainbow vocalist Ronnie James Dio. After a few albums with Dio's vocals and songwriting collaborations, Black Sabbath endured a revolving line-up in the 1980s and '90s that included vocalists Ian Gillan, Glenn Hugh

Vamos criar agora um embedding para esse texto. Nós utilizaremos uma abordagem de Bag-of-Words (BOW) para esse problema. Mais especificamente, vamos utilizar o Tf-Idf com um tamanho de vocabulário de 15000 palavras.

In [111]:
# Importe o método TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# Crie o vetor de embeddings Tf-Idf
# Vamos definir o número máximo de palavras do nosso dicionário (número de dimensões)
# igual a 15000. 
# Também utilizamos um corte em termos muito frequentes em um dado
# documento: max_df=0.8
# Igualmente, realizamos um corte de termos muito pouco frequentes: min_df=0.01
# O parâmetro sublinear_tf utiliza a função 1+log(tf) em vez de uma função linear
# para calcular o peso da frequência de cada termo. Isso permite uma função mais "suave"
# use_idf: Utiliza o inverso da frequência do documento para recriar os pesos da matriz
tfidf = TfidfVectorizer(max_df=0.8, min_df=0.01, max_features=15000, sublinear_tf=True, use_idf=True)

# Precisamos extrair os artigos e títulos do dataframe
titles = df_wiki['titulo'].values
articles = df_wiki['artigo'].values

# Aplique a transformação nos artigos
X = tfidf.fit_transform(articles)

# Tamanho do dataset
X.shape

(58, 15000)

Veja algumas palavras que fazem parte do nosso vocabulário.

In [112]:
list(tfidf.vocabulary_.keys())[:20]

['opined',
 'tipshallen',
 'disapproving',
 'donated',
 'currently',
 'stratosphere',
 'boycott',
 'scooter',
 'vasoconstriction',
 'reductions',
 'valentine',
 'gone',
 'hagel',
 'quickly',
 'monica',
 'born',
 'lucia',
 'adoptions',
 'sexual',
 'colossus']

Note que temos 58 documentos (número de linhas) por 15000 atributos (palavras - colunas). Essa matriz é o que definimos anteriormente por **matriz de frequência de palavras**.

Como temos uma dimensão muito elevada, nós podemos realizar algumas alternativas para reduzir a dimensionalidade. A primeira alternativa é o PCA, mas, como já dissemos anteriormente, ele não nos permite ter uma interpretação dos resultados. Portanto, precisamos de outras alternativas.

## Non-Negative Matrix Factorization (NMF)

O [NMF](https://en.wikipedia.org/wiki/Non-negative_matrix_factorization) é um algoritmo poderoso (apesar de relativamente simples) para encontrar tópicos em um conjunto de documentos e features. Ele se baseia em um processo de decomposição de matrizes para criar uma representação adequada da matriz de frequência de palavras (denotado por **A**). Mais especificamente, o NMF decompõe a matriz de frequência de palavras em duas: a primeira é a matriz de pesos (chamada de **W**), com as linhas representando os documentos e as colunas indicando os tópicos; e a segunda é a matriz de atributos (chamada de **H**), com as linhas indicando os tópicos e as colunas os atributos. O número de tópicos é definido antecipadamente e é fixo.

<img src="../imagens/nmf_draw.png" alt="Drawing" style="width: 500px;"/>

As duas matrizes são formadas a partir de um processo iterativo de otimização (veja esse [link](http://www.columbia.edu/~jwp2128/Teaching/E4903/papers/nmf_nature.pdf) para mais detalhes) com o objetivo de reconstruir fielmente a matriz **A**. Entretanto, para esse fim, a matriz **A** não pode possuir entradas negativas.

Vamos aplicar esse método no problema dos artigos do Wikipedia!

In [9]:
# Primeiro, importe o módulo NMF do scikit-learn
from sklearn.decomposition import NMF

# Precisamos criar a instância do NMF
# Temos que definir um número de componentes para o NMF
# Como temos 6 clusters, vamos escolher n_components=6
nmf = NMF(n_components=6)

# Agora vamos utilizar os mesmos atributos fit, transform ou fit_transform
# que já conhecemos do universo do sklearn
W_nmf = nmf.fit_transform(X)

# Vamos ver qual é a dimensão de W_nmf
W_nmf.shape

(58, 6)

Note que o número de linhas se manteve em 58, que é o número de documentos (artigos) que nós temos, e o número de colunas se transformou em 6, que é o número de tópicos que nós escolhemos. Essa matriz gerada representa a matriz **W** (matriz de pesos) da fatoração de matrizes.

Vamos agora achar a matriz **H** que representa a matriz de atributos.

In [10]:
nmf.components_.shape

(6, 15000)

Note que o número de linhas é igual ao número de tópicos e o número de colunas representa o número de palavras no nosso vocabulário. Cada linha da matriz é definida como um componente (assim como o PCA possui os componentes principais) que está associado a um tópico específico. Entretanto, diferentemente do PCA, nós podemos associar cada componente a um conjunto específico de palavras. Vamos verificar abaixo:

In [11]:
# Precisamos criar uma lista de palavras que representam as 
# colunas da matriz de frequência de palavras
words = [x[0] for x in sorted(tfidf.vocabulary_.items())]

# Vamos criar um dataframe para visualizar
components_df = pd.DataFrame(nmf.components_, columns=words)

# Vamos verificar as palavras que representam cada um dos tópicos
for i in range(6):
    component = components_df.iloc[i]
    print("Topico {}:".format(i))
    print("----------")
    print(component.nlargest())
    print("----------")

Topico 0:
----------
film       0.228699
she        0.215295
starred    0.189635
her        0.185833
award      0.161151
Name: 0, dtype: float64
----------
Topico 1:
----------
treatment    0.162274
disease      0.138570
symptoms     0.134004
infection    0.130332
blood        0.121010
Name: 1, dtype: float64
----------
Topico 2:
----------
cup       0.131625
scored    0.126175
fifa      0.116823
goals     0.112971
team      0.108254
Name: 2, dtype: float64
----------
Topico 3:
----------
climate       0.229255
emissions     0.189170
conference    0.131384
greenhouse    0.125873
change        0.120971
Name: 3, dtype: float64
----------
Topico 4:
----------
users     0.161012
web       0.158808
search    0.152862
google    0.147589
user      0.141939
Name: 4, dtype: float64
----------
Topico 5:
----------
album    0.161875
band     0.143538
song     0.110535
tour     0.103392
songs    0.089824
Name: 5, dtype: float64
----------


O que achou da distribuição de palavras dentro de cada tópico? Acha que faz sentido com os temas principais dos artigos do Wikipedia? Cada um dos tópicos poderia ser associado a um cluster?

Podemos ainda verificar quais são os tópicos principais de alguns artigos específicos.

In [12]:
# Precisamos criar um dataframe para facilitar nossa vida
df = pd.DataFrame(W_nmf, index=titles)

print(df.loc['Denzel Washington'])
print()
print(df.loc['Leukemia'])
print()
print(df.loc['Neymar'])
print()
print(df.loc['LinkedIn'])
print()
print(df.loc['Arctic Monkeys'])

0    0.314543
1    0.000000
2    0.017131
3    0.003643
4    0.000000
5    0.002090
Name: Denzel Washington, dtype: float64

0    0.005139
1    0.495278
2    0.000447
3    0.000000
4    0.000000
5    0.000000
Name: Leukemia, dtype: float64

0    0.016619
1    0.000000
2    0.513907
3    0.000000
4    0.000000
5    0.035104
Name: Neymar, dtype: float64

0    0.024303
1    0.000000
2    0.035876
3    0.043349
4    0.376226
5    0.011095
Name: LinkedIn, dtype: float64

0    0.000000
1    0.000000
2    0.009963
3    0.000000
4    0.019685
5    0.593688
Name: Arctic Monkeys, dtype: float64


Podemos notar que os artigos possuem tópicos coerentes com o que esperávamos!

Vamos agrupar agora os artigos pelos tópicos principais de cada um deles e ver como eles tém relação com os clusters definidos anteriormente.

In [13]:
# Cria as labels a partir do tópico mais relevante de cada artigo
labels = np.argmax(W_nmf, axis=1)

# Cria o novo dataframe com os labels dos clusters
df = pd.DataFrame({'label': labels, 'article': titles})

# Apresenta os resultados
print(df.sort_values(by='label'))

                                          article  label
10                                   Jessica Biel      0
19                                 Angelina Jolie      0
18                                     Mila Kunis      0
38                                  Anne Hathaway      0
5                            Catherine Zeta-Jones      0
46                             Michael Fassbender      0
7                               Denzel Washington      0
50                               Jennifer Aniston      0
25                                 Dakota Fanning      0
12                                  Russell Crowe      0
49                                    Tonsillitis      1
31                                       Leukemia      1
24                                          Fever      1
52                                     Prednisone      1
9                                            Gout      1
8                                     Hepatitis B      1
34                             

O que achou do resultado? Percebeu que o NMF não só encontrou uma representação em tópicos dos documentos, mas também teve um papel de agregador? Ele realizou um ótimo trabalho em encontrar clusters! E o melhor, nós podemos explicar com palavras o que representa cada um dos tópicos/clusters.

### Exercício

Vamos praticar um pouco com o NMF. O dataset que vamos utilizar é um dataset padrão do scikit-learn que é muito útil para algoritmos de NLP. O dataset contém grupos de discussão no [Usenet](https://en.wikipedia.org/wiki/Usenet) com 18.000 postagens e 20 tópicos principais.

In [69]:
# Importe o dataset
from sklearn.datasets import fetch_20newsgroups

# Vamos escolher apenas algumas categorias para facilitar
categories = ['rec.autos', 'talk.religion.misc', 'comp.graphics', 'sci.space']

# Pegamos apenas o corpo do texto
dataset = fetch_20newsgroups(shuffle=True, random_state=1, categories=categories,
                             remove=('headers', 'footers', 'quotes'))

# Para limitar um pouco a quantidade de dados, vamos limitar o dataset
data = dataset.data[:2000]
targets = dataset.target[:2000]

In [70]:
# Exemplos de documentos
print("\n".join(data[:2]))

Has anybody noticed that Toyota has an uncanny knack for designing horrible
ugly station wagons?  Tercels, Corollas, Camrys.  Have their designers no
aesthetic sense at all?


Percebemos que os dados estão um pouco sujos e tem diversas palavras que podem não significar muito para nós.

Crie o vetor de Bag-of-Words utilizando Tf-Idf a partir dos documentos.

In [None]:
# TODO:
# Crie a matriz de frequência de palavras (A) utilizando Tf-Idf
# Obs: use um vocabulário de tamanho 10000
# Obs 2: é necessário remover as stopwords (dica: utilize stop_words='english')
# Obs 3: utilize max_df=0.8 e min_df=2
tfidf = _
A = _

A.shape

Vamos utilizar NMF para encontrar os tópicos dos documentos.

In [None]:
# TODO
# Primeiro, importe o módulo NMF do scikit-learn
_

# Precisamos criar a instância do NMF
# Temos que definir um número de componentes para o NMF
# Como temos 4 tópicos temas principais, vamos escolher n_components=4
nmf = _

# Aplique a transformação NMF
W_nmf = _

# Vamos ver qual é a dimensão de W_nmf
print(W_nmf.shape)

# E também a dimensão de H_nmf
H_nmf = _
print(H_nmf.shape)

In [None]:
# TODO
# Precisamos criar uma lista de palavras que representam as 
# colunas da matriz de frequência de palavras
words = _

# Vamos criar um dataframe para visualizar os componentes
# Dica: Matriz de componentes (atributos) = H_nmf
components_df = _

# Vamos verificar as palavras que representam cada um dos tópicos
for i in range(4):
    component = components_df.iloc[i]
    print("Topico {}:".format(i))
    print("----------")
    print(component.nlargest())
    print("----------")

Qual foi o resultado? Podemos perceber que tópicos foram encontrados? As palavras dentro dos tópicos são coerentes com o que esperávamos?

Pegue o exemplo de um documento e veja quais tópicos principais ele contém.

In [None]:
# TODO
# Escolha um índice do documento
document_index = _

# Veja o documento escolhido
print("Documento: \n", data[document_index])

# Apresente os principais tópicos do documento
topics = _
print("\nTópicos")
print("---------")
for i in range(len(topics)):
    print("Tópico {}: {:.4f}".format(i, topics[i]))

Vamos fazer como no exemplo do Wikipedia e mostrar a relação entre os temas reais dos documentos e os tópicos encontrados pelo algoritmo NMF.

In [None]:
# Topicos reais
topics_real = [dataset.target_names[i] for i in targets]

# TODO
# Crie as labels (tópicos) a partir do tópico mais relevante de cada documento
labels = _


# Crie um dataframe que una as labels e os tópicos reais
df = pd.DataFrame({'labels':labels, 'topics_real':topics_real})

# Crie a matriz de tabulação cruzada
ct = pd.crosstab(df['labels'], df['topics_real'])
print(ct)

Podemos afirmar que o algoritmo conseguiu clusterizar bem os documentos nos tópicos reais?

## Latent Dirichlet Allocation (LDA)

Assim como o NMF, o [LDA](https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation) é um algoritmo relativamente simples (pelo menos algoritmicamente) e poderoso para conseguir encontrar tópicos dentro de documentos. Entretanto, diferentemente do NMF, o LDA se baseia em métodos probabilísticos. Mais especificamente, o **LDA** assume que cada **documento** foi gerado a partir de uma **mistura de tópicos** com uma distribuição de probabilidade (no caso, uma distribuição [Dirichlet](https://en.wikipedia.org/wiki/Dirichlet_distribution)), e cada **tópico** foi gerado por uma distribuição de **palavras** com certa probabilidade associada (distribuição [multinomial](https://en.wikipedia.org/wiki/Multinomial_distribution)).

Para imaginar um cenário, imagine que temos os seguintes documentos (retirados deste [link](https://www.quora.com/What-is-a-good-explanation-of-Latent-Dirichlet-Allocation)):
1. I ate a banana and spinach smoothie for breakfast
2. I like to eat broccoli and bananas.
3. Chinchillas and kittens are cute.
4. My sister adopted a kitten yesterday.
5. Look at this cute hamster munching on a piece of broccoli.

Para o LDA, os documentos poderiam ser formados pelos seguintes tópicos e palavras:
- Documentos 1 e 2: 100% Tópico A
- Documentos 3 e 4: 100% Tópico B
- Documento 5: 60% Tópico A, 40% Tópico B

- Tópico A: 30% broccoli, 15% bananas, 10% breakfast, 10% munching (Talvez represente algo relacionado a comida)
- Tópico B: 20% chinchillas, 20% kittens, 20% cute, 15% hamster (Talvez seja relacionado a animais fofinhos)

Esse comportamento do LDA é interessante, já que temos uma representação mais intuitiva da formação dos documentos. Poderíamos até criar documentos artificiais a partir dessas definições.

Agora vamos ver um exemplo de aplicação utilizando o dataset do Wikipedia

In [113]:
# Anteriormente, nós já realizamos a criação da matriz de frequência de palavras
X.shape

(58, 15000)

O LDA não pode ser utilizado com Tf-Idf, porque ele precisa da contagem total de palavras nos documentos. Por esse modo, vamos utilizar o método [`CountVectorizer`](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) do scikit-learn. Esse método apenas realiza a contagem de frequência de palavras nos documentos. Para evitar que "stopwords" tenham uma importância indevida, podemos remove-las do texto.

In [231]:
# Agora vamos importar o módulo LDA do scikit-learn
from sklearn.decomposition import LatentDirichletAllocation

# Importa o módulo CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer

# Aplica o método
tf = CountVectorizer(max_df=0.95, min_df=0.01, max_features=15000, stop_words='english')

X_tf = tf.fit_transform(articles)

# Precisamos criar a instância do LDA
# Temos que definir um número de tópicos do LDA
# Como temos 6 clusters, vamos escolher n_topics=6
lda = LatentDirichletAllocation(n_topics=6)


# Agora vamos utilizar os mesmos atributos fit, transform ou fit_transform
# que já conhecemos do universo do sklearn
X_lda = lda.fit_transform(X_tf)

# Vamos ver qual é a dimensão de X_lda
X_lda.shape



(58, 6)

Note que o número de linhas se manteve em 58, que é o número de documentos (artigos) que nós temos, e o número de colunas se transformou em 6, que é o número de tópicos que nós escolhemos. 

Vamos agora achar a matriz de atributos.

In [232]:
lda_components = lda.components_
print(lda_components.shape)

(6, 15000)


Note que o número de linhas é igual ao número de tópicos e o número de colunas representa o número de palavras no nosso vocabulário. Essa matriz é semelhante a matriz de atributos do NMF.

Vamos achar quais são as palavras mais importantes para cada tópico.

In [233]:
# Precisamos criar uma lista de palavras que representam as 
# colunas da matriz de frequência de palavras
words = [x[0] for x in sorted(tf.vocabulary_.items())]

# Vamos criar um dataframe para visualizar
components_df = pd.DataFrame(lda_components, columns=words)

# Vamos verificar as palavras que representam cada um dos tópicos
for i in range(6):
    component = components_df.iloc[i]
    print("Topico {}:".format(i))
    print("----------")
    print(component.nlargest())
    print("----------")

Topico 0:
----------
football    264.920863
ronaldo     244.128830
goal        238.960245
scored      225.243590
team        203.172803
Name: 0, dtype: float64
----------
Topico 1:
----------
internet    183.319293
explorer    157.738220
search      125.726784
google      118.780949
cookies     112.857214
Name: 1, dtype: float64
----------
Topico 2:
----------
band        488.264818
album       388.483183
film        244.027402
released    213.281207
new         182.892970
Name: 2, dtype: float64
----------
Topico 3:
----------
fever          49.150908
temperature    30.807463
doxycycline    23.636070
body           18.329051
heat           12.797126
Name: 3, dtype: float64
----------
Topico 4:
----------
climate    133.783280
global      91.610138
arsenal     91.310688
warming     83.053249
change      74.470537
Name: 4, dtype: float64
----------
Topico 5:
----------
emissions    146.974036
kyoto         85.193861
climate       83.064650
countries     78.730527
parties       76.895012

O que achou da distribuição de palavras dentro de cada tópico? Acha que faz sentido com os temas principais dos artigos do Wikipedia? Cada um dos tópicos poderia ser associado a um cluster?

Podemos ainda verificar quais são os tópicos principais de alguns artigos específicos.

In [234]:
# Precisamos criar um dataframe para facilitar nossa vida
df = pd.DataFrame(X_lda, index=titles)

print(df.loc['Denzel Washington'])
print()
print(df.loc['Leukemia'])
print()
print(df.loc['Neymar'])
print()
print(df.loc['LinkedIn'])
print()
print(df.loc['Arctic Monkeys'])

0    0.000132
1    0.000131
2    0.999345
3    0.000130
4    0.000131
5    0.000131
Name: Denzel Washington, dtype: float64

0    0.000091
1    0.000092
2    0.999542
3    0.000092
4    0.000092
5    0.000091
Name: Leukemia, dtype: float64

0    0.999661
1    0.000068
2    0.000068
3    0.000068
4    0.000068
5    0.000068
Name: Neymar, dtype: float64

0    0.000143
1    0.999288
2    0.000143
3    0.000142
4    0.000142
5    0.000143
Name: LinkedIn, dtype: float64

0    0.000070
1    0.000070
2    0.999651
3    0.000070
4    0.000070
5    0.000070
Name: Arctic Monkeys, dtype: float64


Podemos notar alguma relação de proximidade entre os tópicos?

Vamos agrupar agora os artigos pelos tópicos principais de cada um deles e ver como eles tém relação com os clusters definidos anteriormente.

In [235]:
# Cria as labels a partir do tópico mais relevante de cada artigo
labels = np.argmax(X_lda, axis=1)

# Cria o novo dataframe com os labels dos clusters
df = pd.DataFrame({'label': labels, 'article': titles})

# Apresenta os resultados
print(df.sort_values(by='label'))

                                          article  label
28                  France national football team      0
54              2014 FIFA World Cup qualification      0
53                                  Franck Ribéry      0
44                              Cristiano Ronaldo      0
6                                        Football      0
36                                 Radamel Falcao      0
11                             Zlatan Ibrahimović      0
26                Colombia national football team      0
17                                         Neymar      0
55                                 Alexa Internet      1
51                                       LinkedIn      1
40                              Internet Explorer      1
39                                       HTTP 404      1
56                                  Google Search      1
23                                  Social search      1
22                                        Firefox      1
57                             

O que achou do resultado? Talvez o LDA não tenha funcionado exatamente do jeito que acreditávamos que ele iria funcionar, certo? Isso não quer dizer que os tópicos encontrados por ele não sejam corretos, mas apenas que são diferentes do que experaríamos para o dado problema. 

### Exercício

Agora vamos praticar o LDA com o dataset 20newsgroups. 

In [236]:
# Importe o dataset
from sklearn.datasets import fetch_20newsgroups

# Vamos escolher apenas algumas categorias para facilitar
categories = ['rec.autos', 'talk.religion.misc', 'comp.graphics', 'sci.space']

# Pegamos apenas o corpo do texto
dataset = fetch_20newsgroups(shuffle=True, random_state=1, categories=categories,
                             remove=('headers', 'footers', 'quotes'))

# Para limitar um pouco a quantidade de dados, vamos limitar o dataset
data = dataset.data[:2000]
targets = dataset.target[:2000]

In [237]:
# Exemplos de documentos
print("\n".join(data[:2]))

Has anybody noticed that Toyota has an uncanny knack for designing horrible
ugly station wagons?  Tercels, Corollas, Camrys.  Have their designers no
aesthetic sense at all?





Percebemos que os dados estão um pouco sujos e tem diversas palavras que podem não significar muito para nós.

Crie o vetor de Bag-of-Words utilizando Term Frequency (CountVectorizer) a partir dos documentos.

In [None]:
# TODO:
# Crie a matriz de frequência de palavras (A) utilizando Tf
# Obs: use um vocabulário de tamanho 10000
# Obs 2: é necessário remover as stopwords (dica: utilize stop_words='english')
# Obs 3: utilize max_df=0.8 e min_df=2
tf = _
A = _

A.shape

Vamos utilizar LDA para encontrar os tópicos dos documentos.

In [None]:
# TODO
# Primeiro, importe o módulo LDA do scikit-learn
_

# Precisamos criar a instância do LDA
# Temos que definir um número de componentes para o LDA
# Como temos 4 tópicos temas principais, vamos escolher n_topics=4
lda = _

# Aplique a transformação LDA
X_lda = _

# Vamos ver qual é a dimensão de X_lda
print(X_lda.shape)

# Também veremos quais são os componentes do LDA
lda_components = _
print(lda_components.shape)

In [None]:
# TODO
# Precisamos criar uma lista de palavras que representam as 
# colunas da matriz de frequência de palavras
words = _

# Vamos criar um dataframe para visualizar os componentes
# Dica: Matriz de componentes (atributos) = lda_components
components_df = _

# Vamos verificar as palavras que representam cada um dos tópicos
for i in range(4):
    component = components_df.iloc[i]
    print("Topico {}:".format(i))
    print("----------")
    print(component.nlargest())
    print("----------")

Qual foi o resultado? Podemos perceber que tópicos foram encontrados? As palavras dentro dos tópicos são coerentes com o que esperávamos?

Pegue o exemplo de um documento e veja quais tópicos principais ele contém.

In [None]:
# TODO
# Escolha um índice do documento
document_index = _

# Veja o documento escolhido
print("Documento: \n", data[document_index])

# Apresente os principais tópicos do documento
topics = _
print("\nTópicos")
print("---------")
for i in range(len(topics)):
    print("Tópico {}: {:.4f}".format(i, topics[i]))

Vamos fazer como no exemplo do Wikipedia e mostrar a relação entre os temas reais dos documentos e os tópicos encontrados pelo algoritmo LDA.

In [None]:
# Topicos reais
topics_real = [dataset.target_names[i] for i in targets]

# TODO
# Crie as labels (tópicos) a partir do tópico mais relevante de cada documento
labels = _


# Crie um dataframe que una as labels e os tópicos reais
df = _

# Crie a matriz de tabulação cruzada
ct = _
print(ct)

Podemos afirmar que o algoritmo conseguiu clusterizar bem os documentos nos tópicos reais?

## Case

Esse case foi retirado desse [artigo](https://towardsdatascience.com/topic-modeling-for-the-new-york-times-news-dataset-1f643e15caac). O objetivo dele é verificar se conseguimos extrair tópicos relevantes de um dataset contendo 8.447 matérias do NY Times, com um vocabulário de 3.012 palavras. Por razão de direitos autorias, os documentos não possuem título.

<img src="https://cdn-images-1.medium.com/max/1400/1*toWf7lAVf_5GIb9IMfS8Bw.jpeg" alt="Drawing" style="width: 800px;"/>


O arquivo `nyt_data.txt` contém os documentos, onde cada linha representa um documento específico. O dataset já sofreu um processo de limpeza e vetorização, onde foram mantidas apenas palavras que ocorreram mais de 10 vezes. Cada palavra é representada por um índice, que pode ser acessado pelo arquivo `nyt_vocab.txt`, e por sua frequência no documento.

Vamos criar a matriz de frequências a partir desses dados:

In [259]:
# Contém os documentos do dataset:
# Cada linha representa um documento
# Cada documento contém um conjunto de índices de palavras e 
# a sua frequência no documento -> word_idx:term_freq
with open(os.path.join(DATASET_FOLDER, 'nyt_data.txt')) as f:
    documents = f.readlines()
documents = [x.strip().strip('\n').strip("'") for x in documents] 

# Contém o vocabulário do dataset:
# Cada linha representa o índice da palavra
with open(os.path.join(DATASET_FOLDER, 'nyt_vocab.txt')) as f:
    vocabs = f.readlines()
vocabs = [x.strip().strip('\n').strip("'") for x in vocabs]

Vamos visualizar um exemplo de documento e vocabulários:

In [265]:
print("Documento 0:\n", documents[0])
print("\nParte do vocabulário:\n", vocabs[:10])

Documento 0:
 1946:2,1168:2,1194:2,1275:1,777:1,522:1,107:1,839:2,424:2,2330:2,1878:2,344:1,1008:1,94:3,735:1,212:1,2407:1,2623:1,781:2,42:1,160:1,1141:1,117:1,16:1,108:1,153:2,1137:2,416:1,23:2,46:1,734:2,284:1,207:2,301:1,357:1,780:2,2564:2,206:1,106:2,892:1,272:1,1557:1,2003:1,1079:2,370:1,1894:2,266:1,143:1,1532:1,2551:1,223:2,30:1,1509:1,1921:2,361:2,311:1,1549:2,203:1,2821:1,546:2,1612:1,200:1,247:2,1731:2,565:1,2253:1,234:1,72:1,648:1,1072:1,518:1,39:1,703:2,625:1,140:1,2301:1,32:1,462:1,743:1,2017:2,925:1,118:1,1000:2,836:1,161:1,942:2,885:1,267:1,2683:1,626:1,317:1,69:1,860:2,633:1,2658:1,75:2,1563:1,690:1,802:1,1650:1,1836:1,111:1,2151:1,128:2,2864:1,22:2,1301:1,250:2,1922:2,936:1,918:1,775:1,280:1,18:2,182:1,667:1,2383:1,878:1,1498:1,109:2,1577:1,1758:1,60:1,2269:1,215:1,2038:2,485:1,335:1,2543:2,422:1,12:1,585:2,1754:1,1293:1,604:1,52:1,248:1,2:2,603:2,1345:2,271:3,668:1,1022:2,260:1,1251:2,498:1,2213:1,351:3,2584:1,1349:1,334:2,218:1,34:1,256:1,2576:2,58:1,1637:1,926:2,313

Vamos agora criar a matriz de frequência de termos **A** a partir dos documentos.

In [270]:
# Número de documentos
n_doc = 8447
# Número de palavras
n_words = 3012 
A = np.zeros([n_doc,n_words])

for j in range(len(documents)):
    for i in documents[j].split(','):
        word, freq = i.split(':')
        A[j,int(word)-1] = int(freq)
        
# Tamanho da matriz de frequência de termos:
print(A.shape)

(8447, 3012)


Agora estamos prontos para realizar o processo de topic analysis! Divirta-se!

*Dica: Utilize entre 20 e 25 tópicos*

In [None]:
# TODO: Boa sorte =)

## Sistema de recomendação

Em poucos anos a internet revolucionou o mercado de consumo mundial e a forma como os clientes interagem com os vendedores. Uma das dinâmicas criadas mais importantes a partir dessa revolução é a de sistemas de recomendação. Todos devem já ter notado o quanto e-commerces como a Amazon, Best Buy e até empresas brasileiras acertam ao recomendar certos tipos de produto para seus clientes, que muitas vezes nem os estavam procurando (veja esse [artigo](https://www.techemergence.com/use-cases-recommendation-systems/)). Isso não acontece mais apenas em e-commerces, mas também com provedores de música (Spotify), de filmes (Netflix) ou vídeos em geral (Youtube). 

Esse fenômeno só ocorre devido a um fator: **dado**. As empresas atualmente possuem muita informação sobre os seus produtos e os seus usuários. É muito fácil obter, hoje em dia, os interesses dos clientes sobre seus produtos. Seja o fato de o vendedor comprar um produto, dar um review ou apenas clicar, já é suficiente para uma empresa mapear os interesses dos usuários e tentar direcionar produtos que seriam relevantes para o usuário sem nem mesmo ele saber!

Os sistemas de recomendação se baseiam, basicamente, em encontrar relações entre compradores e produtos. Mais especificamente, existem dois grandes grupos de sistemas de recomendação:
- **Proximidade de produtos**: Tem o objetivo de encontrar produtos similares aos consumidos por um cliente. Se um cliente possui o interesse em um determinado produto, o sistema de recomendação pode tentar encontrar outros produtos similares para indicar para o cliente.
- **Proximidade entre clientes** (Filtro Colaborativo): Tem o objetivo de encontrar clientes com interesses semelhantes. Suponha que exista um cliente X que consuma os produtos A e B, enquanto um outro cliente Y tem interesse nos produtos A, B e C. Como eles possuem interesses semelhantes (produtos A e B), o sistema de recomendação poderia indicar o produto C para o cliente X.

Existem diversos outros tipos de sistemas de recomendação que fogem do escopo desse material. Mais informações podem ser vistas nesse [link](https://www.techemergence.com/use-cases-recommendation-systems/).

##### Exemplo
Agora vamos tentar criar um sistema simples de recomendação baseado em **proximidade de produtos**! 

Vamos utilizar o dataset de artigos do NY Times para essa tarefa. Vamos supor que uma pessoa tenha lido um determinado artigo e nós gostaríamos de recomendar outros artigos semelhantes àquele. Lembre que para comparar dois documentos que contém vetores de atributos associados a palavras, a melhor medida de distância é a **distância de cossenos**.

Para calcular a distância entre produtos, nós poderíamos utilizar todo o espaço de atributos (quantidade de palavras no vocabulário), mas isso é desnecessário. Nós temos uma representação resumida de cada documento por sua proporção de tópicos, que formam o novo vetor de atributos. Como já encontramos os tópicos relacionados aos documentos no exercício anterior, podemos aproveitá-los para resolver nosso problema atual.

In [311]:
# Nós vamos ter que normalizar o vetor de atributos
# Isso é necessário para que todas as features (tópicos) 
# de um documento some 1 ao final
# Seria a porcentagem de composição dos tópicos 
# no documento
from sklearn.preprocessing import normalize
W_nmf_norm = normalize(W_nmf)

In [321]:
# Vamos criar um dataframe:
# índice: documento
# colunas: vetor de features (normalizadas)
df = pd.DataFrame(W_nmf_norm,
                  columns=['topic {}'.format(i) for i in range(n_topics)],
                  index=['doc {}'.format(i) for i in range(n_doc)])
df.head(5)

Unnamed: 0,topic 0,topic 1,topic 2,topic 3,topic 4,topic 5,topic 6,topic 7,topic 8,topic 9,...,topic 15,topic 16,topic 17,topic 18,topic 19,topic 20,topic 21,topic 22,topic 23,topic 24
doc 0,0.294146,0.0,0.0,0.0,0.002036,0.0,0.0,0.303896,0.517961,0.0,...,0.0,0.0,0.0,0.0,0.082041,0.0,0.0,0.0,0.153861,0.025917
doc 1,0.316441,0.546551,0.048343,0.017302,0.139095,0.279719,0.159308,0.0,0.020161,0.102785,...,0.0,0.01273,0.0,0.0,0.09546,0.057694,0.0,0.0,0.653904,0.01842
doc 2,0.524771,0.037032,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.791191,0.040254,0.0,0.0,0.161058,0.0,0.0,0.217096,0.0,0.0
doc 3,0.431515,0.0,0.130489,0.027181,0.099081,0.0,0.068598,0.018393,0.366686,0.025766,...,0.117798,0.002651,0.034564,0.024858,0.003601,0.070738,0.150782,0.154748,0.200475,0.0
doc 4,0.02463,0.22987,0.0,0.009689,0.049841,0.121191,0.04178,0.0,0.013547,0.054078,...,0.053154,0.225243,0.084851,0.0,0.130305,0.0,0.421757,0.0,0.0,0.092667


In [314]:
# Vamos escolher um documento aleatoriamente
# Esse documento será o escolhido pelo cliente
doc_target = np.random.choice(range(len(documents)))
doc_target

7618

In [325]:
# Verifica o vetor de features dele:
doc_target_features = df.iloc[doc_target]
print(doc_target_features)

topic 0     0.133103
topic 1     0.575644
topic 2     0.051933
topic 3     0.000000
topic 4     0.550594
topic 5     0.025231
topic 6     0.424973
topic 7     0.139334
topic 8     0.206514
topic 9     0.107456
topic 10    0.000000
topic 11    0.000000
topic 12    0.161399
topic 13    0.000000
topic 14    0.000000
topic 15    0.000000
topic 16    0.140682
topic 17    0.000000
topic 18    0.000000
topic 19    0.000000
topic 20    0.000000
topic 21    0.135645
topic 22    0.154468
topic 23    0.000000
topic 24    0.046040
Name: doc 7618, dtype: float64


Encontre agora os documentos mais próximos a esse documento:

In [335]:
# Calcula a distância de cossenos entre o artigo e 
# todos os outros documentos
cossine_distance = df.dot(doc_target_features)

# Todos os documentos com maior distância de cossenos 
# representam os documentos mais próximos
print("Artigos recomendados:")
recommendations = cossine_distance.nlargest(6)[1:]
print(recommendations)

Artigos recomendados:
doc 1313    0.911258
doc 3083    0.905729
doc 4974    0.901671
doc 3370    0.883303
doc 5165    0.870204
dtype: float64


Vamos visualizar os principais tópicos desses documentos:

In [392]:
default_top_topics = df.iloc[doc_target].nlargest(3).index.values
default_components = [components_df.iloc[int(i.split(' ')[1])].nlargest(5).index.values 
                      for i in default_top_topics]

print("Artigo original: doc {}".format(doc_target))
print("-----------------------")
print("- Tópicos (palavras): ")
for i in range(len(top_topics)):
    print("{:>15} ({})".format(default_top_topics[i], ', '.join(default_components[i])))
print("\n\n")

for doc, similarity in recommendations.items():
    doc_num = int(doc.split(' ')[1])
    top_topics = df.iloc[doc_num].nlargest(3).index.values
    components = [components_df.iloc[int(i.split(' ')[1])].nlargest(5).index.values for i in top_topics]
    print("Recomendação {}:".format(doc))
    print("-----------------------")
    print("- Similaridade: {:.2%}".format(similarity))
    print("- Tópicos (palavras): ")
    for i in range(len(top_topics)):
        print("{:>15} ({})".format(top_topics[i], ', '.join(components[i])))
    print("\n")

Artigo original: doc 7618
-----------------------
- Tópicos (palavras): 
        topic 1 (thing, tell, ask, feel, lot)
        topic 4 (city, building, area, build, house)
        topic 6 (pay, money, state, budget, tax)



Recomendação doc 1313:
-----------------------
- Similaridade: 91.13%
- Tópicos (palavras): 
        topic 1 (thing, tell, ask, feel, lot)
        topic 6 (pay, money, state, budget, tax)
        topic 4 (city, building, area, build, house)


Recomendação doc 3083:
-----------------------
- Similaridade: 90.57%
- Tópicos (palavras): 
        topic 1 (thing, tell, ask, feel, lot)
        topic 4 (city, building, area, build, house)
        topic 6 (pay, money, state, budget, tax)


Recomendação doc 4974:
-----------------------
- Similaridade: 90.17%
- Tópicos (palavras): 
        topic 1 (thing, tell, ask, feel, lot)
       topic 22 (art, artist, exhibition, museum, painting)
        topic 6 (pay, money, state, budget, tax)


Recomendação doc 3370:
-----------------

Podemos perceber que os tópicos são realmente semelhantes. Poderíamos recomendar esses produtos para o cliente!