## <center>__PROJETO DA UNIDADE 2__</center>

# <center>__Modelagem de Tópicos com NMF e SVD__</center>
#### <center>__ALUNO: ALYSON MATHEUS VALE DE MACEDO__</center>

<div class="alert alert-block alert-info">
1. INTRODUÇÃO
</div>

A modelagem de tópicos com NMF e SVD é uma ótima forma de fatorações de matrizes. Em álgebra linear, a decomposição em valores singulares ou 
singular value decomposition (SVD) é a fatorização de uma matriz real ou complexa, com diversas aplicações importantes em processamento de 
sinais e estatística. A fatoração matricial não negativa (NMF) é um método estatístico que nos ajuda a reduzir a dimensão dos corpora ou corpora de entrada. Internamente, ele usa o método de análise fatorial para dar comparativamente menos peso às palavras que estão tendo menos coerência. 

<div class="alert alert-block alert-info">
2. DESCRIÇÃO DO PROBLEMA
</div>

Grandes quantidades de dados são coletadas todos os dias. À medida que tem mais informações que se tornam disponíveis, torna-se mais difícil acessar o que estamos procurando. Assim, precisamos de ferramentas e técnicas para organizar, pesquisar e compreender grandes quantidades de informação.

A modelagem de tópicos nos fornece métodos para organizar, entender e resumir grandes coleções de informações textuais. Ele ajuda em:

* Descobrindo padrões tópicos ocultos que estão presentes em toda a coleção
* Anotar documentos de acordo com esses tópicos
* Usando essas anotações para organizar, pesquisar e resumir textos



<div class="alert alert-block alert-info">
3. MÉTODOS APLICADOS À SOLUÇÃO
</div>

## Decomposição de Valor Singular (SVD) 

Esperamos claramente que as palavras que aparecem com mais frequência em um tópico apareçam com menos frequência no outro - caso contrário, essa palavra não seria uma boa escolha para separar os dois tópicos. Portanto, esperamos que os tópicos sejam ortogonais .

O algoritmo SVD fatora uma matriz em uma matriz com colunas ortogonais e outra com linhas ortogonais (junto com uma matriz diagonal, que contém a importância relativa de cada fator).


SVD é uma decomposição exata , pois as matrizes que ele cria são grandes o suficiente para cobrir totalmente a matriz original. O SVD é extremamente usado em álgebra linear e, especificamente, em ciência de dados, incluindo:

* análise semântica
* filtragem/recomendações colaborativas ( participação vencedora do Prêmio Netflix )
* calcule o pseudoinverso de Moore-Penrose
* compressão de dados
* análise de componentes principais (será abordada posteriormente no curso)

<img src="svd_fb.png" alt="" />
Fonte: (<link>https://nbviewer.org/github/fastai/numerical-linear-algebra/blob/master/nbs/2.%20Topic%20Modeling%20with%20NMF%20and%20SVD.ipynb</link>)

## Fatoração de matriz não negativa

Fatoração de Matriz Não Negativa: Para uma matriz A de dimensões mxn, onde cada elemento é ≥ 0, NMF pode fatorá-lo em duas matrizes W e H com 
dimensões mxk e kxn respectivamente e essas duas matrizes contêm apenas elementos não negativos. Aqui, a matriz A é definida como:
    
Onde:
 * A -> Matriz de entrada original (combinação linear de W e H) 
 * W -> Matriz de recursos
 * H -> Matriz de coeficientes (pesos associados a W) 
 * k -> Aproximação de classificação baixa de A ( k ≤ min(m,n) )
 

Esse método é amplamente utilizado na realização de tarefas como redução de recursos no Reconhecimento Facial e para diversas tarefas de PNL. 

<img src="Intuition1.png" alt="" />
Fonte: (<link>https://www.geeksforgeeks.org/non-negative-matrix-factorization/</link>)<br>

O objetivo do NMF é a redução de dimensionalidade e extração de características. Assim, quando definimos menor dimensão como k, o objetivo do NMF é encontrar duas matrizes W ∈ Rm×k e H ∈ Rn×k tendo apenas elementos não negativos.

<div class="alert alert-block alert-info">
4. IMPLEMENTAÇÃO
</div>

In [15]:
import numpy as np
from sklearn.datasets import fetch_20newsgroups
from sklearn import decomposition
from scipy import linalg
import matplotlib.pyplot as plt

In [16]:
%matplotlib inline
np.set_printoptions(suppress=True)

In [18]:
categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space']
remove = ('headers', 'footers', 'quotes')
newsgroups_train = fetch_20newsgroups(subset='train', categories=categories, remove=remove)
newsgroups_test = fetch_20newsgroups(subset='test', categories=categories, remove=remove)

In [19]:
newsgroups_train.filenames.shape, newsgroups_train.target.shape

((2034,), (2034,))

In [20]:
print("\n".join(newsgroups_train.data[:3]))

Hi,

I've noticed that if you only save a model (with all your mapping planes
positioned carefully) to a .3DS file that when you reload it after restarting
3DS, they are given a default position and orientation.  But if you save
to a .PRJ file their positions/orientation are preserved.  Does anyone
know why this information is not stored in the .3DS file?  Nothing is
explicitly said in the manual about saving texture rules in the .PRJ file. 
I'd like to be able to read the texture rule information, does anyone have 
the format for the .PRJ file?

Is the .CEL file format available from somewhere?

Rych


Seems to be, barring evidence to the contrary, that Koresh was simply
another deranged fanatic who thought it neccessary to take a whole bunch of
folks with him, children and all, to satisfy his delusional mania. Jim
Jones, circa 1993.


Nope - fruitcakes like Koresh have been demonstrating such evil corruption
for centuries.

 >In article <1993Apr19.020359.26996@sq.sq.com>, msb@sq.sq.c

In [21]:
np.array(newsgroups_train.target_names)[newsgroups_train.target[:3]]

array(['comp.graphics', 'talk.religion.misc', 'sci.space'], dtype='<U18')

In [49]:
print(newsgroups_train.target[:10])

num_topics, num_top_words = 6, 8

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

[1 3 2 0 2 0 2 1 2 1]


In [44]:
vectorizer = CountVectorizer(stop_words='english')
vectors = vectorizer.fit_transform(newsgroups_train.data).todense() # (documents, vocab)
print(vectors.shape) #, vectors.nnz / vectors.shape[0], row_means.shape
print()

print(len(newsgroups_train.data), vectors.shape)

vocab = np.array(vectorizer.get_feature_names())

print()

print (vocab.shape)

print()

print(vocab[7000:7020])

(2034, 26576)

2034 (2034, 26576)

(26576,)

['cosmonauts' 'cosmos' 'cosponsored' 'cost' 'costa' 'costar' 'costing'
 'costly' 'costruction' 'costs' 'cosy' 'cote' 'couched' 'couldn' 'council'
 'councils' 'counsel' 'counselees' 'counselor' 'count']


## SVD

In [None]:
%time U, s, Vh = linalg.svd(vectors, full_matrices=False)

In [None]:
print(U.shape, s.shape, Vh.shape)