In [None]:
from json import loads
from math import log
from re import sub
from nltk.stem import SnowballStemmer
from scipy.linalg import (diagsvd,
                          svd)
from numpy import (zeros,
                   asarray, 
                   sum, 
                   dot)

In [None]:
class LSA(object):
    
	def __init__(self, stopwords, ldocs, language):
        
		self.docs = [self._read_file(file) for file in ldocs]
		self.stopwords = stopwords
		self.language = language  
		self.wdict = {}
		self.keys = None
		self._A = None
		self.dcount = 0
        
	def _read_file(self,file_name):
		with open(file_name, "r") as file:
			return [line.rstrip('\n')  for line in file]

        
	def _parse(self):
		"""
		@docs eh uma list de documentos, onde cada posicao contem listas de definicoes
		@lang eh o idioma dos documentos
		Recebe uma lista de documentos, para cada documento, quebra em palavras, remove os caracteres a serem ignorados e 
		transforma tudo em letras minusculas, assim as palavras podem ser comparadas com as 
		stop words. Se a palavra eh uma stop words, ela eh ignorada e passa para a proxima palavra. 
		Se nao for uma stop words, colocamos a palavra no dict, e tambem acrescentamos o numero do documento atual 
		para manter o controle de quais os documentos que a palavra aparece.


		Os documentos em que cada palavra aparece sao mantidos em uma lista associada a essa palavra no dics. 
		Por exemplo, uma vez que a palavra 'livro' aparece em titulos 3 e 4, terÃ­amos self.wdict['livro'] = [3, 4] 
		apÃ³s todos os titulos serem analisados.
		"""
		ldocs, self.docs = self.docs, list()

		sno = SnowballStemmer(self.language)
            
		#a linha abaixo faz com que cada elemento da lista docs agora eh uma area com n definicoes de termos diferentes
		self.docs = [" ".join(doc) for doc in self.docs]
		for doc in self.docs:

			strdoc = sub('[^\w\s-]','', doc).lower()
			words = list(filter(lambda x: x not in self.stopwords, strdoc.split()))
        
			for w in words:
				w = sno.stem(w)
				if w in self.wdict:
					self.wdict[w].append(self.dcount)
				else:
					self.wdict[w] = [self.dcount]
			self.dcount += 1

	def _run_matrix(self):
		for i, k in enumerate(self.keys):
			for d in self.wdict[k]:
				self._A[i,d] += 1

	def _build_matrix(self):
		"""
		Uma vez que todos os documentos forem analisados, todas as palavras (chaves do dict) que estao 
		em mais do que um documento sao extraidas e classificadas, e a matriz eh construida com o numero de linhas
		igual ao numero de palavras (chaves), e o numero de colunas igual a contagem de documentos. 
		Finalmente, para cada par [palavra (chave), documento] da celula da matriz correspondente Ã© incrementado.
		"""
		self.keys = [k for k in self.wdict if len(self.wdict[k]) > 1] 
		self.keys.sort() 
		self._A = zeros([len(self.keys), self.dcount])
		self._run_matrix()

	def _TFIDF(self):
		"""
		self._A[i,j] eh a frequencia da palavra i no documento j (contagem da celula)
		WordsPerDoc eh o numero maximo de ocorrencia de qualquer palavra no mesmo documento (somatorio das contagens na culuna j)
		cols eh o numero de documento na colecao (numero de colunas)
		DocsPerWord eh a quantidade de documentos em que a palavra i aparece (numero de colunas != 0 na linha i)
		"""
		#Somando as colunas da matriz A
		WordsPerDoc = sum(self._A, axis=0)
		
		#O comando self._A > 0 retorna um vetor de booleano de mesma dimensao que self._A
		#O comando asarray(self._A > 0, 'i') faz com que o vetor de booleanos vire binario {0 quando False, 1 quando True}
		#O comando sum(asarray(self._A > 0, 'i'), axis=1) faz a soma com base no axis = 1, isto eh, soma as linhas da matriz, logo
		#o retorno deste comando sera uma matriz unidimensional contendo o somatorio de todas as linhas(palavras/chaves) da matriz A
		DocsPerWord = sum(asarray(self._A > 0, 'i'), axis=1)
		rows, cols = self._A.shape
        
		#with errstate(invalid='ignore'):
		for i in range(rows):
			for j in range(cols):
				numerator = 0
				if WordsPerDoc[j] != 0.0:
					numerator = self._A[i,j] / WordsPerDoc[j]
				self._A[i,j] = numerator * (log(float(cols) / DocsPerWord[i]))

	def calculate(self):
		"""
		Aqui iremos fazer a reducao da dimensao atraves do SVD.
		O SVD eh util pois ele encontra a representacao dimensional reduzida da matriz que enfatiza as relacoes mais fortes
		e joga fora o ruido. Em outras palavras, ele faz a melhor reconstrucao da matriz possivel com o minimo de informacao.
		O truque de usar o SVD eh descobrir quantas dimensoes ou "conceitos" usar para aproximar a matriz.
		Poucas dimensoes e padroes importantes sao deixados fora.


		A fim de escolher o numero certo de dimensoes para usar, podemos fazer um histograma do quadrado de valores unicos. 
		Isto representa graficamente a importancia da contribuicao de cada valor para aproximar nossa matriz.

		No caso de grandes colecoes de documentos, o numero de dimensÃµes utilizadas esta no intervalo de 100 a 500.
		"""
		rows, cols = self._A.shape

		self.U, self.S, self.Vt = svd(self._A, full_matrices=False)

		#Reconstruindo a matriz, pela a aproximada matriz'
		transformed_matrix = dot(dot(self.U, diagsvd(self.S, len(self.S), len(self.Vt))),self.Vt)
        
		return transformed_matrix
        
	def run(self):
		self._parse()
		self._build_matrix()
		self._TFIDF()

In [None]:
if __name__ == '__main__':
    
    with open("stopwords.json","r") as file:
        stop = loads(file.read());

    ldocs = []
    
    lsa = LSA(stop, ldocs, "english")

    lsa.run()

    transformated = lsa.calculate()