# <center>__MÉTODOS NUMÉRICOS__</center>
## <center>__PROJETO DA UNIDADE 2__</center>

#### <center>__ALUNO:__Erickson Azevêdo</center>

<div class="alert alert-block alert-info">
1. INTRODUÇÃO
</div>

No contexto do Processamento de Linguagem Natural (PLN), a modelagem de tópicos é um problema de aprendizado não supervisionado cujo objetivo é encontrar tópicos abstratos em uma coleção de documentos. 

A modelagem de tópicos é uma abordagem utilizada para compreesão e classificação automática de dados em uma variedade de configurações, e talvez a aplicação canônica seja descobrir a estrutura temática em um corpus de documentos. Vários trabalhos fundamentais tanto em aprendizado de máquina quanto em teoria sugeriram um modelo probabilístico para documentos, em que os documentos surgem como uma combinação convexa de um pequeno numero de vetores de tópicos, cada vetor de tópico sendo uma distribuição em palavras.

![Modelagem de topicos](https://s3-ap-south-1.amazonaws.com/av-blog-media/wp-content/uploads/2018/09/Screenshot_1.png)

<div class="alert alert-block alert-info">
2. DESCRIÇÃO DO PROBLEMA
</div>

Como apresentado na imagem anterior o problema da modelagem de tópicos consiste em determinar se a partir de um corpo de texto de muitos documentos é possivel encontrar os tópicos abstratos sobre os quais o texto está falando.
Essa abordagem é utilizada em diversas ocasiões como por exemplo para entender feedbacks de usuarios [[1]](https://nkoenig06.github.io/gd-tm-svd.html), descobrir quais tópicos estão sendo relevantes no twitter e varias outras aplicações [[2]](https://towardsdatascience.com/lda-topic-modeling-with-tweets-deff37c0e131).

A Modelagem de Tópicos ajuda a destilar as informações no corpus de texto grande em um certo número de tópicos. Os tópicos são grupos de palavras que são *semelhantes* no contexto e são indicativos das informações na coleção de documentos.

A estrutura geral da Matriz Documento-Termo para um corpus de texto contendo M documentos e N termos ao todo é mostrada abaixo:

![Matriz Documento-Termo](https://hackernoon.com/_next/image?url=https%3A%2F%2Fcdn.hackernoon.com%2Fimages%2FBYWRsHWtmGOUC5N4fwNhMqohMAC3-0693jy9.png&w=1920&q=75)

Vamos analisar a representação matricial:

- D1, D2, ..., DM são os documentos M.
- T1, T2, ..., TN são os N termos

Para preencher a Matriz de Termo de Documento, vamos usar a métrica amplamente utilizada – a pontuação TF-IDF.

<div class="alert alert-block alert-info">
3. MÉTODOS APLICADOS À SOLUÇÃO
</div>

Nessa seção, você descreverá que métodos numéricos usará para solucionar o problema acima, explicando como esses métodos funcionam, para que tipos de problemas eles são úteis e, principalmente, porque são úteis para o problema descrito na seção anterior


###  Equação de pontuação TF-IDF

A pontuação TF-IDF é dada pela seguinte equação:

$$ W_{ij} = TF_{ij} * log (\frac{M}{df_{i}})$$

No qual, 
- $TF_{ij}$ é o número de vezes que o termo  $T_j$ ocorre no documento  $D_i$.
- $df_j$ é o número de documentos que contêm o termo $T_j$

Um termo que ocorre com frequência em um documento específico e raramente em todo o corpus tem uma pontuação IDF mais alta.

### Modelagem de tópicos usando decomposição de valor singular (SVD)

O uso de Singular Value Decomposition (SVD) para modelagem de tópicos é explicado na figura abaixo: 

![SVD](https://hackernoon.com/_next/image?url=https%3A%2F%2Fcdn.hackernoon.com%2Fimages%2FBYWRsHWtmGOUC5N4fwNhMqohMAC3-jtl3jg6.jpeg&w=1920&q=75)

A Decomposição de Valor Singular na Matriz de Termo de Documento D fornece as três matrizes a seguir:

- A matriz vetorial singular esquerda U . Esta matriz é obtida pela decomposição própria da matriz Gram D.D_T — também chamada de matriz de similaridade de documentos. A i,j-ésima entrada da matriz de similaridade de documentos significa quão similar é o documento i ao documento j.
- A matriz de valores singulares S que significam a importância relativa dos tópicos.
- A matriz de vetores singulares à direita V_T , que também é chamada de matriz de tópicos do termo. Os tópicos no texto residem ao longo das linhas desta matriz.

O SVD pode ser pensado como uma caixa preta que opera em sua Matriz de Termo de documento (DTM) e produz 3 matrizes, U, S e V_T. E os tópicos residem ao longo das linhas da matriz V_T. isto é ilustrado na figura abaixo.
![Modelador de tópicos com svd](https://hackernoon.com/_next/image?url=https%3A%2F%2Fcdn.hackernoon.com%2Fimages%2FBYWRsHWtmGOUC5N4fwNhMqohMAC3-s7c3juw.png&w=1920&q=75)

<div class="alert alert-block alert-info">
4. IMPLEMENTAÇÃO
</div>

### Etapas
1. Importando dependencias.

### Necessario realizar o download da dependencia caso não possua
- python3 -m spacy download en
- pip install -U spacy


In [271]:
!pip install -U spacy
!pip install pyldavis

Collecting pyldavis
  Downloading pyLDAvis-3.3.1.tar.gz (1.7 MB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Installing backend dependencies: started
  Installing backend dependencies: finished with status 'done'
    Preparing wheel metadata: started
    Preparing wheel metadata: finished with status 'done'
Collecting sklearn
  Downloading sklearn-0.0.tar.gz (1.1 kB)
Collecting funcy
  Downloading funcy-1.17-py2.py3-none-any.whl (33 kB)
Building wheels for collected packages: pyldavis, sklearn
  Building wheel for pyldavis (PEP 517): started
  Building wheel for pyldavis (PEP 517): finished with status 'done'
  Created wheel for pyldavis: filename=pyLDAvis-3.3.1-py2.py3-none-any.whl size=136900 sha256=ba379081472ede9084d589ec3590b9cf11e69bd30962a396bb48af1716798a11
  Stored in directory: c:\users\erickson\appdata\l

In [273]:
import numpy as np
import pandas as pd
import re, nltk, spacy, gensim
# Sklearn
from sklearn.decomposition import LatentDirichletAllocation, TruncatedSVD
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import GridSearchCV
from pprint import pprint
# Plotting tools
import pyLDAvis
import pyLDAvis.sklearn
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
from sklearn import decomposition
from scipy import linalg
import matplotlib.pyplot as plt
import nltk
import gensim

In [None]:
%matplotlib inline
np.set_printoptions(suppress=True)

In [None]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
nltk.download('stopwords')

In [None]:
lemma = WordNetLemmatizer()

2. Carregando os dados a partir do CSV

In [None]:
data = pd.read_csv('data.csv')
data

In [None]:
data = data.Title.str.split(" ")
data

4. A próxima etapa é importar o tfidfVectorizer do scikit-learn para extração dos dados a partir do texto *lista*:

<div class="alert alert-block alert-info">
5. CASOS DE USO
</div>

## Utilizando SVD para descobrir tópicos

- Baixando dependencias

In [None]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
nltk.download('stopwords')

In [None]:
lemma = WordNetLemmatizer()

7. Realizando uma limpeza nos dados e retirando palavras conectivas entre outras.

In [None]:
data = data.apply(lambda doc: [lemma.lemmatize(word) for word in doc])
data

In [None]:
from nltk.corpus import stopwords

In [None]:
swords = stopwords.words('english')

In [None]:
data = data.apply(lambda doc: [word for word in doc if word not in swords])
data

In [None]:
from gensim.corpora.dictionary import Dictionary

In [None]:
dct = Dictionary(data)

In [None]:
dct.filter_extremes(no_below=5, no_above=0.5)

In [None]:
len(dct.token2id)

In [None]:
bow = data.apply(dct.doc2bow)
bow

In [None]:
from gensim.models import LdaModel

In [None]:
lda = LdaModel(bow, num_topics=20, id2word=dct)

7. Aqui é apresentada a matriz de tópicos com sua respectiva importancia para a frase avaliada

In [None]:
for i in range(20):
    print("Topic_"+str(i), lda.print_topic(i))
    print("")

<div class="alert alert-block alert-info">
6. REFERÊNCIAS
</div>

- [[1]](https://nkoenig06.github.io/gd-tm-svd.html) *Topic Modeling Company Reviews with SVD*, **N. Koenig** - 06/ December/2019
- [[2]](https://towardsdatascience.com/lda-topic-modeling-with-tweets-deff37c0e131) *LDA Topic modeling with Tweets*, **Rob Zifchak** - 10/ Jul/2020
- [[3]](https://hackernoon.com/advanced-topic-modeling-tutorial-how-to-use-svd-and-nmf-in-python-to-find-topics-in-text) *Advanced Topic Modeling Tutorial: How to Use SVD & NMF in Python*,  **@balapriya_** 16 mar 2022