<h1 style='font-size:40px'> Topic Modeling</h1>

<h2 style='font-size:30px'> Semantic Text Similarity</h2>

<h3 style='font-size:30px;font-style:italic'> Semantic Similarity with WordNet</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            WordNet é um banco de palavras que busca agrupá-las de maneira hierárquica conforme a sua semântica.
        </li>
        <li> 
            A primeira maneira de medirmos a similaridade entre dois termos seria computando a sua distância em uma árvore de significados -Path Similarity. 
        </li>
    </ul>
</div>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Path Similarity</h4>
<center> 
    <img src='path_similarity1.png'>
</center>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            No caso da imagem, a distância é computada pelo número de passos que devem ser feitos entre os dois termos de interesse. Note que a distância entre palavras do mesmo grupo semântico, há uma distância de 1 (e não 2) passos!   
        </li>
        <li> 
            Path Similarity entre duas palavras (d=distância): $PathSim(p1, p2) = \frac{1}{d(p1, p2)+1}$
        </li>
    </ul>
</div>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Lowest Common Subsumer</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
             O Lowest Common Subsumer entre duas expressões é o termo, dentro da hierarquia, que as engloba de maneira mais direta.
        </li>
    </ul>
</div>
<center> 
    <img src='lwst_subsumer.png'>
</center>
<div> 
    <ul style='font-size:20px'> 
        <li> 
             Note que o Lowest Common Subsumer entre um termo e seu nó-pai é o próprio nó-pai.
        </li>
        <li> 
            A noção de LCS é utilizada na formulação de uma outra medida de similaridade, a Lin Similarity.
        </li>
    </ul>
</div>
<center> 
    <img src='linsim.png'>
</center>

In [9]:
import nltk
from nltk.corpus import wordnet as wn

# O método 'synset' admite o nome do termo, a sua classe gramatical e a numeração do seu significado.   
deer = wn.synset('deer.n.01')
elk = wn.synset('elk.n.01')
horse = wn.synset('horse.n.01')

In [8]:
# Medindo a Path Similarity entre os termos listados.
deer.path_similarity(elk), horse.path_similarity(elk)

(0.5, 0.125)

<h3 style='font-size:30px;font-style:italic'> Use information criteria to find Lin Similarity</h3>

In [15]:
from nltk.corpus import wordnet_ic
brown_ic = wordnet_ic.ic('ic-brown.dat')

# Medindo a Lin Similarity.
deer.lin_similarity(horse, brown_ic), deer.lin_similarity(elk, brown_ic)

(0.7726998936065773, 0.8623778273893673)

<h3 style='font-size:30px;font-style:italic'> Collocations and Distributional Similarity</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
             Podemos explorar a similaridade entre termos conhecendo as palavras que os acompanham em frases.
        </li>
    </ul>
</div>
<center> 
    <img src='col_dist_sim1.png'>
</center>
<div> 
    <ul style='font-size:20px'> 
        <li> 
             Observe que todas as palavras em vermelho ocorrem com o verbo "meet" e "at" ou "the".
        </li>
    </ul>
</div>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Distributional Similarity: Context</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
             Além dos termos acompanhantes em si, conseguimos utilizar classes gramaticais e sintáticas como base para a análise de similaridade.  
        </li>
    </ul>
</div>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'> Strength of Association Between Words</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Palavras podem ser consideradas altamente relacionáveis caso elas ocorram juntas em muitos textos. No entanto, é preciso ter cuidado, pois expressões comuns como "the" e "a" costumam acompanhar diversas palavras do inglês.  
        </li>
        <li> 
            Considerando esse problema, foram elaboradas estratégias de normalização como a Pointwise Mutual Information.
        </li>
    </ul>
</div>

<center> 
    <img src='collo1.png'>
</center>

<div> 
    <hr>
    <h2 style='font-size:30px'> Topic Modeling</h2>
</div>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Fazer um computador desvendar o tópico que um determinado texto aborda envolve fazê-lo identificar a frequência com que cada palavra ocorre no documento, já que ele não é capaz de extrair significados por conta própria.
        </li>
        <li> 
            Essa estratégia é conveniente pois palavras são selecionadas conforme o contexto em que o comunicador se encontra. Além disso, vale lembrar que modelos de classificação precisam de informações numéricas para que eles funcionem.
        </li>
        <li> 
            Muitas estratégias para modelagem de tópico existem, entre elas o LDA e PLSA.
        </li>
    </ul>
</div>

<div> 
    <hr>
    <h2 style='font-size:30px'> Generative Models and LDA</h2>
</div>

<div> 
    <ul style='font-size:20px'> 
        <li> 
            Generative Models são modelos que guardam a distribuição comum para textos de um determinado assunto. Se quiséssemos construir um texto de um computador, poderíamos consultar diversos Generative Models e extrair o seu vocabulário.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> LDA</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            LDA é um modelo de geração de documentos que leva em consideração o comprimento do texto a ser criado e a quantidade de tópicos contidos nele. As palavras são lançadas ao documento respeitando a distribuição multinomial de cada assunto. 
        </li>
        <li> 
            Pode ser usado em feature selection para tarefas de classificação textual.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'> Melhores Práticas em Generative Models</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            Tokenização e normalização. 
        </li>
        <li> 
            Remoção de stop-words (the, a, an...)
        </li>
        <li> 
            Stemming, Lemmatization.
        </li>
        <li> 
            Montar uma document-matrix.
        </li>
        <li> 
            Criar um LDA sobre a document-matrix.
        </li>
    </ul>
</div>

<center> 
    <img src='lda1.png'> 
</center>

<div> 
    <hr>
    <h2 style='font-size:30px'> Information Extraction</h2>
</div>

<p style='color:red'>Information Extraction