### Infêrência Estatística
# Título: Avaliação do impacto da expressões multipalavras nos modelos de linguagem

Este script é similar ao caso base. Mas antes de criar o modelo de linguagem, identificamos as possíveis expressões multipalavras e substituímos a expressão por um único token.

In [1]:
import markovify
import os
import time
import json
import nltk
from nltk.probability import FreqDist
from nltk.tokenize import MWETokenizer
from nltk.tokenize.treebank import TreebankWordDetokenizer
import math
import numpy as np

Baseamos o código no Read me da biblioteca "Markovify" em: https://github.com/jsvine/markovify/blob/master/README.md

Primeiro criamos uma função para preprocessar o texto.

In [2]:
# Primeiro, criamos uma função para preprocessar os textos
def preprocess(text):
    # Decodificar usando ISO 8859-1 
    text = text.decode('ISO 8859-1')
    # Colocar todas as letras em minúscula
    text = text.lower()
    # Separar as sentenças pelos pontos de finais
    text = text.split('.')
    new_text = []
    for sent in text:
        # Eliminamos as sentenças com menos de 100 caracteres
        if len(sent)> 100:
            # Excluir os espaços no início e fim das sentenças
            new_text.append(sent.strip())
    return(new_text)

Unir os textos em um corpus único para identificar a frequência das palavras e dos bigrams

In [3]:
# Contador de tempo
start_time = time.time()

freq_words = {}
freq_bigram = {}

for (dirpath, _, filenames) in os.walk("Originais/treino"):
    for filename in filenames:
        # Dicionário para armazenar a frequência da palavras

        
        # Ler o arquivo e recuperar a frequência das palavras e dos bibrams
        with open(os.path.join(dirpath, filename), 'rb') as f:
            # Preprocessar o texto lido
            text = preprocess(f.read())
            # Iterando por cada sentença
            for sent in text:
                # tokenizando as sentenças
                sent = nltk.word_tokenize(sent)
                # Recuperando a frequência das palavras da sentença
                freq = FreqDist(sent)
                # Atualizando o dicionário com frequência das palavras
                for i in freq:
                    try:
                        freq_words[i] = freq_words[i] + freq[i]
                    except:
                        freq_words[i] = freq[i]
                # Recuperando os bigram
                bigram = nltk.bigrams(sent)
                for i in bigram:
                    try:
                        freq_bigram[i] = freq_bigram[i] + 1
                    except:
                        freq_bigram[i] = 1      
                        
# Fim do contador de tempo
print ("--- %s seconds ---" % (time.time() - start_time))

--- 50.35356640815735 seconds ---


Com a informação das frequências das palavras e dos bigram, é possível calcular a informação mútua.

In [4]:
# Calculando a Informação Mútua para cada bigram
bigram_MI = {}
n_bigram = len(freq_bigram)
n_word = len(freq_words)
for bi in freq_bigram:
    bigram_MI[bi] = math.log((freq_bigram[bi]/n_bigram)/
                             ((freq_words[bi[0]]/n_bigram)*(freq_words[bi[1]]/n_bigram)))

In [5]:
# Imprimindo o número total de bigrams encontrado
print (len(bigram_MI))

722623


Vamos considerar que um bigram é uma MWE aqueles pares de palavras cuja Informação Mútua ultrapassar um determinado limite.

In [6]:
# Criar uma lista de MWE com os bigrams que ultrapassem o limite assinalado na variável "MI".
mwe = {}
MI = 10.0
for bi in bigram_MI:
    if bigram_MI[bi] > MI:
        mwe[bi] = bigram_MI[bi]
print(len(mwe))
for e in mwe:
    print(bigram_MI[e], e[0], e[1])

12537
11.881205014259596  r e c ô n c a v o   b a i a n o 
10.494910653139705  d i g l i c i d i l   é t e r 
10.158438416518491  c o l a g e m   a u t o m o t i v a 
10.494910653139705  g l i c i d i l   é t e r 
12.79749574613375  p o l i a m i n a   c i c l o a l i f á t i c a 
13.490642926693695  p ' -   d i h i d r o x i d i f e n i l d i m e t i l m e t a n o 
10.446120488970273  a m i n a s   c i c l o a l i f á t i c a s 
10.31258909634575  e t i l e n o   d i a m i n a 
10.446120488970273  e s t e q u i o m é t r i c a   r e s i n a / e n d u r e c e d o r 
12.392030638025586  s c i f i d e r   s c h o l a r 
10.089445545031541  s n   
10.02490702389397  c r u z a m e n t o   i n t e r s i s t e m a 
10.232546388672214  s o f r a m   r e v o l u ç õ e s 
11.293418349357477  m o n o e t i l e n o   g l i c o l 
10.271767101825494  q u i n t e l l a   0 3 a 
11.881205014259596  c o h e r e n t   i n o v a 6 0 
10.82341472011174  b e a m   s p l i t t e r 
10.140738839419091  ó 

11.293418349357477  t u r n   a f f e c t s 
11.005736276905695  c y l i n d e r   b o d y 
10.08944554503154  e x i t   l i n e 
10.600271168797532  r e l e a s e   o p e n i n g 
13.490642926693695  n o n - u n i f o r m   n o n - s t r u c t u r e d 
10.39960047333538  n o n - s t r u c t u r e d   g r i d 
11.092747653895325  p a c k a g e   m e s h i n g 
10.39960047333538  g r i d   r e f i n e m e n t 
11.41120138501386  r e f i n e m e n t   n e a r 
11.293418349357477  p r i s m a t i c   e l e m e n t s 
10.600271168797532  e l e m e n t s   c o n s t r u c t e d 
10.39960047333538  g r i d   s e n s i t i v i t y 
11.69888345746564  s e n s i t i v i t y   t e s t s 
12.79749574613375  m i l l i o n   n o d e s 
10.08944554503154  c o n s e r v a t i o n   l a w s 
11.41120138501386  f r a c t i o n   5øzü5ø^ü
11.005736276905695  t u r b u l e n t   d i f f u s i v i t y 
10.718054204453914  5øxü5øß  f o r m u l a t i o n 
10.600271168797532  a c c u r a c y   b o u n d a r

11.69888345746564  i n f i l t r a d a s   o b l i t e r a r a m 
12.79749574613375  f o t o m i c   r o g r a f i a 
13.490642926693695  c u t í c   u l a s 
10.782592725591485  q u a r t z o s   f r a t u r a d o s 
12.104348565573805  e m p a c o t   a m e n t o 
13.490642926693695  p o n t   u a i s 
11.18805783369965  h á b i t o   b r o t o i d a l 
12.79749574613375  c a l c   í t i c a 
11.092747653895325  p o n t a s   c o n s p í c u a s 
11.005736276905695  p s e u d o m a t r i z   e s v e r d e a d a 
13.490642926693695  f o t   o m i c r o g r a f i a 
12.79749574613375  f e l d s   p a t o s 
10.31258909634575  a u t i g ê n i c a   d e t r í t i c a 
10.05665572220855  t o n s   a m a r r o n z a d o s 
12.392030638025586  a z   u l 
10.089445545031541  f o r m a s s e m   l a m e l a s 
10.232546388672214  e v i d e n c i a r   e s t r u t u r a s / t e x t u r a s 
10.546203947527255  e s t r u t u r a s / t e x t u r a s   m a c r o 
13.490642926693695  p o r c   e n

12.104348565573805  s t e f a n   k a c z m a r z 
13.490642926693695 a n g e n t i h r t e   a u f l o s u n g 
13.490642926693695  s y s t e m e n   l i n e a r e r 
13.490642926693695  l i n e a r e r   g l e i c h u n e n 
11.139267669530218  m u l t i p l i c a t i v e   a l g e b r a i c 
11.005736276905695  a d j e t i v o   s i m u l t a n e o u s 
10.494910653139705  a l g é b r i c a   m u l t i p l i c a t i v a 
10.31258909634575  s i m u l t a n e o u s   m u l t i p l i c a t i v e 
12.392030638025586  s o l o m o n   k u l l b a c k 
11.18805783369965  r i c h a r d   l e i b l e r 
12.104348565573805  h i r o t u g u   a k a i k e 
10.446120488970273  p r o p o s i t a d a m e n t e   e x e m p l i f i c a d o 
10.494910653139705  s e g m e n t a ç ã o   s e m i a u t o m á t i c a 
10.02490702389397  s u p e r i o r m e n t e   d e l i m i t a d a 
10.718054204453914  e x e c u ç õ e s   t e n t a r ã o 
11.005736276905695 t e r r i t o r i a l   p r u d e n t e 
10.08

12.79749574613375  h y d r o t a l c i t e - l i k e   f i l m s 
11.18805783369965  c a l c i n a t i o n   a t m o s p h e r e 
11.092747653895325  p o r o u s   a n o d i c 
13.490642926693695  n i o / z r o 2   c a l c i n e d 
12.104348565573805  n a n o s t r u c t u r e d   n i / c e o 2 
10.158438416518491  t h e r m a l   s i n t e r i n g 
12.79749574613375  m i c r o s t r u c t u r e   c o m p a t i b l e 
10.39960047333538  c o m p a t i b l e   p o r o u s 
11.544732777638382  c a r b o x y l i c   a c i d s 
10.600271168797532  e l e c t r o p h o r e t i c   d e p o s i t i o n 
12.104348565573805  t r a c   t r e n d s 
13.490642926693695  t u n g s t o s i l i c i c   a c i d - s u p p o r t e d 
11.18805783369965  s c a l e - u p   c a p a b i l i t y 
10.355148710764546  s u p p o r t e d   n i - c a t a l y s t s 
11.69888345746564  m a s s - t r a n s f e r   e n h a n c e m e n t 
13.490642926693695  s t a t i c   m i x e r s 
12.79749574613375  h e t e r o g e n

11.881205014259596  l o r d e   b a l f o u 
11.544732777638382  r e m o   d i s c u t i r i a 
13.490642926693695  p r e g a ç ã o   w a h a b i t a 
12.392030638025586  g r ã   b r e t a n h a 
10.31258909634575  b r e t a n h a   o f e r e c e u 
10.355148710764546  m o s c o u   s e l o u 
11.18805783369965  b o l c h e v i q u e s   d e r r o t a v a m 
12.104348565573805  b r i g a d a   c o s s a c a 
10.31258909634575  c o s s a c a   p e r s a 
10.271767101825494  r e z a   k h a n 
10.782592725591485  k h a n   d e t e v e 
11.69888345746564  r u s s a s   i n g r e s s a s s e m 
12.104348565573805  c o m e ç a d o   r a s g a r 
10.600271168797532  c o l o c o u   s m i r n a 
11.41120138501386  i t a l i a n o s   a s s i s t i a m 
10.67723220993366  m i n o r i a   c r i s t ã 
10.271767101825494  c r i s t ã   m a r o n i t a 
10.31258909634575  c o m i s s á r i o s   c i v i s 
11.41120138501386  a d m i n i s t r á - l a s   e s t a b e l e c e n d o - s e 
11.881205

10.446120488970273  c o n s i d e r a r e m   e r r a d a 
11.544732777638382  i n e s p e r a d o s   d e s v i e m 
10.123347096707223  a u t o m o b i l í s t i c a   v o l v o 
11.41120138501386  b i n ô m i o   h u m a n o - m á q u i n a 
10.446120488970273  m a c r o e r g o n o m i a   i n v e s t i g a 
10.31258909634575  a p t i d õ e s   m o t o r a s 
11.18805783369965  m a c r o e r g o n ô m i c a   a b r a n j a 
10.158438416518491  d e s r e s p e i t o   v o l u n t á r i o 
11.69888345746564  n o v a t o s   t e n d e r i a m 
10.355148710764546  f a l s a m e n t e   s u b s e q ü e n t e s 
10.194806060689366  i n t e r r u p ç õ e s   i n e s p e r a d a s 
11.69888345746564  d o m i n ó   e n c a i x a - s e 
10.39960047333538  a t o   i n s e g u r o / c o n d i ç ã o 
13.490642926693695  i n s e g u r o / c o n d i ç ã o   i n s e g u r a 
11.092747653895325  p e r r o w   s a l i e n t a 
10.31258909634575  s e r v i d ã o   v o l u n t á r i a 
10.718054204453

11.293418349357477  d e m o n s t r a r e m   r e p u l s a 
12.392030638025586  s i q u i e r a   s u p e 
11.69888345746564  p a r s i m o n i a   s i l e n c i o s a 
12.392030638025586  i s a a c   a c e b o 
11.41120138501386  c h á   v e n e n o s o 
13.490642926693695  d e j ó   s o l a 
12.392030638025586  s o l a  9 0 
11.41120138501386  p e n s a d o   t í o 
11.41120138501386  p e n s a d o  9 1 
11.005736276905695  f a z e n d o - n o s   a c r e d i t a r 
10.089445545031541 e s f e r a   f e m i n i n a 
13.490642926693695 m e   g u s t a 
13.490642926693695  g u s t a   d o r m i r 
13.490642926693695  s a b e r l o   a l l í 
10.851585597078437  t a n   c á l i d o 
12.79749574613375  c á l i d o   c o n m i g o 
12.104348565573805 e n t o n c e s   p i e n s o 
11.69888345746564  a l i v i o  9 3 
12.392030638025586  n u e s t r o   g o c e 
12.79749574613375  g o c e   m u t u o 
12.104348565573805  m u t u o  9 4 
10.123347096707223  e s t a m o s   f l o t a n d o 


12.104348565573805  a r t u r o   u s l a r 
12.392030638025586  u s l a r   p i e t r i 
12.79749574613375  g r a n   e m o c i ó n 
13.490642926693695  e m o c i ó n   c o m p a r t i d a 
10.446120488970273  s o l   i n u n d a 
10.446120488970273  n i ñ o s   h a n 
11.544732777638382  h a n   o l v i d a d o 
13.490642926693695  j u e g o   c o l e c t i v o 
10.494910653139705  p a p á   d e b e 
11.18805783369965  d e b e   c e n i r 
10.718054204453914  c e n i r   p r o n t o 
10.851585597078437  r a d i o   a n u n c i a 
13.490642926693695  c o n t r a l m i r a n t e   w o l f g a n g 
13.490642926693695  w o l f g a n g   l a r r a z á b a l 
13.490642926693695  l a r r a z á b a l   u g u e t o 
12.79749574613375  u g u e t o  1 5 0 
13.490642926693695 a l g u n o s   c u e n t o s 
12.79749574613375  a n i m a l e s   h a b l a n 
13.490642926693695  p u e d a n   l i m i t a r s e 
11.293418349357477  p a l a b r a s  1 5 1 
11.18805783369965  p a s a r á   m u c h o 
1

11.544732777638382  t a r t a r u g a   c a b e ç u d a 
12.104348565573805  c a r e t t a   c a r e t t a 
10.494910653139705  1 p r o j e t o   t a m a r 
12.392030638025586  s o t a l i a   g u i a n e n s i s 
10.02490702389397  i p e c   e x e c u t o u 
10.194806060689366  c a n a n é i a   i g u a p e 
11.69888345746564  a c h a d o s   h i s t o p a t o l ó g i c o s 
10.600271168797532  p m p /   b s 
10.271767101825494  r e f ú g i o s   a c ú s t i c o s 
10.925693569232159  s u l /   a p a m l s 
11.18805783369965  l e n ç ó i s   m a r a n h e n s e s 
10.851585597078437  m a r a n h e n s e s   u s o u 
12.104348565573805  p u f f i n u s   p u f f i n u s 
11.41120138501386  c a r d o s o /   p e i c 
11.69888345746564  i n s t i t u c i o n a l m e n t e   f o r m a l i z a d o 
12.104348565573805  c o n v e r s a r   c o m i g o 
13.490642926693695  e n c a l h a m   m a i s / 
10.925693569232159  t e m p o r a d a   r e p r o d u t i v a 
11.69888345746564  i a p / p 

10.782592725591487  \   \ ü 3 
10.718054204453914  \ ü 3   i m 
11.092747653895325  s u p e r a m   o s ' 
10.782592725591485  u s d   7 8 5 
11.18805783369965  e c o n o m i z a d o s   u s d 
10.39960047333538  m o d é l o   b l a c k - o i l 
12.79749574613375  y p   é o 
11.41120138501386  w o   = x o w 
10.925693569232159  c a p i l a r e s   p c o w 
11.41120138501386  f o i m a   c o n s e r v a t i v a 
11.005736276905695  c u r v i l í n e o   n ã o - o r t o g o n a l 
10.31258909634575  - f - f   p o 
10.05665572220855  u p s t r e a m   d i f f e r e n c i n g 
11.41120138501386  d i f f e r e n c i n g   s c h e m e 
13.490642926693695  z h 1   z o 1 
13.490642926693695  z w 2   z o 2 
10.718054204453914  f o r c i n g   t e r m 
10.430372132002134  f o r c i n g   t e r m s 
11.41120138501386  s k   i n i c i a i 
10.089445545031541  j | f j |   p r o m o v i d a 
11.69888345746564  e s c o l h e n d o - s e   r j k 
10.02490702389397  | f   | 
12.104348565573805  g e n e

12.104348565573805  b a s e m e n t   r o c k s 
10.600271168797532  h e l p   s e i s m i c 
10.446120488970273  b u r i e d   r e s e r v o i r s 
10.31258909634575  r e d u c i n g   u n c e r t a i n t y 
10.718054204453914  t h r o u g h   f i e l d - b a s e d 
10.31258909634575  r e d u c i n g   s u b s u r f a c e 
12.79749574613375  o u t c r o p  b a s e d 
11.293418349357477  e c o n o m i c a l l y   s i g n i f i c a n t 
10.782592725591485  l a t e   c r e t a c e o u s 
12.392030638025586  c r e t a c e o u s   r a k o p i 
10.718054204453914  t a r a n a k i   b a s i n 
10.05665572220855  g e o p h y s i c s   v o l 
10.600271168797532  s t r a t i g r a p h i c   i n t e r p r e t a t i o n 
11.293418349357477  m i d d l e   m i o c e n e 
13.490642926693695  m i o c e n e   m a h a k a m 
10.925693569232159  c o m p l e x   h e t e r o l i t h i c 
11.321589226324173  t e r t i a r y   d e e p - m a r i n e 
10.109648252349059  d e e p - m a r i n e   r e s e r v o

10.600271168797532  s i g n i f i c a n t   a d v a n t a g e 
11.544732777638382  s e m i a r i d   r e g i o n s 
12.79749574613375  s a n i t a r y   s u r v e i l l a n c e 
10.31258909634575  b e c a m e   n e c e s s a r y 
11.18805783369965  c a r r y   o u t 
10.232546388672214  e x t e n s i v e   a r e a s 
10.232546388672214  a r e a s   c a u s e s 
12.104348565573805  g r e a t   a p p r e h e n s i o n 
10.851585597078437  a p p r e h e n s i o n   w i t h i n 
10.600271168797532  s i g n i f i c a n t   l i m i t a t i o n s 
12.392030638025586  a c a d e m i c   r e c o r d s 
10.782592725591487  p h y t o s a n i t a r y   p r o d u c t s 
10.446120488970273  f e w   p a t e n t 
11.544732777638382  p a t e n t   r e g i s t r a t i o n s 
11.18805783369965  o u t   f u r t h e r 
12.104348565573805  t r i b o   j o a n n e s i e a e 
11.293418349357477  g r e g a   j a t r ' o s 
10.271767101825494 j a t r o p h a   c u r c a s 
10.02490702389397  e x t r a c t   i n

13.490642926693695  m i s c a n t h u s   s i n e n s i s 
10.08944554503154  a m i n o á c i d o   f e n i l a l a n i n a 
11.41120138501386  f r o u x a m e n t e   a d e r i d a 
10.851585597078437  g l i c o s í d e o   h i d r o l a s e s 
11.69888345746564  c a r b o h y d r a t e   a c t i v e 
10.31258909634575  a c t i v e   e n z y m e s 
10.494910653139705  e n d o g l i c a n a s e s   h i d r o l i s a m 
10.194806060689366  ²- g l i c o s i d a s e s   f i n a l i z a m 
10.718054204453914  m o n o o x i g e n a s e s   l í t i c a s 
10.31258909634575  a c e s s ó r i o s   a a 9 
11.005736276905695  l p m o s   f ú n g i c a s 
10.925693569232159  p e c t i n a   n ã o - e s t e r i f i c a d a 
10.782592725591485  g l i c o s í d i c a s   ±- 
11.881205014259596  p o l i m e t i l g a l a c t u r o n a t o   l i a s e s 
11.881205014259596  p o l i g a l a c t u r o n a t o   l i a s e s 
12.104348565573805  p e c t i n a / á c i d o   p é c t i c o 
11.544732777638

12.79749574613375  b e e   a p i s 
12.79749574613375  a p i s   m e l l i f e r a 
10.600271168797532  f l u o r e s c e n t   s t a i n i n g 
11.18805783369965  a n t i m i c r o t u b u l e   h e r b i c i d e 
10.782592725591487  c h r o m o s o m e   d o u b l i n g 
13.490642926693695  f u n g i c i d e s   s t i m u l a t e 
11.18805783369965  s t i m u l a t e   c a 2 + 
11.18805783369965  c a 2 +   e f f l u x 
13.490642926693695  c a t i o n i c   p o r p h y r i n 
12.79749574613375  i n t e r m e d i a t e   f i l a m e n t s 
10.232546388672214  s o m e   a n s w e r s 
10.355148710764546  m o r e   q u e s t i o n s 
11.69888345746564  s u p r a v i t a l   s t a i n i n g 
13.490642926693695  h o n e y b e e   s p e r m a t o z o a 
11.41120138501386  i n t r a u t e r i n e   g r o w t h 
11.41120138501386  g r o w t h   r e t a r d a t i o n 
11.005736276905695  i o w a   c o m m u n i t i e s 
11.41120138501386  h e r b i c i d e s - c o n t a m i n a t e d   d r i n

13.490642926693695  s t u d e n t i z e d   r e s i d u a l s 
10.65742958263748  i n s t i t u t o s   m e t r o l ó g i c o s 
11.41120138501386  c o m m u n i t y   c o n c e r n i n g 
10.851585597078437  c o n c e r n i n g   l i m i t s 
10.546203947527255  a l m o s t   a l l 
10.546203947527255  a l l   l a c k 
13.490642926693695  ' d e t e c t i o n   l i m i t s ' 
10.718054204453914  l e t r a   g r a f a d a 
11.69888345746564  a v r a h a m   l o r b e r 
11.41120138501386  n e t   a n a l y t e 
11.257050705186602  a n a l y t e   s i g n a l 
10.77429392277679  x t   - k 
11.293418349357477  x a x a   y k 
10.851585597078437  ây k * v c l   s u b t r a ç ã o 
10.925693569232159  a n n i h i l a t i o n   s t e p 
10.494910653139705  x a v   c o n t e n h a 
10.782592725591485  t r u e   n e t 
10.494910653139705  á l g e b r a   t e n s o r i a l 
10.782592725591487  h - é s i m a   r e p l i c a t a 
10.31258909634575  s o m a s   q u a d r á t i c a s 
10.78259272559

10.271767101825494  s w e e p s   s e n o i d a i s 
10.194806060689366 h y d r o p h o n e   b a s e d 
11.005736276905695  p r i n t e d   p o l y p r o p y l e n e 
11.005736276905695  e l e c t r o n i c s   l e t t e r s 
11.293418349357477  p e r m i t i r ã o   c a t a p u l t a r 
12.104348565573805  v i s i v e l m e n t e   c o n t r a r i a d a 
11.005736276905695  p a u l a   l a b o i s s i è r e 
10.925693569232159  a p r e c i a ç ã o   i n j u s t i f i c a d a 
10.600271168797532  b u s c a r á   d e m o s t r a r 
10.851585597078437  s é r g i o   w u l f f 
11.41120138501386  w u l f f   g o b e t t i 
10.494910653139705  w i t h o u t   d e m o c r a t s 
10.792162176607636  g i l b e r t o   b e r c o v i c i 
11.41120138501386  s i l ê n c i o   e n s u r d e c e d o r 
11.881205014259596  g u s t a v o   b i n e m b o j m 
10.600271168797532  p e r m i t i r ã o   d e s c o r t i n a r 
10.65742958263748  p e t e r   p r e s t o n 
12.104348565573805  e m e r g i

10.271767101825494  s e r r a n o   d e c i d i u 
12.79749574613375  p r e s i d e n t i a l   s u c c e s s i o n 
13.490642926693695 n e w   p o p u l i s m 
13.490642926693695  p o p u l i s m   a r o s e 
11.005736276905695  t r a d i t i o n a l   p o p u l i s m 
11.293418349357477  s t r u c t u r a l   r e f o r m s 
13.490642926693695 n a t i o n a l i s t   b u s i n e s s m e n 
11.41120138501386  p a r t y   b o s s e s 
10.158438416518491  p o p u l i s m   s t i l l 
11.544732777638382  s t i l l   e m p h a s i z e d 
12.392030638025586  t r a d i t i o n a l   a g r a r i a n 
10.546203947527255  v í c i o   r e n t i s t a 
11.005736276905695  r e s p o n s a b i l i z a r   c o n t r a t u a l m e n t e 
11.881205014259596  1 9 7 6 - 1 9 7 9   s t a b i l i z a t i o n 
10.600271168797532  s i t u a c i ó n   a c t u a l 
11.005736276905695  e x p o r t i n g   c o u n t r i e s 
11.005736276905695  e m i n e n t   d o m a i n 
10.194806060689366  p r o p e r t y 

In [7]:
# Função que recebe um sentença e o dicionário com MWE e retorna a sentença com os MWE unidos por "_". 

def uni_MWE(sent, mwe):
    
    mwe_tokenizer = MWETokenizer(list(mwe.keys()))
    sent = nltk.word_tokenize(sent)
    sent = mwe_tokenizer.tokenize(sent)
    sent = TreebankWordDetokenizer().detokenize(sent)
    return (sent)

Para cada arquivos do diretórios especificado lemos e preprocessamos o texto, unimos os bigrams considerados MWE, criamos uma rede de markov com os n-grams (state_size) e combinamos os modelos de todos os arquivos.

In [8]:
# Contador de tempo
start_time = time.time()

# Cadeia de Markov combinada
combined_model = None

# Contagem de arquivos
n_files = 0

# Iterar pelos diretórios e arquivos
for (dirpath, _, filenames) in os.walk("Originais/treino"):
    for filename in filenames:
        n_files += 1
        
        try:
            # Ler o arquivo e criar uma cadeia de Markov para cada arquivo
            with open(os.path.join(dirpath, filename), 'rb') as f:
                
                # Preprocessar o texto lido
                text = preprocess(f.read())
                text_mwe = []
                
                # Unir as MWE
                for sent in text:
                    text_mwe.append(uni_MWE(sent, mwe))
                
                # Treinar o modelos usando as o texto preprocessado e com MWE
                model = markovify.NewlineText(text_mwe, retain_original=False, state_size=2)

                # Combinar modelo criado para um arquivo com a Cadeia de Markov combinada
                if combined_model:
                    combined_model = markovify.combine(models=[combined_model, model])
                else:
                    combined_model = model
        except:
            print("Não foi possível ler o arquivo", filename)
            #pass
                    
        # Contador de arquivos processados
        if n_files % 50 == 0:
            print ("--- %s arquivos processados ---" % n_files, "--- %s seconds ---" % (time.time() - start_time))
    
# Fim do contador de tempo
print ("--- %s seconds ---" % (time.time() - start_time))

--- 50 arquivos processados --- --- 2504.468332529068 seconds ---
--- 100 arquivos processados --- --- 5149.05180311203 seconds ---
--- 7032.4498698711395 seconds ---


In [9]:
# Imprimir um exemplo de sentença aleatória
print(combined_model.make_sentence(max_words=50))

   c o n t u d o ,    q u a n d o   b u s c a   e x í l i o   n o s   e s t a d o s   u n i d o s   m a i s   d e   2 5 %    e   q u e   n ã o   f a z i a m   p a r t e   d a s   o n d a s   i n c i d e n t e s   e   c h o q u e s   r e f l e t i d o s   d a d a   p r e s s õ e s   i n i c i a i s 


In [10]:
# Gravar modelo em JSON em disco
# model_json = combined_model.to_json()
# with open('MarkovChainModel_mwe_MI10.json', 'w') as f:
#     json.dump(model_json, f)

In [11]:
# Carregar modelo em JSON do disco
# with open('MarkovChainModel_mwe_MI10.json', 'r') as f:
#     model_json = markovify.Text.from_json(json.load(f))

Como os textos usados são em português, foi necessário codificar em 'ISO 8859-1', já o modelo JSON está codificado em UTF16. Portanto, ao ler e consultar os termos do modelo é necessário usar a codificação correta.

In [12]:
# Geração de sentença aleatória que iniciam com n-palavras

# Palavras que serãao usadas como semente
palavra_1 = 'a'
palavra_2 = 'petrobras'

# Ajustando a codificação para ser usado no modelo
palavra_1 = ' ' + palavra_1 + ' '
palavra_2 = ' ' + palavra_2
palavra_1 = palavra_1.encode('utf16')[3:]
palavra_2 = palavra_2.encode('utf16')[4:]
seed = palavra_1 + palavra_2

#Criando sentença aleatória iniciando com as palavras sementes
print(combined_model.make_sentence_with_start(seed.decode()))

 a   p e t r o b r a s   p o d e   s o l i c i t a r   u t i l i z a ç ã o   d o   o x i g ê n i o   p o s s u i   d o i s   e l é t r o n s   d e s e m p a r e l h a d o s ,    c a d a   a l t e r n a t i v a   d e   u t i l i z a ç ã o   d o s   r e c u r s o s   n ã o - r e n o v á v e i s 


Do modelo criado pela biblioteca Markovify, extraímos a cadeia de Markov e gravamos em um dicionário

In [13]:
# Extrair cadeia de Markov do modelo
chain = combined_model.to_dict()['chain']
# Transformando a cadeia em um dicionário 
dic = {}
for state in json.loads(chain):
    dic[(state[0][0],state[0][1])] = state[1]

Criamos uma função para consultar a cadeia de Markov. Dado duas palavras, extraímos as próximas palavras possíveis, a contagem delas no conjunto de treinamento e a soma total. Dessa forma conseguimos calcular  $p(x_3|x_2,x_1)$.

In [14]:
# Função que dado duas palavras, retorna um dicionários com as probabilidades das palavras seguintes
def query_chain(palavra_1, palavra_2):
    # Selecionar o dicionário cuja entrada é o par de palavras "palavra_1" e "palavra_2"
    d = dic[(palavra_1, palavra_2)]
    new_d = {}
    # Transformar a contagem de palavras em probabilidade
    for w in d:
        new_d[w] = d[w]/sum(d.values())
    return (new_d)

O calculamos a perplexidade para cada sentença. Dada as primeiras palavras, obtivemos do modelo a probabilidade da palavra seguinte. Em seguida, avançamos pela sentença recuperando as probablidades.

In [15]:
# Dada uma sentença, a função retorna uma lista com as entropias calculada para cada trio de palavras
def entropy(sent):
    # Primeiro unimos os MWE
    sent = uni_MWE(sent, mwe)
    # Quebra a sentença em tokens
    words = nltk.word_tokenize(sent)
    # Variável para guardar a entropia de cada conjunto de palavras
    ln_prob_Xi = []
    # Janela de iteração pela sentença
    for w in range(len(words)-2):
        # Cálculo a entropia
        try:
            ln_prob_Xi.append(- math.log(query_chain(words[w], words[w+1])[words[w+2]]))
        except:
            pass

    return(np.mean(ln_prob_Xi))

In [16]:
# Função que recebe uma string com o caminho e nome da pasta com os arquivos e retorna a perplexidade

def perplexity(dirpath):

    # Início do contador de tempo
    start_time = time.time()
    
    # Variável para armazenar as entropias
    ent = []

    # Contagem de arquivos
    n_files = 0
    # Iterando pelos arquivos da pasta indicada em
    for (dirpath, _, filenames) in os.walk(dirpath):
        
        for filename in filenames:
            n_files += 1
            try:
                # Ler o arquivo e calcular a entropia
                with open(os.path.join(dirpath, filename), 'rb') as f:
                    # Preprocessar o texto lido
                    text = preprocess(f.read())
                    #Calcular a entropia da sentença
                    for sent in text:
                        ent.append(entropy(sent))

            except:
                print("Não foi possível ler o arquivo", filename)
        
                
            # Contador de arquivos processados
            if n_files % 5 == 0:
                print ("--- %s arquivos processados ---" % n_files, "--- %s seconds ---" % (time.time() - start_time))
    
    
    # Transformando a lista de entropias em uma np.array e excluir os valores "nan"
    ent = np.array(ent)
    ent = ent[~np.isnan(ent)]
    
    # Fim do contador de tempo
    print ("--- %s seconds ---" % (time.time() - start_time))
    
    return (math.exp(np.mean(ent)))

In [17]:
perplexity("Originais/teste")

  out=out, **kwargs)
  ret = ret.dtype.type(ret / rcount)


--- 5 arquivos processados --- --- 313.27957248687744 seconds ---
--- 10 arquivos processados --- --- 638.7546446323395 seconds ---
--- 891.452290058136 seconds ---


17.968289148601592