In [1]:
import pandas as pd

df = pd.read_csv('../dados/jurisprudencia_selecionada_enunciados.csv', sep = '|')
df.head()

Unnamed: 0,COD,NUM_ENUNCIADO,COD_AREA,DESCR_AREA,COD_TEMA,DESCR_TEMA,COD_SUBTEMA,DESCR_SUBTEMA,COD_DOC_TRAMITAVEL_ENUNCIADO,TEXTO_ENUNCIADO,ACORDAO,TIPO_PROCESSO
0,1400,1236,50,Responsabilidade,488,Solidariedade,261,Benefício previdenciário,54995437,Não comprovada a participação do beneficiário ...,Acórdão 297/2016 - PL,Tomada de Contas Especial
1,1700,1534,46,Finanças Públicas,981,Exportação,983,Petróleo,55025587,A operação ficta de exportação de plataformas ...,Acórdão 366/2016 - PL,Solicitação do Congresso Nacional
2,5700,5314,50,Responsabilidade,203,Multa,1021,Dosimetria,55455370,"No âmbito do TCU, a dosimetria da pena tem com...",Acórdão 944/2016 - PL,Acompanhamento
3,284,40,45,Direito Processual,162,Princípio da independência das instâncias,481,Decisão judicial,54773746,O princípio da independência das instâncias pe...,Acórdão 30/2016 - PL,Tomada de Contas Especial
4,298,54,49,Pessoal,141,Sistema S,142,Nepotismo,54773402,É vedado aos dirigentes das entidades do Siste...,Acórdão 55/2016 - PL,Representação


## Tokenização - primeira tentativa

In [22]:
from keras.preprocessing.text import Tokenizer
import numpy as np

tokenizer = Tokenizer()
tokenizer.fit_on_texts(df['TEXTO_ENUNCIADO'])

word_index = tokenizer.word_index
vocabulario = len(word_index) + 1
print('Found %s unique tokens.' % len(word_index))

sequences = tokenizer.texts_to_sequences(df['TEXTO_ENUNCIADO'])

Found 15387 unique tokens.


In [23]:
print(df['TEXTO_ENUNCIADO'][0])
print(sequences[0])

Não comprovada a participação do beneficiário na concessão irregular de benefício previdenciário, fica afastada a responsabilidade do segurado perante o TCU, sem prejuízo da adoção, pelos órgãos competentes, de providências administrativas e/ou judiciais para reaver os valores indevidamente pagos.
[9, 605, 2, 230, 4, 461, 22, 71, 151, 1, 225, 1085, 1595, 1703, 2, 118, 4, 3405, 656, 5, 28, 51, 215, 3, 330, 185, 239, 2244, 1, 671, 1182, 6, 14, 668, 10, 4530, 18, 78, 576, 778]


In [39]:
tokenizer.word_index.items()

dict_items([('de', 1), ('a', 2), ('da', 3), ('do', 4), ('o', 5), ('e', 6), ('que', 7), ('em', 8), ('não', 9), ('para', 10), ('no', 11), ('se', 12), ('com', 13), ('ou', 14), ('é', 15), ('dos', 16), ('lei', 17), ('os', 18), ('por', 19), ('ao', 20), ('à', 21), ('na', 22), ('art', 23), ('ser', 24), ('as', 25), ('das', 26), ('deve', 27), ('tcu', 28), ('8', 29), ('pelo', 30), ('pela', 31), ('recursos', 32), ('como', 33), ('administração', 34), ('aos', 35), ('serviços', 36), ('contas', 37), ('nos', 38), ('quando', 39), ('público', 40), ('licitação', 41), ('inciso', 42), ('federal', 43), ('objeto', 44), ('sua', 45), ('processo', 46), ('aplicação', 47), ('devem', 48), ('serviço', 49), ('caso', 50), ('sem', 51), ('tempo', 52), ('pode', 53), ('1993', 54), ('entre', 55), ('aposentadoria', 56), ('§', 57), ('execução', 58), ('responsável', 59), ('contratação', 60), ('666', 61), ('pública', 62), ('uma', 63), ('contrato', 64), ('pagamento', 65), ('forma', 66), ('preços', 67), ('somente', 68), ('débito

In [24]:
from keras.preprocessing.sequence import pad_sequences

x = pad_sequences(sequences, maxlen=200, padding = 'post')

print('Shape of data tensor:', x.shape)

Shape of data tensor: (13312, 200)


In [25]:
print(x[0])

[   9  605    2  230    4  461   22   71  151    1  225 1085 1595 1703
    2  118    4 3405  656    5   28   51  215    3  330  185  239 2244
    1  671 1182    6   14  668   10 4530   18   78  576  778    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0 

### Cruzando com vocabulário geral (NILC/USP)

In [121]:
from gensim.models import KeyedVectors

model_nilc = KeyedVectors.load_word2vec_format('../externos/model.txt')

In [27]:
embedding_matrix = np.zeros((vocabulario, 100))

ok = 0
for word, i in tokenizer.word_index.items():
    if word in model_nilc.wv:
        embedding_matrix[i] = model_nilc.wv[word]
        ok += 1
print('Vocabulario:', i)
print('Encontrados no modelo:', ok, '=', ok * 100. / i)

Vocabulario: 15387
Encontrados no modelo: 13758 = 89.41314096315071


In [28]:
embedding_matrix

array([[ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [-0.059871  , -0.26613   , -1.28895199, ...,  0.049941  ,
         2.60319304,  0.55991101],
       [-1.18634903, -0.38530999, -0.378241  , ...,  0.313878  ,
         3.19949102,  0.82701999],
       ...,
       [-0.47400999,  0.442608  , -0.817137  , ...,  1.29309905,
         0.077867  , -0.12970901],
       [-0.35974899,  0.77535099, -0.960464  , ...,  0.86611098,
        -0.025425  , -0.49312499],
       [-0.48482201,  0.160191  , -0.214423  , ..., -0.24393301,
         0.67454898, -0.22386   ]])

In [30]:
embedding_matrix[1]

array([-0.059871  , -0.26613   , -1.28895199, -2.35289407,  0.41423699,
        0.62119299,  1.07300305, -0.54818898, -0.64319098,  0.96672201,
        0.86920398, -0.212642  , -1.03897405, -0.35674599, -0.24672   ,
        0.47109899,  0.049724  , -0.75520003,  0.38866499,  1.05341101,
        0.94006598, -0.40571299,  0.007156  , -1.13477898, -0.43322101,
       -0.81971103, -0.012     ,  0.032739  , -0.225575  ,  1.15352201,
        0.53717297, -0.463806  ,  0.34047201, -0.18979301, -0.16028801,
        0.58364999, -0.102506  ,  0.068884  , -0.92653602,  0.95241499,
        1.37500095,  0.169173  , -0.055722  , -0.356511  ,  0.55993801,
        0.41469699, -0.74711198, -0.548186  ,  0.35731   ,  0.85121101,
        0.036744  , -0.74690801, -0.30547401, -0.137128  , -1.13737202,
       -0.51423401, -0.27209601, -0.62299103, -0.76224899, -0.62559497,
        0.084059  ,  0.09621   ,  0.301824  , -0.55729997,  0.53733498,
        0.51262403, -0.43583801,  0.59152597, -0.318885  ,  0.18

In [72]:
for texto in df['TEXTO_ENUNCIADO'][:10]:
    print(texto)
    print()
    tokens = ''
    for token in texto.lower().replace(',', ' ').replace('.', ' ').replace('/', ' ').split(' '):
        if not token:
            pass
        elif token in tokenizer.word_index:
            if token in model_nilc.wv:
                tokens += token + ' '
            else:
                tokens += '<?>' + ' '
        else:
            tokens += '<?>' + ' '
    print(tokens)
    print()
    print('----------------------------------------------------------------------------------')
    print()
    

Não comprovada a participação do beneficiário na concessão irregular de benefício previdenciário, fica afastada a responsabilidade do segurado perante o TCU, sem prejuízo da adoção, pelos órgãos competentes, de providências administrativas e/ou judiciais para reaver os valores indevidamente pagos.

não comprovada a participação do beneficiário na concessão irregular de benefício previdenciário fica afastada a responsabilidade do segurado perante o tcu sem prejuízo da adoção pelos órgãos competentes de providências administrativas e ou judiciais para reaver os valores indevidamente pagos 

----------------------------------------------------------------------------------

A operação ficta de exportação de plataformas de petróleo não é ilegal sob o ponto de vista fiscal, porquanto prevista na Lei 9.826/99 e no Decreto 6.759/09.

a operação ficta de exportação de plataformas de petróleo não é ilegal sob o ponto de vista fiscal porquanto prevista na lei <?> <?> <?> e no decreto <?> <?> <?>

### Cruzando com vocabulário específico (Acórdãos)

In [127]:
from gensim.models import Word2Vec

model_acordaos = Word2Vec.load('../vocabularios/modelo-acordaos2.w2v')

In [75]:
embedding_matrix = np.zeros((vocabulario, 100))

ok = 0
for word, i in tokenizer.word_index.items():
    if word in model_acordaos.wv:
        embedding_matrix[i] = model_acordaos.wv[word]
        ok += 1
print('Vocabulario:', i)
print('Encontrados no modelo:', ok, '=', ok * 100. / i)

Vocabulario: 15387
Encontrados no modelo: 8892 = 57.78904269838175


  """
  


In [76]:
embedding_matrix

array([[ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [-2.05332279,  2.05361676,  0.0254482 , ..., -2.42082834,
         0.04790987, -0.0973722 ],
       [ 0.54907775, -0.11592408, -0.90026397, ..., -0.05021382,
         0.20325853,  1.81837809],
       ...,
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ]])

In [77]:
embedding_matrix[1]

array([-2.05332279,  2.05361676,  0.0254482 ,  0.10324234,  0.11208215,
        1.24689448,  1.01696134, -1.10573339, -0.30090079,  0.50581747,
        0.01866157, -0.87658811,  0.68735445, -0.99930072,  1.39356589,
       -0.21823862, -0.07667507,  1.02742851, -0.87043214, -1.06431258,
       -0.15921453,  0.40969571, -0.22441415, -1.69234896,  0.64899319,
       -1.40630376, -2.30246472, -0.6946184 , -1.25020885, -1.45392025,
        0.8205511 , -0.38576037,  0.37726358, -1.30338967,  0.69560444,
       -1.05285943,  0.22049822,  2.3249805 ,  0.33760759,  0.67412037,
        0.32991087,  1.04708743, -1.15669549, -1.41834557,  1.17099833,
        0.15182412,  2.63909364,  1.02854681, -2.5159955 ,  1.80023694,
       -0.76614332, -0.39462316, -0.99972224,  0.20604479,  0.86343884,
       -0.38893613, -0.11390828,  0.27838859, -1.17740619,  0.67306614,
        1.56716585,  0.32841808, -0.27841246,  0.56608176,  0.18733098,
       -1.0251435 ,  0.77182925,  0.14023113, -1.90948963, -0.34

In [79]:
for texto in df['TEXTO_ENUNCIADO'][:10]:
    print(texto)
    print()
    tokens = ''
    for token in texto.lower().replace(',', ' ').replace('.', ' ').replace('/', ' ').split(' '):
        if not token:
            pass
        elif token in tokenizer.word_index:
            if token in model_acordaos.wv:
                tokens += token + ' '
            else:
                tokens += '<?>' + ' '
        else:
            tokens += '<?>' + ' '
    print(tokens)
    print()
    print('----------------------------------------------------------------------------------')
    print()
    

Não comprovada a participação do beneficiário na concessão irregular de benefício previdenciário, fica afastada a responsabilidade do segurado perante o TCU, sem prejuízo da adoção, pelos órgãos competentes, de providências administrativas e/ou judiciais para reaver os valores indevidamente pagos.

não comprovada a participação do beneficiário na concessão irregular de benefício previdenciário fica afastada a responsabilidade do segurado perante o tcu sem prejuízo da adoção pelos órgãos competentes de providências administrativas e ou judiciais para reaver os valores indevidamente pagos 

----------------------------------------------------------------------------------

A operação ficta de exportação de plataformas de petróleo não é ilegal sob o ponto de vista fiscal, porquanto prevista na Lei 9.826/99 e no Decreto 6.759/09.

a operação ficta de exportação de plataformas de petróleo não é ilegal sob o ponto de vista fiscal porquanto prevista na lei 9 <?> 99 e no decreto 6 <?> 09 

---

## Tokenização - melhorando - segunda tentativa

In [101]:
from nltk.tokenize import word_tokenize

tokens = []
for texto in df['TEXTO_ENUNCIADO']:
    tokens.append(word_tokenize(texto.lower().replace('\\xa0', ' ')))

In [115]:
from keras.preprocessing.text import Tokenizer
import numpy as np

tokenizer = Tokenizer()
tokenizer.fit_on_texts(tokens)

word_index = tokenizer.word_index
vocabulario = len(word_index) + 1
print('Found %s unique tokens.' % len(word_index))

sequences = tokenizer.texts_to_sequences(df['TEXTO_ENUNCIADO'])

Found 16488 unique tokens.


In [116]:
print(df['TEXTO_ENUNCIADO'][0])
print(sequences[0])

Não comprovada a participação do beneficiário na concessão irregular de benefício previdenciário, fica afastada a responsabilidade do segurado perante o TCU, sem prejuízo da adoção, pelos órgãos competentes, de providências administrativas e/ou judiciais para reaver os valores indevidamente pagos.
[11, 583, 3, 229, 6, 456, 23, 72, 151, 1, 225, 1045, 1553, 1662, 3, 119, 6, 3353, 631, 7, 32, 54, 210, 5, 317, 182, 237, 2185, 1, 647, 1151, 8, 16, 643, 12, 4486, 18, 81, 554, 750]


In [117]:
tokenizer.word_index.items()

dict_items([('de', 1), (',', 2), ('a', 3), ('.', 4), ('da', 5), ('do', 6), ('o', 7), ('e', 8), ('que', 9), ('em', 10), ('não', 11), ('para', 12), ('no', 13), ('com', 14), ('é', 15), ('ou', 16), ('dos', 17), ('os', 18), ('lei', 19), ('por', 20), ('ao', 21), ('à', 22), ('na', 23), ('art', 24), ('ser', 25), (')', 26), ('se', 27), ('(', 28), ('as', 29), ('das', 30), ('deve', 31), ('tcu', 32), ('pelo', 33), ('pela', 34), ('recursos', 35), ('como', 36), ('administração', 37), ('aos', 38), ('serviços', 39), ('contas', 40), ('nos', 41), ('quando', 42), ('público', 43), ('licitação', 44), ('inciso', 45), ('federal', 46), ('objeto', 47), ('sua', 48), ('processo', 49), ('aplicação', 50), ('devem', 51), ('serviço', 52), ('caso', 53), ('sem', 54), ('tempo', 55), ('pode', 56), ('entre', 57), ('aposentadoria', 58), ('§', 59), ('execução', 60), ('responsável', 61), ('contratação', 62), ('pública', 63), ('8.666/1993', 64), ('uma', 65), ('contrato', 66), ('pagamento', 67), ('forma', 68), ('preços', 69),

In [118]:
from keras.preprocessing.sequence import pad_sequences

x = pad_sequences(sequences, maxlen=200, padding = 'post')

print('Shape of data tensor:', x.shape)

Shape of data tensor: (13312, 200)


In [119]:
print(x[0])

[  11  583    3  229    6  456   23   72  151    1  225 1045 1553 1662
    3  119    6 3353  631    7   32   54  210    5  317  182  237 2185
    1  647 1151    8   16  643   12 4486   18   81  554  750    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0 

### Cruzando com vocabulário geral (NILC/USP)

In [123]:
embedding_matrix = np.zeros((vocabulario, 100))

ok = 0
for word, i in tokenizer.word_index.items():
    if word in model_nilc:
        embedding_matrix[i] = model_nilc[word]
        ok += 1
print('Vocabulario:', i)
print('Encontrados no modelo:', ok, '=', ok * 100. / i)

Vocabulario: 16488
Encontrados no modelo: 14243 = 86.38403687530325


In [124]:
embedding_matrix

array([[ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [-0.059871  , -0.26613   , -1.28895199, ...,  0.049941  ,
         2.60319304,  0.55991101],
       [-0.392279  , -0.38309601, -0.163537  , ...,  0.77490401,
         2.4150281 , -0.148173  ],
       ...,
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [-0.48482201,  0.160191  , -0.214423  , ..., -0.24393301,
         0.67454898, -0.22386   ]])

In [125]:
embedding_matrix[1]

array([-0.059871  , -0.26613   , -1.28895199, -2.35289407,  0.41423699,
        0.62119299,  1.07300305, -0.54818898, -0.64319098,  0.96672201,
        0.86920398, -0.212642  , -1.03897405, -0.35674599, -0.24672   ,
        0.47109899,  0.049724  , -0.75520003,  0.38866499,  1.05341101,
        0.94006598, -0.40571299,  0.007156  , -1.13477898, -0.43322101,
       -0.81971103, -0.012     ,  0.032739  , -0.225575  ,  1.15352201,
        0.53717297, -0.463806  ,  0.34047201, -0.18979301, -0.16028801,
        0.58364999, -0.102506  ,  0.068884  , -0.92653602,  0.95241499,
        1.37500095,  0.169173  , -0.055722  , -0.356511  ,  0.55993801,
        0.41469699, -0.74711198, -0.548186  ,  0.35731   ,  0.85121101,
        0.036744  , -0.74690801, -0.30547401, -0.137128  , -1.13737202,
       -0.51423401, -0.27209601, -0.62299103, -0.76224899, -0.62559497,
        0.084059  ,  0.09621   ,  0.301824  , -0.55729997,  0.53733498,
        0.51262403, -0.43583801,  0.59152597, -0.318885  ,  0.18

In [126]:
for texto in df['TEXTO_ENUNCIADO'][:10]:
    print(texto)
    print()
    tokens = ''
    for token in texto.lower().replace(',', ' ').replace('.', ' ').replace('/', ' ').split(' '):
        if not token:
            pass
        elif token in tokenizer.word_index:
            if token in model:
                tokens += token + ' '
            else:
                tokens += '<?>' + ' '
        else:
            tokens += '<?>' + ' '
    print(tokens)
    print()
    print('----------------------------------------------------------------------------------')
    print()
    

Não comprovada a participação do beneficiário na concessão irregular de benefício previdenciário, fica afastada a responsabilidade do segurado perante o TCU, sem prejuízo da adoção, pelos órgãos competentes, de providências administrativas e/ou judiciais para reaver os valores indevidamente pagos.

não comprovada a participação do beneficiário na concessão irregular de benefício previdenciário fica afastada a responsabilidade do segurado perante o tcu sem prejuízo da adoção pelos órgãos competentes de providências administrativas e ou judiciais para reaver os valores indevidamente pagos 

----------------------------------------------------------------------------------

A operação ficta de exportação de plataformas de petróleo não é ilegal sob o ponto de vista fiscal, porquanto prevista na Lei 9.826/99 e no Decreto 6.759/09.

a operação ficta de exportação de plataformas de petróleo não é ilegal sob o ponto de vista fiscal porquanto prevista na lei 9 <?> 99 e no decreto 6 <?> <?> 

--

  if __name__ == '__main__':


### Cruzando com vocabulário específico (Acórdãos)

In [128]:
embedding_matrix = np.zeros((vocabulario, 100))

ok = 0
for word, i in tokenizer.word_index.items():
    if word in model_acordaos.wv:
        embedding_matrix[i] = model_acordaos.wv[word]
        ok += 1
print('Vocabulario:', i)
print('Encontrados no modelo:', ok, '=', ok * 100. / i)

Vocabulario: 16488
Encontrados no modelo: 9168 = 55.604075691411936


In [129]:
embedding_matrix

array([[ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [-2.05332279,  2.05361676,  0.0254482 , ..., -2.42082834,
         0.04790987, -0.0973722 ],
       [-0.1056212 ,  0.9081949 , -1.04977357, ..., -1.36128771,
        -0.40332651, -0.37369877],
       ...,
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        , ...,  0.        ,
         0.        ,  0.        ]])

In [130]:
embedding_matrix[1]

array([-2.05332279,  2.05361676,  0.0254482 ,  0.10324234,  0.11208215,
        1.24689448,  1.01696134, -1.10573339, -0.30090079,  0.50581747,
        0.01866157, -0.87658811,  0.68735445, -0.99930072,  1.39356589,
       -0.21823862, -0.07667507,  1.02742851, -0.87043214, -1.06431258,
       -0.15921453,  0.40969571, -0.22441415, -1.69234896,  0.64899319,
       -1.40630376, -2.30246472, -0.6946184 , -1.25020885, -1.45392025,
        0.8205511 , -0.38576037,  0.37726358, -1.30338967,  0.69560444,
       -1.05285943,  0.22049822,  2.3249805 ,  0.33760759,  0.67412037,
        0.32991087,  1.04708743, -1.15669549, -1.41834557,  1.17099833,
        0.15182412,  2.63909364,  1.02854681, -2.5159955 ,  1.80023694,
       -0.76614332, -0.39462316, -0.99972224,  0.20604479,  0.86343884,
       -0.38893613, -0.11390828,  0.27838859, -1.17740619,  0.67306614,
        1.56716585,  0.32841808, -0.27841246,  0.56608176,  0.18733098,
       -1.0251435 ,  0.77182925,  0.14023113, -1.90948963, -0.34

In [131]:
for texto in df['TEXTO_ENUNCIADO'][:10]:
    print(texto)
    print()
    tokens = ''
    for token in texto.lower().replace(',', ' ').replace('.', ' ').replace('/', ' ').split(' '):
        if not token:
            pass
        elif token in tokenizer.word_index:
            if token in model_acordaos.wv:
                tokens += token + ' '
            else:
                tokens += '<?>' + ' '
        else:
            tokens += '<?>' + ' '
    print(tokens)
    print()
    print('----------------------------------------------------------------------------------')
    print()
    

Não comprovada a participação do beneficiário na concessão irregular de benefício previdenciário, fica afastada a responsabilidade do segurado perante o TCU, sem prejuízo da adoção, pelos órgãos competentes, de providências administrativas e/ou judiciais para reaver os valores indevidamente pagos.

não comprovada a participação do beneficiário na concessão irregular de benefício previdenciário fica afastada a responsabilidade do segurado perante o tcu sem prejuízo da adoção pelos órgãos competentes de providências administrativas e ou judiciais para reaver os valores indevidamente pagos 

----------------------------------------------------------------------------------

A operação ficta de exportação de plataformas de petróleo não é ilegal sob o ponto de vista fiscal, porquanto prevista na Lei 9.826/99 e no Decreto 6.759/09.

a operação ficta de exportação de plataformas de petróleo não é ilegal sob o ponto de vista fiscal porquanto prevista na lei 9 <?> 99 e no decreto 6 <?> <?> 

--

## Verificando os termos não encontrados nos vocabulários

### NILC/USP

In [132]:
inside = []
not_inside = []
for word, i in tokenizer.word_index.items():
    if word in model_nilc:
        inside.append((word, i))
    else:
        not_inside.append((word, i))
        
print('Vocabulario:', i)
print('Encontrados no modelo:', len(inside), '=', len(inside) * 100. / i)

Vocabulario: 16488
Encontrados no modelo: 14243 = 86.38403687530325


In [134]:
inside[:30]

[('de', 1),
 (',', 2),
 ('a', 3),
 ('.', 4),
 ('da', 5),
 ('do', 6),
 ('o', 7),
 ('e', 8),
 ('que', 9),
 ('em', 10),
 ('não', 11),
 ('para', 12),
 ('no', 13),
 ('com', 14),
 ('é', 15),
 ('ou', 16),
 ('dos', 17),
 ('os', 18),
 ('lei', 19),
 ('por', 20),
 ('ao', 21),
 ('na', 23),
 ('art', 24),
 ('ser', 25),
 (')', 26),
 ('se', 27),
 ('(', 28),
 ('as', 29),
 ('das', 30),
 ('deve', 31)]

In [137]:
not_inside

[('à', 22),
 ('8.666/1993', 64),
 ('às', 110),
 ('1º', 142),
 ('8.112/1990', 152),
 ('2º', 156),
 ('8.443/1992', 167),
 ('3º', 177),
 ('convenente', 342),
 ('5º', 382),
 ('37', 398),
 ('40', 399),
 ('“', 446),
 ('”', 447),
 ('4º', 468),
 ('``', 526),
 ("''", 532),
 ('58', 538),
 ('6º', 590),
 ('7º', 598),
 ('24', 599),
 ('vpni', 637),
 ('20/1998', 674),
 ('41/2003', 701),
 ('60', 759),
 ('57', 781),
 ('30', 821),
 ('46', 835),
 ('–', 893),
 ('25', 906),
 ('193', 936),
 ('21', 938),
 ('4.1', 959),
 ('sicro', 1007),
 ('8.911/1994', 1017),
 ('8º', 1043),
 ('9º', 1052),
 ('10', 1087),
 ('1.711/1952', 1167),
 ('15', 1182),
 ('192', 1212),
 ('65', 1246),
 ('1988', 1293),
 ('20', 1327),
 ('9.784/1999', 1334),
 ('51/1985', 1348),
 ('10.887/2004', 1375),
 ('101/2000', 1430),
 ('71', 1497),
 ('10.520/2002', 1508),
 ('70', 1509),
 ('4.320/1964', 1523),
 ('8.112/90', 1527),
 ('44', 1532),
 ('31', 1548),
 ('18', 1550),
 ('’', 1552),
 ('54', 1558),
 ('14', 1581),
 ('àqueles', 1582),
 ('12', 1584),
 

### Acórdãos

In [139]:
inside = []
not_inside = []
for word, i in tokenizer.word_index.items():
    if word in model_acordaos.wv:
        inside.append((word, i))
    else:
        not_inside.append((word, i))
        
print('Vocabulario:', i)
print('Encontrados no modelo:', len(inside), '=', len(inside) * 100. / i)

Vocabulario: 16488
Encontrados no modelo: 9168 = 55.604075691411936


In [140]:
inside[:30]

[('de', 1),
 (',', 2),
 ('a', 3),
 ('.', 4),
 ('da', 5),
 ('do', 6),
 ('o', 7),
 ('e', 8),
 ('que', 9),
 ('em', 10),
 ('não', 11),
 ('para', 12),
 ('no', 13),
 ('com', 14),
 ('é', 15),
 ('ou', 16),
 ('dos', 17),
 ('os', 18),
 ('lei', 19),
 ('por', 20),
 ('ao', 21),
 ('à', 22),
 ('na', 23),
 ('art', 24),
 ('ser', 25),
 (')', 26),
 ('se', 27),
 ('(', 28),
 ('as', 29),
 ('das', 30)]

In [141]:
not_inside

[('federativo', 1324),
 ('13.105/2015', 1788),
 ('12.462/2011', 1804),
 ('8.745/1993', 1862),
 ('6.732/1979', 2179),
 ('167/2004', 2236),
 ('3.373/1958', 2291),
 ('gsi/pr', 2434),
 ('9.527/1997', 2467),
 ('envolva', 2562),
 ('sujeitam-se', 2574),
 ('provisoriamente', 2620),
 ('delegante', 2633),
 ('27.002', 2649),
 ('condigna', 2652),
 ('sujeitam', 2667),
 ('descaracteriza', 2675),
 ('nepotismo', 2708),
 ('indenizatório', 2711),
 ('imprescindibilidade', 2712),
 ('8.168/1991', 2756),
 ('incidem', 2766),
 ('fechadas', 2768),
 ('pensional', 2779),
 ('parentes', 2786),
 ('recepcionada', 2862),
 ('computável', 2882),
 ('reduções', 2899),
 ('ex-celetistas', 2904),
 ('punibilidade', 2916),
 ('protelatório', 2947),
 ("'quintos", 2966),
 ('aferida', 2970),
 ('cumulação', 2987),
 ('13/1992', 3030),
 ('141/2012', 3038),
 ('atrai', 3059),
 ('satisfeito', 3065),
 ('suspende', 3080),
 ('9.030/1995', 3086),
 ('raios', 3127),
 ('8.270/1991', 3129),
 ('ocultos', 3149),
 ('35/1979', 3181),
 ('transforma

#### TO DO - Tratar (avaliar):
* apóstrofo - ex. ("'quintos", 2966)
* algumas palavras compostas - ex. ('ex-celetistas', 2904), ('ex-empregados', 3841), ('ajustando-se', 4545)
* palavras separadas por barra - exx. ('mobilização/desmobilização', 5105), ('superfaturamento/valor', 7098)
* NER - Numeração de normas - ex. ('8.168/1991', 2756), ('141/2012', 3038)
* NER - Data - ex. ('15/12/1998', 3207), ('20/02/2004', 6186)
* NER - Número com DV - ex. ('609-6', 4484), ('837-4', 7100)
* NER - Número comum - ex. ('666', 5639), ('520', 6094)
* NER - Número de seção - ex. ('11.1.1', 5901), ('5.3.7.2', 7177)

* **o vocabulário de acórdão está muito limitado. Porque o gensim cortou tantas palavras?**