# Preprocessamento:

+ Criar variável que identifique o anotador

+ Mover tags que começam com token ' ' (vazio)

+ Remover linhas com '\n' seguidos

+ REGEX:
    + Garantir letra e números onde tamanho for maior que 1.
    + Passar múltiplos símbolos para outra linha. Exemplo:  §3º -->  § \n 3 \n º
    + Remover pontuação de centenas dos números. Exemplo: 12.200 --> 12200

+ Visualização das sentenças com displacy (from spacy import displacy) 

+ Incluir POS tagging.

+ Tranformar o dado $x_i$ em um $x'_i$ que incorpora os 2 últimos e próximos tokens.

# Classificador

+ Visualização: Separar o conjunto de test em 2 ou 3 arquivos e visualizar o que o modelo classificou e o que os anotadores classificaram (separar por id do anotador).

+ Parâmetros utilizados no classificador.

+ Analisar o formato dos dados que tem maior acerto e menor acerto tambem.

+ Para criar um contexto no erro imprimir 10 palavras antes e depois de dois erros.


# Instruções para os anotadores:

+ Atentar à marcação de tags que envolve espaço 

+ Atentar para não incluir espaço no início da Tag

# Organização do diretório: 

+ Manter toda a análise em somente um diretório

+ Formato do diretório com os datasets: /resources/dataset/

+ Notebooks:
    + '01 - Processamento.ipynb'
        + Gerar 'treino.csv' e teste.csv' para processamento
    + '02 - [CRF].ipynb' - Criando o modelo
        + Usar arquivo dos dados preprocessados gerado pelo notebook 1.
        + Gerar modelo (xxx.model)
    + '03 - Metricas.ipynb'

In [17]:
import os
import re 
import glob
import time
import numpy as np
import pandas as pd
from collections import Counter

import scipy.stats
import sklearn_crfsuite
from sklearn_crfsuite import scorers
from sklearn_crfsuite import metrics
from sklearn.metrics import make_scorer
from sklearn.linear_model import Perceptron
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.feature_extraction.text import HashingVectorizer

In [18]:
# Encontra todos os csv's dentro das pastas de 'mock'

extension = 'csv'
all_filenames = [i for i in glob.glob('NER/*/**/***/****/*****.{}'.format(extension))]

# NER/NER_EXPORT/161704902/[PRATICA_ETAPA_1]/Documentos

In [19]:
all_filenames[:5]

['NER/NER_EXPORT/181300055/[PRATICA_ETAPA_1]/Documentos/20141030_RE_541090_271775268.ner.csv',
 'NER/NER_EXPORT/181300055/[PRATICA_ETAPA_1]/Documentos/20180411_HC_138057_314087281.ner.csv',
 'NER/NER_EXPORT/181300055/[PRATICA_ETAPA_1]/Documentos/20170921_HC_147683_312770301.ner.csv',
 'NER/NER_EXPORT/181300055/[PRATICA_ETAPA_1]/Documentos/20180503_Pet_7074_314257052.ner.csv',
 'NER/NER_EXPORT/181300055/[PRATICA_ETAPA_1]/Documentos/20180509_HC_135415_314294988.ner.csv']

In [20]:
len(all_filenames)

2239

# Preprocessamento 

In [21]:
# Cria uma tag de inicio e fim de arquivo em cada 'csv' antes de apendar todos eles.

frames = []
for all_files in all_filenames:
    df = pd.read_csv(all_files,delimiter=';', na_values='NaN') # Lê o arquivo
    df['Tag'].iloc[0] , df['Tag'].iloc[-1] = ['INICIO_ARQ', 'FIM_ARQ'] # Altera a primeira e ultima Tag desse csv
    frames.append(df) # Adiciona esse dataframe no 'dataframe maior'
    
combined_csv = pd.concat(frames).reset_index(drop=True)
combined_csv.to_csv("combined_csv.csv",index=False,encoding='utf-8') # Cria um arquivo com todas as anotações.
combined_csv['Token'] = combined_csv['Token'].astype('str')

In [22]:
combined_csv.head(15), combined_csv.tail(20)

(             Token         Tag
 0           EMENTA  INICIO_ARQ
 1                :           O
 2                            O
 3   CONSTITUCIONAL           O
 4                .           O
 5                            O
 6       TRIBUTÁRIO           O
 7                .           O
 8                            O
 9          IMPOSTO           O
 10                           O
 11              DE           O
 12                           O
 13           RENDA           O
 14               .           O,
                                  Token       Tag
 15446379                                       O
 15446380                      dezembro         O
 15446381                                       O
 15446382                            de         O
 15446383                                       O
 15446384                          2015         O
 15446385                             .         O
 15446386                                       O
 15446387                            

In [23]:
print("Número de linhas dos arquivos concatenados:", len(combined_csv['Tag']))

Número de linhas dos arquivos concatenados: 15446399


In [24]:
combined_csv[-10:] # Conferindo se o index foi resetado

Unnamed: 0,Token,Tag
15446389,Ministro,B_Pessoa
15446390,,I_Pessoa
15446391,TEORI,I_Pessoa
15446392,,I_Pessoa
15446393,ZAVASCKI,I_Pessoa
15446394,\n,I_Pessoa
15446395,id,O
15446396,:,O
15446397,,O
15446398,20160201_HC_132184_308418258,FIM_ARQ


# Encontra parágrafo duplo no arquivo. Uma opção de separar por sentenças.

In [25]:
a_df = combined_csv #Simplifica o nome do arquivo para a função nao ficar grande demais.
starts = a_df[a_df['Token']=='\n'].index & a_df[a_df['Token'].shift(-1)=='\n'].index #Identifica os paragrafos duplos
print(u'Padrões(sentenças) encontrados:', len(starts))

Padrões(sentenças) encontrados: 159578


In [30]:
combined_csv['Sentence #'].unique()

array(['Sentence 1', 'Sentence 2', 'Sentence 3', 'Sentence 4',
       'Sentence 5', 'Sentence 6', 'Sentence 7', 'Sentence 8',
       'Sentence 9', 'Sentence 10', 'Sentence 11', 'Sentence 12',
       'Sentence 13', 'Sentence 14', 'Sentence 15', 'Sentence 16',
       'Sentence 17', 'Sentence 18', 'Sentence', 'Sentence 159579'],
      dtype=object)

In [None]:
%%time

combined_csv['Sentence #'] = 'Sentence'

combined_csv['Sentence #'][:starts[0]+2] = 'Sentence %d'%(1) # Primeira sentença
combined_csv['Sentence #'][starts[-1]+2:] = 'Sentence %d'%(len(starts)+1) # Última sentença

for i in range(1,len(starts)):
    combined_csv['Sentence #'][starts[i-1]+2:starts[i]+2] = 'Sentence %d'%(i+1) 

combined_csv.head(), combined_csv.tail()

In [None]:
# Número de sentenças
len(combined_csv['Sentence #'].unique())

# Atualiza a Tag que termina com 'Doutrinador' para 'Doutrina'

In [11]:
combined_csv.Tag.unique()

array(['INICIO_ARQ', 'O', 'B_Ref. Legislativa', 'I_Ref. Legislativa',
       'B_Precedente', 'I_Precedente', 'B_Pessoa', 'I_Pessoa',
       'I_Doutrina', 'FIM_ARQ', 'B_Doutrina', 'B_Doutrinador',
       'I_Doutrinador'], dtype=object)

In [12]:
# Strip o final 'dor' de todo o DataFrame (formato extremo)
# combined_csv.Tag = combined_csv.Tag.str.rstrip('dor')

In [13]:
# indices de onde a tag ocorre
indx = combined_csv[combined_csv.Tag.str.endswith('Doutrinador')].index.values

### Rodar apenas uma vez

In [14]:
%%time
# Demorado e custoso
for i in range(len(indx)):
    combined_csv.Tag.iloc[indx[i]] = combined_csv.Tag.iloc[indx[i]].rstrip('dor')

KeyboardInterrupt: 

In [15]:
combined_csv.Tag.unique()

array(['INICIO_ARQ', 'O', 'B_Ref. Legislativa', 'I_Ref. Legislativa',
       'B_Precedente', 'I_Precedente', 'B_Pessoa', 'I_Pessoa',
       'I_Doutrina', 'FIM_ARQ', 'B_Doutrina', 'I_Doutrinador',
       'B_Doutrinador'], dtype=object)

# Remove enter duplo depois de criar as sentenças

In [16]:
# Teste para ver os casoso onde ocorre enter duplo.
for i in range(len(starts)):
    print(combined_csv.iloc[starts[i]:starts[i]+2][:5])

   Token Tag  Sentence #
55    \n   O  Sentence 1
56    \n   O  Sentence 1
    Token Tag  Sentence #
322    \n   O  Sentence 2
323    \n   O  Sentence 2
    Token Tag  Sentence #
487    \n   O  Sentence 3
488    \n   O  Sentence 3
    Token Tag  Sentence #
503    \n   O  Sentence 4
504    \n   O  Sentence 4
    Token Tag  Sentence #
803    \n   O  Sentence 5
804    \n   O  Sentence 5
    Token Tag  Sentence #
819    \n   O  Sentence 6
820    \n   O  Sentence 6
    Token Tag  Sentence #
827    \n   O  Sentence 7
828    \n   O  Sentence 7
    Token Tag  Sentence #
835    \n   O  Sentence 8
836    \n   O  Sentence 8
    Token Tag  Sentence #
847    \n   O  Sentence 9
848    \n   O  Sentence 9
    Token Tag   Sentence #
855    \n   O  Sentence 10
856    \n   O  Sentence 10
    Token Tag   Sentence #
904    \n   O  Sentence 11
905    \n   O  Sentence 11
    Token Tag   Sentence #
925    \n   O  Sentence 12
926    \n   O  Sentence 12
    Token Tag   Sentence #
929    \n   O  Sentence 13
930 

      Token Tag    Sentence #
12293    \n   O  Sentence 165
12294    \n   O  Sentence 165
      Token Tag    Sentence #
12311    \n   O  Sentence 166
12312    \n   O  Sentence 166
      Token Tag    Sentence #
12321    \n   O  Sentence 167
12322    \n   O  Sentence 167
      Token Tag    Sentence #
12395    \n   O  Sentence 168
12396    \n   O  Sentence 168
      Token Tag    Sentence #
12416    \n   O  Sentence 169
12417    \n   O  Sentence 169
      Token Tag    Sentence #
12471    \n   O  Sentence 170
12472    \n   O  Sentence 170
      Token Tag    Sentence #
12653    \n   O  Sentence 171
12654    \n   O  Sentence 171
      Token Tag    Sentence #
12863    \n   O  Sentence 172
12864    \n   O  Sentence 172
      Token Tag    Sentence #
12916    \n   O  Sentence 173
12917    \n   O  Sentence 173
      Token Tag    Sentence #
12929    \n   O  Sentence 174
12930    \n   O  Sentence 174
      Token Tag    Sentence #
13111    \n   O  Sentence 175
13112    \n   O  Sentence 175
      Toke

      Token Tag    Sentence #
28745    \n   O  Sentence 322
28746    \n   O  Sentence 322
      Token Tag    Sentence #
28751    \n   O  Sentence 323
28752    \n   O  Sentence 323
      Token Tag    Sentence #
28767    \n   O  Sentence 324
28768    \n   O  Sentence 324
      Token Tag    Sentence #
28777    \n   O  Sentence 325
28778    \n   O  Sentence 325
      Token Tag    Sentence #
28966    \n   O  Sentence 326
28967    \n   O  Sentence 326
      Token Tag    Sentence #
29036    \n   O  Sentence 327
29037    \n   O  Sentence 327
      Token Tag    Sentence #
29292    \n   O  Sentence 328
29293    \n   O  Sentence 328
      Token Tag    Sentence #
29443    \n   O  Sentence 329
29444    \n   O  Sentence 329
      Token Tag    Sentence #
29621    \n   O  Sentence 330
29622    \n   O  Sentence 330
      Token Tag    Sentence #
30042    \n   O  Sentence 331
30043    \n   O  Sentence 331
      Token Tag    Sentence #
30271    \n   O  Sentence 332
30272    \n   O  Sentence 332
      Toke

      Token Tag    Sentence #
45867    \n   O  Sentence 469
45868    \n   O  Sentence 469
      Token Tag    Sentence #
46016    \n   O  Sentence 470
46017    \n   O  Sentence 470
      Token Tag    Sentence #
46135    \n   O  Sentence 471
46136    \n   O  Sentence 471
      Token Tag    Sentence #
46291    \n   O  Sentence 472
46292    \n   O  Sentence 472
      Token Tag    Sentence #
46335    \n   O  Sentence 473
46336    \n   O  Sentence 473
      Token Tag    Sentence #
46468    \n   O  Sentence 474
46469    \n   O  Sentence 474
      Token Tag    Sentence #
46513    \n   O  Sentence 475
46514    \n   O  Sentence 475
      Token Tag    Sentence #
46695    \n   O  Sentence 476
46696    \n   O  Sentence 476
      Token Tag    Sentence #
46831    \n   O  Sentence 477
46832    \n   O  Sentence 477
      Token Tag    Sentence #
47002    \n   O  Sentence 478
47003    \n   O  Sentence 478
      Token Tag    Sentence #
47181    \n   O  Sentence 479
47182    \n   O  Sentence 479
      Toke

      Token Tag    Sentence #
62155    \n   O  Sentence 622
62156    \n   O  Sentence 622
      Token Tag    Sentence #
62176    \n   O  Sentence 623
62177    \n   O  Sentence 623
      Token Tag    Sentence #
62274    \n   O  Sentence 624
62275    \n   O  Sentence 624
      Token Tag    Sentence #
62278    \n   O  Sentence 625
62279    \n   O  Sentence 625
      Token Tag    Sentence #
62381    \n   O  Sentence 626
62382    \n   O  Sentence 626
      Token Tag    Sentence #
62408    \n   O  Sentence 627
62409    \n   O  Sentence 627
      Token Tag    Sentence #
62412    \n   O  Sentence 628
62413    \n   O  Sentence 628
      Token Tag    Sentence #
62416    \n   O  Sentence 629
62417    \n   O  Sentence 629
      Token Tag    Sentence #
62438    \n   O  Sentence 630
62439    \n   O  Sentence 630
      Token Tag    Sentence #
62570    \n   O  Sentence 631
62571    \n   O  Sentence 631
      Token Tag    Sentence #
62770    \n   O  Sentence 632
62771    \n   O  Sentence 632
      Toke

74999    \n   O  Sentence 773
      Token Tag    Sentence #
75008    \n   O  Sentence 774
75009    \n   O  Sentence 774
      Token Tag    Sentence #
75016    \n   O  Sentence 775
75017    \n   O  Sentence 775
      Token Tag    Sentence #
75167    \n   O  Sentence 776
75168    \n   O  Sentence 776
      Token Tag    Sentence #
75262    \n   O  Sentence 777
75263    \n   O  Sentence 777
      Token Tag    Sentence #
75481    \n   O  Sentence 778
75482    \n   O  Sentence 778
      Token Tag    Sentence #
75609    \n   O  Sentence 779
75610    \n   O  Sentence 779
      Token Tag    Sentence #
75675    \n   O  Sentence 780
75676    \n   O  Sentence 780
      Token Tag    Sentence #
75752    \n   O  Sentence 781
75753    \n   O  Sentence 781
      Token Tag    Sentence #
75798    \n   O  Sentence 782
75799    \n   O  Sentence 782
      Token Tag    Sentence #
75869    \n   O  Sentence 783
75870    \n   O  Sentence 783
      Token Tag    Sentence #
76124    \n   O  Sentence 784
76125    \

88125    \n   O  Sentence 918
      Token Tag    Sentence #
88134    \n   O  Sentence 919
88135    \n   O  Sentence 919
      Token Tag    Sentence #
88142    \n   O  Sentence 920
88143    \n   O  Sentence 920
      Token Tag    Sentence #
88152    \n   O  Sentence 921
88153    \n   O  Sentence 921
      Token Tag    Sentence #
88156    \n   O  Sentence 922
88157    \n   O  Sentence 922
      Token Tag    Sentence #
88247    \n   O  Sentence 923
88248    \n   O  Sentence 923
      Token Tag    Sentence #
88286    \n   O  Sentence 924
88287    \n   O  Sentence 924
      Token Tag    Sentence #
88427    \n   O  Sentence 925
88428    \n   O  Sentence 925
      Token Tag    Sentence #
88482    \n   O  Sentence 926
88483    \n   O  Sentence 926
      Token Tag    Sentence #
88530    \n   O  Sentence 927
88531    \n   O  Sentence 927
      Token Tag    Sentence #
88931    \n   O  Sentence 928
88932    \n   O  Sentence 928
      Token Tag    Sentence #
89085    \n   O  Sentence 929
89086    \

       Token Tag     Sentence #
104064    \n   O  Sentence 1079
104065    \n   O  Sentence 1079
       Token Tag     Sentence #
104179    \n   O  Sentence 1080
104180    \n   O  Sentence 1080
       Token Tag     Sentence #
104343    \n   O  Sentence 1081
104344    \n   O  Sentence 1081
       Token Tag     Sentence #
104538    \n   O  Sentence 1082
104539    \n   O  Sentence 1082
       Token Tag     Sentence #
104614    \n   O  Sentence 1083
104615    \n   O  Sentence 1083
       Token Tag     Sentence #
104810    \n   O  Sentence 1084
104811    \n   O  Sentence 1084
       Token Tag     Sentence #
104921    \n   O  Sentence 1085
104922    \n   O  Sentence 1085
       Token Tag     Sentence #
105175    \n   O  Sentence 1086
105176    \n   O  Sentence 1086
       Token Tag     Sentence #
105180    \n   O  Sentence 1087
105181    \n   O  Sentence 1087
       Token Tag     Sentence #
105291    \n   O  Sentence 1088
105292    \n   O  Sentence 1088
       Token Tag     Sentence #
105459  

       Token Tag     Sentence #
117855    \n   O  Sentence 1224
117856    \n   O  Sentence 1224
       Token Tag     Sentence #
117874    \n   O  Sentence 1225
117875    \n   O  Sentence 1225
       Token Tag     Sentence #
117926    \n   O  Sentence 1226
117927    \n   O  Sentence 1226
       Token Tag     Sentence #
117981    \n   O  Sentence 1227
117982    \n   O  Sentence 1227
       Token Tag     Sentence #
118022    \n   O  Sentence 1228
118023    \n   O  Sentence 1228
       Token Tag     Sentence #
118148    \n   O  Sentence 1229
118149    \n   O  Sentence 1229
       Token Tag     Sentence #
118195    \n   O  Sentence 1230
118196    \n   O  Sentence 1230
       Token Tag     Sentence #
118211    \n   O  Sentence 1231
118212    \n   O  Sentence 1231
       Token Tag     Sentence #
118448    \n   O  Sentence 1232
118449    \n   O  Sentence 1232
       Token Tag     Sentence #
118464    \n   O  Sentence 1233
118465    \n   O  Sentence 1233
       Token Tag     Sentence #
118472  

129668    \n   O  Sentence 1378
       Token Tag     Sentence #
129739    \n   O  Sentence 1379
129740    \n   O  Sentence 1379
       Token Tag     Sentence #
130102    \n   O  Sentence 1380
130103    \n   O  Sentence 1380
       Token Tag     Sentence #
130180    \n   O  Sentence 1381
130181    \n   O  Sentence 1381
       Token Tag     Sentence #
130235    \n   O  Sentence 1382
130236    \n   O  Sentence 1382
       Token Tag     Sentence #
130271    \n   O  Sentence 1383
130272    \n   O  Sentence 1383
       Token Tag     Sentence #
130278    \n   O  Sentence 1384
130279    \n   O  Sentence 1384
       Token Tag     Sentence #
130294    \n   O  Sentence 1385
130295    \n   O  Sentence 1385
       Token       Tag     Sentence #
130304    \n  I_Pessoa  Sentence 1386
130305    \n  I_Pessoa  Sentence 1386
       Token Tag     Sentence #
130309    \n   O  Sentence 1387
130310    \n   O  Sentence 1387
       Token Tag     Sentence #
130314    \n   O  Sentence 1388
130315    \n   O  Sent

       Token Tag     Sentence #
142715    \n   O  Sentence 1527
142716    \n   O  Sentence 1527
       Token Tag     Sentence #
142824    \n   O  Sentence 1528
142825    \n   O  Sentence 1528
       Token Tag     Sentence #
142837    \n   O  Sentence 1529
142838    \n   O  Sentence 1529
       Token Tag     Sentence #
143117    \n   O  Sentence 1530
143118    \n   O  Sentence 1530
       Token Tag     Sentence #
143222    \n   O  Sentence 1531
143223    \n   O  Sentence 1531
       Token Tag     Sentence #
143421    \n   O  Sentence 1532
143422    \n   O  Sentence 1532
       Token Tag     Sentence #
143505    \n   O  Sentence 1533
143506    \n   O  Sentence 1533
       Token Tag     Sentence #
143641    \n   O  Sentence 1534
143642    \n   O  Sentence 1534
       Token Tag     Sentence #
143821    \n   O  Sentence 1535
143822    \n   O  Sentence 1535
       Token Tag     Sentence #
143869    \n   O  Sentence 1536
143870    \n   O  Sentence 1536
       Token Tag     Sentence #
144181  

       Token Tag     Sentence #
157174    \n   O  Sentence 1677
157175    \n   O  Sentence 1677
       Token Tag     Sentence #
157433    \n   O  Sentence 1678
157434    \n   O  Sentence 1678
       Token Tag     Sentence #
157531    \n   O  Sentence 1679
157532    \n   O  Sentence 1679
       Token Tag     Sentence #
157722    \n   O  Sentence 1680
157723    \n   O  Sentence 1680
       Token Tag     Sentence #
157842    \n   O  Sentence 1681
157843    \n   O  Sentence 1681
       Token Tag     Sentence #
157938    \n   O  Sentence 1682
157939    \n   O  Sentence 1682
       Token Tag     Sentence #
158035    \n   O  Sentence 1683
158036    \n   O  Sentence 1683
       Token Tag     Sentence #
158226    \n   O  Sentence 1684
158227    \n   O  Sentence 1684
       Token Tag     Sentence #
158460    \n   O  Sentence 1685
158461    \n   O  Sentence 1685
       Token Tag     Sentence #
158562    \n   O  Sentence 1686
158563    \n   O  Sentence 1686
       Token Tag     Sentence #
158610  

       Token Tag     Sentence #
174767    \n   O  Sentence 1839
174768    \n   O  Sentence 1839
       Token Tag     Sentence #
174918    \n   O  Sentence 1840
174919    \n   O  Sentence 1840
       Token Tag     Sentence #
174956    \n   O  Sentence 1841
174957    \n   O  Sentence 1841
       Token Tag     Sentence #
175273    \n   O  Sentence 1842
175274    \n   O  Sentence 1842
       Token Tag     Sentence #
175495    \n   O  Sentence 1843
175496    \n   O  Sentence 1843
       Token                 Tag     Sentence #
175524    \n  I_Ref. Legislativa  Sentence 1844
175525    \n  I_Ref. Legislativa  Sentence 1844
       Token Tag     Sentence #
175532    \n   O  Sentence 1845
175533    \n   O  Sentence 1845
       Token Tag     Sentence #
175561    \n   O  Sentence 1846
175562    \n   O  Sentence 1846
       Token Tag     Sentence #
175692    \n   O  Sentence 1847
175693    \n   O  Sentence 1847
       Token Tag     Sentence #
175779    \n   O  Sentence 1848
175780    \n   O  Senten

       Token Tag     Sentence #
197398    \n   O  Sentence 2005
197399    \n   O  Sentence 2005
       Token Tag     Sentence #
197402    \n   O  Sentence 2006
197403    \n   O  Sentence 2006
       Token Tag     Sentence #
197566    \n   O  Sentence 2007
197567    \n   O  Sentence 2007
       Token Tag     Sentence #
197695    \n   O  Sentence 2008
197696    \n   O  Sentence 2008
       Token Tag     Sentence #
197770    \n   O  Sentence 2009
197771    \n   O  Sentence 2009
       Token       Tag     Sentence #
197792    \n  I_Pessoa  Sentence 2010
197793    \n  I_Pessoa  Sentence 2010
       Token       Tag     Sentence #
197810    \n  I_Pessoa  Sentence 2011
197811    \n  I_Pessoa  Sentence 2011
       Token Tag     Sentence #
197932    \n   O  Sentence 2012
197933    \n   O  Sentence 2012
       Token Tag     Sentence #
197982    \n   O  Sentence 2013
197983    \n   O  Sentence 2013
       Token       Tag     Sentence #
198004    \n  I_Pessoa  Sentence 2014
198005    \n  I_Pessoa  

       Token Tag     Sentence #
213697    \n   O  Sentence 2152
213698    \n   O  Sentence 2152
       Token Tag     Sentence #
213862    \n   O  Sentence 2153
213863    \n   O  Sentence 2153
       Token Tag     Sentence #
213958    \n   O  Sentence 2154
213959    \n   O  Sentence 2154
       Token Tag     Sentence #
214058    \n   O  Sentence 2155
214059    \n   O  Sentence 2155
       Token Tag     Sentence #
214152    \n   O  Sentence 2156
214153    \n   O  Sentence 2156
       Token Tag     Sentence #
214335    \n   O  Sentence 2157
214336    \n   O  Sentence 2157
       Token Tag     Sentence #
214422    \n   O  Sentence 2158
214423    \n   O  Sentence 2158
       Token Tag     Sentence #
214692    \n   O  Sentence 2159
214693    \n   O  Sentence 2159
       Token Tag     Sentence #
214701    \n   O  Sentence 2160
214702    \n   O  Sentence 2160
       Token Tag     Sentence #
214730    \n   O  Sentence 2161
214731    \n   O  Sentence 2161
       Token Tag     Sentence #
214893  

       Token Tag     Sentence #
227408    \n   O  Sentence 2300
227409    \n   O  Sentence 2300
       Token Tag     Sentence #
227524    \n   O  Sentence 2301
227525    \n   O  Sentence 2301
       Token Tag     Sentence #
227571    \n   O  Sentence 2302
227572    \n   O  Sentence 2302
       Token Tag     Sentence #
227696    \n   O  Sentence 2303
227697    \n   O  Sentence 2303
       Token Tag     Sentence #
227772    \n   O  Sentence 2304
227773    \n   O  Sentence 2304
       Token Tag     Sentence #
227865    \n   O  Sentence 2305
227866    \n   O  Sentence 2305
       Token Tag     Sentence #
227913    \n   O  Sentence 2306
227914    \n   O  Sentence 2306
       Token Tag     Sentence #
227978    \n   O  Sentence 2307
227979    \n   O  Sentence 2307
       Token           Tag     Sentence #
227999    \n  I_Precedente  Sentence 2308
228000    \n  I_Precedente  Sentence 2308
       Token Tag     Sentence #
228016    \n   O  Sentence 2309
228017    \n   O  Sentence 2309
       Tok

       Token Tag     Sentence #
240462    \n   O  Sentence 2459
240463    \n   O  Sentence 2459
       Token Tag     Sentence #
240483    \n   O  Sentence 2460
240484    \n   O  Sentence 2460
       Token Tag     Sentence #
240503    \n   O  Sentence 2461
240504    \n   O  Sentence 2461
       Token Tag     Sentence #
240536    \n   O  Sentence 2462
240537    \n   O  Sentence 2462
       Token Tag     Sentence #
240544    \n   O  Sentence 2463
240545    \n   O  Sentence 2463
       Token Tag     Sentence #
240560    \n   O  Sentence 2464
240561    \n   O  Sentence 2464
       Token       Tag     Sentence #
240603    \n  I_Pessoa  Sentence 2465
240604    \n         O  Sentence 2465
       Token Tag     Sentence #
240607    \n   O  Sentence 2466
240608    \n   O  Sentence 2466
       Token Tag     Sentence #
240644    \n   O  Sentence 2467
240645    \n   O  Sentence 2467
       Token Tag     Sentence #
240777    \n   O  Sentence 2468
240778    \n   O  Sentence 2468
       Token Tag     S

252963    \n   O  Sentence 2604
       Token Tag     Sentence #
252992    \n   O  Sentence 2605
252993    \n   O  Sentence 2605
       Token Tag     Sentence #
253108    \n   O  Sentence 2606
253109    \n   O  Sentence 2606
       Token Tag     Sentence #
253150    \n   O  Sentence 2607
253151    \n   O  Sentence 2607
       Token Tag     Sentence #
253254    \n   O  Sentence 2608
253255    \n   O  Sentence 2608
       Token Tag     Sentence #
253450    \n   O  Sentence 2609
253451    \n   O  Sentence 2609
       Token Tag     Sentence #
253500    \n   O  Sentence 2610
253501    \n   O  Sentence 2610
       Token Tag     Sentence #
253565    \n   O  Sentence 2611
253566    \n   O  Sentence 2611
       Token Tag     Sentence #
253580    \n   O  Sentence 2612
253581    \n   O  Sentence 2612
       Token Tag     Sentence #
253853    \n   O  Sentence 2613
253854    \n   O  Sentence 2613
       Token Tag     Sentence #
254001    \n   O  Sentence 2614
254002    \n   O  Sentence 2614
       T

       Token Tag     Sentence #
267315    \n   O  Sentence 2749
267316    \n   O  Sentence 2749
       Token Tag     Sentence #
267410    \n   O  Sentence 2750
267411    \n   O  Sentence 2750
       Token Tag     Sentence #
267470    \n   O  Sentence 2751
267471    \n   O  Sentence 2751
       Token Tag     Sentence #
267797    \n   O  Sentence 2752
267798    \n   O  Sentence 2752
       Token Tag     Sentence #
267830    \n   O  Sentence 2753
267831    \n   O  Sentence 2753
       Token Tag     Sentence #
268067    \n   O  Sentence 2754
268068    \n   O  Sentence 2754
       Token Tag     Sentence #
268136    \n   O  Sentence 2755
268137    \n   O  Sentence 2755
       Token Tag     Sentence #
268173    \n   O  Sentence 2756
268174    \n   O  Sentence 2756
       Token Tag     Sentence #
268318    \n   O  Sentence 2757
268319    \n   O  Sentence 2757
       Token Tag     Sentence #
268421    \n   O  Sentence 2758
268422    \n   O  Sentence 2758
       Token Tag     Sentence #
268546  

       Token Tag     Sentence #
283990    \n   O  Sentence 2899
283991    \n   O  Sentence 2899
       Token Tag     Sentence #
284115    \n   O  Sentence 2900
284116    \n   O  Sentence 2900
       Token Tag     Sentence #
284184    \n   O  Sentence 2901
284185    \n   O  Sentence 2901
       Token           Tag     Sentence #
284205    \n  I_Precedente  Sentence 2902
284206    \n  I_Precedente  Sentence 2902
       Token Tag     Sentence #
284219    \n   O  Sentence 2903
284220    \n   O  Sentence 2903
       Token Tag     Sentence #
284523    \n   O  Sentence 2904
284524    \n   O  Sentence 2904
       Token Tag     Sentence #
284576    \n   O  Sentence 2905
284577    \n   O  Sentence 2905
       Token Tag     Sentence #
284818    \n   O  Sentence 2906
284819    \n   O  Sentence 2906
       Token Tag     Sentence #
284876    \n   O  Sentence 2907
284877    \n   O  Sentence 2907
       Token Tag     Sentence #
284883    \n   O  Sentence 2908
284884    \n   O  Sentence 2908
       Tok

       Token Tag     Sentence #
297844    \n   O  Sentence 3051
297845    \n   O  Sentence 3051
       Token           Tag     Sentence #
297865    \n  I_Precedente  Sentence 3052
297866    \n             O  Sentence 3052
       Token Tag     Sentence #
297875    \n   O  Sentence 3053
297876    \n   O  Sentence 3053
       Token Tag     Sentence #
297934    \n   O  Sentence 3054
297935    \n   O  Sentence 3054
       Token Tag     Sentence #
298012    \n   O  Sentence 3055
298013    \n   O  Sentence 3055
       Token Tag     Sentence #
298258    \n   O  Sentence 3056
298259    \n   O  Sentence 3056
       Token Tag     Sentence #
298380    \n   O  Sentence 3057
298381    \n   O  Sentence 3057
       Token Tag     Sentence #
298435    \n   O  Sentence 3058
298436    \n   O  Sentence 3058
       Token Tag     Sentence #
298534    \n   O  Sentence 3059
298535    \n   O  Sentence 3059
       Token Tag     Sentence #
298674    \n   O  Sentence 3060
298675    \n   O  Sentence 3060
       Tok

       Token Tag     Sentence #
307995    \n   O  Sentence 3206
307996    \n   O  Sentence 3206
       Token Tag     Sentence #
308106    \n   O  Sentence 3207
308107    \n   O  Sentence 3207
       Token Tag     Sentence #
308157    \n   O  Sentence 3208
308158    \n   O  Sentence 3208
       Token Tag     Sentence #
308203    \n   O  Sentence 3209
308204    \n   O  Sentence 3209
       Token       Tag     Sentence #
308212    \n  I_Pessoa  Sentence 3210
308213    \n         O  Sentence 3210
       Token Tag     Sentence #
308224    \n   O  Sentence 3211
308225    \n   O  Sentence 3211
       Token Tag     Sentence #
308228    \n   O  Sentence 3212
308229    \n   O  Sentence 3212
       Token Tag     Sentence #
308236    \n   O  Sentence 3213
308237    \n   O  Sentence 3213
       Token Tag     Sentence #
308252    \n   O  Sentence 3214
308253    \n   O  Sentence 3214
       Token Tag     Sentence #
308260    \n   O  Sentence 3215
308261    \n   O  Sentence 3215
       Token          

       Token Tag     Sentence #
320512    \n   O  Sentence 3359
320513    \n   O  Sentence 3359
       Token Tag     Sentence #
320546    \n   O  Sentence 3360
320547    \n   O  Sentence 3360
       Token Tag     Sentence #
320628    \n   O  Sentence 3361
320629    \n   O  Sentence 3361
       Token Tag     Sentence #
320677    \n   O  Sentence 3362
320678    \n   O  Sentence 3362
       Token Tag     Sentence #
320705    \n   O  Sentence 3363
320706    \n   O  Sentence 3363
       Token Tag     Sentence #
320731    \n   O  Sentence 3364
320732    \n   O  Sentence 3364
       Token Tag     Sentence #
320765    \n   O  Sentence 3365
320766    \n   O  Sentence 3365
       Token Tag     Sentence #
320803    \n   O  Sentence 3366
320804    \n   O  Sentence 3366
       Token Tag     Sentence #
320869    \n   O  Sentence 3367
320870    \n   O  Sentence 3367
       Token Tag     Sentence #
320889    \n   O  Sentence 3368
320890    \n   O  Sentence 3368
       Token Tag     Sentence #
320895  

       Token Tag     Sentence #
334354    \n   O  Sentence 3510
334355    \n   O  Sentence 3510
       Token Tag     Sentence #
334432    \n   O  Sentence 3511
334433    \n   O  Sentence 3511
       Token Tag     Sentence #
334445    \n   O  Sentence 3512
334446    \n   O  Sentence 3512
       Token Tag     Sentence #
334515    \n   O  Sentence 3513
334516    \n   O  Sentence 3513
       Token Tag     Sentence #
334615    \n   O  Sentence 3514
334616    \n   O  Sentence 3514
       Token Tag     Sentence #
334661    \n   O  Sentence 3515
334662    \n   O  Sentence 3515
       Token Tag     Sentence #
335151    \n   O  Sentence 3516
335152    \n   O  Sentence 3516
       Token Tag     Sentence #
335171    \n   O  Sentence 3517
335172    \n   O  Sentence 3517
       Token Tag     Sentence #
335202    \n   O  Sentence 3518
335203    \n   O  Sentence 3518
       Token Tag     Sentence #
335259    \n   O  Sentence 3519
335260    \n   O  Sentence 3519
       Token Tag     Sentence #
335303  

       Token Tag     Sentence #
349270    \n   O  Sentence 3662
349271    \n   O  Sentence 3662
       Token Tag     Sentence #
349475    \n   O  Sentence 3663
349476    \n   O  Sentence 3663
       Token Tag     Sentence #
349558    \n   O  Sentence 3664
349559    \n   O  Sentence 3664
       Token Tag     Sentence #
349710    \n   O  Sentence 3665
349711    \n   O  Sentence 3665
       Token Tag     Sentence #
349778    \n   O  Sentence 3666
349779    \n   O  Sentence 3666
       Token Tag     Sentence #
349786    \n   O  Sentence 3667
349787    \n   O  Sentence 3667
       Token Tag     Sentence #
349802    \n   O  Sentence 3668
349803    \n   O  Sentence 3668
       Token Tag     Sentence #
349806    \n   O  Sentence 3669
349807    \n   O  Sentence 3669
       Token Tag     Sentence #
349947    \n   O  Sentence 3670
349948    \n   O  Sentence 3670
       Token Tag     Sentence #
350034    \n   O  Sentence 3671
350035    \n   O  Sentence 3671
       Token Tag     Sentence #
350096  

       Token Tag     Sentence #
361705    \n   O  Sentence 3818
361706    \n   O  Sentence 3818
       Token Tag     Sentence #
361878    \n   O  Sentence 3819
361879    \n   O  Sentence 3819
       Token Tag     Sentence #
361978    \n   O  Sentence 3820
361979    \n   O  Sentence 3820
       Token Tag     Sentence #
362005    \n   O  Sentence 3821
362006    \n   O  Sentence 3821
       Token Tag     Sentence #
362011    \n   O  Sentence 3822
362012    \n   O  Sentence 3822
       Token Tag     Sentence #
362067    \n   O  Sentence 3823
362068    \n   O  Sentence 3823
       Token Tag     Sentence #
362326    \n   O  Sentence 3824
362327    \n   O  Sentence 3824
       Token Tag     Sentence #
362424    \n   O  Sentence 3825
362425    \n   O  Sentence 3825
       Token Tag     Sentence #
362615    \n   O  Sentence 3826
362616    \n   O  Sentence 3826
       Token Tag     Sentence #
362735    \n   O  Sentence 3827
362736    \n   O  Sentence 3827
       Token Tag     Sentence #
362831  

378489    \n   O  Sentence 3976
       Token Tag     Sentence #
378592    \n   O  Sentence 3977
378593    \n   O  Sentence 3977
       Token Tag     Sentence #
378706    \n   O  Sentence 3978
378707    \n   O  Sentence 3978
       Token Tag     Sentence #
378801    \n   O  Sentence 3979
378802    \n   O  Sentence 3979
       Token Tag     Sentence #
378913    \n   O  Sentence 3980
378914    \n   O  Sentence 3980
       Token Tag     Sentence #
379438    \n   O  Sentence 3981
379439    \n   O  Sentence 3981
       Token Tag     Sentence #
379544    \n   O  Sentence 3982
379545    \n   O  Sentence 3982
       Token Tag     Sentence #
379552    \n   O  Sentence 3983
379553    \n   O  Sentence 3983
       Token Tag     Sentence #
379572    \n   O  Sentence 3984
379573    \n   O  Sentence 3984
       Token Tag     Sentence #
379660    \n   O  Sentence 3985
379661    \n   O  Sentence 3985
       Token Tag     Sentence #
379811    \n   O  Sentence 3986
379812    \n   O  Sentence 3986
       T

       Token Tag     Sentence #
400471    \n   O  Sentence 4135
400472    \n   O  Sentence 4135
       Token Tag     Sentence #
400618    \n   O  Sentence 4136
400619    \n   O  Sentence 4136
       Token Tag     Sentence #
401104    \n   O  Sentence 4137
401105    \n   O  Sentence 4137
       Token Tag     Sentence #
401373    \n   O  Sentence 4138
401374    \n   O  Sentence 4138
       Token Tag     Sentence #
401475    \n   O  Sentence 4139
401476    \n   O  Sentence 4139
       Token Tag     Sentence #
401577    \n   O  Sentence 4140
401578    \n   O  Sentence 4140
       Token Tag     Sentence #
401588    \n   O  Sentence 4141
401589    \n   O  Sentence 4141
       Token Tag     Sentence #
401594    \n   O  Sentence 4142
401595    \n   O  Sentence 4142
       Token Tag     Sentence #
401610    \n   O  Sentence 4143
401611    \n   O  Sentence 4143
       Token Tag     Sentence #
401614    \n   O  Sentence 4144
401615    \n   O  Sentence 4144
       Token Tag     Sentence #
401674  

       Token Tag     Sentence #
413108    \n   O  Sentence 4296
413109    \n   O  Sentence 4296
       Token Tag     Sentence #
413160    \n   O  Sentence 4297
413161    \n   O  Sentence 4297
       Token Tag     Sentence #
413259    \n   O  Sentence 4298
413260    \n   O  Sentence 4298
       Token Tag     Sentence #
413343    \n   O  Sentence 4299
413344    \n   O  Sentence 4299
       Token Tag     Sentence #
413393    \n   O  Sentence 4300
413394    \n   O  Sentence 4300
       Token Tag     Sentence #
413541    \n   O  Sentence 4301
413542    \n   O  Sentence 4301
       Token Tag     Sentence #
413594    \n   O  Sentence 4302
413595    \n   O  Sentence 4302
       Token Tag     Sentence #
413635    \n   O  Sentence 4303
413636    \n   O  Sentence 4303
       Token Tag     Sentence #
413765    \n   O  Sentence 4304
413766    \n   O  Sentence 4304
       Token Tag     Sentence #
414054    \n   O  Sentence 4305
414055    \n   O  Sentence 4305
       Token Tag     Sentence #
414155  

430372    \n   O  Sentence 4449
       Token Tag     Sentence #
430466    \n   O  Sentence 4450
430467    \n   O  Sentence 4450
       Token Tag     Sentence #
430507    \n   O  Sentence 4451
430508    \n   O  Sentence 4451
       Token Tag     Sentence #
430552    \n   O  Sentence 4452
430553    \n   O  Sentence 4452
       Token Tag     Sentence #
430635    \n   O  Sentence 4453
430636    \n   O  Sentence 4453
       Token Tag     Sentence #
430703    \n   O  Sentence 4454
430704    \n   O  Sentence 4454
       Token Tag     Sentence #
430786    \n   O  Sentence 4455
430787    \n   O  Sentence 4455
       Token Tag     Sentence #
430890    \n   O  Sentence 4456
430891    \n   O  Sentence 4456
       Token Tag     Sentence #
431008    \n   O  Sentence 4457
431009    \n   O  Sentence 4457
       Token Tag     Sentence #
431082    \n   O  Sentence 4458
431083    \n   O  Sentence 4458
       Token Tag     Sentence #
431099    \n   O  Sentence 4459
431100    \n   O  Sentence 4459
       T

446456    \n   O  Sentence 4609
       Token Tag     Sentence #
446569    \n   O  Sentence 4610
446570    \n   O  Sentence 4610
       Token Tag     Sentence #
446629    \n   O  Sentence 4611
446630    \n   O  Sentence 4611
       Token Tag     Sentence #
446861    \n   O  Sentence 4612
446862    \n   O  Sentence 4612
       Token Tag     Sentence #
446954    \n   O  Sentence 4613
446955    \n   O  Sentence 4613
       Token Tag     Sentence #
447050    \n   O  Sentence 4614
447051    \n   O  Sentence 4614
       Token Tag     Sentence #
447208    \n   O  Sentence 4615
447209    \n   O  Sentence 4615
       Token Tag     Sentence #
447456    \n   O  Sentence 4616
447457    \n   O  Sentence 4616
       Token Tag     Sentence #
447496    \n   O  Sentence 4617
447497    \n   O  Sentence 4617
       Token Tag     Sentence #
447634    \n   O  Sentence 4618
447635    \n   O  Sentence 4618
       Token Tag     Sentence #
447706    \n   O  Sentence 4619
447707    \n   O  Sentence 4619
       T

       Token Tag     Sentence #
462825    \n   O  Sentence 4770
462826    \n   O  Sentence 4770
       Token Tag     Sentence #
463117    \n   O  Sentence 4771
463118    \n   O  Sentence 4771
       Token Tag     Sentence #
463250    \n   O  Sentence 4772
463251    \n   O  Sentence 4772
       Token Tag     Sentence #
463272    \n   O  Sentence 4773
463273    \n   O  Sentence 4773
       Token Tag     Sentence #
463564    \n   O  Sentence 4774
463565    \n   O  Sentence 4774
       Token                 Tag     Sentence #
463709    \n  I_Ref. Legislativa  Sentence 4775
463710    \n  I_Ref. Legislativa  Sentence 4775
       Token Tag     Sentence #
463742    \n   O  Sentence 4776
463743    \n   O  Sentence 4776
       Token Tag     Sentence #
463912    \n   O  Sentence 4777
463913    \n   O  Sentence 4777
       Token Tag     Sentence #
464116    \n   O  Sentence 4778
464117    \n   O  Sentence 4778
       Token Tag     Sentence #
464137    \n   O  Sentence 4779
464138    \n   O  Senten

KeyboardInterrupt: 

In [None]:
# Cria um array com as posições a serem retiradas.
pos = []
for i in range(len(starts)):
    pos.append(starts[i])
    pos.append(starts[i]+1)
pos[:5]

In [None]:
# Remove as linhas do dataframe e reseta os índices.
combined_csv = combined_csv.drop(pos).reset_index(drop=True)

In [None]:
# Confirma se a remoção foi bem sucedida.
combined_csv.head(15)

# Mover B_  com Token vazio para linha abaixo

In [None]:
# 'begins' identifica as situações onde a Tag começa com 'B_' e o Token é vazio, uma situação onde 
# o anotador começou a marcação de um espaço vazio gerando a inconsistância.

begins = combined_csv[(combined_csv['Token']==' ') & 
                      (combined_csv['Tag'].str.startswith('B_'))].index.values

In [None]:
begins[0], len (begins)

In [None]:
%%time
# Rodar apenas uma vez
for i in range(len(begins)):
    combined_csv.Tag.iloc[begins[i]+1] = combined_csv.Tag.iloc[begins[i]] #Acertar a Tag do Token para começar
                                                                          #sem espaço
    combined_csv.Tag.iloc[begins[i]] = 'O' #Marca o espaço vazio como 'O'

In [None]:
i, n = 1, 10
combined_csv.iloc[begins[i]-n+7:begins[i]+n]

# Tratar marcações que incluem vírgula no final da marcação

In [None]:
df_teste = combined_csv.copy()

In [None]:
# df_teste.iloc[2].shift(+1)

df_teste['Token'].shift(-1)

In [None]:
df_teste.iloc[2]

In [None]:
# Índice das posições onde ocorre o fim da marcação em uma vírgula
inx = df_teste[(df_teste.Tag.str.startswith('I')) & (df_teste.Token == ',') & (df_teste.Tag.shift(-1) == 'O')].index.values

In [None]:
# Conferindo a ocorrência
i = 9
df_teste.iloc[inx[i]-5:inx[i]+10]

In [None]:
df_teste = df_teste.drop(inx).reset_index(drop=True)

In [None]:
# Conferindo se funcionou
i = 9
df_teste.iloc[inx[i]-20:inx[i]+15]

In [None]:
combined_csv = df_teste.copy()

In [None]:
combined_csv[(combined_csv.Tag.str.startswith('B')) & (combined_csv.Token == ' ')]

In [None]:
list(combined_csv.Tag.unique())

# IMPORTANTE: Esse último passo é necessário para salvar todas as alterações feitas no preprocessamento.

In [None]:
# Salvando o processamento feito nos dados
combined_csv.to_csv("preprocessados.csv",index=False,encoding='utf-8')

# <center> $\color{red}{\text{TESTES FALHOS}}$ </center>

## Tratar caracteres especiais

In [None]:
# Criando um dataframe teste para não alterar o arquivo principal
df_teste = combined_csv.copy()

In [None]:
# Identifica os tokens que começam com '§' e são maiores que 1 pois queremos pegar os casos onde
# '§' está associado ao numero do paragrafo.
espec_carac = list(df_teste[(df_teste.Token.str.startswith('§')) & (df_teste.Token.str.len()>1)].Token.unique())
espec_carac

In [None]:
df_teste[df_teste.Token.str.match(espec_carac[0])]

### Teste com duas sentenças

In [None]:
df_senten = df_teste[df_teste['Sentence #'] == 'Sentence 310'].append(df_teste[df_teste['Sentence #'] == 'Sentence 1589'])

df_senten.reset_index(drop=True,inplace=True)

In [None]:
for i in range(len(df_senten)):
    if any(carac in df_senten.Token.iloc[i] for carac in espec_carac) == True:
        line = df_senten.iloc[i]
        splt = list(line.Token)
        
        if line.Tag.startswith('I_'):
            if len(line.Token) == 2:
                #Para tamanho 2 temos que transformar uma linha em duas
                line0 = line.copy()
                line0.Token = splt[0]
                line1 = line.copy()
                line1.Token = splt[1]
                # Transforma em DataFrame
                line0 = pd.DataFrame(line0).transpose()
                line1 = pd.DataFrame(line1).transpose()

                df_senten1 = pd.concat([df_senten.iloc[:i], line0, line1, df_senten.iloc[i+1:]]).reset_index(drop=True)
            
            if len(line.Token) == 3:
                #Para tamanho 3 temos que transformar uma linha em três
                line0 = line.copy()
                line0.Token = splt[0]
                line1 = line.copy()
                line1.Token = splt[1]
                line2 = line.copy()
                line2.Token = splt[2]

                # Transforma em DataFrame
                line0 = pd.DataFrame(line0).transpose()
                line1 = pd.DataFrame(line1).transpose()
                line2 = pd.DataFrame(line2).transpose()

                df_senten1 = pd.concat([df_senten.iloc[:i], line0, line1, line2, df_senten.iloc[i+1:]]).reset_index(drop=True)

        if line.Tag.startswith('B_'):
            if len(line.Token) == 2:
                #Para tamanho 2 temos que transformar uma linha em duas
                line0 = line.copy()
                line0.Token = splt[0]
                line1 = line.copy()
                line1.Token = splt[1]
                line1.Tag = line.Tag.replace('B_','I_')

                # Transforma em DataFrame
                line0 = pd.DataFrame(line0).transpose()
                line1 = pd.DataFrame(line1).transpose()

                df_senten1 = pd.concat([df_senten.iloc[:i], line0, line1, df_senten.iloc[i+1:]]).reset_index(drop=True)
            if len(line.Token) == 3:
                #Para tamanho 3 temos que transformar uma linha em três
                line0 = line.copy()
                line0.Token = splt[0]
                line1 = line.copy()
                line1.Token = splt[1]
                line1.Tag = line.Tag.replace('B_','I_')
                line2 = line.copy()
                line2.Token = splt[2]
                line2.Tag = line.Tag.replace('B_','I_')

                # Transforma em DataFrame
                line0 = pd.DataFrame(line0).transpose()
                line1 = pd.DataFrame(line1).transpose()
                line2 = pd.DataFrame(line2).transpose()

                df_senten1 = pd.concat([df_senten.iloc[:i], line0, line1, line2, df_senten.iloc[i+1:]]).reset_index(drop=True)

In [None]:
# Vendo se o novo dataframe (df_senten1) está alterado em relação ao dataframe anterior (df_senten).

In [None]:
(df_senten1.tail(10))

In [None]:
df_senten.tail(10)

### Para o conjunto de teste (com todas as sentenças)

In [None]:
for i in range(len(df_teste)):
    if any(carac in df_teste.Token.iloc[i] for carac in espec_carac) == True:
        line = df_teste.iloc[i]
        splt = list(line.Token)
        
        if line.Tag.startswith('I_'):
            if len(line.Token) == 2:
                #Para tamanho 2 temos que transformar uma linha em duas
                line0 = line.copy()
                line0.Token = splt[0]
                line1 = line.copy()
                line1.Token = splt[1]
                # Transforma em DataFrame
                line0 = pd.DataFrame(line0).transpose()
                line1 = pd.DataFrame(line1).transpose()

                df_senten1 = pd.concat([df_teste.iloc[:i], line0, line1, df_teste.iloc[i+1:]]).reset_index(drop=True)
            
            if len(line.Token) == 3:
                #Para tamanho 3 temos que transformar uma linha em três
                line0 = line.copy()
                line0.Token = splt[0]
                line1 = line.copy()
                line1.Token = splt[1]
                line2 = line.copy()
                line2.Token = splt[2]

                # Transforma em DataFrame
                line0 = pd.DataFrame(line0).transpose()
                line1 = pd.DataFrame(line1).transpose()
                line2 = pd.DataFrame(line2).transpose()

                df_senten1 = pd.concat([df_teste.iloc[:i], line0, line1, line2, df_teste.iloc[i+1:]]).reset_index(drop=True)

        if line.Tag.startswith('B_'):
            if len(line.Token) == 2:
                #Para tamanho 2 temos que transformar uma linha em duas
                line0 = line.copy()
                line0.Token = splt[0]
                line1 = line.copy()
                line1.Token = splt[1]
                line1.Tag = line.Tag.replace('B_','I_')

                # Transforma em DataFrame
                line0 = pd.DataFrame(line0).transpose()
                line1 = pd.DataFrame(line1).transpose()

                df_senten1 = pd.concat([df_teste.iloc[:i], line0, line1, df_teste.iloc[i+1:]]).reset_index(drop=True)
            if len(line.Token) == 3:
                #Para tamanho 3 temos que transformar uma linha em três
                line0 = line.copy()
                line0.Token = splt[0]
                line1 = line.copy()
                line1.Token = splt[1]
                line1.Tag = line.Tag.replace('B_','I_')
                line2 = line.copy()
                line2.Token = splt[2]
                line2.Tag = line.Tag.replace('B_','I_')

                # Transforma em DataFrame
                line0 = pd.DataFrame(line0).transpose()
                line1 = pd.DataFrame(line1).transpose()
                line2 = pd.DataFrame(line2).transpose()

                df_senten1 = pd.concat([df_teste.iloc[:i], line0, line1, line2, df_teste.iloc[i+1:]]).reset_index(drop=True)

In [None]:
df_senten1[(df_senten1.Token.str.startswith('§')) & (df_senten1.Token.str.len()>1)].head()

# Aparentemente, não está funcionando.

## Remove pontuação dos números

In [None]:
# Criando um DataFrame onde todas os tokens possuem pontuação 
df_pont = combined_csv[(combined_csv.Token.str.contains("""[.]""")) & (combined_csv.Token.str.len()>1)]

In [None]:
df_pont.shape

In [None]:
# Tokens de tamanho maior que 1.
df_pont.head(30)

In [None]:
# combined_csv.iloc[2722-3:2722+5]
df_pont[(df_pont.Tag.str.endswith('Precedente'))]

In [None]:
df_pont.Tag.value_counts()

### Não foi possível chegar em um consenso sobre qual pontuação deveria ser removida e como localizá-la no df.

## Caso onde 'ADV' aparece ao final do Token

In [None]:
# No meio do preprocessamento foi identificado tokens que terminam com 'adv' e estão colados ao nome do
# advogado referente ao caso.
# Tokens que terminan com 'adv'.

In [None]:
adv = combined_csv[combined_csv.Token.str.endswith('ADV')]#.reset_index(drop=True)
adv.head()#, adv.shape

In [None]:
# Desconfiança que o nome do advogado está agregado à palavra 'adv'

adv[adv.Token.str.len() >3]
adv_pos = adv[adv.Token.str.len() >3].index.values

k = 2 # Vê as linhas antes e depois do k-ésimo ocorrido .
combined_csv.iloc[adv_pos[k]-3:adv_pos[k]+3] # Olhando para as linhas anteriores e posteriores o acontecimento.
# combined_csv.iloc[adv_pos[0]].Token[-3:] #Separando a parte 'adv'

In [None]:
print("Quantidade de vezes que esse caso ocorre em todos os arquivos:",len(adv_pos))