In [34]:
import pandas as pd
import cx_Oracle
import re
import unicodedata
import spacy

nlp = spacy.load('pt')

def limpaTexto(palavra):
    # unicodedata.normalize transforma um caracter em seu equivalente em latin.
    nfkd = unicodedata.normalize('NFKD', palavra)
    palavraSemAcento = u"".join([c for c in nfkd if not unicodedata.combining(c)])

    # Usa expressão regular para retornar a palavra apenas com números, letras e espaço
    # A combinação de funções join(texto).split() serve pra remover espaços múltiplos entre palavras
    # A função lower() transforma a string em minusculas
    palavraSemAcento = ' '.join((re.sub('[^a-zA-Z0-9\\\]', ' ', palavraSemAcento.lower())).split())
    
    return palavraSemAcento


def tokenPosLemma(parsedData):
    print(parsedData)
    print("A string contem o seguinte número de tokens: ", len(parsedData))
    print('')
    # Recebe um documento parseado com Spacy e exibe seus componentes
    # Mais informações em https://spacy.io/api/token#attributes
    for i, token in enumerate(parsedData):
        print("original          :", token.orth_)
        print("lemma             :", token.lemma_)
        print("POS tag           :", token.pos_, '(', spacy.explain(token.pos_), ')')
        print("----------------------------------------")
    
    print("==================================================================")


def detalharToken(parsedData):
    print(parsedData)
    print("A string contem o seguinte número de tokens: ", len(parsedData))
    print('')
    # Recebe um documento parseado com Spacy e exibe seus componentes
    # Mais informações em https://spacy.io/api/token#attributes
    for i, token in enumerate(parsedData):
        print("original          :", token.orth, token.orth_)
        print("lowercased        :", token.lower, token.lower_)
        print("lemma             :", token.lemma, token.lemma_)
        print("shape             :", token.shape, token.shape_)
        print("POS tag           :", token.pos, token.pos_, '(', spacy.explain(token.pos_), ')')
        print("is out of vocab   :", token.is_oov)
        print("Entity type       :", token.ent_type, token.ent_type_, '(', spacy.explain(token.ent_type_), ')')
        print("norm              :", token.norm, token.norm_)

        print("token tag         :", token.tag, token.tag_, '(', spacy.explain(token.tag_), ')')
        print("token dep         :", token.dep, token.dep_, '(', spacy.explain(token.dep_), ')')
        print("token head text   :", token.head.text, token.head)
        print("token head pos    :", token.head.pos, token.head.pos_, '(', spacy.explain(token.head.pos_), ')')
        print("token head dep    :", token.head.dep, token.head.dep_, '(', spacy.explain(token.head.dep_), ')')
        
        print("prefix            :", token.prefix, token.prefix_)
        print("suffix            :", token.suffix, token.suffix_)
        print("log probability   :", token.prob)
        print("Brown cluster id  :", token.cluster)
        print("----------------------------------------")
    
    print("==================================================================")

    
    

print(cx_Oracle.clientversion())

(18, 3, 0, 0, 0)


In [12]:
# Connect as user "hr" with password "welcome" to the "oraclepdb" service running on this computer.
connection = cx_Oracle.connect("MOSSORO", "MOSSORO", "10.0.0.7/cad80.world", encoding = "UTF-8", nencoding = "UTF-8")

print(connection.encoding)

# Registros de EVCOM entre 23 e 26 de dezembro de 2012

# Foram removidos os registros iniciando com **, que em sua maioria constituem mensagens
# de sistema
sql_evcom_mini = """select eid, cpers, comm from evcom 
                    where cdts between '20121223000000HS' and '20121226235959HS'
                        and comm not like '%** %'
                    order by eid, cdts, lin_grp, lin_ord
                 """


sql_event_mini = """select eid, cdts, clname, clrnum, efeatyp, efeanme, cstr_add, estnum, cpers,
                        loc_com, bairro, emun, x_cord/100 as x_cord, y_cord/100 as y_cord
                    from event
                    where curent ='T' and cdts between '20121223000000HS' and '20121226235959HS'
                    order by eid
                 """


tbl_evcom = pd.read_sql(sql_evcom_mini, connection)
tbl_event = pd.read_sql(sql_event_mini, connection)

connection.close()

UTF-8


In [3]:
tbl_event

Unnamed: 0,EID,CDTS,CLNAME,CLRNUM,EFEATYP,EFEANME,CSTR_ADD,ESTNUM,CPERS,LOC_COM,BAIRRO,EMUN,X_CORD,Y_CORD
0,3542434,20121223000308HS,EDUARDO,94325507,,FAZENDA SAO JOAO,,,2020815,,,,0.00,0.00
1,3542435,20121223000627HS,MAE Da criança,-------,RUA,JOANA D'ARC,,70,50984984,: EST,Santo Antônio,,681567.66,9430666.36
2,3542436,20121223001244HS,ELANE,------,RUA,CELINA VIANA,,619,50984984,: EST,Alto de Sumaré,,685846.05,9421792.96
3,3542437,20121223002255HS,,,,LORIVAL CAETANO FERREIRA,,,2020815,,Alto de Sumaré,,0.00,0.00
4,3542438,20121223004631HS,CLEIDE,,RUA,MARIA LEOPOLDINA,,21,50984984,: EST,Aeroporto,,681055.93,9425961.19
5,3542439,20121223005506HS,JUNIOR,94127434,,CICERA GABRIEL,,,2020815,,Aeroporto,,0.00,0.00
6,3542440,20121223010610HS,JOÃO MARCELINO,,RUA,EUFRASIO DE OLIVEIRA,,690,1231472,: EST,Alto da Conceição,,682404.47,9424031.95
7,3542441,20121223011045HS,JÚLIO,,RUA,CUNHA DA MOTA,,252,1231472,: EST,Centro,,683579.02,9425474.03
8,3542442,20121223011927HS,JOSÉ RILTON FERNANDES,,RUA,SILVA JARDIM,,751,1231472,: EST,Boa Vista,,682598.52,9425587.01
9,3542443,20121223012914HS,HUDSON,,RUA,TITA,,27,2020815,: EST,Abolição,,683000.63,9427725.00


In [20]:
tbl_evcom['COMM_limpos'] = tbl_evcom['COMM'].apply(lambda x: limpaTexto(x))

tbl_evcom['COMM_nlp'] = tbl_evcom['COMM_limpos'].apply(lambda x: nlp(x))

tbl_evcom.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1605 entries, 0 to 1604
Data columns (total 6 columns):
EID             1605 non-null int64
CPERS           1605 non-null int64
COMM            1605 non-null object
COMM_limpos     1605 non-null object
COMM_nlp        1605 non-null object
tamanho_COMM    1605 non-null int64
dtypes: int64(3), object(3)
memory usage: 75.3+ KB


In [21]:
# Acrescentando uma coluna com o número de tokens do campo COMM
tbl_evcom['tamanho_COMM'] = tbl_evcom['COMM_nlp'].apply(lambda x: len(x))

# filtrando as linhas com mais de 15 tokens
tam_com = tbl_evcom[tbl_evcom.tamanho_COMM > 15]

# listando o EID do filtro anterior
lista_eid = tam_com.EID.unique()

print ("Número de registros com mais de 15 tokens           :", len(tam_com))
print ("Número de registros distintos com mais de 15 tokens :", len(lista_eid))


Número de registros com mais de 15 tokens           : 116
Número de registros distintos com mais de 15 tokens : 101


In [22]:
#tbl_evcom['tamanho_COMM_limpos_nlp'] = tbl_evcom['COMM_limpos_nlp'].apply(lambda x: len(x))

tbl_evcom.sort_values(by='tamanho_COMM', ascending=0)

Unnamed: 0,EID,CPERS,COMM,COMM_limpos,COMM_nlp,tamanho_COMM
1204,3542806,1658204,PX AO DEPÓSITO DO SACI VIZ AO NUMERO 34 TEM UM...,px ao deposito do saci viz ao numero 34 tem um...,"(px, a, o, deposito, do, saci, viz, a, o, nume...",19
1453,3542861,2020815,O MESMO ENCONTRA-SE AO LADO DA GARAGEM DA EMPR...,o mesmo encontra se ao lado da garagem da empr...,"(o, mesmo, encontra, se, a, o, lado, da, garag...",19
801,3542691,17820,POR TRÁS DO BAR DE SIENA TEM UM SOBRINHO MAIS ...,por tras do bar de siena tem um sobrinho mais ...,"(por, tras, do, bar, de, siena, tem, um, sobri...",19
989,3542750,2020815,"INTER INFORMA QUE ACIONOU A VTR NO DIA DE HJ ,...",inter informa que acionou a vtr no dia de hj a...,"(inter, informa, que, acionou, a, vtr, no, dia...",19
1108,3542778,1658204,"PX AO BAR NOVO VISUAL , O CIDADO ESTA EM SUA C...",px ao bar novo visual o cidado esta em sua cas...,"(px, a, o, bar, novo, visual, o, cidado, esta,...",19
1494,3542870,2066548,EM FRENTE AO PASTEL DO TIO LEO E PROXIMO A IGR...,em frente ao pastel do tio leo e proximo a igr...,"(em, frente, a, o, pastel, do, tio, leo, e, pr...",19
1189,3542801,1658204,O MES INFORMA QUE UM INDIVIDUO COM ARMA DE FOG...,o mes informa que um individuo com arma de fog...,"(o, mes, informa, que, um, individuo, com, arm...",18
960,3542743,2020815,O MESMO SAIU DE SERVIÇO E AO CHEGAR EM CASA TE...,o mesmo saiu de servico e ao chegar em casa te...,"(o, mesmo, saiu, de, servico, e, a, o, chegar,...",18
18,3542440,1231472,NO ESPETINHO DE MAZÉ NA RUA DO BAR DE SADAN RU...,no espetinho de maze na rua do bar de sadan ru...,"(no, espetinho, de, maze, na, rua, do, bar, de...",18
949,3542740,2020815,"TEM UM ELEMENTO ARMADO DE RV NO LOCAL, O MESMO...",tem um elemento armado de rv no local o mesmo ...,"(tem, um, elemento, armado, de, rv, no, local,...",18


In [23]:
# Cada ocorrência fica espalhada em vários linhas da tabela EVCOM. Com a lista
# dos EIDs com mais tokens, vou montar uma consulta pra retornar todas as linhas
# que compõem o registro completo, pra garantir que usaremos o histórico completo
# das ocorrências.

# criando string com os EIDs
lista = str(lista_eid.tolist())
lista = lista[1:-1]

# Montando a query

# Registros de EVCOM entre 23 e 26 de dezembro de 2012 com maior
# número de tokens numa mesma linha
sql_evcom_lista = "select eid, cpers, comm from evcom where eid in ("
sql_evcom_lista += lista
sql_evcom_lista += ") order by eid, cdts, lin_grp, lin_ord"

print(sql_evcom_lista)

select eid, cpers, comm from evcom where eid in (3542440, 3542443, 3542445, 3542447, 3542450, 3542457, 3542459, 3542465, 3542466, 3542481, 3542487, 3542490, 3542495, 3542506, 3542513, 3542514, 3542525, 3542530, 3542544, 3542546, 3542547, 3542549, 3542554, 3542556, 3542560, 3542561, 3542562, 3542566, 3542568, 3542580, 3542582, 3542588, 3542598, 3542605, 3542609, 3542611, 3542612, 3542617, 3542629, 3542637, 3542639, 3542653, 3542681, 3542691, 3542693, 3542720, 3542731, 3542740, 3542743, 3542749, 3542750, 3542751, 3542755, 3542757, 3542761, 3542763, 3542768, 3542776, 3542778, 3542785, 3542788, 3542793, 3542795, 3542798, 3542800, 3542801, 3542802, 3542805, 3542806, 3542808, 3542815, 3542819, 3542825, 3542827, 3542828, 3542838, 3542841, 3542844, 3542851, 3542853, 3542854, 3542855, 3542857, 3542861, 3542864, 3542867, 3542868, 3542870, 3542872, 3542879, 3542882, 3542884, 3542885, 3542886, 3542891, 3542892, 3542894, 3542895, 3542896, 3542897, 3542898) order by eid, cdts, lin_grp, lin_ord


In [24]:
connection = cx_Oracle.connect("MOSSORO", "MOSSORO", "10.0.0.7/cad80.world", encoding = "UTF-8", nencoding = "UTF-8")

tbl_evcom2 = pd.read_sql(sql_evcom_lista, connection)

connection.close()


tbl_evcom2.head(20)

Unnamed: 0,EID,CPERS,COMM
0,3542440,1231472,NO ESPETINHO DE MAZÉ NA RUA DO BAR DE SADAN RU...
1,3542440,1231472,ALTO VOLUME TIRANDO O SOSSEGO DO MESMO
2,3542443,2020815,O SOLICITANTE DIZ QUE DE FRENTE AO EXTRA HÁ UM...
3,3542443,2020815,CARRO.
4,3542443,2020815,OS POPULARES ESTÃO ESPERANDO A VTR.
5,3542443,2020815,O SOLICITANTE DIZ QUE JÁ HAVIA LIGADO.
6,3542443,2020815,A O.C. FICA NA ABOLIÇÃO I.
7,3542445,2020815,CASA 2233.
8,3542445,2020815,PX AO ANTIGO CERCADO BAR E A IGREJA UNIVERSAL ...
9,3542445,2020815,RESIDENCIA.


In [25]:
tbl_evcom2['COMM_limpo'] = tbl_evcom2['COMM'].apply(lambda x: limpaTexto(x))

tbl_evcom2.head(20)

Unnamed: 0,EID,CPERS,COMM,COMM_limpo
0,3542440,1231472,NO ESPETINHO DE MAZÉ NA RUA DO BAR DE SADAN RU...,no espetinho de maze na rua do bar de sadan ru...
1,3542440,1231472,ALTO VOLUME TIRANDO O SOSSEGO DO MESMO,alto volume tirando o sossego do mesmo
2,3542443,2020815,O SOLICITANTE DIZ QUE DE FRENTE AO EXTRA HÁ UM...,o solicitante diz que de frente ao extra ha um...
3,3542443,2020815,CARRO.,carro
4,3542443,2020815,OS POPULARES ESTÃO ESPERANDO A VTR.,os populares estao esperando a vtr


In [26]:
# Aplicando SpaCy nos registros limpos
tbl_evcom2['COMM_nlp'] = tbl_evcom2['COMM_limpo'].apply(lambda x: nlp(x))

tbl_evcom2.head(20)

Unnamed: 0,EID,CPERS,COMM,COMM_limpo,COMM_nlp
0,3542440,1231472,NO ESPETINHO DE MAZÉ NA RUA DO BAR DE SADAN RU...,no espetinho de maze na rua do bar de sadan ru...,"(no, espetinho, de, maze, na, rua, do, bar, de..."
1,3542440,1231472,ALTO VOLUME TIRANDO O SOSSEGO DO MESMO,alto volume tirando o sossego do mesmo,"(alto, volume, tirando, o, sossego, do, mesmo)"
2,3542443,2020815,O SOLICITANTE DIZ QUE DE FRENTE AO EXTRA HÁ UM...,o solicitante diz que de frente ao extra ha um...,"(o, solicitante, diz, que, de, frente, a, o, e..."
3,3542443,2020815,CARRO.,carro,(carro)
4,3542443,2020815,OS POPULARES ESTÃO ESPERANDO A VTR.,os populares estao esperando a vtr,"(os, populares, estao, esperando, a, vtr)"


In [29]:
tbl_evcom2.info()
#tbl_evcom2.head(20)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 383 entries, 0 to 382
Data columns (total 5 columns):
EID           383 non-null int64
CPERS         383 non-null int64
COMM          383 non-null object
COMM_limpo    383 non-null object
COMM_nlp      383 non-null object
dtypes: int64(2), object(3)
memory usage: 15.0+ KB


In [35]:
tbl_evcom2['COMM_nlp'].apply(lambda x: tokenPosLemma(x))

no espetinho de maze na rua do bar de sadan russein um carro esta com o som em
A string contem o seguinte número de tokens:  18

original          : no
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
original          : espetinho
lemma             : espeto
POS tag           : NOUN ( noun )
----------------------------------------
original          : de
lemma             : de
POS tag           : ADP ( adposition )
----------------------------------------
original          : maze
lemma             : maze
POS tag           : NOUN ( noun )
----------------------------------------
original          : na
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
original          : rua
lemma             : ruir
POS tag           : NOUN ( noun )
----------------------------------------
original          : do
lemma             : do
POS tag           : ADP ( adposition )
-----------------------------

POS tag           : ADP ( adposition )
----------------------------------------
original          : o
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
original          : bar
lemma             : bar
POS tag           : NOUN ( noun )
----------------------------------------
original          : da
lemma             : da
POS tag           : ADP ( adposition )
----------------------------------------
original          : cajarana
lemma             : cajarana
POS tag           : NOUN ( noun )
----------------------------------------
um individuo de camisa amarela e bermuda esta em atitude suspeita chamando em
A string contem o seguinte número de tokens:  13

original          : um
lemma             : um
POS tag           : DET ( determiner )
----------------------------------------
original          : individuo
lemma             : individuar
POS tag           : NOUN ( noun )
----------------------------------------
original          : de
l

original          : assalto
lemma             : assaltar
POS tag           : NOUN ( noun )
----------------------------------------
original          : os
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
elementos levaram tambem r 800 00 e documentos pessoais
A string contem o seguinte número de tokens:  9

original          : elementos
lemma             : elemento
POS tag           : PROPN ( proper noun )
----------------------------------------
original          : levaram
lemma             : levar
POS tag           : VERB ( verb )
----------------------------------------
original          : tambem
lemma             : tambem
POS tag           : VERB ( verb )
----------------------------------------
original          : r
lemma             : r
POS tag           : ADP ( adposition )
----------------------------------------
original          : 800
lemma             : 800
POS tag           : NUM ( numeral )
------------------------------

POS tag           : NOUN ( noun )
----------------------------------------
original          : e
lemma             : e
POS tag           : CCONJ ( coordinating conjunction )
----------------------------------------
original          : os
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
frequentadores do estabelecimento estao receiosos
A string contem o seguinte número de tokens:  5

original          : frequentadores
lemma             : frequentador
POS tag           : PROPN ( proper noun )
----------------------------------------
original          : do
lemma             : do
POS tag           : ADP ( adposition )
----------------------------------------
original          : estabelecimento
lemma             : estabelecimento
POS tag           : NOUN ( noun )
----------------------------------------
original          : estao
lemma             : estao
POS tag           : X ( other )
----------------------------------------
original    

POS tag           : NOUN ( noun )
----------------------------------------
original          : da
lemma             : da
POS tag           : ADP ( adposition )
----------------------------------------
original          : pousada
lemma             : pousar
POS tag           : NOUN ( noun )
----------------------------------------
original          : de
lemma             : de
POS tag           : ADP ( adposition )
----------------------------------------
original          : conforto
lemma             : confortar
POS tag           : NOUN ( noun )
----------------------------------------
original          : e
lemma             : e
POS tag           : CCONJ ( coordinating conjunction )
----------------------------------------
da farmacia santa fe
A string contem o seguinte número de tokens:  4

original          : da
lemma             : da
POS tag           : ADV ( adverb )
----------------------------------------
original          : farmacia
lemma             : farmacia
POS tag           :

----------------------------------------
original          : tentou
lemma             : tentar
POS tag           : VERB ( verb )
----------------------------------------
original          : tomar
lemma             : tomar
POS tag           : VERB ( verb )
----------------------------------------
original          : sua
lemma             : suar
POS tag           : DET ( determiner )
----------------------------------------
original          : moto
lemma             : moto
POS tag           : NOUN ( noun )
----------------------------------------
original          : px
lemma             : px
POS tag           : ADP ( adposition )
----------------------------------------
original          : a
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
original          : bueira
lemma             : bueira
POS tag           : NOUN ( noun )
----------------------------------------
original          : a
lemma             : o
POS tag           : DET ( 

----------------------------------------
original          : 1
lemma             : 1
POS tag           : NUM ( numeral )
----------------------------------------
inter solicita a vtr na loja sua casa material de contrucao pois sumiu do
A string contem o seguinte número de tokens:  14

original          : inter
lemma             : inter
POS tag           : VERB ( verb )
----------------------------------------
original          : solicita
lemma             : solicitar
POS tag           : NOUN ( noun )
----------------------------------------
original          : a
lemma             : o
POS tag           : ADP ( adposition )
----------------------------------------
original          : vtr
lemma             : vtr
POS tag           : VERB ( verb )
----------------------------------------
original          : na
lemma             : o
POS tag           : ADJ ( adjective )
----------------------------------------
original          : loja
lemma             : loja
POS tag           : NOUN ( noun 

----------------------------------------
original          : numero
lemma             : numerar
POS tag           : NOUN ( noun )
----------------------------------------
original          : 81
lemma             : 81
POS tag           : NUM ( numeral )
----------------------------------------
a interessada informou que seu ex marido esta lhe ameacando e tentando invadir
A string contem o seguinte número de tokens:  13

original          : a
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
original          : interessada
lemma             : interessar
POS tag           : NOUN ( noun )
----------------------------------------
original          : informou
lemma             : informar
POS tag           : VERB ( verb )
----------------------------------------
original          : que
lemma             : que
POS tag           : SCONJ ( subordinating conjunction )
----------------------------------------
original          : seu
lemma        

lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
original          : santa
lemma             : santo
POS tag           : ADJ ( adjective )
----------------------------------------
original          : helena
lemma             : heleno
POS tag           : VERB ( verb )
----------------------------------------
original          : na
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
original          : rua
lemma             : ruir
POS tag           : NOUN ( noun )
----------------------------------------
original          : da
lemma             : da
POS tag           : ADP ( adposition )
----------------------------------------
original          : sucata
lemma             : sucata
POS tag           : NOUN ( noun )
----------------------------------------
original          : de
lemma             : de
POS tag           : ADP ( adposition )
----------------------------------------
original

POS tag           : ADJ ( adjective )
----------------------------------------
original          : e
lemma             : e
POS tag           : CCONJ ( coordinating conjunction )
----------------------------------------
original          : esta
lemma             : este
POS tag           : DET ( determiner )
----------------------------------------
original          : com
lemma             : com
POS tag           : ADP ( adposition )
----------------------------------------
original          : a
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
original          : vtr
lemma             : vtr
POS tag           : NOUN ( noun )
----------------------------------------
original          : da
lemma             : da
POS tag           : ADP ( adposition )
----------------------------------------
original          : empresa
lemma             : empresar
POS tag           : NOUN ( noun )
----------------------------------------
original          

POS tag           : DET ( determiner )
----------------------------------------
original          : carro
lemma             : carro
POS tag           : NOUN ( noun )
----------------------------------------
original          : na
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
original          : garagem
lemma             : garagem
POS tag           : NOUN ( noun )
----------------------------------------
original          : com
lemma             : com
POS tag           : ADP ( adposition )
----------------------------------------
original          : som
lemma             : som
POS tag           : NOUN ( noun )
----------------------------------------
muito alto encomodando o seu vizinho dos fundo pede providencia
A string contem o seguinte número de tokens:  10

original          : muito
lemma             : muito
POS tag           : ADV ( adverb )
----------------------------------------
original          : alto
lemma             :

POS tag           : VERB ( verb )
----------------------------------------
original          : corocoran
lemma             : corocoran
POS tag           : VERB ( verb )
----------------------------------------
original          : que
lemma             : que
POS tag           : SCONJ ( subordinating conjunction )
----------------------------------------
original          : esta
lemma             : este
POS tag           : PRON ( pronoun )
----------------------------------------
original          : embreagado
lemma             : embreagado
POS tag           : VERB ( verb )
----------------------------------------
original          : praticando
lemma             : praticar
POS tag           : VERB ( verb )
----------------------------------------
desordem no meio da rua e querendo bagucar dentro da casa de sua mae depois da
A string contem o seguinte número de tokens:  16

original          : desordem
lemma             : desordem
POS tag           : VERB ( verb )
------------------------

levou seu celular e ao sair deu um disparo de pra cima
A string contem o seguinte número de tokens:  13

original          : levou
lemma             : levar
POS tag           : VERB ( verb )
----------------------------------------
original          : seu
lemma             : seu
POS tag           : DET ( determiner )
----------------------------------------
original          : celular
lemma             : celular
POS tag           : NOUN ( noun )
----------------------------------------
original          : e
lemma             : e
POS tag           : CCONJ ( coordinating conjunction )
----------------------------------------
original          : a
lemma             : o
POS tag           : ADP ( adposition )
----------------------------------------
original          : o
lemma             : o
POS tag           : DET ( determiner )
----------------------------------------
original          : sair
lemma             : sair
POS tag           : VERB ( verb )
-------------------------------------

original          : concluindo
lemma             : concluir
POS tag           : VERB ( verb )
----------------------------------------
original          : a
lemma             : o
POS tag           : ADP ( adposition )
----------------------------------------
original          : manutencao
lemma             : manutencao
POS tag           : NOUN ( noun )
----------------------------------------
feito verificacao no local contato com a funcionaria e ela nao sentiu falta de
A string contem o seguinte número de tokens:  14

original          : feito
lemma             : fazer
POS tag           : VERB ( verb )
----------------------------------------
original          : verificacao
lemma             : verificacao
POS tag           : VERB ( verb )
----------------------------------------
original          : no
lemma             : o
POS tag           : PRON ( pronoun )
----------------------------------------
original          : local
lemma             : local
POS tag           : NOUN ( noun )


original          : mae
lemma             : mae
POS tag           : NOUN ( noun )
----------------------------------------
original          : do
lemma             : do
POS tag           : ADV ( adverb )
----------------------------------------
original          : inter
lemma             : inter
POS tag           : VERB ( verb )
----------------------------------------
um deles de camisa vermelha e capacete vermelho e o outro de camisa preta
A string contem o seguinte número de tokens:  15

original          : um
lemma             : um
POS tag           : NUM ( numeral )
----------------------------------------
original          : d
lemma             : d
POS tag           : ADP ( adposition )
----------------------------------------
original          : eles
lemma             : ele
POS tag           : PRON ( pronoun )
----------------------------------------
original          : de
lemma             : de
POS tag           : ADP ( adposition )
----------------------------------------
orig

POS tag           : ADP ( adposition )
----------------------------------------
original          : cor
lemma             : cor
POS tag           : NOUN ( noun )
----------------------------------------
original          : azul
lemma             : azul
POS tag           : ADJ ( adjective )
----------------------------------------
original          : bastante
lemma             : bastante
POS tag           : ADV ( adverb )
----------------------------------------
embreagado praticando direcao perigosa
A string contem o seguinte número de tokens:  4

original          : embreagado
lemma             : embreagado
POS tag           : VERB ( verb )
----------------------------------------
original          : praticando
lemma             : praticar
POS tag           : VERB ( verb )
----------------------------------------
original          : direcao
lemma             : direcao
POS tag           : NOUN ( noun )
----------------------------------------
original          : perigosa
lemma         

POS tag           : NOUN ( noun )
----------------------------------------
original          : de
lemma             : de
POS tag           : ADP ( adposition )
----------------------------------------
original          : camisa
lemma             : camisa
POS tag           : NOUN ( noun )
----------------------------------------
original          : azul
lemma             : azul
POS tag           : ADJ ( adjective )
----------------------------------------
claro sairam em direcao a favela de tranquilim
A string contem o seguinte número de tokens:  8

original          : claro
lemma             : claro
POS tag           : ADV ( adverb )
----------------------------------------
original          : sairam
lemma             : sairam
POS tag           : VERB ( verb )
----------------------------------------
original          : em
lemma             : em
POS tag           : ADP ( adposition )
----------------------------------------
original          : direcao
lemma             : direcao
POS ta

----------------------------------------
original          : 12
lemma             : 12
POS tag           : NUM ( numeral )
----------------------------------------
original          : 26
lemma             : 26
POS tag           : NUM ( numeral )
----------------------------------------
original          : 12
lemma             : 12
POS tag           : NUM ( numeral )
----------------------------------------
original          : 22
lemma             : 22
POS tag           : NUM ( numeral )
----------------------------------------
original          : 33
lemma             : 33
POS tag           : NUM ( numeral )
----------------------------------------
original          : 47
lemma             : 47
POS tag           : NUM ( numeral )
----------------------------------------
by kailton roberio lima soares on terminal desp01
A string contem o seguinte número de tokens:  8

original          : by
lemma             : by
POS tag           : VERB ( verb )
----------------------------------------
o

lemma             : integracao
POS tag           : ADJ ( adjective )
----------------------------------------
original          : passando
lemma             : passar
POS tag           : VERB ( verb )
----------------------------------------
original          : do
lemma             : do
POS tag           : ADP ( adposition )
----------------------------------------
original          : bar
lemma             : bar
POS tag           : NOUN ( noun )
----------------------------------------
original          : da
lemma             : da
POS tag           : ADP ( adposition )
----------------------------------------
original          : viuva
lemma             : viuvar
POS tag           : NOUN ( noun )
----------------------------------------
original          : chegando
lemma             : chegar
POS tag           : VERB ( verb )
----------------------------------------
original          : no
lemma             : o
POS tag           : PRON ( pronoun )
----------------------------------------
or

0      None
1      None
2      None
3      None
4      None
5      None
6      None
7      None
8      None
9      None
10     None
11     None
12     None
13     None
14     None
15     None
16     None
17     None
18     None
19     None
20     None
21     None
22     None
23     None
24     None
25     None
26     None
27     None
28     None
29     None
       ... 
353    None
354    None
355    None
356    None
357    None
358    None
359    None
360    None
361    None
362    None
363    None
364    None
365    None
366    None
367    None
368    None
369    None
370    None
371    None
372    None
373    None
374    None
375    None
376    None
377    None
378    None
379    None
380    None
381    None
382    None
Name: COMM_nlp, Length: 383, dtype: object

In [37]:
tbl_evcom2['COMM_nlp'].to_csv("evcom_2012dez23a26-nlp.txt")
