In [1]:
import pandas as pd
import re
import unicodedata
import spacy

nlp = spacy.load('pt')

def limpaTexto(palavra):
    # unicodedata.normalize transforma um caracter em seu equivalente em latin.
    nfkd = unicodedata.normalize('NFKD', palavra)
    palavraSemAcento = u"".join([c for c in nfkd if not unicodedata.combining(c)])

    # Usa expressão regular para retornar a palavra apenas com números, letras e espaço
    # A combinação de funções join(texto).split() serve pra remover espaços múltiplos entre palavras
    # A função lower() transforma a string em minusculas
    palavraSemAcento = ' '.join((re.sub('[^a-zA-Z0-9\\\]', ' ', palavraSemAcento.lower())).split())
    
    return palavraSemAcento


def tokenPosLemma(parsedData):
    print(parsedData)
    print("A string contem o seguinte número de tokens: ", len(parsedData))
    print('')
    # Recebe um documento parseado com Spacy e exibe seus componentes
    # Mais informações em https://spacy.io/api/token#attributes
    for i, token in enumerate(parsedData):
        print("original          :", token.orth_)
        print("lemma             :", token.lemma_)
        print("POS tag           :", token.pos_, '(', spacy.explain(token.pos_), ')')
        print("----------------------------------------")
    
    print("==================================================================")


def detalharToken(parsedData):
    print(parsedData)
    print("A string contem o seguinte número de tokens: ", len(parsedData))
    print('')
    # Recebe um documento parseado com Spacy e exibe seus componentes
    # Mais informações em https://spacy.io/api/token#attributes
    for i, token in enumerate(parsedData):
        print("original          :", token.orth, token.orth_)
        print("lowercased        :", token.lower, token.lower_)
        print("lemma             :", token.lemma, token.lemma_)
        print("shape             :", token.shape, token.shape_)
        print("POS tag           :", token.pos, token.pos_, '(', spacy.explain(token.pos_), ')')
        print("is out of vocab   :", token.is_oov)
        print("Entity type       :", token.ent_type, token.ent_type_, '(', spacy.explain(token.ent_type_), ')')
        print("norm              :", token.norm, token.norm_)

        print("token tag         :", token.tag, token.tag_, '(', spacy.explain(token.tag_), ')')
        print("token dep         :", token.dep, token.dep_, '(', spacy.explain(token.dep_), ')')
        print("token head text   :", token.head.text, token.head)
        print("token head pos    :", token.head.pos, token.head.pos_, '(', spacy.explain(token.head.pos_), ')')
        print("token head dep    :", token.head.dep, token.head.dep_, '(', spacy.explain(token.head.dep_), ')')
        
        print("prefix            :", token.prefix, token.prefix_)
        print("suffix            :", token.suffix, token.suffix_)
        print("log probability   :", token.prob)
        print("Brown cluster id  :", token.cluster)
        print("----------------------------------------")
    
    print("==================================================================")

    
    

print("Ok")

Ok


In [2]:
# importando a tabela EVCOM reduzida utilizando Pandas

tbl_evcom = pd.read_csv('evcom-eid_2012dez.txt', sep='\t', encoding = "utf-8")

# removendo colunas vazias

tbl_evcom = tbl_evcom.dropna(axis='columns')

tbl_evcom.info()
tbl_evcom.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11789 entries, 0 to 11788
Data columns (total 2 columns):
EID     11789 non-null int64
COMM    11789 non-null object
dtypes: int64(1), object(1)
memory usage: 184.3+ KB


Unnamed: 0,EID,COMM
0,3540036,"PÓSTO DE GASOLINA FAM , DA ESTRADA DA RAIZ UMA..."
1,3540036,COM O VIGIA DO POSTO DE GASOLINA
2,3540037,NA LANCHONETE CHEFS BURGER
3,3540037,NO ANTIGO MANMUCHE
4,3540037,CLIENTE CONSUMIU E NAO QUER PAGAR
5,3540038,O MESMO ESTÁ EM HONDA CIVIC PRETO E TEM UM GOL...
6,3540038,MORA NA RUA DO REGIONAL DE SAUDE.
7,3540038,O GOL ESTÁ SEGUIND ELE
8,3540039,"POR TRAS DA ANTIGA VIAÇÃO OESTE, NUMA RESIDENC..."
9,3540039,"ESTAO PROMOVENDO BARULHO NA RUA, ALÉM DE ESTAR..."


In [3]:
tbl_evcom['COMM_nlp'] = tbl_evcom['COMM'].apply(lambda x: nlp(x))
print("ok")

ok


In [4]:
# Exibindo o detalhamento dos tokens

tbl_evcom['COMM_nlp'].apply(lambda x: detalharToken(x))

PÓSTO DE GASOLINA FAM , DA ESTRADA DA RAIZ UMA PESSOA EM UM VEICULO DISCUTINDO
A string contem o seguinte número de tokens:  15

original          : 17897280973305331524 PÓSTO
lowercased        : 10699940397413279279 pósto
lemma             : 17897280973305331524 PÓSTO
shape             : 13862804199789047564 XXXX
POS tag           : 91 NOUN ( noun )
is out of vocab   : True
Entity type       : 0  ( None )
norm              : 10699940397413279279 pósto
token tag         : 11804970445133802148 <np-idf>|N|M|P|@NPHR ( None )
token dep         : 8206900633647566924 ROOT ( None )
token head text   : PÓSTO PÓSTO
token head pos    : 91 NOUN ( noun )
token head dep    : 8206900633647566924 ROOT ( None )
prefix            : 17714545831559622561 P
suffix            : 11885866056272349740 STO
log probability   : -20.0
Brown cluster id  : 0
----------------------------------------
original          : 7237117249260884669 DE
lowercased        : 11144093025662894627 de
lemma             : 72371172492

token tag         : 95 PROPN ( proper noun )
token dep         : 17772752594865228322 flat:name ( None )
token head text   : NAO NAO
token head pos    : 95 PROPN ( proper noun )
token head dep    : 8206900633647566924 ROOT ( None )
prefix            : 17714545831559622561 P
suffix            : 5801922956700358066 GAR
log probability   : -20.0
Brown cluster id  : 0
----------------------------------------
O MESMO ESTÁ EM HONDA CIVIC PRETO E TEM UM GOL BRANCO SEGUNDO O MESMO A VITIMA
A string contem o seguinte número de tokens:  17

original          : 17427324969254097257 O
lowercased        : 1489474827855109852 o
lemma             : 17427324969254097257 O
shape             : 100 X
POS tag           : 89 DET ( determiner )
is out of vocab   : True
Entity type       : 0  ( None )
norm              : 1489474827855109852 o
token tag         : 7116197739833909124 <artd>|ART|M|S|@>N ( None )
token dep         : 412 det ( determiner )
token head text   : MESMO MESMO
token head pos    : 95 PR

prefix            : 3929483993944067416 D
suffix            : 13999379822804992547 DO
log probability   : -20.0
Brown cluster id  : 0
----------------------------------------
original          : 6170968282688120269 SOL
lowercased        : 8338881580749099160 sol
lemma             : 6170968282688120269 SOL
shape             : 3552942401566437853 XXX
POS tag           : 95 PROPN ( proper noun )
is out of vocab   : True
Entity type       : 381 ORG ( Companies, agencies, institutions, etc. )
norm              : 8338881580749099160 sol
token tag         : 95 PROPN ( proper noun )
token dep         : 17772752594865228322 flat:name ( None )
token head text   : DO DO
token head pos    : 95 PROPN ( proper noun )
token head dep    : 8206900633647566924 ROOT ( None )
prefix            : 12290980237632234855 S
suffix            : 6170968282688120269 SOL
log probability   : -20.0
Brown cluster id  : 0
----------------------------------------
original          : 9391737413944127320 E
lowercased     

KeyboardInterrupt: 