In [30]:
import pandas as pd
import numpy as np
import altair as alt

In [31]:
from sklearn.feature_extraction.text import CountVectorizer
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

import re
from time import time

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\carlo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [32]:
df_relatos= pd.read_csv('C:\\Users\\manut\\Downloads\\base_tratada(2019-2023).csv')


In [None]:
total_palavras = df_relatos['relato'].apply(lambda x: len(x.split())).sum()

print(f'Total de palavras no DataFrame: {total_palavras}')

In [4]:
df_relatos.shape

(47607, 21)

In [5]:
relatos=df_relatos[['relato']]

In [33]:
relatos['relato']

0        nacional marisangela ferreira pacheco uipp - t...
1        relatora qualificada , seccional urbana políci...
2        , especializada denunciar irmão ailton silva f...
3        relator qualificado , qualidade policial milit...
4        relatora qualificada epígrafe seccional comuni...
                               ...                        
47602    relatora qualificada comparece seccional polic...
47603    casada natanael dantas rocha junior , nascido ...
47604    relatora seccional policia civil sao bras comu...
47605    relatora qualificada comparece seccional polic...
47606    relatora qualificada comparece especializada c...
Name: relato, Length: 47607, dtype: object

In [34]:
stop_words = set(stopwords.words("portuguese"))
stop_words.update(['fica', 'fim', 'ato', 'desde', 'pois', 'abadessa',
                   'abaetetuba', 'abaetetuba abaetetuba', 'abaetetuba contatos',
                   'abaixa', 'abaixada', 'abaixado', 'abaixar','abaixar som', 'abaixar volume',
                   'abaixasse', 'abaixasse som', 'abaixo', 'abaixo assinado','abaixo elencadas', 
                   'abaixo informacoes', 'abaixo olho','abaixo proibicao', 'abaixo proibição', 
                   'abaixou', 'abaixou pegar','abaixou vidro',])

stop_words = list(stop_words)


relatos_limpos = []
for w in range(len(relatos)):
  Relato = relatos['relato'].iloc[w]

  Relato  = re.sub("(\\d|\\W)+|\w*\d\w*"," ",Relato )
  Relato = ' '.join(s for s in Relato.split() if (not any(c.isdigit() for c in s)) and len(s) > 2)
  relatos_limpos.append(Relato)


relatos_limpos[0:5]

['nacional marisangela ferreira pacheco uipp terra firme comunicar citados trabalhando esposa funcinário trabalhar chamada nezia chaves gomes fazendo escândalo frente loja relatora trabalha mulher dizia vou pegar cortar toda cara desa puta vou deixar arreada chão furar todinha textuais vítima diz tempo nezia espalha relatora caso marido levy baia relatora trabalha sente constrangida fofocas ameaças tempo pede levy convencer esposa dois relação rapaz faz nada fica calado sabe suspeita reside marambaia passagem simão jatene número água cristal trabalha passagem francisco xavier final jabatiteua padaria fica esquina próximo vileta',
 'relatora qualificada seccional urbana polícia declarar enquanto visitava tia nacional geraldina brito sales hospital saúde mulher localizada humaita marco agredida fisicamente tapas arranhões puxões socos região rosto tórax membros superiores nacional simone carla sales duarte prima contenda começou devido problemas familiares relatora revidou procurou afast

* Processo de vetorização

In [35]:
tf_vectorizer = CountVectorizer(
    min_df=5,           # Considera palavras que aparecem em pelo menos 5 documentos
    max_df=0.5,          # Exclui termos que aparecem em mais de 50% dos documentos
    max_features=100000,  # Limita o número de termos no vocabulário aos 100.000 mais frequentes
    stop_words=stop_words, # Remove palavras comuns que não são úteis
    ngram_range=(1, 2)   # Considera uni-gramas (termos únicos) e bi-gramas (pares de termos)
)

#Transformação
vec_text = tf_vectorizer.fit_transform(relatos_limpos)

#Retorna a lista de palavras
words = tf_vectorizer.get_feature_names_out()

print(vec_text.shape)
print(len(words))



(47607, 100000)
100000


In [36]:
words[0:20]

array(['abala', 'abalada', 'abalada chorando', 'abalada declarante',
       'abalada devido', 'abalada emocionalmente', 'abalada medo',
       'abalada psicologicamente', 'abalada situacao', 'abalada teme',
       'abaladas', 'abalado', 'abalado psicologico', 'abalados',
       'abalando', 'abalando psicologico', 'abalar', 'abalda', 'abalo',
       'abalo emocional'], dtype=object)

* Encontrar os tópicos

In [37]:
from sklearn.decomposition import LatentDirichletAllocation

In [47]:
def print_top_words(model, feature_names, n_top_words):
  for topic_idx, topic in enumerate(model.components_):
    print("\n--\nTopic #{}: ".format(topic_idx + 1))
    message = ", ".join([feature_names[i]
                          for i in topic.argsort()[:-n_top_words - 1:-1]])
    print(message)
  print()

def display_topics(W, H, feature_names, relatos, no_top_words, no_top_documents):
    for topic_idx, topic in enumerate(H):
        print("\n--\nTopic #{}: ".format(topic_idx + 1))
        print(", ".join([feature_names[i]
                for i in topic.argsort()[:-no_top_words - 1:-1]]).upper())
        top_d_idx = np.argsort(W[:,topic_idx])[::-1][0:no_top_documents]
        for d in top_d_idx:
            print('Relato índice {} : \t{:.2f}'.format(d, W[d, topic_idx]))

In [40]:
lda = LatentDirichletAllocation(n_components=20, 
                                learning_method='batch', # 'online' equivale a minibatch no k-means
                                random_state=0)

t0 = time()

lda.fit(vec_text)
doc_topic_matrix = lda.transform(vec_text)

print("done in %0.3fs." % (time() - t0))

done in 673.965s.


* Palavras mais associadas com cada tópico

In [43]:
print("\nTopics in LDA model:")
tf_feature_names = tf_vectorizer.get_feature_names_out()
print_top_words(lda, tf_feature_names, 20)


Topics in LDA model:

--
Topic #1: 
vitima, local, policial, militar, jurunas, silva, vtr, ciop, santos, bairro, fato, acusado, via, havia, guarnicao, relator, sido, policia, sgt, rua

--
Topic #2: 
nacional, seccional, icoaraci, urbana, seccional urbana, local, fato, companheiro, silva, carlos, comunicar, bairro, qualificada, sacramenta, rua, qualificada seccional, marambaia, passagem, momento, relatante

--
Topic #3: 
medidas, protetivas, medidas protetivas, companheiro, deseja, relacionamento, filhos, filho, criminalmente, comunicante, contra, cpf, especializada, abrigo, silva, vai, representar, bairro, meses, nascido

--
Topic #4: 
vou, textuais, filha, nacional, vai, residencia, ameaca, rua, mae, ameacas, comunicar, bairro, seguintes, maria, vem, irmao, palavras, vitima, sra, silva

--
Topic #5: 
ofendida, proibicao, ofendida familiares, familiares, familiares testemunhas, testemunhas, contato, agressor, contato ofendida, limite, qualquer, frequentar, preservar, preservar integri

* Documentos mais associados a cada topico

In [46]:
display_topics(doc_topic_matrix, lda.components_, tf_feature_names, relatos, 15, 10)



--
Topic #1: 
VITIMA, LOCAL, POLICIAL, MILITAR, JURUNAS, SILVA, VTR, CIOP, SANTOS, BAIRRO, FATO, ACUSADO, VIA, HAVIA, GUARNICAO
Relato índice 46236 : 	0.99
Relato índice 20186 : 	0.99
Relato índice 45953 : 	0.99
Relato índice 45954 : 	0.99
Relato índice 37598 : 	0.99
Relato índice 37033 : 	0.99
Relato índice 35298 : 	0.99
Relato índice 46848 : 	0.99
Relato índice 41540 : 	0.99
Relato índice 40374 : 	0.99

--
Topic #2: 
NACIONAL, SECCIONAL, ICOARACI, URBANA, SECCIONAL URBANA, LOCAL, FATO, COMPANHEIRO, SILVA, CARLOS, COMUNICAR, BAIRRO, QUALIFICADA, SACRAMENTA, RUA
Relato índice 24085 : 	0.99
Relato índice 12875 : 	0.94
Relato índice 19521 : 	0.91
Relato índice 37192 : 	0.91
Relato índice 20995 : 	0.90
Relato índice 29567 : 	0.90
Relato índice 40004 : 	0.88
Relato índice 33894 : 	0.87
Relato índice 33935 : 	0.87
Relato índice 13788 : 	0.87

--
Topic #3: 
MEDIDAS, PROTETIVAS, MEDIDAS PROTETIVAS, COMPANHEIRO, DESEJA, RELACIONAMENTO, FILHOS, FILHO, CRIMINALMENTE, COMUNICANTE, CONTRA, CPF, E

In [42]:
print('Matriz documento-tópicos:' + str(doc_topic_matrix.shape))
print('Matriz tópicos-termos:' + str(lda.components_.shape))

Matriz documento-tópicos:(47607, 20)
Matriz tópicos-termos:(20, 100000)


In [58]:
main_topic = []
mt_prob = []
for l in range(len(relatos['relato'])):
  main_topic.append(doc_topic_matrix[l, :].argmax() + 1)
  mt_prob.append(doc_topic_matrix[l, :].max())

relatos = relatos.assign(main_topic=main_topic, main_topic_prob=mt_prob)


In [61]:
topico = 2
pd.options.display.max_colwidth = 300
relatos[relatos['main_topic'] == topico].sort_values('main_topic_prob', ascending = False)[['main_topic_prob','relato']].head(20).sample(10)

Unnamed: 0,main_topic_prob,relato
31536,0.849471,"//////////////////// relatora seccional urbana icoaraci presente , comunicar vitima agressoes fisicas parte nacional sueli , rua chico mendes , n° 36 ( fundos ) bairro paracuri ii-icoaraci ; declina motivo agressoes pede devidas providencias . registre-se////////////////// & & &"
40004,0.880122,"gm celio silva apresenta nacional eduardo jose malave silva , ameacou nacional delma julia torres guedes sampaio luis carlos pinho monte ; , fato interior camar-ii , eduardo venezuelano estaacolhido espaco , local ameacados trabalham . registra-se legais.////////////"
6168,0.811794,"declarante qualificada trabalha artesã 08:30hs encontrava-se encontrava-se companhia esposo sr. haroldo sebastião silva , ambos residentes rua vitor hugo , casa , _____ , invasão grão pará , bairro ariramba , ilha mosqueiro , lá chegou filho fabricio josé maciel silva , nº 6423529 brasileiro , p..."
4081,0.836619,"relatora seccional urbana icoaraci , local mencionado comunicar ameaçada leticia talita souza cantão reside rua padre julio maria 1407 , berredos souza franco , motivo ex marido sandro juliano mendes oliveira filho letícia agora descobriu juliano voltou relatora letícia 12/08/2019 12:00 mandou r..."
24085,0.987662,"relatora seccional comunicar , local supracitados filho , maycon roberto batista oliveira , 36 , rua heroes montese , nº 745 , bairro marambaia , chegou alcoolizado casa , iniciou discussao esposa , neste momento neto relator , julio cesar reis oliveira , 16 , agredido fisicamente socos maycon ,..."
20995,0.903261,"seccional icoaraci relatar agredida fisica mente caminhava via publica nacional pre elizabeth conhecida beth esperando local proximidades conjunto citado , beth faca , declarante conseguiu puxar faca maoes , agredida beth rosto , caindo chao puxou cabelo declarante , motivado beth declarante and..."
28473,0.847871,declarante identificada seccional urbana marambaia comunicar agredida socos ameacada nacional prenome “ angela ” atual companheira pai filhos . relatante casa ex-companheiro deixar filhos menores cuidado pai enquanto iria realizar algumas compras fato desagradou “ angela ” iniciou desentendiment...
13788,0.873577,"/// relatora qualificada seccional urbana icoaraci , comunicar supracitados surpreendida nacionais telma amador , diene amador , delma amador alexandra , parentes esposo declarante , passaram ameaçar relatora morte , seguida partiram vias fato contra relatora , telma amador ofendeu partiu vias f..."
19521,0.911124,"¿////////////////////////// nacional qualificada seccional supracitados comunicar vitima agressoes fisicas desferidas ex companheiro luiz pereira cruz 54 ( cinquenta quatro ) rua andradas 8 maio n° 11 ( vila kitnets ) , relata nacional alem agressoes fisicas agrediu palavras & fato & via publica..."
2576,0.811429,"relatora vem seccional juntamente companheiro bruno santos freitas , ambus vem ameaçados nacional enelyanne regina brito costa , reside marques herval nº 2526 alferes costa dr freitas , pois aceita fim relacionamento bruno motivo ciume tentou agredir relatora botando risco gravides relatora regi..."
