In [2]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Recuperação dos discursos

In [3]:
df = pd.read_csv("discursos/discursos_PSL.csv")

In [4]:
lista_discursos = df["transcricao"].to_list()

# Pre-processing

Sabe-se que O começo do discurso é feito com:

O SR(A).NOME SOBRENOME(SIGLA-UF. Sem revisão do orador) - Começo do discurso

Sabe-se portanto retirar este começo, utilizando-se do fato de haver

In [5]:
import re

In [6]:
#Troca dos \r\n que vieram por padrão nos discursos por \n padrão do python, para qeu os próximos scripts funcionem melhor
lista_discursos_2 = [discurso.replace("\r\n", "\n") for discurso in lista_discursos]

In [7]:
lista_discursos_2 = [re.sub(r"\b[A-Z]+(?:\s+[A-ZÁÀÂÃÉÈÊÍÏÓÔÕÖÚÇÑ'.]+)*\s\([\s\w\-\.]+\)\s\-\s|\b[A-Z]+(?:\s+[A-ZÁÀÂÃÉÈÊÍÏÓÔÕÖÚÇÑ'.]+)*\s\([\w\s]+\.\s\w+\s\-\s\w+\)\s\-\s", "", discurso) for discurso in lista_discursos_2]

In [8]:
lista_discursos_2

['Boa tarde, Sr. Presidente, Sras. e Srs. Parlamentares.\nHoje quero registrar neste Plenário a importância das novas regras de portabilidade dos planos de saúde, que entraram em vigor na segunda-feira e foram determinadas pela Agência Nacional de Saúde Suplementar - ANS para os beneficiários de planos coletivos empresariais. \nAs novas regras contemplam todos os usuários de planos de saúde. Entretanto, vão beneficiar principalmente quem perdeu o plano empresarial por ter sido demitido ou aposentado ou quem precisa reduzir o valor das mensalidades. \nComo médica, conheço bem as dificuldades dos pacientes que tiveram que sair da cobertura de planos de saúde por terem sido demitidos ou aposentados e, de uma hora para outra, não podem dar continuidade ao tratamento com o médico específico que os acompanhava e, assim, passam a depender do Sistema Único de Saúde. \nCom as novas regras, os beneficiários de planos empresariais coletivos poderão mudar de plano ou de operadora sem cumprirem car

In [9]:
#Troca de Sr. Sra. Srs. Sras. por senhor
lista_discursos_2 = [re.sub(r"\b[Ss]r[as]*\.", "senhor", discurso) for discurso in lista_discursos_2]

In [10]:
lista_discursos_2 = [re.sub(r"\d+(?:[.,]\d+)*", "", discurso) for discurso in lista_discursos_2]

# Lemmatization

In [11]:
import spacy

In [12]:
def lemmatization(texts, nlp, allowed_postags=["NOUN", "ADJ", "VERB", "ADV"]):
    texts_out = []
    for sent in texts:
        doc = nlp(sent)
        texts_out.append(" ".join([token.lemma_ if token.lemma_ not in ["-PRON-"] else "" for token in doc if token.pos_ in allowed_postags]))
    return texts_out
# Ideia possível, o token possui um campo head, se a head da palavra for Presidente e a palavra for Jair e/ou Bolsonaro, deve-se manter a palavra no texto e não descartá-la como está acontecendo com outras palavras

In [13]:
nlp = spacy.load("pt_core_news_lg")

In [14]:
data_lemmatized = lemmatization(lista_discursos_2, nlp, allowed_postags=["NOUN", "ADJ", "ADV", "VERB", "PUNCT"])

In [15]:
data_lemmatized

['Boa tarde , senhor presidente , senhor senhor . hoje querer registrar plenário importância novo regra portabilidade plano saúde , entrar vigor segunda-feira determinar - beneficiário plano coletivo empresarial . novo regra contemplar usuário plano saúde . entretanto , beneficiar principalmente perder plano empresarial demitir aposentado precisar reduzir valor mensalidade . médica , conhecer bem dificuldade paciente sair cobertura plano saúde demitir aposentado , hora , não poder dar continuidade tratamento médico específico acompanhar , assim , passar depender . novo regra , beneficiário plano empresarial coletivo poder mudar plano operadora cumprir carência . principal mudança , plano empresarial representar usuário sistema País item reclamação PROCONs estadual brasileiro . além , novo regra portabilidade poder estimular competitividade empresa , melhorar valor qualidade serviço usuário . só , mais capixaba não ter mais cumprir carência mudar plano saúde . benefício ! senhor preside

In [16]:
lista_discursos_2 = data_lemmatized

In [17]:
del data_lemmatized

# Remoção das stop_words

In [18]:
from nltk.corpus import stopwords

In [19]:
stop_words = set(stopwords.words("portuguese"))

In [20]:
for i, discurso in enumerate(lista_discursos_2):
    discurso_split = discurso.split()
    discurso_novo = []
    for palavra in discurso_split:
        if palavra not in stop_words:
            discurso_novo.append(palavra)

    discurso_novo = " ".join(discurso_novo)
    
    lista_discursos_2[i] = discurso_novo

# Tokenização

In [21]:
import nltk

In [22]:
lista_discursos_2 = [discurso.lower() for discurso in lista_discursos_2]
lista_discursos_2 = [nltk.word_tokenize(texto) for texto in lista_discursos_2]

In [23]:
lista_discursos_2

[['boa',
  'tarde',
  ',',
  'senhor',
  'presidente',
  ',',
  'senhor',
  'senhor',
  '.',
  'hoje',
  'querer',
  'registrar',
  'plenário',
  'importância',
  'novo',
  'regra',
  'portabilidade',
  'plano',
  'saúde',
  ',',
  'entrar',
  'vigor',
  'segunda-feira',
  'determinar',
  '-',
  'beneficiário',
  'plano',
  'coletivo',
  'empresarial',
  '.',
  'novo',
  'regra',
  'contemplar',
  'usuário',
  'plano',
  'saúde',
  '.',
  'entretanto',
  ',',
  'beneficiar',
  'principalmente',
  'perder',
  'plano',
  'empresarial',
  'demitir',
  'aposentado',
  'precisar',
  'reduzir',
  'valor',
  'mensalidade',
  '.',
  'médica',
  ',',
  'conhecer',
  'bem',
  'dificuldade',
  'paciente',
  'sair',
  'cobertura',
  'plano',
  'saúde',
  'demitir',
  'aposentado',
  ',',
  'hora',
  ',',
  'poder',
  'dar',
  'continuidade',
  'tratamento',
  'médico',
  'específico',
  'acompanhar',
  ',',
  'assim',
  ',',
  'passar',
  'depender',
  '.',
  'novo',
  'regra',
  ',',
  'beneficiá

# Remoção das pontuações

In [24]:
import string

In [25]:
for i, discurso in enumerate(lista_discursos_2):
    discurso_novo = []
    for token in discurso:
        if ((token not in string.punctuation)):
            discurso_novo.append(token)
    lista_discursos_2[i] = discurso_novo

In [26]:
lista_discursos_2 = [" ".join(discurso) for discurso in lista_discursos_2]

## Correção de alguns bugs gerados pela Lemmatização do Spacy

In [27]:
data_lemmatized = [discurso.replace("morer","moro") for discurso in lista_discursos_2]

# Vetorização

In [28]:
import sklearn.feature_extraction.text as sklearntext

In [29]:
vectorizer = sklearntext.CountVectorizer(analyzer="word", stop_words=None, lowercase=True)
data_vectorized = vectorizer.fit_transform(data_lemmatized)

# Extração de tópicos

In [30]:
from sklearn.decomposition import LatentDirichletAllocation, TruncatedSVD
import numpy as np

In [31]:
lda_model = LatentDirichletAllocation(learning_method="online", random_state=100, batch_size=128, evaluate_every = -1, n_jobs= -1, n_components=30)
lda_output = lda_model.fit_transform(data_vectorized)

In [32]:
topicnames = ["Topic"+ str(i) for i in range(lda_model.n_components)]
docnames = ["Doc" + str(i) for i in range(len(lista_discursos))]

df_document_topic = pd.DataFrame(np.round(lda_output, 2), columns=topicnames, index=docnames)
dominant_topic = np.argmax(df_document_topic.values, axis=1)
df_document_topic["dominant_topic"] = dominant_topic

In [33]:
#Topic-Keyword Matrix
df_topic_keywords = pd.DataFrame(lda_model.components_)

df_topic_keywords.columns= vectorizer.get_feature_names_out()
df_topic_keywords.index = topicnames

In [34]:
def show_topics(vectorizer=vectorizer, lda_model=lda_model, n_words=20):
    keywords = np.array(vectorizer.get_feature_names_out())
    topic_keywords = []
    for topic_weights in lda_model.components_:
        top_keyword_locs = (-topic_weights).argsort()[:n_words]
        topic_keywords.append(keywords.take(top_keyword_locs))
    return topic_keywords

topic_keywords = show_topics(vectorizer=vectorizer, lda_model=lda_model, n_words=15)

# Topic-Keywords Dataframe
df_topic_keywords = pd.DataFrame(topic_keywords)
df_topic_keywords.columns = ['Word ' + str(i) for i in range(df_topic_keywords.shape[1])]
df_topic_keywords.index = ['Topic '+str(i) for i in range(df_topic_keywords.shape[0])]
df_topic_keywords

Unnamed: 0,Word 0,Word 1,Word 2,Word 3,Word 4,Word 5,Word 6,Word 7,Word 8,Word 9,Word 10,Word 11,Word 12,Word 13,Word 14
Topic 0,ter,senhor,presidente,fazer,aqui,falar,querer,brasileiro,previdência,poder,ano,hoje,dizer,saber,povo
Topic 1,presidente,fazer,aqui,senhor,poder,ter,criança,querer,obrigado,hoje,falar,família,droga,pai,grande
Topic 2,policial,senhor,bandido,presidente,ter,registrar,aqui,carvão,fazer,segurança,defender,país,obrigado,bem,presença
Topic 3,educação,presidente,senhor,saúde,aqui,ter,dinheiro,fazer,votar,militar,investimento,real,sim,querer,dizer
Topic 4,senhor,presidente,cidade,tapete,região,festa,ir,querer,dia,tema,localizar,quilômetro,conhecer,tarde,população
Topic 5,estado,presidente,judeu,país,senhor,ministro,ter,história,poder,fazer,forte,povo,pessoa,corrupção,próximo
Topic 6,fazer,aqui,presidente,ter,senhor,querer,tortura,estado,sim,poder,precisar,hoje,policial,país,obrigado
Topic 7,energia,região,apoio,comunidade,recurso,municípios,atender,querer,município,chegar,crescer,resolver,problema,povo,órgão
Topic 8,reforma,querer,saber,senhor,público,pessoa,dar,pagar,nível,inclusive,segurança,existir,hoje,preciso,conseguir
Topic 9,pobreza,categoria,defender,coluna,vester,instaurar,justa,cofr,contradição,revelar,central,representação,disputa,mensaleiro,santo
