<a href="https://colab.research.google.com/github/antonionipo/Data-analysis-for-populism-in-presidential-speeches/blob/main/data_analysis_for_populism_in_presidential_speeches.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data analysis for populism in presidencial speeches

Abstract
What is the most efficient way to ideologically classify a speech? Given the volume of content produced, this dissertation compares two machine learning tools for this purpose. The first is a computational learning model built using RStudio software, while the second is Chat-GPT. The classification object of this project will be official presidential speeches from Brazil (1988-2019), focusing on populism as the ideological aspect. Words characterizing relevant thematic areas will also be analyzed in a more in-depth investigation of the texts to understand the phenomenon of populism. Finally, the efficiency of these two speech classification tools into populist or non-populist will be measured by comparing their results with those obtained by a team of experts. The results obtained will contribute to the methodological debate and aim to provide a tool that facilitates this crucial work for Political Science, being also relevant to society by proposing an analysis of populism among Brazil's executive representatives, a topic of social interest.

Canto (2025)

## Research problem

What is the most efficient way to ideologically classify a speech?


## Data Understanding

Para o desenvolvimento desta pesquisa, foi utilizada a base de dados disponibilizada pelo artigo de Ricci (2021) publicado na Revista Brasileira de Ciências Sociais. Esta base contém uma classificação de discursos presidenciais oficiais brasileiros em populistas ou não populistas sob o critério de contraposição de povo e elite (Hawkins e Kaltwasser, 2017). Nesta base, foi aplicada, inicialmente, a técnica de dicionário para filtrar as potencialmente populistas, com um dicionário feito para indicar frases com palavras referentes ao povo e outro, para a elite. Apenas as que continham palavras de ambos os dicionários foram manualmente classificadas e é essa a amostra que será utilizada nesta análise, podendo ser inteiramente replicada.
É cabível ressaltar que a classificação manual feita por estes autores especialistas é tido como o padrão ouro dentro da análise de texto. Tomando estes dados como corretos, serão aplicadas diferentes técnicas de aprendizado supervisionado e não supervisionado para, observando o desempenho destas, discutir sobre suas aplicações na Ciência Política, assim como em outras áreas de conhecimento. O objetivo central é, desta maneira, a comparação, a contraposição destas diferentes formas de classificação automatizada.
Inicialmente, será feita uma análise do período pós-redemocratização brasileira (1988-2019), de maneira a obter  a pluralidade necessária de discursos, com a comparação e visualização de mudanças ocorridas tanto na frequência quanto na variedade de elementos populistas, formando uma base que contém períodos e elementos populistas e não-populistas.

Canto (2025)

**Desenho metodológico para construção da base de dados**

"Com desenho metodológico misto (mixed methods design), a alternativa que adotamos se divide em quatro etapas. Na primeira, combinamos a mineração de texto (text mining) com a abordagem de dicionário (dictionary-based approach) (Grimmer e Stewart, 2013; Lucas et al., 2015; Wilkerson e Casas, 2017; Welbers et al., 2017).10 Dividimos todos os discursos em sentenças e, a partir de um dicionário pré-definido de palavras, selecionamos as frases com potencial de expressar conteúdo populista. Nas demais etapas, avaliamos qualitativamente se os trechos selecionados de fato caracterizam conteúdo populista, ou seja, se neles o representante expressa o antagonismo entre uma elite má, conspiradora e corrupta, que usurpa o povo bom, puro e comum. Essas quatro etapas são apresentadas a seguir."

Ricci (2021)

## Data Preparation

### Instalação de pacotes

In [None]:
!pip install spacy
!python -m spacy download pt_core_news_sm
!pip install openai==0.28

Collecting pt-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.7.0/pt_core_news_sm-3.7.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m40.6 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


### Importação de bibliotecas

In [None]:
# Bibliotecas gerais
import pandas as pd
import re
import unicodedata
import spacy

# Bibliotecas de tratamento de dados Natural Language Processing
from nltk import word_tokenize, download
from nltk.stem import LancasterStemmer, WordNetLemmatizer
from nltk.corpus import stopwords, wordnet
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer, TfidfVectorizer

# Divisão de amostra
from sklearn.model_selection import train_test_split

# Modelos Machine Learning
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

# Modelos Deep Learning

# Generative AI
import openai

# Métricas
from sklearn.metrics import f1_score, precision_score, recall_score, accuracy_score, classification_report

### Leitura de dados

In [None]:
# Leitura da base
df = pd.read_csv('/content/populismo_final.csv', encoding='latin-1')
df.head()

Unnamed: 0,id,ordem,pres_nick_name,pres_label,date,frases,n.carac,nwords,povo,elite,potencial,mauricio_class,davi_class,paolo_class,discordancia,populismo
0,Sarney-I-1985-04-21-0006,210,José Sarney,Sarney-I,1985-04-21,Deus é testemunha de que eu*lhe entregaria o m...,132,23,0,0,0,0,0.0,0,0.0,0
1,Sarney-I-1985-04-21-0006,211,José Sarney,Sarney-I,1985-04-21,Eterniza-se com ele a legenda do idealismo que...,167,30,0,1,0,0,0.0,0,0.0,0
2,Sarney-I-1985-04-21-0006,212,José Sarney,Sarney-I,1985-04-21,"Ninguém o excedeu no amor do povo, que acompan...",196,34,1,1,1,0,0.0,0,0.0,0
3,Sarney-I-1985-04-21-0006,213,José Sarney,Sarney-I,1985-04-21,"Lágrimas temos todos, das fronteiras escondida...",123,21,0,1,0,0,0.0,0,0.0,0
4,Sarney-I-1985-04-21-0006,214,José Sarney,Sarney-I,1985-04-21,"Aqui estou, meus compatriotas, sob o peso de u...",84,16,0,0,0,0,0.0,0,0.0,0


### Preparação do DataFrame

In [None]:
# Cópia do dataframe
populista = df.copy()

### Tratamento de dados

#### Retirar colunas irrelevantes

In [None]:
populista.drop(['id', 'ordem', 'pres_nick_name', 'n.carac', 'nwords', 'povo', 'elite', 'mauricio_class', 'davi_class', 'paolo_class'], axis=1, inplace=True)
populista.head()

Unnamed: 0,pres_label,date,frases,potencial,discordancia,populismo
0,Sarney-I,1985-04-21,Deus é testemunha de que eu*lhe entregaria o m...,0,0.0,0
1,Sarney-I,1985-04-21,Eterniza-se com ele a legenda do idealismo que...,0,0.0,0
2,Sarney-I,1985-04-21,"Ninguém o excedeu no amor do povo, que acompan...",1,0.0,0
3,Sarney-I,1985-04-21,"Lágrimas temos todos, das fronteiras escondida...",0,0.0,0
4,Sarney-I,1985-04-21,"Aqui estou, meus compatriotas, sob o peso de u...",0,0.0,0


#### Formatação de dados

In [None]:
# Convert the 'date' column to datetime objects
populista['date'] = pd.to_datetime(populista['date'], format='%Y-%m-%d')

# Convert the 'potencial', 'discordancia', and 'populismo' to Boolean
populista['potencial'] = populista['potencial'].astype(bool)
populista['discordancia'] = (populista['discordancia']).astype(bool)
populista['populismo'] = (populista['populismo']).astype(bool)

# Convert 'frases' and 'pres_label' to string
populista['frases'] = populista['frases'].astype(str)
populista['pres_label'] = populista['pres_label'].astype(str)

# Display info to verify the change
populista.info()
populista.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 481198 entries, 0 to 481197
Data columns (total 6 columns):
 #   Column        Non-Null Count   Dtype         
---  ------        --------------   -----         
 0   pres_label    481198 non-null  object        
 1   date          481198 non-null  datetime64[ns]
 2   frases        481198 non-null  object        
 3   potencial     481198 non-null  bool          
 4   discordancia  481198 non-null  bool          
 5   populismo     481198 non-null  bool          
dtypes: bool(3), datetime64[ns](1), object(2)
memory usage: 12.4+ MB


Unnamed: 0,pres_label,date,frases,potencial,discordancia,populismo
0,Sarney-I,1985-04-21,Deus é testemunha de que eu*lhe entregaria o m...,False,False,False
1,Sarney-I,1985-04-21,Eterniza-se com ele a legenda do idealismo que...,False,False,False
2,Sarney-I,1985-04-21,"Ninguém o excedeu no amor do povo, que acompan...",True,False,False
3,Sarney-I,1985-04-21,"Lágrimas temos todos, das fronteiras escondida...",False,False,False
4,Sarney-I,1985-04-21,"Aqui estou, meus compatriotas, sob o peso de u...",False,False,False


#### Tratamento de dados nulos

In [None]:
populista.isnull().sum()

Unnamed: 0,0
pres_label,0
date,0
frases,0
potencial,0
discordancia,0
populismo,0


#### Filtro de casos potenciais

In [None]:
populista = populista.loc[populista['potencial'] == True]
populista.drop(columns=['potencial'], inplace=True)
populista.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  populista.drop(columns=['potencial'], inplace=True)


Unnamed: 0,pres_label,date,frases,discordancia,populismo
2,Sarney-I,1985-04-21,"Ninguém o excedeu no amor do povo, que acompan...",False,False
135,Sarney-I,1985-05-02,"Aqui estão educadores, estudantes, cientistas,...",False,False
446,Sarney-I,1985-05-18,"Na manhã de 15 de janeiro, há tão poucos e den...",False,False
469,Sarney-I,1985-05-18,"Antes, estávamos juntos para, em nome do povo,...",False,False
513,Sarney-I,1985-05-24,"O Nordeste é, sobretudo, um estado de espírito.",False,False


#### Retirada da coluna discordância

A variável será usada para posterior análise comparativa

In [None]:
# Retirado e separado para posterior análise
y1 = populista['discordancia']
populista.drop(columns=['discordancia'], inplace=True)
populista.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  populista.drop(columns=['discordancia'], inplace=True)


Unnamed: 0,pres_label,date,frases,populismo
2,Sarney-I,1985-04-21,"Ninguém o excedeu no amor do povo, que acompan...",False
135,Sarney-I,1985-05-02,"Aqui estão educadores, estudantes, cientistas,...",False
446,Sarney-I,1985-05-18,"Na manhã de 15 de janeiro, há tão poucos e den...",False
469,Sarney-I,1985-05-18,"Antes, estávamos juntos para, em nome do povo,...",False
513,Sarney-I,1985-05-24,"O Nordeste é, sobretudo, um estado de espírito.",False


## Modelling

### Pré processamento

#### Padronziar formato das letras

In [None]:
populista['frases'] = populista['frases'].str.lower().tolist()
populista.head()

Unnamed: 0,pres_label,date,frases,populismo
2,Sarney-I,1985-04-21,"ninguém o excedeu no amor do povo, que acompan...",False
135,Sarney-I,1985-05-02,"aqui estão educadores, estudantes, cientistas,...",False
446,Sarney-I,1985-05-18,"na manhã de 15 de janeiro, há tão poucos e den...",False
469,Sarney-I,1985-05-18,"antes, estávamos juntos para, em nome do povo,...",False
513,Sarney-I,1985-05-24,"o nordeste é, sobretudo, um estado de espírito.",False


In [None]:
download('stopwords')
download('punkt_tab')
download('wordnet')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

#### Lematização e Stematização

Definindo stop words, e caracteres especiais

In [None]:
nlp = spacy.load("pt_core_news_sm")

stop_words_ptbr = stopwords.words('portuguese')

def remove_accents(text):
    """
    Remove acentos, til e cedilha do texto.
    """
    text = unicodedata.normalize('NFD', text)
    text = re.sub(r'[\u0300-\u036f]', '', text)  # Remove diacríticos (acentos, til)
    text = text.replace('ç', 'c').replace('Ç', 'C')  # Substitui cedilha
    return text


Lematização e Stematização, remoção de stop words, de caracteres especiais, e vetorização-tokenização

In [None]:
class LemmaTokenizer:
    def __init__(self, stop_words=None):
        self.stop = stop_words if stop_words else []

    def __call__(self, doc):
        """
        Tokeniza e lematiza um documento de texto.
        """
        doc = remove_accents(doc.lower())  # Remove acentos e normaliza para minúsculas
        tokens = nlp(doc)  # Processa com Spacy
        return [token.lemma_ for token in tokens if token.is_alpha and token.text not in self.stop]


Aplicação da tokenização e lematização

In [None]:
lem = LemmaTokenizer(stop_words=stop_words_ptbr)
vectorizer = CountVectorizer(tokenizer=lem)

In [None]:
# Mantendo a coluna original "frases" e criando uma nova coluna para a tokenização
populista['tokenized_frases'] = populista['frases'].apply(lambda x: lem(x))

# Visualizando para verificar
print(populista[['tokenized_frases']].head(20))

                                       tokenized_frases
2     [ninguar, exceder, amor, povo, acompanhar, lon...
135   [aqui, estao, educador, estudante, cientista, ...
446   [manha, janeiro, ha, tao, pouco, denso, mês, d...
469   [antes, estava, junto, nome, povo, conquistar,...
513             [nordeste, sobretudo, estado, espirito]
663   [grande, alegria, imenso, prazer, receber, tod...
712   [visao, espiritual, porque, verifiqueir, em aq...
742   [futuro, mundo, nao, sera, marcar, rico, pobre...
783   [achar, mundo, futuro, nao, sera, balizar, ric...
834   [poder, ter, correr, regiao, rico, todo, mundo...
838   [em este, instante, dever, seguir, exemplo, ag...
853   [ontem, reuniao, so, ouvia, falar, simon, nao,...
896   [dizer, tambem, ir, repetir, aqui, rio, sao, F...
952   [canal, complementar, privilegiar, porque, col...
1419  [nao, poder, homem, publico, ter, hoje, outro,...
1423  [ir, comecar, alia, ja, comecar, realidade, de...
1495  [lembrar, promessa, rejeitar, compromisso,

### Modelos

In [None]:
populista.head()

Unnamed: 0,pres_label,date,frases,populismo,tokenized_frases
2,Sarney-I,1985-04-21,"ninguém o excedeu no amor do povo, que acompan...",False,"[ninguar, exceder, amor, povo, acompanhar, lon..."
135,Sarney-I,1985-05-02,"aqui estão educadores, estudantes, cientistas,...",False,"[aqui, estao, educador, estudante, cientista, ..."
446,Sarney-I,1985-05-18,"na manhã de 15 de janeiro, há tão poucos e den...",False,"[manha, janeiro, ha, tao, pouco, denso, mês, d..."
469,Sarney-I,1985-05-18,"antes, estávamos juntos para, em nome do povo,...",False,"[antes, estava, junto, nome, povo, conquistar,..."
513,Sarney-I,1985-05-24,"o nordeste é, sobretudo, um estado de espírito.",False,"[nordeste, sobretudo, estado, espirito]"


In [None]:
X = populista['tokenized_frases']
y = populista['populismo']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Vetorização de dados

In [None]:
vector_train =  [' '.join(text) for text in X_train]
vector_test =  [' '.join(text) for text in X_test]

Vetorização estatística TF-IDF de dados

In [None]:
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(vector_train)
X_test_tfidf = vectorizer.transform(vector_test)

#### Modelos de Machine Learning

Modelos Random Forest (Ensemble), Naive Bayes (Estatístico), e Suport Vector Machine (Natural Language Processing)

In [None]:
# Criação de objeto dos modelos
random_forest = RandomForestClassifier(random_state=42)  # Ensemble
naive_bayes = MultinomialNB() # Estatístico
svm = SVC(random_state=42) # NLP

# Treinar os modelos
random_forest.fit(X_train_tfidf, y_train)
naive_bayes.fit(X_train_tfidf, y_train)
svm.fit(X_train_tfidf, y_train)

#### Modelos de Deep Learning

Modelos Convolutional Neural Networks (Ensemble), Bayesian Neural Networks (BNN), Long Short-Term Memory (NLP)

#### Classificações com Generative AI

Modelos Chat GPT