# Análise de Notas Parlamentares: Avaliando a Convergência de Indicadores Legislativos através de Regressão Linear

# Modelos de Machine Learning


## 1.0 Introdução

A análise de ML abaixo foi realizada utilizando a base de dados que foi obtida via WebScraping atraveś dos sites: https://www.legislabrasil.org/ e no https://www.politicos.org.br/, utilizando os notebooks Rank_pol_V3.ipynb e Ranking_pol_site2.ipynb. Com aplicação das bibliotecas Selenium e BeautifulSoup.

Esses dois sites classificam dando notas aos deputados federais em atividade no Brasil, a análise foi feita para o ano de 2022. Cada site tem suas metricas para a nota. 
<br>
<br>
A nota final do primeiro site (**Legisla Brasil**) é uma média de 17 notas que são divididas em 4 grupos:
   1. PRODUÇÃO LEGISLATIVA: Mede o trabalho efetuado pelo parlamentar na elaboração, análise e votação de instrumentos legislativos.
   2. FISCALIZAÇÃO: Mede a fiscalização que o deputado concretiza em relação ao Executivo Federal
   3. MOBILIZAÇÃO: Mede a capacidade do parlamentar de articulação e cooperação com outros agentes políticos
   4. ALINHAMENTO PARTIDÁRIO: Alinhamento partidário do parlamentar em relação à votação da maioria do seu partido. <br>

Cada grupo é uma média de alguns indicadores: <br> 
**Produção Legislativa** <br>
1. Apresentação de projetos: Categoria básica para a análise da atividade legislativa. Se contabiliza o número de projetos - independente se autoria própria ou co-autoria - apresentados pelo parlamentar.
2. Protagonismo de autoria: Diferentemente da primeira, esse indicador isola os projetos encabeçados pelos parlamentares, avaliando o protagonismo do autor frente às matérias apresentadas por este.
3. Relevância das autorias: A partir da criação de categorias, alta e média relevância, os projetos são divididos a partir do impacto social que apresentam. Os projetos de alto impacto afetam diretamente políticas materiais, como a Reforma da Previdência; enquanto os de médio impacto estão mais relacionados às questões subjetivas como nomeação de estradas e condecorações, por exemplo.
4. Nº de votos em separado apresentados: O regimento parlamentar apresenta diversas ferramentas para a apresentação de discordâncias e mudanças no resultado. A apresentação de votação em separado permite ao parlamentar apresentar um ponto de vista diferente ao consenso gerado pelo Colegiado.
5. Nº de substitutivos apresentados: Outra ferramenta disponível é a apresentação de substitutivos. Esse mecanismo permite ao apresentar e disputar uma solução diferente da proposta pelo autor do projeto
6. Nº de relatorias apresentadas: Parte da atividade legislativa, o parlamentar responsável pela relatoria determina sobre a aprovação ou prejuízo de matérias.
7. Nº presença em Plenário: Frequência com a qual o parlamentar tem participado dos deputados deliberativos do Plenário.
8. Emendas de Plenário: Proposições feitas pelos parlamentares durante as sessões plenárias, com o objetivo de alterar um projeto de lei em tramitação.<br>

**Fiscalização**<br>

9. Nº de solicitações de informações protocoladas: Dimensão de fiscalização reativa. Os parlamentares podem usar dessa ferramenta para fiscalizar o poder público. Referência ao número total de requerimentos de informação protocolados.
10. Proposta de fiscalização e controle protocoladas: Dimensão da fiscalização preventiva, propositiva. Relaciona-se ao número de propostas de fiscalização protocoladas.
11. Recebimento de emendas parlamentares (emendas empenhadas): Recurso disponibilizado por todos os parlamentares. Calcula-se o montante de orçamento empenhado pelo Executivo.
12. Emendas de Medidas Provisórias: Medidas provisórias são um instrumento utilizado pelo presidente com força de lei. O Executivo envia para o Legislativo, e os parlamentares possuem um tempo limitado para propor emendas à proposição do Executivo.
13. Emendas de orçamento: Proposições feitas pelos parlamentares em projetos de lei orçamentária, que são enviados do Executivo para o Legislativo (Lei de Diretrizes Orçamentárias e Lei Orçamentária Anual).

**Mobilização**<br>

14. Projetos de autoria com status especial: O regime de tramitação pode atrasar ou acelerar a aprovação de um projeto legislativo. Ter um status especial ao projeto garante que sua tramitação seja mais rápida. Além disso, demonstra uma capacidade de articulação, pois, quando não é atribuída pelo próprio Presidente, requer que a maioria do Plenário se manifeste favoravelmente.
15. Cargos ocupados na legislatura: Referência ao número total de cargos institucionais ocupados pelos parlamentares. Indica capacidade de articulação e influência com seu partido e com seus pares.
16. Nº de requerimentos de Audiência Pública: As audiências públicas são o espaço para que a sociedade civil se manifeste sobre determinado projeto parlamentar. Um número de requerimentos de Audiência Pública protocolados demonstra uma vontade parlamentar de aproximação com agentes externos ao Parlamento, atividade importante para um parlamentar.

**Alinhamento partidário**<br>

17. Desvios da posição majoritária do partido em votações: Cálculo de desvio do parlamentar em relação à maioria do partido nas votações de projetos de lei tramitados na Câmara.<br>


A nota final do segundo site (**Ranking dos Políticos**) é uma média de 4 notas de acordo com a metodologia fornecida  pelo próprio site: <br>
Fórmula:<br>

[((APx3)+(AD/3))/4] + AC + OT = Nota Final<br>

AP = Antiprivilégio<br>
AD = Antidesperdício<br>
AC = Anticorrupção<br>
OT = Outros<br>
Aplicando a seguinte metodologia pelo site:<br>
**Pesos** <br>
- Para calcular a pontuação final dos políticos, aplicar os seguintes pesos

   - Antiprivilégios (Votações): 3x <br>
   - Antidesperdício (Presenças e Economia de Verbas): 3÷ <br>
   - Anticorrupção (Ficha Limpa): quando há processos, subtrai pontos da nota final <br>
   - Outros: soma ou subtrai pontos da nota final. <br>
<br>

**Obs:** A montagem da fórmula exibida no site ficou confusa, após verificação foi constatado que faltava um ( ) e foi corrigida aqui na apresentação. <br>

Cada nota é descrita no site e explicada da seguinte forma:

**Antiprivilégios** - O posicionamento dos parlamentares nas principais votações do Congresso é avaliado de acordo com a orientação do nosso Conselho. O aproveitamento de acerto nos votos reflete a nota do político neste critério. O Ranking avalia apenas parlamentares que ficam no mínimo 06 meses em seus respectivos mandatos. 

**Antidesperdício** - Políticos que não faltam ao trabalho e que economizam na Cota Parlamentar e Verba de Gabinete ganham pontos no ranking.
   - Presenças nas sessões deliberativas: A nota varia de acordo com taxa de comparecimento do político durante o período em que ele esteve em exercício. Faltas justificadas contam como presença.

   - Economia de Verbas: O desempenho neste quesito é definido pelo percentual economizado pelo político em relação à sua cota parlamentar e verba de gabinete disponíveis enquanto esteve em exercício.

   - Cota Parlamentar: Valor mensal para custear as despesas do mandato. Seu valor varia de acordo com o estado de origem do parlamentar, por conta dos diferentes custos de passagens aéreas para Brasília.

   - Verba de Gabinete: É o valor mensal destinado para pagar o salário dos assessores dos parlamentares.
<br>

**Anticorrupção** - Os parlamentares condenados em crimes, principalmente contra a administração pública, ou que respondem a inquéritos do STF, perdem pontos no Ranking dos Políticos.
<br>

**Outros** - Iniciativas relevantes não previstas nos demais critérios podem gerar o acúmulo ou a perda de pontuações extras para os parlamentares. Os pontos são subtraídos da nota final apurada nos demais critérios.
<br>

Após a análise da composição das notas foi observado que o quesito **Antiprivilégio** abre espaço para se tornar uma variável subjetiva, já que depende de um conselho para julgar o posicionamento do deputado. E apesar da composição do conselho ser pública não fica claro como ela é feita o que abre espaço para que seu posicionamento seja enviesado. E com o agravante dessa nota ser a que tem peso maior na composição final. 

O **objetivo** principal dessa análise é verificar se as 4 notas do Legisla Brasil (site 1) explicam a variabilidade da nota do Ranking dos políticos (site 2) usando um modelo de regressão linear.

## 2.0 Bibliotecas

In [1]:
# bibliotecas
import pandas as pd #processamento de dados
import numpy as np #algebra linear

import matplotlib.pyplot as plt # Matlab-Style
from pandas.plotting import scatter_matrix 
%matplotlib inline
import seaborn as sns
color = sns.color_palette()
sns.set_style('darkgrid')

from scipy import stats
from scipy.stats import norm, skew #para analises estatítiscas

pd.set_option('display.float_format', lambda x: '{:.3f}'.format(x)) # limita saídas de tipos floats 
                                                                    # a 3 casas decimais
from subprocess import check_output

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error, mean_absolute_percentage_error
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split, KFold, cross_validate
import lightgbm as lgb

import warnings
def ignore_warn(*arg, **kwargs):
    pass
warnings.warm = ignore_warn #ignorar avisos chatos (do sklearn e seaborn)

## 3.0 Importando os dados

In [2]:
# Carregando os dados
dados = pd.read_csv('I:/My Drive/Colab_Notebooks/Notas_deputados/datasets/processed_data/df_after_EAD.csv', dtype={'ideologia':'category'})

In [3]:
dados.head(1)

Unnamed: 0.1,Unnamed: 0,nome,estado,regiao,partido,ideologia,n_prod_leg,n_fisc,n_mobi,n_alin_partd,avg_site1,nota_site2
0,0,abou anni,São Paulo,sudeste,UNIÃO,direita,3.8,0.9,2.4,6.4,2.853,6.55


In [4]:
# Visualizando as dimensões
dados = dados.drop('Unnamed: 0', axis=1)
dados.shape

(488, 11)

In [5]:
dados.head(2)

Unnamed: 0,nome,estado,regiao,partido,ideologia,n_prod_leg,n_fisc,n_mobi,n_alin_partd,avg_site1,nota_site2
0,abou anni,São Paulo,sudeste,UNIÃO,direita,3.8,0.9,2.4,6.4,2.853,6.55
1,acacio favacho,Amapá,norte,MDB,centro,2.6,0.2,2.1,6.4,2.029,6.12


In [8]:
dados['estado'] = dados['estado'].astype('category')
dados['partido'] = dados['partido'].astype('category')
dados['regiao'] = dados['regiao'].astype('category')

In [9]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 488 entries, 0 to 487
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   nome          488 non-null    object  
 1   estado        488 non-null    category
 2   regiao        488 non-null    category
 3   partido       488 non-null    category
 4   ideologia     488 non-null    category
 5   n_prod_leg    488 non-null    float64 
 6   n_fisc        488 non-null    float64 
 7   n_mobi        488 non-null    float64 
 8   n_alin_partd  488 non-null    float64 
 9   avg_site1     488 non-null    float64 
 10  nota_site2    488 non-null    float64 
dtypes: category(4), float64(6), object(1)
memory usage: 31.0+ KB


In [10]:
dados.nunique()

nome            488
estado           27
regiao            5
partido          23
ideologia         3
n_prod_leg       69
n_fisc           30
n_mobi           30
n_alin_partd     11
avg_site1       358
nota_site2      291
dtype: int64

## 4.0 Inferência estatística -> Teste de hipótese

Nesta etapa da análise, será realizado um teste de hipótese com o objetivo de verificar se os dados disponibilizados pelo site Legisla Brasil possuem poder preditivo sobre as notas atribuídas pelo Ranking dos Políticos.

Embora não haja uma relação causal direta entre os dois rankings, parte-se da premissa de que os indicadores quantitativos atribuídos pelo Legisla Brasil — como produção legislativa, fiscalização, mobilização e alinhamento partidário — podem estar correlacionados com a percepção ou avaliação capturada pelo Ranking dos Políticos.

A aplicação de um teste de hipótese é fundamental neste contexto para avaliar se há evidências estatísticas que sustentem a possibilidade de previsão da nota_site2 a partir das variáveis do Legisla Brasil, orientando assim as etapas subsequentes da modelagem e validação preditiva.

### Formulação das Hipóteses

Para verificar se as variáveis provenientes do Legisla Brasil podem ser utilizadas para prever as notas do Ranking dos Políticos, formulamos as seguintes hipóteses:

**Hipótese geral:** <br>
**H₀:** As variáveis do Legisla Brasil não são capazes de prever ou explicar a nota_site2.<br>
**H₁:** As variáveis do Legisla Brasil são capazes de prever ou explicar a nota_site2.

Este teste permitirá verificar, de forma quantitativa, se a inclusão das variáveis do Legisla Brasil melhora a capacidade preditiva do modelo, quando comparado a um modelo sem essas variáveis. Caso rejeitemos a hipótese nula, teremos evidência de que essas variáveis podem contribuir para uma modelagem mais precisa.

In [11]:
from scipy.stats import pearsonr, spearmanr

corr_pearson, p_pearson = pearsonr(dados['avg_site1'], dados['nota_site2'])
corr_spearman, p_spearman = spearmanr(dados['avg_site1'], dados['nota_site2'])

print(f'Pearson: r={corr_pearson:.3f}, p={p_pearson:.5f}')
print(f'Spearman: rho={corr_spearman:.3f}, p={p_spearman:.5f}')


Pearson: r=-0.394, p=0.00000
Spearman: rho=-0.219, p=0.00000


1. Pearson: r = -0.394, p ≈ 0.000
Correlação **moderada e negativa** entre avg_site1 e nota_site2.

Como o p-valor é muito menor que 0.05, essa correlação é estatisticamente significativa.

Ou seja: conforme as notas do site 1 aumentam, as do site 2 tendem a diminuir moderadamente.

2. Spearman: rho = -0.219, p ≈ 0.000
Correlação **fraca e negativa**, mas também estatisticamente significativa.

Spearman verifica relação monotônica, não necessariamente linear.

Mesmo sem suposição de linearidade, existe uma associação significativa entre as notas.

Esses resultados nos permitem **rejeitar a hipótese nula** de ausência de associação, indicando que existe relação estatística entre as avaliações dos dois sites, ainda que negativa.

Assim, é justificável prosseguir com a modelagem preditiva para verificar se as variáveis quantitativas provenientes do Legisla Brasil, isoladamente ou em conjunto, podem ser utilizadas para prever as notas do Ranking dos Políticos."

## 5.0 Divisão do dados

**nota_site2** é a variável que desejamos predizer, no caso desse problema é a variável que queremos comparar com as variáveis independentes para saber se elas explicam a sua variabilidade.
<br>
A feature **nome** também foi retirada porque são identificadores únicos que não possuem relação causal com o que queremos prever.

In [12]:
X = dados.drop(['nota_site2', 'nome'], axis=1)
y = dados['nota_site2']

In [13]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=8)

In [14]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((390, 9), (98, 9), (390,), (98,))

In [15]:
X_train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 390 entries, 415 to 451
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   estado        390 non-null    category
 1   regiao        390 non-null    category
 2   partido       390 non-null    category
 3   ideologia     390 non-null    category
 4   n_prod_leg    390 non-null    float64 
 5   n_fisc        390 non-null    float64 
 6   n_mobi        390 non-null    float64 
 7   n_alin_partd  390 non-null    float64 
 8   avg_site1     390 non-null    float64 
dtypes: category(4), float64(5)
memory usage: 22.1 KB


## 6.0 Pipeline

Primeiro vamos fazer algumas ponderações. <br>
    - Testaremos mais de um modelo de regressão (Regressão Linear e LightGBM)<br>
    - Vamos ver o poder preditivo somente das variáveis numéricas (as notas atribuidas pelo LegislaBr)<br>
    - Em seguida iremos ver a influência das variáveis categóricas já presentes nos dados e depois a influência da variável 'Ideologia'. <br>
    Qual o impacto delas no poder preditivo do modelo.

In [16]:
modelLR = LinearRegression()
modelLGBM = lgb.LGBMRegressor(random_state = 0)

### Modelo I - Modelagem somente da variáveis numéricas

In [None]:
X_var_num = X_train.drop(['estado', 'partido', 'ideologia', 'regiao'], axis=1)
y_var_num = y_train.copy()

X_var_num.head()

Unnamed: 0,n_prod_leg,n_fisc,n_mobi,n_alin_partd,avg_site1
0,3.8,0.9,2.4,6.4,2.853
1,2.6,0.2,2.1,6.4,2.029
2,2.8,0.9,2.4,5.5,2.329
3,6.4,2.9,7.3,10.0,5.741
4,2.3,0.0,2.1,10.0,2.041


Como as variáveis numéricas estão numa mesma escala (0-10) não faremos pre-processamento

In [19]:
def regressao_model (model, X, y, k):

    pipeline = Pipeline([
        ('model', model)
    ])
    #dividindo os dados em 3 folds
    cv = KFold(n_splits=k, shuffle=True, random_state = 0)

    #metricas de avaliação
    metrics = ['neg_mean_absolute_error', 'neg_mean_squared_error', 'neg_mean_absolute_percentage_error']

    # Calculando as métricas com uma validação cruzada
    scores_mod_num = cross_validate(pipeline, X, y, cv=cv,
                            scoring = metrics,
                            return_train_score=True
                            )
    
    print(f'MAE: {round(-np.mean(scores_mod_num['test_neg_mean_absolute_error']), 2)}')
    print(f'MSE: {round(-np.mean(scores_mod_num['test_neg_mean_squared_error']), 2)}')
    print(f'RMSE: {round(np.sqrt(-np.mean(scores_mod_num['test_neg_mean_squared_error'])), 2)}')
    print(f'MAPE: {round(-np.mean(scores_mod_num['test_neg_mean_absolute_percentage_error']), 2)}')
    

In [None]:
regressao_model(modelLR, X_var_num, y_var_num, 3)

MAE: 1.08
MSE: 1.89
RMSE: 1.37
MAPE: 0.24


A regressão linear, utilizando apenas variáveis numéricas associadas à atuação parlamentar, apresentou um erro médio absoluto de 1,08 pontos e um erro percentual médio de 24%, com um erro típico de 1,37 pontos (RMSE). Esses resultados indicam uma capacidade preditiva moderada, sinalizando que tais variáveis possuem relação com a avaliação do outro site, mas não são suficientes para explicar toda a variabilidade. Diante disso, propõe-se a inclusão de variáveis categóricas e o teste de modelos não lineares, como o LightGBM, para potencial melhoria no desempenho preditivo.



In [None]:
regressao_model(modelLGBM, X_var_num, y_var_num, 3)

[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000334 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 195
[LightGBM] [Info] Number of data points in the train set: 260, number of used features: 5
[LightGBM] [Info] Start training from score 5.624692
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000030 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 193
[LightGBM] [Info] Number of data points in the train set: 260, number of used features: 5
[LightGBM] [Info] Start training from score 5.678769
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000028 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 189
[LightGBM] [Info] Number of data points in the train set: 260, nu

A aplicação do modelo LightGBM utilizando apenas variáveis numéricas resultou em um erro médio absoluto (MAE) de 1,02 pontos e um erro percentual médio absoluto (MAPE) de 22%, com um erro típico (RMSE) de aproximadamente 1,38 pontos. Em comparação com a regressão linear, o LightGBM apresentou uma leve redução no MAE e MAPE, indicando uma melhora modesta na capacidade preditiva. Esses resultados sugerem que as variáveis numéricas relacionadas à atuação parlamentar possuem uma relação relevante com a nota atribuída pelo segundo site, mas ainda insuficiente para explicar plenamente a variabilidade observada. Diante disso, recomenda-se a inclusão de variáveis categóricas e a exploração de interações mais complexas para aprimorar a performance do modelo.

### Modelo II - Adicionando as features categóricas presentes nos dados

In [None]:
X_var = X_train.drop(['ideologia'], axis=1)
y_var = y_train.copy()

X_var.head()

Unnamed: 0,estado,regiao,partido,n_prod_leg,n_fisc,n_mobi,n_alin_partd,avg_site1
0,São Paulo,sudeste,UNIÃO,3.8,0.9,2.4,6.4,2.853
1,Amapá,norte,MDB,2.6,0.2,2.1,6.4,2.029
2,Bahia,nordeste,PSDB,2.8,0.9,2.4,5.5,2.329
3,São Paulo,sudeste,NOVO,6.4,2.9,7.3,10.0,5.741
4,Goiás,centro oeste,PP,2.3,0.0,2.1,10.0,2.041


In [25]:
# separando as variáveis em categóricas e numéricas
feat_num = ['n_prod_leg', 'n_fisc', 'n_mobi', 'n_alin_partd', 'avg_site1']
feat_cat = ['estado', 'partido', 'regiao']

In [26]:
num_pipe = Pipeline([
    ('imputer', SimpleImputer(strategy='median')), # mesmo não havendo valores nulos ou missing, caso modelo venha a receber novas entradas
    ])

cat_pipeline = Pipeline([
        ('imputer', SimpleImputer(strategy='most_frequent')),
        ('onehot', OneHotEncoder(handle_unknown='ignore'))
    ])

In [27]:
preprocessor_var = ColumnTransformer([
    ('num', num_pipe, feat_num),
    ('cat', cat_pipeline, feat_cat)
])

In [28]:
def regressao_model_var (model, X, y, k):

    pipeline = Pipeline([
        ('preprocessor', preprocessor_var),
        ('model', model)
    ])
    #dividindo os dados em 3 folds
    cv = KFold(n_splits=k, shuffle=True, random_state = 0)

    #metricas de avaliação
    metrics = ['neg_mean_absolute_error', 'neg_mean_squared_error', 'neg_mean_absolute_percentage_error']

    # Calculando as métricas com uma validação cruzada
    scores_mod_num = cross_validate(pipeline, X, y, cv=cv,
                            scoring = metrics,
                            return_train_score=True
                            )
    
    print(f'MAE: {round(-np.mean(scores_mod_num['test_neg_mean_absolute_error']), 2)}')
    print(f'MSE: {round(-np.mean(scores_mod_num['test_neg_mean_squared_error']), 2)}')
    print(f'RMSE: {round(np.sqrt(-np.mean(scores_mod_num['test_neg_mean_squared_error'])), 2)}')
    print(f'MAPE: {round(-np.mean(scores_mod_num['test_neg_mean_absolute_percentage_error']), 2)}')
    

In [None]:
regressao_model_var(modelLR, X_var, y_var, 3)

MAE: 0.65
MSE: 0.81
RMSE: 0.9
MAPE: 0.13


In [None]:
regressao_model_var(modelLGBM, X_var, y_var, 3)

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000042 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 225
[LightGBM] [Info] Number of data points in the train set: 260, number of used features: 20
[LightGBM] [Info] Start training from score 5.624692
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000031 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 221
[LightGBM] [Info] Number of data points in the train set: 260, number of used features: 19
[LightGBM] [Info] Start training from score 5.678769
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000037 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 219
[LightGBM] [Info] Number of data points in the train set: 260, 



Na segunda etapa da modelagem, foram incorporadas variáveis categóricas ('estado', 'partido' e 'região') além das variáveis numéricas previamente utilizadas. A inclusão dessas informações demonstrou um impacto positivo na capacidade preditiva do modelo de regressão linear, que apresentou uma redução expressiva no erro médio absoluto (MAE), passando de 1,08 para 0,65 pontos, e no erro percentual médio absoluto (MAPE), que caiu de 24% para 13%. O erro quadrático médio (MSE) também reduziu significativamente para 0,81, com um RMSE de aproximadamente 0,90 pontos.

Por outro lado, o modelo LightGBM, embora tenha apresentado redução no MAPE (de 22% para 18%) e também no MAE, não superou a regressão linear em termos de erro absoluto ou quadrático, sugerindo que, nesta configuração específica, a regressão linear foi mais eficiente para captar os padrões presentes nos dados.

Esses resultados indicam que as variáveis categóricas possuem uma contribuição relevante na explicação da variabilidade da 'nota_site2', reforçando a importância de sua consideração na modelagem. A próxima etapa consistirá em avaliar o acréscimo da variável 'ideologia' e investigar se sua inclusão resulta em uma melhora adicional do desempenho preditivo.

### Modelo III - Modelagem com todas as variáveis


In [31]:
# separando as variáveis em categóricas e numéricas
feat_num = ['n_prod_leg', 'n_fisc', 'n_mobi', 'n_alin_partd', 'avg_site1']
feat_cat = ['estado', 'partido', 'ideologia', 'regiao']

num_pipe = Pipeline([
    ('imputer', SimpleImputer(strategy='median')), # mesmo não havendo valores nulos ou missing, caso modelo venha a receber novas entradas
    ])

cat_pipeline = Pipeline([
        ('imputer', SimpleImputer(strategy='most_frequent')),
        ('onehot', OneHotEncoder(handle_unknown='ignore'))
    ])

preprocessor_var = ColumnTransformer([
    ('num', num_pipe, feat_num),
    ('cat', cat_pipeline, feat_cat)
])

In [32]:
def regressao_model (model, X, y, k):

    pipeline = Pipeline([
        ('preprocessor', preprocessor_var),
        ('model', model)
    ])
    #dividindo os dados em 3 folds
    cv = KFold(n_splits=k, shuffle=True, random_state = 0)

    #metricas de avaliação
    metrics = ['neg_mean_absolute_error', 'neg_mean_squared_error', 'neg_mean_absolute_percentage_error']

    # Calculando as métricas com uma validação cruzada
    scores_mod_num = cross_validate(pipeline, X, y, cv=cv,
                            scoring = metrics,
                            return_train_score=True
                            )
    
    print(f'MAE: {round(-np.mean(scores_mod_num['test_neg_mean_absolute_error']), 2)}')
    print(f'MSE: {round(-np.mean(scores_mod_num['test_neg_mean_squared_error']), 2)}')
    print(f'RMSE: {round(np.sqrt(-np.mean(scores_mod_num['test_neg_mean_squared_error'])), 2)}')
    print(f'MAPE: {round(-np.mean(scores_mod_num['test_neg_mean_absolute_percentage_error']), 2)}')
    

In [33]:
regressao_model(modelLR, X_train, y_train, 3)

MAE: 0.65
MSE: 0.81
RMSE: 0.9
MAPE: 0.13


In [34]:
regressao_model(modelLGBM, X_train, y_train, 3)

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000048 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 231
[LightGBM] [Info] Number of data points in the train set: 260, number of used features: 23
[LightGBM] [Info] Start training from score 5.624692
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000036 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 227
[LightGBM] [Info] Number of data points in the train set: 260, number of used features: 22
[LightGBM] [Info] Start training from score 5.678769
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000034 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 225
[LightGBM] [Info] Number of data points in the train set: 260, number of used features: 23
[LightGBM] [Info] Start training fro



Na fase final da modelagem, a variável categórica adicional **'ideologia'** foi incorporada ao conjunto de preditores, junto com as variáveis 'estado' e 'partido', além das variáveis numéricas previamente utilizadas. Os modelos de **regressão linear** e **LightGBM** foram treinados utilizando validação cruzada com 3 folds, e apresentaram resultados muito próximos, indicando convergência no desempenho.

Na regressão linear o modelos obteve MAE de aproximadamente 0,65 e MAPE de 13%, refletindo um erro médio percentual absoluto relativamente baixo, e um RMSE em torno de 0,90 pontos. O MSE também se manteve reduzido, em torno de 0,81, indicando que a variabilidade residual do modelo é pequena.

Já o LightGBM mostrou uma leve melhora em comparação com a regressão linear, MAE reduziu para 0,63 e MAPE para 12%. RMSE = 0,84 e MSE de 0,7, também indicando a baixa variabilidade do modelo.

Esses resultados sugerem que a inclusão da variável 'ideologia' contribuiu para melhorar a precisão preditiva do modelo, embora a diferença entre os modelos lineares e baseados em árvores tenha se reduzido nessa configuração. A similaridade de desempenho aponta que, para este conjunto de dados e variáveis, um modelo mais simples como a regressão linear pode ser tão eficiente quanto modelos mais complexos como o LightGBM.

## 7.0 Validando o modelo nos dados de teste

In [35]:
pipe_teste = Pipeline([
        ('preprocessor', preprocessor_var),
        ('model', modelLGBM)
    ])

#treino do modelo em todos os dados de treino
pipe_teste.fit(X_train, y_train)

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000044 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 295
[LightGBM] [Info] Number of data points in the train set: 390, number of used features: 28
[LightGBM] [Info] Start training from score 5.658590


In [38]:
#Métricas de avaliação

y_pred = pipe_teste.predict(X_test)

MAE = mean_absolute_error(y_test, y_pred)
MSE = mean_squared_error(y_test, y_pred)
RMSE = np.sqrt(MSE)
r2 = r2_score(y_test, y_pred)
MAPE = mean_absolute_percentage_error(y_test, y_pred)

print(f"Mean Absolute Error (MAE): {MAE:.2f}")
print(f"Mean Squared Error (MSE): {MSE:.2f}")
print(f"Root Mean Squared Error (RMSE): {RMSE:.2f}")
print(f"Mean Absolute Percentage Error (MAPE): {MAPE:.2f}")
print(f"R-squared (r2): {r2:.2f}")

Mean Absolute Error (MAE): 0.59
Mean Squared Error (MSE): 0.63
Root Mean Squared Error (RMSE): 0.79
Mean Absolute Percentage Error (MAPE): 0.10
R-squared (r2): 0.58




Após o treinamento do modelo LightGBM (modelLGBM) utilizando as variáveis numéricas e categóricas previamente selecionadas, o pipeline foi aplicado aos dados de teste para validar sua capacidade preditiva fora da amostra utilizada na etapa de treinamento.

- As métricas obtidas foram as seguintes:

- Mean Absolute Error (MAE): 0.59

- Mean Squared Error (MSE): 0.63

- Root Mean Squared Error (RMSE): 0.79

- Mean Absolute Percentage Error (MAPE): 0.10

- R-squared (R²): 0.58

Esses resultados indicam que, em média, o modelo apresentou um erro absoluto de 0.61 na predição das notas do Politicos.org, com um erro percentual médio de aproximadamente 11%. O RMSE de 0.78 reforça a boa capacidade do modelo em generalizar para novos dados, mantendo o erro médio relativamente baixo.

O coeficiente de determinação (R²) de 0.60 sugere que o modelo é capaz de explicar cerca de 60% da variabilidade das notas do Politicos.org a partir das informações disponíveis no LegislaBr, incluindo variáveis categóricas como estado, partido e ideologia.

De modo geral, os resultados são satisfatórios, indicando que a abordagem de incluir variáveis categóricas relevantes contribuiu para melhorar a precisão do modelo, reduzindo os erros de predição e aumentando sua capacidade explicativa.

## Conclusão


Dos três modelos avaliados, o modelo que incorporou variáveis categóricas — incluindo estado, partido e ideologia (Modelo III) — apresentou o melhor desempenho, com menores valores de erro nas métricas avaliadas, indicando maior precisão na predição das notas do Politicos.org a partir dos dados do LegislaBr.

O modelo baseado somente nas quatro variáveis numéricas do LegislaBr (Modelo I) apresentou desempenho inferior, o que sugere que essas variáveis isoladas não são suficientes para prever adequadamente as notas do Politicos.org. Isso se explica, em parte, pela diferença nas metodologias de avaliação dos dois sites e pela influência das características políticas dos deputados.

**De fato, ao longo da análise exploratória foi identificada uma relação inversa entre as notas atribuídas pelos dois sites: o LegislaBr tende a conceder notas mais altas a políticos de esquerda, enquanto o Politicos.org favorece políticos de direita ou centro. Esse padrão reforça que, para ambos, a ideologia política exerce forte influência sobre as avaliações.**

**Esse viés levanta um ponto crítico sobre a fidelidade das notas enquanto medidas objetivas da atuação parlamentar. Se cada site favorece determinados espectros ideológicos, a nota final pode refletir mais uma posição política do avaliador do que uma avaliação imparcial da atuação do político. Assim, quem consulta essas notas como ferramenta para entender o desempenho de um parlamentar corre o risco de ser induzido por avaliações enviesadas, que não necessariamente correspondem à real atuação do político, mas sim ao alinhamento entre as práticas desse parlamentar e a linha política do site avaliador.**

**Esse fenômeno pode ser prejudicial para a sociedade, pois dificulta a obtenção de informações confiáveis e imparciais sobre a atuação dos representantes eleitos. Caso essa seletividade seja intencional, é importante que os sites sejam transparentes, assumindo claramente que suas avaliações são contextualizadas segundo determinadas orientações ideológicas. Assim, quem avalia a atuação de um deputado sob uma perspectiva específica pode entender que a nota atribuída reflete tal viés: se a pessoa adota uma visão mais próxima da esquerda, pode priorizar as notas do LegislaBr; se se identifica mais com a direita ou centro, pode considerar mais adequadas as notas do Politicos.org.**

Portanto, esta análise não só evidencia a importância de incorporar variáveis categóricas relacionadas à ideologia e ao partido para melhorar o desempenho preditivo dos modelos, como também chama a atenção para a necessidade de cautela na interpretação dessas notas, reconhecendo que elas podem refletir vieses políticos e não necessariamente a complexidade real da atuação parlamentar.

Na etapa de teste do modelo final (Modelo III), os resultados foram:

- Mean Absolute Error (MAE): 0.59

- Mean Squared Error (MSE): 0.63

- Root Mean Squared Error (RMSE): 0.79

- Mean Absolute Percentage Error (MAPE): 0.10

- R-squared (R²): 0.58

Esses resultados mostram que, embora seja possível modelar a relação entre as notas de forma razoavelmente precisa quando se conhece o contexto político, as avaliações de cada site seguem padrões diferentes e, portanto, devem ser interpretadas dentro desse escopo ideológico.