# **Análise e predição do posicionamento político do eleitor brasileiro**

Projeto final realizado para a disciplina de Ciência de Dados do curso de Ciência da Computação, *Universidade de São Paulo*.

## **Introdução**

O presente trabalho tem como objetivo realizar, primeiramente, uma *análise exploratória* dos dados provenientes de uma pesquisa de opinião sobre o perfil ideológico dos eleitores brasileiros, feita pelo Instituto DataSenado no ano de 2024. O conjunto de dados original contém diversas variáveis de natureza sociodemográfica, comportamental e política, mas nem todas serão utilizadas. Serão mantidas somente aquelas que possam contribuir para compreender a variável alvo (*target*) **Posicionamento Político**, que representa o espectro político autodeclarado por cada participante. A análise de dados buscará, portanto, investigar as relações entre a variável target e as demais variáveis selecionadas, por meio de visualizações gráficas e métodos estatísticos. 

Após a fase exploratória, o projeto avançará para a segunda etapa: a construção de um modelo preditivo. Com o uso de técnicas de *machine learning*, o objetivo será desenvolver um modelo capaz de prever o espectro político com base nas respostas às variáveis selecionadas da pesquisa.

Importante mencionar que este trabalho não se preocupará em fazer inferência sobre a preferência política da população brasileira como um todo, tendo em vista que uma parcela significativa dos dados originais não será utilizada.

* <small>Os dados utilizados neste trabalho foram obtidos por meio dos microdados disponibilizados pelo Instituto DataSenado em <a href="https://www12.senado.leg.br/institucional/datasenado/publicacaodatasenado?id=pesquisa-traca-perfil-ideologico-dos-eleitores-brasileiros" target="_blank" rel="noopener noreferrer">Pesquisa traça perfil ideológico dos eleitores brasileiros</a>.</small>
* <small>Junto com os dados foi disponibilizado um dicionário para auxiliar na interpretação.</small>

## **1. Importação de bibliotecas**

In [8]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## **2. Carregamento dos dados**

In [9]:
df = pd.read_csv(r'data\raw\panorama_politico_06_2024\DATASEN BR 2024 06 BAROMETRO - DADOS.csv', sep=';')

## **3. Visão geral dos dados não tratados**

In [10]:
df.shape

(21808, 109)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21808 entries, 0 to 21807
Columns: 109 entries, ID to W2
dtypes: float64(49), int64(52), object(8)
memory usage: 18.1+ MB


In [12]:
df.head()

Unnamed: 0,ID,P04,P06,P07,P08,P09,P10,P11,P12,P13,...,VD_EDUCACAO,POP_UF_SEXO,POP_UF_RACA,POP_UF_IDADE,POP_UF_RESIDENCIA,POP_UF_PORTE,POP_UF_TRABALHO,POP_UF_EDU,W1,W2
0,1,41,3,3,4,2,2,2,2,1,...,4,459954801319187,592888983043946,173662625524565,83345529943779,4791536,598178245942209,233743474097726,279749300778953,125496687231227
1,2,29,2,2,2,2,2,2,2,2,...,3,620318658563845,944641089141747,225111521205504,876514145702551,3033950,97071050572401,384212561215856,112345379164713,280547489557209
2,3,28,1,2,2,2,2,2,2,2,...,3,96605841748564,140643972866629,52738465232656,37173475555842,998303,99508755192826,52774757235541,335079450803203,353335524432939
3,4,28,3,2,2,2,1,2,2,2,...,1,96605841748564,140643972866629,37497477422564,146210348138951,608944,72839678367523,67962091966034,335079450803203,164662467766673
4,5,24,1,2,1,3,2,2,2,1,...,3,134503443392631,106787154843917,58233813699172,234479751342096,973772,137858788363752,86590252059461,242935105861798,238670789580883


O conjunto de dados inicialmente contém 21.808 linhas e 109 colunas (perguntas). Cada linha é a resposta de um entrevistado para as 109 perguntas. É possível observar que tanto as perguntas quanto as respostas estão em formato numérico. Dessa forma, para facilitar o entendimento e a análise dos dados, cabe converter esses valores para a forma textual.