<a href="https://colab.research.google.com/github/JohnDiognes/analise-perfil-eleitor-vila-velha/blob/main/notebooks/02_analise_exploratoria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìò Notebook 02 ‚Äî An√°lise Explorat√≥ria do Perfil do Eleitor de Vila Velha

## 1. Carregamento da Base de Dados

In [None]:
# ===============================================================
# üìò NOTEBOOK 02 ‚Äî AN√ÅLISE EXPLORAT√ìRIA DO PERFIL DO ELEITOR
# Munic√≠pio de Vila Velha ‚Äî Elei√ß√µes 2024
# ===============================================================

# ===============================================================
# 01 ‚Äî CONFIGURA√á√ÉO INICIAL
# ===============================================================

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (12, 6)

# -----------------------------
# Clonar o reposit√≥rio (somente se n√£o existir)
# -----------------------------
repo_nome = "analise-perfil-eleitor-vila-velha"

if not os.path.exists(repo_nome):
    !git clone https://github.com/JohnDiognes/analise-perfil-eleitor-vila-velha.git

# Caminho da base
caminho_base = f"{repo_nome}/dados/base_vila_velha.csv"

# -----------------------------
# Carregar a base
# -----------------------------
try:
    df_vv = pd.read_csv(caminho_base, encoding="utf-8")
except:
    df_vv = pd.read_csv(caminho_base, encoding="latin1")

df_vv.head()



## 2. Informa√ß√µes Gerais da Base

In [None]:
df_vv.info()
df_vv.describe(include='all')


### Total de Eleitores

In [None]:
total_eleitores = df_vv['quant_eleitores'].sum()
print(f"O total de eleitores √©: {total_eleitores}")

Fun√ß√£o auxiliar para rotular Barras

In [None]:
def add_labels(ax):
    """Adiciona r√≥tulos de valores no topo das barras."""
    for p in ax.patches:
        ax.annotate(
            f"{int(p.get_height()):,}".replace(",", "."),
            (p.get_x() + p.get_width()/2, p.get_height()*1.005),
            ha='center',
            fontsize=9
        )


## Criar pasta docs para salvar os gr√°ficos

In [None]:
os.makedirs(f"{repo_nome}/docs", exist_ok=True)


## 3. Distribui√ß√£o por Faixa Et√°ria

In [None]:

plt.figure()
ax = df_vv.groupby("faixa_etaria")["quant_eleitores"].sum().sort_index().plot(kind="bar")

plt.title("Distribui√ß√£o por Faixa Et√°ria")
plt.ylabel("N√∫mero de Eleitores")
plt.xticks(rotation=45)
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/faixa_etaria.png")
plt.show()


## 4. Distribui√ß√£o por Sexo

In [None]:

plt.figure()
ax = df_vv.groupby("genero")["quant_eleitores"].sum().sort_values().plot(kind="bar")

plt.title("Distribui√ß√£o por Sexo")
plt.ylabel("N√∫mero de Eleitores")
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/genero.png")
plt.show()


## 5. Distribui√ß√£o por Grau de Escolaridade

In [None]:
plt.figure()
ax = df_vv.groupby("escolaridade")["quant_eleitores"].sum().sort_values(ascending=False).plot(kind="bar")

plt.title("Distribui√ß√£o por Escolaridade")
plt.ylabel("N√∫mero de Eleitores")
plt.xticks(rotation=45)
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/escolaridade.png")
plt.show()


## 6. Top 20 Bairros com Mais Eleitores

In [None]:
plt.figure()
ax = df_vv.groupby("bairro")["quant_eleitores"].sum().nlargest(20).plot(kind="bar")

plt.title("Top 20 Bairros com Mais Eleitores")
plt.ylabel("N√∫mero de Eleitores")
plt.xticks(rotation=75)
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/top20_bairros.png")
plt.show()


## 7. Distribui√ß√£o por Zona Eleitoral

In [None]:
plt.figure()
ax = df_vv.groupby("zona")["quant_eleitores"].sum().sort_index().plot(kind="bar")

plt.title("Distribui√ß√£o por Zona Eleitoral")
plt.ylabel("N√∫mero de Eleitores")
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/zonas.png")
plt.show()


## 8. Distribui√ß√£o por Regi√£o

In [None]:
plt.figure()
ax = df_vv.groupby("regiao")["quant_eleitores"].sum().sort_index().plot(kind="bar")

plt.title("Distribui√ß√£o por Regi√£o")
plt.ylabel("N√∫mero de Eleitores")
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/regioes.png")
plt.show()

### 10. Distribui√ß√£o por Bairro

In [None]:
plt.figure()
ax = df_vv.groupby("bairro")["quant_eleitores"].sum().sort_index().plot(kind="bar")

plt.title("Distribui√ß√£o por Bairro")
plt.ylabel("N√∫mero de Eleitores")
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/bairro1.png")
plt.show()

### 11. Distribui√ß√£o por Bairro (Visual Alternativo - Gr√°fico de Barras Horizontais)

In [None]:
plt.figure(figsize=(12, 10))
ax = df_vv.groupby("bairro")["quant_eleitores"].sum().sort_values().plot(kind="barh")

plt.title("Distribui√ß√£o por Bairro (Gr√°fico Horizontal)")
plt.xlabel("N√∫mero de Eleitores")
plt.ylabel("Bairro")

# Ajustar add_labels para barras horizontais
for p in ax.patches:
    ax.annotate(
        f"{int(p.get_width()):,}".replace(",", "."),
        (p.get_width(), p.get_y() + p.get_height()/2),
        ha='left', # Alinhar texto √† esquerda da barra
        va='center', # Centralizar verticalmente o texto
        fontsize=9
    )

plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/distribuicao_bairro_horizontal.png")
plt.show()

11. Distribui√ß√£o por Local de Vota√ß√£o

In [None]:
plt.figure()
ax = df_vv.groupby("local_votacao_nome")["quant_eleitores"].sum().nlargest(20).plot(kind="bar")

plt.title("Top 20 Locais de Vota√ß√£o com Mais Eleitores")
plt.xticks(rotation=75)
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/top20_Locais.png")
plt.show()

## 9. Tabela de Insights

In [None]:
insights = pd.DataFrame({
    "Faixa et√°ria mais comum": [df_vv.groupby("faixa_etaria")["quant_eleitores"].sum().idxmax()],
    "Sexo predominante": [df_vv.groupby("genero")["quant_eleitores"].sum().idxmax()],
    "Escolaridade mais frequente": [df_vv.groupby("escolaridade")["quant_eleitores"].sum().idxmax()],
    "Bairro com mais eleitores": [df_vv.groupby("bairro")["quant_eleitores"].sum().idxmax()],
    "Regi√£o com mais eleitores": [df_vv.groupby("regiao")["quant_eleitores"].sum().idxmax()]
})

insights


### 12. Enviar a pasta `docs` para o GitHub

A pasta `docs` foi criada na raiz do seu ambiente Colab (`/content/`). Para envi√°-la para o seu reposit√≥rio GitHub, ela precisa estar dentro da pasta do reposit√≥rio (`analise-perfil-eleitor-vila-velha/`).

In [None]:
# Mover a pasta docs para dentro do reposit√≥rio clonado
!mv docs analise-perfil-eleitor-vila-velha/

# Verificar se a pasta docs est√° agora dentro do reposit√≥rio
!ls analise-perfil-eleitor-vila-velha/

Agora que a pasta `docs` est√° dentro do reposit√≥rio, podemos usar os comandos Git para adicionar, commitar e enviar as altera√ß√µes. Voc√™ precisar√° se autenticar com o GitHub quando o comando `git push` for executado.

In [None]:
# Entrar no diret√≥rio do reposit√≥rio
%cd analise-perfil-eleitor-vila-velha

# Configurar a identidade do autor (substitua com suas informa√ß√µes)
!git config --global user.email "diognes_santos@hotmail.com"
!git config --global user.name "JohnDiognes"

# Adicionar a pasta docs e seus conte√∫dos ao stage do Git
!git add docs

# Commitar as altera√ß√µes
!git commit -m "Adiciona gr√°ficos gerados na pasta docs"

# Importar userdata para acessar os segredos do Colab
from google.colab import userdata

# Recuperar o PAT do Colab Secrets
# O nome correto do segredo √© 'GITHUB_TOKEN'
github_token = userdata.get('GITHUB_TOKEN')

# Definir o nome de usu√°rio do GitHub (baseado em informa√ß√£o pr√©via)
github_username = "JohnDiognes"

# Enviar as altera√ß√µes para o GitHub usando o PAT do Colab Secrets na URL
!git push https://{github_username}:{github_token}@github.com/JohnDiognes/analise-perfil-eleitor-vila-velha.git main

Ap√≥s executar o √∫ltimo comando, siga as instru√ß√µes para autentica√ß√£o. Se voc√™ usa autentica√ß√£o de dois fatores, precisar√° de um Personal Access Token (PAT) em vez da sua senha. Voc√™ pode gerar um PAT nas configura√ß√µes do seu perfil no GitHub.

### 13. Fazer Download dos Gr√°ficos

In [None]:
# Navegar para o diret√≥rio raiz do reposit√≥rio se ainda n√£o estiver l√°
%cd /content/analise-perfil-eleitor-vila-velha

# Compactar a pasta docs
!zip -r /content/docs.zip docs

# Fornecer um link para download do arquivo zip
from google.colab import files
files.download('/content/docs.zip')

# Task
## Analisar Distribui√ß√£o por Estado Civil
Vamos identificar o estado civil mais comum entre os eleitores.

## Analisar Distribui√ß√£o por Estado Civil

### Subtask:
Identificar o estado civil mais comum entre os eleitores e visualiz√°-lo.


**Reasoning**:
The subtask requires visualizing the distribution of voters by marital status. This involves grouping the DataFrame by 'estado_civil', summing the number of voters, sorting, plotting a bar chart, setting labels and title, and saving the figure.



In [None]:
plt.figure()
ax = df_vv.groupby("estado_civil")["quant_eleitores"].sum().sort_values(ascending=False).plot(kind="bar")

plt.title("Distribui√ß√£o por Estado Civil")
plt.ylabel("N√∫mero de Eleitores")
plt.xticks(rotation=45)
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/estado_civil.png")
plt.show()

## Analisar Distribui√ß√£o por Ra√ßa

### Subtask:
Identificar a ra√ßa mais declarada entre os eleitores.


**Reasoning**:
To analyze the distribution by race, I will group the DataFrame by the 'raca' column, sum the 'quant_eleitores' for each race, sort the results, and then generate a bar plot to visualize this distribution, including labels, title, and saving the figure.



In [None]:
plt.figure()
ax = df_vv.groupby("raca")["quant_eleitores"].sum().sort_values(ascending=False).plot(kind="bar")

plt.title("Distribui√ß√£o por Ra√ßa")
plt.ylabel("N√∫mero de Eleitores")
plt.xticks(rotation=45)
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/raca.png")
plt.show()

## Analisar Distribui√ß√£o por Identidade de G√™nero

### Subtask:
Identificar a identidade de g√™nero mais comum entre os eleitores.


**Reasoning**:
To identify the most common gender identity among voters and visualize its distribution, I will group the DataFrame by 'identidade_genero', sum the 'quant_eleitores', sort the results, and then generate a bar plot with appropriate labels, title, and save it to the specified location.



In [None]:
plt.figure()
ax = df_vv.groupby("identidade_genero")["quant_eleitores"].sum().sort_values(ascending=False).plot(kind="bar")

plt.title("Distribui√ß√£o por Identidade de G√™nero")
plt.ylabel("N√∫mero de Eleitores")
plt.xticks(rotation=45)
add_labels(ax)
plt.tight_layout()

plt.savefig(f"{repo_nome}/docs/identidade_genero.png")
plt.show()

## Analisar Eleitores com Defici√™ncia

### Subtask:
Calcular o n√∫mero total de eleitores que declararam alguma defici√™ncia.


**Reasoning**:
To calculate the total number of voters with disabilities, I will filter the DataFrame for entries where 'quan_deficiencia' is greater than 0 and then sum the 'quant_eleitores' column for these filtered rows.



In [None]:
eleitores_com_deficiencia = df_vv[df_vv['quan_deficiencia'] > 0]['quant_eleitores'].sum()
print(f"O total de eleitores que declararam alguma defici√™ncia √©: {eleitores_com_deficiencia}")

## Analisar Eleitores com Nome Social

### Subtask:
Calcular o n√∫mero total de eleitores que utilizam nome social.


**Reasoning**:
To calculate the total number of voters who use a social name, I will filter the DataFrame for entries where 'quant_nome_social' is greater than 0 and then sum the 'quant_eleitores' column for these filtered rows.



In [None]:
eleitores_nome_social = df_vv[df_vv['quant_nome_social'] > 0]['quant_eleitores'].sum()
print(f"O total de eleitores que utilizam nome social √©: {eleitores_nome_social}")

## Atualizar Tabela de Insights

### Subtask:
Adicionar os novos insights √† tabela existente e exibi-la.


**Reasoning**:
To update the insights table, I will first identify the most common values for 'estado_civil', 'raca', and 'identidade_genero', and then add these along with previously calculated totals for 'eleitores_com_deficiencia' and 'eleitores_nome_social' to the existing 'insights' DataFrame. Finally, I will display the updated DataFrame.



In [None]:
estado_civil_mais_comum = df_vv.groupby("estado_civil")["quant_eleitores"].sum().idxmax()
raca_mais_declarada = df_vv.groupby("raca")["quant_eleitores"].sum().idxmax()
identidade_genero_mais_comum = df_vv.groupby("identidade_genero")["quant_eleitores"].sum().idxmax()

insights["Estado Civil mais Comum"] = estado_civil_mais_comum
insights["Ra√ßa mais Declarada"] = raca_mais_declarada
insights["Identidade de G√™nero mais Comum"] = identidade_genero_mais_comum
insights["Eleitores com Defici√™ncia"] = eleitores_com_deficiencia
insights["Eleitores com Nome Social"] = eleitores_nome_social

insights

## Summary:

### Q&A
*   **What is the most common marital status among electors?**
    The most common marital status among electors is "SOLTEIRO" (single).
*   **What is the most declared race among electors?**
    The most declared race among electors is "N√ÉO INFORMADO" (not informed).
*   **What is the most common gender identity among electors?**
    The most common gender identity among electors is "N√ÉO INFORMADO" (not informed).
*   **How many electors declared a disability?**
    A total of 17,551 electors declared having a disability.
*   **How many electors use a social name?**
    A total of 395 electors use a social name.

### Data Analysis Key Findings
*   The most prevalent marital status among electors is "SOLTEIRO" (single).
*   The most frequently declared race and gender identity among electors is "N√ÉO INFORMADO" (not informed), highlighting a significant portion of the electorate has not provided this information.
*   A total of 17,551 electors declared having some form of disability.
*   Only 395 electors utilize a social name.

### Insights or Next Steps
*   The high number of "N√ÉO INFORMADO" entries for race and gender identity suggests a potential data collection gap or a choice by electors not to disclose this information, which could impact the representativeness of demographic analyses. Further investigation into the reasons behind this data gap could be valuable.
*   The relatively low number of electors utilizing a social name, compared to the overall electorate, could indicate limited awareness of this option or a smaller demographic requiring it. Analyzing trends or providing more visibility to this option might be considered.
