# Exploratory Data Analysis (EDA)

Nesta etapa do projeto, entramos na fase de **Exploratory Data Analysis (EDA)** dentro da metodologia **CRISP-DM**.

## Objetivos da fase de EDA

Os principais objetivos desta fase são:

- Explorar estatisticamente o dataset preparado (`data/processed`)
- Identificar padrões, tendências e distribuições relevantes
- Analisar relações entre variáveis (ex.: cargos, salários, tempo de serviço)
- Detectar possíveis outliers ou comportamentos atípicos
- Gerar hipóteses analíticas que poderão ser aprofundadas posteriormente
- Produzir insights compreensíveis tanto para:
  - Público geral (cidadãos)
  - Recrutadores e profissionais da área de dados

### Papel da EDA neste projeto

A EDA é a ponte entre os **dados tratados** e a **comunicação dos resultados**.

Os achados desta etapa servirão de base para:

- Construção de narrativas analíticas
- Visualizações interativas
- Publicação de resultados em dashboards (ex.: Streamlit)
- Demonstração de habilidades analíticas em portfólio profissional

Nenhuma modelagem preditiva será realizada neste momento.  
O foco está em **compreender profundamente os dados** antes de qualquer etapa avançada.


In [26]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [27]:
# Definindo quantas colunas o pandas irá exibir
pd.set_option("display.max_columns", 100)

# Definindo como números float serão exibidos (2 casas decimais)
pd.set_option("display.float_format", lambda x: f"{x:,.2f}")

In [28]:
df_serv = pd.read_csv("../data/processed/servidores2025.csv", sep=",", encoding="utf-8")

In [31]:
df_serv.head()

Unnamed: 0,id_servidor,sexo,cargo,categoria_cargo,tipo_pagamento,proventos,descontos,liquido,carga_horaria_semanal,data_admissao,data_desligamento,status_servidor,mes
0,a9c9e25595c689fcc50586b7915c9169c3fdedef347df1...,F,OFICIAL ADMINISTRATIVO,administrativo,folha_mensal,3103.44,337.6,2765.84,35,2014-02-19,,ATIVO,jan
1,8e04db21627ebb8f4bbc48ae63d9bd4b35ed32c68c40d5...,F,AUXILIAR DE CRECHE,educacao,folha_mensal,2146.34,315.82,1830.52,40,2022-02-17,,ATIVO,jan
2,379ea2db2ce8b452ca96cbd1ee182fbda32dd884195931...,M,MOTORISTA,operacional,vale_alimentacao,1000.0,0.0,1000.0,40,2012-08-13,,ATIVO,jan
3,379ea2db2ce8b452ca96cbd1ee182fbda32dd884195931...,M,MOTORISTA,operacional,folha_mensal,3675.13,412.48,3262.65,40,2012-08-13,,ATIVO,jan
4,79d7249fd3bb08e95ddf2596765773e22927a0113cf95d...,M,OFICIAL ADMINISTRATIVO,administrativo,folha_mensal,6257.37,1459.9,4797.47,35,2006-03-20,,ATIVO,jan


In [43]:
df_serv.tail()

Unnamed: 0,id_servidor,sexo,cargo,categoria_cargo,tipo_pagamento,proventos,descontos,liquido,carga_horaria_semanal,data_admissao,data_desligamento,status_servidor,mes
23990,f061d46cb3dc7c55a5d2d891d6d6105644bc10d7b301e8...,F,AJUDANTE DE SERVICOS DIVERSOS,operacional,folha_mensal,2299.65,321.95,1977.7,40,2013-04-01,NaT,ATIVO,dez
23991,3e5ceb7467aab950efa7a34a6a8806606a3904629ad95b...,F,AJUDANTE DE SERVICOS DIVERSOS,operacional,Fechamento 13º Salário,2298.25,1132.26,1165.99,44,2009-12-21,NaT,ATIVO,dez
23992,3e5ceb7467aab950efa7a34a6a8806606a3904629ad95b...,F,AJUDANTE DE SERVICOS DIVERSOS,operacional,vale_alimentacao,1000.0,0.0,1000.0,44,2009-12-21,NaT,ATIVO,dez
23993,10a60cdde464dbcccbef4f84fb09db4e4a5642708caeae...,F,MERENDEIRA,educacao,folha_mensal,3109.45,369.42,2740.03,40,2006-02-13,NaT,ATIVO,dez
23994,3c40f1de7d5963c46fc43919f6783f5c21c5c633718e2e...,F,PROFESSOR DE EDUCAÇÃO BÁSICA I - PEB I,educacao,Fechamento 13º Salário,4483.67,3061.64,1422.03,30,2016-02-03,NaT,ATIVO,dez


## Visão Geral dos Dados

Nesta etapa inicial da Análise Exploratória de Dados (EDA), é apresentada uma visão geral do conjunto de dados que será utilizado nas análises subsequentes.

In [44]:
df_serv.shape

(23995, 13)

- O dataset tem 23995 linhas e 13 colunas

In [34]:
df_serv["id_servidor"].nunique()

979

- Durante o ano de 2025 a Prefeitura Municipal de Santa Rita do Passa Quatro/SP teve 979 servidores.

In [35]:
df_serv["mes"].unique()

array(['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set',
       'out', 'nov', 'dez'], dtype=object)

- A análise cobre todos os meses referentes ao ano de 2025

In [36]:
df_serv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23995 entries, 0 to 23994
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id_servidor            23995 non-null  object 
 1   sexo                   23995 non-null  object 
 2   cargo                  23995 non-null  object 
 3   categoria_cargo        23995 non-null  object 
 4   tipo_pagamento         23995 non-null  object 
 5   proventos              23917 non-null  float64
 6   descontos              23995 non-null  float64
 7   liquido                23995 non-null  float64
 8   carga_horaria_semanal  23995 non-null  int64  
 9   data_admissao          23995 non-null  object 
 10  data_desligamento      155 non-null    object 
 11  status_servidor        23995 non-null  object 
 12  mes                    23995 non-null  object 
dtypes: float64(3), int64(1), object(9)
memory usage: 2.4+ MB


### Dimensão do dataset
O dataset é composto por **23997 registros** e **12 colunas**, representando pagamentos realizados a servidores públicos ao longo dos meses analisados.

### Servidores únicos
Foram identificados **980 servidores únicos**, considerando o identificador `id_servidor`.  
É importante destacar que um mesmo servidor pode aparecer em múltiplos registros, uma vez que os dados estão organizados por período de pagamento.

### Período de referência
Os dados contemplam os seguintes meses de referência:

Janeiro, Fevereiro, Março, Abril, Maio, Junho, Julho, Agosto, Setembro, Outubro, Novembro e Dezembro

Essa distribuição mensal permite análises temporais sobre a evolução da folha de pagamento ao longo do tempo.

### Estrutura dos dados
O dataset consolidado contém informações relacionadas a:

- Identificação do servidor
- Características funcionais (cargo, categoria e tipo de contrato)
- Informações temporais (data de admissão e desligamento)
- Dados financeiros (proventos, descontos e salário líquido)
- Carga horária semanal

A estrutura atual do dataset está preparada para análises descritivas, comparativas e temporais, que serão exploradas nas próximas etapas da EDA.


## Tratando a coluna `data_admissao`, `data_desligamento` e `mes`


Embora o campo `data_admissao` e `data_desligamento` tenham sido previamente convertidos para data durante a preparação dos dados, a exportação em CSV não preserva os tipos de dados. Portanto, as colunas de data são analisadas novamente de forma explícita após o carregamento do conjunto de dados processado.

In [37]:
df_serv["data_admissao"] = pd.to_datetime(df_serv["data_admissao"], errors="coerce")

In [38]:
df_serv["data_desligamento"] = pd.to_datetime(df_serv["data_desligamento"], errors="coerce")

In [41]:
ordem_meses = [
    "jan", "fev", "mar", "abr", "mai", "jun",
    "jul", "ago", "set", "out", "nov", "dez"
]

df_serv["mes"] = pd.Categorical(
    df_serv["mes"],
    categories=ordem_meses,
    ordered=True
)

In [42]:
df_serv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23995 entries, 0 to 23994
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   id_servidor            23995 non-null  object        
 1   sexo                   23995 non-null  object        
 2   cargo                  23995 non-null  object        
 3   categoria_cargo        23995 non-null  object        
 4   tipo_pagamento         23995 non-null  object        
 5   proventos              23917 non-null  float64       
 6   descontos              23995 non-null  float64       
 7   liquido                23995 non-null  float64       
 8   carga_horaria_semanal  23995 non-null  int64         
 9   data_admissao          23995 non-null  datetime64[ns]
 10  data_desligamento      155 non-null    datetime64[ns]
 11  status_servidor        23995 non-null  object        
 12  mes                    23995 non-null  category      
dtypes

**Observação sobre campos de data**

A coluna `data_desligamento` apresenta majoritariamente valores ausentes (`NaT`), o que indica que a maioria dos servidores encontra-se em exercício ativo. No entanto, alguns registros possuem data de desligamento preenchida.

Para tornar essa informação mais explícita e facilitar as análises, foi criada a coluna `status_servidor`, que classifica o servidor como:

- **ATIVO**: quando `data_desligamento` está ausente (`NaT`)
- **DESLIGADO**: quando existe uma data válida em `data_desligamento`

## Panorama Geral da Força de Trabalho

### 1.1 Snapshot Atual - Dezembro/2025

**Objetivo:** Obter uma visão geral do quadro de servidores municipais ao final de 2025, incluindo:
- Total de servidores ativos
- Total de desligamentos no ano
- Distribuição por gênero
- Razão masculino/feminino