<a href="https://colab.research.google.com/github/esscova/data-analysis/blob/main/EDA_EB_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de Cidadãos alistados no Serviço Militar em 2024
**Autor**: Wellington M Santos - Cientista de Dados</br>
**Contato**: [/in/wellington-moreira-santos/](https://www.linkedin.com/in/wellington-moreira-santos/) - wsantos08@hotmail.com

## Objetivo
Neste notebook irei explorar, analisar, tratar, enriquecer, retirar insights e preparar os dados para modelos de classificadores.

## Sobre o Dataset
São dados de brasileiros que se alistaram no Serviço Militar com ano de nascimento, peso, altura, tamanho da cabeça, número do calçado, tamanho da cintura, município, UF e país de nascimento, estado civil, sexo, escolaridade, ano de alistamento, se foi dispensado ou não, zona residencial, município, uf e país de residência, junta, município e UF da junta.

Catalogação: 07/04/2025</br>
Data de atualização do arquivo: 03/04/2025

Fonte: https://dados.gov.br/dados/conjuntos-dados/servico-militar

## Parte I - Configurações, Dependências e Carregamento de Dados

In [2]:
# dependências
import sys
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# versões
print("\nVersões utilizadas: \n----------------")
print("Versão do Python: ", sys.version.split()[0])
print("Versão do Pandas: ", pd.__version__)
print("Versão Numpy: ", np.__version__)
print("Versão do Seaborn: ", sns.__version__)
print()


Versões utilizadas: 
----------------
Versão do Python:  3.11.13
Versão do Pandas:  2.2.2
Versão Numpy:  2.0.2
Versão do Seaborn:  0.13.2



In [3]:
# configurações
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
plt.style.use('ggplot')

In [13]:
# carga de dados
try:
    df = pd.read_csv("sermil2024.csv", encoding='utf-8', sep=',')
    print("Dados carregados!")
except FileNotFoundError:
    print("Erro: O arquivo não foi encontrado. Verifique o caminho do arquivo.")
except pd.errors.ParserError:
    print("Erro: O arquivo CSV pode estar corrompido ou ter um formato inválido.")
except Exception as e:
    print(f"Erro ao carregar os dados: {e}")

Dados carregados!


## Parte II - Exploração Inicial do Dataset

In [14]:
# dimensoes
print("Dimensão do Dataset: ", df.shape)

Dimensão do Dataset:  (885538, 21)


In [15]:
# primeiras observações
df.head()

Unnamed: 0,ANO_NASCIMENTO,PESO,ALTURA,CABECA,CALCADO,CINTURA,MUN_NASCIMENTO,UF_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,DISPENSA,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA,JSM,MUN_JSM,UF_JSM
0,1998,70.0,169.0,55.0,40.0,82.0,CACERES,MT,BRASIL,Casado,M,3° Ano - Ensino Médio,2024,Com dispensa,Urbana,CACERES,MT,BRASIL,30/24 - CACERES,CACERES,MT
1,1998,72.0,180.0,57.0,38.0,87.0,CAMPO GRANDE,MS,BRASIL,Solteiro,M,3° Semestre - Ensino Superior,2024,Com dispensa,Urbana,CAMPO GRANDE,MS,BRASIL,30/26 - CAMPO GRANDE,CAMPO GRANDE,MS
2,1970,57.0,173.0,59.0,40.0,,MACAPA,AP,BRASIL,Solteiro,M,Ensino Fundamental Completo,2024,Sem dispensa,Urbana,MACAPA,AP,BRASIL,28/45 - MACAPA,MACAPA,AP
3,2003,65.0,170.0,58.0,40.0,77.0,BARUERI,SP,BRASIL,Solteiro,M,2° Semestre - Ensino Superior,2024,Com dispensa,Urbana,BARUERI,SP,BRASIL,4/22 - BARUERI,BARUERI,SP
4,2000,76.0,171.0,55.0,42.0,76.0,RECIFE,PE,BRASIL,Solteiro,M,Ensino Médio Completo,2024,Com dispensa,Urbana,RECIFE,PE,BRASIL,21/1 - RECIFE (COMPAZ DOM HELDER CAMARA),RECIFE,PE


In [16]:
# ultimas observações
df.tail()

Unnamed: 0,ANO_NASCIMENTO,PESO,ALTURA,CABECA,CALCADO,CINTURA,MUN_NASCIMENTO,UF_NASCIMENTO,PAIS_NASCIMENTO,ESTADO_CIVIL,SEXO,ESCOLARIDADE,VINCULACAO_ANO,DISPENSA,ZONA_RESIDENCIAL,MUN_RESIDENCIA,UF_RESIDENCIA,PAIS_RESIDENCIA,JSM,MUN_JSM,UF_JSM
885533,2006,,,,,,FAZENDA RIO GRANDE,PR,BRASIL,Solteiro,M,Ensino Médio Completo,2024,Com dispensa,Urbana,FAZENDA RIO GRANDE,PR,BRASIL,15/326 - FAZENDA RIO GRANDE,FAZENDA RIO GRANDE,PR
885534,2006,,,,,,SOROCABA,SP,BRASIL,Solteiro,M,3° Ano - Ensino Médio,2024,Com dispensa,Urbana,SOROCABA,SP,BRASIL,14/154 - SOROCABA,SOROCABA,SP
885535,2006,,,,,,TAQUARITINGA DO NORTE,PE,BRASIL,Solteiro,M,Ensino Médio Completo,2024,Com dispensa,Rural,TAQUARITINGA DO NORTE,PE,BRASIL,21/99 - TAQUARITINGA DO NORTE,TAQUARITINGA DO NORTE,PE
885536,2006,,,,,,SOROCABA,SP,BRASIL,Solteiro,M,2° Ano - Ensino Médio,2024,Com dispensa,Rural,IBIUNA,SP,BRASIL,14/59 - IBIUNA,IBIUNA,SP
885537,2006,,,,,,EUCLIDES DA CUNHA,BA,BRASIL,Solteiro,M,2° Ano - Ensino Médio,2024,Com dispensa,Urbana,QUIJINGUE,BA,BRASIL,17/60 - QUIJINGUE,QUIJINGUE,BA


In [18]:
# variaveis
df.columns

Index(['ANO_NASCIMENTO', 'PESO', 'ALTURA', 'CABECA', 'CALCADO', 'CINTURA',
       'MUN_NASCIMENTO', 'UF_NASCIMENTO', 'PAIS_NASCIMENTO', 'ESTADO_CIVIL',
       'SEXO', 'ESCOLARIDADE', 'VINCULACAO_ANO', 'DISPENSA',
       'ZONA_RESIDENCIAL', 'MUN_RESIDENCIA', 'UF_RESIDENCIA',
       'PAIS_RESIDENCIA', 'JSM', 'MUN_JSM', 'UF_JSM'],
      dtype='object')

In [17]:
# tipo de dados
df.dtypes

Unnamed: 0,0
ANO_NASCIMENTO,int64
PESO,float64
ALTURA,float64
CABECA,float64
CALCADO,float64
CINTURA,float64
MUN_NASCIMENTO,object
UF_NASCIMENTO,object
PAIS_NASCIMENTO,object
ESTADO_CIVIL,object


In [19]:
# informações gerais
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 885538 entries, 0 to 885537
Data columns (total 21 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   ANO_NASCIMENTO    885538 non-null  int64  
 1   PESO              344226 non-null  float64
 2   ALTURA            344185 non-null  float64
 3   CABECA            343999 non-null  float64
 4   CALCADO           343989 non-null  float64
 5   CINTURA           343986 non-null  float64
 6   MUN_NASCIMENTO    885538 non-null  object 
 7   UF_NASCIMENTO     885538 non-null  object 
 8   PAIS_NASCIMENTO   885538 non-null  object 
 9   ESTADO_CIVIL      885538 non-null  object 
 10  SEXO              885538 non-null  object 
 11  ESCOLARIDADE      885538 non-null  object 
 12  VINCULACAO_ANO    885538 non-null  int64  
 13  DISPENSA          885533 non-null  object 
 14  ZONA_RESIDENCIAL  885538 non-null  object 
 15  MUN_RESIDENCIA    885538 non-null  object 
 16  UF_RESIDENCIA     88

In [20]:
# dados faltantes
df.isnull().sum()

Unnamed: 0,0
ANO_NASCIMENTO,0
PESO,541312
ALTURA,541353
CABECA,541539
CALCADO,541549
CINTURA,541552
MUN_NASCIMENTO,0
UF_NASCIMENTO,0
PAIS_NASCIMENTO,0
ESTADO_CIVIL,0


In [21]:
# percentual de dados faltantes
(df.isnull().sum() / df.shape[0]) * 100

Unnamed: 0,0
ANO_NASCIMENTO,0.0
PESO,61.128037
ALTURA,61.132667
CABECA,61.153672
CALCADO,61.154801
CINTURA,61.15514
MUN_NASCIMENTO,0.0
UF_NASCIMENTO,0.0
PAIS_NASCIMENTO,0.0
ESTADO_CIVIL,0.0


### Relatório da Exploração Inicial
O Dataset possui 885.538 mil registros com 21 variáveis, já na visualização das últimas observações percebe-se a presença de dados faltantes.

Durante a busca de dados nulos é confirmada a grande ausência de dados, mais de 60% dos dados de medidas físicas estão ausentes. Isso é uma informação crucial. Qualquer análise sobre o perfil físico dos alistados (como o peso médio) será baseada em apenas 40% da amostra. É importante ter isso em mente.