# Análise Geral dos dados

Este arquivo apresenta uma visão geral dos dados do RGPS no período de 1995 a 2016.

## Estrutura do banco de dados

Inicialmente é apresentada uma visão geral da estrutura do banco de dados.

In [7]:
import sqlite3
import pandas as pd
                        
# Função que executa as queries no banco de dados
def run_query(q):
    with sqlite3.connect('microdados/sqlite3/microdadosRGPS.db') as conn:
        return pd.read_sql(q, conn)

Lendo as tabelas do banco dados:

In [8]:
query = "SELECT name,type FROM sqlite_master WHERE type IN ('table')"
run_query(query)

Unnamed: 0,name,type
0,apos_aux,table
1,pensoes,table


O banco possui duas tabelas, uma com os dados das aposentadorias e auxílios (***apos_aux***)e outra com as pensões.

Em seguida, verificamos o esquema e quantidade de registros em cada uma das tabelas:

In [19]:
for t in ["apos_aux", "pensoes"]:
    registros = run_query('SELECT COUNT(ESPECIE) as count FROM {}'.format(t)).loc[0,'count']
    print("\nTabela: {} - {} registros".format(t,registros))
    print("Esquema da tabela:")
    print(run_query("pragma table_info(apos_aux);"))
    print("-"*40)    


Tabela: apos_aux - 57955872 registros
Esquema da tabela:
    cid           name     type  notnull dflt_value  pk
0     0        ESPECIE  INTEGER        0       None   0
1     1            DIB     TEXT        0       None   0
2     2            DDB     TEXT        0       None   0
3     3   MOT_CESSACAO  INTEGER        0       None   0
4     4  ULT_COMPET_MR  INTEGER        0       None   0
5     5          VL_MR     TEXT        0       None   0
6     6        DT_NASC     TEXT        0       None   0
7     7         VL_RMI     TEXT        0       None   0
8     8      CLIENTELA  INTEGER        0       None   0
9     9           SEXO  INTEGER        0       None   0
10   10       SITUACAO  INTEGER        0       None   0
11   11       DT_OBITO     TEXT        0       None   0
12   12      IDADE_DIB  INTEGER        0       None   0
13   13  TEMPO_CONTRIB  INTEGER        0       None   0
----------------------------------------

Tabela: pensoes - 7964185 registros
Esquema da tabela:
    c

Como observado a tabela ***apos_aux*** possui mais de 57 milhões de registros e a tabela ***pensoes*** possui quase 8 milhões de registros.
Além das quantidades de registros, a saída também apresenta os esquemas de cada umas das tabelas, sendo que ambas possuem 14 colunas.

A tabela abaixo apresenta uma breve descrição do significado das três primeiras colunas da tabela ***apos_aux***. 
O arquivo ***metadados.xls***, apresenta uma descrição detalhada de ambas as tabelas.

|CAMPO|DESCRIÇÃO|
|---|---|
|ESPECIE|Espécie de Benefício|
|DIB|Data de Início do Benefício|
|DDB|Data de Despacho do Benefício|
|MOT_CESSACAO|Motivo de Cessação|

A maioria dos dados é apresentada com códigos, assim, para o entendimento dos dados é necessário utilizar o arquivo ***dicionario.txt***, disponibilizado junto com banco, para que se possa entender os dados de cada coluna.
Abaixo segue uma parte do arquivo de dicionário:

* ESPÉCIE DE BENEFÍCIO (ESPECIE)

|CÓDIGO|VALOR|
|---|---|
|'01'|'B01 Pensão por morte do trab. rural'|    
|'02'|'B02 Pensão por morte acid. do trab. rural'|
|...||
|'95'|'B95 Auxílio-suplementar por acidente do trabalho'|
|'96'|'B96 Pensão especias às pessoas atingidas pela hanseníase'|


* VÍNCULO DE DEPENDENTE (VINC_DEP)

|CÓDIGO|VALOR|
|---|---|
|1|"Cônjuge"|
|2|"Filho(a)"| 
|...||
|9|"Dependente judicial"|
|99|"Ignorado"|
    

## Visão geral dos dados de Aposentadorias e Auxílios

Como primeira parte da análise, segue uma visão dos dados contidos na tabela ***apos_aux***.

------------------
<span style="font-size: 12px"><i>
Em desenvolvimento...<br>
</i></span>