# Análise dos Dados do Cadastro Único

O ojetivo desse trabalho é fazer a análise completa de uma base de dados reais. Vocês devem aplicar os conceitos de análise, transformação e visualização de dados vistos em sala de aula para analisar, entender e trazer informações da base proposta.

## Sobre a base 

A base disponibilizada consiste em dados do Cadastro Único do governo federal. Segundo o manual do pesquisador, o _"Cadastro Único para Programas Sociais do Governo Federal – ou simplesmente Cadastro Único, como é mais conhecido – é um instrumento que possibilita a identificação e a caracterização socioeconômica das famílias brasileiras de baixa renda"._ Mais informações sobre o cadastro único podem ser encontradas no [manual do pesquisador](https://aplicacoes.mds.gov.br/sagirmps/ferramentas/docs/manual_do_pesquisador_cadastro_unico_semlogo.pdf). 

Os microdados especificados nesta base possui uma informação importante que é a marcação do bolsa família. Essa marcação indica se uma família é beneficiária ou não do programa bolsa família. Segundo o manual do pesquisador, _"o Programa Bolsa Família (PBF) é um programa de transferência direta de renda com condicionalidades, que visa melhorar a vida das famílias em situação de pobreza e extrema pobreza do Brasil. O Programa foi criado pelo Governo Federal, em 2003, por meio da Medida Provisória nº 132, que posteriormente foi convertida na Lei n° 10.836, de 9 de janeiro de 2004"_. Mais informações sobre o bolsa família podem ser encontradas no [manual do pesquisador](https://aplicacoes.mds.gov.br/sagirmps/ferramentas/docs/manual_do_pesquisador_gestao_bolsa_familia_semlogo.pdf). 

Os dados são compostos por dois arquivos: a base família e a base pessoas. As bases são desidentificadas, ou seja, não possuem informações que permitam identificar quem são as pessoas. Cada base é composta por uma série de identificadores sócio-econômico das pessoas e famílias. Existe um identificador que permite associar família e pessoas. 

A base completa pode ser encontrada neste repositório na pasta `datasets/bolsafamilia/`. A base possui 3 arquivos:

* **data_familia_sergipe.csv**: dados das famílias.
* **data_pessoas_sergipe.csv**: dadaos das pessoas.
* **Dicionario_base_desidentificada_pt.xlsx**: dicionário de dados explicando o que é cada uma dos campos das bases. 

Os dados foram coletados até o final de 2018. 

In [1]:
# imports necessários

import pandas as pd

Os dados podem ser lidos a partir do código a seguir: 

In [3]:
# leitura dos dados das famílias

data_familia = pd.read_csv("../datasets/bolsa_familia/data_familia_sergipe.csv")
data_familia.head()

Unnamed: 0,cd_ibge,estrato,classf,id_familia,dat_cadastramento_fam,dat_alteracao_fam,vlr_renda_media_fam,dat_atualizacao_familia,cod_local_domic_fam,cod_especie_domic_fam,...,cod_familia_indigena_fam,ind_familia_quilombola_fam,nom_estab_assist_saude_fam,cod_eas_fam,nom_centro_assist_fam,cod_centro_assist_fam,ind_parc_mds_fam,marc_pbf,qtde_pessoas,peso.fam
0,2806206,2,3,183415.0,2006-01-07,2018-09-30,58.0,2018-02-27,1.0,1.0,...,2.0,2.0,P S IVA SALGUEIRO,2421836.0,CRAS CENTRO DE REFERENCIA DA ASSISTENCIA SOCIAL,28062000000.0,0.0,0,4,550052838636015
1,2803609,2,3,183416.0,2010-03-09,2018-09-30,190.0,2018-07-20,2.0,1.0,...,2.0,2.0,POSTO DE SAUDE RICARDO HAGENBECK,2421380.0,CRAS ANGELA MARIA DE CARVALHO LIMA BOMFIM,28036020000.0,0.0,0,5,550245146328323
2,2803203,2,3,183417.0,2006-02-25,2018-09-30,100.0,2018-08-21,1.0,1.0,...,2.0,2.0,,,,,0.0,1,2,550305936601879
3,2805703,2,3,183418.0,2004-05-25,2017-12-15,937.0,2017-11-09,1.0,1.0,...,2.0,2.0,,,,,0.0,0,1,550405659971983
4,2805307,1,3,183419.0,2016-03-31,2018-10-15,25.0,2018-10-15,2.0,1.0,...,2.0,2.0,,,,,0.0,1,2,550245146328323


In [4]:
print("Total de linhas: %i \nTotal de instâncias: %i" % (data_familia.shape[0], data_familia.shape[1]))

Total de linhas: 82275 
Total de instâncias: 31


In [5]:
# leitura dos dados das pessoas

data_pessoas = pd.read_csv("../datasets/bolsa_familia/data_pessoas_sergipe.csv")
data_pessoas.head()

Unnamed: 0,cd_ibge,estrato,classf,id_familia,id_pessoa,cod_sexo_pessoa,idade,cod_parentesco_rf_pessoa,cod_raca_cor_pessoa,cod_local_nascimento_pessoa,...,cod_trabalho_12_meses_memb,qtd_meses_12_meses_memb,val_renda_bruta_12_meses_memb,val_renda_doacao_memb,val_renda_aposent_memb,val_renda_seguro_desemp_memb,val_renda_pensao_alimen_memb,val_outras_rendas_memb,peso.fam,peso.pes
0,2805208,1,3,206870.0,24.0,1,19,1,4.0,1.0,...,2.0,,,0.0,0.0,0.0,0.0,100.0,550245146328323,563273265962979
1,2805505,2,3,1936145.0,35.0,1,17,3,4.0,1.0,...,2.0,,,0.0,0.0,0.0,0.0,0.0,550245146328323,563340413648347
2,2800308,2,1,4239973.0,103.0,1,4,3,4.0,1.0,...,,,,,0.0,,0.0,,550245146328323,56328235405831
3,2805604,2,3,2022175.0,324.0,2,4,3,4.0,1.0,...,,,,,0.0,,100.0,,550390600873778,563301639311753
4,2801306,2,3,2300485.0,328.0,1,7,3,2.0,2.0,...,,,,,0.0,,100.0,,550361832442675,563323831491962


In [6]:
print("Total de linhas: %i \nTotal de instâncias: %i" % (data_pessoas.shape[0], data_pessoas.shape[1]))

Total de linhas: 205614 
Total de instâncias: 35


## Atividade

A atividade consiste em fazer uma análise dos dados disponibilizados com o objetivo de entende-los e encontrar informações relevantes, de acordo com as regras do cadastro único e do bolsa família, que ajudem a responder as perguntas elaboradas para a atividade. Caso seja necessário, deve-se fazer a transformação dos dados com a finalidade de melhor organizar as informações disponibilizadas. Por fim, deve-se criar algumas visualizações para dar suporte na análise completa dos dados.

A análise deve procurar responder as seguintes perguntas: 

* **Qual o perfil das famílias e pessoas que recebem bolsa família em Sergipe?**
* **O perfil mapeado está de acordo com os critérios estabelicidos pera o Bolsa Família?**





In [7]:
# Comece a sua análise a partir deste ponto.