In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import gdown

# Dataset CadUnico #1

https://repositorio.seade.gov.br/dataset/objetivo-estrategico-4-assistencia-social


In [2]:
df1 = pd.read_csv("oe04_gini.csv", sep = ";")
df2 = pd.read_csv("oe04_rend_dom_ate_meio_sm.csv", sep = ";")
df3 = pd.read_csv("oe04_fam_situacao_rua.csv", sep = ";")
df4 = pd.read_csv("oe04_rend_cadunico_meio_sm.csv", sep = ";")


Nessa seção, foi feita uma análise inicial dos dados. Foi possivel observar que temos 12 anos de informação em todos datasets, embora esses anos variem de acordo com o dataset (alguns sao de 2012 a 2023, alguns são de 2013 a 2024). Também verificamos que não existem dados nulos neste dataset, e que os dados municipais estão completos, incluindo com todos os anos que falamos que estão inclusos.

## Gini -> Estatal (2012 - 2023)

In [3]:
df1.head()

Unnamed: 0,ano,cod_ibge,ind_gini
0,2023,35,504
1,2022,35,5
2,2021,35,533
3,2020,35,522
4,2019,35,526


In [4]:
df1.shape

(12, 3)

In [5]:
df1.isnull().sum()

ano         0
cod_ibge    0
ind_gini    0
dtype: int64

Esse DataSet possui o indice de Gini para o Estado de São Paulo de 2012 a 2023



##Renda - Domiciliar PerCapita abaixo de 1/2 SM -> Por Região de SP (2012 - 2023)

In [6]:
df2.head()

Unnamed: 0,ano,regiao_sp,pop_rd_ate_meio_sm,pop_pnadc,perc_rd_ate_meio_sm
0,2023,ESP,7542004,47315515,159
1,2022,ESP,8594777,46972977,183
2,2021,ESP,10430493,46623128,224
3,2020,ESP,8906112,46269533,192
4,2019,ESP,7744515,45888809,169


In [7]:
df2.shape

(36, 5)

In [8]:
df2.isnull().sum()

ano                    0
regiao_sp              0
pop_rd_ate_meio_sm     0
pop_pnadc              0
perc_rd_ate_meio_sm    0
dtype: int64

Esse Dataset possui a populacao ate meio salario minimo, por regiao de sao paulo, de 2012 a 2023

## Famílias em Situação de Rua -> Municipal (2013 - 2024)

In [9]:
df3.head()

Unnamed: 0,ano,cod_ibge,n_fam_rua
0,2024,35,135257
1,2023,35,103083
2,2022,35,80551
3,2021,35,62553
4,2020,35,61333


In [10]:
df3.cod_ibge.unique()

array([     35, 3500105, 3500204, 3500303, 3500402, 3500501, 3500550,
       3500600, 3500709, 3500758, 3500808, 3500907, 3501004, 3501103,
       3501152, 3501202, 3501301, 3501400, 3501509, 3501608, 3501707,
       3501806, 3501905, 3502002, 3502101, 3502200, 3502309, 3502408,
       3502507, 3502606, 3502705, 3502754, 3502804, 3502903, 3503000,
       3503109, 3503158, 3503208, 3503307, 3503356, 3503406, 3503505,
       3503604, 3503703, 3503802, 3503901, 3503950, 3504008, 3504107,
       3504206, 3504305, 3504404, 3504503, 3504602, 3504701, 3504800,
       3504909, 3505005, 3505104, 3505203, 3505302, 3505351, 3505401,
       3505500, 3505609, 3505708, 3505807, 3505906, 3506003, 3506102,
       3506201, 3506300, 3506359, 3506409, 3506508, 3506607, 3506706,
       3506805, 3506904, 3507001, 3507100, 3507159, 3507209, 3507308,
       3507407, 3507456, 3507506, 3507605, 3507704, 3507753, 3507803,
       3507902, 3508009, 3508108, 3508207, 3508306, 3508405, 3508504,
       3508603, 3508

In [11]:
df3.shape

(7752, 3)

In [12]:
# Filtra os anos do df3
df3_restrito = df3[(df3['ano'] == 2013) | (df3['ano'] == 2014) | (df3['ano'] == 2015) | (df3['ano'] == 2016) | (df3['ano'] == 2017) | (df3['ano'] == 2018) | (df3['ano'] == 2019) | (df3['ano'] == 2020)].copy()

display(df3_restrito.shape)

(5168, 3)

In [13]:
# Número de Códigos IBGE
num_unique_ibge_df3 = df3['cod_ibge'].nunique()
print(f"Number of unique IBGE codes in df3: {num_unique_ibge_df3}")

Number of unique IBGE codes in df3: 646


In [14]:
# Anos Esperados
expected_years_range = set(range(2013, 2025))

#conferir se todos os anos possuem informacao para todos municipios
years_by_ibge = df3.groupby('cod_ibge')['ano'].unique()
all_years_match = (years_by_ibge.apply(lambda x: set(x) == expected_years_range)).all()

if all_years_match:
    print("Todos municípios tem dados para todos os anos esperados.")


Todos municípios tem dados para todos os anos esperados.


In [15]:
df3.isnull().sum()

ano          0
cod_ibge     0
n_fam_rua    0
dtype: int64

In [16]:
df3_restrito.query('cod_ibge != 35')

Unnamed: 0,ano,cod_ibge,n_fam_rua
2592,2020,3500105,5
2593,2020,3500204,2
2594,2020,3500303,3
2595,2020,3500402,3
2596,2020,3500501,4
...,...,...,...
7747,2013,3557006,5
7748,2013,3557105,0
7749,2013,3557154,0
7750,2013,3557204,0


## Renda - Domiciliar PerCapita abaixo de 1/2 SM -> Municipal (2013 - 2024)



In [17]:
df4.head()

Unnamed: 0,ano,cod_ibge,pes_rf_ate_meio_sm,pes_insc_cadun,perc_rf_ate_meio_sm
0,2024,35,9329191,14061964,663
1,2023,35,10068823,14831766,679
2,2022,35,11326070,13910888,814
3,2021,35,9596213,11893122,807
4,2020,35,8524275,10685553,798


In [18]:
df4.shape

(7752, 5)

In [19]:
# Número de anos
num_unique_ano_df4 = df4['ano'].nunique()
print(f"Number of anos df3: {num_unique_ano_df4}")

Number of anos df3: 12


In [20]:
# Número de Códigos IBGE
num_unique_ibge_df4 = df4['cod_ibge'].nunique()
print(f"Number of unique IBGE codes in df3: {num_unique_ibge_df4}")

Number of unique IBGE codes in df3: 646


In [21]:
expected_years_range = set(range(2013, 2025))

years_by_ibge = df4.groupby('cod_ibge')['ano'].unique()
all_years_match = (years_by_ibge.apply(lambda x: set(x) == expected_years_range)).all()

if all_years_match:
    print("Todos municípios tem dados para todos os anos esperados.")


Todos municípios tem dados para todos os anos esperados.


In [22]:
# Filtragem de anos pro df4
df4_restrito = df4[(df4['ano'] == 2013) | (df4['ano'] == 2014) | (df4['ano'] == 2015) | (df4['ano'] == 2016) | (df4['ano'] == 2017) | (df4['ano'] == 2018) | (df4['ano'] == 2019) | (df4['ano'] == 2020)].copy()

display(df4_restrito.shape)

(5168, 5)

In [23]:
df3.isnull().sum()

ano          0
cod_ibge     0
n_fam_rua    0
dtype: int64

In [24]:
df4_restrito

Unnamed: 0,ano,cod_ibge,pes_rf_ate_meio_sm,pes_insc_cadun,perc_rf_ate_meio_sm
4,2020,35,8524275,10685553,798
5,2019,35,8455169,10859041,779
6,2018,35,8263861,10309786,802
7,2017,35,8839373,10536889,839
8,2016,35,8543383,10460801,817
...,...,...,...,...,...
7747,2013,3557006,21894,23221,943
7748,2013,3557105,24078,32482,741
7749,2013,3557154,552,687,803
7750,2013,3557204,4379,4943,886


In [25]:
df4_restrito.query('cod_ibge != 35')

Unnamed: 0,ano,cod_ibge,pes_rf_ate_meio_sm,pes_insc_cadun,perc_rf_ate_meio_sm
2592,2020,3500105,3132,5109,613
2593,2020,3500204,1183,1749,676
2594,2020,3500303,8013,9548,839
2595,2020,3500402,1331,2019,659
2596,2020,3500501,2386,3207,744
...,...,...,...,...,...
7747,2013,3557006,21894,23221,943
7748,2013,3557105,24078,32482,741
7749,2013,3557154,552,687,803
7750,2013,3557204,4379,4943,886


# Dataset CadÚnico #2 (2018+)

https://repositorio.seade.gov.br/dataset/transferencia-de-renda-painel

In [26]:
df5 = pd.read_csv("bd_cad_pbf.csv", sep = ";", encoding='latin-1')
df6 = pd.read_csv("br_sp_var.csv", sep = ";", encoding='latin-1')
df7 = pd.read_csv("bd_bpc.csv", sep = ";", encoding='latin-1') #o gdown não conseguiu puxar
df8 = pd.read_csv("uf.csv", sep = ";", encoding='latin-1')

  df5 = pd.read_csv("bd_cad_pbf.csv", sep = ";", encoding='latin-1')


In [27]:
!gdown

usage: gdown [-h] [-V] [-O OUTPUT] [-q] [--fuzzy] [--id] [--proxy PROXY]
             [--speed SPEED] [--no-cookies] [--no-check-certificate]
             [--continue] [--folder] [--remaining-ok] [--format FORMAT]
             [--user-agent USER_AGENT]
             url_or_id
gdown: error: the following arguments are required: url_or_id


In [28]:
df5dic = pd.read_csv("bd_cad_pbf_dicionario.csv", sep = ";", encoding='latin-1')
df6dic = pd.read_csv("br_sp_var_dicionario.csv", sep = ";", encoding='latin-1')
df7dic = pd.read_csv("bd_bpc_dicionario.csv", sep = ";", encoding='latin-1')
df8dic = pd.read_csv("uf_dicionario.csv", sep = ";", encoding='latin-1')

## Cadastro Único - Programa Bolsa Família (PBF) - ESP

In [29]:
df5.head()

Unnamed: 0,Cod_Mun,Mun,RA,Referência,Pes_PBF,Pes_Cad,Fam_Cad,Fam_PBF,Domic_20,Pop_20,...,MapSeq,F_PBF_EP,F_CAD_EP,Pes_Aux,Fam_Aux,Fam_PBF_Aux,Fam_PBF_2,F_Aux_Domi,Map_Aux,MapSeq_Aux
0,3500105,Adamantina,RA de Presidente Prudente,jan/18,1012.0,5306,1871,291.0,12328,33894,...,4,72,85.0,1012,,291.0,,,,
1,3500204,Adolfo,RA de São José do Rio Preto,jan/18,552.0,1559,581,175.0,1280,3447,...,3,124,148.0,552,,175.0,,,,
2,3500303,Aguaí,RA de Campinas,jan/18,5074.0,12637,4213,1402.0,12063,35608,...,3,680,809.0,5074,,1402.0,,,,
3,3500402,Águas da Prata,RA de Campinas,jan/18,577.0,1749,542,144.0,2780,7797,...,4,85,104.0,577,,144.0,,,,
4,3500501,Águas de Lindóia,RA de Campinas,jan/18,953.0,2510,868,297.0,6305,18374,...,4,148,186.0,953,,297.0,,,,


In [30]:
df5.shape


(57405, 22)

In [31]:
df5dic


Unnamed: 0,Variáveis,Nome,Fonte
0,Cod_Mun,Códido do Município,IBGE
1,Mun,Nome do Município,IBGE
2,RA,Nome da Região Administrativa,Fundação Seade.
3,Referência,Data (mês e ano),Ministério do Desenvolvimento e Assistência So...
4,Pes_PBF,Número de pessoas beneficiárias do Programa Bo...,Ministério do Desenvolvimento e Assistência So...
5,Pes_Cad,Número de pessoas inscritas no CadÚnico,Ministério do Desenvolvimento e Assistência So...
6,Fam_Cad,Número de famílias incritas no CadÚnico,Ministério do Desenvolvimento e Assistência So...
7,Fam_PBF,Número de famílias beneficiárias do PBF,Ministério do Desenvolvimento e Assistência So...
8,Domic_20,Número de domicílios,Fundação Seade. Estimativas Populacionais. IBG...
9,Pop_20,Número de pessoas,Fundação Seade. Estimativas Populacionais. IBG...


In [32]:
num_unique_cod_mun_df5 = df5['Cod_Mun'].nunique()
print(f"Number of unique Cod_Mun in df5: {num_unique_cod_mun_df5}")

Number of unique Cod_Mun in df5: 645


In [33]:
df5[['mes', 'ano']] = df5['Referência'].str.split('/', expand=True)


In [34]:
df5.ano.unique()

array(['18', '19', '20', '21', '22', '23', '24', '25'], dtype=object)

In [35]:
df5[df5['ano'].isin(['18', '19', '20'])]

Unnamed: 0,Cod_Mun,Mun,RA,Referência,Pes_PBF,Pes_Cad,Fam_Cad,Fam_PBF,Domic_20,Pop_20,...,F_CAD_EP,Pes_Aux,Fam_Aux,Fam_PBF_Aux,Fam_PBF_2,F_Aux_Domi,Map_Aux,MapSeq_Aux,mes,ano
0,3500105,Adamantina,RA de Presidente Prudente,jan/18,1012.0,5306,1871,291.0,12328,33894,...,85.0,1012,,291.0,,,,,jan,18
1,3500204,Adolfo,RA de São José do Rio Preto,jan/18,552.0,1559,581,175.0,1280,3447,...,148.0,552,,175.0,,,,,jan,18
2,3500303,Aguaí,RA de Campinas,jan/18,5074.0,12637,4213,1402.0,12063,35608,...,809.0,5074,,1402.0,,,,,jan,18
3,3500402,Águas da Prata,RA de Campinas,jan/18,577.0,1749,542,144.0,2780,7797,...,104.0,577,,144.0,,,,,jan,18
4,3500501,Águas de Lindóia,RA de Campinas,jan/18,953.0,2510,868,297.0,6305,18374,...,186.0,953,,297.0,,,,,jan,18
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23215,3557006,Votorantim,RA de Sorocaba,dez/20,10294.0,20361,7163,3412.0,39510,119824,...,3158.0,10294,,3412.0,,,,,dez,20
23216,3557105,Votuporanga,RA de São José do Rio Preto,dez/20,6709.0,20422,8686,2559.0,34514,91760,...,2683.0,6709,,2559.0,,,,,dez,20
23217,3557154,Zacarias,RA de São José do Rio Preto,dez/20,272.0,1207,453,84.0,952,2560,...,49.0,272,,84.0,,,,,dez,20
23218,3557204,Chavantes,RA de Marília,dez/20,2018.0,4012,1442,642.0,4049,12223,...,615.0,2018,,642.0,,,,,dez,20


In [36]:
df5_restrito = df5[(df5['ano'] == '18') | (df5['ano'] == '19') | (df5['ano'] == '20')]

In [37]:
df5_restrito.shape

(23220, 24)

In [38]:
df5_restrito.isnull().sum()

Cod_Mun            0
Mun                0
RA                 0
Referência         0
Pes_PBF            0
Pes_Cad            0
Fam_Cad            0
Fam_PBF            0
Domic_20           0
Pop_20             0
F_PBF_Domi         0
Map                0
MapSeq             0
F_PBF_EP           0
F_CAD_EP           0
Pes_Aux            0
Fam_Aux        23220
Fam_PBF_Aux        0
Fam_PBF_2      23220
F_Aux_Domi     23220
Map_Aux        23220
MapSeq_Aux     23220
mes                0
ano                0
dtype: int64

In [39]:
df5.isnull().sum()


Cod_Mun            0
Mun                0
RA                 0
Referência         0
Pes_PBF        27735
Pes_Cad            0
Fam_Cad            0
Fam_PBF        27735
Domic_20           0
Pop_20             0
F_PBF_Domi         0
Map                0
MapSeq             0
F_PBF_EP        1290
F_CAD_EP           5
Pes_Aux            0
Fam_Aux        47085
Fam_PBF_Aux        0
Fam_PBF_2      39990
F_Aux_Domi     39345
Map_Aux        39345
MapSeq_Aux     39345
mes                0
ano                0
dtype: int64

## Cadastro Único - Programa Bolsa Família - Brasil e ESP

In [40]:
df6.head()

Unnamed: 0,Anomes,BR_CAD_F,BR_PBF_F,BR_PBF_FV,SP_CAD_F,SP_PBF_F,SP_PBF_FV,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,2018-01,23.426.757,12.436.457,,3.868.154,1.564.882,,,,
1,2018-02,23.651.349,12.497.668,5.0,3.915.457,1.583.160,12.0,,,
2,2018-03,22.913.242,12.564.170,5.0,3.785.046,1.600.868,11.0,,,
3,2018-04,23.195.047,12.249.285,-25.0,3.842.336,1.523.619,-48.0,,,
4,2018-05,23.547.867,12.380.654,11.0,3.917.587,1.538.775,10.0,,,


In [41]:
df6dic

Unnamed: 0,Variáveis,Nome,Fonte,Nota
0,Anomes,Data (mês e ano),Ministério do Desenvolvimento e Assistência So...,
1,BR_CAD_F,Número de famílias inscritas no CadÚnico (Bras...,Ministério do Desenvolvimento e Assistência So...,
2,BR_PBF_F,Número de famílias beneficiárias do PBF (Brasi...,Ministério do Desenvolvimento e Assistência So...,O Programa Bolsa Família - PBF esteve vigente ...
3,,,,
4,BR_PBF_FV,Variação percentual do número de famílias bene...,Fundação Seade.,
5,SP_CAD_F,Número de famílias inscritas no CadÚnico (Esta...,Ministério do Desenvolvimento e Assistência So...,
6,SP_PBF_F,Número de famílias beneficiárias do PBF (Estad...,Ministério do Desenvolvimento e Assistência So...,O Programa Bolsa Família - PBF esteve vigente ...
7,,,,
8,SP_PBF_FV,Variação percentual do número de famílias bene...,Fundação Seade.,


In [42]:
df6[['Ano', 'Mes']] = df6['Anomes'].str.split('-', expand=True)
display(df6.head())

Unnamed: 0,Anomes,BR_CAD_F,BR_PBF_F,BR_PBF_FV,SP_CAD_F,SP_PBF_F,SP_PBF_FV,Unnamed: 7,Unnamed: 8,Unnamed: 9,Ano,Mes
0,2018-01,23.426.757,12.436.457,,3.868.154,1.564.882,,,,,2018,1
1,2018-02,23.651.349,12.497.668,5.0,3.915.457,1.583.160,12.0,,,,2018,2
2,2018-03,22.913.242,12.564.170,5.0,3.785.046,1.600.868,11.0,,,,2018,3
3,2018-04,23.195.047,12.249.285,-25.0,3.842.336,1.523.619,-48.0,,,,2018,4
4,2018-05,23.547.867,12.380.654,11.0,3.917.587,1.538.775,10.0,,,,2018,5


In [43]:
for i in range(7, 10):
    col_name = df6.columns[i]
    is_all_nan = df6[col_name].isnull().all()
    print(f"Column '{col_name}' (index {i}) is all NaN: {is_all_nan}")

Column 'Unnamed: 7' (index 7) is all NaN: True
Column 'Unnamed: 8' (index 8) is all NaN: True
Column 'Unnamed: 9' (index 9) is all NaN: True


In [44]:
colunas_nulas = ['Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9']
df6.drop(colunas_nulas, axis=1, inplace=True)
df6.drop('Anomes', axis =1, inplace = True)

In [45]:
df6.shape

(96, 8)

In [46]:
meses_por_ano = df6.groupby('Ano')['Mes'].nunique()
meses_por_ano

Ano
2018    12
2019    12
2020    12
2021    12
2022    12
2023    12
2024    12
2025     5
Name: Mes, dtype: int64

Se o shape é (96,7), eu estou esperando 96 instâncias, entretanto, acima só existem 89. Vou tentar descobrir abaico onde estão as restantes.

In [47]:
colunas_sem_ano = df6[df6['Ano'].isnull()]
display(colunas_sem_ano)


Unnamed: 0,BR_CAD_F,BR_PBF_F,BR_PBF_FV,SP_CAD_F,SP_PBF_F,SP_PBF_FV,Ano,Mes
89,,,,,,,,
90,,,,,,,,
91,,,,,,,,
92,,,,,,,,
93,,,,,,,,
94,,,,,,,,
95,,,,,,,,


Faz sentido que elas estejam aqui para um dia serem preenchidas com os demais dados de 2025? Sim. Faz sentidos que elas estejam aqui para esse projeto? Não mesmo.

In [48]:
df6.dropna(how='all', inplace=True)
display(df6.shape)

(89, 8)

In [49]:
df6[df6.isnull().any(axis=1)]


Unnamed: 0,BR_CAD_F,BR_PBF_F,BR_PBF_FV,SP_CAD_F,SP_PBF_F,SP_PBF_FV,Ano,Mes
0,23.426.757,12.436.457,,3.868.154,1.564.882,,2018,1


Essa linha com NaN é porque o cálculo da variação percentual ao perido anterior, e aqui nao há informação referente a esse período.

## Benefício de Prestação Continuada (BPC) - ESP

In [50]:
df7.head()

Unnamed: 0,Cod_Mun,Mun,RA,Referência,PCD_BPC,Ido_BPC,Bem_BPC,Pop_65_mais,Pop_2020,Ido_BPC_Idoso65%,BPC_Pop%,Map,MapSeq,65_menos_Idoso_BPC,Unnamed: 14
0,3500105,Adamantina,RA de Presidente Prudente,jan/18,384.0,206.0,590,5282,33894,39,17,"1 a 1,9",3,5076.0,
1,3500204,Adolfo,RA de São José do Rio Preto,jan/18,21.0,19.0,40,521,3447,36,12,"1 a 1,9",3,502.0,
2,3500303,Aguaí,RA de Campinas,jan/18,337.0,184.0,521,3527,35608,52,15,"1 a 1,9",3,3343.0,
3,3500402,Águas da Prata,RA de Campinas,jan/18,47.0,79.0,126,1236,7797,64,16,"1 a 1,9",3,1157.0,
4,3500501,Águas de Lindóia,RA de Campinas,jan/18,161.0,129.0,290,2301,18374,56,16,"1 a 1,9",3,2172.0,


In [51]:
df7dic

Unnamed: 0,Variáveis,Nome,Fonte
0,Cod_Mun,Códido do Município,IBGE
1,Mun,Nome do Município,IBGE
2,RA,Nome da Região Administrativa,Fundação Seade.
3,Referência,Data (mês e ano),Ministério do Desenvolvimento e Assistência So...
4,PCD_BPC,Número de pessoas com decifiência beneficiária...,Ministério do Desenvolvimento e Assistência So...
5,Ido_BPC,Número de pessoas idosas beneficiárias do BPC,Ministério do Desenvolvimento e Assistência So...
6,Bem_BPC,Número de pessoas beneficiárias do BPC,Ministério do Desenvolvimento e Assistência So...
7,Pop_65_mais,Número de pessoas com 65 anos ou mais,Fundação Seade. Estimativas Populacionais.
8,Pop_2021,Número de pessoas,Fundação Seade. Estimativas Populacionais.
9,Ido_BPC_Idoso65%,Participação de pessoas idosas beneficiárias d...,Fundação Seade.


In [52]:
print(df7.iloc[:, -1].isnull().all())


True


In [53]:

if df7.iloc[:, -1].isnull().all():
    # Drop the last column
    df7.drop(df7.columns[-1], axis=1, inplace=True)
    print("Dropada.")
else:
    print("Existiam valores. Mais análise é necessária.")

# Display the shape to confirm
print("Shape")
display(df7.shape)

Dropada.
Shape


(57405, 14)

In [54]:
df7[['mes', 'ano']] = df7['Referência'].str.split('/', expand=True)


In [55]:
df7['Mun'] = df7['Mun'].str.title()
display(df7[['Cod_Mun', 'Mun']].head())

Unnamed: 0,Cod_Mun,Mun
0,3500105,Adamantina
1,3500204,Adolfo
2,3500303,Aguaí
3,3500402,Águas Da Prata
4,3500501,Águas De Lindóia


In [56]:
df7[df7.isnull().any(axis=1)]


Unnamed: 0,Cod_Mun,Mun,RA,Referência,PCD_BPC,Ido_BPC,Bem_BPC,Pop_65_mais,Pop_2020,Ido_BPC_Idoso65%,BPC_Pop%,Map,MapSeq,65_menos_Idoso_BPC,mes,ano
51036,3507209,Borá,RA de Marília,ago/24,,,,93,810,,,,,,ago,24
51057,3509106,Caiuá,RA de Presidente Prudente,ago/24,,,,760,5729,,,,,,ago,24
51424,3541802,Queiroz,RA de Marília,ago/24,,,,308,3400,,,,,,ago,24
51433,3542701,Restinga,RA de Franca,ago/24,,,,702,7740,0.0,,,,702.0,ago,24
51444,3543600,Rifaina,RA de Franca,ago/24,,,,509,3474,,,,,,ago,24
51579,3555703,União Paulista,RA de São José do Rio Preto,ago/24,,,,215,1775,,,,,,ago,24


In [57]:
df7

Unnamed: 0,Cod_Mun,Mun,RA,Referência,PCD_BPC,Ido_BPC,Bem_BPC,Pop_65_mais,Pop_2020,Ido_BPC_Idoso65%,BPC_Pop%,Map,MapSeq,65_menos_Idoso_BPC,mes,ano
0,3500105,Adamantina,RA de Presidente Prudente,jan/18,384.0,206.0,590,5282,33894,39,17,"1 a 1,9",3,5076.0,jan,18
1,3500204,Adolfo,RA de São José do Rio Preto,jan/18,21.0,19.0,40,521,3447,36,12,"1 a 1,9",3,502.0,jan,18
2,3500303,Aguaí,RA de Campinas,jan/18,337.0,184.0,521,3527,35608,52,15,"1 a 1,9",3,3343.0,jan,18
3,3500402,Águas Da Prata,RA de Campinas,jan/18,47.0,79.0,126,1236,7797,64,16,"1 a 1,9",3,1157.0,jan,18
4,3500501,Águas De Lindóia,RA de Campinas,jan/18,161.0,129.0,290,2301,18374,56,16,"1 a 1,9",3,2172.0,jan,18
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
57400,3557006,Votorantim,RA de Sorocaba,mai/25,825.0,809.0,1634,12340,122356,656,134,"1 a 1,9",3,11531.0,mai,25
57401,3557105,Votuporanga,RA de São José do Rio Preto,mai/25,1679.0,1151.0,2830,13230,93066,870,304,3 e mais,1,12079.0,mai,25
57402,3557154,Zacarias,RA de São José do Rio Preto,mai/25,19.0,5.0,24,373,2602,134,092,"0 a 0,9",4,368.0,mai,25
57403,3557204,Chavantes,RA de Marília,mai/25,186.0,111.0,297,1591,12241,698,243,"2 a 2,9",2,1480.0,mai,25


In [58]:
# Filtrar por Ano
df7_restrito = df7[(df7['ano'] == '20') | (df7['ano'] == '19') | (df7['ano'] == '18')].copy()

display(df7_restrito.shape)

(23220, 16)

## Cadastro Único por Unidade da Federação

In [59]:
df8.head()

Unnamed: 0,Cod,UF,Referência,CAD,PBF,Domic,CAD_Par,PBF_Par
0,11,RONDÔNIA,mai/25,357.491,133.495,555.023,644,241
1,12,ACRE,mai/25,207.562,132.431,260.997,795,507
2,13,AMAZONAS,mai/25,1.047.834,644.977,1.079.752,970,597
3,14,RORAIMA,mai/25,146.771,80.590,177.337,828,454
4,15,PARÁ,mai/25,2.256.997,1.345.437,2.442.494,924,551


In [60]:
df8.shape

(27, 8)

In [61]:
df8.isnull().sum()

Cod           0
UF            0
Referência    0
CAD           0
PBF           0
Domic         0
CAD_Par       0
PBF_Par       0
dtype: int64

# Agrupando Datasets

Familias em situação de rua (df3) + Renda Domiciliar Per Capita abaixo de meio salário mínimo (df4) + Programa Bolsa Família Brasil e ESP (df5) + Benefício de Prestação Continuada (BPC) ESP (df7)

O agrupamento foi realizado a partir do município e do ano, no período de 2018 a 2020. Os df5 e df7 tinham a referência de ano e mês. Nesse caso, o agregamento foi realizado a partir do valor médio do ano


In [64]:

# 1. Filtrar df3 e df4 para remover o código estadual "35"
df3_limpo = df3_restrito.query("cod_ibge != 35").copy()
df4_limpo = df4_restrito.query("cod_ibge != 35").copy()

# Padronizar nome da coluna
df3_limpo = df3_limpo.rename(columns={"cod_ibge": "Cod_Mun"})
df4_limpo = df4_limpo.rename(columns={"cod_ibge": "Cod_Mun"})

# 2. Extrair ano em df5 e df7
for df in [df5, df7]:
    df["ano"] = (
        df["Referência"]
        .str.extract(r"(\d{2})$")[0]   # pega os dois últimos dígitos
        .astype(int)
        .apply(lambda x: 2000 + x if x < 50 else 1900 + x)
    )

# 3. Calcular média anual por município (df5 e df7)
df5_ano = df5.groupby(["Cod_Mun", "ano"], as_index=False).mean(numeric_only=True)
df7_ano = df7.groupby(["Cod_Mun", "ano"], as_index=False).mean(numeric_only=True)

# 4. Merge de todos os DataFrames
df_merged = (
    df3_limpo
    .merge(df4_limpo, on=["Cod_Mun", "ano"], how="outer")
    .merge(df5_ano, on=["Cod_Mun", "ano"], how="outer")
    .merge(df7_ano, on=["Cod_Mun", "ano"], how="outer")
)

# 5. Limpeza final
df_merged = df_merged.sort_values(["Cod_Mun", "ano"]).reset_index(drop=True)

print(df_merged.head())
print(f"\nShape final: {df_merged.shape}")


    ano  Cod_Mun  n_fam_rua  pes_rf_ate_meio_sm  pes_insc_cadun  \
0  2013  3500105        0.0              8027.0          9360.0   
1  2014  3500105        0.0              8070.0          9582.0   
2  2015  3500105        0.0              4782.0          6310.0   
3  2016  3500105        0.0              3478.0          4960.0   
4  2017  3500105        0.0              3369.0          5270.0   

  perc_rf_ate_meio_sm  Pes_PBF  Fam_PBF  MapSeq  F_CAD_EP  Fam_Aux  \
0                85,8      NaN      NaN     NaN       NaN      NaN   
1                84,2      NaN      NaN     NaN       NaN      NaN   
2                75,8      NaN      NaN     NaN       NaN      NaN   
3                70,1      NaN      NaN     NaN       NaN      NaN   
4                63,9      NaN      NaN     NaN       NaN      NaN   

   Fam_PBF_Aux  Fam_PBF_2  MapSeq_Aux  PCD_BPC  Ido_BPC  Pop_65_mais  \
0          NaN        NaN         NaN      NaN      NaN          NaN   
1          NaN        NaN       

In [67]:
anos = [2018, 2019, 2020]
df_merged[df_merged['ano'].isin(anos)]

Unnamed: 0,ano,Cod_Mun,n_fam_rua,pes_rf_ate_meio_sm,pes_insc_cadun,perc_rf_ate_meio_sm,Pes_PBF,Fam_PBF,MapSeq,F_CAD_EP,Fam_Aux,Fam_PBF_Aux,Fam_PBF_2,MapSeq_Aux,PCD_BPC,Ido_BPC,Pop_65_mais,Pop_2020,65_menos_Idoso_BPC
5,2018,3500105,4.0,2838.0,4976.0,57,943.583333,284.916667,4.000000,96.583333,,284.916667,,,391.250000,204.333333,5282.0,33894.0,5077.666667
6,2019,3500105,5.0,3050.0,5465.0,558,876.250000,282.333333,4.000000,127.166667,,282.333333,,,406.500000,193.166667,5282.0,33894.0,5088.833333
7,2020,3500105,5.0,3132.0,5109.0,613,999.083333,339.666667,4.000000,181.166667,,339.666667,,,391.500000,197.750000,5282.0,33894.0,5084.250000
18,2018,3500204,1.0,1091.0,1742.0,626,508.666667,162.583333,3.000000,140.000000,,162.583333,,,20.166667,20.583333,521.0,3447.0,500.416667
19,2019,3500204,1.0,1106.0,1757.0,629,447.833333,144.666667,3.000000,135.750000,,144.666667,,,21.500000,24.750000,521.0,3447.0,496.250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8365,2019,3557204,4.0,3572.0,4204.0,85,2105.583333,665.583333,3.000000,563.083333,,665.583333,,,122.333333,80.750000,1471.0,12223.0,1390.250000
8366,2020,3557204,5.0,3466.0,4012.0,864,2021.166667,637.416667,3.000000,610.083333,,637.416667,,,133.833333,91.083333,1471.0,12223.0,1379.916667
8377,2018,3557303,3.0,2217.0,2649.0,837,1121.666667,347.666667,3.916667,236.916667,,347.666667,,,54.666667,40.083333,1055.0,11079.0,1014.916667
8378,2019,3557303,3.0,2206.0,2616.0,843,1000.333333,324.833333,4.000000,280.000000,,324.833333,,,56.250000,41.916667,1055.0,11079.0,1013.083333


In [68]:
df_merged[df_merged['ano'].isin(anos)].isnull().sum()

ano                       0
Cod_Mun                   0
n_fam_rua                 0
pes_rf_ate_meio_sm        0
pes_insc_cadun            0
perc_rf_ate_meio_sm       0
Pes_PBF                   0
Fam_PBF                   0
MapSeq                    0
F_CAD_EP                  0
Fam_Aux                1935
Fam_PBF_Aux               0
Fam_PBF_2              1935
MapSeq_Aux             1935
PCD_BPC                   0
Ido_BPC                   0
Pop_65_mais               0
Pop_2020                  0
65_menos_Idoso_BPC        0
dtype: int64

In [69]:
df_merged = df_merged[df_merged['ano'].isin(anos)]

In [70]:
#df_merged.to_csv('../cadunico/df_cad_merged.csv', index=False)