## Análise exploratória

Neste etapa será necessário analisar os diferentes datasets (quem sao as familias do cad unico e o de quem sao as familias que estao no bolsa familia) para depois juntar os dois - juntar os 3 - c/ auxilio br

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Tratamento dos dados gerais do Cadastro Único

In [3]:
# Leitura e exibição do dataset com dados sobre a quantidade total de famílias do Cadastro Único

familias_cadunico = pd.read_csv('/Users/laismeirelesalves/Estudos/projeto_final_lais_meireles/datasets/familias_CadUnico.csv', encoding='latin-1')
familias_cadunico

Unnamed: 0,UF,Referência,Quantidade total de famílias inscritas no Cadastro Único,"Quantidade de famílias em situação de pobreza, segundo a faixa do Programa Bolsa Família*, inscritas no Cadastro Único",Quantidade de famílias de baixa renda** inscritas no Cadastro Único,Quantidade de famílias com renda per capita mensal até meio salário-mínimo (Pobreza + Baixa renda) inscritas no Cadastro Único,Quantidade de famílias com renda per capita mensal acima de meio salário-mínimo*** inscritas no Cadastro Único
0,SP,10/2013,70448,42355,17838,60193,10255
1,SP,11/2013,71137,42419,18089,60508,10629
2,SP,12/2013,71604,42334,18326,60660,10944
3,SP,03/2014,72481,42207,19719,61926,10555
4,SP,01/2014,71889,42277,19372,61649,10240
...,...,...,...,...,...,...,...
117,SP,04/2023,134633,79347,27121,106468,28165
118,SP,05/2023,135074,79921,27443,107364,27710
119,SP,09/2023,141361,67767,26593,94360,47001
120,SP,10/2023,142303,63321,27401,90722,51581


In [4]:
# Visualizando informações sobre a quantidade de colunas, linhas e o tipo de cada dado
familias_cadunico.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122 entries, 0 to 121
Data columns (total 7 columns):
 #   Column                                                                                                                          Non-Null Count  Dtype 
---  ------                                                                                                                          --------------  ----- 
 0   UF                                                                                                                              122 non-null    object
 1   Referência                                                                                                                      122 non-null    object
 2   Quantidade total de famílias inscritas no Cadastro Único                                                                        122 non-null    int64 
 3   Quantidade de famílias em situação de pobreza, segundo a faixa do Programa Bolsa Família*, inscritas no Cadastr

In [5]:
# Verificando se há dados nulos no dataset do Cadastro Único
familias_cadunico.isnull().sum()

UF                                                                                                                                0
Referência                                                                                                                        0
Quantidade total de famílias inscritas no Cadastro Único                                                                          0
Quantidade de famílias em situação de pobreza, segundo a faixa do Programa Bolsa Família*, inscritas no Cadastro Único            0
Quantidade de famílias de baixa renda** inscritas no Cadastro Único                                                               0
Quantidade de famílias com renda per capita mensal até meio salário-mínimo (Pobreza + Baixa renda) inscritas no Cadastro Único    0
Quantidade de famílias com renda per capita mensal acima de meio salário-mínimo*** inscritas no Cadastro Único                    0
dtype: int64

In [6]:
familias_cadunico_colunas_renomeadas = familias_cadunico.rename(columns={'Quantidade total de famílias inscritas no Cadastro Único': 'Famílias no CadUnico', 'Quantidade de famílias em situação de pobreza, segundo a faixa do Programa Bolsa Família*, inscritas no Cadastro Único': 'Famílias elegíveis ao PBF', 'Quantidade de famílias de baixa renda** inscritas no Cadastro Único': 'Famílias de baixa renda'})

In [7]:
familias_cadunico_colunas_renomeadas.head()

Unnamed: 0,UF,Referência,Famílias no CadUnico,Famílias elegíveis ao PBF,Famílias de baixa renda,Quantidade de famílias com renda per capita mensal até meio salário-mínimo (Pobreza + Baixa renda) inscritas no Cadastro Único,Quantidade de famílias com renda per capita mensal acima de meio salário-mínimo*** inscritas no Cadastro Único
0,SP,10/2013,70448,42355,17838,60193,10255
1,SP,11/2013,71137,42419,18089,60508,10629
2,SP,12/2013,71604,42334,18326,60660,10944
3,SP,03/2014,72481,42207,19719,61926,10555
4,SP,01/2014,71889,42277,19372,61649,10240


In [8]:
# filtrar pela coluna de referencia, passar uma lista [valores a serem desconsiderados] criar filtro dentro do método
# df[df["referencia"] == "10/2013"] --> usar um operador de contem
# contain "2013|2014||.."
# df[df["referencia"].str.contains("2013|2014|2015")]
familias_cadunico_filtrado = familias_cadunico_colunas_renomeadas[familias_cadunico_colunas_renomeadas['Referência'].str.contains('2018|2019|2020|2021|2022|2023')]

In [74]:
familias_cadunico_filtrado.to_csv('/Users/laismeirelesalves/Estudos/projeto_final_lais_meireles/datasets_finais/df_cad_unico.csv')

### Tratamento dos dados das famílias beneficiárias do Programa Bolsa Família em Campinas/SP
**Período de 01/2018 a 10/2021**

In [9]:
# Leitura e exibição do dataset

familias_pbf_ate_out_21 = pd.read_csv('/Users/laismeirelesalves/Estudos/projeto_final_lais_meireles/datasets/pbf_ate_out_21.csv', encoding='latin-1')
familias_pbf_ate_out_21.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46 entries, 0 to 45
Data columns (total 8 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   UF                                                      46 non-null     object 
 1   Referência                                              46 non-null     object 
 2   Famílias PBF (até Out/2021)                             46 non-null     int64  
 3   Famílias PBF (a partir de Mar/2023)                     0 non-null      float64
 4   Valor repassado às famílias PBF (até Out/2021)          46 non-null     object 
 5   Valor repassado às famílias PBF (a partir de Mar/2023)  0 non-null      float64
 6   Valor do Benefício médio (até Out/2021)                 46 non-null     object 
 7   Valor do Benefício médio (a partir de Mar/2023)         0 non-null      float64
dtypes: float64(3), int64(1), object(4)
memory u

In [10]:
familias_pbf_ate_out_21.head()

Unnamed: 0,UF,Referência,Famílias PBF (até Out/2021),Famílias PBF (a partir de Mar/2023),Valor repassado às famílias PBF (até Out/2021),Valor repassado às famílias PBF (a partir de Mar/2023),Valor do Benefício médio (até Out/2021),Valor do Benefício médio (a partir de Mar/2023)
0,SP,03/2021,40888,,7422234,,18153,
1,SP,04/2021,41747,,3483898,,8345,
2,SP,05/2021,41749,,3543719,,8488,
3,SP,06/2021,41748,,3598918,,8621,
4,SP,08/2021,41553,,3717080,,8945,


In [11]:
familias_pbf_ate_out_21_colunas_ok = familias_pbf_ate_out_21.drop(columns=['Famílias PBF (a partir de Mar/2023)', 'Valor repassado às famílias PBF (até Out/2021)', 'Valor repassado às famílias PBF (a partir de Mar/2023)', 'Valor do Benefício médio (a partir de Mar/2023)'], axis=1)

In [12]:
familias_pbf_ate_out_21_colunas_ok['Valor do Benefício médio (até Out/2021)'] = familias_pbf_ate_out_21_colunas_ok['Valor do Benefício médio (até Out/2021)'].str.replace(',','.')
familias_pbf_ate_out_21_colunas_ok.head()

Unnamed: 0,UF,Referência,Famílias PBF (até Out/2021),Valor do Benefício médio (até Out/2021)
0,SP,03/2021,40888,181.53
1,SP,04/2021,41747,83.45
2,SP,05/2021,41749,84.88
3,SP,06/2021,41748,86.21
4,SP,08/2021,41553,89.45


In [13]:
familias_pbf_ate_out_21_colunas_ok['Valor do Benefício médio (até Out/2021)'] = familias_pbf_ate_out_21_colunas_ok['Valor do Benefício médio (até Out/2021)'].astype(float)
familias_pbf_ate_out_21_colunas_ok.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46 entries, 0 to 45
Data columns (total 4 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   UF                                       46 non-null     object 
 1   Referência                               46 non-null     object 
 2   Famílias PBF (até Out/2021)              46 non-null     int64  
 3   Valor do Benefício médio (até Out/2021)  46 non-null     float64
dtypes: float64(1), int64(1), object(2)
memory usage: 1.6+ KB


In [14]:
# familias_cadunico_colunas_renomeadas = familias_cadunico.rename(columns={'Quantidade total de famílias inscritas no Cadastro Único': 'Famílias no CadUnico', 'Quantidade de famílias em situação de pobreza, segundo a faixa do Programa Bolsa Família*, inscritas no Cadastro Único': 'Famílias elegíveis ao PBF', 'Quantidade de famílias de baixa renda** inscritas no Cadastro Único': 'Famílias de baixa renda'})
familias_pbf_ate_out_21_renomeado = familias_pbf_ate_out_21_colunas_ok.rename(columns={'Famílias PBF (até Out/2021)':'Famílias PBF', 'Valor do Benefício médio (até Out/2021)':'Valor médio do benefício'})
familias_pbf_ate_out_21_renomeado.columns

Index(['UF', 'Referência', 'Famílias PBF', 'Valor médio do benefício'], dtype='object')

In [13]:
df_pbf_1 = familias_pbf_ate_out_21_renomeado.to_csv('/Users/laismeirelesalves/Estudos/projeto_final_lais_meireles/datasets_finais/df_pbf_1.csv')

### Tratamento dos dados das famílias beneficiárias do Programa Bolsa Família em Campinas/SP
**Período de 03/2023 até 10/2023**

In [15]:
familias_pbf_mar_23 = pd.read_csv('/Users/laismeirelesalves/Estudos/projeto_final_lais_meireles/datasets/pbf_mar_23_atual.csv', encoding='latin-1')
familias_pbf_mar_23

Unnamed: 0,UF,Referência,Famílias PBF (até Out/2021),Famílias PBF (a partir de Mar/2023),Valor repassado às famílias PBF (até Out/2021),Valor repassado às famílias PBF (a partir de Mar/2023),Valor do Benefício médio (até Out/2021),Valor do Benefício médio (a partir de Mar/2023)
0,SP,09/2023,,63057,,43070808,,68313
1,SP,08/2023,,62889,,4257581700,,67713
2,SP,06/2023,,61767,,43566105,,70533
3,SP,07/2023,,59971,,4033444300,,67271
4,SP,11/2023,,62814,,418025710,,66881
5,SP,03/2023,,65953,,44245844,,67373
6,SP,04/2023,,59379,,40012240,,67682
7,SP,05/2023,,61872,,42001114,,67893
8,SP,10/2023,,63929,,434363710,,67951


In [16]:
familias_pbf_mar_23.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 8 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   UF                                                      9 non-null      object 
 1   Referência                                              9 non-null      object 
 2   Famílias PBF (até Out/2021)                             0 non-null      float64
 3   Famílias PBF (a partir de Mar/2023)                     9 non-null      int64  
 4   Valor repassado às famílias PBF (até Out/2021)          0 non-null      float64
 5   Valor repassado às famílias PBF (a partir de Mar/2023)  9 non-null      object 
 6   Valor do Benefício médio (até Out/2021)                 0 non-null      float64
 7   Valor do Benefício médio (a partir de Mar/2023)         9 non-null      object 
dtypes: float64(3), int64(1), object(4)
memory usa

In [17]:
familias_pbf_mar_23.head()

Unnamed: 0,UF,Referência,Famílias PBF (até Out/2021),Famílias PBF (a partir de Mar/2023),Valor repassado às famílias PBF (até Out/2021),Valor repassado às famílias PBF (a partir de Mar/2023),Valor do Benefício médio (até Out/2021),Valor do Benefício médio (a partir de Mar/2023)
0,SP,09/2023,,63057,,43070808,,68313
1,SP,08/2023,,62889,,4257581700,,67713
2,SP,06/2023,,61767,,43566105,,70533
3,SP,07/2023,,59971,,4033444300,,67271
4,SP,11/2023,,62814,,418025710,,66881


In [18]:
familias_pbf_mar_23_colunas_ok = familias_pbf_mar_23.drop(columns=['Famílias PBF (até Out/2021)', 'Valor repassado às famílias PBF (até Out/2021)', 'Valor repassado às famílias PBF (a partir de Mar/2023)', 'Valor do Benefício médio (até Out/2021)'], axis=1)

In [19]:
familias_pbf_mar_23_colunas_ok.columns

Index(['UF', 'Referência', 'Famílias PBF (a partir de Mar/2023)',
       'Valor do Benefício médio (a partir de Mar/2023)'],
      dtype='object')

In [21]:
familias_pbf_mar_23_renomeado = familias_pbf_mar_23_colunas_ok.rename(columns={'Famílias PBF (a partir de Mar/2023)' : 'Famílias PBF', 'Valor do Benefício médio (a partir de Mar/2023)' : 'Valor médio do benefício'})

In [22]:
familias_pbf_mar_23_renomeado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 4 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   UF                        9 non-null      object
 1   Referência                9 non-null      object
 2   Famílias PBF              9 non-null      int64 
 3   Valor médio do benefício  9 non-null      object
dtypes: int64(1), object(3)
memory usage: 420.0+ bytes


In [24]:
familias_pbf_mar_23_renomeado['Valor médio do benefício'] = familias_pbf_mar_23_renomeado['Valor médio do benefício'].str.replace(',','.')

In [25]:
familias_pbf_mar_23_renomeado['Valor médio do benefício'] = familias_pbf_mar_23_renomeado['Valor médio do benefício'].astype(float)

In [28]:
df_pbf_2 = familias_pbf_mar_23_renomeado.to_csv('/Users/laismeirelesalves/Estudos/projeto_final_lais_meireles/datasets_finais/df_pbf_2.csv')

### Tratamento dos dados das famílias beneficiárias do Programa Auxílio Brasil em Campinas/SP

In [42]:
# Leitura do dataset com as informações das famílias que foram atendidas no período de 11/2021 a 02/2023 pelo
# Programa Auxílio Brasil (em substituição ao Bolsa Família)
familias_auxilio_br = pd.read_csv('/Users/laismeirelesalves/Estudos/projeto_final_lais_meireles/projeto-final-lais/datasets_originais/familias_aux_br.csv', encoding='latin-1')
familias_auxilio_br.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 5 columns):
 #   Column                                                     Non-Null Count  Dtype 
---  ------                                                     --------------  ----- 
 0   UF                                                         16 non-null     object
 1   Referência                                                 16 non-null     object
 2   Famílias                                                   16 non-null     int64 
 3   Valor Total Repassado do Auxílio Brasil                    16 non-null     object
 4   Benefício médio recebido pelas famílias do Auxílio Brasil  16 non-null     object
dtypes: int64(1), object(4)
memory usage: 772.0+ bytes


In [43]:
# Ao utilizar o método info(), verifica-se que os dados das colunas de índice 3 e 4 foram interpretados como
# sendo do tipo categóricos, porém, trata-se de dados do tipo float, como é possível visualizar utilizando o
# método head()

familias_auxilio_br.head(3)

Unnamed: 0,UF,Referência,Famílias,Valor Total Repassado do Auxílio Brasil,Benefício médio recebido pelas famílias do Auxílio Brasil
0,SP,11/2021,40864,890210600,21785
1,SP,12/2021,40777,8878806,21774
2,SP,01/2022,51942,10702945,20606


In [50]:
# Antes de converter estes dados de object para float, é necessário substituir a vírgula do número por um ponto,
# para que o número deixe de ser lido como string.
familias_auxilio_br['Benefício médio recebido pelas famílias do Auxílio Brasil'] = familias_auxilio_br['Benefício médio recebido pelas famílias do Auxílio Brasil'].str.replace(',','.')
familias_auxilio_br.head(3)

Unnamed: 0,UF,Referência,Famílias,Valor Total Repassado do Auxílio Brasil,Benefício médio recebido pelas famílias do Auxílio Brasil
0,SP,11/2021,40864,890210600,217.85
1,SP,12/2021,40777,8878806,217.74
2,SP,01/2022,51942,10702945,206.06


In [52]:
# Feita a substituição, é possível converter o tipo do dado:
familias_auxilio_br['Benefício médio recebido pelas famílias do Auxílio Brasil'] = familias_auxilio_br['Benefício médio recebido pelas famílias do Auxílio Brasil'].astype(float)
familias_auxilio_br.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 5 columns):
 #   Column                                                     Non-Null Count  Dtype  
---  ------                                                     --------------  -----  
 0   UF                                                         16 non-null     object 
 1   Referência                                                 16 non-null     object 
 2   Famílias                                                   16 non-null     int64  
 3   Valor Total Repassado do Auxílio Brasil                    16 non-null     object 
 4   Benefício médio recebido pelas famílias do Auxílio Brasil  16 non-null     float64
dtypes: float64(1), int64(1), object(3)
memory usage: 772.0+ bytes


In [56]:
# Exclusão da coluna 'Valor Total Repassado do Auxílio Brasil' que não será utilizada neste análise:
familias_auxilio_br_sem_coluna = familias_auxilio_br.drop(columns='Valor Total Repassado do Auxílio Brasil', axis=1)

In [57]:
familias_auxilio_br_sem_coluna.to_csv('/Users/laismeirelesalves/Estudos/projeto_final_lais_meireles/projeto-final-lais/datasets_tratados/df_auxilio_brasil.csv')

In [54]:
# Verificando se há dados nulos em alguma das variáveis

familias_auxilio_br.isnull().sum()

UF                                                           0
Referência                                                   0
Famílias                                                     0
Valor Total Repassado do Auxílio Brasil                      0
Benefício médio recebido pelas famílias do Auxílio Brasil    0
dtype: int64

In [6]:
# aux_br_out_21_sem_identificao = auxilio_br_out_21.drop(columns=['NIS FAVORECIDO','NOME FAVORECIDO'])

In [7]:
# colunas_selecionadas = ['MÊS REFERÊNCIA', 'NOME MUNICÍPIO', 'VALOR PARCELA']
# aux_br_out_21_sem_identificao_filtrado = aux_br_out_21_sem_identificao.filter(items=['colunas_selecionadas'])
# aux_br_out_21_sem_identificao_filtrado.head()

0
1
2
3
4


In [8]:
#aux_br_out_21_sem_identificao.head(3)

In [9]:
#df.groupby('A').agg({'B': ['min', 'max'], 'C': 'sum'})
# aux_br_out_21_municipio = aux_br_out_21_sem_identificao.groupby('NOME MUNICÍPIO').sum()
# aux_br_out_21_municipio.head()

### Integrando os datasets tratados em um único dataset final
Neste momento, após realizar o tratamentos dos seguintes datasets:

1. Total de famílias cadastradas no Cadúnico de maneira geral 
2. Total de famílias beneficiárias do Programa Bolsa Família no período de 01/2018 a 09/2021
3. Total de famílias beneficiárias do Auxílio Brasil no período de 10/2021 a 02/2023(*)
4. Total de famílias beneficiárias do Programa Bolsa Família no período de 03/2023 a 10/2023

(*) Lembrando que: o Auxílio Brasil, no período indicado, substituiu o Programa Bolsa Família por meio da Medida Provisória lalalala. Basicamente, as famílias beneficiárias permaneceram as mesmas: mas houve mudança em alguns critérios de permanência e o benefício seguiu sendo o de R$ 600 - alteração que ocorreu durante a pandemia - e também a mudança simbólica do **nome do programa** 

In [None]:
# Método merge para juntar os datasets
