## Pesquisa de Orçamentos Familiares - POF 2017-2018

Nesta aula prática, vamos trabalhar com dados da POF 2017-2018, utilizando códigos em R para aprender os seguintes tópicos:


1.   Leitura de microdados utilizando a função read.fwf do R
2.   Realizar a junção de dois sub bancos de dados da POF: Domicílios e Condições de vida
4.   Incorporando a estrutura do plano amostral da POF nas análises estatísticas
3.   Elaborar gráficos e tabelas


📚 Inicialmente vamos conectar a sessão ao seu Google drive. Então, antes de começar a trabalhar crie uma pasta no seu drive (POF) e que irá salvar todos os arquivos que você baixar.


In [None]:
#Conectando a sessão ao seu google drive 
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#Nesta prática vamos trabalhar com códigos em R. Para fazer isso vamos instalar a extensão rpy2 IPython ao notebook. 
%load_ext rpy2.ipython

📌 A partir de agora, sempre que você colocar o código %%R no início de cada célula, você conseguirá executar comandos do R no notebook.

📖 Há uma biblioteca em R sendo desenvolvida para leitura dos microdados da POF chamada POFIBGE. A documentação se encontra [aqui](https://cran.r-project.org/web/packages/POFIBGE/POFIBGE.pdf) mas enquanto ela não se encontra disponível, vamos utilizar funções mais genéricas para baixar e ler os microdados.

No caso, vamos utiliziar a função [read.fwf](https://www.rdocumentation.org/packages/utils/versions/3.6.2/topics/read.fwf) para proceder a leitura de dois bancos de dados: Domicílios e Condições de vida. Ambos devem estar previamente salvos em seu Drive. 

Para baixar os bancos de dados, [clique aqui](https://www.ibge.gov.br/estatisticas/sociais/saude/24786-pesquisa-de-orcamentos-familiares-2.html?=&t=microdados).


In [None]:
#Leitura do banco de dados de Domicílio.
%%R 
DOMICILIO <- 
  read.fwf("/content/drive/MyDrive/POF/DOMICILIO.txt" 
           , widths = c(2,4,1,9,2,1,1,1,1,2,1,1,1,1,1,1,1,1,1,2,
                        1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,14,14,1
                        )
           , na.strings=c(" ")
           , col.names = c("UF", "ESTRATO_POF", "TIPO_SITUACAO_REG",
                           "COD_UPA", "NUM_DOM", "V0201", "V0202", 
                           "V0203", "V0204", "V0205", "V0206", "V0207",
                           "V0208", "V0209", "V02101", "V02102",
                           "V02103", "V02104", "V02105", "V02111",
                           "V02112", "V02113", "V0212", "V0213",
                           "V02141", "V02142", "V0215", "V02161", 
                           "V02162", "V02163", "V02164", "V0217", 
                           "V0219", "V0220", "V0221", "PESO",
                           "PESO_FINAL", "V6199")
           , dec="."
  )   

In [None]:
#Verificando a descrição das variáveis contidas no objeto criado (DOMICILIO)
%%R 
ls(DOMICILIO)

In [None]:
#Leitura do banco de dados de Condições de vida.
%%R 
CONDICOES_VIDA <- 
  read.fwf("/content/drive/MyDrive/POF/CONDICOES_VIDA.txt" 
           , widths = c(2,4,1,9,2,1,2,1,6,5,1,1,1,1,1,
                        1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
                        1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
                        1,1,1,1,1,1,1,14,14,10)
           , na.strings=c(" ")
           , col.names = c("UF", "ESTRATO_POF", "TIPO_SITUACAO_REG",
                           "COD_UPA", "NUM_DOM", "NUM_UC", "COD_INFORMANTE",
                           "V6101", "V6102", "V6103", "V61041", "V61042",
                           "V61043", "V61044", "V61045", "V61046", 
                           "V61051", "V61052", "V61053", "V61054",
                           "V61055", "V61056", "V61057", "V61058",
                           "V61061", "V61062", "V61063", "V61064",
                           "V61065", "V61066", "V61067", "V61068",
                           "V61069", "V610610", "V610611", "V61071",
                           "V61072", "V61073", "V6108", "V6109",
                           "V6110", "V6111", "V6112", "V6113", "V6114",
                           "V6115", "V6116", "V6117", "V6118", "V6119",
                           "V6120", "V6121", "PESO", "PESO_FINAL",
                           "RENDA_TOTAL")
           , dec="."
  )   

In [None]:
#Verificando a descrição das variáveis contidas no objeto criado (CONDIÇÕES_VIDA)
%%R 
ls(CONDICOES_VIDA)

Para proceder à junção dos bancos de dados com informações do domicílio e das condições de vida, utilizaremos duas variáveis chave: Código da Unidade Primária de Amostragem (COD_UPA) e Número do Domicílio (NUM_DOM).

In [None]:
#Verificando o nível de mensuração da variável COD_UPA - DOMICILIOS 
%%R
str(DOMICILIO$COD_UPA)

In [None]:
#Verificando o nível de mensuração da variável COD_UPA - CONDICOES_VIDA 
%%R
str(CONDICOES_VIDA$COD_UPA)

In [None]:
#Verificando o nível de mensuração da variável NUM_DOM - DOMICILIOS 
%%R
str(DOMICILIO$NUM_DOM)

In [None]:
#Verificando o nível de mensuração da variável NUM_DOM - CONDICOES_VIDA 
%%R
str(CONDICOES_VIDA$NUM_DOM)

In [None]:
#Procedendo à junção dos bancos de dados (merge)
%%R
DOM_CONDICOES_VIDA <- merge(DOMICILIO, CONDICOES_VIDA, by=c("COD_UPA", "NUM_DOM"))

In [None]:
#Verificando a descrição das variáveis contidas no objeto criado e que reúne informaçõe dos dois bancos de dados (DOM_CONDICOES_VIDA)
%%R
ls(DOM_CONDICOES_VIDA)

Variáveis que vamos trabalhar:

1.   UF: Unidade da Federação (ver no sigaa qual a sua UF)
2.   COD_UPA: Código da Unidade Primária de Amostragem (UPA)
3.   ESTRATO_POF: estratos do plano amostral da pesquisa
4.   TIPO_SITUACAO_REG.x: Situação do Domicílio
5.   V0201: Tipo de domicílio
6.   V6199: Situação de segurança alimentar do domicílio
7.   V61041: Padrão de vida em relação à alimentação
8.   V61045: Padrão de vida em relação à saúde
9.   PESO_FINAL: fator de expansão (peso) ajustado às estimativas populacionais para 15 janeiro de 2018, segundo cada Unidade da Federação e pós estratos definidos



# Análise exploratória dos dados

In [None]:
#Variável Situação do domicílio (TIPO_SITUACAO_REG.x)
%%R
table(DOM_CONDICOES_VIDA$TIPO_SITUACAO_REG.x)

In [None]:
#Adicionando os rótulos criando uma nova variável (situadom)
%%R
DOM_CONDICOES_VIDA$situadom<-factor(DOM_CONDICOES_VIDA$TIPO_SITUACAO_REG.x,labels=c('Urbano', 'Rural'))

100*prop.table(table(DOM_CONDICOES_VIDA$situadom))

In [None]:
#Variável Tipo de domicílio (V0201)
%%R
table(DOM_CONDICOES_VIDA$V0201)

In [None]:
#Adicionando os rótulos criando uma nova variável (tipodom)
%%R
DOM_CONDICOES_VIDA$tipodom<-factor(DOM_CONDICOES_VIDA$V0201,labels=c('Casa', 'Apartamento', 'Casa de cômodos, cortiço ou cabeça de porco'))

100*prop.table(table(DOM_CONDICOES_VIDA$tipodom))

In [None]:
#Variável  Situação de segurança alimentar do domicílio  (V6199)
%%R
table(DOM_CONDICOES_VIDA$V6199)

In [None]:
#Adicionando os rótulos criando uma nova variável (seg_alimentar)
%%R
DOM_CONDICOES_VIDA$seg_alimentar<-factor(DOM_CONDICOES_VIDA$V6199,labels=c('Segurança', 'Insegurança leve', 'Insegurança moderada', 'Insegurança grave'))

100*prop.table(table(DOM_CONDICOES_VIDA$seg_alimentar))

In [None]:
#Padrão de vida em relação à alimentação (V61041)
%%R
table(DOM_CONDICOES_VIDA$V61041)

In [None]:
#Adicionando os rótulos criando uma nova variável (pv_alimentacao)
%%R
DOM_CONDICOES_VIDA$pv_alimentacao<-factor(DOM_CONDICOES_VIDA$V61041,labels=c('Bom', 'Satisfatório', 'Ruim'))

100*prop.table(table(DOM_CONDICOES_VIDA$pv_alimentacao))

In [None]:
#Padrão de vida em relação à saúde (V61045)
%%R
table(DOM_CONDICOES_VIDA$V61045)

In [None]:
#Adicionando os rótulos criando uma nova variável (pv_saude)
%%R
DOM_CONDICOES_VIDA$pv_saude<-factor(DOM_CONDICOES_VIDA$V61045,labels=c('Bom', 'Satisfatório', 'Ruim'))

100*prop.table(table(DOM_CONDICOES_VIDA$pv_saude))


## Incorporando a estrutura do plano amostral da POF nas análises estatísticas  

Assim como  a PNAD C, a POF apresenta um desenho complexo de amostragem, então vamos incorporar a estrutura do plano amostral desta pesquisa nas análises  análises pontuais que faremos.


In [None]:
#Vamos instalar o pacote survey
%%R
install.packages("survey")

In [None]:
#E carrega-lo
%%R
library(survey)

In [None]:
#Recompondo o plano amostral para Brasil 
%%R
sample.pof <- svydesign(ids = ~COD_UPA, strata = ~ESTRATO_POF.x, weights = ~PESO_FINAL.x, data = DOM_CONDICOES_VIDA , na.rm=TRUE, nest = TRUE)

# para evitar erro "has only one PSU at stage 1"
options(survey.lonely.psu = "adjust")

In [None]:
#Agora você pode proceder às análises
#a)  Proporção de domicílios segundo o nível de segurança alimentar no Brasil
%%R
svymean(~factor(seg_alimentar), design=sample.pof, na.rm=TRUE)

In [None]:
#Representação em gráfico
%%R
a=svymean(~factor(seg_alimentar), design=sample.pof, na.rm=TRUE)
barplot(a*100, main = "Domicílios brasileiros segundo nível de segurança alimentar, 2017-2018.", font.main = 13, col.main = "blue", cex.main = 1,
        col = c("grey", "red", "red", "red"), density=c(20), ylim = c(0, 100),
        xlab = "Fonte: POF, 2017-2018. IBGE", names = c('Segurança', 'I. leve', 'I. moderada', 'I. grave')) 

In [None]:
#b)  Padrão de vida em relação à saúde  - Brasil
%%R
svymean(~factor(pv_saude), design=sample.pof, na.rm=TRUE)

In [None]:
#Representação em gráfico
%%R
b=svymean(~factor(pv_saude), design=sample.pof, na.rm=TRUE)
barplot(b*100, main = "Avaliação do padrão de vida da família em relação à saúde , 2017-2018.", font.main = 13, col.main = "blue", cex.main = 1,
        col = c("green", "yellow", "red"), density=c(20), ylim = c(0, 100),
        xlab = "Fonte: POF, 2017-2018. IBGE", names = c('Bom', 'Satisfatório', 'Ruim')) 

In [None]:
#c)  Nível de segurança alimetar segundo o padrão de vida da família em relação à saúde   - Brasil
%%R
c=svyby(~seg_alimentar, ~pv_saude, sample.pof, svymean, na.rm=TRUE)
barplot(c, main = "Avaliação do padrão de vida da família em relação à saúde, 2017-2018.", font.main = 13, col.main = "black", cex.main = 1,
 col = c("green", "yellow", "orange", "red"), density=c(60), ylim = c(0, 1),        
xlab = "Fonte: POF, 2017-2018. IBGE", 
ylab= "Prop", 
legend = c('Segurança', 'I. leve', 'I. moderada', 'I. grave'),font.lab = 2, col.lab = "black", cex.lab = 0.9,
args.legend = list(title = "Nível de segurança alimentar", x = "topright", cex = .9))


In [None]:
#Salvando a base de dados em seu drive
%%R
save(DOM_CONDICOES_VIDA,file="/content/drive/MyDrive/POF/dom_cvida.Rdata")

In [None]:
#Abrindo a base
%%R
load("/content/drive/MyDrive/POF/dom_cvida.Rdata")