## Pesquisa de Or√ßamentos Familiares - POF 2017-2018

Nesta aula pr√°tica, vamos trabalhar com dados da POF 2017-2018, utilizando c√≥digos em R para aprender os seguintes t√≥picos:


1.   Leitura de microdados utilizando a fun√ß√£o read.fwf do R
2.   Realizar a jun√ß√£o de dois sub bancos de dados da POF: Domic√≠lios e Condi√ß√µes de vida
4.   Incorporando a estrutura do plano amostral da POF nas an√°lises estat√≠sticas
3.   Elaborar gr√°ficos e tabelas


üìö Inicialmente vamos conectar a sess√£o ao seu Google drive. Ent√£o, antes de come√ßar a trabalhar crie uma pasta no seu drive (POF) e que ir√° salvar todos os arquivos que voc√™ baixar.


In [None]:
#Conectando a sess√£o ao seu google drive 
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#Nesta pr√°tica vamos trabalhar com c√≥digos em R. Para fazer isso vamos instalar a extens√£o rpy2 IPython ao notebook. 
%load_ext rpy2.ipython

üìå A partir de agora, sempre que voc√™ colocar o c√≥digo %%R no in√≠cio de cada c√©lula, voc√™ conseguir√° executar comandos do R no notebook.

üìñ H√° uma biblioteca em R sendo desenvolvida para leitura dos microdados da POF chamada POFIBGE. A documenta√ß√£o se encontra [aqui](https://cran.r-project.org/web/packages/POFIBGE/POFIBGE.pdf) mas enquanto ela n√£o se encontra dispon√≠vel, vamos utilizar fun√ß√µes mais gen√©ricas para baixar e ler os microdados.

No caso, vamos utiliziar a fun√ß√£o [read.fwf](https://www.rdocumentation.org/packages/utils/versions/3.6.2/topics/read.fwf) para proceder a leitura de dois bancos de dados: Domic√≠lios e Condi√ß√µes de vida. Ambos devem estar previamente salvos em seu Drive. 

Para baixar os bancos de dados, [clique aqui](https://www.ibge.gov.br/estatisticas/sociais/saude/24786-pesquisa-de-orcamentos-familiares-2.html?=&t=microdados).


In [None]:
#Leitura do banco de dados de Domic√≠lio.
%%R 
DOMICILIO <- 
  read.fwf("/content/drive/MyDrive/POF/DOMICILIO.txt" 
           , widths = c(2,4,1,9,2,1,1,1,1,2,1,1,1,1,1,1,1,1,1,2,
                        1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,14,14,1
                        )
           , na.strings=c(" ")
           , col.names = c("UF", "ESTRATO_POF", "TIPO_SITUACAO_REG",
                           "COD_UPA", "NUM_DOM", "V0201", "V0202", 
                           "V0203", "V0204", "V0205", "V0206", "V0207",
                           "V0208", "V0209", "V02101", "V02102",
                           "V02103", "V02104", "V02105", "V02111",
                           "V02112", "V02113", "V0212", "V0213",
                           "V02141", "V02142", "V0215", "V02161", 
                           "V02162", "V02163", "V02164", "V0217", 
                           "V0219", "V0220", "V0221", "PESO",
                           "PESO_FINAL", "V6199")
           , dec="."
  )   

In [None]:
#Verificando a descri√ß√£o das vari√°veis contidas no objeto criado (DOMICILIO)
%%R 
ls(DOMICILIO)

In [None]:
#Leitura do banco de dados de Condi√ß√µes de vida.
%%R 
CONDICOES_VIDA <- 
  read.fwf("/content/drive/MyDrive/POF/CONDICOES_VIDA.txt" 
           , widths = c(2,4,1,9,2,1,2,1,6,5,1,1,1,1,1,
                        1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
                        1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
                        1,1,1,1,1,1,1,14,14,10)
           , na.strings=c(" ")
           , col.names = c("UF", "ESTRATO_POF", "TIPO_SITUACAO_REG",
                           "COD_UPA", "NUM_DOM", "NUM_UC", "COD_INFORMANTE",
                           "V6101", "V6102", "V6103", "V61041", "V61042",
                           "V61043", "V61044", "V61045", "V61046", 
                           "V61051", "V61052", "V61053", "V61054",
                           "V61055", "V61056", "V61057", "V61058",
                           "V61061", "V61062", "V61063", "V61064",
                           "V61065", "V61066", "V61067", "V61068",
                           "V61069", "V610610", "V610611", "V61071",
                           "V61072", "V61073", "V6108", "V6109",
                           "V6110", "V6111", "V6112", "V6113", "V6114",
                           "V6115", "V6116", "V6117", "V6118", "V6119",
                           "V6120", "V6121", "PESO", "PESO_FINAL",
                           "RENDA_TOTAL")
           , dec="."
  )   

In [None]:
#Verificando a descri√ß√£o das vari√°veis contidas no objeto criado (CONDI√á√ïES_VIDA)
%%R 
ls(CONDICOES_VIDA)

Para proceder √† jun√ß√£o dos bancos de dados com informa√ß√µes do domic√≠lio e das condi√ß√µes de vida, utilizaremos duas vari√°veis chave: C√≥digo da Unidade Prim√°ria de Amostragem (COD_UPA) e N√∫mero do Domic√≠lio (NUM_DOM).

In [None]:
#Verificando o n√≠vel de mensura√ß√£o da vari√°vel COD_UPA - DOMICILIOS 
%%R
str(DOMICILIO$COD_UPA)

In [None]:
#Verificando o n√≠vel de mensura√ß√£o da vari√°vel COD_UPA - CONDICOES_VIDA 
%%R
str(CONDICOES_VIDA$COD_UPA)

In [None]:
#Verificando o n√≠vel de mensura√ß√£o da vari√°vel NUM_DOM - DOMICILIOS 
%%R
str(DOMICILIO$NUM_DOM)

In [None]:
#Verificando o n√≠vel de mensura√ß√£o da vari√°vel NUM_DOM - CONDICOES_VIDA 
%%R
str(CONDICOES_VIDA$NUM_DOM)

In [None]:
#Procedendo √† jun√ß√£o dos bancos de dados (merge)
%%R
DOM_CONDICOES_VIDA <- merge(DOMICILIO, CONDICOES_VIDA, by=c("COD_UPA", "NUM_DOM"))

In [None]:
#Verificando a descri√ß√£o das vari√°veis contidas no objeto criado e que re√∫ne informa√ß√µe dos dois bancos de dados (DOM_CONDICOES_VIDA)
%%R
ls(DOM_CONDICOES_VIDA)

Vari√°veis que vamos trabalhar:

1.   UF: Unidade da Federa√ß√£o (ver no sigaa qual a sua UF)
2.   COD_UPA: C√≥digo da Unidade Prim√°ria de Amostragem (UPA)
3.   ESTRATO_POF: estratos do plano amostral da pesquisa
4.   TIPO_SITUACAO_REG.x: Situa√ß√£o do Domic√≠lio
5.   V0201: Tipo de domic√≠lio
6.   V6199: Situa√ß√£o de seguran√ßa alimentar do domic√≠lio
7.   V61041: Padr√£o de vida em rela√ß√£o √† alimenta√ß√£o
8.   V61045: Padr√£o de vida em rela√ß√£o √† sa√∫de
9.   PESO_FINAL: fator de expans√£o (peso) ajustado √†s estimativas populacionais para 15 janeiro de 2018, segundo cada Unidade da Federa√ß√£o e p√≥s estratos definidos



# An√°lise explorat√≥ria dos dados

In [None]:
#Vari√°vel Situa√ß√£o do domic√≠lio (TIPO_SITUACAO_REG.x)
%%R
table(DOM_CONDICOES_VIDA$TIPO_SITUACAO_REG.x)

In [None]:
#Adicionando os r√≥tulos criando uma nova vari√°vel (situadom)
%%R
DOM_CONDICOES_VIDA$situadom<-factor(DOM_CONDICOES_VIDA$TIPO_SITUACAO_REG.x,labels=c('Urbano', 'Rural'))

100*prop.table(table(DOM_CONDICOES_VIDA$situadom))

In [None]:
#Vari√°vel Tipo de domic√≠lio (V0201)
%%R
table(DOM_CONDICOES_VIDA$V0201)

In [None]:
#Adicionando os r√≥tulos criando uma nova vari√°vel (tipodom)
%%R
DOM_CONDICOES_VIDA$tipodom<-factor(DOM_CONDICOES_VIDA$V0201,labels=c('Casa', 'Apartamento', 'Casa de c√¥modos, corti√ßo ou cabe√ßa de porco'))

100*prop.table(table(DOM_CONDICOES_VIDA$tipodom))

In [None]:
#Vari√°vel  Situa√ß√£o de seguran√ßa alimentar do domic√≠lio  (V6199)
%%R
table(DOM_CONDICOES_VIDA$V6199)

In [None]:
#Adicionando os r√≥tulos criando uma nova vari√°vel (seg_alimentar)
%%R
DOM_CONDICOES_VIDA$seg_alimentar<-factor(DOM_CONDICOES_VIDA$V6199,labels=c('Seguran√ßa', 'Inseguran√ßa leve', 'Inseguran√ßa moderada', 'Inseguran√ßa grave'))

100*prop.table(table(DOM_CONDICOES_VIDA$seg_alimentar))

In [None]:
#Padr√£o de vida em rela√ß√£o √† alimenta√ß√£o (V61041)
%%R
table(DOM_CONDICOES_VIDA$V61041)

In [None]:
#Adicionando os r√≥tulos criando uma nova vari√°vel (pv_alimentacao)
%%R
DOM_CONDICOES_VIDA$pv_alimentacao<-factor(DOM_CONDICOES_VIDA$V61041,labels=c('Bom', 'Satisfat√≥rio', 'Ruim'))

100*prop.table(table(DOM_CONDICOES_VIDA$pv_alimentacao))

In [None]:
#Padr√£o de vida em rela√ß√£o √† sa√∫de (V61045)
%%R
table(DOM_CONDICOES_VIDA$V61045)

In [None]:
#Adicionando os r√≥tulos criando uma nova vari√°vel (pv_saude)
%%R
DOM_CONDICOES_VIDA$pv_saude<-factor(DOM_CONDICOES_VIDA$V61045,labels=c('Bom', 'Satisfat√≥rio', 'Ruim'))

100*prop.table(table(DOM_CONDICOES_VIDA$pv_saude))


## Incorporando a estrutura do plano amostral da POF nas an√°lises estat√≠sticas  

Assim como  a PNAD C, a POF apresenta um desenho complexo de amostragem, ent√£o vamos incorporar a estrutura do plano amostral desta pesquisa nas an√°lises  an√°lises pontuais que faremos.


In [None]:
#Vamos instalar o pacote survey
%%R
install.packages("survey")

In [None]:
#E carrega-lo
%%R
library(survey)

In [None]:
#Recompondo o plano amostral para Brasil 
%%R
sample.pof <- svydesign(ids = ~COD_UPA, strata = ~ESTRATO_POF.x, weights = ~PESO_FINAL.x, data = DOM_CONDICOES_VIDA , na.rm=TRUE, nest = TRUE)

# para evitar erro "has only one PSU at stage 1"
options(survey.lonely.psu = "adjust")

In [None]:
#Agora voc√™ pode proceder √†s an√°lises
#a)  Propor√ß√£o de domic√≠lios segundo o n√≠vel de seguran√ßa alimentar no Brasil
%%R
svymean(~factor(seg_alimentar), design=sample.pof, na.rm=TRUE)

In [None]:
#Representa√ß√£o em gr√°fico
%%R
a=svymean(~factor(seg_alimentar), design=sample.pof, na.rm=TRUE)
barplot(a*100, main = "Domic√≠lios brasileiros segundo n√≠vel de seguran√ßa alimentar, 2017-2018.", font.main = 13, col.main = "blue", cex.main = 1,
        col = c("grey", "red", "red", "red"), density=c(20), ylim = c(0, 100),
        xlab = "Fonte: POF, 2017-2018. IBGE", names = c('Seguran√ßa', 'I. leve', 'I. moderada', 'I. grave')) 

In [None]:
#b)  Padr√£o de vida em rela√ß√£o √† sa√∫de  - Brasil
%%R
svymean(~factor(pv_saude), design=sample.pof, na.rm=TRUE)

In [None]:
#Representa√ß√£o em gr√°fico
%%R
b=svymean(~factor(pv_saude), design=sample.pof, na.rm=TRUE)
barplot(b*100, main = "Avalia√ß√£o do padr√£o de vida da fam√≠lia em rela√ß√£o √† sa√∫de , 2017-2018.", font.main = 13, col.main = "blue", cex.main = 1,
        col = c("green", "yellow", "red"), density=c(20), ylim = c(0, 100),
        xlab = "Fonte: POF, 2017-2018. IBGE", names = c('Bom', 'Satisfat√≥rio', 'Ruim')) 

In [None]:
#c)  N√≠vel de seguran√ßa alimetar segundo o padr√£o de vida da fam√≠lia em rela√ß√£o √† sa√∫de   - Brasil
%%R
c=svyby(~seg_alimentar, ~pv_saude, sample.pof, svymean, na.rm=TRUE)
barplot(c, main = "Avalia√ß√£o do padr√£o de vida da fam√≠lia em rela√ß√£o √† sa√∫de, 2017-2018.", font.main = 13, col.main = "black", cex.main = 1,
 col = c("green", "yellow", "orange", "red"), density=c(60), ylim = c(0, 1),        
xlab = "Fonte: POF, 2017-2018. IBGE", 
ylab= "Prop", 
legend = c('Seguran√ßa', 'I. leve', 'I. moderada', 'I. grave'),font.lab = 2, col.lab = "black", cex.lab = 0.9,
args.legend = list(title = "N√≠vel de seguran√ßa alimentar", x = "topright", cex = .9))


In [None]:
#Salvando a base de dados em seu drive
%%R
save(DOM_CONDICOES_VIDA,file="/content/drive/MyDrive/POF/dom_cvida.Rdata")

In [None]:
#Abrindo a base
%%R
load("/content/drive/MyDrive/POF/dom_cvida.Rdata")