# Estudo dos dados do PENSE

O estudo realizado nesse Notebook objetiva fazer uma análise dos dados do PENSE (Pesquisa Nacional de Saúde do Escolar), que investiga informações que permitem conhecer e dimensionar os fatores de risco e proteção à saúde dos adolescentes. A pesquisa é realizada por amostragem, utilizando como referência para seleção o cadastro das escolas públicas e privadas do Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira - INEP.  

Nestaa edição, que é de 2015, importantes inovações foram introduzidas na pesquisa, dentre as quais se destaca a disponibilização de informações oriundas de dois planos amostrais distintos: escolares frequentando o 9o ano do ensino fundamental e escolares de 13 a 17 anos de idade frequentando as etapas do 6o ao 9o ano do ensino fundamental (antigas 5a a 8a séries) e da 1a a 3a série do ensino médio, que essa segunda amostra é a que será utilizada nesse estudo. A segunda amostra, por sua vez, proporciona melhor identificação e acompanhamento de fatores relacionados ao desenvolvimento físico-biológico e ao tempo de exposição às condições de risco para o grupo etário considerado, e viabiliza maior comparabilidade com indicadores internacionais, em especial aqueles provenientes da OMS.

## Objetivo da análise

## Metodologia

## Construção do DataFrame e Tratamento dos dados

O Site do IBGE disponibiliza os dados em Zip para fazer o download. O download foi feito e colocado no Drive para os arquivos serem usados diretamente do Drive.


### Importação dos dados e bibliotecas

In [1]:
# importação de bibliotecas que serão usadas

from zipfile import ZipFile
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt


In [2]:
path = "/content/drive/MyDrive/Colab_Notebooks/BootcampDataScience/modulo_03/PeNSE_2015_AMOSTRA2.zip"
zip = ZipFile(path)
caminho_pasta_zipada = zip.namelist()[1]

In [3]:
dados = pd.read_csv(zip.open(caminho_pasta_zipada), sep = ";", thousands=".", decimal=",")

In [4]:
dados.head(5)

Unnamed: 0,ANOPESQ,PAIS,REGEOGR,VB00004,VB01001,VB01002,VB01003,VB01004,VB01005,VB01006,VB01007,VB01008A,VB01010A,VB01011,VB01012,VB01013,VB01014,VB01015A,VB01016,VB01017,VB01018,VB01019,VB01020A,VB01021,VB01022,VB01023,VB01024,VB01025,VB01026,VB02001,VB02002,VB02004A,VB02010,VB02011,VB02013,VB02017A,VB02018A,VB02019A,VB02020A,VB02021,...,VB11005,VB11006,VB11007,VB12001,VB12002,VB12003,VB13001,VB13002A,VB13004A,VB13005,VB13006,VB13007,VB13008,VB13009,VB14001,VB14002,VB16001A01,VB16001A02,VB16001A03,VB16001A04,VB16001A05,VB16001A06,VB16001A07,VB16001A08,VB17001,VB17002,VB17003,VB17004,VB17005,VB17006,ESTRATO_EXP,ESTRATOGEOREG,PESO,V0006,V0007,V0008,V0041,aluno,escola,turma
0,2015,76,1,1,2,1,13,7,7,1,2,7,3,2,-1,1,1,1,1,1,2,4,2,4,1,2,2,5,1,8,3,4,3,6,6,1,6,1,-1,2,...,2,1,2,1,1,4,2,-1,3,1,1,-1,1,1,2,2,1,2,2,2,2,2,2,2,371.0,1570.0,37.1,157.0,2,1,1223,1,299.735235,1,2,4,1,1,1,296
1,2015,76,1,1,2,1,14,4,7,1,1,7,3,2,-1,1,1,1,1,1,2,2,2,4,1,2,2,5,3,8,2,1,8,8,6,1,1,5,-1,2,...,2,3,2,4,4,4,1,2,3,3,1,-1,1,1,2,2,2,2,2,1,2,2,2,2,502.0,1520.0,50.2,152.0,2,2,1223,1,355.170081,1,2,4,1,2,1,296
2,2015,76,1,1,1,4,13,6,7,1,1,5,5,2,-1,2,1,1,1,1,2,3,1,4,1,2,2,5,3,2,3,1,8,2,8,1,1,5,5,1,...,2,1,2,1,2,3,1,2,1,2,5,99,1,-1,2,2,1,1,1,1,1,1,1,1,482.0,1614.0,48.2,161.4,2,2,1223,1,299.735235,1,2,4,1,3,1,296
3,2015,76,1,1,1,1,14,6,7,1,1,7,4,2,-1,1,1,1,1,1,2,4,2,4,1,2,2,6,3,2,4,1,3,2,7,1,5,1,-1,2,...,2,1,2,2,2,4,1,10,3,1,2,-1,1,-1,2,2,1,2,2,2,1,2,2,2,694.0,1725.0,69.4,172.5,2,3,1223,1,355.170081,1,2,4,1,4,1,296
4,2015,76,1,1,1,1,13,9,7,1,2,5,4,2,-1,2,1,1,1,1,2,5,1,4,1,2,2,6,5,6,3,5,2,6,2,1,5,1,5,1,...,2,1,4,2,2,4,1,3,2,2,2,13,1,-1,1,2,1,1,1,1,1,1,1,1,789.0,1675.0,78.9,167.5,2,4,1223,1,299.735235,1,2,4,1,5,1,296


In [5]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16556 entries, 0 to 16555
Columns: 181 entries, ANOPESQ to turma
dtypes: float64(10), int64(171)
memory usage: 22.9 MB


In [6]:
dados.describe()

Unnamed: 0,ANOPESQ,PAIS,REGEOGR,VB00004,VB01001,VB01002,VB01003,VB01004,VB01005,VB01006,VB01007,VB01008A,VB01010A,VB01011,VB01012,VB01013,VB01014,VB01015A,VB01016,VB01017,VB01018,VB01019,VB01020A,VB01021,VB01022,VB01023,VB01024,VB01025,VB01026,VB02001,VB02002,VB02004A,VB02010,VB02011,VB02013,VB02017A,VB02018A,VB02019A,VB02020A,VB02021,...,VB11005,VB11006,VB11007,VB12001,VB12002,VB12003,VB13001,VB13002A,VB13004A,VB13005,VB13006,VB13007,VB13008,VB13009,VB14001,VB14002,VB16001A01,VB16001A02,VB16001A03,VB16001A04,VB16001A05,VB16001A06,VB16001A07,VB16001A08,VB17001,VB17002,VB17003,VB17004,VB17005,VB17006,ESTRATO_EXP,ESTRATOGEOREG,PESO,V0006,V0007,V0008,V0041,aluno,escola,turma
count,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,...,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16511.0,16509.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0,16556.0
mean,2015.0,76.0,3.012443,1.0,1.499456,2.698417,14.095917,6.529778,6.497886,1.177821,1.456088,5.521442,4.472457,1.932774,-0.658976,1.630527,1.237739,1.36748,1.31179,1.514073,1.782556,2.646895,1.983027,3.811851,2.061669,2.059737,2.202404,4.418277,2.930539,5.6777,3.132762,4.81922,4.791737,4.47747,4.002054,2.233692,3.396654,2.449505,1.855762,1.530503,...,3.25604,2.685794,3.301643,2.672807,2.61742,4.024583,2.473967,1.851776,3.165257,2.645446,2.82375,5.126782,2.082085,0.57073,2.645023,2.712129,2.066018,2.461404,2.400821,2.29524,2.138802,2.408009,2.413989,2.469014,720.067167,1707.824944,54.705581,160.713113,1.940324,2.333474,3095.650459,3.012443,1144.868891,1.051401,1.252174,2.671781,-0.341024,8278.5,186.053938,320.036241
std,0.0,0.0,1.414031,0.0,0.500015,3.868506,2.127947,4.210372,4.016313,2.542142,2.976776,4.84326,3.23523,2.846333,1.887961,3.423028,3.242986,3.422951,3.335345,3.589203,3.32868,2.834142,3.391287,2.973932,1.95114,5.510869,4.944444,3.14068,3.147671,5.076772,4.98727,5.019093,5.200573,5.14835,4.629152,4.148241,3.550049,3.240009,2.906492,3.686487,...,11.317482,9.399305,10.124933,6.21068,6.677625,6.102175,10.018074,7.598201,11.359404,8.084829,10.074287,12.213946,9.550399,6.16366,9.097973,9.245862,6.85672,6.812536,6.820812,6.833927,6.850322,6.819859,6.81906,6.811458,1237.323409,1078.777096,14.547864,10.34007,0.236893,0.685435,1443.400564,1.414031,1133.068244,0.220822,0.434274,0.872426,1.282048,4779.449864,107.358284,186.022453
min,2015.0,76.0,1.0,1.0,1.0,1.0,11.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,-1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,-1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,-1.0,1.0,1.0,1.0,-1.0,1.0,-1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,7.0,1.0,0.8,124.1,1.0,1.0,311.0,1.0,24.213647,1.0,1.0,1.0,-1.0,1.0,1.0,1.0
25%,2015.0,76.0,2.0,1.0,1.0,1.0,12.0,4.0,5.0,1.0,1.0,3.0,3.0,2.0,-1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,2.0,2.0,1.0,1.0,2.0,4.0,3.0,3.0,1.0,2.0,2.0,2.0,2.0,1.0,1.0,1.0,-1.0,1.0,...,2.0,1.0,1.0,1.0,1.0,4.0,1.0,-1.0,1.0,1.0,1.0,-1.0,1.0,-1.0,2.0,2.0,1.0,2.0,2.0,2.0,1.0,2.0,2.0,2.0,452.0,1530.0,45.0,153.8,2.0,2.0,2121.0,2.0,404.965321,1.0,1.0,2.0,-1.0,4139.75,97.0,159.0
50%,2015.0,76.0,3.0,1.0,1.0,2.0,14.0,6.0,6.0,1.0,1.0,5.0,4.0,2.0,-1.0,2.0,1.0,1.0,1.0,1.0,2.0,2.0,2.0,4.0,1.0,2.0,2.0,5.0,3.0,6.0,2.0,4.0,4.0,4.0,3.0,1.0,4.0,1.0,1.0,1.0,...,2.0,2.0,2.0,2.0,2.0,4.0,1.0,1.0,2.0,2.0,2.0,3.0,1.0,-1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,535.0,1600.0,52.9,160.4,2.0,2.0,3123.0,3.0,746.438889,1.0,1.0,2.0,-1.0,8278.5,184.0,316.0
75%,2015.0,76.0,4.0,1.0,2.0,4.0,16.0,9.0,8.0,1.0,2.0,8.0,5.0,2.0,-1.0,2.0,1.0,2.0,1.0,2.0,2.0,3.0,2.0,6.0,3.0,2.0,2.0,5.0,3.0,8.0,4.0,8.0,7.0,7.0,6.0,3.0,5.0,5.0,4.0,2.0,...,2.0,2.0,3.0,3.0,3.0,4.0,2.0,2.0,3.0,3.0,2.0,7.0,1.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,635.0,1680.0,62.0,167.9,2.0,3.0,4123.0,4.0,1510.244112,1.0,2.0,4.0,1.0,12417.25,276.0,475.0
max,2015.0,76.0,5.0,1.0,2.0,99.0,19.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,...,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,99.0,9999.0,9999.0,171.5,195.3,2.0,4.0,5223.0,5.0,17888.58963,2.0,2.0,4.0,4.0,16556.0,371.0,653.0


### Checagem e tratamento dos dados

In [42]:
# Checar se existem dados NaN do DataFrame

dados.isna().sum().sum()

432

In [46]:
# Checagem das colunas com NaN

colunas_nan = dados.loc[:, dados.isnull().any()].columns
colunas_nan

Index(['TEMPODESLOC', 'TEMPOTOTAL', 'TEMPOEDFIS', 'TEMPOEXTRA', 'TEMPOEST',
       'VB17001', 'VB17002'],
      dtype='object')

In [47]:
# Mostrar somente as linhas com dados NaN

df_nan = dados[dados.isnull().T.any()]
df_nan.sample(8)

Unnamed: 0,ANOPESQ,PAIS,REGEOGR,VB00004,VB01001,VB01002,VB01003,VB01004,VB01005,VB01006,VB01007,VB01008A,VB01010A,VB01011,VB01012,VB01013,VB01014,VB01015A,VB01016,VB01017,VB01018,VB01019,VB01020A,VB01021,VB01022,VB01023,VB01024,VB01025,VB01026,VB02001,VB02002,VB02004A,VB02010,VB02011,VB02013,VB02017A,VB02018A,VB02019A,VB02020A,VB02021,...,VB11005,VB11006,VB11007,VB12001,VB12002,VB12003,VB13001,VB13002A,VB13004A,VB13005,VB13006,VB13007,VB13008,VB13009,VB14001,VB14002,VB16001A01,VB16001A02,VB16001A03,VB16001A04,VB16001A05,VB16001A06,VB16001A07,VB16001A08,VB17001,VB17002,VB17003,VB17004,VB17005,VB17006,ESTRATO_EXP,ESTRATOGEOREG,PESO,V0006,V0007,V0008,V0041,aluno,escola,turma
4490,2015,76,2,1,2,4,14,3,7,1,2,1,5,2,-1,2,1,2,1,2,2,3,2,2,1,1,2,5,3,8,1,1,1,1,1,1,5,1,5,1,...,2,2,2,1,99,2,1,2,1,1,2,5,1,1,2,1,1,2,2,1,2,2,2,2,511.0,1618.0,51.1,161.8,2,2,2123,2,1688.714395,1,1,2,-1,4491,105,85
14800,2015,76,5,1,2,1,12,5,9,1,1,8,4,2,-1,2,1,1,1,1,2,2,2,1,3,2,1,1,3,99,1,99,1,1,1,1,6,1,1,1,...,2,1,5,3,1,4,2,-1,1,2,1,1,1,1,2,2,2,2,2,2,1,2,2,2,441.0,1545.0,44.1,154.5,2,2,5123,5,420.455672,1,1,2,-1,14801,336,235
10481,2015,76,4,1,2,4,16,2,5,2,2,2,2,2,-1,2,1,1,1,1,2,2,2,5,3,1,1,2,5,3,1,3,3,1,2,5,5,1,4,1,...,99,99,99,99,99,99,99,-1,99,99,99,-1,99,99,2,99,1,2,2,2,2,2,2,2,719.0,1615.0,71.9,161.5,2,3,4123,4,992.949148,1,1,2,-1,10482,231,633
15556,2015,76,5,1,1,1,11,12,9,1,2,7,4,2,-1,1,1,1,1,1,2,5,2,1,3,2,2,5,3,6,2,6,1,8,2,1,6,1,-1,2,...,99,2,1,5,1,4,99,-1,99,1,2,-1,2,-1,2,2,2,2,2,2,2,2,1,2,648.0,1642.0,64.8,164.2,2,4,5223,5,119.090059,1,2,4,1,15557,353,388
3842,2015,76,2,1,1,2,15,4,99,1,1,8,5,2,-1,2,1,2,2,2,2,2,2,2,3,99,2,6,4,8,2,8,8,8,2,1,5,1,1,1,...,99,99,99,1,3,4,1,99,99,1,99,-1,1,-1,99,99,99,99,99,99,99,99,99,99,464.0,1585.0,46.4,158.5,2,2,2121,2,4605.604807,1,1,3,-1,3843,92,423
10901,2015,76,4,1,1,4,11,9,10,1,2,1,7,2,-1,2,1,1,1,1,2,2,2,1,1,1,2,5,3,8,1,1,1,8,1,1,6,5,4,1,...,2,4,1,3,1,4,99,-1,2,2,1,1,2,-1,2,2,1,1,2,2,2,2,2,2,339.0,1366.0,33.9,136.6,2,2,4121,4,303.522823,1,1,2,-1,10902,241,121
3584,2015,76,2,1,1,1,14,6,6,1,1,1,4,2,-1,2,1,1,1,1,1,3,2,5,3,2,2,1,2,8,1,1,2,4,2,1,1,1,-1,2,...,99,2,1,1,1,1,1,2,1,3,3,99,99,-1,2,2,1,2,2,2,2,2,2,2,,,40.5,172.4,1,1,2122,2,1706.630102,1,1,2,-1,3585,86,99
11187,2015,76,4,1,2,1,15,10,5,1,1,7,3,2,-1,1,1,1,1,1,2,2,2,6,1,2,2,5,3,1,1,2,3,4,1,1,5,1,5,1,...,2,3,4,3,3,4,1,2,3,2,5,-1,1,2,2,2,2,2,2,2,2,2,1,2,,,44.4,156.1,1,2,4122,4,629.125037,1,1,2,-1,11188,247,78


In [52]:
# Mostrar onde temos dados NaN

df_nan[colunas_nan].isna().sum()

TEMPODESLOC     33
TEMPOTOTAL      20
TEMPOEDFIS      84
TEMPOEXTRA      93
TEMPOEST       110
VB17001         45
VB17002         47
dtype: int64

In [53]:
df_nan[colunas_nan].sample(8)

Unnamed: 0,TEMPODESLOC,TEMPOTOTAL,TEMPOEDFIS,TEMPOEXTRA,TEMPOEST,VB17001,VB17002
15153,0.0,15.0,10.0,5.0,60.0,,
15013,300.0,410.0,110.0,,300.0,1209.0,1568.0
4377,60.0,235.0,,175.0,420.0,555.0,1505.0
3407,90.0,90.0,,,0.0,710.0,1738.0
10614,20.0,245.0,45.0,180.0,,440.0,1565.0
2118,40.0,40.0,0.0,0.0,0.0,,
2937,0.0,25.0,25.0,,60.0,389.0,1477.0
10294,0.0,0.0,,,,9999.0,9999.0


Ao ver as colunas com dados NaN, cheguei ao problema de compreender o que as perguntas significam, uma vez que em alguns casos são conjuntos de letras e números para especificar a pergunta.

#### Facilitando a compreensão das perguntas

In [58]:
excel = '/content/drive/MyDrive/Colab_Notebooks/BootcampDataScience/modulo_03/Dicionario_PENSE_Microdados_AMOSTRA2.xls'

dados_excel = pd.read_excel(excel)

In [60]:
# Montar o dicionario de codigo da coluna e qual é a pergunta referente ao código

dados_excel.set_index('VARIÁVEL', inplace = True)
dicionario_perguntas = {}
colunas_perguntas = list(dados.columns)

for i in colunas_perguntas:
  dicionario_perguntas[i] = dados_excel.loc[i][0]


# Definição de uma função para mostrar qual a pergunta referente ao código da coluna

def qual_a_pergunta(codigo : str):
  return print("A pergunta do código {} é: '{}'.".format(codigo,dicionario_perguntas[codigo]))

In [64]:

# Montar o dicionário das respostas das perguntas!
dados_excel.reset_index(inplace=True)
dicionario_respostas = {}
lista_indexes = []

# A função abaixo monta uma lista com o index das linhas do arquivo excel, em que temos perguntas

for variavel in dados_excel["VARIÁVEL"]:
  if variavel in colunas_perguntas:
    lista_indexes.append(dados_excel.query(f"VARIÁVEL == '{variavel}'").index[0])


''' 
Essa parte do código faz um looping dentro do range da quantidade de dados
da lista montada anteriormente. Cada vez que ela itera ela usa o valor daquele número inteiro
dentro daquela lista de indexes, assim se o primeiro index for o 5, ele na primeira interação
busca o index 5 com a função loc, porém como só quero as respostas, adicionamos +1 ao index
para buscar somente as respostas. Para delimitar ele busca no próximo item da lista de indexes
qual é o index e dessa vez substrai 1 do valor para selecionar somente os items dessa uma
única resposta. Assim atribui esse dataframe à uma variavel à um dicionário que foi 
adicionado no dicionário definido nessa célula como dicionario_respostas
'''

for i in range(len(lista_indexes)+1):
  if i == 180:
    dict_temp = dados_excel.loc[lista_indexes[i]+1:].set_index("VARIÁVEL")
    dict_temp = dict_temp.rename(columns ={'QUESTIONÁRIO DO ALUNO':dados_excel.loc[lista_indexes[i]][0]}).to_dict()  
  else:
    try:
      dict_temp = dados_excel.loc[lista_indexes[i]+1:lista_indexes[i+1]-1].set_index("VARIÁVEL")
      dict_temp = dict_temp.rename(columns ={'QUESTIONÁRIO DO ALUNO':dados_excel.loc[lista_indexes[i]][0]}).to_dict()
    except Exception:
      pass

  dicionario_respostas.update(dict_temp)

# Definição da função para retornar como são as respostas daquele código

def como_respostas(codigo:str):
  if dicionario_respostas[codigo] == {}:
    print("Resposta impossível de classificar") 
  else:
    return  dicionario_respostas[codigo]

In [67]:
# A ideia dessa função é mostrar o que aquela código de coluna significa,
#mostrando a pergunta, e as possíveis respostas.

def descricao_pergunta(coluna : str):
  qual_a_pergunta(codigo = coluna)
  if dicionario_respostas[coluna] == {}:
    print("As respostas não foram possíveis de classificar, verifique diretamente no DataFrame")
  else:
    print("Respostas:")
    return dicionario_respostas[coluna]

In [68]:
descricao_pergunta("VB01004")

A pergunta do código VB01004 é: 'Qual é o mês do seu aniversário?'.
Respostas:


{1: 'Janeiro',
 2: 'Fevereiro',
 3: 'Março',
 4: 'Abril',
 5: 'Maio',
 6: 'Junho',
 7: 'Julho',
 8: 'Agosto',
 9: 'Setembro',
 10: 'Outubro',
 11: 'Novembro',
 12: 'Dezembro',
 99: 'Não informado'}

In [75]:
qual_a_pergunta(dados.columns[57])

A pergunta do código VB03011A é: 'NOS ÚLTIMOS 7 DIAS, em quantos dias você fez atividade física por pelo menos 60 minutos (1 hora) por dia? (Some todo o tempo que você gastou em qualquer tipo de atividade física EM CADA DIA)'.


### Checagem e tratamento dos dados pt.2

In [76]:
dados.head()

Unnamed: 0,ANOPESQ,PAIS,REGEOGR,VB00004,VB01001,VB01002,VB01003,VB01004,VB01005,VB01006,VB01007,VB01008A,VB01010A,VB01011,VB01012,VB01013,VB01014,VB01015A,VB01016,VB01017,VB01018,VB01019,VB01020A,VB01021,VB01022,VB01023,VB01024,VB01025,VB01026,VB02001,VB02002,VB02004A,VB02010,VB02011,VB02013,VB02017A,VB02018A,VB02019A,VB02020A,VB02021,...,VB11005,VB11006,VB11007,VB12001,VB12002,VB12003,VB13001,VB13002A,VB13004A,VB13005,VB13006,VB13007,VB13008,VB13009,VB14001,VB14002,VB16001A01,VB16001A02,VB16001A03,VB16001A04,VB16001A05,VB16001A06,VB16001A07,VB16001A08,VB17001,VB17002,VB17003,VB17004,VB17005,VB17006,ESTRATO_EXP,ESTRATOGEOREG,PESO,V0006,V0007,V0008,V0041,aluno,escola,turma
0,2015,76,1,1,2,1,13,7,7,1,2,7,3,2,-1,1,1,1,1,1,2,4,2,4,1,2,2,5,1,8,3,4,3,6,6,1,6,1,-1,2,...,2,1,2,1,1,4,2,-1,3,1,1,-1,1,1,2,2,1,2,2,2,2,2,2,2,371.0,1570.0,37.1,157.0,2,1,1223,1,299.735235,1,2,4,1,1,1,296
1,2015,76,1,1,2,1,14,4,7,1,1,7,3,2,-1,1,1,1,1,1,2,2,2,4,1,2,2,5,3,8,2,1,8,8,6,1,1,5,-1,2,...,2,3,2,4,4,4,1,2,3,3,1,-1,1,1,2,2,2,2,2,1,2,2,2,2,502.0,1520.0,50.2,152.0,2,2,1223,1,355.170081,1,2,4,1,2,1,296
2,2015,76,1,1,1,4,13,6,7,1,1,5,5,2,-1,2,1,1,1,1,2,3,1,4,1,2,2,5,3,2,3,1,8,2,8,1,1,5,5,1,...,2,1,2,1,2,3,1,2,1,2,5,99,1,-1,2,2,1,1,1,1,1,1,1,1,482.0,1614.0,48.2,161.4,2,2,1223,1,299.735235,1,2,4,1,3,1,296
3,2015,76,1,1,1,1,14,6,7,1,1,7,4,2,-1,1,1,1,1,1,2,4,2,4,1,2,2,6,3,2,4,1,3,2,7,1,5,1,-1,2,...,2,1,2,2,2,4,1,10,3,1,2,-1,1,-1,2,2,1,2,2,2,1,2,2,2,694.0,1725.0,69.4,172.5,2,3,1223,1,355.170081,1,2,4,1,4,1,296
4,2015,76,1,1,1,1,13,9,7,1,2,5,4,2,-1,2,1,1,1,1,2,5,1,4,1,2,2,6,5,6,3,5,2,6,2,1,5,1,5,1,...,2,1,4,2,2,4,1,3,2,2,2,13,1,-1,1,2,1,1,1,1,1,1,1,1,789.0,1675.0,78.9,167.5,2,4,1223,1,299.735235,1,2,4,1,5,1,296


In [88]:
descricao_pergunta('VB17003')

A pergunta do código VB17003 é: 'Peso do estudante, incluindo os imputados, com uma casa decimal '.
As respostas não foram possíveis de classificar, verifique diretamente no DataFrame


In [89]:
descricao_pergunta('VB17004')

A pergunta do código VB17004 é: 'Altura do estudante, incluindo os imputados, com uma casa decimal'.
As respostas não foram possíveis de classificar, verifique diretamente no DataFrame


Existe mais de uma forma da apresentação do peso e altura nesse dataframe, utilizarei a VB17003 e VB17004 que são as que mais se aproximam da forma correta para calcular o IMC.

In [92]:
dados["IMC"] = (dados["VB17003"]/(dados["VB17004"]/100)**2).round(2)

In [93]:
dados['IMC']

0        15.05
1        21.73
2        18.50
3        23.32
4        28.12
         ...  
16551    20.11
16552    17.93
16553    23.97
16554    19.00
16555    23.30
Name: IMC, Length: 16556, dtype: float64

In [94]:
# Além do indice número, também utilizarei as nomeclaturas

classes = [0, 18.5, 25, 30, 60]
labels = ["abaixo","normal", "sobrepeso", "obesidade"]

dados["classe_IMC"] = pd.cut(x = dados["IMC"], 
                             bins = classes,
                             labels = labels,
                             include_lowest = True)

In [95]:
dados[["IMC","classe_IMC"]]

Unnamed: 0,IMC,classe_IMC
0,15.05,abaixo
1,21.73,normal
2,18.50,abaixo
3,23.32,normal
4,28.12,sobrepeso
...,...,...
16551,20.11,normal
16552,17.93,abaixo
16553,23.97,normal
16554,19.00,normal


## Análise Exploratória