# Primeira parte:
## Exluir variáveis desnecessárias à pesquisa

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('PENSE2019_MICRODADOS.csv')

In [3]:
print(df.columns.tolist())

['REGIAO', 'UF', 'MUNICIPIO_CAP', 'TIPO_MUNIC', 'SITUACAO', 'DEP_ADMIN', 'ESFERA', 'ESCOLA', 'TURMA', 'ALUNO', 'ANO_TURMA', 'B00004', 'B01001A', 'B01003', 'B01004', 'B01005', 'B01002', 'B01021A', 'B01026A1', 'B01026A2', 'B01006', 'B01007', 'B01010A', 'B01014', 'B01015B', 'B01016', 'B01017', 'B01018A', 'B01019A', 'B01020A', 'B01008B', 'B02019A', 'B02017A', 'B02018B', 'B02028', 'B02029', 'B02030', 'B02031', 'B02032', 'B02033', 'B02034', 'B02035', 'B02036', 'B02037', 'B02038', 'B02039', 'B02040', 'B02001', 'B02004B', 'B02010A', 'B02011', 'B02013', 'B02023A', 'B02021A', 'B02020B', 'B02041', 'B02042', 'B03001A1', 'B03002A1', 'B03001A2', 'B03002A2', 'B03003A', 'B03005B', 'B03006B', 'B03007A', 'B03009B', 'B03010B', 'B04001', 'B04002A', 'B04003', 'B04009A', 'B04010', 'B04012', 'B04013', 'B04014', 'B04015', 'B04011A01', 'B04011A02', 'B04011A03', 'B04011A04', 'B04011A05', 'B04011A06', 'B04006B', 'B04005A', 'B04016', 'B05002A', 'B05003A', 'B05007', 'B05009', 'B05004A', 'B05005A', 'B05006B', 'B050

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 165838 entries, 0 to 165837
Columns: 306 entries, REGIAO to TOTAIS_POSEST
dtypes: float64(296), int64(9), object(1)
memory usage: 387.2+ MB


In [5]:
# Excluindo variáveis: B00004
# seção de higiene 
# seção de opinião sobre o questionário
df = df.drop(['B00004', 'B10004A', 'B10005A', 'B10006A', 'B10001B', 'B10002', 'B10003', 'B16001A01',
              'B16001A02', 'B16001A03', 'B16001A04', 'B16001A05', 'B16001A06', 'B16001A07', 'B16001A08'], axis = 1)

In [6]:
# Excluindo variáveis: B13009a, B13012
df = df.drop(['B13009A', 'B13012'], axis = 1)

In [7]:
# Exluindo variáveis
# Referentes às seções de alimentação e higiene do questionário da escola
df = df.drop(['E01P77', 'E01P11A', 'E01P12B01', 'E01P12B02', 'E01P12B03', 'E01P12B04',
              'E01P12B05', 'E01P12B06', 'E01P12B07', 'E01P12B08', 'E01P12B09', 'E01P12B10', 'E01P12B11',
              'E01P13A', 'E01P14B01', 'E01P14B02', 'E01P14B03', 'E01P14B04', 'E01P14B05', 'E01P14B06',
              'E01P14B07', 'E01P14B08', 'E01P14B09', 'E01P14B10', 'E01P14B11',
              'E01P78', 'E01P49', 'E01P49A1', 'E01P49A2',
              'E01P51', 'E01P55A', 'E01P56', 'E01P57', 'E01P58A1', 'E01P58A2'], axis = 1)
df.shape

(165838, 254)

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 165838 entries, 0 to 165837
Columns: 254 entries, REGIAO to TOTAIS_POSEST
dtypes: float64(244), int64(9), object(1)
memory usage: 321.4+ MB


# Segunda parte - Novas variáveis

## Seção B1 - informações gerais

In [9]:
df[['B01001A', 'B01003', 'B01002', 'B01021A', ]].describe()

Unnamed: 0,B01001A,B01003,B01002,B01021A
count,159245.0,159245.0,159245.0,159245.0
mean,1.529725,2.228717,2.756137,4.260624
std,0.637149,0.845897,1.698941,1.678074
min,1.0,1.0,-2.0,-2.0
25%,1.0,2.0,1.0,3.0
50%,2.0,2.0,3.0,4.0
75%,2.0,3.0,4.0,6.0
max,9.0,9.0,9.0,9.0


In [10]:
# Tem cerca de 6.000 informações faltantes
# Excluindo os missings:
df = df.dropna()
df.shape

(159245, 254)

In [11]:
# Novas variáveis: sexo, idade, raça e ano escolar

# Para criar a dummy que recebe valor 1 se for mulher e 0 c.c.
df['B01001A'].value_counts()
# Lembrando que o "sorted" do value_counts, por default, é do maior para o menor e não pela ordem do índice

2.0    80788
1.0    78011
9.0      446
Name: B01001A, dtype: int64

In [12]:
mapping = { 1 : 0,
            2 : 1, 
            9 : 0}

In [13]:
df = df.assign(feminino = df.B01001A.map(mapping))
df['feminino'].value_counts()

1    80788
0    78457
Name: feminino, dtype: int64

In [14]:
# Idade
df['B01003'].value_counts()

2.0    82389
3.0    42509
1.0    25642
4.0     8276
9.0      429
Name: B01003, dtype: int64

In [15]:
mapping_idade = {1 : 1,
                 2 : 0, 
                 3 : 0,
                 4 : 0,
                 9 : 0}

In [16]:
df = df.assign(menos_de_treze_anos = df.B01003.map(mapping_idade))
df['menos_de_treze_anos'].value_counts()

0    133603
1     25642
Name: menos_de_treze_anos, dtype: int64

In [17]:
mapping_idade = {1 : 0,
                 2 : 1, 
                 3 : 0,
                 4 : 0,
                 9 : 0}

In [18]:
df = df.assign(treze_a_quinze_anos = df.B01003.map(mapping_idade))
df['treze_a_quinze_anos'].value_counts()

1    82389
0    76856
Name: treze_a_quinze_anos, dtype: int64

In [19]:
mapping_idade = {1 : 0,
                 2 : 0, 
                 3 : 1,
                 4 : 0,
                 9 : 0}

In [20]:
df = df.assign(dezesseis_dezessete_anos = df.B01003.map(mapping_idade))
df['dezesseis_dezessete_anos'].value_counts()

0    116736
1     42509
Name: dezesseis_dezessete_anos, dtype: int64

In [21]:
mapping_idade = {1 : 0,
                 2 : 0, 
                 3 : 0,
                 4 : 1,
                 9 : 0}

In [22]:
df = df.assign(dezoito_anos_ou_mais = df.B01003.map(mapping_idade))
df['dezoito_anos_ou_mais'].value_counts()

0    150969
1      8276
Name: dezoito_anos_ou_mais, dtype: int64

In [23]:
# Raça
df['B01002'].value_counts()

 4.0    68497
 1.0    60297
 2.0    16737
 3.0     5515
 5.0     4760
 9.0     3425
-2.0       14
Name: B01002, dtype: int64

In [24]:
# Temos uma quantidade razoável de missings.
# Vamos preencher de acordo com a probabilidade?
mapping_raca = {1 : 1,
                2 : 2, 
                3 : 3,
                4 : 4,
                5 : 5,
                9 : None,
               -2 : None}

In [25]:
# Criamos a variável raça
df = df.assign(raca = df.B01002.map(mapping_raca))
df['raca'].value_counts()

4.0    68497
1.0    60297
2.0    16737
3.0     5515
5.0     4760
Name: raca, dtype: int64

In [26]:
# Calcule a distribuição de frequência de cada raça
frequencia_niveis = df['raca'].value_counts()

In [27]:
# Calcule o total de observações
total_observacoes = frequencia_niveis.sum()

In [28]:
# Calcule a probabilidade para cada raça
probabilidades = frequencia_niveis / total_observacoes

# Print das probabilidades
print(probabilidades)

4.0    0.439630
1.0    0.387001
2.0    0.107422
3.0    0.035397
5.0    0.030551
Name: raca, dtype: float64


In [29]:
# Criar uma lista com os nºs que correspondem às possíveis cores
n_raca = [1, 2, 3, 4, 5]

In [30]:
# Vamos definir as probabilidades de o aluno ser de determinada raça
probabilidades = [0.39, 0.11, 0.03, 0.44, 0.03]

In [31]:
import numpy as np
# Substitua os missings na coluna 'Raças' com base nas probabilidades
df['raca'].fillna(np.random.choice(n_raca, p=probabilidades), inplace=True)

# Agora, 'Raças' está preenchida com os valores respeitando a distribuição de probabilidade

In [32]:
df['raca'].info()

<class 'pandas.core.series.Series'>
Int64Index: 159245 entries, 0 to 165837
Series name: raca
Non-Null Count   Dtype  
--------------   -----  
159245 non-null  float64
dtypes: float64(1)
memory usage: 2.4 MB


In [33]:
# Ano escolar
df['B01021A'].value_counts()

 2.0    31223
 3.0    29031
 5.0    28404
 4.0    27859
 6.0    21821
 7.0    20545
 1.0      285
 9.0       56
-2.0       21
Name: B01021A, dtype: int64

In [34]:
# Neste caso, vamos preencher o 9 e o -2 (sem resposta e abandono de questionário) com a moda, pra facilitar.
# Vamos criar as dummies direto
mapping_ano_esc = {1 : 1,
                   2 : 0,
                   3 : 0,
                   4 : 0,
                   5 : 0,
                   6 : 0,
                   7 : 0,
                   9 : 0,
                  -2 : 0}

In [35]:
df = df.assign(sexto_ano_ef = df.B01021A.map(mapping_ano_esc))
df['sexto_ano_ef'].value_counts()

0    158960
1       285
Name: sexto_ano_ef, dtype: int64

In [36]:
mapping_ano_esc = {1 : 0,
                   2 : 1,
                   3 : 0,
                   4 : 0,
                   5 : 0,
                   6 : 0,
                   7 : 0,
                   9 : 1,
                  -2 : 1}

In [37]:
df = df.assign(setimo_ano_ef = df.B01021A.map(mapping_ano_esc))
df['setimo_ano_ef'].value_counts()

0    127945
1     31300
Name: setimo_ano_ef, dtype: int64

In [38]:
mapping_ano_esc = {1 : 0,
                   2 : 0,
                   3 : 1,
                   4 : 0,
                   5 : 0,
                   6 : 0,
                   7 : 0,
                   9 : 0,
                  -2 : 0}

In [39]:
df = df.assign(oitavo_ano_ef = df.B01021A.map(mapping_ano_esc))
df['oitavo_ano_ef'].value_counts()

0    130214
1     29031
Name: oitavo_ano_ef, dtype: int64

In [40]:
mapping_ano_esc = {1 : 0,
                   2 : 0,
                   3 : 0,
                   4 : 1,
                   5 : 0,
                   6 : 0,
                   7 : 0,
                   9 : 0,
                  -2 : 0}

In [41]:
df = df.assign(nono_ano_ef = df.B01021A.map(mapping_ano_esc))
df['nono_ano_ef'].value_counts()

0    131386
1     27859
Name: nono_ano_ef, dtype: int64

In [42]:
mapping_ano_esc = {1 : 0,
                   2 : 0,
                   3 : 0,
                   4 : 0,
                   5 : 1,
                   6 : 0,
                   7 : 0,
                   9 : 0,
                  -2 : 0}

In [43]:
df = df.assign(primeiro_ano_em = df.B01021A.map(mapping_ano_esc))
df['primeiro_ano_em'].value_counts()

0    130841
1     28404
Name: primeiro_ano_em, dtype: int64

In [44]:
mapping_ano_esc = {1 : 0,
                   2 : 0,
                   3 : 0,
                   4 : 0,
                   5 : 0,
                   6 : 1,
                   7 : 0,
                   9 : 0,
                  -2 : 0}

In [45]:
df = df.assign(segundo_ano_em = df.B01021A.map(mapping_ano_esc))
df['segundo_ano_em'].value_counts()

0    137424
1     21821
Name: segundo_ano_em, dtype: int64

In [46]:
mapping_ano_esc = {1 : 0,
                   2 : 0,
                   3 : 0,
                   4 : 0,
                   5 : 0,
                   6 : 0,
                   7 : 1,
                   9 : 0,
                  -2 : 0}

In [47]:
df = df.assign(terceiro_ano_em = df.B01021A.map(mapping_ano_esc))
df['terceiro_ano_em'].value_counts()

0    138700
1     20545
Name: terceiro_ano_em, dtype: int64

In [48]:
# Não vou trabalhar com o índice ABEP porque:
# 1 - Não tenho todos os itens
# 2 - Essa transformação seria mais complicada do que pegar a renda média pra cada UF e jogar na amostra

# Então bora lá: 
df['UF'].value_counts().sort_index(ascending = True)

11    5932
12    4687
13    4359
14    4140
15    5228
16    6139
17    5307
21    6802
22    5820
23    5501
24    6299
25    6680
26    7357
27    4824
28    6388
29    5986
31    7742
32    7245
33    6515
35    6875
41    6119
42    6434
43    4639
50    5043
51    4961
52    8824
53    3399
Name: UF, dtype: int64

In [49]:
# Vou manter essa classificação mesmo, porque é fácil reconhecer que cada dezena corresponde a uma região
# A primeira é região norte, a segunda nordeste, depois sudeste, sul e centro-oeste
# Agora usando os dados do IBGE para renda per capita de 2019, disponível em:
# https://agenciadenoticias.ibge.gov.br/agencia-sala-de-imprensa/2013-agencia-de-noticias/releases/26956-ibge-divulga-o-rendimento-domiciliar-per-capita-2019
renda_per_capita = {
    11 : 1136.48,
    12 : 889.95,
    13 : 842.08,
    14 : 1043.94,
    15 : 806.76,
    16 : 879.67,
    17 : 1055.60,
    21 : 635.59,
    22 : 826.81,
    23 : 942.36,
    24 : 1056.59,
    25 : 928.86,
    26 : 970.11,
    27 : 730.86,
    28 : 979.78,
    29 : 912.81,
    31 : 1357.59,
    32 : 1476.75,
    33 : 1881.57,
    35 : 1945.73,
    41 : 1620.88,
    42 : 1769.45,
    43 : 1842.98,
    50 : 1514.31,
    51 : 1402.87,
    52 : 1306.31,
    53 : 2685.76
    
}


In [50]:
# Adicionar uma nova coluna 'renda_per_capita' com base no estado
df['renda_per_capita'] = df['UF'].map(renda_per_capita)
df['renda_per_capita'].describe()

count    159245.000000
mean       1228.546675
std         432.304440
min         635.590000
25%         912.810000
50%        1056.590000
75%        1476.750000
max        2685.760000
Name: renda_per_capita, dtype: float64

In [51]:
# Informações sobre morar com a mãe e o pai
df['B01006'].value_counts().sort_index(ascending = True)

-2.0        26
 1.0    141468
 2.0     17687
 9.0        64
Name: B01006, dtype: int64

In [52]:
# Dummy que recebe 1 se mora com a mãe e 0 c.c.
mapping = { 1 : 1,
            2 : 0, 
            9 : 0,
           -2 : 0}

In [53]:
df = df.assign(mora_c_mae = df.B01006.map(mapping))
df['mora_c_mae'].value_counts()

1    141468
0     17777
Name: mora_c_mae, dtype: int64

In [54]:
df['B01007'].value_counts().sort_index(ascending = True)

-2.0        26
 1.0    100817
 2.0     58290
 9.0       112
Name: B01007, dtype: int64

In [55]:
# Dummy que recebe 1 se mora com o pai e 0 c.c.
mapping = { 1 : 1,
            2 : 0, 
            9 : 0,
           -2 : 0}

In [56]:
df = df.assign(mora_c_pai = df.B01007.map(mapping))
df['mora_c_pai'].value_counts()

1    100817
0     58428
Name: mora_c_pai, dtype: int64

In [57]:
# Informação sobre quantas pessoas moram com o aluno
df['B01010A'].value_counts().sort_index(ascending = True)

-2.0        27
 1.0       332
 2.0     11164
 3.0     37661
 4.0     56510
 5.0     29954
 6.0     12038
 7.0      5540
 8.0      2859
 9.0      1716
 10.0     1343
 99.0      101
Name: B01010A, dtype: int64

In [58]:
# Vamos manter como está até o 8, colocar 9 e 10 como 8 (8 pessoas ou mais)
# E preencher -2 e 99 com a moda
df['B01010A'].value_counts()

 4.0     56510
 3.0     37661
 5.0     29954
 6.0     12038
 2.0     11164
 7.0      5540
 8.0      2859
 9.0      1716
 10.0     1343
 1.0       332
 99.0      101
-2.0        27
Name: B01010A, dtype: int64

In [59]:
mapping_moradores = {1 : 1,
                     2 : 2,
                     3 : 3,
                     4 : 4,
                     5 : 5,
                     6 : 6,
                     7 : 7,
                     8 : 8,
                     9 : 8,
                    10 : 8,
                    -2 : 4,
                    99 : 4}

In [60]:
df = df.assign(n_moradores = df.B01010A.map(mapping_moradores))
df['n_moradores'].value_counts().sort_index(ascending = True)

1      332
2    11164
3    37661
4    56638
5    29954
6    12038
7     5540
8     5918
Name: n_moradores, dtype: int64

### Variável de interesse - escolaridade da mãe

In [61]:
df['B01008B'].value_counts().sort_index(ascending = True)

-2.0       30
 1.0     4541
 2.0    18589
 3.0     7230
 4.0     9484
 5.0    29175
 6.0    11425
 7.0    50810
 8.0    27656
 9.0      305
Name: B01008B, dtype: int64

In [62]:
# Queremos que maiores valores correspondam à maior escolaridade
# Criamos esse dicionário com o mapeamento dos valores (vide dicionário)
mapping_esc_mae = {8 : None,
                   1 : 1,
                   2 : 2, 
                   3 : 3,
                   4 : 4,
                   5 : 5,
                   6 : 6,
                   7 : 7,
                   9 : None,
                  -2 : None}

In [63]:
# Criamos a variável Esc_mae
df = df.assign(esc_mae = df.B01008B.map(mapping_esc_mae))
df['esc_mae'].value_counts().sort_index(ascending = True)

1.0     4541
2.0    18589
3.0     7230
4.0     9484
5.0    29175
6.0    11425
7.0    50810
Name: esc_mae, dtype: int64

In [64]:
df['esc_mae'].describe()

count    131254.000000
mean          5.115577
std           1.934669
min           1.000000
25%           4.000000
50%           5.000000
75%           7.000000
max           7.000000
Name: esc_mae, dtype: float64

In [65]:
# Para o pandas, uma coluna pode ser float,
# e os seus valores serem tidos como strings!
# Corrigindo isso:
# Converta os valores para float, tratando os não numéricos como NaN
df['esc_mae'] = pd.to_numeric(df['esc_mae'], errors='coerce')

# Converta a coluna para o tipo float
df['esc_mae'] = df['esc_mae'].astype(float)

In [66]:
# Agora bora preencher os missings
# Calcule a distribuição de frequência dos níveis de escolaridade
frequencia_niveis = df['esc_mae'].value_counts()

In [67]:
# Calcule o total de observações
total_observacoes = frequencia_niveis.sum()

In [68]:
# Calcule a probabilidade para cada nível de escolaridade
probabilidades = frequencia_niveis / total_observacoes

# Print das probabilidades
print(probabilidades)

7.0    0.387112
5.0    0.222279
2.0    0.141626
6.0    0.087045
4.0    0.072257
3.0    0.055084
1.0    0.034597
Name: esc_mae, dtype: float64


In [69]:
# Vamos criar uma lista com os possíveis níveis de escolaridade
niveis_escolaridade = [1, 2, 3, 4, 5, 6, 7]

In [70]:
# Vamos definir as probabilidades de cada nível de escolaridade 
probabilidades = [0.03, 0.14, 0.05, 0.07, 0.23, 0.08, 0.40]

In [71]:
import numpy as np
# Substitua os missings na coluna 'Nível_Escolaridade' com base nas probabilidades
df['esc_mae'].fillna(np.random.choice(niveis_escolaridade, p=probabilidades), inplace=True)

# Agora, 'Nível_Escolaridade' está preenchida com os valores respeitando a distribuição de probabilidade
# Verifique a distribuição após o preenchimento
df['esc_mae'].info()

<class 'pandas.core.series.Series'>
Int64Index: 159245 entries, 0 to 165837
Series name: esc_mae
Non-Null Count   Dtype  
--------------   -----  
159245 non-null  float64
dtypes: float64(1)
memory usage: 2.4 MB


## Seção B2 - Alimentação

### Para o artigo sobre família e saúde mental

In [72]:
# Se costuma almoçar ou jantar com pai, mãe ou responsável
df['B02017A'].value_counts()

 1.0    98641
 5.0    23079
 6.0    10804
 3.0     9353
 2.0     8777
 4.0     8479
 9.0       78
-2.0       34
Name: B02017A, dtype: int64

In [73]:
# Preencher o missing com a moda
mapping_refeicao_familia = {1 : 6,
                            2 : 5,
                            3 : 4,
                            4 : 3,
                            5 : 2,
                            6 : 1,
                            9 : 6,
                           -2 : 6}

In [74]:
# Criamos a variável refeicao_familia
df = df.assign(refeicao_familia = df.B02017A.map(mapping_refeicao_familia))
df['refeicao_familia'].value_counts()

6    98753
2    23079
1    10804
4     9353
5     8777
3     8479
Name: refeicao_familia, dtype: int64

In [75]:
# Se costuma fazer outras coisas enquanto come
df['B02018B'].value_counts().sort_index(ascending = True)

-2.0       34
 1.0    73697
 2.0    11823
 3.0    13990
 4.0    15196
 5.0    44337
 9.0      168
Name: B02018B, dtype: int64

In [76]:
# Preencher o missing com a moda
mapping_refeicao_distraida = {1 : 5,
                            2 : 4,
                            3 : 3,
                            4 : 2,
                            5 : 1,
                            9 : 5,
                           -2 : 5}

In [77]:
# Criamos a variável refeicao_distraida
df = df.assign(refeicao_distraida = df.B02018B.map(mapping_refeicao_distraida))
df['refeicao_distraida'].value_counts()

5    73899
1    44337
2    15196
3    13990
4    11823
Name: refeicao_distraida, dtype: int64

## Seção B3 - Atividade Física

In [78]:
# Segundo a OMS 2020, crianças e adolescentes devem se exercitar em média por 60 min todo dia.
# Em 2010, o ideal era pelo menos 60 min
# Disponível em: https://bjsm.bmj.com/content/54/24/1451
# Como a pesquisa foi feita em 2019, o que queremos é criar uma única dummy que me diz se o aluno
# fez atividade física suficiente naquela semana ou não, visto que a atividade física contribui para melhora da saúde mental
df[['B03003A', 'B03005B', 'B03006B', 'B03007A']].describe()

Unnamed: 0,B03003A,B03005B,B03006B,B03007A
count,159245.0,159245.0,159245.0,159245.0
mean,2.287463,3.507118,3.382819,2.980313
std,1.138595,5.770549,2.356969,3.468043
min,-2.0,-2.0,-2.0,-2.0
25%,2.0,1.0,1.0,-1.0
50%,2.0,3.0,3.0,3.0
75%,3.0,6.0,5.0,6.0
max,9.0,99.0,9.0,9.0


In [79]:
df['B03003A'].value_counts().sort_index(ascending = True)

-2.0       71
 1.0    35678
 2.0    68517
 3.0    41626
 4.0     6536
 5.0     2450
 6.0     3296
 7.0      312
 8.0      366
 9.0      393
Name: B03003A, dtype: int64

In [80]:
df['B03005B'].value_counts().sort_index(ascending = True)

-2.0        76
-1.0     36071
 1.0     28249
 2.0      8912
 3.0      9013
 4.0     10280
 5.0     14016
 6.0     21766
 7.0     14122
 8.0      5078
 9.0     11269
 99.0      393
Name: B03005B, dtype: int64

In [81]:
df['B03006B'].value_counts().sort_index(ascending = True)

-2.0       80
 1.0    53424
 2.0    18317
 3.0    21152
 4.0    18388
 5.0    11479
 6.0    15230
 7.0     6724
 8.0    14111
 9.0      340
Name: B03006B, dtype: int64

In [82]:
df['B03007A'].value_counts().sort_index(ascending = True)

-2.0       80
-1.0    53764
 1.0    10091
 2.0    12838
 3.0    11325
 4.0    11253
 5.0     8569
 6.0    13925
 7.0    12068
 8.0    25089
 9.0      243
Name: B03007A, dtype: int64

In [83]:
map_ed_fisica = {-2 : 1,
                1 : 0,
                2 : 1,
                3 : 2,
                4 : 3,
                5 : 4,
                6 : 5,
                7 : 6,
                8 : 7,
                9 : 1}

In [84]:
# Criamos a variável aula_ed_fisica
# -2 e 9 preenchidos com a moda
df = df.assign(aula_ed_fisica = df.B03003A.map(map_ed_fisica))
df['aula_ed_fisica'].value_counts()

1    68981
2    41626
0    35678
3     6536
5     3296
4     2450
7      366
6      312
Name: aula_ed_fisica, dtype: int64

In [85]:
map_atividade_fisica = {-2 : 0,
                1 : 0,
                2 : 1,
                3 : 2,
                4 : 3,
                5 : 4,
                6 : 5,
                7 : 6,
                8 : 7,
                9 : 0}

In [86]:
# Criamos a variável dias_atividade_fisica
# -2 e 9 preenchidos com a moda
df = df.assign(dias_atividade_fisica = df.B03006B.map(map_atividade_fisica))
df['dias_atividade_fisica'].value_counts().sort_index(ascending = True)

0    53844
1    18317
2    21152
3    18388
4    11479
5    15230
6     6724
7    14111
Name: dias_atividade_fisica, dtype: int64

In [87]:
# Criando uma variável que assume valor 1 caso dias_atividade_fisica + aula_ed_fisica =>7 e 0 c.c.
df['exercicio_todo_dia'] = df.apply(lambda row: 1 if row['dias_atividade_fisica'] + row['aula_ed_fisica'] >= 7 else 0, axis=1)
df['exercicio_todo_dia'].value_counts()

0    131566
1     27679
Name: exercicio_todo_dia, dtype: int64

In [88]:
map_tempo_ed_fisica = {-2 : None,
                       -1 : None,
                        1 : 0,
                        2 : 9,
                        3 : 19,
                        4 : 29,
                        5 : 39,
                        6 : 49,
                        7 : 59,
                        8 : 60,
                        9 : 60,
                       99 : None}

In [89]:
# Criamos a variável tempo_ed_fisica
df = df.assign(tempo_ed_fisica = df.B03005B.map(map_tempo_ed_fisica))
df['tempo_ed_fisica'].value_counts().sort_index(ascending = True)

0.0     28249
9.0      8912
19.0     9013
29.0    10280
39.0    14016
49.0    21766
59.0    14122
60.0    16347
Name: tempo_ed_fisica, dtype: int64

In [90]:
# Agora bora preencher os missings
# Calcule a distribuição de frequência dos tempos em educação física
frequencia_niveis = df['tempo_ed_fisica'].value_counts()

In [91]:
# Calcule o total de observações
total_observacoes = frequencia_niveis.sum()

In [92]:
# Calcule a probabilidade para cada nível de escolaridade
probabilidades = frequencia_niveis / total_observacoes

# Print das probabilidades
print(probabilidades)

0.0     0.230219
49.0    0.177385
60.0    0.133222
59.0    0.115089
39.0    0.114225
29.0    0.083778
19.0    0.073453
9.0     0.072629
Name: tempo_ed_fisica, dtype: float64


In [93]:
# Vamos criar uma lista com os possíveis categorias de tempo gasto com atividade física
tempo_em_aula_ed_fisica = [0, 9, 19, 29, 39, 49, 59, 60]

In [94]:
# Vamos definir as probabilidades de cada faixa de tempo 
probabilidades = [0.26, 0.07, 0.07, 0.08, 0.11, 0.17, 0.11, 0.13]

In [95]:
# Substitua os missings com base nas probabilidades
df['tempo_ed_fisica'].fillna(np.random.choice(tempo_em_aula_ed_fisica, p=probabilidades), inplace=True)

# Agora, 'Tempo de educação física' está preenchida com os valores respeitando a distribuição de probabilidade
# Verifique a distribuição após o preenchimento
df['tempo_ed_fisica'].describe()

count    159245.000000
mean         29.332230
std          21.023998
min           0.000000
25%          19.000000
50%          19.000000
75%          49.000000
max          60.000000
Name: tempo_ed_fisica, dtype: float64

In [96]:
map_tempo_atividade_fisica = {-2 : None,
                       -1 : None,
                        1 : 9,
                        2 : 19,
                        3 : 29,
                        4 : 39,
                        5 : 49,
                        6 : 59,
                        7 : 60,
                        8 : 60,
                        9 : None}

In [97]:
# Criamos a variável tempo_atividade_fisica
df = df.assign(tempo_atividade_fisica = df.B03007A.map(map_tempo_atividade_fisica))
df['tempo_atividade_fisica'].value_counts().sort_index(ascending = True)

9.0     10091
19.0    12838
29.0    11325
39.0    11253
49.0     8569
59.0    13925
60.0    37157
Name: tempo_atividade_fisica, dtype: int64

In [98]:
df['tempo_atividade_fisica'].info()

<class 'pandas.core.series.Series'>
Int64Index: 159245 entries, 0 to 165837
Series name: tempo_atividade_fisica
Non-Null Count   Dtype  
--------------   -----  
105158 non-null  float64
dtypes: float64(1)
memory usage: 2.4 MB


In [99]:
# Agora bora preencher os missings
# Calcule a distribuição de frequência dos tempos em educação física
frequencia_niveis = df['tempo_atividade_fisica'].value_counts()

In [100]:
# Calcule o total de observações
total_observacoes = frequencia_niveis.sum()

In [101]:
# Calcule a probabilidade para cada nível de escolaridade
probabilidades = frequencia_niveis / total_observacoes

# Print das probabilidades
print(probabilidades)

60.0    0.353344
59.0    0.132420
19.0    0.122083
29.0    0.107695
39.0    0.107010
9.0     0.095960
49.0    0.081487
Name: tempo_atividade_fisica, dtype: float64


In [102]:
# Vamos criar uma lista com os possíveis categorias de tempo gasto com atividade física
tempo_em_atividade_fisica = [9, 19, 29, 39, 49, 59, 60]

In [103]:
# Vamos definir as probabilidades de cada faixa de tempo 
probabilidades = [0.09, 0.12, 0.10, 0.10, 0.08, 0.14, 0.37]

In [104]:
# Substitua os missings com base nas probabilidades
df['tempo_atividade_fisica'].fillna(np.random.choice(tempo_em_atividade_fisica, p=probabilidades), inplace=True)

# Agora, 'Tempo de educação física' está preenchida com os valores respeitando a distribuição de probabilidade
# Verifique a distribuição após o preenchimento
df['tempo_atividade_fisica'].describe()

count    159245.000000
mean         38.565933
std          16.535595
min           9.000000
25%          29.000000
50%          29.000000
75%          59.000000
max          60.000000
Name: tempo_atividade_fisica, dtype: float64

In [105]:
# Agora quero saber se o aluno conseguiu praticar pelo menos 60 min por dia.
# Crie a coluna 'Quantidade adequada de exercício' com base nas condições
df['qtde_adequada_exercicio'] = ((df['exercicio_todo_dia'] == 1) & 
                                (df['tempo_atividade_fisica'] + df['tempo_ed_fisica'] >= 60)).astype(int)

df['qtde_adequada_exercicio'].info()

<class 'pandas.core.series.Series'>
Int64Index: 159245 entries, 0 to 165837
Series name: qtde_adequada_exercicio
Non-Null Count   Dtype
--------------   -----
159245 non-null  int32
dtypes: int32(1)
memory usage: 1.8 MB


## Uso de cigarro, bebida e drogas - B4, B5 e B6

In [106]:
# Coluna com a informação sobre consumo de cigarro nos últimos 30 dias
df['B04003'].value_counts().sort_index(ascending = True)

-2.0        99
-1.0    130379
 1.0     20383
 2.0      4086
 3.0      1286
 4.0       739
 5.0       750
 6.0       432
 7.0      1007
 9.0        84
Name: B04003, dtype: int64

In [107]:
# Informação sobre ter usado cigarro alguma vez na vida
df['B04001'].value_counts().sort_index(ascending = True) 

-2.0        95
-1.0     25689
 1.0     28771
 2.0    104550
 9.0       140
Name: B04001, dtype: int64

In [115]:
# No questionário, primeiro tem a pergunta sobre ter fumado cigarro alguma vez na vida.
# E para quem respondeu NÃO é dito para pular o questionário, por isso  esses valores nas colunas B04001 E B04003
# Vou trabalhar com uma dummy que me diz se o aluno fumou todos os dias nos últimos trinta dias.
df['fumante_regular'] = df['B04003'].apply(lambda x: 1 if x == 7 else 0)
df['fumante_regular'].value_counts()

0    158238
1      1007
Name: fumante_regular, dtype: int64

In [116]:
# Informação sobre pai e/ou mãe fumante.
df['B04006B'].value_counts().sort_index(ascending = True)

-2.0       116
-1.0     25689
 1.0    104864
 2.0     14194
 3.0      7819
 4.0      4063
 5.0      2323
 9.0       177
Name: B04006B, dtype: int64

In [117]:
# Três dummies: só o pai fuma / só a mãe fuma / os dois fumam
df['pai_fumante'] = df['B04006B'].apply(lambda x: 1 if x == 2 else 0)
df['pai_fumante'].value_counts()

0    145051
1     14194
Name: pai_fumante, dtype: int64

In [118]:
df['mae_fumante'] = df['B04006B'].apply(lambda x: 1 if x == 3 else 0)
df['mae_fumante'].value_counts()

0    151426
1      7819
Name: mae_fumante, dtype: int64

-2.0       145
-1.0     25689
 1.0     17115
 2.0    115996
 9.0       300
Name: B06001, dtype: int64

-2.0       145
-1.0    141985
 1.0     10480
 2.0      3377
 3.0      1206
 4.0       553
 5.0      1451
 9.0        48
Name: B06003B, dtype: int64