# MICRODADOS ENEM: INSCRITOS POR FAIXA ETÁRIA
#### Autor: Felipe Moraes

O objetivo do presente script é avaliar a evolução da quantidade de inscritos na prova do enem, agrupando pela faixa etária, nos últimos 10 anos de dados disponíveis (2013-2022). Para tanto, uma mesma rotina é replicada para todos os anos, compilando os dados de cada prova, e ao final é feita uma tabela para análise dos dados.  
  
**ROTINA:**  
1 - Leitura dos dados de cada ano diretamente do Zip;    
2 - Filtragem das colunas de interesse;  
3 - Agrupamento por faixa etária;  
4 - Inclusão das informações no Data.Frame próprio;  
5 - Visualização dos dados extraídos para aquele ano.   

In [1]:
# Pacotes Utilizados:
import pandas as pd
import zipfile

### Dados de 2013

In [2]:
# leitura dos dados 2013:
with zipfile.ZipFile('Dados/Dados_Brutos/microdados_enem_2013.zip') as zip_file:
    with zip_file.open('DADOS/MICRODADOS_ENEM_2013.csv') as csv_file:
        dadosbrutos = pd.read_csv(csv_file, sep=';', encoding='ISO-8859-1')

# Filtragem das colunas de interesse:
enem = dadosbrutos.filter(items=['NU_INSCRICAO', 'TP_FAIXA_ETARIA'])\
    .reset_index(drop=True)

# Agrupamento por faixa etária
agrupado = enem.groupby('TP_FAIXA_ETARIA').count().sort_values('TP_FAIXA_ETARIA')\
                   .rename(columns={'NU_INSCRICAO':'2013'})

display(agrupado)
dados = agrupado

Unnamed: 0_level_0,2013
TP_FAIXA_ETARIA,Unnamed: 1_level_1
1,630729
2,1011958
3,940962
4,689772
5,526260
6,408056
7,337296
8,280788
9,253048
10,223490


### Dados de 2014

In [3]:
# leitura dos dados 2014:
with zipfile.ZipFile('Dados/Dados_Brutos/microdados_enem_2014.zip') as zip_file:
    with zip_file.open('DADOS/MICRODADOS_ENEM_2014.csv') as csv_file:
        dadosbrutos = pd.read_csv(csv_file, sep=';', encoding='ISO-8859-1')

# Filtragem das colunas de interesse:
enem = dadosbrutos.filter(items=['NU_INSCRICAO', 'TP_FAIXA_ETARIA'])\
    .reset_index(drop=True)

# Agrupamento por faixa etária
agrupado = enem.groupby('TP_FAIXA_ETARIA').count().sort_values('TP_FAIXA_ETARIA')\
                   .rename(columns={'NU_INSCRICAO':'2014'})

dados = pd.merge(dados, agrupado, left_index=True, right_index=True)
display(dados)

Unnamed: 0_level_0,2013,2014
TP_FAIXA_ETARIA,Unnamed: 1_level_1,Unnamed: 2_level_1
1,630729,825331
2,1011958,1148675
3,940962,1069497
4,689772,811302
5,526260,637211
6,408056,510861
7,337296,413231
8,280788,351163
9,253048,296290
10,223490,270472


### Dados de 2015

In [4]:
# leitura dos dados 2015:
with zipfile.ZipFile('Dados/Dados_Brutos/microdados_enem_2015.zip') as zip_file:
    with zip_file.open('DADOS/MICRODADOS_ENEM_2015.csv') as csv_file:
        dadosbrutos = pd.read_csv(csv_file, sep=';', encoding='ISO-8859-1')

# Filtragem das colunas de interesse:
enem = dadosbrutos.filter(items=['NU_INSCRICAO', 'TP_FAIXA_ETARIA'])\
    .reset_index(drop=True)

# Agrupamento por faixa etária
agrupado = enem.groupby('TP_FAIXA_ETARIA').count().sort_values('TP_FAIXA_ETARIA')\
                   .rename(columns={'NU_INSCRICAO':'2015'})

dados = pd.merge(dados, agrupado, left_index=True, right_index=True)
display(dados)

Unnamed: 0_level_0,2013,2014,2015
TP_FAIXA_ETARIA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,630729,825331,697461
2,1011958,1148675,1047384
3,940962,1069497,1029168
4,689772,811302,763181
5,526260,637211,597136
6,408056,510861,473158
7,337296,413231,385955
8,280788,351163,314113
9,253048,296290,267402
10,223490,270472,224015


### Dados de 2016

In [5]:
# leitura dos dados 2016:
with zipfile.ZipFile('Dados/Dados_Brutos/microdados_enem_2016.zip') as zip_file:
    with zip_file.open('DADOS/microdados_enem_2016.csv') as csv_file:
        dadosbrutos = pd.read_csv(csv_file, sep=';', encoding='ISO-8859-1')

# Filtragem das colunas de interesse:
enem = dadosbrutos.filter(items=['NU_INSCRICAO', 'TP_FAIXA_ETARIA'])\
    .reset_index(drop=True)

# Agrupamento por faixa etária
agrupado = enem.groupby('TP_FAIXA_ETARIA').count().sort_values('TP_FAIXA_ETARIA')\
                   .rename(columns={'NU_INSCRICAO':'2016'})

dados = pd.merge(dados, agrupado, left_index=True, right_index=True)
display(dados)

Unnamed: 0_level_0,2013,2014,2015,2016
TP_FAIXA_ETARIA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,630729,825331,697461,765768
2,1011958,1148675,1047384,1190590
3,940962,1069497,1029168,1104707
4,689772,811302,763181,857006
5,526260,637211,597136,665993
6,408056,510861,473158,533453
7,337296,413231,385955,436069
8,280788,351163,314113,362585
9,253048,296290,267402,298175
10,223490,270472,224015,255857


### Dados de 2017

In [6]:
# leitura dos dados 2017:
with zipfile.ZipFile('Dados/Dados_Brutos/microdados_enem_2017.zip') as zip_file:
    with zip_file.open('DADOS/MICRODADOS_ENEM_2017.csv') as csv_file:
        dadosbrutos = pd.read_csv(csv_file, sep=';', encoding='ISO-8859-1')

# Filtragem das colunas de interesse:
enem = dadosbrutos.filter(items=['NU_INSCRICAO', 'TP_FAIXA_ETARIA'])\
    .reset_index(drop=True)

# Agrupamento por faixa etária
agrupado = enem.groupby('TP_FAIXA_ETARIA').count().sort_values('TP_FAIXA_ETARIA')\
                   .rename(columns={'NU_INSCRICAO':'2017'})

dados = pd.merge(dados, agrupado, left_index=True, right_index=True)
display(dados)

Unnamed: 0_level_0,2013,2014,2015,2016,2017
TP_FAIXA_ETARIA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,630729,825331,697461,765768,404148
2,1011958,1148675,1047384,1190590,965948
3,940962,1069497,1029168,1104707,980662
4,689772,811302,763181,857006,694353
5,526260,637211,597136,665993,550471
6,408056,510861,473158,533453,427367
7,337296,413231,385955,436069,349924
8,280788,351163,314113,362585,286688
9,253048,296290,267402,298175,240521
10,223490,270472,224015,255857,198306


### Dados de 2018

In [7]:
# leitura dos dados 2018:
with zipfile.ZipFile('Dados/Dados_Brutos/microdados_enem_2018.zip') as zip_file:
    with zip_file.open('DADOS/MICRODADOS_ENEM_2018.csv') as csv_file:
        dadosbrutos = pd.read_csv(csv_file, sep=';', encoding='ISO-8859-1')

# Filtragem das colunas de interesse:
enem = dadosbrutos.filter(items=['NU_INSCRICAO', 'TP_FAIXA_ETARIA'])\
    .reset_index(drop=True)

# Agrupamento por faixa etária
agrupado = enem.groupby('TP_FAIXA_ETARIA').count().sort_values('TP_FAIXA_ETARIA')\
                   .rename(columns={'NU_INSCRICAO':'2018'})

dados = pd.merge(dados, agrupado, left_index=True, right_index=True)
display(dados)

Unnamed: 0_level_0,2013,2014,2015,2016,2017,2018
TP_FAIXA_ETARIA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,630729,825331,697461,765768,404148,390454
2,1011958,1148675,1047384,1190590,965948,878292
3,940962,1069497,1029168,1104707,980662,928789
4,689772,811302,763181,857006,694353,617457
5,526260,637211,597136,665993,550471,424792
6,408056,510861,473158,533453,427367,325778
7,337296,413231,385955,436069,349924,254331
8,280788,351163,314113,362585,286688,208829
9,253048,296290,267402,298175,240521,171932
10,223490,270472,224015,255857,198306,143814


### Dados de 2019

In [8]:
# leitura dos dados 2019:
with zipfile.ZipFile('Dados/Dados_Brutos/microdados_enem_2019.zip') as zip_file:
    with zip_file.open('DADOS/MICRODADOS_ENEM_2019.csv') as csv_file:
        dadosbrutos = pd.read_csv(csv_file, sep=';', encoding='ISO-8859-1')

# Filtragem das colunas de interesse:
enem = dadosbrutos.filter(items=['NU_INSCRICAO', 'TP_FAIXA_ETARIA'])\
    .reset_index(drop=True)

# Agrupamento por faixa etária
agrupado = enem.groupby('TP_FAIXA_ETARIA').count().sort_values('TP_FAIXA_ETARIA')\
                   .rename(columns={'NU_INSCRICAO':'2019'})

dados = pd.merge(dados, agrupado, left_index=True, right_index=True)
display(dados)

Unnamed: 0_level_0,2013,2014,2015,2016,2017,2018,2019
TP_FAIXA_ETARIA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,630729,825331,697461,765768,404148,390454,400661
2,1011958,1148675,1047384,1190590,965948,878292,847284
3,940962,1069497,1029168,1104707,980662,928789,864166
4,689772,811302,763181,857006,694353,617457,577155
5,526260,637211,597136,665993,550471,424792,409378
6,408056,510861,473158,533453,427367,325778,290307
7,337296,413231,385955,436069,349924,254331,233034
8,280788,351163,314113,362585,286688,208829,187679
9,253048,296290,267402,298175,240521,171932,156259
10,223490,270472,224015,255857,198306,143814,128038


### Dados de 2020

In [9]:
# leitura dos dados 2020:
with zipfile.ZipFile('Dados/Dados_Brutos/microdados_enem_2020.zip') as zip_file:
    with zip_file.open('DADOS/MICRODADOS_ENEM_2020.csv') as csv_file:
        dadosbrutos = pd.read_csv(csv_file, sep=';', encoding='ISO-8859-1')

# Filtragem das colunas de interesse:
enem = dadosbrutos.filter(items=['NU_INSCRICAO', 'TP_FAIXA_ETARIA'])\
    .reset_index(drop=True)

# Agrupamento por faixa etária
agrupado = enem.groupby('TP_FAIXA_ETARIA').count().sort_values('TP_FAIXA_ETARIA')\
                   .rename(columns={'NU_INSCRICAO':'2020'})

dados = pd.merge(dados, agrupado, left_index=True, right_index=True)
display(dados)

Unnamed: 0_level_0,2013,2014,2015,2016,2017,2018,2019,2020
TP_FAIXA_ETARIA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,630729,825331,697461,765768,404148,390454,400661,336805
2,1011958,1148675,1047384,1190590,965948,878292,847284,775404
3,940962,1069497,1029168,1104707,980662,928789,864166,887715
4,689772,811302,763181,857006,694353,617457,577155,609450
5,526260,637211,597136,665993,550471,424792,409378,459606
6,408056,510861,473158,533453,427367,325778,290307,353734
7,337296,413231,385955,436069,349924,254331,233034,274709
8,280788,351163,314113,362585,286688,208829,187679,239812
9,253048,296290,267402,298175,240521,171932,156259,204689
10,223490,270472,224015,255857,198306,143814,128038,177344


### Dados de 2021

In [10]:
# leitura dos dados 2021:
with zipfile.ZipFile('Dados/Dados_Brutos/microdados_enem_2021.zip') as zip_file:
    with zip_file.open('DADOS/MICRODADOS_ENEM_2021.csv') as csv_file:
        dadosbrutos = pd.read_csv(csv_file, sep=';', encoding='ISO-8859-1')

# Filtragem das colunas de interesse:
enem = dadosbrutos.filter(items=['NU_INSCRICAO', 'TP_FAIXA_ETARIA'])\
    .reset_index(drop=True)

# Agrupamento por faixa etária
agrupado = enem.groupby('TP_FAIXA_ETARIA').count().sort_values('TP_FAIXA_ETARIA')\
                   .rename(columns={'NU_INSCRICAO':'2021'})

dados = pd.merge(dados, agrupado, left_index=True, right_index=True)
display(dados)

Unnamed: 0_level_0,2013,2014,2015,2016,2017,2018,2019,2020,2021
TP_FAIXA_ETARIA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,630729,825331,697461,765768,404148,390454,400661,336805,274318
2,1011958,1148675,1047384,1190590,965948,878292,847284,775404,620784
3,940962,1069497,1029168,1104707,980662,928789,864166,887715,699365
4,689772,811302,763181,857006,694353,617457,577155,609450,394689
5,526260,637211,597136,665993,550471,424792,409378,459606,250690
6,408056,510861,473158,533453,427367,325778,290307,353734,177086
7,337296,413231,385955,436069,349924,254331,233034,274709,132052
8,280788,351163,314113,362585,286688,208829,187679,239812,100580
9,253048,296290,267402,298175,240521,171932,156259,204689,85742
10,223490,270472,224015,255857,198306,143814,128038,177344,71199


### Dados de 2022

In [11]:
# leitura dos dados 2022:
with zipfile.ZipFile('Dados/Dados_Brutos/microdados_enem_2022.zip') as zip_file:
    with zip_file.open('DADOS/MICRODADOS_ENEM_2022.csv') as csv_file:
        dadosbrutos = pd.read_csv(csv_file, sep=';', encoding='ISO-8859-1')

# Filtragem das colunas de interesse:
enem = dadosbrutos.filter(items=['NU_INSCRICAO', 'TP_FAIXA_ETARIA'])\
    .reset_index(drop=True)

# Agrupamento por faixa etária
agrupado = enem.groupby('TP_FAIXA_ETARIA').count().sort_values('TP_FAIXA_ETARIA')\
                   .rename(columns={'NU_INSCRICAO':'2022'})

dados = pd.merge(dados, agrupado, left_index=True, right_index=True)
display(dados)

Unnamed: 0_level_0,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
TP_FAIXA_ETARIA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,630729,825331,697461,765768,404148,390454,400661,336805,274318,303605
2,1011958,1148675,1047384,1190590,965948,878292,847284,775404,620784,711278
3,940962,1069497,1029168,1104707,980662,928789,864166,887715,699365,805862
4,689772,811302,763181,857006,694353,617457,577155,609450,394689,408115
5,526260,637211,597136,665993,550471,424792,409378,459606,250690,247679
6,408056,510861,473158,533453,427367,325778,290307,353734,177086,165982
7,337296,413231,385955,436069,349924,254331,233034,274709,132052,123260
8,280788,351163,314113,362585,286688,208829,187679,239812,100580,94849
9,253048,296290,267402,298175,240521,171932,156259,204689,85742,73338
10,223490,270472,224015,255857,198306,143814,128038,177344,71199,61564


In [12]:
# Dicionáriio de dados:
Dic_Faixa_Etaria = {1:' 16 anos ou menos',
2:'17 anos',
3:'18 anos',
4:'19 anos',
5:'20 anos',
6:'21 anos',
7:'22 anos',
8:'23 anos',
9:'24 anos',
10:'25 anos',
11:'26 - 30 anos',
12:'31 - 35 anos',
13:'36 - 40 anos',
14:'41 - 45 anos',
15:'46 - 50 anos',
16:'51 - 55 anos',
17:'56 - 60 anos',
18:'61 - 65 anos',
19:'66 - 70 anos',
20:'71 anos ou mais'}

In [13]:
# Cruza as informações com o dicionário
dados['Faixa Etária'] = [Dic_Faixa_Etaria[resp] for resp in dados.index]

# Reinicia os índices
dados.reset_index(drop=True)
dados = dados.rename_axis(None, axis=0)

# Reordena as colunas
dados = dados.reindex(columns=['Faixa Etária', '2013', '2014','2015','2016','2017','2018','2019','2020','2021','2022'])
dados

Unnamed: 0,Faixa Etária,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
1,16 anos ou menos,630729,825331,697461,765768,404148,390454,400661,336805,274318,303605
2,17 anos,1011958,1148675,1047384,1190590,965948,878292,847284,775404,620784,711278
3,18 anos,940962,1069497,1029168,1104707,980662,928789,864166,887715,699365,805862
4,19 anos,689772,811302,763181,857006,694353,617457,577155,609450,394689,408115
5,20 anos,526260,637211,597136,665993,550471,424792,409378,459606,250690,247679
6,21 anos,408056,510861,473158,533453,427367,325778,290307,353734,177086,165982
7,22 anos,337296,413231,385955,436069,349924,254331,233034,274709,132052,123260
8,23 anos,280788,351163,314113,362585,286688,208829,187679,239812,100580,94849
9,24 anos,253048,296290,267402,298175,240521,171932,156259,204689,85742,73338
10,25 anos,223490,270472,224015,255857,198306,143814,128038,177344,71199,61564


In [14]:
# Cria a coluna de comparação de 2022 com 2016 e 2014.
dados['Diferença 2014-2022'] = dados['2014']-dados['2022']
dados['Diferença 2016-2022'] = dados['2016']-dados['2022'] 
dados.sort_values('Diferença 2016-2022', ascending=False)

Unnamed: 0,Faixa Etária,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022,Diferença 2014-2022,Diferença 2016-2022
11,26 - 30 anos,776027,962223,806720,880159,675889,470384,403776,575442,227574,189700,772523,690459
2,17 anos,1011958,1148675,1047384,1190590,965948,878292,847284,775404,620784,711278,437397,479312
1,16 anos ou menos,630729,825331,697461,765768,404148,390454,400661,336805,274318,303605,521726,462163
4,19 anos,689772,811302,763181,857006,694353,617457,577155,609450,394689,408115,403187,448891
5,20 anos,526260,637211,597136,665993,550471,424792,409378,459606,250690,247679,389532,418314
12,31 - 35 anos,457128,587752,469938,521314,399838,279899,235044,341808,130746,103634,484118,417680
6,21 anos,408056,510861,473158,533453,427367,325778,290307,353734,177086,165982,344879,367471
7,22 anos,337296,413231,385955,436069,349924,254331,233034,274709,132052,123260,289971,312809
3,18 anos,940962,1069497,1029168,1104707,980662,928789,864166,887715,699365,805862,263635,298845
8,23 anos,280788,351163,314113,362585,286688,208829,187679,239812,100580,94849,256314,267736


In [15]:
dados.sum()

Faixa Etária            16 anos ou menos17 anos18 anos19 anos20 anos2...
2013                                                             7173563
2014                                                             8722248
2015                                                             7746427
2016                                                             8627179
2017                                                             6731278
2018                                                             5513733
2019                                                             5095171
2020                                                             5783109
2021                                                             3389832
2022                                                             3476105
Diferença 2014-2022                                              5246143
Diferença 2016-2022                                              5151074
dtype: object