# Transformação dos dados do Enem de 2019 dos alunos residentes em MG

**1 - Importa as bibliotecas necessárias para rodar esse notebook.**

In [1]:
import pandas as pd
import numpy as np
import os

**2 - Carrega o arquivo com os dados filtrados no notebook anterior.**

In [2]:
%%time
folder_enem = 'enem2019'
df_mg = pd.read_csv(f'./{folder_enem}/MICRODADOS_ENEM_2019_MG.csv', sep=';', encoding='utf-8')

Wall time: 17.2 s


In [3]:
df_mg.head()

Unnamed: 0.1,Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,1044,190001005671,2019,3170206,Uberlândia,31,MG,21,M,1,...,B,A,A,D,A,A,D,B,B,B
1,5234,190001009861,2019,3111705,Canaã,31,MG,20,M,1,...,A,A,A,B,A,A,C,A,A,A
2,16995,190001021622,2019,3104007,Araxá,31,MG,24,M,1,...,A,A,A,C,B,A,C,A,A,B
3,22008,190001026636,2019,3106200,Belo Horizonte,31,MG,33,M,1,...,B,A,B,B,A,A,D,A,D,B
4,22114,190001026742,2019,3162401,São João da Ponte,31,MG,23,M,1,...,A,A,A,B,B,A,C,A,B,A


In [4]:
df_mg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 538896 entries, 0 to 538895
Columns: 137 entries, Unnamed: 0 to Q025
dtypes: float64(24), int64(72), object(41)
memory usage: 563.3+ MB


**3 - Cria um campo de descrição para o Estado Civil e insere no DataFrame.**

In [5]:
df_mg['TP_ESTADO_CIVIL_DESC'] = df_mg.TP_ESTADO_CIVIL.replace({
    0: "Não Informado",
    1: "Solteiro(a)",
    2: "Casado(a)/Mora com companheiro(a)",
    3: "Divorciado(a)/Desquitado(a)/Separado(a)",
    4: "Viúvo(a)",
})

In [6]:
df_mg.TP_ESTADO_CIVIL_DESC.value_counts()

Solteiro(a)                                470730
Casado(a)/Mora com companheiro(a)           41616
Não Informado                               16164
Divorciado(a)/Desquitado(a)/Separado(a)      9684
Viúvo(a)                                      702
Name: TP_ESTADO_CIVIL_DESC, dtype: int64

**4 - Cria um campo de descrição para Cor/raça e insere no DataFrame.**

In [7]:
df_mg['TP_COR_RACA_DESC'] = df_mg.TP_COR_RACA.replace({
    0: "Não declarado",
    1: "Branca",
    2: "Preta",
    3: "Parda",
    4: "Amarela",
    5: "Indígena"
})

In [8]:
df_mg.TP_COR_RACA_DESC.value_counts()

Parda            234332
Branca           203996
Preta             75604
Amarela           11867
Não declarado     10936
Indígena           2161
Name: TP_COR_RACA_DESC, dtype: int64

**5 - Cria um campo de descrição para Nacionalidade e insere no DataFrame.**

In [10]:
df_mg['TP_NACIONALIDADE_DESC'] = df_mg.TP_NACIONALIDADE.replace({
    0: "Não declarado",
    1: "Brasileiro(a)",
    2: "Brasileiro(a) Naturalizado(a)",
    3: "Estrangeiro(a)",
    4: "Brasileiro(a) Nato(a), nascido(a) no exterior"
})

In [11]:
df_mg.TP_NACIONALIDADE_DESC.value_counts()

Brasileiro(a)                                    522740
Brasileiro(a) Naturalizado(a)                     14189
Brasileiro(a) Nato(a), nascido(a) no exterior       883
Não declarado                                       713
Estrangeiro(a)                                      371
Name: TP_NACIONALIDADE_DESC, dtype: int64

**6 - Cria um campo de descrição para Situação de conclusão do Ensino Médio e insere no DataFrame.**

In [12]:
df_mg['TP_ST_CONCLUSAO_DESC'] = df_mg.TP_ST_CONCLUSAO.replace({
    1: "Já concluí o Ensino Médio",
    2: "Estou cursando e concluirei o Ensino Médio em 2019",
    3: "Estou cursando e concluirei o Ensino Médio após 2019",
    4: "Não concluí e não estou cursando o Ensino Médio"
})

In [13]:
df_mg.TP_ST_CONCLUSAO_DESC.value_counts()

Já concluí o Ensino Médio                               323768
Estou cursando e concluirei o Ensino Médio em 2019      142966
Estou cursando e concluirei o Ensino Médio após 2019     70069
Não concluí e não estou cursando o Ensino Médio           2093
Name: TP_ST_CONCLUSAO_DESC, dtype: int64

**7 - Cria um campo de descrição para Tipo de escola do Ensino Médio e insere no DataFrame.**

In [14]:
df_mg['TP_ESCOLA_DESC'] = df_mg.TP_ESCOLA.replace({
    1: "Não Respondeu",
    2: "Pública",
    3: "Privada",
    4: "Exterior"
})

In [15]:
df_mg.TP_ESCOLA_DESC.value_counts()

Não Respondeu    395930
Pública          126057
Privada           16909
Name: TP_ESCOLA_DESC, dtype: int64

**8 - Cria um campo de descrição para Tipo de instituição que concluiu ou concluirá o Ensino Médio e insere no DataFrame.**

In [16]:
df_mg['TP_ENSINO_DESC'] = df_mg.TP_ENSINO.replace({
    1: "Ensino Regular",
    2: "Educação Especial - Modalidade Substitutiva",
    3: "Educação de Jovens e Adultos"
})

In [17]:
df_mg.TP_ENSINO_DESC.value_counts()

Ensino Regular                                 288793
Educação Especial - Modalidade Substitutiva      1844
Name: TP_ENSINO_DESC, dtype: int64

**9 - Cria um campo de descrição para Situação da redação do participante e insere no DataFrame.**

In [18]:
df_mg['TP_STATUS_REDACAO_DESC'] = df_mg.TP_STATUS_REDACAO.replace({
    1: "Sem problemas",
    2: "Anulada",
    3: "Cópia Texto Motivador",
    4: "Em Branco",
    6: "Fuga ao tema",
    7: "Não atendimento ao tipo textual",
    8: "Texto insuficiente",
    9: "Parte desconectada",
})

In [19]:
df_mg.TP_STATUS_REDACAO_DESC.value_counts()

Sem problemas                      402541
Em Branco                            5041
Fuga ao tema                         2709
Cópia Texto Motivador                1907
Texto insuficiente                    665
Anulada                               649
Não atendimento ao tipo textual       432
Parte desconectada                    402
Name: TP_STATUS_REDACAO_DESC, dtype: int64

**10 - Vamos substituir o arquivo CSV por esse com as transformações.**

In [20]:
df_mg.to_csv( f"./{folder_enem}/MICRODADOS_ENEM_2019_MG.csv", sep=';', encoding='utf-8')

**Final da etapa de transformação.**