# Censo Escolar da Educação Básica

## Configuração do ambiente

In [0]:
spark.conf.set(
  "fs.azure.account.key.m03storage.blob.core.windows.net",
  "3Ts0JpdSfDvYx8JOerU9CrExx1Ankj3W1q5J3Cscu2hXlQR90cpMlVy6p2mBB0NpKndKWixIcp1poqcFrAJ+oQ==")

In [0]:
blobPath = 'wasbs://m03container@m03storage.blob.core.windows.net/'
bronzePath = 'mnt/bronze/censo_escolar/'
silverPath = 'mnt/silver/censo_escolar/'
goldPath = 'mnt/gold/censo_escolar/'

In [0]:
from pyspark.sql.types import *
from pyspark.sql.functions import *

## Download das Bases de Dados

In [0]:
%sh
echo 'Iniciando download do Censo Escolar 2017...'
wget https://download.inep.gov.br/microdados/micro_censo_escolar_2017.zip -O /dbfs/mnt/projetom03/censo_escolar_2017.zip

In [0]:
%sh
echo 'Iniciando download do Censo Escolar 2018...'
wget https://download.inep.gov.br/microdados/microdados_educacao_basica_2018.zip -O /dbfs/mnt/projetom03/censo_escolar_2018.zip

In [0]:
%sh 
echo 'Iniciando download do Censo Escolar 2019...'
wget https://download.inep.gov.br/microdados/microdados_educacao_basica_2019.zip -O /dbfs/mnt/projetom03/censo_escolar_2019.zip

In [0]:
dbutils.fs.cp("wasbs://m03container@m03storage.blob.core.windows.net/censo_escolar_2019.zip", "file:/tmp/censo_escolar_2019.zip")
dbutils.fs.cp("wasbs://m03container@m03storage.blob.core.windows.net/censo_escolar_2018.zip", "file:/tmp/censo_escolar_2018.zip")
dbutils.fs.cp("wasbs://m03container@m03storage.blob.core.windows.net/censo_escolar_2017.zip", "file:/tmp/censo_escolar_2017.zip")

Descompactação dos arquivos **.zip** sem a sua estrutura de diretórios em pastas para cada ano do censo

In [0]:
%sh
unzip -j /tmp/censo_escolar_2019.zip -d /tmp/censo2019/
unzip -j /tmp/censo_escolar_2018.zip -d /tmp/censo2018/
unzip -j /tmp/censo_escolar_2017.zip -d /tmp/censo2017/
unzip -j /tmp/censo2018/'*.zip' -d /tmp/censo2018/
unzip -j /tmp/censo2017/'*.zip' -d /tmp/censo2017/

Remoção de todos os arquivos que não possuem a extensão **.CSV**

In [0]:
%sh
shopt -s extglob
rm -v /tmp/censo2019/!(*.CSV)
rm -v /tmp/censo2018/!(*.CSV)
rm -v /tmp/censo2017/!(*.CSV)
shopt -u extglob

## Censo Escolar

### 1. Matrículas

#### 1.1. Ingestão dos dados no Delta Lake

In [0]:
# Leitura dos arquivos .CSV de cada ano e região, armazenando-os em dataframes separados.

matricula_co_2017_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2017/MATRICULA_CO.CSV'))
matricula_norte_2017_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2017/MATRICULA_NORTE.CSV'))
matricula_nordeste_2017_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2017/MATRICULA_NORDESTE.CSV'))
matricula_sul_2017_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2017/MATRICULA_SUL.CSV'))
matricula_sudeste_2017_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2017/MATRICULA_SUDESTE.CSV'))

matricula_co_2018_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2018/MATRICULA_CO.CSV'))
matricula_norte_2018_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2018/MATRICULA_NORTE.CSV'))
matricula_nordeste_2018_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2018/MATRICULA_NORDESTE.CSV'))
matricula_sul_2018_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2018/MATRICULA_SUL.CSV'))
matricula_sudeste_2018_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2018/MATRICULA_SUDESTE.CSV'))

matricula_co_2019_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2019/MATRICULA_CO.CSV'))
matricula_norte_2019_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2019/MATRICULA_NORTE.CSV'))
matricula_nordeste_2019_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2019/MATRICULA_NORDESTE.CSV'))
matricula_sul_2019_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2019/MATRICULA_SUL.CSV'))
matricula_sudeste_2019_bronze = (spark.read.option("sep", "|").option("header", "true").csv('file:/tmp/censo2019/MATRICULA_SUDESTE.CSV'))

In [0]:
# Armazenamento dos dataframes na camada Bronze do Delta Lake

matricula_co_2017_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_co_2017')
matricula_norte_2017_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_norte_2017')
matricula_nordeste_2017_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_nordeste_2017')
matricula_sul_2017_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_sul_2017')
matricula_sudeste_2017_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_sudeste_2017')

matricula_co_2018_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_co_2018')
matricula_norte_2018_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_norte_2018')
matricula_nordeste_2018_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_nordeste_2018')
matricula_sul_2018_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_sul_2018')
matricula_sudeste_2018_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_sudeste_2018')

matricula_co_2019_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_co_2019')
matricula_norte_2019_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_norte_2019')
matricula_nordeste_2019_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_nordeste_2019')
matricula_sul_2019_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_sul_2019')
matricula_sudeste_2019_bronze.write.format('delta').mode('overwrite').save(blobPath + bronzePath + 'matricula_sudeste_2019')

#### 1.2. Transformação dos dados

In [0]:
# Leitura dos dataframes salvos na camada Bronze

matricula_co_2017_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_co_2017')
matricula_norte_2017_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_norte_2017') 
matricula_nordeste_2017_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_nordeste_2017') 
matricula_sul_2017_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_sul_2017') 
matricula_sudeste_2017_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_sudeste_2017')

matricula_co_2018_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_co_2018')
matricula_norte_2018_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_norte_2018') 
matricula_nordeste_2018_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_nordeste_2018') 
matricula_sul_2018_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_sul_2018') 
matricula_sudeste_2018_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_sudeste_2018')

matricula_co_2019_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_co_2019')
matricula_norte_2019_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_norte_2019') 
matricula_nordeste_2019_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_nordeste_2019') 
matricula_sul_2019_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_sul_2019') 
matricula_sudeste_2019_silver = spark.read.format("delta").load(blobPath + bronzePath + 'matricula_sudeste_2019')

In [0]:
# Lista de colunas a serem selecionadas do dataframe original porém com novo título

renamedFields = ['NU_ANO_CENSO as Ano', 
                 'NU_IDADE_REFERENCIA as Idade_Referencia', 
                 'NU_IDADE as Idade',
                 'TP_SEXO as Sexo',
                 'TP_COR_RACA as Cor_Raca', 
                 'TP_NACIONALIDADE as Nacionalidade', 
                 'TP_ZONA_RESIDENCIAL as Zona_Residencial', 
                 'IN_NECESSIDADE_ESPECIAL as Necessidade_Especial', 
                 'TP_ETAPA_ENSINO as Etapa_Ensino', 
                 'IN_ESPECIAL_EXCLUSIVA as Especial_Exclusiva', 
                 'IN_REGULAR as Ensino_Regular', 
                 'IN_EJA as Ensino_EJA', 
                 'IN_PROFISSIONALIZANTE as Ensino_Profissionalizante', 
                 'TP_MEDIACAO_DIDATICO_PEDAGO as Mediacao_Didatico_Pedago', 
                 'TP_DEPENDENCIA as Dependencia_Escola', 
                 'TP_LOCALIZACAO as Localizacao_Escola']

In [0]:
# Alteração dos dataframes carregados com base na lista definida anteriormente

matricula_co_2017_silver = matricula_co_2017_silver.selectExpr(renamedFields)
matricula_norte_2017_silver = matricula_norte_2017_silver.selectExpr(renamedFields)
matricula_nordeste_2017_silver = matricula_nordeste_2017_silver.selectExpr(renamedFields)
matricula_sul_2017_silver = matricula_sul_2017_silver.selectExpr(renamedFields)
matricula_sudeste_2017_silver = matricula_sudeste_2017_silver.selectExpr(renamedFields)

matricula_co_2018_silver = matricula_co_2018_silver.selectExpr(renamedFields)
matricula_norte_2018_silver = matricula_norte_2018_silver.selectExpr(renamedFields)
matricula_nordeste_2018_silver = matricula_nordeste_2018_silver.selectExpr(renamedFields)
matricula_sul_2018_silver = matricula_sul_2018_silver.selectExpr(renamedFields)
matricula_sudeste_2018_silver = matricula_sudeste_2018_silver.selectExpr(renamedFields)

matricula_co_2019_silver = matricula_co_2019_silver.selectExpr(renamedFields)
matricula_norte_2019_silver = matricula_norte_2019_silver.selectExpr(renamedFields)
matricula_nordeste_2019_silver = matricula_nordeste_2019_silver.selectExpr(renamedFields)
matricula_sul_2019_silver = matricula_sul_2019_silver.selectExpr(renamedFields)
matricula_sudeste_2019_silver = matricula_sudeste_2019_silver.selectExpr(renamedFields)

In [0]:
# Unificação dos dataframes das regiões em um único dataframe para cada ano e armazenando na camada Prata

matricula_co_2017_silver.write.format('delta').mode('overwrite').save(blobPath + silverPath + 'matricula_2017')
matricula_norte_2017_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2017')
matricula_nordeste_2017_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2017')
matricula_sul_2017_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2017')
matricula_sudeste_2017_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2017')

matricula_co_2018_silver.write.format('delta').mode('overwrite').save(blobPath + silverPath + 'matricula_2018')
matricula_norte_2018_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2018')
matricula_nordeste_2018_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2018')
matricula_sul_2018_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2018')
matricula_sudeste_2018_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2018')

matricula_co_2019_silver.write.format('delta').mode('overwrite').save(blobPath + silverPath + 'matricula_2019')
matricula_norte_2019_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2019')
matricula_nordeste_2019_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2019')
matricula_sul_2019_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2019')
matricula_sudeste_2019_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matricula_2019')

In [0]:
# Leitura dos dataframes unificados

matricula_2017_silver = spark.read.format("delta").load(blobPath + silverPath + 'matricula_2017')
matricula_2018_silver = spark.read.format("delta").load(blobPath + silverPath + 'matricula_2018')
matricula_2019_silver = spark.read.format("delta").load(blobPath + silverPath + 'matricula_2019')

In [0]:
# Validação da unificação dos dataframes, comparando o total de registros

totalBronzeRows = matricula_co_2017_silver.count() + matricula_norte_2017_silver.count() + matricula_nordeste_2017_silver.count() + matricula_sul_2017_silver.count() + matricula_sudeste_2017_silver.count()

print("2017:", matricula_2017_silver.count() == totalBronzeRows)

totalBronzeRows = matricula_co_2018_silver.count() + matricula_norte_2018_silver.count() + matricula_nordeste_2018_silver.count() + matricula_sul_2018_silver.count() + matricula_sudeste_2018_silver.count()

print("2018:", matricula_2018_silver.count() == totalBronzeRows)

totalBronzeRows = matricula_co_2019_silver.count() + matricula_norte_2019_silver.count() + matricula_nordeste_2019_silver.count() + matricula_sul_2019_silver.count() + matricula_sudeste_2019_silver.count()

print("2019:", matricula_2019_silver.count() == totalBronzeRows)

In [0]:
# Verificando a quantidade de registros null por coluna de cada dataframe

display(matricula_2017_silver.select([count(when(col(c).isNull(), c)).alias(c) for c in matricula_2017_silver.columns]))
display(matricula_2018_silver.select([count(when(col(c).isNull(), c)).alias(c) for c in matricula_2018_silver.columns]))
display(matricula_2019_silver.select([count(when(col(c).isNull(), c)).alias(c) for c in matricula_2019_silver.columns]))

Ano,Idade_Referencia,Idade,Sexo,Cor_Raca,Nacionalidade,Zona_Residencial,Necessidade_Especial,Etapa_Ensino,Especial_Exclusiva,Ensino_Regular,Ensino_EJA,Ensino_Profissionalizante,Mediacao_Didatico_Pedago,Dependencia_Escola,Localizacao_Escola
0,0,0,0,0,0,0,0,5292576,5292576,5292576,5292576,5292576,0,0,0


Ano,Idade_Referencia,Idade,Sexo,Cor_Raca,Nacionalidade,Zona_Residencial,Necessidade_Especial,Etapa_Ensino,Especial_Exclusiva,Ensino_Regular,Ensino_EJA,Ensino_Profissionalizante,Mediacao_Didatico_Pedago,Dependencia_Escola,Localizacao_Escola
0,0,0,0,0,0,0,0,3373546,3373546,3373546,3373546,3373546,0,0,0


Ano,Idade_Referencia,Idade,Sexo,Cor_Raca,Nacionalidade,Zona_Residencial,Necessidade_Especial,Etapa_Ensino,Especial_Exclusiva,Ensino_Regular,Ensino_EJA,Ensino_Profissionalizante,Mediacao_Didatico_Pedago,Dependencia_Escola,Localizacao_Escola
0,0,0,0,0,0,56,0,3292477,3292477,3292477,3292477,3292477,0,0,0


In [0]:
#Definição de dicionário para substituição dos valores nulos no formato -> 'Coluna':'Novo Valor'

nullSubstDict = {'Zona_Residencial': '0', 'Etapa_Ensino': '0', 'Especial_Exclusiva': '2', 'Ensino_Regular': '2', 'Ensino_EJA': '2', 'Ensino_Profissionalizante': '2'}

In [0]:
# Substituição dos valores nulos de cada dataframe com base no dicionário definido

matricula_2017_silver = matricula_2017_silver.fillna(nullSubstDict)
matricula_2018_silver = matricula_2018_silver.fillna(nullSubstDict)
matricula_2019_silver = matricula_2019_silver.fillna(nullSubstDict)

In [0]:
# Verificando a quantidade de registros null por coluna de cada dataframe

display(matricula_2017_silver.select([count(when(col(c).isNull(), c)).alias(c) for c in matricula_2017_silver.columns]))
display(matricula_2018_silver.select([count(when(col(c).isNull(), c)).alias(c) for c in matricula_2018_silver.columns]))
display(matricula_2019_silver.select([count(when(col(c).isNull(), c)).alias(c) for c in matricula_2019_silver.columns]))

Ano,Idade_Referencia,Idade,Sexo,Cor_Raca,Nacionalidade,Zona_Residencial,Necessidade_Especial,Etapa_Ensino,Especial_Exclusiva,Ensino_Regular,Ensino_EJA,Ensino_Profissionalizante,Mediacao_Didatico_Pedago,Dependencia_Escola,Localizacao_Escola
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


Ano,Idade_Referencia,Idade,Sexo,Cor_Raca,Nacionalidade,Zona_Residencial,Necessidade_Especial,Etapa_Ensino,Especial_Exclusiva,Ensino_Regular,Ensino_EJA,Ensino_Profissionalizante,Mediacao_Didatico_Pedago,Dependencia_Escola,Localizacao_Escola
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


Ano,Idade_Referencia,Idade,Sexo,Cor_Raca,Nacionalidade,Zona_Residencial,Necessidade_Especial,Etapa_Ensino,Especial_Exclusiva,Ensino_Regular,Ensino_EJA,Ensino_Profissionalizante,Mediacao_Didatico_Pedago,Dependencia_Escola,Localizacao_Escola
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [0]:
# Unificando os 3 dataframes em um único dataframe

matricula_2017_silver.write.format('delta').mode('overwrite').save(blobPath + silverPath + 'matriculas')
matricula_2018_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matriculas')
matricula_2019_silver.write.format('delta').mode('append').save(blobPath + silverPath + 'matriculas')

In [0]:
# Leitura do dataframe final para execução das últimas transformações

matricula_silver = spark.read.format("delta").load(blobPath + silverPath + 'matriculas')

In [0]:
display(matricula_silver)

Ano,Idade_Referencia,Idade,Sexo,Cor_Raca,Nacionalidade,Zona_Residencial,Necessidade_Especial,Etapa_Ensino,Especial_Exclusiva,Ensino_Regular,Ensino_EJA,Ensino_Profissionalizante,Mediacao_Didatico_Pedago,Dependencia_Escola,Localizacao_Escola
2017,12,13,1,3,1,1,0,21,0,1,0,0,1,2,1
2017,10,10,2,1,1,1,1,15,0,1,0,0,1,3,1
2017,11,12,2,1,1,2,0,20,0,1,0,0,1,4,1
2017,29,29,2,1,1,1,0,69,0,0,1,0,1,3,1
2017,13,13,2,3,1,1,0,19,0,1,0,0,1,3,1
2017,11,11,1,3,1,1,0,19,0,1,0,0,1,3,1
2017,11,12,2,3,1,1,0,19,0,1,0,0,1,4,1
2017,15,15,2,1,1,1,0,26,0,1,0,0,1,4,1
2017,11,11,1,0,1,1,0,19,0,1,0,0,1,4,1
2017,30,31,2,0,1,2,0,69,0,0,1,0,1,3,1


In [0]:
# Alteração dos valores de cada coluna de acordo com as informações correspondentes

matricula_silver = matricula_silver.replace(['1', '2'], 
                                            ['Masculino', 'Feminino'], 'Sexo')

matricula_silver = matricula_silver.replace(['0', '1', '2', '3', '4', '5'], 
                                            ['Não Declarada', 'Branca', 'Preta', 'Parda', 'Amarela', 'Indígena'], 'Cor_Raca')

matricula_silver = matricula_silver.replace(['1', '2', '3'], 
                                            ['Brasileira', 'Brasileira - nascido no exterior ou naturalizado', 'Estrangeira'], 'Nacionalidade')

matricula_silver = matricula_silver.replace(['0', '1', '2'], 
                                            ['Não Informado', 'Urbana', 'Rural'], 'Zona_Residencial')

matricula_silver = matricula_silver.replace(['0', '1'], 
                                            ['Não', 'Sim'], 'Necessidade_Especial')

matricula_silver = matricula_silver.replace(['1', '2', '3'], 
                                            ['Presencial', 'Semipresencial', 'Educação a Distância - EAD'], 'Mediacao_Didatico_Pedago')

matricula_silver = matricula_silver.replace(['0', '1', '2'], 
                                            ['Não', 'Sim', 'Não Informado'], 'Especial_Exclusiva')

matricula_silver = matricula_silver.replace(['0', '1', '2'], 
                                            ['Não', 'Sim', 'Não Informado'], 'Ensino_Regular')

matricula_silver = matricula_silver.replace(['0', '1', '2'], 
                                            ['Não', 'Sim', 'Não Informado'], 'Ensino_EJA')

matricula_silver = matricula_silver.replace(['0', '1', '2'], 
                                            ['Não', 'Sim', 'Não Informado'], 'Ensino_Profissionalizante')

matricula_silver = matricula_silver.replace(['1', '2', '3', '4'], 
                                            ['Federal', 'Estadual', 'Municipal', 'Privada'], 'Dependencia_Escola')

matricula_silver = matricula_silver.replace(['1', '2'], 
                                            ['Urbana', 'Rural'], 'Localizacao_Escola')

In [0]:
# Devido ao tamanho dos dados da coluna 'Etapa_Ensino' é definido duas variáveis para os valores para melhor visualização

etapaOriginais = ['0', '1', '2', '4', '5', '6', '7', '8', '9', '10', '11', '14', '15', '16', '17', '18', '19', '20', '21', '41', '25', '26', '27', '28', '29', '30', '31', '32', '33', '34', '35', '36', '37', '38', '39', '40', '68', '65', '67', '69', '70', '71', '72', '73', '74']

etapaNovos = [
  'Não Informado',
  'Educação Infantil - Creche',
  'Educação Infantil - Pré-escola',
  'Ensino Fundamental de 8 anos - 1ª Série',
  'Ensino Fundamental de 8 anos - 2ª Série',
  'Ensino Fundamental de 8 anos - 3ª Série',
  'Ensino Fundamental de 8 anos - 4ª Série',
  'Ensino Fundamental de 8 anos - 5ª Série',
  'Ensino Fundamental de 8 anos - 6ª Série',
  'Ensino Fundamental de 8 anos - 7ª Série',
  'Ensino Fundamental de 8 anos - 8ª Série',
  'Ensino Fundamental de 9 anos - 1º Ano',
  'Ensino Fundamental de 9 anos - 2º Ano',
  'Ensino Fundamental de 9 anos - 3º Ano',
  'Ensino Fundamental de 9 anos - 4º Ano',
  'Ensino Fundamental de 9 anos - 5º Ano',
  'Ensino Fundamental de 9 anos - 6º Ano',
  'Ensino Fundamental de 9 anos - 7º Ano',
  'Ensino Fundamental de 9 anos - 8º Ano',
  'Ensino Fundamental de 9 anos - 9º Ano',
  'Ensino Médio - 1ª Série',
  'Ensino Médio - 2ª Série',
  'Ensino Médio - 3ª Série',
  'Ensino Médio - 4ª Série',
  'Ensino Médio - Não Seriada',
  'Curso Técnico Integrado (Ensino Médio Integrado) 1ª Série',
  'Curso Técnico Integrado (Ensino Médio Integrado) 2ª Série',
  'Curso Técnico Integrado (Ensino Médio Integrado) 3ª Série',
  'Curso Técnico Integrado (Ensino Médio Integrado) 4ª Série',
  'Curso Técnico Integrado (Ensino Médio Integrado) Não Seriada',
  'Ensino Médio - Normal/Magistério 1ª Série',
  'Ensino Médio - Normal/Magistério 2ª Série',
  'Ensino Médio - Normal/Magistério 3ª Série',
  'Ensino Médio - Normal/Magistério 4ª Série',
  'Curso Técnico - Concomitante',
  'Curso Técnico - Subsequente',
  'Curso FIC Concomitante',
  'EJA - Ensino Fundamental - Projovem Urbano',
  'Curso FIC integrado na modalidade EJA - Nivel Médio',
  'EJA - Ensino Fundamental - Anos Iniciais',
  'EJA - Ensino Fundamental - Anos Finais',
  'EJA - Ensino Médio',
  'EJA - Ensino Fundamental - Anos Iniciais e Anos Finais',
  'Curso FIC Integrado EJA - Nivel Fundamental',
  'Curso FIC Integrado EJA - Nivel Médio'
]

In [0]:
# Alteração dos valores da coluna 'Etapa_Ensino'

matricula_silver = matricula_silver.replace(etapaOriginais, etapaNovos, 'Etapa_Ensino')

In [0]:
# Visualização do dataframe após alteração

display(matricula_silver)

Ano,Idade_Referencia,Idade,Sexo,Cor_Raca,Nacionalidade,Zona_Residencial,Necessidade_Especial,Etapa_Ensino,Especial_Exclusiva,Ensino_Regular,Ensino_EJA,Ensino_Profissionalizante,Mediacao_Didatico_Pedago,Dependencia_Escola,Localizacao_Escola
2017,12,13,Masculino,Parda,Brasileira,Urbana,Não,Ensino Fundamental de 9 anos - 8º Ano,Não,Sim,Não,Não,Presencial,Estadual,Urbana
2017,10,10,Feminino,Branca,Brasileira,Urbana,Sim,Ensino Fundamental de 9 anos - 2º Ano,Não,Sim,Não,Não,Presencial,Municipal,Urbana
2017,11,12,Feminino,Branca,Brasileira,Rural,Não,Ensino Fundamental de 9 anos - 7º Ano,Não,Sim,Não,Não,Presencial,Privada,Urbana
2017,29,29,Feminino,Branca,Brasileira,Urbana,Não,EJA - Ensino Fundamental - Anos Iniciais,Não,Não,Sim,Não,Presencial,Municipal,Urbana
2017,13,13,Feminino,Parda,Brasileira,Urbana,Não,Ensino Fundamental de 9 anos - 6º Ano,Não,Sim,Não,Não,Presencial,Municipal,Urbana
2017,11,11,Masculino,Parda,Brasileira,Urbana,Não,Ensino Fundamental de 9 anos - 6º Ano,Não,Sim,Não,Não,Presencial,Municipal,Urbana
2017,11,12,Feminino,Parda,Brasileira,Urbana,Não,Ensino Fundamental de 9 anos - 6º Ano,Não,Sim,Não,Não,Presencial,Privada,Urbana
2017,15,15,Feminino,Branca,Brasileira,Urbana,Não,Ensino Médio - 2ª Série,Não,Sim,Não,Não,Presencial,Privada,Urbana
2017,11,11,Masculino,Não Declarada,Brasileira,Urbana,Não,Ensino Fundamental de 9 anos - 6º Ano,Não,Sim,Não,Não,Presencial,Privada,Urbana
2017,30,31,Feminino,Não Declarada,Brasileira,Rural,Não,EJA - Ensino Fundamental - Anos Iniciais,Não,Não,Sim,Não,Presencial,Municipal,Urbana


In [0]:
matricula_silver.write.format('delta').mode('overwrite').save(blobPath + goldPath + 'matriculas')
matricula_silver.write.format('delta').mode('overwrite').saveAsTable('Ouro_Censo_Escolar_Matriculas')