# Censo Escolar da Educação Básica

## Configuração do ambiente

In [0]:
from pyspark.sql.types import *
from pyspark.sql.functions import *

## Download das Bases de Dados

In [0]:
%sh 
echo 'Iniciando download do Censo Escolar 2019...'
wget https://download.inep.gov.br/microdados/microdados_educacao_basica_2019.zip -O /tmp/censo_escolar_2019.zip

In [0]:
%sh
echo 'Iniciando download do Censo Escolar 2018...'
wget https://download.inep.gov.br/microdados/microdados_educacao_basica_2018.zip -O /tmp/censo_escolar_2018.zip

In [0]:
%sh
echo 'Iniciando download do Censo Escolar 2017...'
wget https://download.inep.gov.br/microdados/micro_censo_escolar_2017.zip -O /tmp/censo_escolar_2017.zip

In [0]:
dbutils.fs.mv("file:/tmp/censo_escolar_2019.zip", "dbfs:/tmp/microdados/censo_escolar_2019.zip")
dbutils.fs.mv("file:/tmp/censo_escolar_2018.zip", "dbfs:/tmp/microdados/censo_escolar_2018.zip")
dbutils.fs.mv("file:/tmp/censo_escolar_2017.zip", "dbfs:/tmp/microdados/censo_escolar_2017.zip")

In [0]:
dbutils.fs.cp("dbfs:/tmp/microdados/censo_escolar_2019.zip", "file:/tmp/censo_escolar_2019.zip")
dbutils.fs.cp("dbfs:/tmp/microdados/censo_escolar_2018.zip", "file:/tmp/censo_escolar_2018.zip")
dbutils.fs.cp("dbfs:/tmp/microdados/censo_escolar_2017.zip", "file:/tmp/censo_escolar_2017.zip")

Cria uma pasta para cada censo dentro da **tmp** e descompacta todos os arquivos do **.zip** na respectiva pasta sem recriar a estrutura dos diretórios

In [0]:
%sh
unzip -j /tmp/censo_escolar_2019.zip -d /tmp/censo2019/
unzip -j /tmp/censo_escolar_2018.zip -d /tmp/censo2018/
unzip -j /tmp/censo_escolar_2017.zip -d /tmp/censo2017/

In [0]:
%sh
unzip -j /tmp/censo2018/'*.zip' -d /tmp/censo2018/
unzip -j /tmp/censo2017/'*.zip' -d /tmp/censo2017/

Remove todos os arquivos do diretório que não possuem a extensão **.zip**

- **rm**: remove arquivos
- **-v**: visualiza cada arquivo que está sendo deletado
- **/tmp/censo2019/**: diretório
- **!(*.CSV)**: arquivos que não possuem a extensão .CSV

In [0]:
%sh
shopt -s extglob
rm -v /tmp/censo2019/!(*.CSV)
rm -v /tmp/censo2018/!(*.CSV)
rm -v /tmp/censo2017/!(*.CSV)
shopt -u extglob

In [0]:
# [REMOVER] Gambiarra pra não rodar as células seguintes
dbutils.notebook.exit('stop')

stop

## Censo Escolar

### 1. Matrículas

#### 1.1. Bronze

In [0]:
csvFile = 'file:/tmp/censo2019/MATRICULA_CO.CSV'
matricula_co_2019_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2019/MATRICULA_NORTE.CSV'
matricula_norte_2019_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2019/MATRICULA_NORDESTE.CSV'
matricula_nordeste_2019_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2019/MATRICULA_SUL.CSV'
matricula_sul_2019_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2019/MATRICULA_SUDESTE.CSV'
matricula_sudeste_2019_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

In [0]:
matricula_co_2019_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_co_2019')
matricula_norte_2019_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_norte_2019')
matricula_nordeste_2019_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_nordeste_2019')
matricula_sul_2019_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_sul_2019')
matricula_sudeste_2019_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_sudeste_2019')

In [0]:
csvFile = 'file:/tmp/censo2018/MATRICULA_CO.CSV'
matricula_co_2018_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2018/MATRICULA_NORTE.CSV'
matricula_norte_2018_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2018/MATRICULA_NORDESTE.CSV'
matricula_nordeste_2018_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2018/MATRICULA_SUL.CSV'
matricula_sul_2018_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2018/MATRICULA_SUDESTE.CSV'
matricula_sudeste_2018_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

In [0]:
matricula_co_2018_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_co_2018')
matricula_norte_2018_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_norte_2018')
matricula_nordeste_2018_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_nordeste_2018')
matricula_sul_2018_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_sul_2018')
matricula_sudeste_2018_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_sudeste_2018')

In [0]:
csvFile = 'file:/tmp/censo2017/MATRICULA_CO.CSV'
matricula_co_2017_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2017/MATRICULA_NORTE.CSV'
matricula_norte_2017_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2017/MATRICULA_NORDESTE.CSV'
matricula_nordeste_2017_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2017/MATRICULA_SUL.CSV'
matricula_sul_2017_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

csvFile = 'file:/tmp/censo2017/MATRICULA_SUDESTE.CSV'
matricula_sudeste_2017_bronze = (spark.read.option("sep", "|").option("header", "true").csv(csvFile))

In [0]:
matricula_co_2017_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_co_2017')
matricula_norte_2017_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_norte_2017')
matricula_nordeste_2017_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_nordeste_2017')
matricula_sul_2017_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_sul_2017')
matricula_sudeste_2017_bronze.write.format('delta').mode('overwrite').save('/mnt/bronze/matricula_sudeste_2017')

#### 1.2. Silver

In [0]:
matricula_co_2019_silver = spark.read.format("delta").load('/mnt/bronze/matricula_co_2019')
matricula_norte_2019_silver = spark.read.format("delta").load('/mnt/bronze/matricula_norte_2019') 
matricula_nordeste_2019_silver = spark.read.format("delta").load('/mnt/bronze/matricula_nordeste_2019') 
matricula_sul_2019_silver = spark.read.format("delta").load('/mnt/bronze/matricula_sul_2019') 
matricula_sudeste_2019_silver = spark.read.format("delta").load('/mnt/bronze/matricula_sudeste_2019') 