# Palestra sobre Engenharia de Dados no CEUB - Demo Databricks
## Essa demo utilizou parte do processamento utilizado no Hackathon Data4good na Campus Party em Brasília.
Ambiente: Cluster Databricks rodando na AWS e armazenamento utilizando o BlobStorage da Azure.


## Montando o Azure Blob Storage
Uma das recomendações da Microsoft é montar o storage da Azure em um ambiente Databricks.

Foi retirado o key do Azure do código abaixo -> ""

In [None]:
%scala
dbutils.fs.mount(
  source = "wasbs://stg@d4gblobstoragewsteua.blob.core.windows.net",
  mountPoint = "/mnt/stg2",
  extraConfigs = Map("fs.azure.account.key.d4gblobstoragewsteua.blob.core.windows.net" -> ""))

## Lendo os Dados
Foi feito o upload dos arquivos do micro_censo_escolar referente a matrícula dos alunos do ano de 2017 para o BlobStorage da Azure.

In [None]:
dfsql = sqlContext.read.format('csv').options(header='true', inferSchema='true', sep='|').load('dbfs:/mnt/stg2/micro_censo_escolar_2017/matricula')

### Conferindo o tipo do objeto

In [None]:
type(dfsql)

### Visualizando os dados do DataFrame

In [None]:
display(dfsql)

### Contando a quantidade de registros do DataFrame

In [None]:
dfsql.count()

# Tratamento dos Dados
Uma excelente vantagem do Databricks é a utilização de várias linguagens dentro do mesmo notebook, sendo necessário apenas especificar o comando %, como esse ambiente foi criando em Python, não é necessário especificar com o comando %python.

### Criando uma Temp View para poder utilizar os dados do DataFrame com os comandos SQL

In [None]:
dfsql.createOrReplaceTempView("vw_matricula_2017")

Agora podemos rodar os nossos SQL's especificando o %sql

### Visualizando os dados com SQL

In [None]:
%sql

SELECT * FROM vw_matricula_2017

### Agregando os dados e fazendo algumas tranformações
Esse dataset foi preparado para fazer análises de Machine Leaning por isso possui muitas colunas com datatype numérico, um dos tratamentos em Analytics para melhor visualização em um dashboard é criar "labels" de alguns atributos.

In [None]:
%sql

CREATE TABLE TB_MATRICULA_AGREAGADA_2017 AS
SELECT NU_ANO_CENSO
       ,NU_IDADE
       ,TP_SEXO
       ,TP_COR_RACA
       ,TP_ETAPA_ENSINO
	  ,CASE WHEN TP_ETAPA_ENSINO = 1 THEN 'Educação Infantil'
WHEN TP_ETAPA_ENSINO = 2 THEN 'Educação Infantil'
WHEN TP_ETAPA_ENSINO = 4 THEN 'Educação Infantil'
WHEN TP_ETAPA_ENSINO = 5 THEN 'Educação Infantil'
WHEN TP_ETAPA_ENSINO = 4 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 5 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 6 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 7 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 8 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 9 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 10 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 11 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 16 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 17 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 14 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 15 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 16 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 17 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 18 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 19 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 20 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 21 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 41 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 22 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 23 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 24 THEN 'Ensino Fundamental'
WHEN TP_ETAPA_ENSINO = 25 THEN 'Ensino Médio'
WHEN TP_ETAPA_ENSINO = 26 THEN 'Ensino Médio'
WHEN TP_ETAPA_ENSINO = 27 THEN 'Ensino Médio'
WHEN TP_ETAPA_ENSINO = 28 THEN 'Ensino Médio'
WHEN TP_ETAPA_ENSINO = 29 THEN 'Ensino Médio'
WHEN TP_ETAPA_ENSINO = 30 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 31 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 32 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 33 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 34 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 35 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 36 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 37 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 38 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 39 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 40 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 64 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 68 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 65 THEN 'EJA'
WHEN TP_ETAPA_ENSINO = 67 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 69 THEN 'EJA'
WHEN TP_ETAPA_ENSINO = 70 THEN 'EJA'
WHEN TP_ETAPA_ENSINO = 71 THEN 'EJA'
WHEN TP_ETAPA_ENSINO = 72 THEN 'EJA'
WHEN TP_ETAPA_ENSINO = 73 THEN 'Não se aplica'
WHEN TP_ETAPA_ENSINO = 74 THEN 'Não se aplica' 
ELSE  'Não se aplica' 
END AS TP_CATEGORIA_ETAPA_ENSINO,
CASE WHEN CO_UF = 11 THEN 'RO'
WHEN CO_UF = 12 THEN 'AC'
WHEN CO_UF = 13 THEN 'AM'
WHEN CO_UF = 14 THEN 'RR'
WHEN CO_UF = 15 THEN 'PA'
WHEN CO_UF = 16 THEN 'AP'
WHEN CO_UF = 17 THEN 'TO'
WHEN CO_UF = 21 THEN 'MA'
WHEN CO_UF = 22 THEN 'PI'
WHEN CO_UF = 23 THEN 'CE'
WHEN CO_UF = 24 THEN 'RN'
WHEN CO_UF = 25 THEN 'PB'
WHEN CO_UF = 26 THEN 'PE'
WHEN CO_UF = 27 THEN 'AL'
WHEN CO_UF = 28 THEN 'SE'
WHEN CO_UF = 29 THEN 'BA'
WHEN CO_UF = 31 THEN 'MG'
WHEN CO_UF = 32 THEN 'ES'
WHEN CO_UF = 33 THEN 'RJ'
WHEN CO_UF = 35 THEN 'SP'
WHEN CO_UF = 41 THEN 'PR'
WHEN CO_UF = 42 THEN 'SC'
WHEN CO_UF = 43 THEN 'RS'
WHEN CO_UF = 50 THEN 'MS'
WHEN CO_UF = 51 THEN 'MT'
WHEN CO_UF = 52 THEN 'GO'
WHEN CO_UF = 53 THEN 'DF' END SG_UF
       ,CO_MUNICIPIO
	    ,CO_MUNICIPIO_END
  	   ,CASE WHEN CO_MUNICIPIO != CO_MUNICIPIO_END THEN '1'
	   		ELSE '0' END AS IN_DISTANCIA_MUNICIPIO
       ,TP_LOCALIZACAO
       ,COUNT(CO_ENTIDADE)      AS QTD_ESCOLA
	   ,COUNT(CO_PESSOA_FISICA) AS QTD_ALUNO
  FROM vw_matricula_2017
  GROUP BY NU_ANO_CENSO
  			,NU_IDADE
			 ,TP_SEXO
       ,TP_COR_RACA
       ,TP_ETAPA_ENSINO
       ,CO_UF
       ,CO_MUNICIPIO
	   ,CO_MUNICIPIO_END
       ,TP_LOCALIZACAO


### Visualizando os dados da tabela agregada

In [None]:
%sql

SELECT * FROM TB_MATRICULA_AGREAGADA_2017

# Analisando os Dados
Para melhorar ainda mais os dados para um Dashboard, foi criado alguns atributos como Região, além disso foi feito mais uma agregação para melhorar apresentação. 

In [None]:
SELECT NU_ANO_CENSO
	  ,TP_CATEGORIA_ETAPA_ENSINO
	  ,NU_IDADE
	  ,TP_SEXO
	  ,TP_COR_RACA
	  ,SG_UF
	  ,TP_REGIAO
	  ,CO_MUNICIPIO
	  ,NOME_MUNICIPIO
	  ,TP_LOCALIZACAO
	  ,LONGITUDE
	  ,LATITUDE
      ,SUM(DISTORCAO_IDADE_SERIE)  AS QTD_DISTORCAO_IDADE_SERIE
	  ,SUM(QTD_ESCOLA)             AS QTD_ESCOLA
	  ,SUM(IN_DISTANCIA_MUNICIPIO) AS QTD_DISTANCIA_MUNICIPIO 
	  ,SUM(QTD_ALUNO)              AS QTD_ALUNO
  FROM (
		SELECT NU_ANO_CENSO
		       ,CASE 
				    WHEN NU_IDADE >= (IDADE_IDEAL + 2) THEN QTD_ALUNO  
				ELSE 0
			   END DISTORCAO_IDADE_SERIE
			  ,TP_CATEGORIA_ETAPA_ENSINO
			  ,NU_IDADE
			  ,CASE 
			    WHEN TP_SEXO = 1 THEN 'Masculino'
			    WHEN TP_SEXO = 2 THEN 'Feminino'
			   END AS TP_SEXO
			  ,CASE   
			     WHEN TP_COR_RACA = '0' THEN 'Nao declarada'
				 WHEN TP_COR_RACA = '1' THEN 'Branca'
				 WHEN TP_COR_RACA = '2' THEN 'Preta'
				 WHEN TP_COR_RACA = '3' THEN 'Parda'
				 WHEN TP_COR_RACA = '4' THEN 'Amarela'
				 WHEN TP_COR_RACA = '5' THEN 'Indigena'
			   END AS TP_COR_RACA
			  ,CASE 
			     WHEN SG_UF = 'MA' THEN 'Nordeste'
                 WHEN SG_UF = 'PI' THEN 'Nordeste'
				 WHEN SG_UF = 'CE' THEN 'Nordeste'
				 WHEN SG_UF = 'RN' THEN 'Nordeste'
				 WHEN SG_UF = 'PE' THEN 'Nordeste'
				 WHEN SG_UF = 'PB' THEN 'Nordeste'
				 WHEN SG_UF = 'SE' THEN 'Nordeste'
				 WHEN SG_UF = 'AL' THEN 'Nordeste'
				 WHEN SG_UF = 'BA' THEN 'Nordeste'
				 WHEN SG_UF = 'MT' THEN 'Centro-Oeste'
				 WHEN SG_UF = 'MS' THEN 'Centro-Oeste'
				 WHEN SG_UF = 'GO' THEN 'Centro-Oeste'
				 WHEN SG_UF = 'SP' THEN 'Sudeste'
				 WHEN SG_UF = 'RJ' THEN 'Sudeste'
				 WHEN SG_UF = 'ES' THEN 'Sudeste'
				 WHEN SG_UF = 'MG' THEN 'Sudeste'
				 WHEN SG_UF = 'PR' THEN 'Sul'
				 WHEN SG_UF = 'RS' THEN 'Sul'
				 WHEN SG_UF = 'SC' THEN 'Sul'
			   END TP_REGIAO
			  ,SG_UF
			  ,CO_MUNICIPIO
			  ,NOME_MUNICIPIO
			  ,TP_LOCALIZACAO
			  ,LONGITUDE
			  ,LATITUDE
			  ,QTD_ALUNO
			  ,QTD_ESCOLA
			  ,IN_DISTANCIA_MUNICIPIO
		  FROM (
				SELECT 
						CASE 
							WHEN TP_ETAPA_ENSINO = 1 THEN 3 --0 a 3 anos
							WHEN TP_ETAPA_ENSINO = 2 THEN 5 --4 e 5 anos
							WHEN TP_ETAPA_ENSINO = 4 THEN 5 --0 a 5 anos
							WHEN TP_ETAPA_ENSINO = 4 THEN 7
							WHEN TP_ETAPA_ENSINO = 5 THEN 8
							WHEN TP_ETAPA_ENSINO = 6 THEN 9
							WHEN TP_ETAPA_ENSINO = 7 THEN 10
							WHEN TP_ETAPA_ENSINO = 8 THEN 11
							WHEN TP_ETAPA_ENSINO = 9 THEN 12
							WHEN TP_ETAPA_ENSINO = 10 THEN 13
							WHEN TP_ETAPA_ENSINO = 11 THEN 14
							WHEN TP_ETAPA_ENSINO = 14 THEN 6
							WHEN TP_ETAPA_ENSINO = 15 THEN 7
							WHEN TP_ETAPA_ENSINO = 16 THEN 8
							WHEN TP_ETAPA_ENSINO = 17 THEN 9
							WHEN TP_ETAPA_ENSINO = 18 THEN 10
							WHEN TP_ETAPA_ENSINO = 19 THEN 11
							WHEN TP_ETAPA_ENSINO = 20 THEN 12
							WHEN TP_ETAPA_ENSINO = 21 THEN 13
							WHEN TP_ETAPA_ENSINO = 41 THEN 14
							WHEN TP_ETAPA_ENSINO = 25 THEN 15
							WHEN TP_ETAPA_ENSINO = 26 THEN 16
							WHEN TP_ETAPA_ENSINO = 27 THEN 17
							WHEN TP_ETAPA_ENSINO = 28 THEN 18
                            WHEN TP_ETAPA_ENSINO = 29 THEN 18 --15 a 18 anos
                            WHEN TP_ETAPA_ENSINO = 30 THEN 15
                            WHEN TP_ETAPA_ENSINO = 31 THEN 16
                            WHEN TP_ETAPA_ENSINO = 32 THEN 17
                            WHEN TP_ETAPA_ENSINO = 33 THEN 18
                            WHEN TP_ETAPA_ENSINO = 34 THEN 18 --15 a 18 anos
                            WHEN TP_ETAPA_ENSINO = 35 THEN 15
                            WHEN TP_ETAPA_ENSINO = 36 THEN 16
                            WHEN TP_ETAPA_ENSINO = 37 THEN 17
                            WHEN TP_ETAPA_ENSINO = 38 THEN 18
                            WHEN TP_ETAPA_ENSINO = 39 THEN 18 --15 a 18 anos
						END IDADE_IDEAL
						,DS.TP_CATEGORIA_ETAPA_ENSINO
						,DS.TP_ETAPA_ENSINO
						,DS.NU_IDADE
						,DS.TP_SEXO
						,DS.TP_COR_RACA
						,DS.SG_UF
						,DS.CO_MUNICIPIO
						,DS.TP_LOCALIZACAO
						,STG.NOME_MUNICIPIO
						,STG.LONGITUDE
						,STG.LATITUDE
						,DS.NU_ANO_CENSO
						,DS.QTD_ALUNO
						,DS.QTD_ESCOLA
						,DS.IN_DISTANCIA_MUNICIPIO
				FROM DEFAULT.TB_MATRICULA_AGREAGADA DS
				JOIN DEFAULT.TB_MUNICIPIO_LAT_LONG STG
				  ON RTRIM(LTRIM(STG.GEOCODIGO_MUNICIPIO)) = RTRIM(LTRIM(DS.CO_MUNICIPIO))
			  ) AS V1
  ) AS V2
GROUP BY NU_ANO_CENSO
	    ,TP_CATEGORIA_ETAPA_ENSINO
	    ,NU_IDADE
	    ,TP_SEXO
	    ,TP_COR_RACA
		,TP_REGIAO
	    ,SG_UF
	    ,CO_MUNICIPIO
	    ,NOME_MUNICIPIO
	    ,TP_LOCALIZACAO
	    ,LONGITUDE
	    ,LATITUDE

# Trabalhando com 5 Anos de Dados

### Armazenando em um DataFrame o ano de 2016

In [None]:
dfsql2016 = sqlContext.read.format('csv').options(header='true', inferSchema='true', sep='|').load('dbfs:/mnt/stg2/micro_censo_escolar_2016/matricula')

### Convertendo o DataFrame do ano de 2016 em TempView para usar o comando SQL

In [None]:
dfsql2016.createOrReplaceTempView("vw_matricula_2016")

### Armazenando em um DataFrame o ano de 2015

In [None]:
dfsql2015 = sqlContext.read.format('csv').options(header='true', inferSchema='true', sep='|').load('dbfs:/mnt/stg2/micro_censo_escolar_2015/matricula')

### Convertendo o DataFrame do ano de 2015 em TempView para usar o comando SQL

In [None]:
dfsql2015.createOrReplaceTempView("vw_matricula_2015")

### Armazenando em um DataFrame o ano de 2014

In [None]:
dfsql2014 = sqlContext.read.format('csv').options(header='true', inferSchema='true', sep='|').load('dbfs:/mnt/stg2/micro_censo_escolar_2014/matricula')

### Convertendo o DataFrame do ano de 2014 em TempView para usar o comando SQL

In [None]:
dfsql2014.createOrReplaceTempView("vw_matricula_2014")

### Armazenando em um DataFrame o ano de 2013

In [None]:
dfsql2013 = sqlContext.read.format('csv').options(header='true', inferSchema='true', sep='|').load('dbfs:/mnt/stg2/micro_censo_escolar_2013/matricula')

### Convertendo o DataFrame do ano de 2013 em TempView para usar o comando SQL

In [None]:
dfsql2013.createOrReplaceTempView("vw_matricula_2013")

## Junção de 5 anos de datasets
lembrando que esses dados são RAW e por isso possuem algo em torno de 50 milhões de linhas em cada ano.

In [None]:
%sql

CREATE TABLE TB_MATRICULA 
AS 
SELECT *  FROM vw_matricula_2017
UNION ALL
SELECT *  FROM vw_matricula_2016
UNION ALL 
SELECT *  FROM vw_matricula_2015
UNION ALL
SELECT *  FROM vw_matricula_2014
UNION ALL
SELECT *  FROM vw_matricula_2013