# Desafio Neurotech

- Vaga: Analista de Dados II (Engenharia)
- Candidato: Douglas de Farias Medeiros
- Desafio: Orquestração e Análise dos Dados de IPTU do Recife
- Objetivo deste notebook: Realizar a carga dos dados fornecidos para o desafio (CSV e JSON).

Para este desafio, vamos utilizar a arquitetura medalhão para organizar os dados no catálogo do datalake, considerando as camadas bronze, silver e gold.

Antes de executar os notebooks a seguir, foi realizado upload dos arquivos csv e json dentro da pasta /workspace/default/dados_iptu

In [0]:
%run /Workspace/Users/douglasfmedeiros@outlook.com/desafio_neurotech/01_ingestao_camada_bronze

>>> Criando schema bronze no catálogo de dados, caso ainda não exista... OK!


Todas as transformações e refinamento de dados (ajuste dos nomes das colunas, verificação de dados nulos, etc) serão realizados na camada silver, assim como a análise de qualidade dos dados.

In [0]:
%run /Workspace/Users/douglasfmedeiros@outlook.com/desafio_neurotech/02_ingestao_camada_silver

>>> Criando schema silver no catálogo de dados, caso ainda não exista... OK!


>>> Verificando o número de colunas de cada tabela...

Tabela: iptu_2020 / Qtd Colunas: 32
Tabela: iptu_2021 / Qtd Colunas: 32
Tabela: iptu_2022 / Qtd Colunas: 32
Tabela: iptu_2023 / Qtd Colunas: 32
Tabela: iptu_2024 / Qtd Colunas: 33

>>> Na tabela IPTU_2024 há uma coluna adicional, vamos investigar se existem colunas diferentes entre as tabelas...



>>> Importando todas as tabelas da camada bronze... OK!


>>> Verificando se há colunas diferentes entre os dataframes...

Colunas exclusivas de iptu_2020: []
Colunas exclusivas de iptu_2021: []
Colunas exclusivas de iptu_2022: []
Colunas exclusivas de iptu_2023: []
Colunas exclusivas de iptu_2024: ['_id', 'quant pavimentos', 'valor IPTU']

>>> Como esperado, há colunas adicionais na tabela IPTU_2024, vamos ajustar isso... OK!


>>> Analisando os tipos de dados das tabelas da camada bronze (inferidas pelo spark), podemos perceber algumas inconsistências, como, por exemplo, a coluna ÁREA CONSTRUÍDA estar como string, quando deveria ser uma informação numérica. Durante o processamento de dados adiante, isso será ajustado para todas as colunas. Os tipos de todas as colunas podem ser observados abaixo: 



[('Número do contribuinte', 'string'),
 ('ano do exercício', 'double'),
 ('data do cadastramento', 'timestamp'),
 ('tipo de contribuinte', 'string'),
 ('CPF/CNPJ mascarado do contribuinte', 'string'),
 ('logradouro', 'string'),
 ('numero', 'double'),
 ('complemento', 'string'),
 ('bairro', 'string'),
 ('cidade', 'string'),
 ('estado', 'string'),
 ('fração ideal', 'string'),
 ('AREA TERRENO', 'string'),
 ('AREA CONSTRUIDA', 'string'),
 ('área ocupada', 'string'),
 ('valor do m2 do terreno', 'string'),
 ('valor do m2 de construção', 'string'),
 ('ano da construção corrigido', 'double'),
 ('quantidade de pavimentos', 'double'),
 ('tipo de uso do imóvel', 'string'),
 ('tipo de padrão da construção', 'string'),
 ('fator de obsolescência', 'string'),
 ('ano e mês de início da contribuição', 'double'),
 ('valor total do imóvel estimado', 'string'),
 ('valor cobrado de IPTU', 'string'),
 ('CEP', 'double'),
 ('Regime de Tributação do iptu', 'string'),
 ('Regime de Tributação da trsd', 'string')


Ajustando os nomes das colunas... OK!
Removendo espaços desnecessários do conteúdo da tabela... OK!
Ajustando os tipos de dados... OK!
Ajustando o formato de dados da coluna DATA_DO_CADASTRAMENTO... OK!
Removendo dados duplicados... OK!

------------------------------------ ANÁLISE DE REGISTROS NULOS ------------------------------------

Analisando a quantidade de registros nulos por coluna...

>>> Total de linhas: 403855
VALOR_DO_M2_DO_TERRENO: 376 registros nulos (0.09%)
VALOR_DO_M2_DE_CONSTRUCAO: 376 registros nulos (0.09%)
FATOR_DE_OBSOLESCENCIA: 376 registros nulos (0.09%)

>>> Como a quantidade de registros nulosé inferior a 1%, vamos remover os registros nulos
Removendo registros com valores nulos... OK!

---------------------------------- ANÁLISE DE QUALIDADE DOS DADOS ----------------------------------

>>> A coluna ANO_DO_EXERCICIO não pode estar fora do intervalo entre 1900 e o ano atual. Verificando...

Qtd de registros com ANO_DO_EXERCICIO inválido: 0
Filtrando registros 

////////////////////////////////////////// INGESTÃO DA CAMADA SILVER FINALIZADA //////////////////////////////////////////


Na camada gold faremos a unificação de todas as tabelas em uma única tabela, deixando-a pronta para uso durante as análises. Durante a ingestão dos dados nessa camada, também foi realizado o particionamento considerando as colunas ano do exercício e bairro, visando otimizar a leitura e o processamento dos dados nas análises posteriores.

In [0]:
%run /Workspace/Users/douglasfmedeiros@outlook.com/desafio_neurotech/03_ingestao_camada_gold

>>> Criando schema gold no catálogo de dados, caso ainda não exista... OK!


>> Camada: Gold
>> Caminho da tabela silver: silver_layer.dados_iptu
>>> Executando carga de dados, aguarde...



/////////////////////////////////////////// INGESTÃO DA CAMADA GOLD FINALIZADA ///////////////////////////////////////////


A análise dos dados não foi realizada neste notebook, ele destina-se apenas para ingestão de dados. A análise foi realizada no notebook **05_analise_dados**.