<a href="https://colab.research.google.com/github/michelgoncalves/projects/blob/master/Teste_analise_Michel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Cenário

No seguinte cenário você é a pessoa analista por trás do projeto de data ops junto a uma grande indústria norte-americana.

Os dados a serem ingeridos e analisados em nossa plataforma de Big Data são dados de compras (orders), pessoas (people) e devoluções (returns).

Sua primeira tarefa é implementar uma aplicação de integração de dados, de modo a assegurar os aspectos de integridade e escalabilidade da solução, garantindo que os dados vão ser importados de maneira adequada para as camadas de consumo.

## Entregáveis

O primeiro entregável desse cenário deve ser um relatório relatando algumas das anomalias encontradas e investigações possíveis (falamos que aqui encorajamos gente curiosa, certo?!). Para feitura desse relatório vocês podem utilizar quaisquer ferramentas de modelagem e (ou) visualização.

O dataset a ser utilizado nesse cenário (.zip com arquivo CSV) você encontra <a href="https://drive.google.com/file/d/1a8UCbzXFbqTQi0x8tqCXPRTlB--E7o8I/view?usp=sharing">aqui</a>.

Temos um apreço muito grande por qualidade e disponibilidade. Sendo assim, é bom contarmos com métricas para nos previnir e alertar sobre quaisquer problemas bem como metrificar e monitorar as arquitetura proposta. Logo, apreciamos se você conseguir entregar testes que mensurem a qualidade dos dados junto à sua solução desse primeiro entregável. 

O segundo entregável consiste na transformação de dados disponíveis em <a href="https://drive.google.com/file/d/1IDCjpDZh5St97jw4K_bAewJ8hf-rax9C/view?usp=sharing">arquivo Json</a> para o formato de dataframe, algo comum no dia a dia da empresa. Após transformar esse Json em dataframe é possível perceber que a coluna "item_list" está como dicionário. Seu gestor pediu dois pontos de atenção nessa tarefa:

- Expandir a coluna num mesmo dataframe;
- Normalizar os itens dessa coluna de dicionário e dividí-los em dois dataframes separados, seguindo o modelo relacional.

Imagine que o Json das notas fiscais é disponibilizado em uma API. Como você utilizaria as tecnologias da AWS para ingerir, transformar e, eventualmente, carregar esses dados em um banco de dados Redshift? O terceiro entregável consiste na construção de uma arquitetura de ingestão dos dados de nota fiscal do entregável anterior (como visto <a href="https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2020/06/22/Screen-Shot-2020-06-19-at-15.00.38.png">aqui</a>), a qual deve atender aos seguintes pontos:

- Esquemas de fluxo de dados;
- Descrições de funcionamento (se necessário);
- Nomes de tecnologias em ecossistema AWS (serviços, conectores, bibliotecas e módulos).
- Será apreciado como esforço extra se você conseguir avançar mais na aplicação além desse ponto.

Já o quarto entregável pode estar contido como comentários em suas soluções prévias, queremos entender melhor como foi seu processo de solução de problemas, quais as hipóteses levantadas e, se tivesse mais tempo, como você poderia melhorar a implementação proposta.

Ou seja, temos quatro entregáveis:

- Relatório com exemplos de anomalias encontradas e possibilidades dentro da sua experiência e com relação aos dados da base;
- Resolução de problema de transformação de dados (NF-e);
- Arquitetura exemplo da ingestão anterior (ecossistema AWS);
- Comentários a respeito da implementações propostas e melhorias (desenvolvimento incremental).

## Dados

| Table            | Total Rows | Total Columns                                              |
| -----------------|:--------:  | :---------------------------------------------------------:|
| Orders           | 9994       | 21                                                         |
| People           | 4          | 2                                                          |
| Returns          | 296        | 2                                                          |

## O que será avaliado?

1. Buscamos soluções bem definidas e baseadas em método: soube mostrar quais as hipóteses levantadas? Precisou ao menos de modo resumido o por que escolheu determinado caminho? Quais os prós e contras usados para se basear essa solução e quais os passos para implementá-la?
2. Qualidades dos entregáveis, tanto o report de anaomalias encontradas quanto a arquitetura proposta.
3. A eficiência do método utilizado para a verificação de anomalias.
4. Se tivesse mais tempo, o que você faria para melhorar a sua solução?

## 

“Perception is strong and sight weak. In strategy it is important to see distant things as if they were close and to take a distanced view of close things.”

Miyamoto Musashi. Japanese martial artist, philosopher, strategist, writer, artist (1584-1645).

がんばろう



## 1 - Análise da base de dados em CSV
Após uma rápida inspeção do arquivo, segui salvando-o em formato .xlsl. 
Em seguida, procedi em criar um novo relatório do Power BI (ferramenta que tenho maior vivência) e importei o xlsl como fonte de dados. 

De anomalias e incongruências que pude perceber, inicio com a existência da tabela `People` que possui somente 4 entradas com nomes de pessoas e regiões. 

<img src="https://github.com/michelgoncalves/projects/blob/master/files_to_download/Entrega1_tabela_People.jpg?raw=true" />

Considerando a importância da tabela de pessoas, optei em criá-la como uma dimensão a partir de extração da tabela principal `Orders`, excluindo valores duplicados, incluindo uma chave primária `Customer ID` e acrescentando atributos coerentes. 

<img src="https://github.com/michelgoncalves/projects/blob/master/files_to_download/Entrega1_dim_customers.jpg?raw=true" />

Além disso, a tabela `Returns` apresentava somente os pedidos devolvidos, sem uma relação direta com os demais dados. 

Minha solução, via PowerQuery foi extrair todos os pedidos da tabela `orders` e concatenar as entradas com a tabela `Returns`, criando a tabela `Order_Returns`, contendo todos os pedidos e classificando-os como `Yes` ou `No` conforme o status de devoluções.

<img src="https://github.com/michelgoncalves/projects/blob/master/files_to_download/Entrega1_order_returns.jpg?raw=true" width = "20%"/>

Com base na tabela principal `Orders` utilizei o PowerQuery para criar dimensões coerentes, que facilitassem o desenvolvimento de análises. Nessse contexto, a tabela `orders` ficou como a principal tabela fato: contento informações sobre pedidos, datas, valores e demais eventos, além das chaves para fixar o relacionamento com as dimensões criadas. 

<img src="https://github.com/michelgoncalves/projects/blob/master/files_to_download/Entrega1_relacionamento.jpg?raw=true" />

A título de exemplo de como as análises tornaram-se mais fáceis de serem realizadas após esse tratamento, temos aqui o comparativo de quantidade e também percentual dos pedidos devolvidos X pedidos realizados. 

<img src="https://github.com/michelgoncalves/projects/blob/master/files_to_download/Entrega2_orders_returned.jpg?raw=true" />

----

## 2 - Análise do arquivo Json

Para leitura do arquivo Json, utilizei inicialmente a função `pd.read_json` do pandas.

In [1]:
import pandas as pd

In [2]:
df = pd.read_json('data.json')

In [4]:
df

Unnamed: 0,CreateDate,EmissionDate,Discount,NFeNumber,NFeID,ItemList
0,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,501,1,"[{'ProductName': 'Rice', 'Value': 35.55, 'Quan..."
1,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,502,2,"[{'ProductName': 'Tomate', 'Value': 12.25, 'Qu..."
2,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,503,3,"[{'ProductName': 'Beer', 'Value': 9.0, 'Quanti..."


Apesar do dataframe ter sido criado, a coluna `ItemList` permaneceu aglutinada em formato de dicionário. 

Para "descompactar" essa coluna, optei em importar a biblioteca `json` e utilizar a função `json.loads`. Após carregado, utilizei a função pandas `json_normalize` e especifiquei a coluna `ItemList` para ser "quebrada" do formato dicionário.

In [5]:
import json

In [7]:
with open('data.json','r') as data_dict:
    data = json.loads(data_dict.read())

In [8]:
df = pd.json_normalize(data, record_path =['ItemList'])

In [9]:
df

Unnamed: 0,ProductName,Value,Quantity
0,Rice,35.55,2
1,Flour,11.55,5
2,Bean,27.15,7
3,Tomate,12.25,10
4,Pasta,7.55,5
5,Beer,9.0,6
6,French fries,10.99,2
7,Ice cream,27.15,1


Com a `ItemList` agora devidamente formatada, o próximo passo foi incorporar todas as colunas do json em um só *dataframe*. Para isso, utilizei novamente a fução `json_normalize`, agora não só especificando a coluna a ser achatada, como também referenciando as demais colunas a serem carregadas. 

In [13]:
df = pd.json_normalize(
    data, 
    record_path =['ItemList'], 
    meta=['CreateDate', 'EmissionDate', 'Discount', 'NFeNumber', 'NFeID']
)

In [14]:
df

Unnamed: 0,ProductName,Value,Quantity,CreateDate,EmissionDate,Discount,NFeNumber,NFeID
0,Rice,35.55,2,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,501,1
1,Flour,11.55,5,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,501,1
2,Bean,27.15,7,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,501,1
3,Tomate,12.25,10,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,502,2
4,Pasta,7.55,5,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,502,2
5,Beer,9.0,6,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,503,3
6,French fries,10.99,2,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,503,3
7,Ice cream,27.15,1,2021-05-24T20:21:34.79,2021-05-24T00:00:00,0,503,3


Com o *dataframe* unificado e as colunas todas "descompactadas", utilizei uma função do Google Colab para convertê-lo em csv, para em seguida levá-lo ao ambiente do Power BI.

In [16]:
df.to_csv('sample.csv' , index=False, header=True)
from google.colab import files
files.download("sample.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

No Power BI, Iniciei o processo de quebrar o dataframe em duas partes, buscando assim criar um modelo de dados relacional.

<img src="https://github.com/michelgoncalves/projects/blob/master/files_to_download/Entrega2_fragmented2.jpg?raw=true" width="90%"/>

Separei os dataframes em duas tabelas, uma de dimensão constando os detalhes dos produtos `Dim_product`, e uma fato com o registros das vendas `F_Sale`. Tomei a liberdade de criar uma coluna de valores únicos para funcionar como código dos produtos `ProductCode` e dividi os valores do valor de venda pela quantidade de produtos para criar a coluna de preço `Price`. 

Para melhor ilustrar ambas tabelas, plotei-as na área de visualização do PowerBI: 

<img src="https://github.com/michelgoncalves/projects/blob/master/files_to_download/Entrega2_tabelas_finais.jpg?raw=true" width="80%"/>

E aqui uma screenshot de como ficou o relacionamento das duas tabelas:



<img src="https://github.com/michelgoncalves/projects/blob/master/files_to_download/Entrega2_relacionamento.jpg?raw=true" width="80%"/>

Nesse formato, programei para que cada entrada de produto, tivesse o seu preço unitário `Price` automaticamente multiplicado pela quantidade `Quantity`, resultando no que pude entender como valor da venda `SaleValue`.

----

## 3 - Ecossistema AWS

Até o presente momento, busquei solucionar as questões anteriores utilizando minhas habilidades presentes: daí a utilização integrada do Python e PowerBi/PowerQuery(M).

Sendo um profissional relativamente novo no mercado de dados, pouco me envolvi até o momento com AWS, sendo que o máximo de contato com *RedShift* foi simplesmente para realizar algumas consultas e extrações via SQL (DBeaver).

Dado o disclaimer, considerando o cenário da utilização de soluções ETL  para melhor ingestão dos dados do Json em um servidor *RedShift*, acredito que a utilização do **AWS Glue** 



<img src ="https://github.com/michelgoncalves/projects/blob/master/files_to_download/AWS_GLue__1_400x260.png?raw=true"/>

Por ser gerenciado pela AWS, o Glue tem algumas origens e scripts pré-definidos, já apropriados para o carregamento dos dados no *RedShift*, que também está no guarda-chuva da Amazon.

Seja no formato Json, Csv, etc, o **AWS Glue** utiliza crawlers para captura dos dados e identificação dos mesmos. 

Uma vez realizada a extração das fontes que preciso, no ambiente do **AWS Glue** terei os dados no formato de tabela e, seja utilizando scripts Python pré-definidos, editando-os ou criando os meus do zero, posso realizar os tratamentos necessários e definir como vou querer que os dados sejam carregados no destino -  *RedShift*.

<img src ="https://github.com/michelgoncalves/projects/blob/master/files_to_download/S3SpendwithGlueRedshift2.png?raw=true" width = "60%"/>

 
Desse ponto em diante, com os dados apropriadamente carregados no RedShift, posso tanto realizar uma conexão direta com o Power BI (ou alguma ferramenta similar) para realizar análises mais aprofundadas, gerar visuais, dashboards, reports, etc, que gerem insights importantes ou cumpram objetivos específicos de um projeto. 