# Michel Souza Santana
## Projeto Desafio Aceleras
## Trilha 1
> Start: 15/05/2023

## Fase 1 - Transformação do ER proposto em um BI, realizando o ETL usando uma ferrmenta local (Talend, Apache Hop, Nifi, Airflow, SSIS, Pentaho,…)

* Entenda o modelo ER: Familiarize-se com o modelo ER existente, incluindo as tabelas, relacionamentos e atributos. Isso ajudará você a mapear corretamente os dados durante a transformação.

* Identifique os requisitos de BI: Compreenda as necessidades e requisitos do seu projeto de BI. Identifique as informações que você precisa extrair e apresentar no ambiente de BI.

* Escolha uma ferramenta ETL: Pesquise e selecione uma ferramenta ETL adequada para sua transformação de dados. Existem várias opções disponíveis, como Pentaho Data Integration, Talend, Microsoft SQL Server Integration Services (SSIS), entre outras.

* Instale a ferramenta ETL: Faça o download e instale a ferramenta ETL selecionada no seu ambiente local.

* Conecte-se ao banco de dados: Configure a conexão da ferramenta ETL com o banco de dados que contém os dados do modelo ER. Forneça as credenciais de acesso necessárias para estabelecer a conexão.

* Extração de dados: Utilizando a ferramenta ETL, extraia os dados do banco de dados conforme necessário para o seu projeto de BI. Isso pode envolver a seleção de tabelas específicas, filtragem de dados ou até mesmo a união de várias tabelas para obter as informações desejadas.

* Limpeza e transformação de dados: Aplique as transformações necessárias nos dados extraídos para adequá-los às necessidades do ambiente de BI. Isso pode incluir a remoção de dados duplicados, preenchimento de valores ausentes, conversão de formatos de data, entre outros processos de limpeza e transformação.

* Mapeamento para o modelo dimensional: Se você estiver construindo um data warehouse ou uma solução de BI baseada em modelo dimensional, mapeie os dados extraídos para as dimensões e fatos do seu modelo dimensional. Isso envolve a definição de hierarquias, chaves e relacionamentos.

* Desenvolva fluxos de trabalho ETL: Utilizando a ferramenta ETL, crie fluxos de trabalho que automatizem a transformação de dados. Isso pode envolver a criação de transformações, tarefas agendadas e outras operações para garantir a integridade e atualização dos dados.

* Carregamento dos dados: Carregue os dados transformados no ambiente de BI, que pode incluir um data warehouse, um banco de dados ou outra solução de armazenamento de dados.

* Desenvolva visualizações e relatórios: Com os dados carregados no ambiente de BI, desenvolva visualizações e relatórios interativos para fornecer insights acionáveis aos usuários finais. Isso pode ser feito usando ferramentas de visualização de dados como Tableau, Power BI, QlikView, entre outras.

* Teste e valide: Realize testes para garantir a precisão e a integridade dos dados transformados. Verifique se as visualiza

## Carregando as bibliotecas

In [30]:
import pandas as pd
import numpy as np
import pyarrow
import os
import csv

## Instalando o pyrrow para conversão dos arquivos csv em parquet

In [31]:
#!pip install pyarrow


## Criando os diretórios estruturais do projeto

In [46]:
path_folder = !pwd
f = pd.read_csv(str(path_folder[0]) + '/folders.csv')
lista_folders = f['Folders'].to_list()

In [33]:
for i in lista_folders:
    diretorio = str(path_folder[0]) 

    if not os.path.exists(diretorio + '/' + i):
        os.makedirs(diretorio + '/' + i)
        print(f"Diretório {i} criado com sucesso!")
    else:
        print(f"O diretório {i} já existe.")


Diretório engineer criado com sucesso!
Diretório raw criado com sucesso!
Diretório refined criado com sucesso!
Diretório transient criado com sucesso!
Diretório trusted criado com sucesso!


## Criando o arquivo 'controller.csv' na pasta enginner

In [34]:
# Caminho do arquivo CSV
caminho_arquivo = str(path_folder[0]) + '/' + 'engineer/controller.csv'
dados = [
["path_transient","path_raw","table_transient","table_raw", "table_name"],
[str(path_folder[0]) + '/' + "transient","/home/michel/opt/keggle/raw","olist_customers_dataset","olist_customers_dataset","stg_customers"],
[str(path_folder[0]) + '/' + "transient",str(path_folder[0]) + '/' + "raw","olist_geolocation_dataset","olist_geolocation_dataset","stg_geolocation"],
[str(path_folder[0]) + '/' + "transient",str(path_folder[0]) + '/' + "raw","olist_order_items_dataset","olist_order_items_dataset","stg_items"],
[str(path_folder[0]) + '/' + "transient",str(path_folder[0]) + '/' + "raw","olist_order_payments_dataset","olist_order_payments_dataset","stg_payments"],
[str(path_folder[0]) + '/' + "transient",str(path_folder[0]) + '/' + "raw","olist_order_reviews_dataset","olist_order_reviews_dataset","stg_reviews"],
[str(path_folder[0]) + '/' + "transient",str(path_folder[0]) + '/' + "raw","olist_orders_dataset","olist_orders_dataset","stg_orders"],
[str(path_folder[0]) + '/' + "transient",str(path_folder[0]) + '/' + "raw","olist_products_dataset","olist_products_dataset","stg_products"],
[str(path_folder[0]) + '/' + "transient",str(path_folder[0]) + '/' + "raw","olist_sellers_dataset","olist_sellers_dataset","stg_sellers"]
]
# Abrir o arquivo CSV em modo de escrita e cria
with open(caminho_arquivo, 'w', newline='') as arquivo_csv:
    writer = csv.writer(arquivo_csv)
    writer.writerows(dados)


# Identificar as fontes de dados: 

https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce

A URL em questão se refere a um conjunto de dados disponibilizado no site Kaggle, que contém informações sobre o comércio eletrônico no Brasil. O conjunto de dados é intitulado "Brazilian E-Commerce Public Dataset by Olist" e foi criado pela empresa Olist, que é uma plataforma de vendas on-line que conecta pequenos e médios varejistas a marketplaces.

O conjunto de dados contém informações de mais de 100 mil pedidos de clientes, com dados que incluem informações do produto, preços, prazos de entrega, avaliações de clientes e informações sobre o vendedor. Além disso, o conjunto de dados contém informações sobre geolocalização dos clientes, categoria de produtos e informações sobre a própria loja virtual.

Este conjunto de dados pode ser extremamente útil para análises sobre comércio eletrônico no Brasil, permitindo a análise de tendências de consumo, comportamento dos clientes, performance de vendas e muito mais. A disponibilização de dados desse tipo é importante para o desenvolvimento de modelos de negócios mais eficientes e para a tomada de decisões mais informadas no setor de e-commerce brasileiro.

## Copia os dados do site do kaggle

### Instalando o Kaggle

In [35]:
#!pip install kaggle --upgrade

### Baixando os arquivos csv

Baixar & diszipar

In [47]:
print(str(path_folder[0]) + '/' + 'transient')

/home/michel/opt/kaggle_olist/transient


In [55]:
if not os.path.exists(str(path_folder[0]) + '/' + 'transient/brazilian-ecommerce.zip'):
    
    r = !pwd
    PATH_FOLDER = r[0] + '/transient'
    os.environ['PATH_FOLDER'] = PATH_FOLDER

    !cd $PATH_FOLDER && kaggle datasets download -d olistbr/brazilian-ecommerce
    !cd $PATH_FOLDER && unzip brazilian-ecommerce.zip
    print('Arquivo carregado e descompactado.')
else:
    print('Arquivo já existe.')

Downloading brazilian-ecommerce.zip to /home/michel/opt/kaggle_olist/transient
100%|██████████████████████████████████████| 42.6M/42.6M [00:11<00:00, 4.11MB/s]
100%|██████████████████████████████████████| 42.6M/42.6M [00:11<00:00, 4.04MB/s]
Archive:  brazilian-ecommerce.zip
  inflating: olist_customers_dataset.csv  
  inflating: olist_geolocation_dataset.csv  
  inflating: olist_order_items_dataset.csv  
  inflating: olist_order_payments_dataset.csv  
  inflating: olist_order_reviews_dataset.csv  
  inflating: olist_orders_dataset.csv  
  inflating: olist_products_dataset.csv  
  inflating: olist_sellers_dataset.csv  
  inflating: product_category_name_translation.csv  
Arquivo carregado e descompactado.


## Criando as variáveis necessárias para manipulação dos arquivos csv's

In [56]:
path = pd.read_csv(str(path_folder[0]) + '/' + 'engineer/controller.csv')
path

Unnamed: 0,path_transient,path_raw,table_transient,table_raw,table_name
0,/home/michel/opt/kaggle_olist/transient,/home/michel/opt/keggle/raw,olist_customers_dataset,olist_customers_dataset,stg_customers
1,/home/michel/opt/kaggle_olist/transient,/home/michel/opt/kaggle_olist/raw,olist_geolocation_dataset,olist_geolocation_dataset,stg_geolocation
2,/home/michel/opt/kaggle_olist/transient,/home/michel/opt/kaggle_olist/raw,olist_order_items_dataset,olist_order_items_dataset,stg_items
3,/home/michel/opt/kaggle_olist/transient,/home/michel/opt/kaggle_olist/raw,olist_order_payments_dataset,olist_order_payments_dataset,stg_payments
4,/home/michel/opt/kaggle_olist/transient,/home/michel/opt/kaggle_olist/raw,olist_order_reviews_dataset,olist_order_reviews_dataset,stg_reviews
5,/home/michel/opt/kaggle_olist/transient,/home/michel/opt/kaggle_olist/raw,olist_orders_dataset,olist_orders_dataset,stg_orders
6,/home/michel/opt/kaggle_olist/transient,/home/michel/opt/kaggle_olist/raw,olist_products_dataset,olist_products_dataset,stg_products
7,/home/michel/opt/kaggle_olist/transient,/home/michel/opt/kaggle_olist/raw,olist_sellers_dataset,olist_sellers_dataset,stg_sellers


### Testando a formação das rotas

In [57]:
print(path['path_transient'][0] + '/' + path['table_transient'][0] + '.csv')
print(path['path_raw'][0] + '/' + path['table_raw'][0] + '.parquet')

/home/michel/opt/kaggle_olist/transient/olist_customers_dataset.csv
/home/michel/opt/keggle/raw/olist_customers_dataset.parquet


In [58]:
print(len(path['path_transient']))

8


## Convertendo or arquivos CSV em .parquet

In [59]:
for i in range(len(path['path_transient'])):
    df = pd.read_csv(path['path_transient'][i] + '/' + path['table_transient'][i] + '.csv')
    df = df.astype('str')
    df.to_parquet(str(path['path_raw'][i]) + '/' + str(path['table_raw'][i]) + '.parquet')


## Eliminando as duplicadas nos ID das tabelas

In [60]:
for i in range(len(path['path_transient'])):
    df_clear_duplicates = pd.read_parquet(str(path['path_raw'][i]) + '/' + str(path['table_raw'][i]) + '.parquet')
    coluna = df_clear_duplicates.columns[0]
    df_clear_duplicates.drop_duplicates(subset=coluna, inplace=True)
    df_clear_duplicates.to_parquet(str(path['path_raw'][i]) + '/' + str(path['table_raw'][i]) + '.parquet')