# ETL COM PANDAS E SELENIUM
<br>

<p><big>ETL é o processo de importação, tratamento e exportação de uma base de dados afim de localizar e filtrar as informações mais relevantes para um determinado negócio.</big></p>

<p><big>O pandas é uma biblioteca de software criada para a linguagem Python para manipulação e análise de grandes volumes de dados, sendo utilizada no presente notebook para realizar o processo de ETL.</big></p>

<p><big>E Selenium é um conjunto de ferramentas de código aberto multiplataforma, usado para testar aplicações web pelo browser de forma automatizada, que também será utilizado para auxiliar o tratamento de dados, extraindo informações atualizadas da web.</big></p> 

<p><big>A base de dados escolhida para este projeto contempla produtos importados pelo Brasil de países extrangeiros. O objetivo do projeto é aliar os conhecimentos em engenharia de dados com Python e automação web com Selenium para definir qual seria o preço atualizado que o Brasil pagaria hoje pela importação dos respectivos produtos.</big></p> 

---

## PREPARAÇÃO DO AMBIENTE:

<br>

In [None]:
# INSTALANDO O SELENIUM

!pip install selenium 

In [1]:
# IMPORTANDO BIBLIOTECAS

import pandas as pd # Biblioteca pandas, usada para analise de dados.
import numpy as np # Biblioteca numpy, usada para realizar operacoes em arranjos complexos
import time # Biblioteca time, usada para criar intervalos de tempo, etc.
from selenium import webdriver # Modulo webdriver, usado para que o Selenium se comunique com o navegador.
from selenium.webdriver.common.keys import Keys # Modulo Keys, usado para que o navegador acesse o teclado.
from selenium.webdriver.common.by import By # Modulo By, usado para localizar elementos na pagina web.

---

## AUTOMAÇÃO DE BUSCAS ONLINE:

<br>

<p><big>Para utilizar o Selenium, é necessário que o webdriver do navegador em uso esteja na mesma pasta que está o executável do python ou na mesma pasta que esta o notebook. Pois o Selenium usa o próprio webdriver do navegador para manupulá-lo.</big></p>

<br>

 * NAVEGADOR/BROWSER 

In [2]:
# INSTANCIANDO UM NAVEGADOR/BROWSER

browser = webdriver.Chrome() #Por meio do browser, o Selenium se comunicara com o navegador

<br>

* COTAÇÃO DO DOLAR



In [3]:
# ABRINDO UMA PAGINA NA WEB (GOOGLE)

link = 'https://www.google.com/'
browser.get(link)
time.sleep(5)


# SELECIONANDO UM ELEMENTO DA PÁGINA (CAIXA DE PESQUISA) E INSERINDO TEXTO (COTAÇÃO DOLAR)

caminho = '/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/input'
(browser.find_element(By.XPATH, caminho )
        .send_keys('cotação dolar'))


# SELECIONANDO UM ELEMENTO DA PÁGINA (CAIXA DE PESQUISA) E ENVIANDO "ENTER" DO TECLADO

(browser.find_element(By.XPATH, caminho)
        .send_keys(Keys.ENTER))


# SELECIONANDO UM ELEMENTO DA PÁGINA (VALOR DA COTAÇÃO DO DOLAR) E O GUARDANDO EM UMA VARIÁVEL

caminho = '//*[@id="knowledge-currency__updatable-data-column"]/div[1]/div[2]/span[1]'
cot_dolar = (browser.find_element(By.XPATH, caminho)
                    .get_attribute('data-value'))

print(cot_dolar)

5.420599999999999


<br>

* COTAÇÃO DO EURO

In [4]:
# LIMPANDO A CAIXA DE PESQUISA

caminho = '//*[@id="tsf"]/div[1]/div[1]/div[2]/div[1]/div/div[3]/div[1]'
browser.find_element(By.XPATH, caminho).click()


# SELECIONANDO UM ELEMENTO DA PÁGINA (CAIXA DE PESQUISA) E INSERINDO TEXTO (COTAÇÃO EURO)

caminho = '//*[@id="tsf"]/div[1]/div[1]/div[2]/div[1]/div/div[2]/input'
(browser.find_element(By.XPATH, caminho)
        .send_keys('cotação euro'))


# SELECIONANDO UM ELEMENTO DA PÁGINA (CAIXA DE PESQUISA) E ENVIANDO "ENTER" DO TECLADO

(browser.find_element(By.XPATH, caminho)
        .send_keys(Keys.ENTER))


# SELECIONANDO UM ELEMENTO DA PÁGINA (VALOR DA COTAÇÃO DO EURO) E O GUARDANDO EM UMA VARIÁVEL

caminho = '//*[@id="knowledge-currency__updatable-data-column"]/div[1]/div[2]/span[1]'
cot_euro = (browser.find_element(By.XPATH, caminho)
                    .get_attribute('data-value'))

print(cot_euro)

6.039207475


<br>

* COTAÇÃO DA LIBRA

In [5]:
# LIMPANDO A CAIXA DE PESQUISA

caminho = '//*[@id="tsf"]/div[1]/div[1]/div[2]/div[1]/div/div[3]/div[1]'
browser.find_element(By.XPATH, caminho).click()


# SELECIONANDO UM ELEMENTO DA PÁGINA (CAIXA DE PESQUISA) E INSERINDO TEXTO (COTAÇÃO LIBRA)

caminho = '//*[@id="tsf"]/div[1]/div[1]/div[2]/div[1]/div/div[2]/input'
(browser.find_element(By.XPATH, caminho)
        .send_keys('cotação libra'))


# SELECIONANDO UM ELEMENTO DA PÁGINA (CAIXA DE PESQUISA) E ENVIANDO "ENTER" DO TECLADO

(browser.find_element(By.XPATH, caminho)
        .send_keys(Keys.ENTER))


# SELECIONANDO UM ELEMENTO DA PÁGINA (VALOR DA COTAÇÃO DA LIBRA) E O GUARDANDO EM UMA VARIÁVEL

caminho = '//*[@id="knowledge-currency__updatable-data-column"]/div[1]/div[2]/span[1]'
cot_libra = (browser.find_element(By.XPATH, caminho)
                    .get_attribute('data-value'))


# FECHANDO A PÁGINA

browser.quit()
print(cot_libra)

7.2491200970000005


---

## ETL - EXTRAÇÃO, TRATAMENTO E CARREGAMENTO: 

<br>

* EXTRAÇÃO: DOWNLOAD E IMPORTAÇÃO DA BASE DE DADOS


In [6]:
# ABRINDO A PAGINA ONDE SE ECNONTRA A BASE DE DADOS

link = 'https://dados.ufabc.edu.br/bases-dados/9-bd-proad02'
browser = webdriver.Chrome()
browser.get(link)
time.sleep(3)


# FAZENDO DOWNLOAD DA BASE DE DADOS

caminho = '//*[@id="main"]/article/p[19]/a'
browser.find_element(By.XPATH, caminho).click()


# ESPERANDO TEMPO DO DOWNLOAD

time.sleep(5)


# FECHANDO A PÁGINA

browser.quit()

# IMPORTANDO A BASE DE DADOS PARA O NOTEBOOK (RENOMEANDO COLUNAS PARA FACILITAR A MANIPULACAO DO DF)

caminho = r'C:\Users\Fenrir\Downloads\bd_proad02_jan2022.csv'
novo_cabecalho = ['NUM_PROCESSO', 'PRODUTO_OU_SERVICO', 'EXPORTADOR', 'NUM_DISPENSA', 'LICENCA_IMPORTACAO', 'PAIS_EMBARQUE', 'MOEDA', 'VALOR_MOEDA_EXTERIOR', 'INCOTERM', 'CONDICAO_PAGAMENTO', 'NOTA_EMPENHO', 'DECLARACAO_IMPORTACAO', 'DESP_CAMBIO_BANCO', 'DESP_FORNECEDOR', 'DESP_ORGAO_ANUENTE']

df = (pd.read_csv(caminho, sep=';', 
                  encoding='ISO-8859-1',
                  header=0,
                  names=novo_cabecalho)
     )
display(df)


Unnamed: 0,NUM_PROCESSO,PRODUTO_OU_SERVICO,EXPORTADOR,NUM_DISPENSA,LICENCA_IMPORTACAO,PAIS_EMBARQUE,MOEDA,VALOR_MOEDA_EXTERIOR,INCOTERM,CONDICAO_PAGAMENTO,NOTA_EMPENHO,DECLARACAO_IMPORTACAO,DESP_CAMBIO_BANCO,DESP_FORNECEDOR,DESP_ORGAO_ANUENTE
0,23006.002364/2018-15,Microscópio Eletrônico de Transmissão de Alta ...,FEI Europe B.V.,Dispensa 8/2019,20/0816417-0,República Tcheca,USD,"754.500,00",CPT Aeroporto de Guarulhos,Carta de Crédito irrevogável (à vista),2019NE800185\n2019NE800186\n2020NE800054\n2020...,20/0824764-2,"R$ 3.089.146,54","R$ 25.088,19","R$ 190.382,81"
1,23006.000168/2019-89,29 Criotubos contendo Células Humanas,University of Pittsburgh,Inexigibilidade 4/2019,19/0530257-0,Estados Unidos,USD,290,EXW,Não se aplica (Doação),2019NE800044,19/0456067-0,R$ -,"R$ 492,78","R$ 4.658,26"
2,23006.000197/2019-41,"Sistema medidor de óxido nítrico, nitrito e ni...",Innovative Instruments Inc.,Dispensa 3/2019,19/1273133-3,Estados Unidos,USD,"5.140,00",FCA Miami Airport,Net 30 dias (a prazo),2019NE800108,19/0898065-8,"R$ 21.223,08","R$ 2.489,17","R$ 677,55"
3,23006.000601/2019-86,Barras de Liga de Magnésio,"Xi'an Yuechen Metal Products Co., Ltd.",Dispensa 4/2019,19/1609331-5,China,USD,60300,FCA Shanghai Airport,Net 30 dias (a prazo),2019NE800145,19/1124450-9,"R$ 2.855,27","R$ 3.420,91","R$ 508,68"
4,23006.000603/2019-75,Consumíveis para pesquisa com a técnica NIRS,Brain Support Corporation,Dispensa 7/2019,19/1874413-5\n19/1874446-1,Alemanha,USD,"11.020,00",FCA Miami Airport,Net 30 dias (a prazo),2019NE800184,19/1315265-2,"R$ 42.062,34","R$ 3.362,32","R$ 696,51"
5,23006.000613/2019-19,Peça para Sistema de Neuronavegação Patriot,Polhemus,Dispensa 10/2019,19/2109818-4,Estados Unidos,USD,86842,FCA JFK Airport (New York),Net 30 dias (a prazo),2019NE800233,19/1382172-4,"R$ 4.427,78","R$ 2.930,87","R$ 265,15"
6,23006.000748/2019-76,Capilares para Medidas de Difração de Raios X ...,Hilgenberg GmbH,Dispensa 11/2019,19/2200479-5\n19/2200614-3,Alemanha,EUR,97425,EXW,Remessa Bancária,2019NE800252,19/1462936-3,"R$ 4.993,94","R$ 2.871,84","R$ 505,44"
7,23006.000847/2019-58,Células Bovinas,Università Federico II,Inexigibilidade 40/2019,19/2132380-3,Itália,USD,1930,EXW,Não se aplica (Doação),2019NE800201,19/1533994-6,R$ -,"R$ 4.503,52","R$ 1.577,87"
8,23006.000771/2019-61,Peças de Reposição (placas GE e sonda hall) pa...,Phywe Systeme GmbH & Co. KG,Inexigibilidade 53/2019,Não sujeita a Licenciamento Não-Automático,Alemanha,EUR,"1.830,40",FCA Frankfurt Airport,Net 30 dias (a prazo),2019NE800292,19/1854476-1,"R$ 8.891,13","R$ 2.985,27","R$ 621,52"
9,23006.000964/2019-11,Contratação de serviço de acesso online ao Sis...,"OCLC - Online Computer Library Center, Inc.",Inexigibilidade 84/2019,Não se aplica,"Não envolve embarque, mas o prestador de servi...",USD,85000,Não se aplica (serviço),Remessa Bancária,2019NE800553,Não se aplica (serviço),"R$ 3.900,40",R$ -,R$ -


<br>

* TRATAMENTO: ANÁLISE EXPLORATÓRIA E TRANSFORMAÇÃO DOS DADOS

<br>
ANÁLISE EXPLORATÓRIA:

In [None]:
#CRIANDO UM BACKUP DO DATAFRAME:

backup = df.copy()

In [None]:
# VERIFICANDO A CONSISTÊNCIA DOS TIPOS DE DADOS

df.dtypes

In [None]:
# VERIFICANDO DADOS NULOS

df.isna().sum()

In [None]:
# VERIFICANDO QUANTOS E QUAIS TIPOS DE MOEDAS DIFERENTES EXISTEM NO DATAFRAME

df.MOEDA.value_counts()

In [None]:
# VERIFICANDO A EXISTÊNCIA DE PRODUTOS REPETIDOS OU INCONSISTENTES

df.PRODUTO_OU_SERVICO.value_counts()

In [None]:
# VERIFICANDO A EXISTENCIA DE CANCELAMENTOS NAS DISPENSAS

pd.unique(df['NUM_DISPENSA'])

In [None]:
# VERIFICANDO A EXISTÊNCIA DE VALORES NULOS NAO IDENTIFICADOS COMO "NaN'

df.DESP_FORNECEDOR.value_counts()

In [None]:
# VERIFICANDO A EXISTÊNCIA DE VALORES NULOS NAO IDENTIFICADOS COMO "NaN'

df.DESP_CAMBIO_BANCO.value_counts()

In [None]:
# VERIFICANDO A EXISTÊNCIA DE VALORES NULOS NAO IDENTIFICADOS COMO "NaN'

df.DESP_ORGAO_ANUENTE.value_counts()

<br>

TRANSFORMAÇÃO DOS DADOS:

In [7]:
# DROPANDO COLUNAS IRRELEVANTES 

cols = ['LICENCA_IMPORTACAO', 'INCOTERM', 'NOTA_EMPENHO', 'DECLARACAO_IMPORTACAO']
df.drop(cols, axis=1, inplace=True) 

In [8]:
# DROPANDO LINHAS ONDE OS PEDIDOS FORAM CANCELADOS (SEM COBRANCA)

# Encontrando as linhas onde os pedidos foram cancelados
cancelamento = 'Processo cancelado a pedido da área solicitante.' 
cancelamento2 = 'Processo cancelado devido à mudança no escopo de fornecimento (deixou de ser uma doação do órgão de fomento para ser uma compra efetuada pela UFABC, com reembolso posterior pelo órgão de fomento).'

filtro = df.NUM_DISPENSA == cancelamento 
filtro2 = df.NUM_DISPENSA == cancelamento2
df.loc[filtro|filtro2]

Unnamed: 0,NUM_PROCESSO,PRODUTO_OU_SERVICO,EXPORTADOR,NUM_DISPENSA,PAIS_EMBARQUE,MOEDA,VALOR_MOEDA_EXTERIOR,CONDICAO_PAGAMENTO,DESP_CAMBIO_BANCO,DESP_FORNECEDOR,DESP_ORGAO_ANUENTE
29,23006.002378/2020-45,Microscópio Biológico Invertido Trinocular,Nikon Instruments Inc.,Processo cancelado devido à mudança no escopo ...,,,,,,,
30,23006.002377/2020-09,Sistema de PCR em Tempo Real e Espectrofotômetro,Life Technologies Corporation,Processo cancelado devido à mudança no escopo ...,,,,,,,
44,23006.015796/2021-83,Rastreadores Oculares,"Gazepoint Research, Inc.",Processo cancelado a pedido da área solicitante.,,,,,,,


In [9]:
# Dropando linhas encontrandas pelo seu índice
linhas = [29, 30, 44]
df.drop(linhas, axis=0, inplace=True) 

In [10]:
# CONVERTENDO COLUNAS QUE SERAO UTILIZADAS EM OPERACOES

# Eliminando caracteres das colunas numericas 
# Transformando informações não declaradas em dados nulos 
# Convertendo para o tipo numerico "float"

formatacao = (df['VALOR_MOEDA_EXTERIOR'].str.replace('.', '')
                                        .str.replace(',','.')
                                        .str.replace(' ','')
             )
df['VALOR_MOEDA_EXTERIOR'] = pd.to_numeric(formatacao)


formatacao = (df['DESP_CAMBIO_BANCO'].str.replace('.', '')
                                     .str.replace(',','.')
                                     .str.replace('R','')
                                     .str.replace('$','')
                                     .str.replace('Valores ainda em consolidação','-')
                                     .str.replace('Aguardando pagamentos','-')
                                     .replace('-', np.nan, regex=True)
                                     .str.replace(' ','')
             )
df['DESP_CAMBIO_BANCO'] = pd.to_numeric(formatacao)


formatacao = (df['DESP_FORNECEDOR'].str.replace('.', '')
                                           .str.replace(',','.')
                                           .str.replace(' ','')
                                           .str.replace('R','')
                                           .str.replace('$','')
                                           .replace('-', np.nan, regex=True)
             )
df['DESP_FORNECEDOR'] = pd.to_numeric(formatacao)


formatacao = (df['DESP_ORGAO_ANUENTE'].str.replace('.', '')
                                           .str.replace(',','.')
                                           .str.replace(' ','')
                                           .str.replace('R','')
                                           .str.replace('$','')
                                           .replace('-', np.nan, regex=True)
             )
df['DESP_ORGAO_ANUENTE'] = pd.to_numeric(formatacao)

In [11]:
# SUBISTIUINDO SIGLAS PELO NOME DA RESPECTIVA MOEDA

sigla = ['USD', 'EUR', 'GBP']
moeda = ['Dolar', 'Euro', 'Libra']

df.loc[df['MOEDA'] == sigla[0], 'MOEDA'] = (moeda[0])
df.loc[df['MOEDA'] == sigla[1], 'MOEDA'] = (moeda[1])
df.loc[df['MOEDA'] == sigla[2], 'MOEDA'] = (moeda[2])

In [12]:
# ADCIONANDO COLUNA COM VALOR DA COTACAO DA MOEDA ATUALIZADO

df['COTACAO'] = df['MOEDA']
df.loc[df['MOEDA'] == moeda[0], 'COTACAO'] = pd.to_numeric(cot_dolar)
df.loc[df['MOEDA'] == moeda[1], 'COTACAO'] = pd.to_numeric(cot_euro)
df.loc[df['MOEDA'] == moeda[2], 'COTACAO'] = pd.to_numeric(cot_libra)
df['COTACAO'] = pd.to_numeric(df['COTACAO'])

In [13]:
# ADCIONANDO COLUNA COM VALOR DO CAMBIO DE BANCO ATUALIZADO (COTACAO ATUAL DA RESPECTIVA MOEDA)

df['DESP_CAMBIO_BANCO_ATUAL'] = df['VALOR_MOEDA_EXTERIOR'] * df['COTACAO']

# Não há cobranca quando os produtos ou servicos sao doados, portanto os valores serao zerados
df.loc[df['CONDICAO_PAGAMENTO'] == 'Não se aplica (Doação)', 'DESP_CAMBIO_BANCO_ATUAL'] = np.nan

In [14]:
# ADCIONANDO COLUNA COM O AUMENTO ENTRE AS DESPESAS DO CAMBIO DE BANCO ATERIORES E ATUAIS

df['AUMENTO_CAMBIO_BANCO'] = df['DESP_CAMBIO_BANCO_ATUAL'] - df['DESP_CAMBIO_BANCO']

In [15]:
# ADCIONANDO COLUNA COM AS DESPESAS TOTAIS NA EPOCA DA COMPRA

# Criando copias das colunas envolvidas na operacao para realizar alteracoes
desp_cambio = df['DESP_CAMBIO_BANCO']
desp_forn = df['DESP_FORNECEDOR']
desp_org = df['DESP_ORGAO_ANUENTE']

# Tranformando os valores nulos em zero, para realizar operacoes sem perda de valores
nulo = np.nan
desp_cambio = desp_cambio.replace(nulo, 0)
desp_forn = desp_forn.replace(nulo, 0)
desp_org = desp_org.replace(nulo, 0)

# Criando nova coluna com a soma das despesas totais
df['DESP_TOTAL'] = desp_cambio + desp_forn + desp_org

In [16]:
# ADCIONANDO COLUNA COM O QUE SERIAM AS DESPESAS TOTAIS ATUALMENTE

# Criando copias das colunas envolvidas na operacao para realizar alteracoes
desp_cambio = df['DESP_CAMBIO_BANCO_ATUAL']

# Tranformando os valores nulos em zero, para realizar operacoes sem perda de valores
desp_cambio = desp_cambio.replace(nulo, 0)

# Criando nova coluna com a soma das despesas totais
df['DESP_TOTAL_ATUAL'] = desp_cambio + desp_forn + desp_org

<br>

* CARREGAMENTO: EXPORTAÇÃO DA BASE DE DADOS TRATADA

In [None]:
# ARREDONDANDO VALORES PARA FACILITAR A ANALISE

df2 = df.round(2) 
display(df2)


In [None]:
# IMPORNTAND BASE DE DADOS TRATADA

df2.to_csv('importacao_tratado.csv', index=False)