Observamos que um processo de integração e análise de dados depende de um passo anterior que é justamente onde entra o ETL. O ETL, bem como o ELT e a ingestão de dados, visa preparar o conjunto de dados para que se possa realizar posteriores trabalhos.

Baseado no conteúdo estudado, um fluxo considerando duas fontes distintas de dados levando em conta as seguintes restrições:

Serão considerados dois tipos de fontes diferentes:

- A primeira será o arquivo CSV.

- A segunda será o arquivo de texto contendo um dicionário de termos.

O fluxo deverá compreender as seguintes etapas:

- Carregar os dados do CSV.

- Carregar dados do arquivo texto.

- Associar cada termo contido no arquivo texto com a coluna “Categoria” do arquivo CSV.

- Formatar os dados da coluna “Valor” para ser exibido em formato monetário. Exemplo: “10.0” será exibido como “R$ 10,00”.

- Escrever a saída deste processo em um arquivo CSV chamado “Resultado.csv”.

In [5]:
import pandas as pd

In [6]:
# carregando os dados
df = pd.read_csv('Dados.csv', sep=';')
df.head()

Unnamed: 0,Produto,Categoria,Valor,Descricao,Marca
0,Alisha Solid Women's Cycling Shorts,Clothing,999.0,Key Features of Alisha Solid Women's Cycling S...,Alisha
1,FabHomeDecor Fabric Double Sofa Bed,Furniture,32157.0,FabHomeDecor Fabric Double Sofa Bed (Finish Co...,FabHomeDecor
2,AW Bellies,Footwear,999.0,Key Features of AW Bellies Sandals Wedges Heel...,AW
3,Alisha Solid Women's Cycling Shorts,Clothing,699.0,Key Features of Alisha Solid Women's Cycling S...,Alisha
4,Sicons All Purpose Arnica Dog Shampoo,Pet Supplies,220.0,Specifications of Sicons All Purpose Arnica Do...,Sicons


In [7]:
# importando os termos em txt
# cada termo fica em um índice da lista.

with open (r"Dicionario.txt", "r", encoding= 'utf-8') as arq:
    termos = []
    for linhas in arq.readlines():
        termos.append(linhas.strip())

In [8]:
# Associando termo ao tipo da colua categoria
for linha in df.index:
    for item in termos:
        if item.startswith(df.loc[linha, "Categoria"]):
            df.loc[linha, 'Termo'] = item
        

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4557 entries, 0 to 4556
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Produto    4557 non-null   object 
 1   Categoria  4557 non-null   object 
 2   Valor      4547 non-null   float64
 3   Descricao  4556 non-null   object 
 4   Marca      3452 non-null   object 
 5   Termo      4557 non-null   object 
dtypes: float64(1), object(5)
memory usage: 213.7+ KB


In [10]:
# função para formatar valor

def formatar(valor):
    return "R$:{:.2f}".format(valor).replace('.', ',')

In [11]:
# formatando a coluna valor
df['Valor'] = df['Valor'].apply(formatar)

df

Unnamed: 0,Produto,Categoria,Valor,Descricao,Marca,Termo
0,Alisha Solid Women's Cycling Shorts,Clothing,"R$:999,00",Key Features of Alisha Solid Women's Cycling S...,Alisha,Clothing: Confecções
1,FabHomeDecor Fabric Double Sofa Bed,Furniture,"R$:32157,00",FabHomeDecor Fabric Double Sofa Bed (Finish Co...,FabHomeDecor,Furniture: Mobiliário
2,AW Bellies,Footwear,"R$:999,00",Key Features of AW Bellies Sandals Wedges Heel...,AW,Footwear: Calçados
3,Alisha Solid Women's Cycling Shorts,Clothing,"R$:699,00",Key Features of Alisha Solid Women's Cycling S...,Alisha,Clothing: Confecções
4,Sicons All Purpose Arnica Dog Shampoo,Pet Supplies,"R$:220,00",Specifications of Sicons All Purpose Arnica Do...,Sicons,Pet Supplies: Suprimentos para animais de esti...
...,...,...,...,...,...,...
4552,Krg Enterprises Traditional Chirag Showpiece ...,Home Decor & Festive Needs,"R$:1499,00",Krg Enterprises Traditional Chirag Showpiece ...,Krg Enterprises,Home Decor & Festive Needs: Decoração e Necess...
4553,Vinnis Bella Bone Necklace,Jewellery,"R$:650,00",Vinnis Bella Bone Necklace - Buy Vinnis Bella ...,Vinnis,Jewellery: Jóias
4554,Rajo Raja The Buddha Of Music Artpiece Showpie...,Home Decor & Festive Needs,"R$:4499,00",Buy Rajo Raja The Buddha Of Music Artpiece Sho...,Rajo Raja,Home Decor & Festive Needs: Decoração e Necess...
4555,Zakaah Jewels Amazing Quartz Sterling Silver P...,Jewellery,"R$:999,00",Zakaah Jewels Amazing Quartz Sterling Silver P...,Zakaah Jewels,Jewellery: Jóias


In [12]:
# expordando a base "tratada"
df.to_csv('Resultado.csv')