# Pipeline de Dados  

 ### Extraindo Dados 

 Utilizando bibliotecas **json** e **csv** para extrair e armazenar dados

In [1]:
path_json = '../data_raw/dados_empresaA.json'

In [2]:
import json 

In [3]:
with open(path_json, 'r') as file:
    data_json = json.load(file)

In [4]:
data_json[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [5]:
path_csv = '../data_raw/dados_empresaB.csv'

In [6]:
import csv

In [7]:
data_csv = []
with open(path_csv, 'r') as file:
    spamreader = csv.reader(file, delimiter=',')
    
    for row in spamreader:
        data_csv.append(row)

data_csv[0]

['Nome do Item',
 'Classificação do Produto',
 'Valor em Reais (R$)',
 'Quantidade em Estoque',
 'Nome da Loja',
 'Data da Venda']

In [8]:
data_csv = []
with open(path_csv, 'r') as file:
    spamreader = csv.DictReader(file, delimiter=',')
    
    for row in spamreader:
        data_csv.append(row)

data_csv[0]

{'Nome do Item': 'Lápis de sobrancelha',
 'Classificação do Produto': 'Roupas',
 'Valor em Reais (R$)': '55.17',
 'Quantidade em Estoque': '62',
 'Nome da Loja': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}

# Tratamento dos Dados

- Tratamento das colunas;
- Tratando Dados Ausentes;
- Unificação dos dados;

In [9]:
column_name_json = list(data_json[0].keys())
column_name_json

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial']

In [10]:
column_name_csv = list(data_csv[0].keys())
column_name_csv

['Nome do Item',
 'Classificação do Produto',
 'Valor em Reais (R$)',
 'Quantidade em Estoque',
 'Nome da Loja',
 'Data da Venda']

In [11]:
key_mapping = {'Nome do Item': 'Nome do Produto',
               'Classificação do Produto': 'Categoria do Produto',
               'Valor em Reais (R$)': 'Preço do Produto (R$)',
               'Quantidade em Estoque': 'Quantidade em Estoque',
               'Nome da Loja': 'Filial',
               'Data da Venda': 'Data da Venda'}
key_mapping

{'Nome do Item': 'Nome do Produto',
 'Classificação do Produto': 'Categoria do Produto',
 'Valor em Reais (R$)': 'Preço do Produto (R$)',
 'Quantidade em Estoque': 'Quantidade em Estoque',
 'Nome da Loja': 'Filial',
 'Data da Venda': 'Data da Venda'}

In [12]:
new_data_csv = [{key_mapping.get(old_key): new_key for old_key, new_key in old_dict.items()} for old_dict in data_csv]
new_data_csv[0]


{'Nome do Produto': 'Lápis de sobrancelha',
 'Categoria do Produto': 'Roupas',
 'Preço do Produto (R$)': '55.17',
 'Quantidade em Estoque': '62',
 'Filial': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}

In [13]:
combined_list = []
combined_list.extend(data_json)
combined_list.extend(new_data_csv)

In [14]:
processd_data_column_name = list(combined_list[-1].keys())
processd_data_column_name

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial',
 'Data da Venda']

In [15]:
combined_data_table = [processd_data_column_name]

for row in combined_list:
    line_temp = []
    for column in processd_data_column_name:
        line_temp.append(row.get(column, 'Valor Indisponível'))
    combined_data_table.append(line_temp)

# Salvando os Dados

In [16]:
path_processed_data = '../data_processed/data_processed.csv'

with open(path_processed_data, 'w') as file:
    writer = csv.writer(file)
    writer.writerows(combined_data_table)