# Importações

In [2]:
import json 
import csv

# Lendo os dados

In [3]:
path_json = '../raw-data/dados_empresaA.json'
path_csv = '../raw-data/dados_empresaB.csv'

In [4]:
'''
Abro o arquivo em modo leitura e uso o módulo json para evitar 
que os dados sejam tratados apenas como uma string simples.
'''
with open(path_json, 'r') as file:
    dados_A = json.load(file)

In [5]:
# Imprimo para mostrar que funcionou

dados_A[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [6]:
# Verifico os tipos dos dados

print(f"O dataset da empresa A é um {str(type(dados_A))} de {str(type(dados_A[0]))}")

O dataset da empresa A é um <class 'list'> de <class 'dict'>


In [7]:
# Inicializado uma lista vazia  para os dados da empresa B

dados_B_raw = []

with open(path_csv, 'r') as file:
    ''' 
    Crio um iterável que percorre cada linha do csv, 
    separando os valores com base no delimitador vírgula
    '''
    spamreader = csv.reader(file, delimiter=',') 

    for row in spamreader: # Percorro cada linha e a adicono na lista
        dados_B_raw.append(row)

In [8]:
# Imprimo para mostrar que funcionou

(dados_B_raw[0])

['Nome do Item',
 'Classificação do Produto',
 'Valor em Reais (R$)',
 'Quantidade em Estoque',
 'Nome da Loja',
 'Data da Venda']

In [9]:
# Verifico os tipos dos dados

print(f"O dataset da empresa B é um {str(type(dados_B_raw))} de {str(type(dados_B_raw[0]))}")

O dataset da empresa B é um <class 'list'> de <class 'list'>


Agora, o **dados_A** é uma lista de dicionários, enquanto o **dados_B** é uma lista de listas. Como quero unir os dois conjuntos de dados, preciso transformar dados_B em uma lista de dicionários também. A decisão de adaptar dados_B ao formato de dados_A se dá pois os dicionários permitem acesso direto aos dados por meio de chaves nomeadas, o que torna o processamento, a leitura e a manipulação mais claros e eficientes.

In [10]:
'''
Uso o DictReader para ler o arquivo CSV como um dicionário, 
no qual cada linha é convertida em um dicionário com as chaves sendo os nomes das colunas:
'''

dados_B = []
with open(path_csv, 'r') as file:
    spamreader = csv.DictReader(file, delimiter=',')
    for row in spamreader:
        dados_B.append(row)

In [11]:
# Verifico se a transformação deu certo

dados_B[0]

{'Nome do Item': 'Lápis de sobrancelha',
 'Classificação do Produto': 'Roupas',
 'Valor em Reais (R$)': '55.17',
 'Quantidade em Estoque': '62',
 'Nome da Loja': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}

In [12]:
# É possível perceber que os nomes dos campos são diferentes entre as empresas

nomes_colunas_A = list(dados_A[0].keys())
nomes_colunas_B = list(dados_B[0].keys())

print(f"Na empresa A, os nomes dos campos são '{nomes_colunas_A}'")
print(f"Na empresa B, os nomes dos campos são '{nomes_colunas_B}'")


Na empresa A, os nomes dos campos são '['Nome do Produto', 'Categoria do Produto', 'Preço do Produto (R$)', 'Quantidade em Estoque', 'Filial']'
Na empresa B, os nomes dos campos são '['Nome do Item', 'Classificação do Produto', 'Valor em Reais (R$)', 'Quantidade em Estoque', 'Nome da Loja', 'Data da Venda']'


In [13]:
# Também é possível verificar que o nº de campos são diferentes

tamanho_A = len(nomes_colunas_A)
tamanho_B = len(nomes_colunas_B)

print(f"Na empresa A, o nº de campos é {tamanho_A}")
print(f"Na empresa B, o nº de campos é {tamanho_B}")


Na empresa A, o nº de campos é 5
Na empresa B, o nº de campos é 6


In [14]:
'''
Para padronizar os nomes, vou substituir os da empresa B pelos campos
da empresa A:
'''

relation_BA = {
    'Nome do Item': 'Nome do Produto', 
    'Classificação do Produto': 'Categoria do Produto', 
    'Valor em Reais (R$)': 'Preço do Produto (R$)', 
    'Quantidade em Estoque': 'Quantidade em Estoque', 
    'Nome da Loja': 'Filial',
    'Data da Venda': 'Data da Venda'
}

renamed_dados_B = []

for dict in dados_B:
    new_dict = {}
    for key, value in dict.items():
        new_dict[relation_BA[key]] = value
    renamed_dados_B.append(new_dict)
        

In [15]:
# Versão do código acima em List Comprehension:
renamed_dados_B = []
renamed_dados_B = [{relation_BA.get(old_key): value for old_key, value in old_dict.items()} for old_dict in dados_B]

In [16]:
# Verifico se a transformação ocorreu corretamente

print(dados_B[0])
print(renamed_dados_B[0])

{'Nome do Item': 'Lápis de sobrancelha', 'Classificação do Produto': 'Roupas', 'Valor em Reais (R$)': '55.17', 'Quantidade em Estoque': '62', 'Nome da Loja': 'Filial 1', 'Data da Venda': '2023-04-13 18:58:06.794203'}
{'Nome do Produto': 'Lápis de sobrancelha', 'Categoria do Produto': 'Roupas', 'Preço do Produto (R$)': '55.17', 'Quantidade em Estoque': '62', 'Filial': 'Filial 1', 'Data da Venda': '2023-04-13 18:58:06.794203'}


In [17]:
'''
O próximo passo, agora que as duas bases são listas de dicionários que 
também possuem os mesmos nomes para as chaves, é unir os dados das empresas.
Para isso, vou conferir qual a quantidade de elementos que a soma dos dois
conjuntos deve resultar.
'''

print(f"A soma deve ser: {len(dados_A) + len(renamed_dados_B)}")

A soma deve ser: 4446


In [18]:
# Crio uma nova variável para armazenar os dados unidos

dados_AB = []
dados_AB.extend(dados_A)
dados_AB.extend(renamed_dados_B)

In [19]:
# Verifico se a união ocorreu devidamente

len(dados_AB)

4446

In [23]:
'''
É possível perceber que apenas os dados da empresa B possuem o campo de 'Data da Venda'. 
'''

dados_AB[-1]

{'Nome do Produto': 'Sombra de olhos',
 'Categoria do Produto': 'Eletrônicos',
 'Preço do Produto (R$)': '41.73',
 'Quantidade em Estoque': '5',
 'Filial': 'Filial 6',
 'Data da Venda': '2022-11-21 18:58:06.794203'}

In [24]:
dados_AB[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [None]:
''' 
Para garantir a padronização e evitar erros, vou incluir esse campo em todos os 
dicionários que ainda não o contêm, atribuindo a eles o valor padrão 'Indisponível'.
Além disso, como depois eu quero exportar esses dados para um csv, eu vou
transformar o dados_AB em uma lista de listas.
'''

In [26]:
nomes_colunas = list(dados_AB[-1].keys())
nomes_colunas

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial',
 'Data da Venda']

In [27]:
dados_AB_tabela = [nomes_colunas]

for row in dados_AB:
    linha = []
    for coluna in nomes_colunas:
        linha.append(row.get(coluna, 'Indisponível')) 
    dados_AB_tabela.append(linha)


In [None]:
# Verifico se a transformação deu certo:

dados_AB_tabela[0] # Cabeçalho

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial',
 'Data da Venda']

In [None]:
dados_AB_tabela[1] # Item que não tinha a coluna de 'Data da Venda'

['Blush em pó', 'Eletrodomésticos', 79.41, 7, 'Filial 7', 'Indisponível']

In [None]:
dados_AB_tabela[-1] # Item que tinha a coluna de 'Data da Venda'

['Sombra de olhos',
 'Eletrônicos',
 '41.73',
 '5',
 'Filial 6',
 '2022-11-21 18:58:06.794203']

In [31]:
path_dadosAB = '../processed-data/dadosAB.csv'

with open (path_dadosAB, 'w') as file:
    writer = csv.writer(file)
    writer.writerows(dados_AB_tabela)