# Documentação do Notebook: Primeiros Passos em Engenharia de Dados
 
## Objetivo
Este notebook demonstra um pipeline básico de engenharia de dados, realizando a leitura, transformação, fusão e exportação de dados de diferentes fontes (JSON e CSV), simulando um cenário de integração de dados empresariais.
 
## Estrutura do Notebook
1. **Leitura dos Dados**
   - Carrega dados de um arquivo JSON (`dados_empresaA.json`) e de um arquivo CSV (`dados_empresaB.csv`).
   - Demonstra diferentes formas de leitura: linha a linha, leitura completa, uso das bibliotecas `json` e `csv`.
2. **Exploração dos Dados**
   - Exibe exemplos de registros e tipos de dados.
   - Mostra como acessar colunas e valores específicos.
3. **Padronização das Colunas**
   - Cria um mapeamento (`key_mapping`) para padronizar os nomes das colunas entre os dois conjuntos de dados.
   - Corrige possíveis problemas de encoding nos nomes das colunas do CSV.
4. **Fusão dos Dados**
   - Une os dados do JSON e do CSV em uma lista única, padronizando as colunas.
   - Garante que todos os registros tenham o mesmo conjunto de colunas.
5. **Exportação dos Dados Combinados**
   - Salva o resultado da fusão em um novo arquivo CSV (`dados_combinados.csv`) na pasta `data_processed`.
6. **Execução de Script Externo**
   - Executa o script `fusao_mercados_fev.py` para processamento adicional, se necessário.
 
## Principais Bibliotecas Utilizadas
- `json`: Para manipulação de arquivos JSON.
- `csv`: Para leitura e escrita de arquivos CSV.
- `subprocess`: Para execução de scripts externos.
 
## Observações
- O notebook utiliza caminhos relativos para facilitar a portabilidade.
- O tratamento de encoding é realizado para evitar problemas com caracteres especiais.
- O pipeline pode ser adaptado para outros formatos de dados ou regras de negócio.
 
## Recomendações
- Certifique-se de que os arquivos de dados estejam presentes nas pastas corretas.
- Verifique se as dependências estão instaladas no ambiente Python utilizado.
- O notebook pode ser expandido para incluir validações, visualizações e análises estatísticas.

Lendo os dados

In [110]:
path_json = '..\data_raw\dados_empresaA.json'

In [111]:
with open(path_json, 'r') as file:
    print(file.readline())

[{"Nome do Produto":"Blush em p\u00f3","Categoria do Produto":"Eletrodom\u00e9sticos","Pre\u00e7o do Produto (R$)":79.41,"Quantidade em Estoque":7,"Filial":"Filial 7"},



In [112]:
with open(path_json, 'r') as file:
    dados = file.readline()

In [113]:
dados[2]

'"'

In [114]:
import json

In [115]:
with open(path_json, 'r') as file:
  dados_json = json.load(file)

In [116]:
import subprocess
subprocess.run(['python', 'scripts/fusao_mercados_fev.py'])

CompletedProcess(args=['python', 'scripts/fusao_mercados_fev.py'], returncode=2)

In [117]:
dados_json[0]
dados_json[1]

{'Nome do Produto': 'Lápis de sobrancelha',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 85.47,
 'Quantidade em Estoque': 78,
 'Filial': 'Filial 8'}

In [118]:
type(dados_json)

list

In [119]:
path_csv = '..\data_raw\dados_empresaB.csv'

In [120]:
with open(path_csv, 'r') as file:
    print(file.readlines()[0])

Nome do Item,ClassificaÃ§Ã£o do Produto,Valor em Reais (R$),Quantidade em Estoque,Nome da Loja,Data da Venda



In [121]:
with open(path_csv, 'r') as file:
    dados_csv = file.readlines()

In [122]:
dados_csv[0]

'Nome do Item,ClassificaÃ§Ã£o do Produto,Valor em Reais (R$),Quantidade em Estoque,Nome da Loja,Data da Venda\n'

In [123]:
import csv

In [124]:
dados_csv = []
with open(path_csv, 'r') as file:
  spamreader = csv.reader(file, delimiter=',')
  for row in spamreader:
    dados_csv.append(row)

In [125]:
dados_csv[0][0]

'Nome do Item'

In [126]:
dados_csv = []
with open(path_csv, 'r') as file:
  spamreader = csv.DictReader(file, delimiter=',')
  for row in spamreader:
    dados_csv.append(row)

In [127]:
nome_colunas_json = list(dados_json[0].keys())
nome_colunas_json

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial']

In [128]:
nome_colunas_csv = list(dados_csv[0].keys())
nome_colunas_csv

['Nome do Item',
 'ClassificaÃ§Ã£o do Produto',
 'Valor em Reais (R$)',
 'Quantidade em Estoque',
 'Nome da Loja',
 'Data da Venda']

In [129]:
key_mapping = {'Nome do Item': 'Nome do Produto',
                'Classificação do Produto': 'Categoria do Produto',
                'Valor em Reais (R$)': 'Preço do Produto (R$)',
                'Quantidade em Estoque': 'Quantidade em Estoque',
                'Nome da Loja': 'Filial',
                'Data da Venda': 'Data da Venda'}
key_mapping

{'Nome do Item': 'Nome do Produto',
 'Classificação do Produto': 'Categoria do Produto',
 'Valor em Reais (R$)': 'Preço do Produto (R$)',
 'Quantidade em Estoque': 'Quantidade em Estoque',
 'Nome da Loja': 'Filial',
 'Data da Venda': 'Data da Venda'}

In [130]:
new_dados_csv = []

for old_dict in dados_csv:
    dict_temp = {}
    for old_key, value in old_dict.items():
      # Corrige possíveis problemas de encoding nos nomes das colunas
      old_key_utf8 = old_key.encode('latin1').decode('utf-8')
      if old_key_utf8 in key_mapping:
          dict_temp[key_mapping[old_key_utf8]] = value
      else:
          dict_temp[old_key_utf8] = value
    new_dados_csv.append(dict_temp)
new_dados_csv[0]

{'Nome do Produto': 'LÃ¡pis de sobrancelha',
 'Categoria do Produto': 'Roupas',
 'Preço do Produto (R$)': '55.17',
 'Quantidade em Estoque': '62',
 'Filial': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}

In [131]:
combined_list = []

combined_list.extend(dados_json)
combined_list.extend(new_dados_csv)

In [132]:
combined_list[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [133]:
nomes_colunas = list(combined_list[0].keys())
nomes_colunas

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial']

In [134]:
nomes_colunas = list(combined_list[-1].keys())
nomes_colunas

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial',
 'Data da Venda']

In [135]:
dados_combinados_tabela = [nomes_colunas]

for row in combined_list:
    linha = []
    for coluna in nomes_colunas:
        linha.append(row.get(coluna, 'Indisponivel'))
    dados_combinados_tabela.append(linha)

In [136]:
dados_combinados_tabela[-1]

['Sombra de olhos',
 'EletrÃ´nicos',
 '41.73',
 '5',
 'Filial 6',
 '2022-11-21 18:58:06.794203']

In [137]:
path_dados_combinados = '..\data_processed\dados_combinados.csv'

with open(path_dados_combinados, 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerows(dados_combinados_tabela)

In [138]:
import subprocess
subprocess.run(['python', 'scripts/fusao_mercados_fev.py'])

CompletedProcess(args=['python', 'scripts/fusao_mercados_fev.py'], returncode=2)

In [139]:
import subprocess
subprocess.run(['python', 'scripts/fusao_mercados_fev.py'])

CompletedProcess(args=['python', 'scripts/fusao_mercados_fev.py'], returncode=2)

In [140]:
import subprocess
subprocess.run(['python', 'fusao_mercados_fev.py'])

CompletedProcess(args=['python', 'fusao_mercados_fev.py'], returncode=2)