üìã 1. Cabe√ßalho
- üóÇÔ∏è | Explora√ß√£o Inicial de Arquivos JSON/CSV
- Prop√≥sito: entender a estrutura dos dados das empresas A e B lendo os arquivos brutos e inspecionando campos-chave
- Tecnologia: Python 3.x (notebook Jupyter, bibliotecas padr√£o `json` e `csv`)
- Contexto: notebook `notebooks/data_explorer.ipynb` do projeto `pipeline_dados`

‚ö° 2. Funcionamento R√°pido
- O que faz: demonstra como abrir, ler e converter arquivos JSON e CSV das empresas A e B em estruturas Python para inspe√ß√£o r√°pida
- Como funciona:
  1. Define caminhos relativos para os arquivos `../data_raw/dados_empresaA.json` e `../data_raw/dados_empresaB.csv`.
  2. L√™ o JSON linha a linha para checagem inicial e depois usa `json.load` para obter uma lista de dicion√°rios.
  3. Consulta itens espec√≠ficos do JSON para validar chaves e tipos.
  4. L√™ o CSV como texto cru e extrai linhas espec√≠ficas.
  5. Constr√≥i representa√ß√µes estruturadas do CSV com `csv.reader` (lista de listas) e `csv.DictReader` (lista de dicion√°rios).
- Entrada ‚Üí Sa√≠da: arquivos JSON/CSV da pasta `data_raw` ‚Üí objetos Python (`list`, `dict`, `str`) prontos para an√°lise manual

üîß 3. Componentes Principais
- Vari√°veis `path_json` e `path_csv`: armazenam caminhos relativos esperados `../data_raw/...`
- Bloco `with open(path_json, 'r')`: leitura inicial do JSON e carregamento completo com `json.load(file)`; produz `list[dict]`
- Bloco `with open(path_csv, 'r')`: inspe√ß√£o textual do CSV para validar delimitadores e cabe√ßalhos
- Loop com `csv.reader(..., delimiter=',')`: converte linhas em listas de campos (`list[list[str]]`)
- Loop com `csv.DictReader(..., delimiter=',')`: converte linhas em dicion√°rios mapeando cabe√ßalhos a valores (`list[dict[str,str]]`)
- Acessos exemplificativos `dados_json[0]['Quantidade em Estoque']` e `dados_csv[1][3]`: validam presen√ßa de colunas cr√≠ticas

üì¶ 4. Depend√™ncias
- `json`: carregar o arquivo JSON em objetos Python estruturados
- `csv`: iterar e converter o CSV para listas ou dicion√°rios
- Estrutura esperada: arquivos devem existir em `../data_raw/` em rela√ß√£o ao notebook; cabe√ßalhos do CSV precisam estar definidos para o `DictReader`

‚ñ∂Ô∏è 5. Como Usar
- Pr√©-requisitos: Python 3 com suporte a Jupyter; arquivos `dados_empresaA.json` e `dados_empresaB.csv` acess√≠veis no caminho indicado
- Execu√ß√£o: abrir o notebook em JupyterLab/Jupyter Notebook e rodar as c√©lulas sequencialmente
- Exemplo pr√°tico: ap√≥s executar todas as c√©lulas, use `dados_csv[0]['Produto']` (com `DictReader`) para consultar rapidamente o nome do primeiro produto

üí° 6. Notas T√©cnicas
- Padr√µes aplicados: leitura idempotente via contexto `with`; convers√£o expl√≠cita para `list`/`dict` para facilitar depura√ß√£o
- Melhorias poss√≠veis:
  1. Adicionar valida√ß√£o da exist√™ncia dos arquivos e tratamento de exce√ß√µes (`FileNotFoundError`, `json.JSONDecodeError`).
  2. Encapsular leituras em fun√ß√µes reutiliz√°veis para uso em outros notebooks.
  3. Incluir visualiza√ß√£o resumida (ex.: `pandas.DataFrame.head()`) para facilitar inspe√ß√£o tabular.

Lendo os dados

In [2]:
path_json = '../data_raw/dados_empresaA.json'

In [3]:
with open(path_json, 'r') as file:
    print(file.readline())

[{"Nome do Produto":"Blush em p\u00f3","Categoria do Produto":"Eletrodom\u00e9sticos","Pre\u00e7o do Produto (R$)":79.41,"Quantidade em Estoque":7,"Filial":"Filial 7"},



In [4]:
with open(path_json, 'r') as file:
    dados = file.readline()

In [5]:
dados

'[{"Nome do Produto":"Blush em p\\u00f3","Categoria do Produto":"Eletrodom\\u00e9sticos","Pre\\u00e7o do Produto (R$)":79.41,"Quantidade em Estoque":7,"Filial":"Filial 7"},\n'

In [6]:
type(dados)

str

In [7]:
dados[10]

' '

In [8]:
import json

In [9]:
with open(path_json, 'r') as file:
    dados_json = json.load(file)

In [10]:
dados_json[0]

{'Nome do Produto': 'Blush em p√≥',
 'Categoria do Produto': 'Eletrodom√©sticos',
 'Pre√ßo do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [11]:
dados_json[1]

{'Nome do Produto': 'L√°pis de sobrancelha',
 'Categoria do Produto': 'Eletrodom√©sticos',
 'Pre√ßo do Produto (R$)': 85.47,
 'Quantidade em Estoque': 78,
 'Filial': 'Filial 8'}

In [12]:
type(dados_json)

list

In [13]:
type(dados_json[0])

dict

In [14]:
path_csv = '../data_raw/dados_empresaB.csv'

In [15]:
with open(path_csv, 'r') as file:
    print(file.readlines())

['Nome do Item,Classifica√ß√£o do Produto,Valor em Reais (R$),Quantidade em Estoque,Nome da Loja,Data da Venda\n', 'L√°pis de sobrancelha,Roupas,55.17,62,Filial 1,2023-04-13 18:58:06.794203\n', 'Batom matte,Eletr√¥nicos,74.15,48,Filial 9,2023-06-03 18:58:06.794203\n', 'Corretivo,Roupas,54.86,36,Filial 5,2023-06-08 18:58:06.794203\n', 'Delineador l√≠quido,Roupas,91.29,1,Filial 8,2023-02-27 18:58:06.794203\n', 'Batom l√≠quido,Roupas,44.65,52,Filial 2,2022-09-05 18:58:06.794203\n', 'Base l√≠quida,Eletr√¥nicos,5.22,85,Filial 3,2022-09-11 18:58:06.794203\n', 'M√°scara de c√≠lios,Eletr√¥nicos,1.08,31,Filial 6,2023-02-08 18:58:06.794203\n', 'Corretivo,Alimentos,56.22,76,Filial 5,2022-12-08 18:58:06.794203\n', 'Batom matte,Roupas,94.01,7,Filial 2,2023-07-18 18:58:06.794203\n', 'L√°pis de sobrancelha,Alimentos,51.38,4,Filial 10,2023-06-19 18:58:06.794203\n', 'P√≥ compacto,Eletr√¥nicos,5.59,82,Filial 10,2023-07-19 18:58:06.794203\n', 'P√≥ compacto,Eletr√¥nicos,2.65,8,Filial 3,2023-05-24 18:58:06

In [16]:
with open(path_csv, 'r') as file:
    print(file.readlines()[1])

L√°pis de sobrancelha,Roupas,55.17,62,Filial 1,2023-04-13 18:58:06.794203



In [17]:
with open(path_csv, 'r') as file:
    dados_csv = file.readlines()

In [18]:
dados_csv[2]

'Batom matte,Eletr√¥nicos,74.15,48,Filial 9,2023-06-03 18:58:06.794203\n'

In [19]:
import csv

In [20]:
dados_csv = []
with open(path_csv, 'r') as file:
    spamreader = csv.reader(file, delimiter=',')
    for row in spamreader:
        dados_csv.append(row)

In [21]:
dados_csv[0][1]

'Classifica√ß√£o do Produto'

In [22]:
type(dados_csv)

list

In [23]:
type(dados_csv[0])

list

In [24]:
dados_json[0]['Quantidade em Estoque']

7

In [25]:
dados_csv[1][3]

'62'

In [26]:
dados_csv = []
with open(path_csv, 'r') as file:
    spamreader = csv.DictReader(file, delimiter=',')
    for row in spamreader:
        dados_csv.append(row)

dados_csv

[{'Nome do Item': 'L√°pis de sobrancelha',
  'Classifica√ß√£o do Produto': 'Roupas',
  'Valor em Reais (R$)': '55.17',
  'Quantidade em Estoque': '62',
  'Nome da Loja': 'Filial 1',
  'Data da Venda': '2023-04-13 18:58:06.794203'},
 {'Nome do Item': 'Batom matte',
  'Classifica√ß√£o do Produto': 'Eletr√¥nicos',
  'Valor em Reais (R$)': '74.15',
  'Quantidade em Estoque': '48',
  'Nome da Loja': 'Filial 9',
  'Data da Venda': '2023-06-03 18:58:06.794203'},
 {'Nome do Item': 'Corretivo',
  'Classifica√ß√£o do Produto': 'Roupas',
  'Valor em Reais (R$)': '54.86',
  'Quantidade em Estoque': '36',
  'Nome da Loja': 'Filial 5',
  'Data da Venda': '2023-06-08 18:58:06.794203'},
 {'Nome do Item': 'Delineador l√≠quido',
  'Classifica√ß√£o do Produto': 'Roupas',
  'Valor em Reais (R$)': '91.29',
  'Quantidade em Estoque': '1',
  'Nome da Loja': 'Filial 8',
  'Data da Venda': '2023-02-27 18:58:06.794203'},
 {'Nome do Item': 'Batom l√≠quido',
  'Classifica√ß√£o do Produto': 'Roupas',
  'Valor em R

In [27]:
nome_colunas_json = list(dados_json[0].keys())

nome_colunas_json

['Nome do Produto',
 'Categoria do Produto',
 'Pre√ßo do Produto (R$)',
 'Quantidade em Estoque',
 'Filial']

In [34]:
len(nome_colunas_json)

5

In [35]:
nome_colunas_csv = list(dados_csv[0].keys())

nome_colunas_csv

['Nome do Item',
 'Classifica√ß√£o do Produto',
 'Valor em Reais (R$)',
 'Quantidade em Estoque',
 'Nome da Loja',
 'Data da Venda']

In [36]:
len(nome_colunas_csv)

6

In [31]:
nome_colunas_json = list(dados_json[0].keys())
nome_colunas_csv = list(dados_csv[0].keys())

print(nome_colunas_json)
print(nome_colunas_csv)

['Nome do Produto', 'Categoria do Produto', 'Pre√ßo do Produto (R$)', 'Quantidade em Estoque', 'Filial']
['Nome do Item', 'Classifica√ß√£o do Produto', 'Valor em Reais (R$)', 'Quantidade em Estoque', 'Nome da Loja', 'Data da Venda']


In [32]:
key_mapping = {'Nome do Item': 'Nome do Produto',
               'Classifica√ß√£o do Produto': 'Categoria do Produto',
               'Valor em Reais (R$)': 'Pre√ßo do Produto',
               'Quantidade em Estoque': 'Quantidade em Estoque',
               'Nome da Loja': 'Filial',
                'Data da Venda': 'Data da Venda'
              }

key_mapping

{'Nome do Item': 'Nome do Produto',
 'Classifica√ß√£o do Produto': 'Categoria do Produto',
 'Valor em Reais (R$)': 'Pre√ßo do Produto',
 'Quantidade em Estoque': 'Quantidade em Estoque',
 'Nome da Loja': 'Filial',
 'Data da Venda': 'Data da Venda'}

In [33]:
new_dados_csv = []

for old_dict in dados_csv:
    dict_temp = {}
    for old_key, value in old_dict.items():
        dict_temp[key_mapping[old_key]] = value
    new_dados_csv.append(dict_temp)

new_dados_csv[0]

{'Nome do Produto': 'L√°pis de sobrancelha',
 'Categoria do Produto': 'Roupas',
 'Pre√ßo do Produto': '55.17',
 'Quantidade em Estoque': '62',
 'Filial': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}

In [37]:
dados_csv[0]

{'Nome do Item': 'L√°pis de sobrancelha',
 'Classifica√ß√£o do Produto': 'Roupas',
 'Valor em Reais (R$)': '55.17',
 'Quantidade em Estoque': '62',
 'Nome da Loja': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}

In [41]:
len(dados_json)


3123

In [42]:
len(new_dados_csv)

1323

In [43]:
3123 + 1323

4446

In [None]:
combined_list = []
combined_list.extend(dados_json)
combined_list.extend(new_dados_csv)

{'Nome do Produto': 'Blush em p√≥',
 'Categoria do Produto': 'Eletrodom√©sticos',
 'Pre√ßo do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [45]:
len(combined_list)

4446

In [46]:
combined_list[0]

{'Nome do Produto': 'Blush em p√≥',
 'Categoria do Produto': 'Eletrodom√©sticos',
 'Pre√ßo do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [47]:
dados_json[0]

{'Nome do Produto': 'Blush em p√≥',
 'Categoria do Produto': 'Eletrodom√©sticos',
 'Pre√ßo do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [48]:
combined_list[4445]

{'Nome do Produto': 'Sombra de olhos',
 'Categoria do Produto': 'Eletr√¥nicos',
 'Pre√ßo do Produto': '41.73',
 'Quantidade em Estoque': '5',
 'Filial': 'Filial 6',
 'Data da Venda': '2022-11-21 18:58:06.794203'}

In [49]:
new_dados_csv[-1]

{'Nome do Produto': 'Sombra de olhos',
 'Categoria do Produto': 'Eletr√¥nicos',
 'Pre√ßo do Produto': '41.73',
 'Quantidade em Estoque': '5',
 'Filial': 'Filial 6',
 'Data da Venda': '2022-11-21 18:58:06.794203'}

In [51]:
nome_colunas = list(combined_list[0].keys())
nome_colunas

['Nome do Produto',
 'Categoria do Produto',
 'Pre√ßo do Produto (R$)',
 'Quantidade em Estoque',
 'Filial']

In [52]:
path_dados_combinados = '../data_processed/dados_combinados.json'

with open(path_dados_combinados, 'w') as file:
    writer = csv.DictWriter(file, fieldnames=nome_colunas)
    writer.writeheader()

    for row in combined_list:
        writer.writerow(row)

    

ValueError: dict contains fields not in fieldnames: 'Data da Venda', 'Pre√ßo do Produto'

In [53]:
combined_list[0]

{'Nome do Produto': 'Blush em p√≥',
 'Categoria do Produto': 'Eletrodom√©sticos',
 'Pre√ßo do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [54]:
combined_list[-1]

{'Nome do Produto': 'Sombra de olhos',
 'Categoria do Produto': 'Eletr√¥nicos',
 'Pre√ßo do Produto': '41.73',
 'Quantidade em Estoque': '5',
 'Filial': 'Filial 6',
 'Data da Venda': '2022-11-21 18:58:06.794203'}

In [55]:
combined_list[0]['Nome do Produto']

'Blush em p√≥'

In [56]:
combined_list[-1]['Nome do Produto']

'Sombra de olhos'

In [57]:
combined_list[-1]['Data da Venda']

'2022-11-21 18:58:06.794203'

In [58]:
combined_list[0]['Data da Venda']

KeyError: 'Data da Venda'

In [60]:
combined_list[0].get('Data da Venda')

In [59]:
combined_list[-1].get('Data da Venda')

'2022-11-21 18:58:06.794203'

In [61]:
combined_list[0].get('Data da Venda', 'Indispon√≠vel')

'Indispon√≠vel'