# Notebook de Leitura e Exploração de Dados

Este projeto contém dois notebooks principais:

1. **`explanation.ipynb`**: Este notebook foi criado para fins de explicação detalhada do código. Ele contém comentários em todas as etapas do processo, facilitando o entendimento das operações realizadas. Ele é ideal para quem está começando ou para aqueles que desejam compreender cada parte da manipulação dos dados (leitura de arquivos JSON e CSV, transformação de colunas, combinação de dados e exportação).

2. **`exploitation.ipynb`**: Este é o notebook original, utilizado para leitura e exploração dos dados brutos. Ele realiza todas as operações de forma mais direta, sem os comentários explicativos detalhados presentes no outro arquivo.

## Descrição dos Arquivos:

- **`explanation.ipynb`**: Notebook explicativo que orienta o leitor em cada etapa de manipulação dos dados, com um foco em tornar o processo didático e de fácil compreensão.
- **`exploitation.ipynb`**: Notebook original utilizado para o processamento inicial dos dados, sem os comentários detalhados, focado diretamente na execução das tarefas.

## Objetivo

O objetivo deste repositório é demonstrar as etapas de leitura de dados a partir de arquivos JSON e CSV, sua transformação e combinação, e a exportação dos dados combinados em um novo arquivo CSV. O notebook explicativo serve como uma ferramenta de aprendizado e referência para quem deseja entender cada passo em detalhe.

## Uso

- Para fins educativos, recomenda-se iniciar pelo arquivo **`explanation.ipynb`**, que oferece uma abordagem mais detalhada.
- O arquivo **`exploitation.ipynb`** é o código original e pode ser utilizado para execução direta das tarefas descritas.

## Estrutura

- **unprocessed-data/**: Contém os arquivos de dados brutos (JSON e CSV) que serão processados.
- **processed-data/**: Local onde o arquivo final combinado (CSV) será salvo após o processamento.
- **explanation.ipynb**: Versão comentada e detalhada do notebook original.
- **exploitation.ipynb**: Notebook original de processamento.

In [None]:
# Importando bibliotecas necessárias
import json  # Biblioteca para trabalhar com arquivos JSON
import csv   # Biblioteca para trabalhar com arquivos CSV

# Definindo o caminho para o arquivo JSON que será lido
path_json = "../unprocessed-data/files-comp-I.json"

# Abrindo o arquivo JSON no modo leitura ('r') e lendo a primeira linha
# Apenas para verificar o conteúdo inicial
with open(path_json, "r") as file:
    print(file.readline())  # Exibe a primeira linha do arquivo

# Lendo o conteúdo da primeira linha do arquivo JSON
with open(path_json, "r") as file:
    dados = file.readline()

# Exibe o conteúdo da variável 'dados'
dados

# Verifica o tipo do conteúdo lido (deve ser uma string inicialmente)
type(dados)

# Exibe o 12º caractere do conteúdo (apenas para fins de exemplo)
dados[11]

# Carrega o arquivo JSON inteiro como um dicionário Python
with open(path_json, "r") as file:
    dados_json = json.load(file)  # json.load transforma o conteúdo JSON em um objeto Python (lista de dicionários)

# Exibe o primeiro elemento da lista de dados JSON
dados_json[0]

# Exibe o segundo elemento da lista de dados JSON
dados_json[1]

# Verifica o tipo da variável 'dados_json' (deve ser uma lista)
type(dados_json)

# Verifica o tipo do primeiro item da lista (deve ser um dicionário)
type(dados_json[0])

# Definindo o caminho para o arquivo CSV que será lido
path_csv = "../unprocessed-data/files-comp-II.csv"

# Abrindo o arquivo CSV e lendo todas as linhas
with open(path_csv, "r") as file:
    print(file.readlines())  # Exibe todas as linhas do arquivo CSV

# Abrindo o arquivo CSV e exibindo a sexta linha (índice 5)
with open(path_csv, "r") as file:
    print(file.readlines()[5])

# Lendo todas as linhas do arquivo CSV em uma lista
with open(path_csv, "r") as file:
    dados_csv = file.readlines()

# Exibe a primeira linha do arquivo CSV (normalmente contém os nomes das colunas)
dados_csv[0]

# Exibe a segunda linha do arquivo CSV (dados reais)
dados_csv[1]

# Exibe o primeiro caractere da segunda linha
dados_csv[1][0]

# Utilizando a biblioteca csv para ler o arquivo como uma lista de listas
dados_csv = []
with open(path_csv, "r") as file:
    spamreader = csv.reader(file, delimiter=",")  # Lê o CSV com o delimitador de vírgula
    for row in spamreader:
        dados_csv.append(row)  # Adiciona cada linha à lista 'dados_csv'

# Exibe o primeiro valor da primeira linha do CSV
dados_csv[0][0]

# Verifica o tipo da variável 'dados_csv' (deve ser uma lista)
type(dados_csv)

# Verifica o tipo do primeiro item da lista (também deve ser uma lista)
type(dados_csv[0])

# Acessando um campo específico do JSON (por exemplo, 'Quantidade em Estoque' do primeiro item)
dados_json[0]['Quantidade em Estoque']

# Exibe o quarto elemento da segunda linha do CSV (por exemplo, um dado específico)
dados_csv[1][3]

# Utilizando a biblioteca csv para ler o arquivo CSV como uma lista de dicionários
dados_csv = []
with open(path_csv, "r") as file:
    spamreader = csv.DictReader(file, delimiter=",")  # Lê o CSV como dicionário
    for row in spamreader:
        dados_csv.append(row)  # Adiciona cada linha como um dicionário à lista

# Exibe o primeiro dicionário da lista (linha do CSV)
dados_csv[0]

# Exibe o primeiro item do arquivo JSON
dados_json[0]

# Extraindo as chaves do primeiro dicionário do JSON (nome das colunas do JSON)
nome_colunas_json = list(dados_json[0].keys())
nome_colunas_json

# Verifica o número de colunas no arquivo JSON
len(nome_colunas_json)

# Extraindo as chaves do primeiro dicionário do CSV (nome das colunas do CSV)
nome_colunas_csv = list(dados_csv[0].keys())
nome_colunas_csv

# Verifica o número de colunas no arquivo CSV
len(nome_colunas_csv)

# Mapeamento das chaves do CSV para as chaves do JSON
# Isso é útil para unificar os dois conjuntos de dados
key_mapping = {
    "Nome do Item": "Nome do Produto",
    "Classificação do Produto": "Categoria do Produto",
    "Valor em Reais (R$)": "Preço do Produto (R$)",
    "Quantidade em Estoque": "Quantidade em Estoque",
    "Nome da Loja": "Filial",
    "Data da Venda": "Data da Venda"
}
key_mapping

# Criando uma nova lista de dicionários com o CSV modificado
new_dados_csv = []
for old_dict in dados_csv:
    dict_temp = {}  # Dicionário temporário para cada linha
    for old_key, value in old_dict.items():
        dict_temp[key_mapping[old_key]] = value  # Substitui a chave pelo valor mapeado
    new_dados_csv.append(dict_temp)  # Adiciona o novo dicionário à lista

# Exibe a primeira linha do novo CSV formatado
new_dados_csv[0]

# Exibe a primeira linha do CSV original (antes do mapeamento)
dados_csv[0]

# Verifica o número de registros no arquivo JSON
len(dados_json)

# Verifica o número de registros no CSV modificado
len(new_dados_csv)

# Apenas uma soma simples (3123 + 1323), demonstrando operações simples
3123 + 1323

# Combina as listas de dados JSON e CSV
combined_list = []
combined_list.extend(dados_json)  # Adiciona todos os itens do JSON
combined_list.extend(new_dados_csv)  # Adiciona todos os itens do novo CSV

# Verifica o número total de registros após combinar JSON e CSV
len(combined_list)

# Exibe o primeiro registro da lista combinada
combined_list[0]

# Exibe o primeiro registro do JSON
dados_json[0]

# Exibe o 4446º registro da lista combinada
combined_list[4445]

# Exibe o 1323º registro do novo CSV formatado
new_dados_csv[1322]

# Exibe o último registro do novo CSV
new_dados_csv[-1]

# Extrai os nomes das colunas da lista combinada
nomes_colunas = list(combined_list[0].keys())
nomes_colunas

# Exibe o primeiro registro da lista combinada
combined_list[0]

# Exibe o último registro da lista combinada
combined_list[-1]

# Exibe o valor da coluna "Nome do Produto" do primeiro registro
combined_list[0]["Nome do Produto"]

# Exibe o valor da coluna "Nome do Produto" do último registro
combined_list[-1]["Nome do Produto"]

# Exibe o valor da coluna "Data da Venda" do último registro
combined_list[-1]["Data da Venda"]

# Tenta obter o valor da coluna "Data da Venda" do primeiro registro, mas pode ser que não exista
combined_list[0].get("Data da Venda")

# Verifica se a coluna "Data da Venda" existe no primeiro registro, caso não exista, retorna "Indisponível"
combined_list[0].get("Data da Venda", "Indisponível")

# Extrai os nomes das colunas do último registro da lista combinada
nomes_colunas = list(combined_list[-1].keys())
nomes_colunas

# Cria uma tabela de dados combinados, com a primeira linha contendo os nomes das colunas
dados_combinados_tabela = [nomes_colunas]
for row in combined_list:
    linha = []  # Linha temporária
    for coluna in nomes_colunas:
        linha.append(row.get(coluna, "Indisponível"))  # Preenche valores ou "Indisponível" se não existir
    dados_combinados_tabela.append(linha)  # Adiciona a linha à tabela

# Exibe os nomes das colunas (primeira linha da tabela)
dados_combinados_tabela[0]

# Exibe a segunda linha da tabela combinada
dados_combinados_tabela[1]

# Exibe a última linha da tabela combinada
dados_combinados_tabela[-1]

# Definindo o caminho para salvar o arquivo CSV final com os dados combinados
path_dados_combinados = "../processed-data/combined-data.csv"

# Salvando a tabela de dados combinados em um novo arquivo CSV
with open(path_dados_combinados, "w") as file:
    writer = csv.writer(file)
    writer.writerows(dados_combinados_tabela)  # Escreve todas as linhas no novo arquivo CSV