# Pipeline de dados: combinando Python e orientação a objeto

In [1]:
# Importando as bibliotecas necessárias

import pandas as pd

# Lendo os dados

In [2]:
# Definindo o caminho para o arquivo JSON

path_json = '../data_raw/dados_empresaA.json'

In [3]:
# Abre o arquivo JSON no modo de leitura ('r').
with open(path_json, 'r') as file: 
    # Lê a primeira linha do arquivo e imprime no console
    print(file.readline())

[{"Nome do Produto":"Blush em p\u00f3","Categoria do Produto":"Eletrodom\u00e9sticos","Pre\u00e7o do Produto (R$)":79.41,"Quantidade em Estoque":7,"Filial":"Filial 7"},



Explicação dos Comentários:

1 - Abre o arquivo JSON no modo de leitura ('r'): 

    A declaração with open(path_json, 'r') as file: abre o arquivo especificado pela variável path_json no modo de leitura. O uso da declaração with garante que o arquivo será corretamente fechado após a execução do bloco de código, mesmo que ocorra uma exceção.

2 - Lê a primeira linha do arquivo e imprime no console: 

    A função file.readline() lê a primeira linha do arquivo e a função print imprime essa linha no console. Se o arquivo estiver vazio, readline retornará uma string vazia.

# Lendo dados com readline

In [4]:
# Abre o arquivo JSON no modo de leitura ('r').
with open(path_json, 'r') as file: 
# Cria a variavel dados e lê a primeira linha do arquivo.
    dados = file.readline()

In [5]:
type(dados)

str

### Selecionando dados específicos

In [6]:
dados[1]

'{'

In [7]:
dados[11]

'P'

Conclusão:

Precisamos encontrar uma maneira de identificar as linhas dos nossos dados. Cada linha representa um registro e as nossas colunas. Precisamos que a nossa leitura seja capaz de identificar esses dois pontos principais de linhas e colunas e também que traduza isso em uma estrutura que faça sentido, que não seja o tipo de dado string.

# Lendo dados com JSON

O principal objetivo deste projeto é combinar os arquivos da empresa A com os da empresa B e disponibilizar esse arquivo unido para a equipe de análise. Mas não apenas isso, nós precisamos fornecer uma solução que seja reproduzível para os meses seguintes.

Pensando nisso, já construímos uma estrutura de pastas que obedece às diretrizes de um bom desenvolvimento e engenharia de software, princípios estes que precisam ser implementados em nosso pipeline.

Outra característica que implementamos foi a criação de um ambiente virtual Python, isolando todas as nossas instalações e versões do restante da máquina. Dessa forma, todas as pessoas envolvidas no projeto terão as mesmas estruturas e características, permitindo um trabalho em conjunto e eficiente.

Nosso primeiro passo, ao lidar com esses dados, foi criar um notebook onde realizamos a leitura desses dados e os exibimos na tela. Identificamos que a leitura desses dados, da maneira padrão usando a biblioteca Open e o método readline(), estava retornando esses dados em formato de string, um formato legível, mas que não permite manipulação. Essa leitura não leva em consideração as quebras de linha, onde identificamos cada um dos registros desses dados, nem as colunas. Portanto, manipular esses dados seria bem difícil.

Para melhorar a leitura e construir uma estrutura que faça mais sentido para os nossos dados, vamos importar uma biblioteca específica para essa situação, a biblioteca JSON. Essa biblioteca já vem por padrão no Python e só precisamos importá-la para o nosso notebook.

In [8]:
import json

A leitura ainda precisará do Open, então podemos selecionar a última vez que o utilizamos.

Vamos relembrar: if open path_json, 'r') as file:. Essa é a função responsável por ler nosso arquivo. Para identificar a estrutura, vamos utilizar o JSON, então podemos digitar json.load(). Essa é a função do JSON que será capaz de identificar os padrões no nosso arquivo.

Ele espera receber o arquivo aberto, ou seja, podemos colocar o parâmetro file entre parênteses. Agora, onde queremos que a leitura salve essas informações? Podemos criar uma variável chamada dados_json igual a json.load(file).

In [9]:
# Abre o arquivo JSON no modo de leitura ('r')
with open(path_json, 'r') as file:
    # Carrega o conteúdo do arquivo JSON em um objeto Python (geralmente um dicionário)
    dados_json = json.load(file)

Para verificar o resultado, na célula abaixo, podemos digitar dados_json[0]. Esse seletor de colchetes [] é comum no Python e usamos isso em listas quando queremos acessar o primeiro registro.

Ao executar, obtemos nossos dados com uma estrutura bem interessante.

In [10]:
dados_json[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [11]:
dados_json[1]

{'Nome do Produto': 'Lápis de sobrancelha',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 85.47,
 'Quantidade em Estoque': 78,
 'Filial': 'Filial 8'}

In [12]:
type(dados_json)

list

In [13]:
type(dados_json[0])

dict

# Lendo o arquivo CSV

In [14]:
path_csv = '../data_raw/dados_empresaB.csv'

In [15]:
with open(path_csv, 'r') as file:
    print(file.readline())

Nome do Item,Classificação do Produto,Valor em Reais (R$),Quantidade em Estoque,Nome da Loja,Data da Venda



In [16]:
with open(path_csv, 'r') as file:
    print(file.readlines())

['Nome do Item,Classificação do Produto,Valor em Reais (R$),Quantidade em Estoque,Nome da Loja,Data da Venda\n', 'Lápis de sobrancelha,Roupas,55.17,62,Filial 1,2023-04-13 18:58:06.794203\n', 'Batom matte,Eletrônicos,74.15,48,Filial 9,2023-06-03 18:58:06.794203\n', 'Corretivo,Roupas,54.86,36,Filial 5,2023-06-08 18:58:06.794203\n', 'Delineador líquido,Roupas,91.29,1,Filial 8,2023-02-27 18:58:06.794203\n', 'Batom líquido,Roupas,44.65,52,Filial 2,2022-09-05 18:58:06.794203\n', 'Base líquida,Eletrônicos,5.22,85,Filial 3,2022-09-11 18:58:06.794203\n', 'Máscara de cílios,Eletrônicos,1.08,31,Filial 6,2023-02-08 18:58:06.794203\n', 'Corretivo,Alimentos,56.22,76,Filial 5,2022-12-08 18:58:06.794203\n', 'Batom matte,Roupas,94.01,7,Filial 2,2023-07-18 18:58:06.794203\n', 'Lápis de sobrancelha,Alimentos,51.38,4,Filial 10,2023-06-19 18:58:06.794203\n', 'Pó compacto,Eletrônicos,5.59,82,Filial 10,2023-07-19 18:58:06.794203\n', 'Pó compacto,Eletrônicos,2.65,8,Filial 3,2023-05-24 18:58:06.794203\n', 'Cor

In [17]:
with open(path_csv, 'r') as file:
    print(file.readlines()[0])

Nome do Item,Classificação do Produto,Valor em Reais (R$),Quantidade em Estoque,Nome da Loja,Data da Venda



In [18]:
with open(path_csv, 'r') as file:
    print(file.readlines()[1])

Lápis de sobrancelha,Roupas,55.17,62,Filial 1,2023-04-13 18:58:06.794203



In [19]:
with open(path_csv, 'r') as file:
    dados_csv = file.readlines()

In [20]:
dados_csv[1][0]

'L'

Os nossos dados são separados por vírgulas, por isso que é um CSV. CVS significa, do inglês Comma Separated Values (Valores Separados por Vírgula). E da maneira que o readlines funciona, ele não consegue identificar isso.

Então, precisamos buscar uma solução diferente que atenda essa necessidade de ler a estrutura de colunas e representá-la aqui no Python para nós.

# Lendo com CSV Reader

Conseguimos ler os dados da empresa B, que estão no formato CSV, identificando o separador de linhas utilizando a biblioteca padrão Open e o método readlines().

Porém, ainda não obtivemos a estrutura desejada. Por quê? Precisamos representar também as colunas, acessando-as de maneira fácil. Para isso, utilizaremos uma biblioteca específica. Assim como temos a biblioteca JSON por padrão no Python, temos a biblioteca do CSV.

Para trazer essa biblioteca para nosso notebook, criarei uma nova célula de código e digitaremos o seguinte comando.

In [21]:
import csv

In [22]:
with open(path_csv, 'r') as file:
  print(csv.reader(file, delimiter=','))

<_csv.reader object at 0x7f6736a85620>


Ao rodar esse código, notamos que não trouxe o print que estamos acostumados. Trouxe um monte de informações diferentes: <_csv.reader object at 0x7f1f103bb920

Se formos na documentação do CSV, vamos descobrir que esse reader é uma ferramenta que estamos criando, precisamos salvar esse objeto dentro de uma variável. Teremos um objeto chamado reader que é capaz de fazer leituras, mas que ainda não fez a leitura.

Então, antes do nosso print, vou salvar esse leitor. Chamarei de spamreader, nome padrão encontrado na documentação. E nosso spamreader será igual ao csv.reader, passando os parâmetros que discutimos anteriormente.

In [23]:
# Abre o arquivo CSV no modo de leitura ('r')
with open(path_csv, 'r') as file:
    # Cria um objeto leitor de CSV que usa a vírgula como delimitador
    spamreader = csv.reader(file, delimiter=',')
    
    # Itera sobre cada linha do arquivo CSV
    for row in spamreader:
        # Imprime a linha atual (como uma lista de strings)
        print(row)

['Nome do Item', 'Classificação do Produto', 'Valor em Reais (R$)', 'Quantidade em Estoque', 'Nome da Loja', 'Data da Venda']
['Lápis de sobrancelha', 'Roupas', '55.17', '62', 'Filial 1', '2023-04-13 18:58:06.794203']
['Batom matte', 'Eletrônicos', '74.15', '48', 'Filial 9', '2023-06-03 18:58:06.794203']
['Corretivo', 'Roupas', '54.86', '36', 'Filial 5', '2023-06-08 18:58:06.794203']
['Delineador líquido', 'Roupas', '91.29', '1', 'Filial 8', '2023-02-27 18:58:06.794203']
['Batom líquido', 'Roupas', '44.65', '52', 'Filial 2', '2022-09-05 18:58:06.794203']
['Base líquida', 'Eletrônicos', '5.22', '85', 'Filial 3', '2022-09-11 18:58:06.794203']
['Máscara de cílios', 'Eletrônicos', '1.08', '31', 'Filial 6', '2023-02-08 18:58:06.794203']
['Corretivo', 'Alimentos', '56.22', '76', 'Filial 5', '2022-12-08 18:58:06.794203']
['Batom matte', 'Roupas', '94.01', '7', 'Filial 2', '2023-07-18 18:58:06.794203']
['Lápis de sobrancelha', 'Alimentos', '51.38', '4', 'Filial 10', '2023-06-19 18:58:06.794203



### Explicação dos Comentários:

1. **Abre o arquivo CSV no modo de leitura ('r')**: A declaração 

with open(path_csv, 'r') as file:

 abre o arquivo especificado pela variável 

path_csv

 no modo de leitura. O uso da declaração `with` garante que o arquivo será corretamente fechado após a execução do bloco de código, mesmo que ocorra uma exceção. Isso é uma prática recomendada para o gerenciamento de arquivos, pois evita vazamentos de recursos e garante que o arquivo não fique aberto desnecessariamente.

2. **Cria um objeto leitor de CSV que usa a vírgula como delimitador**: A função `csv.reader(file, delimiter=',')` cria um objeto leitor de CSV chamado `spamreader`. Este objeto é configurado para usar a vírgula como delimitador, o que significa que ele dividirá cada linha do arquivo CSV em campos separados por vírgulas.

3. **Itera sobre cada linha do arquivo CSV**: O loop `for row in spamreader:` itera sobre cada linha do arquivo CSV. Em cada iteração, a variável `row` contém a linha atual como uma lista de strings, onde cada string representa um campo da linha.

4. **Imprime a linha atual (como uma lista de strings)**: Dentro do loop, a função 

print(row)

 imprime a linha atual no console. Cada linha é representada como uma lista de strings, facilitando a visualização e a manipulação dos dados.

Esses comentários ajudam a entender o propósito de cada linha do código e facilitam a leitura e manutenção do código por outras pessoas.

## Continuação - Lendo com CSV Reader

Mas que estrutura é essa que criamos aqui? Para visualizar bem essa estrutura, vamos salvá-la em uma variável.

Substituiremos esse print e digitaremos dados_csv. E como atribuir os valores de cada uma das linhas? Podemos salvá-los em uma lista, que parece que faz sentido quando estávamos lendo o JSON. Então, cada um dos registros salva em uma linha. Portanto, salvar isso em uma lista faz total sentido.

Para adicionar novos valores em uma lista, temos um método append. Então, pode ser dados_csv.append(). E vou salvar uma linha. Portanto, cada vez que passar por aqui, ele salvará uma nova linha.

Quando estivermos fazendo essa leitura, quero que a lista comece vazia. Portanto, antes do nosso if, digitaremos dados_csv = []. Isso é uma lista vazia. Portanto, começa com uma lista vazia, faz a leitura do arquivo, e depois passa por cada um dos registros e os salva nessa lista. Podemos executar o seguinte código.

In [24]:
# Inicializa uma lista vazia para armazenar o conteúdo do arquivo CSV
dados_csv = []

# Abre o arquivo CSV no modo de leitura ('r')
with open(path_csv, 'r') as file:
    # Cria um objeto leitor de CSV que usa a vírgula como delimitador
    spamreader = csv.reader(file, delimiter=',')
    
    # Itera sobre cada linha do arquivo CSV
    for row in spamreader:
        # Adiciona a linha atual (como uma lista de strings) à lista dados_csv
        dados_csv.append(row)

In [25]:
dados_csv[0]

['Nome do Item',
 'Classificação do Produto',
 'Valor em Reais (R$)',
 'Quantidade em Estoque',
 'Nome da Loja',
 'Data da Venda']

In [26]:
dados_csv[0][0]

'Nome do Item'

In [27]:
type(dados_csv)

list

In [28]:
type(dados_csv[0])

list

E é uma lista.

Portanto, é uma lista de listas, ótima representação para o nosso CSV. Conseguimos acessar os valores das colunas e das linhas. Qual é o problema aqui? A estrutura que criamos para os dados em CSV está diferente da estrutura da leitura dos dados para JSON. Tínhamos lá uma lista de dicionários.

E isso pode ser um problema, pois queremos manipular esses dados, fazendo transformações para que eles fiquem equivalentes. Ter uma estrutura igual para ambos é muito interessante. 

## DictReader

Conseguimos realizar a leitura dos nossos dados tanto em JSON quanto em CSV e construir estruturas de dados que os representam. Para o nosso arquivo em JSON, conseguimos uma estrutura de listas e dicionários. Já para o arquivo CSV, temos uma lista de listas.

Estas duas estruturas diferentes se tornam um problema quando queremos criar manipulações para ambos os arquivos. Se quisermos contar, por exemplo, quantos dados temos no CSV e no JSON, conseguimos criar uma função que funcione para ambos, pois inicialmente estão em listas. Contudo, para itens mais complexos, como contar a quantidade de colunas, teríamos que criar uma função específica para cada uma das estruturas.

Se observarmos uma lista de dicionários, temos o nome das colunas em cada um dos registros. Já para os dados representados em lista de listas, apenas no primeiro registro temos o nome da coluna. No restante, não temos. Então teríamos que criar uma função específica para cada um.

Como queremos construir um pipeline de dados, é interessante que construamos ambos os dados numa única estrutura. Dessa forma, poderíamos reaproveitar funções em ambas as situações.

Determinado que é muito importante trabalharmos com a mesma estrutura, qual delas é melhor para a nossa situação? Uma lista de dicionários ou uma lista de listas? Podemos começar explorando nossos dados para tentar entender isso.

Ao olharmos para os nossos dados de JSON e acessarmos o primeiro valor, usando o colchete zero [], ele retorna para o nosso dicionário.

In [29]:
dados_json[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [30]:
dados_json[0]['Quantidade em Estoque']

7

In [31]:
dados_csv[0]

['Nome do Item',
 'Classificação do Produto',
 'Valor em Reais (R$)',
 'Quantidade em Estoque',
 'Nome da Loja',
 'Data da Venda']

In [32]:
dados_csv[1][3]

'62'

Em contraposição, ao olharmos para os dados de lista de dicionários, é intuitivo. Queremos o nome da coluna, passamos o nome dessa coluna e teremos acesso a ela. Já para a lista de listas, temos uma sequência de números que não representam muito para nós. Então, a exploração do dado por este método csv parece ser mais trabalhosa.

Por essa razão que o melhor caminho para nós é testar a lista de dicionários para o restante do processo. Isso não significa que uma lista de dicionários seja sempre superior a uma lista de listas. Para cada situação, você precisa analisar e entender qual é o seu objetivo. Nesse momento de exploração, a lista de dicionários se mostrou superior.

Eu quero agora repetir essa mesma estrutura para o nosso outro arquivo, o CSV. Como podemos fazer isso? Temos a biblioteca CSV, que foi capaz, através do reader, de identificar a nossa estrutura.

Se formos à documentação do CSV, sempre recomendando que vocês visitem as documentações das ferramentas, veremos que conhecendo essa biblioteca, entenderemos que temos outro método, além do reader. Temos um método que traz os nossos dados em uma estrutura diferente, chamado DictReader.

O DictReader pode receber os mesmos valores que o reader, o file e o delimitador. Ele continua retornando um spamreader e continuamos salvando esses dados em um for. A diferença é que, como o nome sugere, o reader retorna uma lista e o DictReader retorna um dicionário.

In [33]:
dados_csv = []
with open(path_csv, 'r') as file:
    spamreader = csv.DictReader(file, delimiter=',')
    for row in spamreader:
        dados_csv.append(row)

In [34]:
dados_csv

[{'Nome do Item': 'Lápis de sobrancelha',
  'Classificação do Produto': 'Roupas',
  'Valor em Reais (R$)': '55.17',
  'Quantidade em Estoque': '62',
  'Nome da Loja': 'Filial 1',
  'Data da Venda': '2023-04-13 18:58:06.794203'},
 {'Nome do Item': 'Batom matte',
  'Classificação do Produto': 'Eletrônicos',
  'Valor em Reais (R$)': '74.15',
  'Quantidade em Estoque': '48',
  'Nome da Loja': 'Filial 9',
  'Data da Venda': '2023-06-03 18:58:06.794203'},
 {'Nome do Item': 'Corretivo',
  'Classificação do Produto': 'Roupas',
  'Valor em Reais (R$)': '54.86',
  'Quantidade em Estoque': '36',
  'Nome da Loja': 'Filial 5',
  'Data da Venda': '2023-06-08 18:58:06.794203'},
 {'Nome do Item': 'Delineador líquido',
  'Classificação do Produto': 'Roupas',
  'Valor em Reais (R$)': '91.29',
  'Quantidade em Estoque': '1',
  'Nome da Loja': 'Filial 8',
  'Data da Venda': '2023-02-27 18:58:06.794203'},
 {'Nome do Item': 'Batom líquido',
  'Classificação do Produto': 'Roupas',
  'Valor em Reais (R$)': '4

In [35]:
dados_csv[0]

{'Nome do Item': 'Lápis de sobrancelha',
 'Classificação do Produto': 'Roupas',
 'Valor em Reais (R$)': '55.17',
 'Quantidade em Estoque': '62',
 'Nome da Loja': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}

Agora temos a mesma estrutura para ambos os arquivos, uma lista de dicionários. Agora podemos explorar esses dados e realizar as transformações necessárias para atender ao nosso objetivo final, que é unir esses dados.

In [36]:
dados_json[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

## Confirmando que os 2 arquivos da emnpresa A e B agora tem a mesma estrutura

In [37]:
type(dados_csv[0])

dict

In [38]:
type(dados_json[0])

dict

# Comparando campos

### json

In [39]:
nome_colunas_json = list(dados_json[0].keys())

nome_colunas_json

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial']

In [40]:
len(nome_colunas_json)

5

### csv

In [41]:
nome_colunas_csv = list(dados_csv[0].keys())

nome_colunas_csv

['Nome do Item',
 'Classificação do Produto',
 'Valor em Reais (R$)',
 'Quantidade em Estoque',
 'Nome da Loja',
 'Data da Venda']

In [42]:
len(nome_colunas_csv)

6

## Renomeando os campos

In [43]:
# Mapeamento das chaves antigas para as novas chaves
key_mapping = {'Nome do Item': 'Nome do Produto',
               'Classificação do Produto': 'Categoria do Produto',
               'Valor em Reais (R$)': 'Preço do Produto (R$)',
               'Quantidade em Estoque': 'Quantidade em Estoque',
               'Nome da Loja': 'Filial',
               'Data da Venda': 'Data da Venda'}

# Exibe o mapeamento de chaves
key_mapping

{'Nome do Item': 'Nome do Produto',
 'Classificação do Produto': 'Categoria do Produto',
 'Valor em Reais (R$)': 'Preço do Produto (R$)',
 'Quantidade em Estoque': 'Quantidade em Estoque',
 'Nome da Loja': 'Filial',
 'Data da Venda': 'Data da Venda'}

In [44]:
# Inicializa uma lista vazia que armazenará os novos dicionários com as chaves mapeadas
new_dados_csv = []

"""
Este trecho de código realiza a transformação de um dicionário de dados CSV, mapeando as chaves antigas para novas chaves conforme definido em `key_mapping`.

Variáveis:
    new_dados_csv (list): Lista que armazenará os novos dicionários com as chaves mapeadas.
    old_dict (dict): Dicionário original contendo os dados CSV.
    dict_temp (dict): Dicionário temporário para armazenar os dados com as novas chaves.
    old_key (str): Chave original do dicionário `old_dict`.
    value: Valor associado à chave `old_key` no dicionário `old_dict`.

Passos:
1. Inicializa uma lista vazia `new_dados_csv` para armazenar os novos dicionários.
2. Itera sobre cada dicionário `old_dict` na lista `dados_csv`.
3. Cria um dicionário temporário `dict_temp` para armazenar os dados com as novas chaves.
4. Itera sobre cada par chave-valor (`old_key`, `value`) no dicionário `old_dict`.
5. Mapeia a chave antiga `old_key` para a nova chave usando `key_mapping` e armazena o valor correspondente em `dict_temp`.
6. Adiciona o dicionário `dict_temp` à lista `new_dados_csv`.
7. Retorna o primeiro dicionário da lista `new_dados_csv` para verificação.
"""

# Itera sobre cada dicionário na lista `dados_csv`
for old_dict in dados_csv:
    # Cria um dicionário temporário para armazenar os dados com as novas chaves
    dict_temp = {}
    # Itera sobre cada par chave-valor no dicionário original
    for old_key, value in old_dict.items():
        # Mapeia a chave antiga para a nova chave e armazena o valor correspondente no dicionário temporário
        dict_temp[key_mapping[old_key]] = value
    # Adiciona o dicionário temporário à lista de novos dicionários
    new_dados_csv.append(dict_temp)

# Retorna o primeiro dicionário da lista `new_dados_csv` para verificação
new_dados_csv[0]

{'Nome do Produto': 'Lápis de sobrancelha',
 'Categoria do Produto': 'Roupas',
 'Preço do Produto (R$)': '55.17',
 'Quantidade em Estoque': '62',
 'Filial': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}

o executar com "Shift + Enter", notaremos que o processo executou rapidamente. Como mencionado anteriormente, temos poucos dados, por isso foi possível realizar essa mecânica. Se tivessem muitos dados, o processo poderia exigir bastante da máquina, podendo usar todos os recursos de memória.

Vamos comparar isso com o que tínhamos anteriormente. Para isso, chamaremos dados_csv[0] em uma nova célula.


In [45]:
dados_csv[0]

{'Nome do Item': 'Lápis de sobrancelha',
 'Classificação do Produto': 'Roupas',
 'Valor em Reais (R$)': '55.17',
 'Quantidade em Estoque': '62',
 'Nome da Loja': 'Filial 1',
 'Data da Venda': '2023-04-13 18:58:06.794203'}

## Juntando os arquivos

O primeiro passo para fazer a união desses dados é encontrar uma forma de verificar se essa união ocorreu como esperado. Uma estratégia possível é verificar a quantidade de registros para cada um dos dados.

Voltando a nossa atenção para o notebook, se utilizarmos o comando dados_json com a função built-in que já analisamos quando tentávamos verificar a quantidade de colunas, isto é, a função len(), como temos uma lista de dicionários, iremos conseguir saber quantos registros tínhamos nos dados da empresa A, por exemplo.

In [46]:
len(dados_json)

3123

Após executar com "Shift + Enter", são retornados 3123 registros. Para a empresa B, também vamos usar len().

Um ponto de atenção é que temos os dados tratados agora. Fica a critério do seu projeto definir algum padrão para substituição das variáveis anteriores. Portanto, poderíamos ter criado os novos dados tratados dentro da variável dados_csv.

Optamos por não fazer isso, porque se em algum momento do processo identificássemos que cometemos algum erro, poderíamos voltar nessa variável sem precisar executar todo o notebook novamente e fazer as modificações necessárias na variável original. Seguindo o padrão de projeto que criamos, vamos acessar new_dados_csv.

In [47]:
len(new_dados_csv)

1323

Constatamos 1323 registros. Então, temos essas duas informações. Desta maneira, conseguimos descobrir quantos dados esperamos que estejam na união. Se somarmos os dois valores, esperamos ter no final 4446 registros nesta lista final.

Conseguimos ter um meio de verificar se essa união dos dados ocorrerá corretamente, agora falta fazê-la de fato. Graças a um recurso que o próprio list tem por padrão, este processo será bastante simples. Temos uma função no list chamada extend() que é capaz de estender a lista. Ela pega uma lista, como já estamos trabalhando em uma, e conseguimos colocar uma nova lista no final dessa.

Vamos criar uma variável chamada combined_list que será igual a []. Criamos uma lista vazia. Seria possível adicionar já no final de uma das listas existentes? Sim, mas entra no ponto comentado anteriormente: queremos evitar reutilizar variáveis. Temos variáveis que não serão utilizadas por um bom tempo agora, que são dados_csv e dados_json.

Criaremos uma nova variável que será a combinação dessas duas. Essa é uma decisão que você deve tomar a depender do projeto. Se estiver trabalhando com muitos dados, talvez criar várias cópias desses dados não faça sentido, pois você pode consumir muita memória. No nosso cenário, faz sentido criar novas variáveis.

Então, criamos a combined_list e agora vamos utilizar o método extend(), que espera receber uma lista. A nossa lista será a dados_json. Com essa linha, já foi possível adicionar os dados JSON, mas queremos combinar duas fontes de dados. Então, vamos executar essa linha novamente, será combined_list.extend(new_dados_csv).

In [48]:
3123 + 1323

4446

In [49]:
combined_list = []
combined_list.extend(dados_json)
combined_list.extend(new_dados_csv)

Será feita a criação dessa lista e agora podemos validá-la.

Pensamos em duas verificações. Primeiro, verificar o tamanho da lista. Para isso, iremos chamar len(combined_list) em uma nova célula e verificar que ela tem 4446 registros, assim como esperávamos. Portanto, houve uma quantidade de linhas compatível com a soma dos dois conjuntos.

In [50]:
len(combined_list)

4446

Podemos fazer outra verificação. Em combined_list, podemos acessar o primeiro registro com [0].

In [51]:
combined_list[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

Podemos voltar para dados_json, acessar o primeiro registro e verificar se é o mesmo.

In [52]:
dados_json[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

E quanto aos outros dados? Para acessar o último registro de combined_list, podemos conferir o tamanho da lista. Temos 4446 registros. Colocamos [4445], já que a lista começa no zero.

In [53]:
combined_list[4445]

{'Nome do Produto': 'Sombra de olhos',
 'Categoria do Produto': 'Eletrônicos',
 'Preço do Produto (R$)': '41.73',
 'Quantidade em Estoque': '5',
 'Filial': 'Filial 6',
 'Data da Venda': '2022-11-21 18:58:06.794203'}

Ele trouxe o produto "Sombra de olhos" que podemos verificar com new_dados_csv acessando o último registro. Fazemos a mesma lógica e voltamos no len() dele para conferir o tamanho. Ele tinha 1323 registros e acessaremos o [1322].

In [54]:
new_dados_csv[1322]

{'Nome do Produto': 'Sombra de olhos',
 'Categoria do Produto': 'Eletrônicos',
 'Preço do Produto (R$)': '41.73',
 'Quantidade em Estoque': '5',
 'Filial': 'Filial 6',
 'Data da Venda': '2022-11-21 18:58:06.794203'}

Ambos correspondem ao mesmo produto "Sombra de olhos".

Existe uma maneira mais simples de verificar o último registro? Sim, vamos dar uma dica: acessar o -1. Se fizermos new_dados_csv[-1], é retornado o último registro. Assim, não precisanis fazer essas contas e verificar o tamanho da lista; há esse recurso que você pode utilizar para agilizar o seu trabalho.

In [55]:
new_dados_csv[-1]

{'Nome do Produto': 'Sombra de olhos',
 'Categoria do Produto': 'Eletrônicos',
 'Preço do Produto (R$)': '41.73',
 'Quantidade em Estoque': '5',
 'Filial': 'Filial 6',
 'Data da Venda': '2022-11-21 18:58:06.794203'}

### Conclusão
Realizando esses testes de verificar o comprimento dos nossos dados, quantidade de itens, registros e verificar o primeiro e último registro de cada uma das listas e conferir se eles se mantiveram, podemos concluir que deu certo a união dos dados.

Um ponto de atenção é que, ao unirmos esses dados, juntamos duas listas usando o método extend() do list. Ele é um recurso bem interessante que combina essas listas. Ele se preocupa em saber o que tem em cada um dos dicionários e verificar se esses dados são compatíveis? Não!

Devemos levar isso em conta. O recurso não verificou se os dicionários tinham a mesma quantidade de colunas e de registros. Isso é algo que precisamos ter atenção nos próximos passos.

Já chegamos à etapa de salvar os dados, porque já trouxemos os dados para o notebook, fizemos os tratamentos devidos, e agora podemos salvar esses dados que estão unidos para disponibilizar para o time de BI. Portanto, nosso próximo passo é salvar esses dados. 

## DictWriter

### DictWriter
Voltando a nossa atenção para o notebook, faremos o processo de salvar os dados. O primeiro ponto é determinar onde queremos salvar e qual será o nome desse arquivo. Para isso, podemos criar uma variável que chamaremos de path_dados_combinados, seguindo o padrão que estamos utilizando.

Onde queremos salvar? Vamos indicar que queremos subir uma pasta, lembrando que estamos na pasta de "notebooks" e queremos subir uma. O VS Code nos auxilia e informa que temos as pastas "data_processed", "notebooks", "scripts" e "data_raw", que usamos mais para leitura.

Agora que processamos os dados, fizemos transformações no nome das colunas, combinamos informações, "data_processed" é onde faz sentido salvar. Feito isso, daremos um nome para o arquivo, que será dados_combinados.csv, extensão que queremos deixar esse arquivo. Vamos inserir algumas quebras de linha na sequência.

In [56]:
path_dados_combinados = '../data_processed/dados_combinados.csv'

Como podemos salvar esse arquivo? Vamos utilizar a mesma técnica usada anteriormente. Temos que fazer o with open() para abrir um arquivo. O arquivo será esse que recém criamos, o path_dados_combinados.

Há um detalhe: o modo que fizemos anteriormente foi de leitura, com r, de read. Nesse caso, queremos fazer uma escrita. Então, podemos abrir esse arquivo no modo de escrita, passando um w de write para ele. Depois, podemos usar as file para referenciar o arquivo, e na sequência entramos na etapa de salvar de fato.

Quando quisemos ler um arquivo CSV, utilizamos a biblioteca CSV. Também podemos utilizar essa biblioteca nesse caso. Então, digitaremos csv.. Agora queremos buscar uma funcionalidade de escrita e não de leitura.

Lembrando que nossos dados estão em uma estrutura de lista de dicionários, podemos buscar por uma solução de Dict, assim como fizemos na hora da leitura, em que fizemos um DictReader, uma leitura em um dicionário.

Agora, queremos fazer uma escrita, então DictWriter, e é justamente essa sugestão que aparece no VS Code. Se digitarmos Dict, são exibidas as opções DictReader e DictWriter.

O que o modo escritor precisa? Primeiramente, um arquivo aberto, então vamos usar o file que acabamos de abrir, e precisamos passar uma informação de cabeçalho para ele. Pensando em uma estrutura de CSV, temos na primeira linha o header, o nome das colunas. Ele quer saber qual é o nome dessas colunas.

Nesse caso, o fieldnames será igual ao nome das colunas. Quais serão os nomes das colunas? Podemos salvar isso em uma variável, que vamos chamar de nome_colunas em uma nova célula. Ela será igual aos dados combinados, isto é, combined_list, nome da variável que guarda todos os dados.

Vamos acessar o primeiro registro, então [0], seguido do método keys(), para termos acesso às chaves dos registros. Será retornada a estrutura de DictList, que não é do nosso interesse. Queremos transformar isso em uma lista (list()). Podemos imprimir nomes_colunas na linha abaixo.

In [57]:
nomes_colunas = list(combined_list[0].keys())
nomes_colunas

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial']

In [58]:
path_dados_combinados = '../data_processed/dados_combinados.csv'

with open(path_dados_combinados, 'w') as file:
    writer = csv.DictWriter(file, fieldnames=nomes_colunas)
    writer.writeheader()

    for row in combined_list:
        writer.writerow(row)

ValueError: dict contains fields not in fieldnames: 'Data da Venda'

O resultado aparece rapidamente e foi um erro. O que esse erro diz para nós? Vamos ao final da mensagem e conferimos a última informação que aparece, que é o ValueError que surgiu no nosso caso.

Ele diz que "dict contains fields not in fieldnames: 'Data da Venda'", ou seja, que o dicionário tem campos que não estão dentro dos campos fieldnames. Nesse caso, o campo é "Data da Venda". Isso ocorreu porque, ao construirmos o nosso fieldnames como nomes_colunas, optamos por selecionar apenas as colunas que tínhamos informação.

Então, no CSV temos a data da venda, enquanto no JSON não temos. Então, pegamos o primeiro registro do combined_list, que é um dado vindo do JSON que não tem essa informação. Nosso escritor não soube lidar com isso. Ele tentou acessar, viu que a chave não estava lá e retornou um erro.

Até podemos abrir o Explorador, no canto superior esquerdo, e verificar que apareceu um arquivo CSV (dados_combinados.csv). Então, como esse processo é linha a linha, ele escreveu todos os dados que existiam no JSON, que não tinha esse campo, e na hora que foi escrever o primeiro dado do CSV que tinha o campo data, deu erro. Ele tentou escrever todas as colunas do dicionário e ela não continha, e ele não quis gerar esse CSV inválido.

### Conclusão
Essa é uma questão para nós. Existem outras maneiras de salvar esse arquivo, que conseguiríamos salvar a informação no CSV sem erros. Mas esse erro foi importante, foi um alerta para pensarmos se é dessa maneira que queremos salvar os dados. É assim que queremos tratar a data da venda? Não queremos fornecê-la? Foi um dos campos requisitados pelo time de BI.

Assim, essa decisão cabe a eles. Novamente, é importante discutir isso com o time e entender o que eles querem. Temos algumas opções. Podemos tratar esse campo, preencher esse campo com uma informação indicando que ela está indisponível para metade dos dados. Podemos remover essa coluna.

Também podemos acionar o time da empresa que fez o JSON, a empresa A, e pedir essa informação. Esse processo levará um tempo, pois não sabemos por que eles trouxeram esses dados sem essa informação. Porém, é uma das opções e temos que refletir com o time de analytics para decidir o que vamos fazer.

# Aula 04 - Salvando os Dados

## Coluna indisponível

No nosso projeto para unificar duas bases de dados provenientes de duas empresas diferentes, nós conseguimos avançar significativamente no processo de leitura, transformação e união desses dados. No entanto, na etapa de disponibilização destes, nos deparamos com um erro.

Esse erro ocorreu porque o nosso DictWriter estava buscando alguns campos específicos e encontrou o campo "Data da Venda" que não estava disponível em parte dos nossos dados.

Examinaremos atentamente cada conjunto de dados e entenderemos como um dicionário responde à ausência de uma das suas chaves.

## Tratando a Ausência de Dados

Desta forma, redirecionaremos o foco para o nosso notebook e acessaremos o `combined_list[]`, que é onde os dados estão armazenados.

Vamos acessar o primeiro registro, ou seja, `[0]`.

In [60]:
combined_list[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

Agora, pretendemos acessar o último item. Isso porque sabemos que ele pertence ao arquivo CSV que contém "Data da Venda". Assim, escreveremos o comando abaixo para acessar o último registro.

In [61]:
combined_list[-1]

{'Nome do Produto': 'Sombra de olhos',
 'Categoria do Produto': 'Eletrônicos',
 'Preço do Produto (R$)': '41.73',
 'Quantidade em Estoque': '5',
 'Filial': 'Filial 6',
 'Data da Venda': '2022-11-21 18:58:06.794203'}

Já exploramos anteriormente como é o acesso a um dicionário. Vamos relembrar. Utilizaremos a posição zero do combined_list e tentaremos acessar uma coluna específica, como “Nome do Produto”.

In [62]:
combined_list[0]['Nome do Produto']

'Blush em pó'

Faremos o mesmo processo para o último registro (-1).

In [63]:
combined_list[-1]['Nome do Produto']

'Sombra de olhos'

Tudo está funcionando como esperado.

Mas e quando não temos um campo determinado? Se tentarmos acessar combined_list[0] e procurarmos pelo campo "Data da Venda", ele retornará um erro.

In [64]:
combined_list[-1]['Data da Venda']

'2022-11-21 18:58:06.794203'

In [65]:
combined_list[0]['Data da Venda']

KeyError: 'Data da Venda'

Isso ocorre porque essa chave não existe no dicionário. Esse é o comportamento que gerou o erro quando tentamos escrever nossos dados.

Precisamos tomar uma decisão sobre como tratar esses dados. Após discussões com o time de analytics (análise), concluímos que solicitar esses dados da empresa A seria muito demorado. Nós não queremos esperar tanto tempo.

Por outro lado, perder a informação da "Data da Venda" da empresa B também não é ideal. Eles precisam dessa informação para gerar métricas específicas no seu dashboard.

O que precisamos fazer é tratar a coluna "Data da Venda" para os dados da empresa A, que não tem essa coluna. Nesse sentido, vamos explorar um pouco mais os recursos do dicionário.

O método de usar colchetes para acessar uma chave retorna um erro quando a chave não existe, mas um dicionário contém um método chamado GET que tem um comportamento diferente.

Se copiarmos a última linha combined_list[0]['Data da Venda'] e tentarmos acessar a "Data da Venda" com o método GET, inserindo-o com um .get() que deve envolver o 'Data da Venda', veremos que ele não retorna nada.

In [67]:
combined_list[0].get('Data da Venda')

Para conferir se funcionou, faremos o mesmo processo no último registro, onde sabemos que "Data da Venda" existe, ele retornará a data normalmente.

In [68]:
combined_list[-1].get('Data da Venda')

'2022-11-21 18:58:06.794203'

Isso indica que está funcionando. O que está acontecendo é que ele está retornando um valor nulo quando não encontra a chave. Isso significa que, por padrão, ele não retorna um erro, mas um valor nulo.

Retornar um valor nulo pode ser útil, mas seria melhor se pudéssemos deixar mais evidente em nossos dados quando um valor está ausente. Para isso, o método GET aceita um segundo parâmetro entre seus parênteses, onde podemos informar o valor padrão que ele retornará quando não encontrar a chave buscada.

Vamos usar o termo "Indisponível" como valor padrão: isso porque a informação não está inexistente, mas apenas indisponível no momento, já que a empresa A ainda não o forneceu.

In [69]:
# Acessa o primeiro dicionário na lista combined_list e tenta obter o valor associado à chave 'Data da Venda'
# Se a chave 'Data da Venda' não existir, retorna o valor padrão 'Indisponível'

combined_list[0].get('Data da Venda', 'Indisponível')

# O método get é chamado no dicionário para tentar obter o valor associado à chave 'Data da Venda'. 
# O método get é uma maneira segura de acessar valores em um dicionário, pois ele não lança uma exceção se a chave não existir.

'Indisponível'

Utilizando esse recurso do método GET, poderíamos voltar aos nossos dados que não têm essa coluna e fazer um tratamento neles. Assim, todos os dicionários terão a mesma quantidade de chaves, ou seja, seis.

Nos dados JSON da empresa A que não têm a "Data da Venda", podemos adicionar a chave "Data da Venda" e preenchê-la com o termo "Indisponível". Isso refletirá melhor o que precisamos entregar à nossa clientela.

Logo, faremos mais um tratamento nos dados antes de disponibilizá-los

## Tratamento dos dados

Pensando no último tratamento que precisamos fazer nos dados, queremos fazer uma provocação para repensarmos nossa estrutura de dados. Agora que já exploramos nossos dados e queremos salvá-los em um CSV, talvez a estrutura que escolhemos, uma lista de dicionários, não faça mais sentido.

Podemos optar por uma lista de listas, que é exatamente o formato que será no final, quando geramos um CSV. Vamos aproveitar que estamos fazendo essa transformação, criando uma coluna de data de venda e incluindo a informação disponível, e transformar nossos dados para essa lista de listas.

## Criando uma Lista de Listas
Para começar esse processo, queremos confirmar o nome das colunas, porque isso será nossa primeira linha. Para isso, vamos verificar o valor da variável chamada nomes_colunas.

In [70]:
nomes_colunas

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial']

Ela conta apenas com cinco colunas. Não é isso que queremos. Queremos a data da venda. Então vamos sobrescrever essa variável para receber combined_list para acessar o último valor (-1). Faremos isso porque o último valor são os arquivos CSV, que têm a data da compra.

Queremos pedir as chaves (keys), então adicionaremos um .keys(). Tudo isso tem de ser uma lista, portanto, adicionaremos um list() cujos parênteses envolverão o trecho combined_list[-1].keys(). Abaixo dessa linha, adicionaremos nomes_colunas.

Existe uma maneira mais simples de fazer isso, como, por exemplo, fazer um append() nessa lista? Sim, mas com o comando escolhido, podemos tomar algumas decisões e deixar o código mais dinâmico. Portanto, ao repetir esse processo e aparecer uma coluna nova, se usarmos processos muito manuais, poderá ser prejudicial.

Processos automáticos dão mais trabalho inicialmente, mas tornam o processo mais dinâmico.

Após executar o comando, receberemos o retorno abaixo. A nossa lista recebeu a adição de "Data da Venda" de forma dinâmica. Portanto, quando solicitarmos o último registro dos dados combinamos junto às chaves, ele gerará as seis chaves abaixo.

In [71]:
nomes_colunas = list(combined_list[-1].keys())

nomes_colunas

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial',
 'Data da Venda']

Vamos começar a montar a lista de listas. Vamos criar uma variável que será nossa lista de dados combinados. Vai se chamar dados_combinados_tabela. Por que tabela? Porque o CSV tem o formato de tabela. Enquanto tínhamos uma lista de dicionários, de formato não estruturado, semelhante aos bancos de dados NoSQL, vamos voltar para um formato mais padrão de banco de dados, o SQL, que possui essa estrutura de tabelas.

A primeira linha dessa lista será a variável nomes_colunas. Teremos assim nosso primeiro registro, uma lista dentro de uma lista, que será nomes_colunas.

Pularemos uma linha, e na próxima, precisamos dos dados. Como trazê-los para o nosso dados_combinados_tabela? Vamos utilizar um for, no qual vamos explorar uma linha, então usaremos for row in junto ao local em que os dados estão armazenados: combined_list.

Como se trata de uma lista de listas, neste momento, vamos criar uma nova linha em uma lista chamada linha, que será uma lista vazia.

O que compõe essa linha? Os valores do dicionário. Dado o par chave-valor, estamos interessados apenas nos valores. Abaixo de linha = [], faremos um segundo for para acessar as colunas, que são as keys do dicionário, por meio de um coluna in row, onde row significa "linha".

No row ocorre uma variação, pois algumas linhas que vêm do JSON têm 5 colunas e outras do CSV têm 6 colunas. O row talvez não seja uma informação de confiança para nós. Vamos usar coluna in nomes_colunas, que sabemos que tem as 6 colunas garantidas.

Olhando para cada uma das colunas, queremos adicionar esses dados na linha. Para isso, dentro desse for, faremos um linha.append() que acessará o valor da row. Então, chamaremos row.get(coluna, 'indisponível')), onde row é o dicionário que contém as informações.

O get() tentará recolher o nome da coluna. Se não houver, ou se forem os dados da empresa A, passaremos o valor Indisponível.

Criamos uma nova linha no formato de lista, em vez de um dicionário, então ele vai adicionando cada um dos valores nela. Quando terminar, significa que terminou a linha. Ao terminá-la, podemos adicioná-la à nossa lista maior, ou seja, dados_combinados_tabela. Portanto, desceremos uma linha e acrescentaremos um dados_combinados_tabela.append(linha) fora do for.

In [72]:
dados_combinados_tabela = [nomes_colunas]

for row in combined_list:
    linha = []
    for coluna in nomes_colunas:
        linha.append(row.get(coluna, 'Indisponivel'))
    dados_combinados_tabela.append(linha)

Após adicionar essa linha, reforçaremos o conceito do for. Temos uma lista fora, que não será resetada em nenhum momento, e temos a lista temporária interna do for, que a cada iteração na combined_list vai zerar a linha e começaremos o processo de criá-la novamente.

Vamos rodar a célula acima e, na próxima, dar uma olhada no resultado de dados_combinado_tabela, acessando o primeiro registro.

In [73]:
dados_combinados_tabela[0]

['Nome do Produto',
 'Categoria do Produto',
 'Preço do Produto (R$)',
 'Quantidade em Estoque',
 'Filial',
 'Data da Venda']

O que esperamos do primeiro registro? Pensando que é um CSV, sabemos que na primeira linha temos um header (cabeçalho): o nome das colunas. E foi isso que recebemos.

Destaca-se o fato de termos seis colunas.

In [74]:
dados_combinados_tabela[1]

['Blush em pó', 'Eletrodomésticos', 79.41, 7, 'Filial 7', 'Indisponivel']

No retorno, apareceram o nome do produto, a categoria, o preço, o estoque, a filial e a informação "Indisponível".

Mas será que conseguimos manter as informações que têm a data da venda? Como ele conseguiu tratar isso? Para verificar, colocaremos a posição -1 para acessar o último registro.

In [75]:
dados_combinados_tabela[-1]

['Sombra de olhos',
 'Eletrônicos',
 '41.73',
 '5',
 'Filial 6',
 '2022-11-21 18:58:06.794203']

O retorno trouxe a mesma lista, só que com um formato diferente, com mais dados. o VS Code quebrou os dados em várias linhas, mas manteve as mesmas informações, com destaque à última, que é a data de venda em vez da informação "Indisponível".

In [76]:
dados_combinados_tabela

[['Nome do Produto',
  'Categoria do Produto',
  'Preço do Produto (R$)',
  'Quantidade em Estoque',
  'Filial',
  'Data da Venda'],
 ['Blush em pó', 'Eletrodomésticos', 79.41, 7, 'Filial 7', 'Indisponivel'],
 ['Lápis de sobrancelha',
  'Eletrodomésticos',
  85.47,
  78,
  'Filial 8',
  'Indisponivel'],
 ['Base líquida', 'Roupas', 75.02, 34, 'Filial 8', 'Indisponivel'],
 ['Base líquida', 'Roupas', 44.94, 90, 'Filial 10', 'Indisponivel'],
 ['Lápis de sobrancelha', 'Alimentos', 58.63, 91, 'Filial 7', 'Indisponivel'],
 ['Blush em pó', 'Roupas', 50.79, 77, 'Filial 7', 'Indisponivel'],
 ['Corretivo', 'Eletrodomésticos', 20.46, 2, 'Filial 4', 'Indisponivel'],
 ['Pó compacto', 'Roupas', 85.56, 37, 'Filial 9', 'Indisponivel'],
 ['Sombra de olhos', 'Roupas', 31.92, 56, 'Filial 8', 'Indisponivel'],
 ['Delineador líquido', 'Alimentos', 42.58, 8, 'Filial 3', 'Indisponivel'],
 ['Corretivo', 'Eletrodomésticos', 92.03, 10, 'Filial 8', 'Indisponivel'],
 ['Lápis de sobrancelha', 'Roupas', 91.01, 95, 'F

Conseguimos transformar nossos dados em uma lista de listas, um formato de tabela, que é perfeitamente adequado, já que vamos salvar um CSV. E, principalmente, resolvemos o problema da coluna "Data da Venda", fornecendo suas informações quando existente e colocando a informação "Indisponível" quando não estava disponível. Este é um tratamento melhor do que colocar como nulo.

A seguir, podemos voltar para o estágio de salvar os dados. Mas agora, como temos uma lista de listas, o DictWriter que usamos anteriormente não faz sentido. Portanto, vamos explorar outra ferramenta para salvar esses dados.

## Salvando os dados

Vamos criar uma célula semelhante à que fizemos anteriormente, com a única diferença de que, agora, não vamos efetuar essa escrita usando o DictWriter. Vamos utilizar outra solução do CSV. Primeiro, criamos uma variável para salvar, especificando onde queremos salvar esses dados combinados.

Podemos reutilizar aquela variável, mas vamos reescrever para auxiliar na memorização. path_dados_combinados é igual às aspas simples que abrem uma string, entre as quais teremos dois pontos para subir uma pasta, uma barra, e o caminho data_processed/dados_combinados.csv.

Definido onde queremos salvar esse arquivo, desceremos uma linha e chamamos o open. Portanto, with open().

Entre os parênteses, queremos abrir esse arquivo path_dados_combinados no modo de escrita, portanto adicionaremos path_dados_combinados e um w. Assim sobrescreveremos aqueles dados inválidos que geramos anteriormente, os quais chamaremos de file, adicionando as file e dois pontos à direita dos parênteses.

Na próxima linha, daremos um "Tab" e vamos criar o nosso writer, que vai escrever os nossos dados. Dessa vez, o nosso writer será igual ao csv. Não podemos usar o DictWriter, mas da mesma maneira que o csv tinha um padrão de reader, já esperado para a estrutura de tabela, temos um writer() que vai seguir esse formato padrão.

E o que precisamos passar para ele? O file.

Como vamos utilizar esse writer? Queremos escrever as linhas.

Para quem explorou a diferença entre os parâmetros com s e sem s, no plural e no singular, sabe que, em vez de utilizar um for na próxima linha, podemos utilizar o writer.writerows(), no plural. O que isso faz? Ele itera, internamente, por uma lista que passamos para ele, que serão nossos dados_combinados_tabela.

In [77]:
path_dados_combinados = '../data_processed/dados_combinados.csv'

with open(path_dados_combinados, 'w') as file:
    writer = csv.writer(file)
    writer.writerows(dados_combinados_tabela)

Assim, economizamos essa linha. O processo ainda vai acontecer, ele ocorrerá dentro da biblioteca.

Utilizar e conhecer bibliotecas é um processo muito importante para uma pessoa engenheira de dados, porque existem muitas bibliotecas que vão abstrair processos para nós.

Sabemos como funciona a escrita de um CSV, poderíamos até ir mais a fundo no Python e sair da biblioteca CSV para escrever manualmente dentro de um arquivo, mas isso geraria muito código, que não é o objetivo do nosso projeto. Quem visse nosso código, encontraria uma grande quantidade de informação que não faz sentido para o projeto, no qual só queremos salvar os dados.

Poderíamos implementar algo que não fosse tão eficiente quanto a pessoa que desenvolveu a biblioteca. Portanto, há muitos pontos de vantagem em usar a biblioteca e o Python foi construído em cima disso. Temos bibliotecas para fazer tudo o que nós podemos imaginar.

Por que mostrar esse processo mais manual? Porque é muito importante entender como funciona. A implementação que foi feita no CSV pode ser mais eficiente do que a nossa. Mas, para o quadro geral, nós podemos encontrar situações específicas que demandarão uma maneira diferente de salvar os dados em CSV, por exemplo.

Ao longo desse projeto, vimos que nossos dados eram poucos e a memória RAM dava conta no processamento dentro do Jupyter Notebook. Mas e se tivéssemos muitos dados? A maneira de lidar e ler esses dados seria diferente. Talvez precisássemos de outras bibliotecas.

Para nós entendermos que precisamos mudar de uma biblioteca para outra, nós precisamos entender como as coisas funcionam. Por isso, às vezes, fazemos um processo mais verboso, ou seja, com mais código. Isso serve para nos ajudar a entender e solidificar esse fundamento, que é justamente a proposta desse projeto.

Estamos animados para ver se vamos conseguir salvar os dados dessa vez. Então, vamos rodar esse código. Ele não gerou nenhum erro e podemos abrir nosso CSV e entender se ele está do jeito que esperávamos. Na lateral esquerda, acessaremos o explorador. Dentro da pasta "data_processed", acessaremos o arquivo dados_combinados.csv. Podemos fechar o explorador e analisar esse CSV.

Se olharmos para o início do nosso arquivo, na primeira linha, temos um header (cabeçalho) com o nome das nossas colunas. Observaremos que temos todas as seis colunas. Já no primeiro registro, podemos ver que temos seis valores, sendo o último "Indisponível".

E para as situações em que tínhamos esses dados? Se olharmos para o final desse arquivo, veremos a data registrada na última linha.

Portanto, esse CSV está representando exatamente o que tínhamos, o formato lista por lista. Agora, podemos entregar esses dados para o time de Analytics BI, que vai construir o dashboard para o mês atual da empresa e analisar os dados dessa fusão.

Mas, agora, surge uma questão. Essa demanda vai reaparecer. Novos relatórios precisarão ser feitos para os meses seguintes. Como iremos fornecer esses dados para o time de BI? Não temos esses dados ainda. Eles não foram fornecidos pela Empresa A e Empresa B. Eles não disponibilizaram esse CSV ou JSON para trabalharmos. Portanto, essa demanda vai ficar em hold (aguardo) até recebermos esses dados.

Durante esse tempo, podemos não estar disponíveis para essa tarefa e outra pessoa pode assumir essa responsabilidade. Essa pessoa terá acesso a esse nosso notebook de exploração. E ela saberá que esse notebook atendeu às demandas do arquivo do mês passado.

Será que esse código está fácil de entender? É possível entender como ele funciona? Há muitas etapas de exploração. É exatamente isso que o nome do notebook sugere.

Nele, temos explorado os dados e há células que causam erros. Portanto, se a pessoa tentar apenas alterar o nome do arquivo e executar tudo, ela receberá erros. Ela não entenderá o que está acontecendo ali, será muito trabalhoso e podemos não estar disponíveis para explicar isso a ela.

É possível concluir que esse formato em que finalizamos nosso pipeline de dados não é um pipeline de dados ainda. Não conseguimos entregar isso e deixar rodando, seja automaticamente, seja por meio de outra pessoa. Até mesmo sendo executado por nós daqui a alguns dias, já não lembraremos exatamente como funcionou esse processo.

Ele não está documentado e nossas células não têm comentários nos códigos. Por isso, não conseguimos estabelecer um processo que será reproduzível para outros meses.

No próximo mês, quando precisarmos combinar esses dados novamente, provavelmente não conseguiremos fazer isso de maneira simples. É isso que devemos pensar agora. Queremos, de fato, transformar esse notebook de exploração em uma solução, em um pipeline de dados para esse problema que estamos resolvendo.

A seguir, vamos voltar analisando e refatorando esse código para entregar, de fato, um pipeline de dados.

# Aula 05 - Criando Funções

## Leitura dos Dados

No projeto de unificar duas bases de dados de duas empresas diferentes, nós conseguimos atender a essa demanda. Pegamos os dados da empresa A, que estavam no formato JSON, e os da empresa B, formatados em CSV, e consolidamos em um só arquivo CSV, que já foi disponibilizado para a equipe de BI trabalhar e criar um relatório para as lideranças.

No entanto, como faremos no mês seguinte? Como os relatórios são mensais, essa necessidade de unir as bases de dados das duas empresas vai aparecer com uma recorrência. Ao pegar essa demanda no mês seguinte e olhar para o notebook de exploração, você vai provavelmente encontrar dificuldades para entender como nós resolvemos esse problema e como trabalhamos esse pipeline de dados.

A primeira questão é que o notebook não está bem documentado, ou seja, não temos comentários sobre as ações que estamos realizando. Isso pode ser resolvido. Temos também questões exploratórias. Nós tomamos decisões com base no arquivo. Quando não deu certo, tentamos de outra, e mantivemos todas essas etapas no notebook.

Por isso, como produto final, o notebook de exploração não está funcionando da melhor maneira. Mesmo quem criou o notebook pode pegar essa demanda no próximo mês e não lembrar exatamente como ele funciona. Isso significa um gasto de muito tempo para compreender o seu funcionamento. Talvez fosse mais vantajoso começar o projeto do zero.

As pessoas da equipe, que podem acabar pegando essa demanda também podem ter dificuldades em entender esse projeto. Por isso, nosso objetivo agora é refatorar esse código para que de fato se torne um pipeline de dados no qual a pessoa consiga focar apenas no resultado que está buscando.

Ela sabe onde estão os arquivos que precisa unir e onde quer salvar esses arquivos. Ela quer algum relatório informando a quantidade de dados para saber se a unificação ocorreu corretamente, mas a etapa de exploração não é de interesse de quem está usando o pipeline de dados. Portanto, precisamos refatorar.

E o primeiro passo para refatorar esse código é sair do Jupyter Notebook, que funciona muito bem para a etapa de exploração, mas que já cumpriu o seu papel. Agora vamos migrar para um Script Python.

Voltando nossa atenção para o VS Code, abriremos a aba de Explorador na lateral esquerda, vamos focar na pasta do nosso arquivo, chamada Pipeline de Dados, e nós já sabíamos que o projeto teria essa nova complexidade, então já temos a pasta de scripts criada quando iniciamos o projeto.

Clicaremos com o botão direito sobre a pasta "scripts", selecionando "Novo Arquivo", e aqui vamos criar nosso script. Esse script é focado na demanda atual. Portanto, vamos nomeá-lo começando pela palavra "Fusão". É um projeto interno da empresa, a fusão das duas empresas, então Fusão descreve bem o que está acontecendo.

Em seguida, acrescentaremos "mercado", seguido de uma menção ao mês. O nome do scrip será "fusao_mercado_fev.py". Esse será o nome do nosso script para a demanda de fevereiro. Ele unirá os dados da empresa A e da empresa B e gerará novos dados.

Pressionaremos a tecla "Enter" para confirmar o nome e pressionaremos a tecla "Ctrl + P" para reduzir o Explorador. Agora, como começamos a trabalhar nesse arquivo? Primeiro, iremos até o começo do projeto, no arquivo "exploracao.ipynb", onde fizemos a leitura dos nossos dados. Esse é o ponto do projeto em que queremos focar agora.

A primeira leitura que fizemos foi a do JSON e ficamos satisfeitos com o resultado. Ela envolvia três passos: fazer a importação do JSON, usar o with open() e salvar os dados JSON com o .load().

Vamos copiar o código import json para o nosso script. Agora, temos acesso à biblioteca JSON, que estamos utilizando no projeto. O próximo passo é copiar with open(). E ele já até sinalizou aqui que eu esqueci de uma parte, eu esqueci do path JSON. Onde está o nosso arquivo? Definimos isso no início. Temos uma variável que indica onde está o arquivo.