# Pipeline de dados: combinando Python e orientação a objeto

In [1]:
# Importando as bibliotecas necessárias

import pandas as pd

# Lendo os dados

In [2]:
# Definindo o caminho para o arquivo JSON

path_json = '../data_raw/dados_empresaA.json'

In [3]:
# Abre o arquivo JSON no modo de leitura ('r').
with open(path_json, 'r') as file: 
    # Lê a primeira linha do arquivo e imprime no console
    print(file.readline())

[{"Nome do Produto":"Blush em p\u00f3","Categoria do Produto":"Eletrodom\u00e9sticos","Pre\u00e7o do Produto (R$)":79.41,"Quantidade em Estoque":7,"Filial":"Filial 7"},



Explicação dos Comentários:

1 - Abre o arquivo JSON no modo de leitura ('r'): 

    A declaração with open(path_json, 'r') as file: abre o arquivo especificado pela variável path_json no modo de leitura. O uso da declaração with garante que o arquivo será corretamente fechado após a execução do bloco de código, mesmo que ocorra uma exceção.

2 - Lê a primeira linha do arquivo e imprime no console: 

    A função file.readline() lê a primeira linha do arquivo e a função print imprime essa linha no console. Se o arquivo estiver vazio, readline retornará uma string vazia.

# Lendo dados com readline

In [4]:
# Abre o arquivo JSON no modo de leitura ('r').
with open(path_json, 'r') as file: 
# Cria a variavel dados e lê a primeira linha do arquivo.
    dados = file.readline()

In [5]:
type(dados)

str

### Selecionando dados específicos

In [6]:
dados[1]

'{'

In [7]:
dados[11]

'P'

Conclusão:

Precisamos encontrar uma maneira de identificar as linhas dos nossos dados. Cada linha representa um registro e as nossas colunas. Precisamos que a nossa leitura seja capaz de identificar esses dois pontos principais de linhas e colunas e também que traduza isso em uma estrutura que faça sentido, que não seja o tipo de dado string.

# Lendo dados com JSON

O principal objetivo deste projeto é combinar os arquivos da empresa A com os da empresa B e disponibilizar esse arquivo unido para a equipe de análise. Mas não apenas isso, nós precisamos fornecer uma solução que seja reproduzível para os meses seguintes.

Pensando nisso, já construímos uma estrutura de pastas que obedece às diretrizes de um bom desenvolvimento e engenharia de software, princípios estes que precisam ser implementados em nosso pipeline.

Outra característica que implementamos foi a criação de um ambiente virtual Python, isolando todas as nossas instalações e versões do restante da máquina. Dessa forma, todas as pessoas envolvidas no projeto terão as mesmas estruturas e características, permitindo um trabalho em conjunto e eficiente.

Nosso primeiro passo, ao lidar com esses dados, foi criar um notebook onde realizamos a leitura desses dados e os exibimos na tela. Identificamos que a leitura desses dados, da maneira padrão usando a biblioteca Open e o método readline(), estava retornando esses dados em formato de string, um formato legível, mas que não permite manipulação. Essa leitura não leva em consideração as quebras de linha, onde identificamos cada um dos registros desses dados, nem as colunas. Portanto, manipular esses dados seria bem difícil.

Para melhorar a leitura e construir uma estrutura que faça mais sentido para os nossos dados, vamos importar uma biblioteca específica para essa situação, a biblioteca JSON. Essa biblioteca já vem por padrão no Python e só precisamos importá-la para o nosso notebook.

In [8]:
import json

A leitura ainda precisará do Open, então podemos selecionar a última vez que o utilizamos.

Vamos relembrar: if open path_json, 'r') as file:. Essa é a função responsável por ler nosso arquivo. Para identificar a estrutura, vamos utilizar o JSON, então podemos digitar json.load(). Essa é a função do JSON que será capaz de identificar os padrões no nosso arquivo.

Ele espera receber o arquivo aberto, ou seja, podemos colocar o parâmetro file entre parênteses. Agora, onde queremos que a leitura salve essas informações? Podemos criar uma variável chamada dados_json igual a json.load(file).

In [9]:
# Abre o arquivo JSON no modo de leitura ('r')
with open(path_json, 'r') as file:
    # Carrega o conteúdo do arquivo JSON em um objeto Python (geralmente um dicionário)
    dados_json = json.load(file)

Para verificar o resultado, na célula abaixo, podemos digitar dados_json[0]. Esse seletor de colchetes [] é comum no Python e usamos isso em listas quando queremos acessar o primeiro registro.

Ao executar, obtemos nossos dados com uma estrutura bem interessante.

In [15]:
dados_json[0]

{'Nome do Produto': 'Blush em pó',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 79.41,
 'Quantidade em Estoque': 7,
 'Filial': 'Filial 7'}

In [18]:
dados_json[1]

{'Nome do Produto': 'Lápis de sobrancelha',
 'Categoria do Produto': 'Eletrodomésticos',
 'Preço do Produto (R$)': 85.47,
 'Quantidade em Estoque': 78,
 'Filial': 'Filial 8'}

In [12]:
type(dados_json)

list

In [17]:
type(dados_json[0])

dict